理解深度学习:第十五章 生成对抗网络
生成对抗网络(GAN)是一种无监督学习模型,其目标是创造出与训练样本集难以区分的新样本。GAN 主要是用来生成新样本的一种机制,它并不建立模型数据的概率分布,因此无法判断一个新数据点是否属于同一分布。 在 GAN 框架中,生成器网络通过将随机噪声映射到输出数据空间来生成样本。若鉴别器网络无法区分生成样本与真实样本,则可认为这些样本是合理的。若鉴别器…
理解深度学习:第十四章 无监督学习
第 2 章至第 9 章详细讲解了监督学习的流程。在这些章节中,我们定义了模型,这些模型能将观测数据 x 映射到输出值 y,并引入了损失函数来衡量这种映射对于训练数据集 ${x_i , y_i }$ 的准确性。随后,我们讨论了如何对这些模型进行拟合及评估其性能。第 10 章到第 13 章则引入了采用参数共享和支持并行计算路径的更为复杂的模型架构。 无…
理解深度学习:第十三章 图神经网络
第10章介绍了卷积网络,它擅长处理规则的数据阵列(如图像)。第12章则讲述了 Transformer,它擅长处理长度可变的序列(如文本)。本章将讨论图神经网络。正如其名,这些神经网络架构专门用于处理图结构(即,由边连接的节点集)。 在处理图数据时,面临三大挑战。首先,图的拓扑结构多变,要设计出既有强大表达能力又能适应这种变化的网络十分困难。其次,图…
理解深度学习:第十二章 Transformers
第10章引入了专门用于处理规则网格数据的卷积网络。这类网络非常适合处理图像,因为图像含有极其庞大的输入变量数目,这使得全连接网络不再适用。卷积网络通过参数共享机制,保证了图像中每一处的局部区域都以类似的方式被处理。 本章将要介绍的是 Transformer。它们最初是为了解决自然语言处理(NLP)的问题而设计的,这类问题的网络输入是一连串表示词汇或…
理解深度学习:第十一章 残差网络
上一章节阐述了随着卷积网络从八层(AlexNet)增加到十八层(VGG)而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而,随着层数的继续增加,网络性能反而开始下降。 本章将介绍残差块的概念。在残差网络中,每一层不是直接对输入进行转换,而是计算一个加性的变更,即残差,以此修改当前的数据表示。这种设计使得我们能够训练更深的网络,但…
每周AI论文速递(240226-240301)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
理解深度学习: 第十章 卷积网络
第 2 至 9 章详细介绍了深度神经网络在监督学习中的应用流程。然而,这部分内容仅涉及了具有单一路径从输入到输出的全连接网络。第 10 至 13 章则转向介绍更为专业化的网络构件,这些构件特征为更稀疏的连接、权重共享以及并行的处理途径。本章着重讲述了卷积层,它主要被用于图像数据的处理。 图像的三个特性指出了专门模型架构的必要性。首先,图像是高维的,…
理解深度学习: 第九章 正则化
第 8 章 描述了如何测量模型的性能,并指出了训练数据与测试数据之间可能存在的显著性能差异。这种差异可能的原因包括:(一)模型只描述了训练数据的统计特征,这些特征并不代表从输入到输出的真实映射关系(即过拟合现象);(二)模型在没有训练样本的区域内行为不受约束,导致预测结果不理想。 本章将讨论正则化技术,一系列旨在减少训练与测试性能之间泛化差距的方法…
每周AI论文速递(240219-240223)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…