年度归档: 2024 年

38 篇文章

理解深度学习:第十三章 图神经网络
第10章介绍了卷积网络,它擅长处理规则的数据阵列(如图像)。第12章则讲述了 Transformer,它擅长处理长度可变的序列(如文本)。本章将讨论图神经网络。正如其名,这些神经网络架构专门用于处理图结构(即,由边连接的节点集)。 在处理图数据时,面临三大挑战。首先,图的拓扑结构多变,要设计出既有强大表达能力又能适应这种变化的网络十分困难。其次,图…
理解深度学习:第十二章 Transformers
第10章引入了专门用于处理规则网格数据的卷积网络。这类网络非常适合处理图像,因为图像含有极其庞大的输入变量数目,这使得全连接网络不再适用。卷积网络通过参数共享机制,保证了图像中每一处的局部区域都以类似的方式被处理。 本章将要介绍的是 Transformer。它们最初是为了解决自然语言处理(NLP)的问题而设计的,这类问题的网络输入是一连串表示词汇或…
理解深度学习:第十一章 残差网络
上一章节阐述了随着卷积网络从八层(AlexNet)增加到十八层(VGG)而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而,随着层数的继续增加,网络性能反而开始下降。 本章将介绍残差块的概念。在残差网络中,每一层不是直接对输入进行转换,而是计算一个加性的变更,即残差,以此修改当前的数据表示。这种设计使得我们能够训练更深的网络,但…
每周AI论文速递(240226-240301)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
理解深度学习: 第十章 卷积网络
第 2 至 9 章详细介绍了深度神经网络在监督学习中的应用流程。然而,这部分内容仅涉及了具有单一路径从输入到输出的全连接网络。第 10 至 13 章则转向介绍更为专业化的网络构件,这些构件特征为更稀疏的连接、权重共享以及并行的处理途径。本章着重讲述了卷积层,它主要被用于图像数据的处理。 图像的三个特性指出了专门模型架构的必要性。首先,图像是高维的,…
理解深度学习: 第九章 正则化
第 8 章 描述了如何测量模型的性能,并指出了训练数据与测试数据之间可能存在的显著性能差异。这种差异可能的原因包括:(一)模型只描述了训练数据的统计特征,这些特征并不代表从输入到输出的真实映射关系(即过拟合现象);(二)模型在没有训练样本的区域内行为不受约束,导致预测结果不理想。 本章将讨论正则化技术,一系列旨在减少训练与测试性能之间泛化差距的方法…
每周AI论文速递(240219-240223)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…
理解深度学习: 第八章 性能评估
前文介绍了神经网络模型、损失函数和训练算法。本章将探讨如何评估训练好的模型性能。对于具备足够容量(即隐藏单元数量)的神经网络模型而言,它们在训练数据上的表现往往是完美无瑕的。但这并不保证模型能够同样出色地适用于新的测试数据。 我们会发现,测试误差主要由三种不同的原因造成,它们各自的影响程度依赖于:(i)任务本身的固有不确定性,(ii)训练数据的量,…
理解深度学习: 第七章 梯度和初始化
第 6 章介绍了迭代优化算法,这是一类用于找到函数最小值的通用算法。在神经网络的背景下,它们用于寻找能够最小化损失函数的参数,使模型能够根据输入准确预测训练数据的输出。基本方法是随机选择一组初始参数,然后逐步进行微小调整,平均而言这些调整会降低损失。每一次的调整都是基于当前参数位置对损失函数梯度的计算结果。 本章将讨论两个神经网络特有的问题。首先,…