月度归档: 2024 年 2 月

6 篇文章

理解深度学习: 第九章 正则化
第 8 章 描述了如何测量模型的性能,并指出了训练数据与测试数据之间可能存在的显著性能差异。这种差异可能的原因包括:(一)模型只描述了训练数据的统计特征,这些特征并不代表从输入到输出的真实映射关系(即过拟合现象);(二)模型在没有训练样本的区域内行为不受约束,导致预测结果不理想。 本章将讨论正则化技术,一系列旨在减少训练与测试性能之间泛化差距的方法…
每周AI论文速递(240219-240223)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…
理解深度学习: 第八章 性能评估
前文介绍了神经网络模型、损失函数和训练算法。本章将探讨如何评估训练好的模型性能。对于具备足够容量(即隐藏单元数量)的神经网络模型而言,它们在训练数据上的表现往往是完美无瑕的。但这并不保证模型能够同样出色地适用于新的测试数据。 我们会发现,测试误差主要由三种不同的原因造成,它们各自的影响程度依赖于:(i)任务本身的固有不确定性,(ii)训练数据的量,…
理解深度学习: 第七章 梯度和初始化
第 6 章介绍了迭代优化算法,这是一类用于找到函数最小值的通用算法。在神经网络的背景下,它们用于寻找能够最小化损失函数的参数,使模型能够根据输入准确预测训练数据的输出。基本方法是随机选择一组初始参数,然后逐步进行微小调整,平均而言这些调整会降低损失。每一次的调整都是基于当前参数位置对损失函数梯度的计算结果。 本章将讨论两个神经网络特有的问题。首先,…
每周AI论文速递(240212-240216)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集:多语言指令微调的公开获取资源 数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(L…
理解深度学习: 第六章 训练模型
第 3 章和第 4 章详细讨论了浅层和深层神经网络,它们构成了分段线性函数族,函数的具体形式由各自的参数确定。第 5 章引入了损失概念 —— 一个反映网络预测与训练集真实值差异的单个数值。 损失与网络参数有关,本章着重于探讨如何确定能使损失最小化的参数值。这个过程称为网络参数的学习,或更通俗地说,是模型的训练或拟合。该过程首先是选取一组初始参数值,…