理解深度学习: 第八章 性能评估
前文介绍了神经网络模型、损失函数和训练算法。本章将探讨如何评估训练好的模型性能。对于具备足够容量(即隐藏单元数量)的神经网络模型而言,它们在训练数据上的表现往往是完美无瑕的。但这并不保证模型能够同样出色地适用于新的测试数据。 我们会发现,测试误差主要由三种不同的原因造成,它们各自的影响程度依赖于:(i)任务本身的固有不确定性,(ii)训练数据的量,…
理解深度学习: 第七章 梯度和初始化
第 6 章介绍了迭代优化算法,这是一类用于找到函数最小值的通用算法。在神经网络的背景下,它们用于寻找能够最小化损失函数的参数,使模型能够根据输入准确预测训练数据的输出。基本方法是随机选择一组初始参数,然后逐步进行微小调整,平均而言这些调整会降低损失。每一次的调整都是基于当前参数位置对损失函数梯度的计算结果。 本章将讨论两个神经网络特有的问题。首先,…
每周AI论文速递(240212-240216)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集:多语言指令微调的公开获取资源 数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(L…
理解深度学习: 第六章 训练模型
第 3 章和第 4 章详细讨论了浅层和深层神经网络,它们构成了分段线性函数族,函数的具体形式由各自的参数确定。第 5 章引入了损失概念 —— 一个反映网络预测与训练集真实值差异的单个数值。 损失与网络参数有关,本章着重于探讨如何确定能使损失最小化的参数值。这个过程称为网络参数的学习,或更通俗地说,是模型的训练或拟合。该过程首先是选取一组初始参数值,…
理解深度学习:第五章 损失函数
前三章分别介绍了线性回归、浅层神经网络和深度神经网络。这些都属于函数家族,能够实现从输入到输出的映射,其具体的函数取决于模型参数 $\phi$。在训练这些模型时,我们的目标是找到能够为特定任务提供最优输入输出映射的参数。本章将详细阐述“最优映射”的含义。 要定义“最优映射”,首先需要一组训练数据集 ${x_i, y_i}$,即输入和输出的配对。损失…
理解深度学习:第四章 深度神经网络
前面一章我们讨论了只有一个隐藏层的浅层神经网络。本章,我们将转向深度神经网络,这种网络拥有多个隐藏层。无论是浅层还是深层网络,当使用 ReLU (Rectified Linear Unit) 激活函数时,它们都能实现从输入到输出的分段直线式的变换。 浅层神经网络的能力随着隐藏单元数量的增加而提升。实际上,如果隐藏单元足够多,这些网络甚至能够模拟高维…
【转】局部余弦相似度大,全局余弦相似度一定也大吗?
本文转自苏神的博客 在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”…
理解深度学习:第三章 浅层神经网络
第二章我们学习了使用一维线性回归的监督学习方法,但这种模型只能表示出输入与输出之间简单的线性关系。在这一章里,我们将接触到浅层神经网络。这种网络可以表达分段线性函数,并且能力强大到足以近似任何复杂度的多维输入和输出之间的关系。 3.1 神经网络示例 浅层神经网络是带有参数 $\phi$ 的函数 $y = f[x, \phi]$,它将多变量输入 $x…
理解深度学习: 第二章 监督学习
监督学习模型就是将一个或多个输入转化为一个或多个输出的方式。比如,我们可以将某部二手丰田普锐斯的车龄和行驶里程作为输入,预估的车辆价格则是输出。 这个模型其实只是个数学公式;当我们把输入放入这个公式进行计算,我们得到的结果就是所谓的“推理”。这个公式还包含一些参数。改变参数值会改变计算的结果;这个公式其实描述了输入和输出之间所有可能关系的“家族”,…