1 月 2024 - 叶子的技术碎碎念

理解深度学习：第五章损失函数

227

|

0

|

AI,Understanding Deeplearning

8668 字

|

37 分钟

前三章分别介绍了线性回归、浅层神经网络和深度神经网络。这些都属于函数家族，能够实现从输入到输出的映射，其具体的函数取决于模型参数 $\phi$。在训练这些模型时，我们的目标是找到能够为特定任务提供最优输入输出映射的参数。本章将详细阐述“最优映射”的含义。要定义“最优映射”，首先需要一组训练数据集 ${x_i, y_i}$，即输入和输出的配对。损失…

人工智能深度学习

理解深度学习：第四章深度神经网络

159

|

0

|

AI,Understanding Deeplearning

7767 字

|

32 分钟

前面一章我们讨论了只有一个隐藏层的浅层神经网络。本章，我们将转向深度神经网络，这种网络拥有多个隐藏层。无论是浅层还是深层网络，当使用 ReLU (Rectified Linear Unit) 激活函数时，它们都能实现从输入到输出的分段直线式的变换。浅层神经网络的能力随着隐藏单元数量的增加而提升。实际上，如果隐藏单元足够多，这些网络甚至能够模拟高维…

LLM 人工智能深度学习

【转】局部余弦相似度大，全局余弦相似度一定也大吗？

172

|

0

|

AI

1815 字

|

8 分钟

本文转自苏神的博客在分析模型的参数时，有些情况下我们会将模型的所有参数当成一个整体的向量，有些情况下我们则会将不同的参数拆开来看。比如，一个7B大小的LLAMA模型所拥有的70亿参数量，有时候我们会将它当成“一个70亿维的向量”，有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”，最极端的情况下，我们也会将它看成是“七十亿个1维向量”…

人工智能数学深度学习

论文分享：Chain of LoRA

265

|

0

|

论文分享

5234 字

|

20 分钟

Metadata Title: Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning Authors: [[Wenhan Xia]], [[Chengwei Qin]], [[Elad Hazan]] Date: [[2024-01-08]] Ta…

LLM 人工智能深度学习

理解深度学习：第三章浅层神经网络

173

|

0

|

AI,Understanding Deeplearning

7757 字

|

32 分钟

第二章我们学习了使用一维线性回归的监督学习方法，但这种模型只能表示出输入与输出之间简单的线性关系。在这一章里，我们将接触到浅层神经网络。这种网络可以表达分段线性函数，并且能力强大到足以近似任何复杂度的多维输入和输出之间的关系。 3.1 神经网络示例浅层神经网络是带有参数 $\phi$ 的函数 $y = f[x, \phi]$，它将多变量输入 $x…

人工智能深度学习

理解深度学习: 第二章监督学习

169

|

0

|

AI,Understanding Deeplearning

5112 字

|

20 分钟

监督学习模型就是将一个或多个输入转化为一个或多个输出的方式。比如，我们可以将某部二手丰田普锐斯的车龄和行驶里程作为输入，预估的车辆价格则是输出。这个模型其实只是个数学公式；当我们把输入放入这个公式进行计算，我们得到的结果就是所谓的“推理”。这个公式还包含一些参数。改变参数值会改变计算的结果；这个公式其实描述了输入和输出之间所有可能关系的“家族”，…

人工智能深度学习

月度归档： 2024 年 1 月