叶子的技术碎碎念

理解深度学习：第十四章无监督学习

146

|

0

|

AI,Understanding Deeplearning

3525 字

|

14 分钟

第 2 章至第 9 章详细讲解了监督学习的流程。在这些章节中，我们定义了模型，这些模型能将观测数据 x 映射到输出值 y，并引入了损失函数来衡量这种映射对于训练数据集 ${x_i , y_i }$ 的准确性。随后，我们讨论了如何对这些模型进行拟合及评估其性能。第 10 章到第 13 章则引入了采用参数共享和支持并行计算路径的更为复杂的模型架构。无…

人工智能深度学习

理解深度学习：第十三章图神经网络

119

|

0

|

AI,Understanding Deeplearning

15832 字

|

1 小时

第10章介绍了卷积网络，它擅长处理规则的数据阵列（如图像）。第12章则讲述了 Transformer，它擅长处理长度可变的序列（如文本）。本章将讨论图神经网络。正如其名，这些神经网络架构专门用于处理图结构（即，由边连接的节点集）。在处理图数据时，面临三大挑战。首先，图的拓扑结构多变，要设计出既有强大表达能力又能适应这种变化的网络十分困难。其次，图…

人工智能深度学习

每周AI论文速递（240304-240308）

155

|

0

|

AI,每周AI论文速递

6586 字

|

25 分钟

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks VisionLLaMA: 视觉任务的统一 LLaMA 接口大语言模型基于 Transformer 架构构建，主要处理文本输入。其中，LLaMA 是众多开源实现中的佼佼者。那么，相同的 Transformer 能否用于处理 2D 图像呢？…

人工智能深度学习论文阅读

理解深度学习：第十二章 Transformers

239

|

0

|

AI,Understanding Deeplearning

17631 字

|

1.2 小时

第10章引入了专门用于处理规则网格数据的卷积网络。这类网络非常适合处理图像，因为图像含有极其庞大的输入变量数目，这使得全连接网络不再适用。卷积网络通过参数共享机制，保证了图像中每一处的局部区域都以类似的方式被处理。本章将要介绍的是 Transformer。它们最初是为了解决自然语言处理（NLP）的问题而设计的，这类问题的网络输入是一连串表示词汇或…

人工智能深度学习

理解深度学习：第十一章残差网络

155

|

0

|

AI,Understanding Deeplearning

11890 字

|

46 分钟

上一章节阐述了随着卷积网络从八层（AlexNet）增加到十八层（VGG）而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而，随着层数的继续增加，网络性能反而开始下降。本章将介绍残差块的概念。在残差网络中，每一层不是直接对输入进行转换，而是计算一个加性的变更，即残差，以此修改当前的数据表示。这种设计使得我们能够训练更深的网络，但…

人工智能深度学习论文阅读

每周AI论文速递（240226-240301）

149

|

0

|

AI,每周AI论文速递

4966 字

|

20 分钟

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型本文针对在移动设备上部署高效的大型语言模型（LLMs）的迫切需求进行研究，这一需求源于云计算成本的上升和延迟问题的…

LLM 人工智能深度学习

理解深度学习：第十章卷积网络

142

|

0

|

AI,Understanding Deeplearning

11955 字

|

47 分钟

第 2 至 9 章详细介绍了深度神经网络在监督学习中的应用流程。然而，这部分内容仅涉及了具有单一路径从输入到输出的全连接网络。第 10 至 13 章则转向介绍更为专业化的网络构件，这些构件特征为更稀疏的连接、权重共享以及并行的处理途径。本章着重讲述了卷积层，它主要被用于图像数据的处理。图像的三个特性指出了专门模型架构的必要性。首先，图像是高维的，…

人工智能深度学习

理解深度学习：第九章正则化

191

|

0

|

AI,Understanding Deeplearning

11968 字

|

47 分钟

第 8 章描述了如何测量模型的性能，并指出了训练数据与测试数据之间可能存在的显著性能差异。这种差异可能的原因包括：（一）模型只描述了训练数据的统计特征，这些特征并不代表从输入到输出的真实映射关系（即过拟合现象）；（二）模型在没有训练样本的区域内行为不受约束，导致预测结果不理想。本章将讨论正则化技术，一系列旨在减少训练与测试性能之间泛化差距的方法…

人工智能深度学习

每周AI论文速递（240219-240223）

165

|

0

|

AI,每周AI论文速递

5555 字

|

21 分钟

Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型在自然语言处理领域快速进展之中，发展语言模型（LMs）的次方级别架构至关重要。当前的创新，包括状态空间模型（SSMs…

人工智能论文阅读

理解深度学习：第八章性能评估

158

|

0

|

AI,Understanding Deeplearning

10320 字

|

40 分钟

前文介绍了神经网络模型、损失函数和训练算法。本章将探讨如何评估训练好的模型性能。对于具备足够容量（即隐藏单元数量）的神经网络模型而言，它们在训练数据上的表现往往是完美无瑕的。但这并不保证模型能够同样出色地适用于新的测试数据。我们会发现，测试误差主要由三种不同的原因造成，它们各自的影响程度依赖于：（i）任务本身的固有不确定性，（ii）训练数据的量，…

人工智能深度学习