月度归档: 2024 年 3 月

15 篇文章

理解深度学习:第十二章 Transformers
第10章引入了专门用于处理规则网格数据的卷积网络。这类网络非常适合处理图像,因为图像含有极其庞大的输入变量数目,这使得全连接网络不再适用。卷积网络通过参数共享机制,保证了图像中每一处的局部区域都以类似的方式被处理。 本章将要介绍的是 Transformer。它们最初是为了解决自然语言处理(NLP)的问题而设计的,这类问题的网络输入是一连串表示词汇或…
理解深度学习:第十一章 残差网络
上一章节阐述了随着卷积网络从八层(AlexNet)增加到十八层(VGG)而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而,随着层数的继续增加,网络性能反而开始下降。 本章将介绍残差块的概念。在残差网络中,每一层不是直接对输入进行转换,而是计算一个加性的变更,即残差,以此修改当前的数据表示。这种设计使得我们能够训练更深的网络,但…
每周AI论文速递(240226-240301)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
理解深度学习: 第十章 卷积网络
第 2 至 9 章详细介绍了深度神经网络在监督学习中的应用流程。然而,这部分内容仅涉及了具有单一路径从输入到输出的全连接网络。第 10 至 13 章则转向介绍更为专业化的网络构件,这些构件特征为更稀疏的连接、权重共享以及并行的处理途径。本章着重讲述了卷积层,它主要被用于图像数据的处理。 图像的三个特性指出了专门模型架构的必要性。首先,图像是高维的,…