Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练 我们研究了一种简单方法来开发一个小型基础语言模型 (LM),从一个现有的大型基础 LM 开始:首先从较大的 LM 继承一些 Transformer 块,然后在这个较小的模型上使用一个非常小的子集 (0.…
一文带你了解当前主流PEFT技术
每周AI论文速递(20240408-20240412)
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。 什么是PEFT? 有哪些技术? PEFT的全称叫做 Parameter-Efficie…
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences 直接纳什优化:教授语言模型通过通用偏好自我提升 本文研究如何利用强大神谕的偏好反馈,对大语言模型 (大语言模型) 进行后训练,以帮助模型迭代地自我改进。传统的大语言模…
问答AI模型训练前的必做功课:数据预处理
每周AI论文速递(240401-240405)
每周AI论文速递(240325-240329)
每周AI论文速递(240318-240322)
每周AI论文速递(240311-240315)
每周AI论文速递(240304-240308)
每周AI论文速递(240226-240301)
翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了,主要最近也在学习一些微调上面的知识,平时晚上还需要跑跑代码看看视频啥的,因此也一直没太有空写文章,UDL的翻译整理成PDF的工作都没空整。(虽然实际最近也花了很长时间在打游戏(。・_・。))。又到周末了,再拖着不干点正事我也过意不去了,今天就写点关于最近学习的一些关于微调方面的东西好了,因为我…
Jamba: A Hybrid Transformer-Mamba Language Model Jamba:混合 Transformer-Mamba 语言模型 我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamb…
Can large language models explore in-context? 大语言模型能进行上下文探索吗? 我们研究了当代大语言模型(LLMs)在多大程度上能够进行探索,这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能,不借助训练干预。我们在简单的多臂赌博机(multi-armed bandit)环境中部署L…
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer Uni-SMART: 通用科学的多模态分析研究 Transformer 在科学研究及其应用领域,科学文献分析极为重要,它使研究人员得以在前人的基础上发展自己的工作。然而,科学知识的快速发展导致学术文章数…
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context Gemini 1.5:跨数百万Token实现多模态理解 在本报告中,我们展示了 Gemini 系列最新的模型,Gemini 1.5 Pro,这是一个计算高效的多模态混合专家模型。它能…
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks VisionLLaMA: 视觉任务的统一 LLaMA 接口 大语言模型基于 Transformer 架构构建,主要处理文本输入。其中,LLaMA 是众多开源实现中的佼佼者。那么,相同的 Transformer 能否用于处理 2D 图像呢?…
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…