MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型

本文针对在移动设备上部署高效的大型语言模型（LLMs）的迫切需求进行研究，这一需求源于云计算成本的上升和延迟问题的日益突出。我们致力于设计参数量少于十亿的高质量LLMs，这是针对移动部署的一种实际选择。与普遍认为数据量和参数量是决定模型质量的关键因素相反，我们的研究强调了在亚十亿规模的LLMs中，模型架构的重要性。通过采用深而窄的架构，结合嵌入共享和分组查询的注意力机制，我们构建了一个强大的基准网络，命名为MobileLLM，该网络在之前的125M/350M最先进模型基础上实现了2.7%/4.3%的显著准确率提升。此外，我们提出了一种即时按块共享权重的方法，该方法不增加模型大小，且只带来微小的延迟开销。这种方法产生的模型，即MobileLLM-LS，在125M/350M配置下，比MobileLLM进一步提高了0.7%/0.8%的准确率。更重要的是，MobileLLM模型家族在与先前的亚十亿参数模型相比较时，在聊天基准测试上显示了显著的性能改进，并在API调用任务中展现了与LLaMA-v2 7B接近的性能，凸显了小型模型针对常见移动设备使用场景的潜力。

Genie: Generative Interactive Environments

Genie: 生成式互动环境

我们介绍Genie，这是首个从未标注的互联网视频中通过无监督学习训练的生成式互动环境。该模型能够根据提示生成一系列通过文本、合成图像、照片甚至草图描述的、可控动作的虚拟世界。作为一个拥有11B参数的基础世界模型，Genie包括一个时空视频Tokenizer、一个自回归动态模型和一个简单可扩展的潜在动作模型。尽管在训练过程中没有使用任何真实动作标签或世界模型文献中通常要求的其他领域特定信息，Genie使用户能够在生成的环境中逐帧地进行操作。此外，所学习的潜在动作空间进一步使得训练代理能够模仿未见视频中的行为成为可能，开启了培养未来通用代理的新路径。

ChatMusician: Understanding and Generating Music Intrinsically with LLM

ChatMusician: 利用LLM本质上理解和创作音乐

尽管大型语言模型（LLMs）在文本生成领域取得了令人印象深刻的成就，我们发现其在音乐——人类的创造性语言方面的应用仍有待拓展。介绍ChatMusician，一款整合了内在音乐理解和创作能力的开源LLM。该模型通过持续预训练并在兼容文本的音乐表示法——ABC记谱法上进行微调，将音乐视作一种“第二语言”。ChatMusician能够仅使用文本Tokenizer来理解和生成音乐，无需依赖任何外部的多模态神经结构或特定的Tokenizer。有趣的是，引入音乐创作能力不仅不会削弱其语言处理能力，反而在MMLU评分上有所提升。我们的模型能够根据文本、和弦、旋律、主题、音乐形式等条件创作出结构完整的全曲，性能超越GPT-4基线。在我们精心设计的大学级音乐理解基准MusicTheoryBench上，ChatMusician在零样本条件下显著超过LLaMA2和GPT-3.5。我们的研究表明，LLMs可以成为音乐的有效压缩工具，但挑战仍然巨大。我们在GitHub上发布了包含4B token的音乐-语言语料库MusicPile、MusicTheoryBench、代码、模型及演示。

Nemotron-4 15B Technical Report

Nemotron-4 15B技术报告

我们推出了Nemotron-4 15B，这是一个由8万亿文本tokens训练出的150亿参数的大型多语言语言模型。Nemotron-4 15B在英语、多语言和编程任务上展现出强大的性能，它在七个下游评估领域中的四个上超越了所有现有同等规模的开放模型，并在剩余领域与领先的开放模型展现出竞争性能。尤其是，Nemotron-4 15B在所有同等规模模型中展现出最佳的多语言处理能力，甚至超过了体量是其四倍的模型和那些专为多语言任务设计的模型。

FuseChat: Knowledge Fusion of Chat Models

FuseChat: 聊天模型的知识融合

尽管从零开始训练大型语言模型（LLMs）能够培养出具有独特能力和强项的模型，但这种方法成本高昂，且可能导致能力重复。一个替代方案是将现有LLMs结合起来，形成一个更强大的LLM，以此减少昂贵的预训练需求。然而，由于LLMs的架构差异，直接融合参数成为一大挑战。近期，FuseLLM提出了知识融合概念，通过轻量级的持续训练，将不同结构LLMs的集体知识转移至目标LLM。本报告扩展了FuseLLM框架的可扩展性和灵活性，实现了聊天LLMs的融合，创造出FuseChat。FuseChat经历两大阶段：首先，通过轻量级微调，将结构和规模各异的源LLMs的知识融合到结构和大小一致的多个目标LLM中；然后，这些目标LLMs在参数空间内合并，我们提出了一种基于微调前后参数矩阵变化比率的新方法来决定合并权重。我们采用三个架构和规模各异的知名聊天LLMs——NH2-Mixtral-8x7B、NH2-Solar-10.7B和OpenChat-3.5-7B，进行验证。实验结果覆盖了多个聊天领域，显示出FuseChat-7B在7B和34B规模的聊天LLMs中具有优越性，甚至超过了GPT-3.5（3月版）并接近Mixtral-8x7B-Instruct。我们的代码、模型权重和数据已在https://github.com/fanqiwan/FuseLLM上公开。

Multi-LoRA Composition for Image Generation

Multi-LoRA组合用于图像生成

LoRA 在文本到图像模型中得到了广泛应用，以精确渲染生成图像中的特定元素，如不同角色或独特风格。然而，现有方法在有效整合多个LoRA时遇到了挑战，尤其是随着需要整合的LoRA数量增加，这限制了复杂图像创作的能力。本文从解码中心视角探讨了多LoRA组合问题。我们介绍了两种无需训练的方法：LoRA切换，它在每个去噪阶段轮换不同的LoRA；和LoRA复合，它同时整合所有LoRA以引导更一致的图像合成。为评估这些方法，我们建立了一个全新的综合测试平台ComposLoRA。它包含480个组合集的多样LoRA类别。通过基于GPT-4V的评估框架，我们的结果清晰地展示了我们的方法在性能上相比现有基线的明显提升，尤其是在组合数量增多时。

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

MegaScale: 将大型语言模型训练扩展到超过10,000个GPU

我们展示了MegaScale的设计、实施及其在超过10,000个GPU规模训练大型语言模型（LLMs）的工程经验。在此规模训练LLMs带来了前所未有的效率和稳定性挑战。我们采取全栈策略，跨模型块与优化器设计、计算与通讯重叠、操作优化、数据流程及网络性能调优的算法和系统组件进行共同设计。鉴于LLM训练作业的漫长，全程维持高效率（即稳定性）在生产中极为重要。许多困难的稳定性问题仅在大规模时显现，深度可观测性是解决这些问题的关键。我们开发了一套诊断工具，深入监控系统组件和事件，识别根本原因，并找到实现容错及缓解延迟的有效方法。MegaScale在训练175B参数LLM模型时，在12,288个GPU上实现了55.2%的模型FLOPs利用率（MFU），比Megatron-LM提高了1.34倍。我们分享了识别和解决故障及延迟的经验，希望这些经验能激发未来LLM系统研究的灵感。

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

StructLM: 向构建结构化知识基础的通用模型迈进

表格、图形和数据库等结构化数据源是普遍存在的知识来源。尽管大型语言模型（LLMs）在处理纯文本上表现出色，但它们在解读和利用结构化数据方面的能力还是有限的。我们的研究显示LLMs在处理结构化数据上有明显不足，例如ChatGPT平均落后于最新技术模型35%。为了提高LLMs在结构化知识基础（SKG）方面的能力，我们开发了一个包含110万示例的全面指导调整数据集。使用这个数据集，我们基于Code-LLaMA架构训练了一系列模型，命名为StructLM，参数范围从7B到34B。StructLM系列在18个评估数据集中的14个上超越了任务特定模型，在7个SKG任务上设立了新的标准。此外，StructLM在6个新的SKG任务上表现出卓越的泛化能力。与预期相反，我们发现模型规模的增加仅带来边际好处，StructLM-34B相比于StructLM-7B只有轻微改进，这表明结构化知识基础仍是一个挑战性任务，需要更多创新设计。

MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

MobiLlama: 向准确且轻量级的全透明GPT迈进

“越大越好”已成为近期大型语言模型（LLMs）发展的主流趋势。然而，LLMs并不适合需要在设备上处理、能效、低内存占用及快速响应的场景。这些需求对于隐私、安全和可持续部署至关重要。本文探索”少即是多”范式，通过设计准确且高效的小型语言模型（SLMs）应对资源受限设备的挑战。我们的主要贡献是引入一个准确、全透明的开源0.5亿参数SLM，名为MobiLlama，专为资源受限计算需求设计，强调减少资源需求的同时提升性能。MobiLlama是一种SLM设计，从较大模型出发，通过精心的参数共享方案减少预训练和部署成本。我们的工作不仅致力于填补开源SLMs的空白，还保证了全透明性，包括完整的训练数据流程、代码、模型权重和超过300个检查点及评估代码在https://github.com/mbzuai-oryx/MobiLlama上可用。

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

1-bit 大语言模型的时代：所有大型语言模型均转向 1.58 位

近期研究如 BitNet，为 1 位大语言模型 (LLMs) 的新纪元铺平了道路。本研究介绍了一种新型 1 位 LLM——BitNet b1.58，其每个参数均为三态（-1, 0, 1）。该模型在复杂度和任务性能上与同等规模和训练量的全精度（例如 FP16 或 BF16）Transformer 大语言模型相媲美，同时在延迟、内存、吞吐量和能耗方面大幅提升成本效率。更重要的是，1.58 位 LLM 为培养既高性能又经济的新一代 LLMs 提供了新的扩展规律和训练配方。此外，它引入了新的计算范式，并为设计专为 1 位 LLMs 优化的硬件开辟了新道路。

EMO: Emote Portrait Alive – Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions

EMO: 通过弱条件下的音频到视频扩散模型，让情感肖像栩栩如生

本研究旨在通过关注音频线索与面部动作之间的动态微妙关系，提高仿真头像视频生成的真实感和表现力。我们发现，传统方法往往无法捕捉人类表情的全谱和面部风格的独特性。为此，我们提出了 EMO，一个利用直接音频到视频合成方法的新框架，免除了对中间 3D 模型或面部关键点的依赖。该方法确保了视频帧之间的无缝过渡和视频整体的身份一致性，生成了极为生动和富有表情的动画。实验结果显示，EMO 不仅能够生成令人信服的口语视频，还能生成多种风格的歌唱视频，在表现力和真实感方面显著优于现有技术。

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Sora: 大视觉模型的背景、技术、挑战与机遇综述

Sora 是 OpenAI 在 2024 年 2 月发布的一款文本到视频生成 AI 模型，旨在根据文本指令生成真实或虚构场景的视频，并展现模拟物理世界的潜力。本文基于公开技术报告和逆向工程，全面审视了 Sora 的发展背景、相关技术、应用领域、当前挑战以及文本到视频 AI 模型的未来发展方向。首先，我们追溯了 Sora 的开发历程，并探讨了构建这一“世界模拟器”的关键技术。随后，详细讨论了 Sora 在电影制作、教育、营销等多个行业的应用及其潜在影响。我们还分析了广泛部署 Sora 需要解决的主要挑战，如确保视频生成的安全性和无偏见性。最后，探讨了 Sora 及视频生成模型的未来，以及该领域进步如何开启人工智能与人类互动的新方式，提升视频创作的效率和创造性。

StarCoder 2 and The Stack v2: The Next Generation

StarCoder 2 与 The Stack v2：下一代编程语言模型

BigCode 项目是一个致力于负责任发展代码大语言模型（Code LLMs）的开放科学合作项目，推出了 StarCoder2。通过与软件遗产（SWH）的合作，我们在其源代码档案的数字公共资源基础上建立了 The Stack v2。结合 SWH 仓库涵盖的 619 种编程语言及其他高质量数据源，如 GitHub 拉取请求、Kaggle 笔记本和代码文档，我们构建了一个训练集，其规模是 StarCoder 第一代数据集的四倍。我们训练了拥有 3B、7B 和 15B 参数的 StarCoder2 模型，覆盖了 3.3 至 4.3 万亿 Token，并在一系列代码 LLM 基准上进行了全面评估。我们的小型模型 StarCoder2-3B 在大部分基准测试中表现优于其他相似规模的模型，甚至超过了 StarCoderBase-15B。我们的大型模型 StarCoder2-15B 不仅显著优于其他同规模模型，还在数学和代码推理测试以及若干低资源语言上超过了体量是其两倍的 CodeLlama-34B。尽管 DeepSeekCoder-33B 在高资源语言的代码完成任务中表现最佳，但 StarCoder2-15B 在多项测试中展现了更优性能。我们以 OpenRAIL 许可发布了模型权重，并通过发布软件遗产持久标识符（SWHIDs）确保了训练数据的完全透明。

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin: 结合门控线性递归与局部注意力，提升语言模型的效率

循环神经网络（RNNs）虽然在处理长序列时推理快速、扩展高效，但训练难度大、扩展性差。我们提出了 Hawk，一种采用门控线性递归的 RNN，以及 Griffin，一种混合模型，融合了门控线性递归和局部注意力机制。Hawk 在下游任务性能上超越了 Mamba，而 Griffin 则在训练所用 Token 数量少于 Llama-2 六倍以上的情况下达到了相同的性能水平。我们还展示了 Griffin 能够处理训练期间未见过的更长序列。在训练期间，我们的模型与 Transformer 在硬件效率上持平，在推理时则展现出更低的延迟和显著更高的吞吐量。我们将 Griffin 扩展至 14B 参数，并阐述了如何有效进行模型分片以实现高效的分布式训练。

Beyond Language Models: Byte Models are Digital World Simulators

超越语言模型：字节模型作为数字世界的模拟器

传统深度学习常忽略字节——数字世界的基本单元，所有形式的信息和操作均通过二进制格式编码和处理。受到自然语言处理中下一 Token 预测成功的启发，我们推出了 bGPT，这是一个通过下一字节预测来模拟数字世界的模型。bGPT 在多种模态上的性能与专业模型不相上下，包括文本、音频和图像，并为预测、模拟和诊断算法或硬件行为开启了新的可能性。它在将符号音乐数据转换为 MIDI 格式的过程中几乎完美，错误率仅为每字节 0.0011 位。此外，bGPT 在模拟 CPU 行为方面展现出卓越能力，执行各类操作的准确率超过 99.99%。通过下一字节预测，像 bGPT 这样的模型能够直接从庞大的二进制数据中学习，有效地模拟数字世界的复杂模式。