每周AI论文速递（240930-241004） – 叶子的技术碎碎念

Emu3: Next-Token Prediction is All You Need

尽管下一个 Token 预测被视为通向人工通用智能的有力途径，但在多模态任务中，它一直难以超越扩散模型（如 Stable Diffusion）和组合方法（如 CLIP 与大语言模型的结合）。本文中，我们推出了 Emu3，这是一系列仅通过下一个 Token 预测训练的尖端多模态模型。通过将图像、文本和视频 Token 化为离散空间，我们在多模态序列混合上从头训练了一个单一的 Transformer。Emu3 在生成和感知任务中超越了多个已有的任务特定模型，包括 SDXL 和 LLaVA-1.6 等旗舰模型，同时无需扩散或组合架构。Emu3 还能通过预测视频序列中的下一个 Token 生成高保真视频。我们通过专注于 Token 这一核心，简化了多模态模型的设计，释放了在训练和推理中扩展的巨大潜力。我们的研究结果表明，下一个 Token 预测是构建超越语言的通用多模态智能的有力途径。我们开源了关键技术和模型，以推动这一领域的深入研究。

MIO: A Foundation Model on Multimodal Tokens

MIO: 一个基于多模态 Token 的基础模型

在这篇论文中，我们介绍了 MIO，一种基于多模态 Token 构建的新型基础模型，能够理解和生成语音、文本、图像和视频，并以端到端、自回归的方式实现。尽管大语言模型 (LLMs) 和多模态大语言模型 (MM-LLMs) 通过其多功能性推动了人工通用智能的发展，但它们仍然缺乏真正的任意到任意理解和生成能力。最近，GPT-4o 的发布展示了任意到任意大语言模型在复杂现实任务中的显著潜力，能够实现图像、语音和文本之间的全方位输入和输出。然而，它是闭源的，并且不支持多模态交错序列的生成。为了填补这一空白，我们提出了 MIO，它通过因果多模态建模在四种模态的混合离散 Token 上进行训练。MIO 经历了一个四阶段的训练过程：(1) 对齐预训练，(2) 交错预训练，(3) 语音增强预训练，以及 (4) 在多样化的文本、视觉和语音任务上的综合监督微调。我们的实验结果表明，MIO 在性能上与之前的双模态基线、任意到任意模型基线以及甚至特定模态基线相比，表现出竞争力，并且在某些情况下表现更优。此外，MIO 展示了其任意到任意特性所固有的高级能力，例如交错视频-文本生成、视觉思维链推理、视觉指南生成、指导性图像编辑等。

A Survey on the Honesty of Large Language Models

大语言模型诚实性调查

诚实性是确保大语言模型 (LLMs) 与人类价值观一致的基本原则，要求模型能够明确区分已知与未知信息，并忠实表达其知识。尽管前景乐观，当前的 LLMs 仍存在显著的不诚实行为，如自信地提供错误答案或未能充分表达已知信息。此外，关于 LLMs 诚实性的研究面临诸多挑战，包括诚实性定义的多样性、区分已知与未知知识的困难，以及对相关研究理解的不足。为应对这些问题，我们进行了一项关于 LLMs 诚实性的调查，内容涵盖定义澄清、评估方法及改进策略。同时，我们为未来研究提供了方向，旨在推动这一重要领域的深入探索。

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

MM1.5: 多模态大语言模型微调方法、分析与见解

我们提出了 MM1.5，这是一个新的多模态大语言模型 (MLLMs) 系列，旨在提升文本丰富的图像理解、视觉指称和定位以及多图像推理能力。基于 MM1 架构，MM1.5 采用以数据为中心的模型训练方法，系统研究了在整个模型训练生命周期中不同数据混合的影响。这包括高质量 OCR 数据和合成字幕用于预训练，以及优化的视觉指令微调数据混合用于监督微调。我们的模型参数范围从 1B 到 30B，涵盖了密集型和专家混合 (MoE) 变体，即使在较小规模 (1B 和 3B) 下，精心设计的数据管理和训练策略也能取得强劲性能。此外，我们推出了两个专门变体：MM1.5-Video，专为视频理解设计，以及 MM1.5-UI，专为移动 UI 理解定制。通过广泛实验，我们提供了关于训练过程和决策的详细见解，这些见解指导了我们的最终设计，为未来 MLLM 开发提供了宝贵指导。

Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Ruler: 一种针对大语言模型的模型无关的长度控制方法

大语言模型的指令遵循能力使得人类能够自然地与AI智能体互动。然而，当需要生成特定长度的响应时，大语言模型往往难以满足用户的需求，因为它们在准确感知数值约束方面存在固有的困难。为了探索大语言模型控制生成响应长度的能力，我们提出了目标长度生成任务 (TLG)，并设计了两种度量标准，精确匹配 (PM) 和灵活匹配 (FM)，以评估模型在遵守指定响应长度方面的表现。此外，我们引入了一种新颖的、模型无关的方法，称为 Ruler，该方法采用元长度 Token (MLT) 来增强大语言模型在长度约束指令下的指令遵循能力。具体来说，Ruler 使大语言模型能够根据指令中的长度约束生成指定长度的响应。此外，当长度约束未明确提供时，Ruler 可以自动生成适当的 MLT，展示了出色的多功能性和泛化能力。综合实验表明，Ruler 在目标长度生成任务中对不同大语言模型的有效性，例如，在所有级别上，PM 的平均增益为 27.97，FM 的平均增益为 29.57。此外，我们进行了广泛的消融实验，以进一步证实 Ruler 的功效和泛化能力。我们的代码和数据可在 https://github.com/Geaming2002/Ruler 获取。

Law of the Weakest Link: Cross Capabilities of Large Language Models

最弱环节法则：大语言模型的跨能力

大语言模型 (LLMs) 的发展与评估主要集中在个体能力上。然而，这忽视了实际任务中常需的不同专业能力间的交叉能力，我们称之为跨能力。为系统探索此概念，我们首先定义了七种核心个体能力，并将其配对形成七种常见跨能力，每种能力均由人工构建的分类法支持。基于这些定义，我们引入了 CrossEval，一个包含 1,400 个人工标注提示的基准测试，每种个体和跨能力各有 100 个提示。为确保评估可靠性，我们邀请专家标注者评估 4,200 个模型响应，采集了 8,400 个人类评分，并附有详细解释，作为参考示例。研究结果显示，在静态评估及尝试增强特定能力时，当前 LLMs 始终展示出“最弱环节法则”，即跨能力表现显著受限于最弱部分。具体而言，在来自 17 个模型的 58 个跨能力得分中，38 个得分低于所有个体能力，20 个得分介于强弱之间，但更接近较弱能力。这些结果突显了 LLMs 在跨能力任务中的表现不足，使识别与改进最弱能力成为未来研究优化复杂多维场景性能的关键优先事项。

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices

TPI-LLM: 在低资源边缘设备上高效服务 70B 规模的大语言模型

随着对用户交互数据隐私问题的日益关注，大型模型推理正逐步从云端迁移至边缘设备。然而，边缘设备通常受限于计算能力、内存和带宽，需要多设备协同工作以运行和加速大语言模型推理。尽管流水线并行是当前主流解决方案，但在单用户场景下其效率显著不足；而张量并行则在频繁通信方面面临挑战。本文提出，在低资源设备上，张量并行比流水线并行更为有效，并介绍了一种名为 TPI-LLM 的计算和内存高效的张量并行推理系统，旨在服务 70B 规模模型。TPI-LLM 将敏感原始数据保留在用户设备本地，并引入滑动窗口内存调度器，在推理过程中动态调整层权重，同时通过重叠磁盘 I/O 延迟与计算和通信，使得内存受限设备也能顺畅运行更大规模的模型。我们深入分析了通信瓶颈，发现链路延迟而非带宽成为主要制约因素，因此采用了基于星型的 allreduce 算法。通过在模拟和真实测试平台上进行全面实验，TPI-LLM 在首次 Token 生成时间和 Token 延迟方面，相较于 Accelerate 减少了 80% 以上，相较于 Transformers 和 Galaxy 减少了 90% 以上，同时将 Llama 2-70B 的峰值内存占用降低了 90%，仅需 3.1 GB 内存即可运行 70B 规模模型。

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

RATIONALYST: 预训练过程监督以改进推理

大语言模型生成的推理步骤可能不完整，因为它们模仿了预训练数据中日常交流常见的逻辑跳跃，导致潜在的推理过程往往被隐含（未明确说明）。为解决这一问题，我们提出了 RATIONALYST，这是一种基于对大量从无标签数据中提取的推理过程注释进行预训练的过程监督模型。我们从网络规模的未标记数据集（Pile）和结合了最少人工干预的推理数据集中，提取了 79k 个推理过程。这种针对推理的网络规模预训练，使得 RATIONALYST 能够在多种推理任务中持续泛化，包括数学、常识、科学和逻辑推理。通过从 LLaMa-3-8B 进行微调，RATIONALYST 在 7 个代表性推理基准测试中的推理准确率平均提高了 3.9%。与 GPT-4 等更大规模的验证器以及在匹配训练集上微调的类似大小的模型相比，RATIONALYST 也展现了优越的性能。

From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging

从代码到正确性：通过分层调试解决代码生成的最后瓶颈

尽管大语言模型在代码生成方面取得了显著进展，但生成的代码往往因细微错误而难以通过测试，尤其是在处理复杂问题时，通常需要人工干预。现有的基于大语言模型的调试系统将生成的程序视为整体，无法在多个粒度级别上解决错误，从低级语法错误到高级算法缺陷。本文中，我们引入了多粒度调试器 (MGDebugger)，这是一种通过在不同粒度级别上隔离、识别和解决错误来实现分层代码调试的工具。MGDebugger 将问题代码分解为子函数的分层树结构，每个层次代表特定粒度的错误。在调试过程中，它逐层分析子函数，并以自底向上的方式迭代解决错误。为了有效测试每个子函数，我们提出了一个由大语言模型模拟的 Python 执行器，该执行器跟踪代码执行并监控重要变量状态，以准确地定位错误。大量实验表明，MGDebugger 优于现有调试系统，在 HumanEval 中对种子生成的准确性提高了 18.9%，在 HumanEvalFix 中的修复成功率达到 97.6%。此外，MGDebugger 能够有效修复不同类别和难度级别的错误，展示了其鲁棒性和有效性。

PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation

PHI-S: 无标签多教师蒸馏的分布平衡

各种视觉基础模型各有优劣，通过无标签的异构多教师知识蒸馏（即“聚合模型”）可以进一步提升其性能。我们在此基础上深入研究了教师激活统计数据的影响，特别是损失函数对学生模型质量的影响。我们采用了一套标准的统计归一化技术，以更好地对齐不同分布，并评估其效果。此外，我们还考察了这些技术对下游教师匹配指标的影响，进而引入了哈达玛矩阵。通过这些矩阵，我们展示了其各向同性标准化的特性，即多变量分布的每个维度均使用相同尺度进行标准化。我们将这一技术命名为“PHI标准化”（PHI-S），并通过实验验证了其在所研究方法中能生成最优的学生模型。

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

重访预训练多模态基础模型中的大规模图像-标题数据

多模态模型的最新进展凸显了重写标题对提升性能的重要性，但仍面临诸多挑战。例如，尽管合成标题通常能提供更高质量的图像-文本对齐，但其是否能完全替代AltTexts尚不明确：合成标题在预训练中的作用及其与原始网络爬取的AltTexts的相互作用仍需深入研究。此外，不同多模态基础模型可能对特定标题格式有独特偏好，但目前针对每个模型寻找最佳标题格式的研究仍显不足。

为此，我们提出了一种新颖、可控且可扩展的标题生成管道，旨在为各种多模态模型生成多样化的标题格式。通过以短合成标题 (SSC) 向密集合成标题 (DSC+) 为案例研究，我们系统地探讨了它们在CLIP、多模态大语言模型 (LLM) 和扩散模型等模型中的效果及其与AltTexts的相互作用。

研究结果表明，采用保留合成标题和AltTexts的混合方法，相较于仅使用合成标题，能更有效地提升对齐和性能，且每个模型对特定标题格式表现出不同偏好。这一全面分析为优化标题生成策略提供了宝贵见解，进而推动了多模态基础模型的预训练进程。

Video Instruction Tuning With Synthetic Data

使用合成数据进行视频指令调优

视频大模态模型 (LMM) 的发展因难以从网络获取大量高质量原始数据而受阻。为此，我们提出了一种替代方案，即专门为视频指令跟随任务创建高质量的合成数据集，命名为 LLaVA-Video-178K。该数据集涵盖了详细字幕、开放式问答 (QA) 和多项选择 QA 等关键任务。通过结合现有视觉指令调优数据，在此数据集上训练，我们推出了 LLaVA-Video，一个新型视频 LMM。实验结果显示，LLaVA-Video 在多项视频基准测试中表现优异，充分证明了我们数据集的有效性。我们计划公开数据集、生成流程及模型检查点。

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

Loong: 使用自回归语言模型生成分钟级长视频

生成内容丰富的分钟级长视频既理想又具挑战性。自回归大语言模型 (LLMs) 在自然语言处理领域中，已成功生成连贯且长序列的 Token，但在视频生成方面，自回归 LLM 的应用仍局限于几秒钟的短视频。本文深入分析了自回归 LLM 视频生成器难以生成长视频的原因。基于此，我们提出了 Loong，一种新的自回归 LLM 视频生成器，能够生成分钟级长视频。具体而言，我们将文本 Token 和视频 Token 统一建模为自回归 LLM 的序列，并从头开始训练模型。我们采用了渐进式短至长训练策略，并结合损失重新加权方案，以缓解长视频训练中的损失不平衡问题。此外，我们还研究了视频 Token 重新编码和采样策略等推理方法，以减少推理过程中的误差累积。实验结果表明，Loong 可在 10 秒视频上训练，并根据文本提示生成分钟级长视频。更多样本请访问：https://epiphqny.github.io/Loong-video。

LLaVA-Critic: Learning to Evaluate Multimodal Models

LLaVA-Critic: 首个开源多模态模型评估器

我们推出了 LLaVA-Critic，这是首个开源的大型多模态模型 (LMM)，专门设计用于评估各种多模态任务的性能。LLaVA-Critic 通过使用包含多样化评估标准和场景的高质量指令跟随数据集进行训练。我们的实验表明，该模型在以下两个关键领域表现出色：(1) 作为评判者的 LMM，LLaVA-Critic 能够提供可靠的评估分数，在多个评估基准上与 GPT 模型表现相当甚至超越；(2) 偏好学习，它能够生成偏好学习的奖励信号，从而增强模型的对齐能力。这项工作突显了开源 LMM 在自我评估和批评中的潜力，为未来研究可扩展的超人类对齐反馈机制铺平了道路。