Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Transformer 是广义模型与高效算法：通过结构化状态空间对偶实现

虽然 Transformer 是深度学习在语言建模成功的主要架构，但诸如 Mamba 之类的状态空间模型 (State-Space Models, SSM) 最近已被证明在小到中等规模上能够匹敌甚至超过 Transformer。我们展示了这些模型家族实际上关系非常紧密，并开发了一个丰富的理论框架，通过对一类研究良好的结构化半可分解矩阵进行各种分解，将 SSM 与注意力变体联系起来。我们的状态空间对偶 (State Space Duality, SSD) 框架使我们能够设计出一种新架构 (Mamba-2)，其核心层是对 Mamba 选择性 SSM 的改进，使速度提高了 2-8 倍，同时在语言建模方面继续与 Transformer 竞争。

MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

MMLU-Pro: 更加健壮且更具挑战性的多任务语言理解基准测试

在大规模语言模型的时代，诸如大规模多任务语言理解 (Massive Multitask Language Understanding, MMLU) 之类的基准在推动 AI 在跨越不同领域的语言理解和推理方面的能力方面起到了关键作用。然而，随着模型的不断改进，它们在这些基准上的表现已经开始趋于平稳，使得区分模型能力的差异变得越来越困难。本文介绍了 MMLU-Pro，一个增强的数据集，旨在通过整合更多具有挑战性的推理题目并将选项集从四个扩展到十个来扩展主要依赖知识驱动的 MMLU 基准。此外，MMLU-Pro 消除了 MMLU 中的琐碎和噪音题目。我们的实验结果表明，与 MMLU 相比，MMLU-Pro 不仅提高了挑战性，使准确率显著下降了 16% 到 33%，而且在不同提示下表现出更大的稳定性。测试了 24 种不同的提示样式，模型分数对提示变化的敏感性从 MMLU 的 4-5% 降低到 MMLU-Pro 的仅 2%。此外，我们发现，使用 Chain of Thought (CoT) 推理的模型在 MMLU-Pro 上的表现优于直接回答模型，这与原始 MMLU 上的发现形成鲜明对比，表明 MMLU-Pro 包含更多复杂的推理题目。我们的评估证实，MMLU-Pro 是一个更具辨别力的基准，可以更好地跟踪该领域的进展。

Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback

展示而非讲述：通过演示反馈对齐语言模型

语言模型往往会模拟集体声音，导致输出不特定符合任何一个人的观点。虽然可以通过监督微调或RLHF将大语言模型引导至特定输出，但这对于新任务来说需要过于庞大的数据集。我们认为，通过利用少量（<10）的演示作为反馈，可以将大语言模型对齐到特定情境。我们的方法，演示迭代任务优化 (Demonstration Iterated Task Optimization，简称DITTO)，能够直接对齐语言模型的输出到用户展示的行为。DITTO借鉴在线模仿学习的理念，通过将用户的演示视为优于大语言模型及其中间检查点的输出，廉价地生成在线比较数据。我们评估了DITTO在新闻文章、电子邮件和博客文章等领域学习细粒度风格和任务对齐的能力。此外，我们进行了一项用户研究，邀请了16名参与者提供演示。在我们的基准测试和用户研究中，我们发现DITTO的表现优于少样本提示、监督微调和其他自我对抗方法，平均获胜率高出19个百分点。DITTO通过直接使用演示作为反馈，提供了一种有效定制大语言模型的新方法。

Seed-TTS: A Family of High-Quality Versatile Speech Generation Models

Seed-TTS: 高质量多功能语音生成模型家族

我们介绍了Seed-TTS，这是一系列大规模自回归文本到语音(TTS)模型，能够生成几乎无法与人类语音区分的语音。Seed-TTS作为语音生成的基础模型，并在语音上下文学习中表现优异，在说话者相似度和自然度的客观和主观评估中均与真实人类语音相匹敌。通过微调，我们在这些指标上取得了更高的主观评分。Seed-TTS在情感等各种语音属性上提供了卓越的可控性，并能够为不同场景下的说话者生成高度富有表现力和多样化的语音。此外，我们提出了一种自蒸馏方法用于语音分解，以及一种增强模型鲁棒性、说话者相似度和可控性的强化学习方法。我们还提出了Seed-TTS模型的非自回归(NAR)变体，名为Seed-TTS_DiT，采用完全基于扩散的架构。与以前的NAR TTS系统不同，Seed-TTS_DiT不依赖于预估的音素持续时间，并通过端到端处理进行语音生成。我们证明了这种变体在性能上与基于语言模型的变体相当，并展示了其在语音编辑中的有效性。我们鼓励读者在https://bytedancespeech.github.io/seedtts_tech_report 上收听演示。

Block Transformer: Global-to-Local Language Modeling for Fast Inference

Block Transformer: 快速推理的全局到局部语言建模

本文介绍了Block Transformer架构，该架构采用分层的全局到局部建模来优化自回归Transformer的推理性能，以解决自注意力机制的推理瓶颈问题。在每个解码步骤中，自注意力机制需要从内存中检索所有先前序列的键值(KV)缓存，这使得KV缓存的输入输出成为批量推理中的主要瓶颈。我们发现，这些瓶颈源于在全局上下文中应用自注意力，因此我们将全局建模的高成本瓶颈隔离到较低层，并在上层采用快速的局部建模。为了解决较低层的成本问题，我们将输入的Token聚合为固定大小的块，然后在这些块上应用自注意力。上下文信息被整合到一个单一的嵌入中，使上层能够在没有全局注意力的情况下解码下一个Token块。摆脱全局注意力瓶颈后，上层可以充分利用计算硬件，最大化推理效率。通过结合全局和局部模块，Block Transformer架构在推理吞吐量方面比传统Transformer模型提高了10到20倍，同时保持相同的困惑度。我们的工作通过全新的全局到局部建模方法，为优化语言模型推理提供了一种新路径。代码可在https://github.com/itsnamgyu/block-transformer获得。

Parrot: Multilingual Visual Instruction Tuning

https://arxiv.org/abs/2406.02539

多模态大语言模型(MLLMs)如GPT-4V的快速发展标志着向通用人工智能迈出了重要一步。现有的方法主要通过监督微调(SFT)将视觉编码器与大语言模型对齐，赋予模型多模态能力。然而，随着训练的深入，MLLMs处理多语言的能力逐渐减弱。我们实验证明，不平衡的SFT数据集主要由英语为主的图文对组成，导致非英语语言的性能显著降低。这是因为在SFT过程中未能将视觉编码器与多语言Token对齐。为此，我们提出了Parrot，一种利用文本指导来驱动视觉Token在语言层面对齐的新方法。Parrot使视觉Token能够响应多种语言输入，并通过专家混合(MoE)机制来促进多语言Token的对齐。具体而言，为了增强非英语视觉Token的对齐，我们使用初始视觉特征和文本嵌入计算交叉注意力，然后将结果输入MoE路由器，选择最相关的专家。选定的专家将初始视觉Token转换为特定语言的视觉Token。此外，考虑到目前缺乏用于评估该领域多语言能力的基准测试，我们收集并发布了一个名为MMMB的大规模多语言多模态基准测试，包含6种语言、15个类别和12,000个问题。我们的方法不仅在多语言MMBench和MMMB上展示了最先进的性能，还在各种多模态任务中表现出色。Parrot的源代码和训练数据集将公开发布。

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

Mobile-Agent-v2：通过多智能体协作实现高效导航的移动设备操作助手

移动设备操作任务日益成为流行的多模态AI应用场景。受限于训练数据，现有的多模态大语言模型(MLLMs)无法高效地作为操作助手发挥作用。相反，通过工具调用增强能力的MLLM智能体逐渐被应用于此场景。然而，在现有的单智能体架构下，移动设备操作任务中的两大导航挑战，即任务进度导航和焦点内容导航，显得尤为复杂。这是由于过长的Token序列和交错的文本-图像数据格式，限制了性能。为了解决这些导航挑战，我们提出了Mobile-Agent-v2，一种用于移动设备操作辅助的多智能体架构。该架构包括三个智能体：规划智能体、决策智能体和反思智能体。规划智能体负责生成任务进度，使历史操作导航更加高效。为了保持焦点内容，我们设计了一个随任务进度更新的记忆单元。此外，反思智能体通过观察每次操作的结果，纠正错误操作。实验结果表明，与单智能体架构的Mobile-Agent相比，Mobile-Agent-v2在任务完成率上提高了超过30%。代码已在https://github.com/X-PLUG/MobileAgent开源。

ShareGPT4Video: Improving Video Understanding and Generation with Better Captions

ShareGPT4Video：通过改进字幕提升视频理解和生成

我们介绍了ShareGPT4Video系列，旨在通过密集和精确的字幕提升大视频语言模型(LVLMs)的视频理解和文本到视频模型(T2VMs)的视频生成。该系列包括：1）ShareGPT4Video，包含40K个由GPT4V注释的不同长度和来源的视频的密集字幕，通过精心设计的数据筛选和注释策略开发。2）ShareCaptioner-Video，一个高效且功能强大的任意视频字幕生成模型，已为480万高质量美学视频生成字幕。3）ShareGPT4Video-8B，一个简单但卓越的LVLM，在三个先进的视频基准测试中达到了SOTA性能。为了实现这一目标，我们发现，使用GPT4V为视频提供字幕的简单多帧或帧拼接输入策略导致的结果不够详细，有时在时间上存在混乱。我们认为，高质量视频字幕策略的设计面临三个挑战：1）帧间精确的时间变化理解；2）帧内详细内容描述；3）任意长度视频的帧数可扩展性。为此，我们精心设计了一种差分视频字幕策略，该策略稳定、可扩展且高效，适用于生成任意分辨率、宽高比和长度的视频字幕。在此基础上，我们构建了ShareGPT4Video，包含4万个高质量视频，涵盖广泛的类别，其字幕结果包含丰富的世界知识、对象属性、相机运动，尤其是详细和精确的事件时间描述。在ShareGPT4Video的基础上，我们进一步开发了ShareCaptioner-Video，一个卓越的字幕生成器，能够高效地为任意视频生成高质量字幕…

BitsFusion: 1.99 bits Weight Quantization of Diffusion Model

BitsFusion：扩散模型的1.99比特权重量化

基于扩散的图像生成模型近年来取得了巨大成功，展现了合成高质量内容的能力。然而，这些模型包含大量参数，导致模型体积显著增大。保存和传输这些模型成为各种应用，特别是那些运行在资源受限设备上的应用的主要瓶颈。在这项工作中，我们开发了一种新颖的权重量化方法，将Stable Diffusion v1.5的UNet量化到1.99比特，实现了模型体积缩小7.9倍，同时展现出比原模型更好的生成质量。我们的方法包含几项新技术，例如为每层分配最佳比特数、初始化量化模型以提高性能，并改进训练策略以显著减少量化误差。此外，我们在各种基准数据集和人工评估中广泛评估了我们的量化模型，以证明其优越的生成质量。

Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

步骤感知偏好优化：在每个步骤对齐偏好与去噪性能

最近，直接偏好优化(DPO)不仅在对齐大语言模型(LLMs)方面取得了成功，还扩展到了将文本到图像的扩散模型与人类偏好对齐。不同于大多数现有的DPO方法假设所有扩散步骤与最终生成的图像有一致的偏好顺序，我们认为这种假设忽略了每个步骤的去噪性能，偏好标签应该针对每一步的贡献进行调整。为了解决这个限制，我们提出了步骤感知偏好优化(SPO)，这是一种新颖的后训练方法，通过步骤感知偏好模型和逐步重采样器来独立评估和调整每一步的去噪性能，以确保准确的步骤感知监督。具体来说，在每个去噪步骤中，我们从图像池中抽取一组图像，找到合适的赢-输对，最重要的是，随机选择一张图像来初始化下一个去噪步骤。这个逐步重采样过程确保下一对赢-输图像来自同一张图像，使得赢-输比较独立于上一步。为了评估每一步的偏好，我们训练了一个单独的步骤感知偏好模型，该模型可以应用于噪声和干净的图像。我们在Stable Diffusion v1.5和SDXL上的实验表明，SPO在将生成图像与复杂详细的提示对齐和增强美学方面显著优于最新的Diffusion-DPO，同时在训练效率上提高了20倍以上。代码和模型请访问：https://rockeycoss.github.io/spo.github.io/