每周AI论文速递（241007-241011） – 叶子的技术碎碎念

Addition is All You Need for Energy-efficient Language Models

大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中，我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法，该算法通过整数加法操作来近似浮点数乘法。新算法在计算资源消耗上显著低于 8 位浮点乘法，但精度更高。与 8 位浮点乘法相比，所提出的方法在精度上更高，但在位级计算上消耗显著更少。由于浮点数乘法所需的能量远高于整数加法操作，因此在张量处理硬件中应用 L-Mul 操作，通过逐元素浮点张量乘法可以潜在地减少 95% 的能量成本，点积的能量成本可以减少 80%。我们计算了 L-Mul 的理论误差期望，并在广泛的文本、视觉和符号任务中评估了该算法，包括自然语言理解、结构推理、数学和常识问答。我们的数值分析实验与理论误差估计一致，表明具有 4 位尾数的 L-Mul 可以达到与 float8_e4m3 乘法相当的精度，而具有 3 位尾数的 L-Mul 优于 float8_e5m2。在流行基准上的评估结果显示，直接将 L-Mul 应用于注意力机制几乎是无损的。我们进一步展示，在 Transformer 模型中用 3 位尾数的 L-Mul 替换所有浮点乘法，在微调和推理中均能达到与使用 float8_e4m3 作为累加精度相同的精度。

MLP-KAN: Unifying Deep Representation and Function Learning

MLP-KAN: 统一深度表示与函数学习

近期在表示学习和函数学习方面的进展，在人工智能的多个领域取得了显著的进展。然而，这些范式的有效整合带来了重大挑战，特别是在用户必须根据数据集特征手动选择模型的情况下。为了解决这一问题，我们提出了MLP-KAN，一种旨在消除手动模型选择需求的统一方法。通过在混合专家（MoE）架构中整合用于表示学习的多层感知器（MLPs）和用于函数学习的Kolmogorov-Arnold网络（KANs），MLP-KAN能够动态适应手头任务的具体特征，以确保最佳性能。嵌入在基于Transformer的框架中，我们的工作在跨多个领域的四个广泛使用的数据集上取得了显著的成果。广泛的实验评估显示了其卓越的多功能性，在深度表示和函数学习任务中均表现出了竞争力。这些发现突显了MLP-KAN简化模型选择过程的潜力，为各个领域提供了一个全面、适应性强的解决方案。我们的代码和权重可在https://github.com/DLYuanGod/MLP-KAN获取。

Differential Transformer

差分 Transformer

Transformer 往往过度关注不相关的上下文。在本研究中，我们提出了差分 Transformer (Diff Transformer)，它增强了相关上下文的关注度，同时消除了噪声。具体而言，差分注意力机制通过计算两个独立 softmax 注意力图之间的差异来确定注意力分数。这种减法操作消除了噪声，促进了稀疏注意力模式的形成。实验结果显示，在扩展模型规模和训练 Token 的各种设置下，差分 Transformer 在语言建模任务中优于传统 Transformer。更值得注意的是，它在实际应用中展现出显著优势，如长上下文建模、关键信息检索、幻觉缓解、上下文学习以及减少激活异常值。由于较少受到不相关上下文的干扰，差分 Transformer 能够有效缓解问答和文本摘要中的幻觉问题。在上下文学习方面，差分 Transformer 不仅提升了准确性，还对顺序排列表现出更强的鲁棒性，这一直是该领域的长期难题。这些结果表明，差分 Transformer 是一种高效且极具潜力的架构，有望推动大语言模型的发展。

LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

大语言模型知而不显：关于模型幻觉内在表征的研究

大语言模型 (LLMs) 常产生错误，包括事实错误、偏见和推理失败，这些统称为“幻觉”。近期研究显示，LLMs 的内部状态编码了其输出真实性的信息，可用于错误检测。本文表明，LLMs 的内部表征编码了比以往认知更多的真实性信息。首先，我们发现真实性信息集中于特定 Token，利用此特性显著提升错误检测性能。然而，此类检测器跨数据集泛化能力不足，表明真实性编码并非普遍，而是多样的。其次，内部表征还可用于预测模型可能的错误类型，助力定制化缓解策略。最后，我们揭示了 LLMs 内部编码与外部行为间的差异：模型可能编码了正确答案，却持续输出错误答案。这些发现深化了我们对 LLMs 错误的内部视角理解，为未来提升错误分析与缓解提供了指导。

VideoGuide: Improving Video Diffusion Models without Training Through a Teacher’s Guide

VideoGuide: 无需训练通过指导改进视频扩散模型

文本到图像 (T2I) 扩散模型极大地推动了视觉内容创作，但将这些能力扩展到文本到视频 (T2V) 生成仍面临挑战，尤其是时间一致性的保持。现有方法在提高一致性时，常导致图像质量下降和计算时间过长。为此，我们提出 VideoGuide，一种无需额外训练或微调即可增强预训练 T2V 模型时间一致性的新框架。VideoGuide 在推理初期利用任何预训练视频扩散模型 (VDM) 或其自身作为指导，通过将指导模型的去噪样本融入采样模型的去噪过程，提升时间质量。该方法显著提高了时间一致性和图像保真度，提供了一种高效且实用的解决方案，综合了多种视频扩散模型的优势。此外，我们展示了先验蒸馏，表明基础模型可通过利用指导模型通过该方法获得的优质数据先验，实现文本连贯性的增强。项目页面: http://videoguide2025.github.io/

Aria: An Open Multimodal Native Mixture-of-Experts Model

Aria: 一个开放的多模态原生混合专家模型

信息以多种形式呈现。多模态原生 AI 模型对于整合现实世界信息并实现全面理解至关重要。尽管存在专有的多模态原生模型，但其缺乏开放性为采用带来了障碍，更不用说适应性了。为了填补这一空白，我们推出了 Aria，一个在多模态、语言和编码任务中表现卓越的开源多模态原生模型。Aria 是一个混合专家模型，每个视觉 Token 和文本 Token 分别激活 3.9B 和 3.5B 参数。它在各种多模态任务中优于 Pixtral-12B 和 Llama3.2-11B，并在与最佳的专有模型竞争中表现优异。我们遵循一个四阶段的流水线从头开始预训练 Aria，逐步赋予模型在语言理解、多模态理解、长上下文窗口和指令跟随方面的强大能力。我们开源了模型权重以及一个代码库，便于在实际应用中轻松采用和适应 Aria。

GLEE: A Unified Framework and Benchmark for Language-based Economic Environments

GLEE: 一个基于语言的经济环境的统一框架和基准

大语言模型 (LLMs) 在经济和战略交互中展现出巨大的潜力，尤其是在通过自然语言进行沟通的场景中。这引发了一系列关键问题：LLMs 是否能表现出理性？它们能否模仿人类行为？它们是否倾向于达成高效且公平的结果？自然语言在战略交互中扮演何种角色？经济环境的特点如何影响这些动态？这些问题在将基于 LLM 的智能体融入现实世界的数据驱动系统（如在线零售平台和推荐系统）时显得尤为重要，涉及经济和社会层面的深远影响。尽管机器学习社区已经在多智能体设置中探索了 LLMs 的潜力，但由于不同研究中的假设、设计选择和评估标准各异，导致难以得出稳健且有意义的结论。为此，我们引入了一个基准，旨在标准化两玩家、顺序、基于语言的游戏研究。受经济学文献启发，我们定义了三个基本游戏家族，这些游戏具有一致的参数化、自由度和经济指标，用于评估智能体的性能（自我收益）以及游戏结果（效率和公平性）。我们开发了一个开源框架，用于交互模拟和分析，并利用该框架收集了大量游戏配置下 LLM 对 LLM 交互的数据集，以及额外的人类对 LLM 交互的数据集。通过广泛的实验，我们展示了如何利用我们的框架和数据集：(i) 在不同经济背景下比较基于 LLM 的智能体与人类玩家的行为；(ii) 评估智能体在个体和集体绩效指标上的表现；以及 (iii) 量化经济环境特征对智能体行为的影响。

Personalized Visual Instruction Tuning

个性化视觉指令调优

多模态大语言模型 (MLLMs) 的最新进展已显示出显著的进步；然而，这些模型存在一个明显的局限性，我们称之为“面部识别缺失”。具体来说，它们可以进行一般性对话，但无法针对特定个体进行个性化对话。这一缺陷阻碍了 MLLMs 在个性化场景中的应用，例如移动设备上的定制视觉助手，或需要识别家庭成员的家用机器人。在本文中，我们介绍了个性化视觉指令调优 (PVIT)，这是一种新颖的数据处理和训练框架，旨在使 MLLMs 能够识别图像中的目标个体并进行个性化且连贯的对话。我们的方法涉及开发一个复杂的数据处理流程，该流程自动生成包含个性化对话的训练数据。该流程利用了各种视觉专家、图像生成模型和 (多模态) 大语言模型的能力。为了评估 MLLMs 的个性化能力，我们提出了一个名为 P-Bench 的基准，该基准包含各种难度级别的问题类型。实验表明，在使用我们处理的数据集进行微调后，个性化性能显著提升。

Pixtral 12B

Pixtral-12B 是一个拥有 120 亿参数的多模态语言模型。它被训练来理解自然图像和文档，在各种多模态基准测试中取得了领先的表现，超越了许多更大规模的模型。与许多开源模型不同，Pixtral 在其规模上也是一个尖端的文本模型，并且在多模态任务中表现出色，同时不牺牲自然语言性能。 Pixtral 使用了一种新的视觉编码器，从头开始训练，这使得用户在处理图像时可以灵活选择使用的 Token 数量。 Pixtral 还能够在其 128K Token 的长上下文窗口中处理任意数量的图像。 Pixtral 12B 在性能上显著优于其他类似大小的开源模型（如 Llama-3.2 11B 和 Qwen-2-VL 7B）。它还优于更大的开源模型，如 Llama-3.2 90B，同时体积小了 7 倍。进一步贡献了一个开源基准测试，MM-MT-Bench，用于在实际场景中评估视觉-语言模型，并提供了详细的分析和代码，用于多模态大语言模型的标准化评估协议。 Pixtral-12B 在 Apache 2.0 许可证下发布。

Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation

迈向世界模拟器：构建基于物理常识的视频生成基准

Sora 等文本到视频 (T2V) 模型在可视化复杂提示方面取得了显著进展，被视为构建通用世界模拟器的有力途径。认知心理学家认为，理解直观物理是实现这一目标的关键。然而，这些模型在表现直观物理方面的能力尚未得到充分探索。为此，我们推出了 PhyGenBench，这是一个全面的物理生成基准，旨在评估 T2V 生成中的物理常识正确性。PhyGenBench 包含 160 个精心设计的提示，涵盖 27 个不同的物理定律，跨越四个基本领域，全面评估模型对物理常识的理解。此外，我们提出了 PhyGenEval，一种新的评估框架，采用分层结构，利用先进的视觉语言模型和大语言模型来评估物理常识。通过 PhyGenBench 和 PhyGenEval，我们能够对 T2V 模型进行大规模自动化评估，结果与人类反馈高度一致。评估结果显示，当前模型在生成符合物理常识的视频方面仍存在困难。单纯扩大模型规模或采用提示工程技术无法完全应对 PhyGenBench 的挑战（如动态场景）。我们希望这项研究能促使社区在这些模型中优先学习物理常识，超越娱乐应用。数据和代码将在 https://github.com/OpenGVLab/PhyGenBench 发布。

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

IterComp: 基于模型库的迭代组合感知反馈学习用于文本到图像生成

包括 RPG、Stable Diffusion 3 和 FLUX 在内的先进扩散模型在组合文本到图像生成方面取得了显著进展。然而，这些方法在组合生成方面各有千秋，有的擅长处理属性绑定，有的则在空间关系上表现出色。这种差异表明，需要一种能够综合利用各模型优势的方法来全面提升组合能力。为此，我们提出了 IterComp，这是一个新颖的框架，它从多个模型中聚合组合感知模型偏好，并通过迭代反馈学习方法来增强组合生成。

具体而言，我们精选了六个强大的开源扩散模型，并评估了它们的三项关键组合指标：属性绑定、空间关系和非空间关系。基于这些指标，我们构建了一个包含大量图像排名对的组合感知模型偏好数据集，用于训练组合感知奖励模型。随后，我们提出了一种迭代反馈学习方法，以闭环方式增强组合性，使基础扩散模型和奖励模型能够在多次迭代中逐步自我完善。理论证明展示了其有效性，广泛实验显示我们在多类别对象组合和复杂语义对齐方面显著优于之前的 SOTA 方法（如 Omost 和 FLUX）。IterComp 为扩散模型的奖励反馈学习和组合生成开辟了新的研究途径。代码: https://github.com/YangLing0818/IterComp

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

大视觉语言模型中的跨模态对齐与模态整合率解析

我们提出了模态整合率 (MIR)，这是一种有效、稳健且通用的指标，用于指示大视觉语言模型 (LVLM) 的多模态预训练质量。大规模预训练在构建有能力的 LVLM 中起着关键作用，而无需昂贵的监督微调阶段来评估其训练质量的研究尚不充分。损失、困惑度和上下文评估结果通常用作大语言模型 (LLM) 的预训练指标，但我们观察到，当将训练有素的 LLM 与新模态对齐时，这些指标的指示性较弱。由于缺乏适当的指标，LVLM 在关键的预训练阶段的研究受到极大阻碍，包括训练数据选择、高效模块设计等。在本文中，我们提出从模态间分布距离的角度评估预训练质量，并提出 MIR，即模态整合率，它具有以下特点：1) 有效表示预训练质量，并与监督微调后的基准性能呈正相关。2) 对不同的训练/评估数据具有鲁棒性。3) 在不同的训练配置和架构选择中具有通用性。我们进行了一系列预训练实验，以探索 MIR 的有效性，并观察到令人满意的结果，即 MIR 对训练数据选择、训练策略安排和模型架构设计具有指示性，以获得更好的预训练结果。我们希望 MIR 能够成为构建有能力的 LVLM 的有用指标，并激发后续关于不同领域模态对齐的研究。我们的代码位于：https://github.com/shikiw/Modality-Integration-Rate。

Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning

揭示视觉表示学习中的骨干网络-优化器耦合偏差

本文深入探讨了视觉骨干网络与优化器之间的相互作用，揭示了一种称为骨干网络-优化器耦合偏差 (BOCB) 的相互依赖现象。我们观察到，传统的卷积神经网络 (CNN)，如 VGG 和 ResNet，与 SGD 家族表现出明显的依赖关系，而最近的架构，如 ViTs 和 ConvNeXt，则与自适应学习率优化器紧密耦合。我们进一步表明，BOCB 既可以由优化器引入，也可以由某些骨干网络设计引入，并可能显著影响视觉模型的预训练和下游微调。通过深入的实证分析，我们总结了推荐的优化器以及对鲁棒视觉骨干网络架构的见解。我们希望这项工作能够启发社区重新审视长期以来对骨干网络和优化器的假设，激发进一步的探索，从而为构建更鲁棒的视觉系统做出贡献。源代码和模型公开发布在 https://bocb-ai.github.io/。

Pyramidal Flow Matching for Efficient Video Generative Modeling

视频生成需处理庞大的时空数据，这要求大量计算资源和数据。为简化这一过程，现有方法多采用级联架构，避免直接以全分辨率训练。虽然降低了计算负担，但各子阶段的独立优化限制了知识共享，牺牲了灵活性。本文提出一种统一的金字塔流匹配算法，将原始去噪轨迹重构为多级金字塔，仅最终阶段在全分辨率下运行，从而提升视频生成效率。通过精心设计，各金字塔阶段的流可相互衔接，保持连续性。此外，我们利用时间金字塔进行自回归视频生成，压缩全分辨率历史数据。整个框架可端到端优化，并使用单一的扩散Transformer (DiT)。实验表明，我们的方法能在20.7k A100 GPU训练小时内生成高质量的5秒（最长10秒）768p分辨率、24 FPS视频。所有代码和模型将在https://pyramid-flow.github.io开源。

WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

WALL-E: 通过规则学习提升基于世界模型的大语言模型智能体

大语言模型 (LLMs) 能否直接作为基于模型的智能体的强大世界模型？尽管 LLMs 的先验知识与特定环境的动态之间存在差距，但我们的研究表明，这些差距可以通过将 LLM 与其部署环境对齐来解决，这种“世界对齐”可以通过在 LLMs 上进行规则学习来高效实现。鉴于 LLMs 丰富的先验知识，只需少数额外规则即可将 LLM 预测与特定环境的动态对齐。为此，我们提出了一种神经符号方法，通过基于智能体探索轨迹与世界模型预测的比较，无梯度地学习这些规则，包括诱导、更新和修剪规则。生成的世界模型由 LLM 和学习到的规则组成。我们的具身 LLM 智能体 “WALL-E” 基于模型预测控制 (MPC) 构建。通过基于精确世界模型优化前瞻动作，MPC 显著提高了探索和学习效率。与现有 LLM 智能体相比，WALL-E 的推理仅需要少数主要规则，而不是冗长的缓冲轨迹包含在 LLM 输入中。在 Minecraft 和 ALFWorld 的开放世界挑战中，WALL-E 的成功率高于现有方法，并且在重规划时间和用于推理的 Token 数量上成本更低。在 Minecraft 中，WALL-E 的成功率比基线高出 15-30%，同时减少了 8-20 次重规划轮次，仅使用 60-80% 的 Token。在 ALFWorld 中，其成功率在仅 6 次迭代后飙升至新的记录高点 95%。

MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

MathCoder2: 基于模型翻译数学代码的继续预训练提升数学推理

代码因其精确性和准确性，已被证明能有效增强大语言模型的数学推理能力。以往的数学继续预训练工作常涉及使用数学相关包的代码，这些包主要用于工程、机器学习、信号处理或模块测试等领域，而非直接针对数学推理。本文提出了一种生成伴随推理步骤的数学代码的新方法，用于继续预训练。首先，通过整合数学相关网络数据、使用数学包的代码、数学教科书和合成数据，构建高质量的数学继续预训练数据集。接着，从收集的数据集中提取 LaTeX 表达式、所需条件及其结果，构建推理步骤。基于这些信息，生成相应代码，准确捕捉数学推理过程。将生成的代码附加到每个推理步骤后，形成自然语言推理步骤与对应代码的数据对。结合这些数据与原始数据集，形成一个 19.2B Token 的高性能数学预训练语料库，命名为 MathCode-Pile。使用该语料库训练多个流行基础模型，显著提升其数学能力，从而创建 MathCoder2 系列模型。所有数据处理和训练代码已开源，确保了数据收集和训练流程的透明与易复现。代码发布于 https://github.com/mathllm/MathCoder2 。

MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

MLLM 作为检索器：为具身智能体交互学习多模态检索

MLLM 智能体通过检索多模态任务相关轨迹数据，展示了处理复杂具身任务的潜力。然而，当前的检索方法主要集中在轨迹中文本或视觉线索的表面相似性上，忽视了它们对当前任务的有效性。为解决这一问题，我们提出了一种新方法，MLLM 作为检索器 (MART)，通过利用交互数据进行偏好学习微调 MLLM 检索器，从而提升具身智能体的性能，使得检索器能够全面考虑轨迹的有效性，并为未见任务优先处理这些轨迹。我们还引入了轨迹抽象机制，利用 MLLM 的摘要能力，以更少的 Token 表示轨迹，同时保留关键信息，使智能体能够更好地理解轨迹中的关键节点。在各种环境中的实验结果表明，与基线方法相比，我们的方法显著提高了未见场景中的任务成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹有效性，为具身智能体中的多模态检索开辟了新的研究方向。所有基准任务集和动作与观察空间模拟器代码修改将公开发布。

PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

PrefixQuant: 静态量化在大语言模型中通过前缀异常值超越动态量化

量化对于提升大语言模型 (LLMs) 的内存效率和推理速度至关重要。现有激活量化方法主要处理通道维度异常值，常忽略 Token 维度异常值，导致依赖高成本的逐 Token 动态量化。为此，我们提出 PrefixQuant，一种无需重新训练即可离线隔离异常 Token 的新技术。具体而言，PrefixQuant 识别高频异常 Token 并将其前缀化于 KV 缓存中，防止推理时生成异常 Token，从而简化量化。据我们所知，PrefixQuant 是首个实现高效逐张量静态量化并超越昂贵逐 Token 动态量化的技术。例如，在 W4A4KV4 (4 位权重、4 位激活和 4 位 KV 缓存) Llama-3-8B 中，PrefixQuant 使用逐张量静态量化在 WikiText2 上达到 7.43 的困惑度，并在 5 个常识推理任务上实现 71.08% 的平均准确率，超越了 QuaRot 等逐 Token 动态量化方法，困惑度提升 0.98，准确率提升 5.98 个百分点。此外，PrefixQuant 的 W4A4 量化模型推理速度比 FP16 模型快 1.60 至 2.81 倍，比 QuaRot 模型快 1.2 至 1.3 倍。代码见 https://github.com/ChenMnZ/PrefixQuant。