每周AI论文速递（250210-250214） – 叶子的技术碎碎念

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

我们研究了一种新型的语言模型架构，该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块，在测试时可以展开到任意深度。这与主流的推理模型不同，后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同，我们不需要任何专门训练的数据，并能够使用小上下文窗口，还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明，该模型在推理基准测试上可以提升性能，有时甚至显著增强，相当于增加了 50 亿个参数的计算负载。

Goku: Flow Based Video Generative Foundation Models

Goku: 基于流的视频生成基础模型

本文介绍了 Goku，这是一个利用修正的 Transformer 流水线实现行业领先性能的最先进的联合图像和视频生成模型系列。我们详细描述了使高质量视觉生成成为可能的基础组件，包括数据预处理管道、模型架构设计、流公式化以及用于高效且稳健的大规模训练的高级基础设施。Goku 模型在定性和定量评估中均表现出卓越性能，为主要任务设立了新的基准。具体而言，Goku 在 GenEval 上得分为 0.76，在 DPG-Bench 文本到图像生成上得分 83.65，在 VBench 文本到视频任务得分达到 84.85。我们相信这项工作为研究社区在开发联合图像和视频生成模型方面提供了有价值的见解和实际进展。

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

VideoRoPE: 什么构成良好的视频旋转位置嵌入？

由于旋转位置嵌入（Rotary Position Embedding, RoPE）及其变体因长上下文能力而被广泛采用，将一维 RoPE 扩展至具有复杂时空结构的视频领域仍是一个开放性难题。本研究首次进行了全面分析，确定了四个关键特性，这些特性对于有效适应 RoPE 到视频至关重要，并且在先前的工作中未得到充分考虑。作为我们分析的一部分，我们引入了一个具有挑战性的 V-NIAH-D（Visual Needle-In-A-Haystack with Distractors）任务，在此任务中向 V-NIAH 添加了周期性干扰。V-NIAH-D 任务表明，之前缺乏适当时间维度分配的 RoPE 变体很容易被干扰误导。基于我们的分析，我们介绍了 VideoRoPE，它具有一种三维结构设计来保留时空关系。VideoRoPE 包括低频时间分配以减少周期性波动、采用对角线结构保持空间对称性以及可调节的时间间距实现时空解耦。VideoRoPE 在长视频检索、视频理解、视频幻觉等多样化下游任务中一直超越先前的 RoPE 变体。我们的代码将在 https://github.com/Wiselnn570/VideoRoPE{https://github.com/Wiselnn570/VideoRoPE} 提供。

Fast Video Generation with Sliding Tile Attention

使用滑动瓷砖注意力快速生成视频

扩散 Transformer (Diffusion Transformers, DiTs) 具备三维全注意力能力，达到视频生成技术的最先进水平，但面临高昂的计算成本——仅在生成一段 5 秒的 720P 视频时，单是注意力机制就占用了总推理时间 945 秒中的 800 秒。本文介绍了滑动瓷砖注意力（Sliding Tile Attention, STA）以解决这一挑战。STA 利用预训练视频扩散模型中注意力分数主要集中在局部 3D 窗口内的观察结果。通过在局部时空区域内进行滑动和集中注意力，STA 消除了全注意力机制中的冗余性。与传统的 Token-wise 滑动窗口注意力（SWA）不同的是，STA 采用瓷砖式操作，并具有新型的硬件感知滑动窗口设计，在保持表达能力的同时实现硬件效率。通过精心的内核级优化，STA 实现了首个高效的 2D/3D 滑动窗口类似的注意力机制实施，达到 58.79% MFU。具体而言，与 FlashAttention-2（FA2）相比，STA 加速了 2.8 到 17 倍，与 FlashAttention-3（FA3）相比加速了 1.6 到 10 倍。在领先的视频 DiT 模型 HunyuanVideo 中，STA 将端到端延迟从 945 秒(使用 FA3)降至 685 秒，并且没有质量下降，无需重新训练。启用微调进一步将延迟降低至 268 秒，仅造成 VBench 上 0.09%的质量下降。

QuEST: Stable Training of LLMs with 1-Bit Weights and Activations

QuEST: 使用 1 位权重和激活进行大语言模型(LLMs)的稳定训练

减少大规模语言模型(LLMs)的成本的一种方法是使用量化或稀疏表示来进行训练或部署。虽然后训练压缩方法非常流行，但直接在这些表示上进行训练以获得更准确的压缩模型的问题，即量化感知训练(QAT)，仍然是一个开放问题：例如，最近的一项研究(arXiv:2411.04330v2)将使用 QAT 可以保持与标准 FP16/BF16 精度竞争性的“最优”位宽定为 8 位权重和激活。我们通过一种称为 QuEST 的新方法推进了这一前沿，该方法在 Pareto 竞争力方面可匹敌 FP16，即，在更小的模型尺寸上提供更高的准确度，同时使用 4 位或更低的权重和激活进行训练。此外，QuEST 允许用 1 位权重和激活进行稳定训练。QuEST 通过改进 QAT 方法中的两个关键方面实现了这一点：(1) 通过对权重和激活的（连续）分布进行 Hadamard 归一化和 MSE 最优拟合实现快速且准确的量化；(2) 基于显式最小化在量化状态下计算出的噪声梯度与“真实”但未知的全精度梯度之间的误差的新信任梯度估计器。在 Llama 型架构上的实验表明，QuEST 在整个硬件支持的精度范围内诱导了稳定的缩放规律，并可以扩展到稀疏表示。我们提供 GPU 内核支持，以证明由 QuEST 生成的模型能够高效执行。我们的代码可以在https://github.com/IST-DASLab/QuEST获得。

AuraFusion360: Augmented Unseen Region Alignment for Reference-based 360° Unbounded Scene Inpainting

AuraFusion360: 基于参考的增强未见区域对齐的 360° 无界场景修复

三维场景修复对于从虚拟现实到建筑可视化的应用至关重要，但现有的方法在处理 360{\deg}无界场景时难以保持视点一致性和几何准确性。我们提出了 AuraFusion360，这是一种新的基于参考的方法，能够在由 Gaussian Splatting 表示的 3D 场景中实现高质量的对象移除和孔洞填充。我们的方法引入了（1）深度感知未见区域掩码生成，用于准确识别遮挡区域；（2）自适应引导深度扩散(Adaptive Guided Depth Diffusion)，一种零样本方法，无需额外训练即可精确放置初始点；以及（3）基于 SDEdit 的细节增强，以实现多视图一致性。我们还引入了 360-USID，这是第一个为带有地面真值(ground truth)的 360{\deg}无界场景修复设计的全面数据集。大量的实验表明，AuraFusion360 显著优于现有方法，在保持几何准确性的同时实现了卓越的感知质量，并且能够在剧烈的视点变化下维持这些性能。请访问我们的项目页面以查看视频结果和数据集：https://kkennethwu.github.io/aurafusion360/.

Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

1B 大语言模型 (LLM) 能否超越 405B 大语言模型？重新思考测试时间计算最优扩展

[Test-Time Scaling (TTS) 是一种重要的方法，通过在推理阶段使用额外的计算来提高大语言模型（LLMs）的性能。然而，当前的研究未能系统地分析策略模型、过程奖励模型（PRM）和问题难度对 TTS 的影响。这种缺乏分析限制了我们对 TTS 方法的理解与实际应用。

本文关注两个核心问题：(1) 在不同的策略模型、PRM 和问题难度水平下，测试时间计算的最优扩展方法是什么？(2) 延长计算能在多大程度上改善 LLMs 在复杂任务上的性能，并且较小的语言模型能否通过这种方法超越较大的模型？

通过对 MATH-500 和具有挑战性的 AIME24 任务进行全面实验，我们有以下观察：(1) 计算最优的 TTS 策略高度依赖于策略模型、PRM 及问题难度的选择。(2) 使用我们的计算最优的 TTS 策略，极小的策略模型可以超越较大的模型。例如，在 MATH-500 上，一个 1B LLM 可以超过一个 405B LLM；此外，在 MATH-500 和 AIME24 中，一个 0.5B LLM 超过了 GPT-4o，而一个 3B LLM 能够超越一个 405B LLM。同时一个 7B LLM 击败了 o1 和 DeepSeek-R1，并且具有更高的推理效率。

这些发现表明，适应 TTS 策略以符合每个任务和模型的具体特征至关重要，这表明 TTS 是一种增强 LLMs 推理能力的有效方法。

SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

SynthDetoxM: 现代大语言模型 (LLMs) 是少样本并行净化数据标注器

现有跨语言文本净化方法因缺乏平行多语言数据集而受到限制。在本研究中，我们提出了一种生成跨语言并行净化数据的管道方案。此外，我们还推出了 SynthDetoxM，这是一个包含 16,000 对高质量净化句子的手动收集和合成生成的跨语言并行文本净化数据集，涵盖了德语、法语、西班牙语和俄语。这些句子源自不同的毒性评估数据集，并通过在少样本设置中使用九种现代开源大语言模型进行了重写。我们的实验表明，在有限的数据情况下，基于生成的合成数据集训练的模型比那些基于人工标注的 MultiParaDetox 数据集训练的模型表现更优。基于 SynthDetoxM 训练的模型在少样本设置下优于所有评估的大语言模型。我们发布了我们的数据集和代码以支持进一步的跨语言文本净化研究。

Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

探索数学推理的成果奖励极限

推理能力，尤其是解决复杂数学问题的能力，是通用人工智能（AGI）的重要组成部分。最近，专有公司如 OpenAI 的 o 系列模型在推理任务方面取得了显著进展。然而，完整的实现细节尚未公开，已知的技术主要包括强化学习（RL）和长链思维。本文提出了一种新的 RL 框架 OREAL，以探索通过成果奖励机制的强化学习能达到的数学推理性能极限，在这种情况下，只有二元结果奖励是容易获得的。我们理论上证明了通过对最佳之 N (Best-of-N, BoN) 采样的正向轨迹进行行为克隆即可学会在二元反馈环境中 KL 正则化的最优策略。此表述进一步表明，负样本的奖励需要调整以确保正负样本之间的梯度一致性。为了缓解 RL 中由于稀疏奖励导致的长期问题，这些问题甚至因推理任务中长链思维的部分正确性而加剧，我们还应用了 Token 级奖励模型来采样推理轨迹中的重要 Token 用于学习。通过 OREAL，在强化学习下，7B 模型首次在 MATH-500 数据集上实现了 94.0 的 pass@1 准确率，并与 32B 模型水平相当。OREAL-32B 在相同数据集上的 pass@1 准确率为 95.0，超过了之前通过蒸馏训练的 32B 模型。我们的研究还表明初始策略模型和强化学习查询的重要性。代码、模型和数据将在未来的研究中发布[https://github.com/InternLM/OREAL]。

Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

使用多智能体强化学习训练用于社交推理的语言模型

在多智能体设置中，使用自然语言进行交流是一种强大的工具，因为它使独立的智能体能够在部分可观察的环境中共享信息，并且允许与人类零样本协作。然而，大多数先前的研究都受到限制，因为它们要么依赖于大量的示范数据进行训练，要么无法生成自然而有效的沟通策略。在这项工作中，我们训练语言模型在没有人类演示的情况下用自然语言对其环境进行有效的讨论。我们将交流问题分解为听懂和说话两个部分。我们的关键思想是利用智能体的目标来预测关于世界的有用信息作为密集奖励信号以指导通信。具体来说，通过基于讨论信息来预测环境状况的方式提升模型的听力理解能力，并同时使用多智能体强化学习通过根据消息对其他智能体的影响给予奖励来提升模型的说话能力。为了研究在复杂社交环境中交流的作用和必要性，我们在基于 Among Us 的一款具身社交推理游戏中进行了研究，其中需要回答的关键问题是敌对冒名顶替者的身份。我们分析了由我们的技术引起的涌现行为，如指控嫌疑人并提供证据，并发现它能够实现强大的讨论，将胜率提高了一倍相比标准强化学习。我们将在https://socialdeductionllm.github.io/发布代码和模型。

LM2: Large Memory Models

LM2: 大内存模型 (Large Memory Models)

本文介绍了一种名为大内存模型（LM2）的架构，这是一种只包含解码器的 Transformer 架构，并增强了一个辅助记忆模块，旨在解决标准 Transformers 在多步推理、关系论证和综合分布在长上下文中的信息方面的局限性。所提出的 LM2 结合了一个作为上下文表示存储库的记忆模块，该模块通过交叉注意力与输入 Token 交互并使用门控机制进行更新。为了保持 Transformer 的通用能力，LM2 维持了原始的信息流同时整合了一条补充的记忆路径。在 BABILong 基准测试上的实验结果表明，在所有任务的平均性能上，LM2 模型比记忆增强的 RMT 模型高出 37.1%，比基线 Llama-3.2 模型高出 86.3%。LM2 在多跳推理、数值推理和大上下文问答方面表现出色。在 MMLU 数据集上，它实现了比预训练的标准模型提升 5.0%，证明了其记忆模块不会降低通用任务的性能。进一步，在我们的分析中，我们探讨了记忆的可解释性、记忆模块的有效性和测试时的行为。我们的发现强调了显式记忆在增强 Transformer 架构中的重要性。

The Curse of Depth in Large Language Models

大语言模型中的深度诅咒

在本文中，我们介绍了“深度的诅咒”(Curse of Depth)这一概念，它强调、解释并解决了现代大语言模型(LLMs)中最近的一个观察结果：几乎有一半的层未达到预期的有效性。我们首先确认了这种现象广泛存在于诸如 Llama、Mistral、DeepSeek 和 Qwen 等最受欢迎的大语言模型家族中。我们的分析表明，导致大语言模型深层无效的根本原因是预归一化(Pre-Layer Normalization (Pre-LN))的普遍使用。虽然 Pre-LN 稳定了 Transformer 大语言模型的训练过程，但其输出方差随着模型深度呈指数级增长，这无意中使深层 Transformer 块的导数接近单位矩阵，从而几乎不参与训练。为了解决这一问题，我们提出了一种层归一化缩放（LayerNorm Scaling），它通过深度平方根的倒数来逆向调整层归一化的输出方差。这种简单的修改缓解了更深 Transformer 层的输出方差爆炸问题，提高了它们的有效贡献。我们的实验结果涵盖了从 1.3 亿到十亿参数规模的模型，并表明与 Pre-LN 相比，LayerNorm Scaling 显著提升了大语言模型预训练性能。此外，这种改进无缝地过渡到了监督微调中。所有这些收益都可以归因于层归一化缩放使深层在训练期间能够更有效地作出贡献。

Expect the Unexpected: FailSafe Long Context QA for Finance

面对意外：金融中的长上下文 QA 抗故障性评估

我们提出了一项新的长上下文财务基准测试，FailSafeQA，旨在评估大语言模型 (LLM) 在基于 LLM 的查询-回答系统中面对人机交互六种变化时的鲁棒性和上下文感知能力。我们集中研究了两个案例：查询失败案例和上下文失败案例。在查询失败场景下，我们将原始查询扰动以改变领域专业知识、完整性和语言准确性。在上下文失败情况下，我们模拟上传劣质的、无关的以及空文档。我们使用 LLM 作为裁判的方法，并采用 Qwen2.5-72B-Instruct，使用细粒度评分标准来定义和计算鲁棒性、上下文关联性和合规分数，对 24 种现成模型进行评估。结果表明，尽管某些模型在缓解输入扰动方面表现出色，但它们必须平衡稳健回答与避免幻觉的能力。值得注意的是，被认定为最合规的模型 Palmyra-Fin-128k-Instruct 维持了强大的基线性能，但在 17% 的测试案例中遇到维持鲁棒预测的挑战。另一方面，最鲁棒的模型 OpenAI o3-mini 在 41% 的测试案例中捏造信息。结果表明，即使高性能模型仍有很大的改进空间，并突显了 FailSafeQA 作为开发针对金融应用优化 LLMs 工具的作用。数据集可在以下位置获得：https://huggingface.co/datasets/Writer/FailSafeQA

Competitive Programming with Large Reasoning Models

使用大推理模型进行竞赛编程

我们证明了将强化学习应用于大语言模型（LLMs）显著提升了复杂编码和推理任务的性能。此外，我们将两个通用推理模型——OpenAI o1 和一个早期检查点 o3——与领域特定系统 o1-ioi 进行比较，后者使用为参加 2024 年国际信息学奥林匹克竞赛（IOI）设计的手工工程推断策略。我们在 IOI 2024 实时参与比赛，并且使用手工制作的推理策略，在第 49 百分位排名。在宽松的比赛约束条件下，o1-ioi 获得了金牌。然而，当我们评估后来的模型如 o3 时，我们发现 o3 在没有手工制作的领域特定策略或宽松约束的情况下也能获得金牌。我们的研究结果表明，虽然专门的流水线如 o1-ioi 可以带来显著提升，但扩展后的通用目的 o3 模型无需依赖于手工推断启发式方法就能超越这些结果。值得注意的是，o3 在 2024 年 IOI 中获得了金牌，并且在 Codeforces 上的评分与顶级人类选手相当。总体而言，这些结果显示了规模化通用强化学习而非依赖领域特定技术提供了一条稳健的路径，以实现推理领域的最先进 AI，如竞赛编程。

Retrieval-augmented Large Language Models for Financial Time Series Forecasting

基于检索增强的大语言模型用于金融时间序列预测

股票走势预测是金融时间序列预测中的基础任务，需要从大量时间序列数据中识别和提取关键的影响因素。然而，现有的文本训练或数值相似性检索方法在处理复杂的财务分析时表现不佳。为了解决这一问题，我们提出了首个用于金融时间序列预测的检索增强生成（RAG）框架，该框架具有三项关键技术创新：一个经过微调的 10 亿参数大语言模型（StockLLM），一种利用大语言模型反馈的新颖候选选择方法，以及一个最大化查询与历史重要序列相似性的训练目标。这使我们的检索器 FinSeer 能够发现有意义的模式并减少复杂金融数据中的噪声。我们还构建了新的整合财务指标和历史股票价格的数据集来训练 FinSeer，并确保评估稳健。实验结果表明，我们的 RAG 框架优于裸 StockLLM 和随机检索方法，突显其有效性，同时 FinSeer 超越现有检索方法，在 BIGDATA22 上的准确率高出 8%，并能检索出更具影响力的时间序列。这项工作强调了定制化检索模型在金融预测中的重要性，并为未来研究提供了一种新的框架。

CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction

CodeI/O: 通过代码输入输出预测压缩推理模式

推理是大语言模型（Large Language Model）的核心能力。尽管先前的研究主要集中在提高如数学或代码生成等特定技能上，但由于训练数据稀疏且分散，在许多其他推理任务上的表现仍然具有挑战性。为解决这一问题，我们提出了 CodeI/O，这是一种新颖的方法，通过将原始代码转化为代码输入输出预测格式来系统地压缩嵌入在上下文相关代码中的多样化推理模式。通过以自然语言形式的 Chain-of-Thought（CoT）推理解释训练模型预测给定代码和测试用例的输入/输出，我们使它们暴露于诸如逻辑流程规划、状态空间搜索、决策树遍历以及模块化分解等通用推理原语，并将结构化推理与特定语法解耦，同时保持过程严谨性。实验结果表明 CodeI/O 在符号、科学、逻辑、数学及数值和常识推理任务上均有持续改进。通过匹配现有输出或重新执行代码来验证每个预测，并进一步通过多轮修订增强 CoTs，我们实现了 CodeI/O++并达到更高性能。我们的数据和模型可在https://github.com/hkust-nlp/CodeIO获取。

Magic 1-For-1: Generating One Minute Video Clips within One Minute

Magic 1-For-1: 在一分钟内生成一分钟视频片段

在这份技术报告中，我们介绍了 Magic 1-For-1（Magic 1-For-1），一个高效且优化了内存消耗和推理延迟的视频生成模型。核心思想是将文本到视频的生成任务分解为两个独立的、较为简单的子任务——即文本到图像生成和图像到视频生成，以进行扩散步蒸馏。我们验证了使用相同的优化算法时，图像到视频的任务确实比文本到视频更容易收敛。此外，我们也探索了一套优化技巧来从三个方面减少训练图像到视频（I2V）模型的计算成本：1) 通过多模态先验条件注入加速模型收敛；2) 应用对抗步蒸馏以加快推理延迟；3) 使用参数稀疏化技术优化推理内存消耗。借助这些技术，我们能够在不到 3 秒的时间内生成 5 秒视频片段。使用测试时的滑动窗口方法后，我们可以在一分钟内生成长度为一分钟的视频，并显著提高视觉质量和动态效果，在平均情况下每生成 1 秒视频片段仅需不到 1 秒钟时间。我们进行了一系列初步探索以找出扩散步蒸馏过程中计算成本和视频质量之间的最佳权衡点，并希望这能成为开源探索的良好基础模型。代码及模型权重可在https://github.com/DA-Group-PKU/Magic-1-For-1获得。

LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters!

大语言模型 (LLM) 可以轻松通过演示结构进行推理——关键在于结构而非内容！

大型推理模型（Large reasoning models，LRMs）采用包含反思、回溯和自我验证的长链推理（Long CoT）来解决复杂问题。然而，激发 Long CoT 的训练技术和数据需求尚未完全明了。在这项研究中，我们发现大语言模型 (LLM) 可以通过高效的数据监督微调 (SFT) 和参数高效的低秩适配 (LoRA)，有效学习长链推理。只需 17000 个长链推理训练样本，Qwen2.5-32B-Instruct 模型在数学和编程基准测试中取得显著提升，例如在 AIME 2024 上达到 56.7% (+40.0%) 和在 LiveCodeBench 上达到 57.0% (+8.1%)，与专有 o1-preview 模型（得分分别为 44.6% 和 59.1%）相当。更重要的是，我们发现长链推理的结构对学习过程至关重要，而具体推理步骤的内容影响较小。例如，扰动内容如使用错误样本进行训练或删除推理关键词，并不会显著影响性能表现；然而，破坏 Long CoT 的逻辑一致性（比如打乱或删除推理步骤）会大大降低准确性。譬如，在具有不正确答案的长链推理样本上训练的模型相比在完全正确的样本上训练只低了 3.2%的准确率。这些见解深化了我们对如何激发 LLMs 推理能力的理解，并突出了高效训练下一代推理模型的关键考虑因素。这篇论文是我们在前一版本发布的 Sky-T1-32B-Preview 模型的研究报告。代码可在 https://github.com/NovaSky-AI/SkyThought 获取。

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Fino1: 大语言模型(Reasoning Enhanced LLMs)推理增强在金融领域的可迁移性研究

最近大语言模型(LLMs)的进展显示出强大的通用推理能力，但它们在金融推理中的有效性尚未充分探索。在这项研究中，我们全面评估了 16 个强大推理和通用 LLMs 在涉及金融文本、表格数据和方程式的三个复杂金融任务上的表现，涵盖了数值推理、表格解释、金融术语理解、长上下文处理和基于公式的解决问题能力。结果显示，尽管更好的数据集和预训练可以提升金融推理效果，但像 CoT 微调等通用改进并不总是带来一致的性能提高。此外，所有推理策略在改善长上下文和多表任务上的表现时都面临挑战。为解决这些问题，我们基于 Llama-3.1-8B-Instruct 开发了一个增强金融推理能力的模型，通过 CoT 微调以及领域特定推理路径的强化学习来实现。即使只是用一个金融数据集进行简单的微调，我们的模型也能在所有任务上获得一致的 10%性能提升，超越了所有的 8B 模型，并且平均而言甚至超过了 Llama3-70B-Instruct 和 Llama3.1-70B-Instruct。这些结果强调了金融任务需要领域特定的适应性，突出了未来研究方向如多表推理、长上下文处理和金融术语理解等。我们所有的数据集、模型和代码都是公开可用的。此外，我们引入了一个排行榜，用于未来数据集和模型的基准测试。

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

BenchMAX: 一个全面的多语言大型语言模型评估套件

以前的多语言基准主要集中在基础理解任务上，然而针对大语言模型(大语言模型) ，我们关注的是指令遵循、推理、长上下文理解和代码生成等高级能力。跨语言评估这类高阶技能尚不充分。为了解决这种差距，我们引入了 BenchMAX，这是一套全面的多语言评估基准，用于公平地比较这些重要能力在不同语言中的表现。为了确保高质量，每个任务的数据先从英语机器翻译成其他 16 种语言后，再由三个不同的母语标注者独立进行标注。此外，在数据集构建过程中遇到了一个新的翻译挑战。广泛的实验显示了核心功能在各种语言中表现出的不同效果，突显出仅通过增加模型大小无法弥补的性能差距。BenchMAX 作为全面的多语言评估平台，提供了一个有希望的测试环境来促进多语言语言模型的发展。该数据集和代码是公开可用的。

TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

TextAtlas5M: 用于密集文本图像生成的大型数据集

近年来，基于文本条件的图像生成技术（text-conditioned image generation）备受关注，并且正处理越来越长和全面的文本提示。在日常生活场景中，如广告、信息图表（infographics）及标识等场合，密集而复杂的文本与视觉元素共同作用，对于传达复杂信息至关重要。然而，尽管已取得进步，包含长格式文本的图像生成仍然面临持续挑战，主要由于现有数据集通常专注于较短和简单的文本内容。为解决这一问题，我们推出了 TextAtlas5M 数据集——这是一个专用于评估基于文本条件的长文本图像渲染的新颖数据集。该数据集包含跨越各种数据类型（data types）的 500 万张由生成或收集而来的长文本图像，从而能够全面评价大规模生成模型在长文本图像生成方面的表现。我们进一步整理了涵盖三个领域（3 data domains）共计 3,000 张人类优化过的测试集 TextAtlasEval，以此建立了一个广泛的文本条件生成基准之一。评估显示，即使是当前最先进的专有模型（例如 GPT4o with DallE-3），在面对这些基准时也存在显著挑战，而其开源版本则表现出更大的性能差距。上述证据表明，TextAtlas5M 是训练和评价未来基于文本条件的图像生成模型的重要数据集。

TransMLA: Multi-head Latent Attention Is All You Need

TransMLA: 多头隐式注意力就是你所需要的

现代大语言模型（LLMs）在当前硬件上通常会遇到通信瓶颈，而不仅仅是计算限制。多头隐式注意力 (MLA) 通过在键值层（KV 层）中使用低秩矩阵来应对这一挑战，从而允许压缩的隐式 KV 状态被缓存。这种方法显著减小了相对于传统多头注意力机制的 KV 缓存大小，并实现了更快的推理速度。此外，MLA 使用一个上投影矩阵来增强表达能力，通过增加额外计算以减少通信开销。虽然 MLA 在 Deepseek V2/V3/R1 中表现出高效的性能，但许多主要模型提供商仍然依赖于 Group Query Attention (GQA)，并且尚未宣布任何计划采用 MLA。本文中，我们展示了 GQA 总是可以被 MLA 表示而保持相同的 KV 缓存开销，反之则不成立。为了鼓励更广泛地使用 MLA，我们介绍 TransMLA，这是一种训练后的方法，可以将广泛使用的基于 GQA 的预训练模型（例如 LLaMA、Qwen、Mixtral）转换为基于 MLA 的模型。转换之后，该模型可以在不增加 KV 缓存大小的情况下进行额外的训练以增强表达能力。此外，我们计划开发特定于 MLA 的推理加速技术，在转换后的模型中保持低延迟，从而能够更高效地蒸馏 Deepseek R1。

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Light-A-Video: 无需训练的视频重新照明通过渐进光照融合

得益于大规模数据集和预训练的扩散模型，图像重新照明模型已经实现了光源的一致性。然而，视频重新照明仍然落后，主要是因为高昂的训练成本以及稀少的多样化高质量视频重新照明数据集。简单地逐帧应用图像重新照明模型会导致几个问题：光源不一致和重新照明外观不一致，导致生成的视频产生闪烁现象。在这项工作中，我们提出了 Light-A-Video，一种无需训练的方法来实现时间平滑的视频重新照明。从图像重新照明模型改编而来，Light-A-Video 引入了两种关键技术以增强光照一致性。首先，我们设计了一致性光注意（Consistent Light Attention, CLA）模块，在自注意力层内增强了跨帧互动，从而稳定背景光源的生成。其次，利用光传输独立的物理原理，我们在源视频外观和重新照明外观之间应用线性混合，并使用渐进光照融合（Progressive Light Fusion, PLF）策略来确保光照在时间上的平滑过渡。实验表明，Light-A-Video 提高了重新照明视频的时间一致性，同时保持了图像质量，并确保跨帧的连贯光源转换。

项目页面：https://bujiazi.github.io/light-a-video.github.io/

CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

CineMaster：一种用于影视文本到视频生成的三维感知和可控框架

在这项工作中，我们介绍了 CineMaster，一种新的用于三维感知(3D-aware)和可控文本到视频生成的框架。我们的目标是使用户具有与专业电影导演类似的控制能力：在场景中精确放置物体、灵活地在三维空间内操纵对象和相机，并对渲染帧进行直观布局控制。为了实现这一目标，CineMaster 运行于两阶段之中。在第一阶段，我们设计了一个交互式工作流程，允许用户通过定位对象边界框并在三维空间定义相机运动来直观构造三维感知条件信号。在第二阶段，这些控制信号——包括渲染的深度图、相机轨迹和对象类别标签——作为文本到视频扩散模型的指导，确保生成符合用户意图的视频内容。此外，为了克服野外数据集中缺乏带有三维物体运动和相机姿态标注的数据，我们精心建立了一个自动化数据标注管道，从大规模视频数据中提取三维边界框和相机轨迹。广泛的定性和定量实验表明 CineMaster 显著优于现有方法，并实现了突出的三维感知文本到视频生成。项目页面：https://cinemaster-dev.github.io/。

Distillation Scaling Laws

蒸馏缩放定律

我们提供了一个蒸馏缩放定律，该定律基于计算预算及其在学生模型和教师模型之间的分配来估计精简后的模型性能。这一发现减少了大规模使用蒸馏的风险；可以对教师模型和学生模型的计算资源进行优化分配以最大化学生模型的性能。当 1) 已经存在一个教师模型，或 2) 需要训练一个教师模型时，我们提供了计算最优的蒸馏方案。如果需要精简多个学生模型，或者已经有一个教师模型，则直到计算水平随着学生规模可预测增长为止，蒸馏都会优于监督预训练。而当仅需精简一个学生模型且还需训练教师模型时，则应进行监督学习。此外，我们通过大规模的蒸馏研究提供了对蒸馏机制更深入的理解，并指导实验设计。

InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

InfiniteHiP: 将大语言模型 (LLMs) 的上下文扩展到单个 GPU 上的 300 万 Token

在现代的大语言模型 (LLMs) 中，处理非常长的上下文长度带来了显著挑战，因为这会导致推理速度变慢和内存成本增加。此外，大多数现有的预训练 LLMs 无法推广到超出它们原始训练序列长度的情况。为了实现高效和实用的长上下文利用，我们引入了 InfiniteHiP——一个新颖且实用的大语言模型 (LLM) 推理框架。通过模块化分层 Token 剪枝算法动态消除无关的上下文 Token 以加速处理过程。我们的方法还允许根据 LLM 内部的关注模式选择性地应用各种 RoPE 调整方法，从而推广到更长序列。此外，在推理过程中我们将关键值缓存卸载到主机内存中，显著减少了 GPU 内存压力。结果，InfiniteHiP 能够在一个 L40s 48GB GPU 上处理多达 300 万个 Token——是原来的 3 倍大——而不会有任何上下文信息的永久性丢失。我们的框架在 1 百万 Token 上下文中实现了注意力解码速度 18.95 倍的加速，且无需额外训练。我们在 SGLang 框架中实现该方法并通过广泛的评估证明了其有效性和实用性。

The Stochastic Parrot on LLM’s Shoulder: A Summative Assessment of Physical Concept Understanding

大语言模型肩上的随机鹦鹉：物理概念理解的总结性评估

我们以一种系统的方式研究了一个广泛提出的问题：大语言模型 (LLMs) 真的理解它们所说的内容吗？这与更熟悉的术语“随机鹦鹉”(Stochastic Parrot) 相关。为此，我们建议在一个精心设计的物理概念理解任务 PhysiCo 上进行总结性评估。我们的任务通过使用抽象描述物理现象的网格格式输入来缓解记忆问题。这些网格表示不同水平的理解，从核心现象、应用示例到与网格世界中的其他抽象模式的类比。对我们任务的一项全面研究表明：(1) 最先进的大语言模型，包括 GPT-4o, o1 和 Gemini 2.0，在理解上落后于人类约 40%；(2) 随机鹦鹉现象存在于大语言模型中，因为它们在我们的网格任务上失败了，但在自然语言中可以很好地描述和识别相同的概念；(3) 我们的任务挑战了大语言模型，这是由于其内在的困难而非不熟悉的网格格式，因为在上下文学习和对同一格式的数据进行微调并没有显著提高它们的表现。

Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Skrr: 跳过和重用文本编码器层以提高文本到图像生成的记忆效率

大规模的文本编码器在文本到图像(T2I)扩散模型中表现出色，能够从文本提示生成高质量的图像。与需要多次迭代步骤的去噪模块不同，文本编码器只需要一次前向传播就能产生文本嵌入。然而，尽管它们对总推理时间和浮点运算（FLOPs）的影响较小，但这些文本编码器却需占用显著更高的内存，甚至高达去噪模块的八倍。为了解决这一问题，我们提出跳过和重用层(Skrr)，这是一种专门针对 T2I 扩散模型中文本编码器设计的简单而有效的剪枝策略。Skrr 通过选择性地跳过或重用某些层，在适合于 T2I 任务的方式中利用 Transformer 块中的固有冗余性，从而在不降低性能的情况下减少内存消耗。广泛实验表明，即使在高稀疏度水平下，Skrr 也能保持与原始模型相当的图像质量，并超越现有的按块剪枝方法。此外，Skrr 实现了最先进的内存效率，在包括 FID、CLIP、DreamSim 和 GenEval 分数在内的多个评估指标上均能保留性能。

Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

该模型是否也能识别狗？基于权重的零样本模型搜索

随着大量公开可用模型的增多，用户所需的任务很可能已经有预训练且在线的模型。然而，当前的模型检索方法非常初级，主要是通过文档进行文本搜索，因此用户很难找到相关模型。本文介绍了 ProbeLog，这是一种无需访问模型元数据或训练数据即可检索出能够识别目标概念（如“狗”）的分类模型的方法。与之前的探针方法不同，ProbeLog 通过对每个模型固定输入集（探测器）的响应来计算每个输出维度（logit）的描述符。我们的方法支持基于 logit 的检索（“找到类似的 logits”）和零样本、基于文本的检索（“找到所有对应于狗的 logits”）。由于探针方法需要多次前向传播通过模型，我们开发了一种基于协同过滤的方法来减少编码库的成本至三分之一。我们证明了 ProbeLog 在实际世界任务及细粒度搜索任务中实现了高检索准确率，并且可扩展到完整的库。

An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

将特定语言的大语言模型（LLM）通过模型合并在一天内适应为推理模型的方法

本文研究了数据选择和模型合并方法，旨在将如 DeepSeek R1 等高级推理能力融入特定语言的大语言模型（LLM），特别关注泰语的 LLM。我们的目标是增强特定语言的 LLM 的推理能力同时保持其在目标语言上的表现。尽管 DeepSeek R1 在推理方面表现出色，但主要受益于高资源语言如英语和中文。然而，由于以英语为中心的训练数据和模型优化占主导地位，低资源语言的表现受到限制。这种局限性导致了代码切换的不可靠性和任务效果的减弱。同时，本地和地区性的 LLM 倡议试图通过开发专注于提高本地语言保真度的语言特定 LLM 来弥补这一差距。我们证明，在使用公开的数据集以及 120 美元计算预算的情况下，可以将特定语言的 LLM 推理能力增强到与 DeepSeek R1 相当的水平，而不会影响其在目标语言任务上的性能。

SelfCite: 大语言模型生成高质量句子级别引用的自监督对齐方法

SelfCite: 自监督对齐方法，用于大语言模型中的上下文归属

我们介绍了 SelfCite，一种新颖的自监督方法。它使大语言模型能够生成高质量、细粒度且句子级别的引用，用于它们生成响应中的陈述。与依赖昂贵且劳动密集型标注不同，SelfCite 通过上下文消减利用大语言模型自身提供的奖励信号：如果引用是必需的，则从上下文中删除该引用文本应阻止相同响应；反之，保留引用文本应维持相同的响应。这种奖励可以引导推理时的最佳 N 采样策略来显著提高引用质量，并且可用于偏好优化以直接微调模型生成更好的引用。SelfCite 的有效性通过在 LongBench-Cite 基准上将五项长篇问答任务的引用 F1 提高多达 5.3 分得到证明。

EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

EmbodiedBench: 综合评估多模态大语言模型在视觉驱动的身体化智能体中的表现

利用多模态大语言模型（MLLMs）创建身体化智能体为解决实际任务提供了一条有前途的途径。尽管以语言为中心的身体化智能体已获得广泛关注，基于 MLLM 的身体化智能体由于缺乏全面评估框架而研究较少。为了弥合这一差距，我们引入了身体化基准 (EmbodiedBench)，这是一个设计用于评估视觉驱动身体化智能体的广泛基准测试平台。身体化基准具有：（1）一个跨越四个环境、包括 1,128 项测试任务的多样化集合，范围从高层次语义任务（例如家庭相关任务）到涉及原子动作（如导航和操作）的低层次任务；以及（2）六个精心策划的数据集评估重要的智能体能力，如常识推理、复杂指令理解、空间意识、视觉感知及长期规划。通过广泛实验，我们在身体化基准中评估了 13 款领先的专有及开源 MLLMs。我们的研究发现表明：MLLMs 在高层次任务上表现出色但在低层次操作方面表现较差，最佳模型 GPT-4o 的平均得分仅为 28.9%。身体化基准提供了一个多方面的标准化评估平台，不仅突显了现有挑战，还为基于 MLLM 的身体化智能体的发展提供了宝贵见解。我们的代码可在 https://embodiedbench.github.io 获得。