每周AI论文速递（241223-241227） – 叶子的技术碎碎念

Parallelized Autoregressive Visual Generation

自回归模型是视觉生成的一种强大方法，但由于其逐 Token 的序列预测过程，导致推理速度较慢。在本文中，我们提出了一种简单而有效的并行化自回归视觉生成方法，该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是，并行生成依赖于视觉 Token 的依赖关系——依赖关系较弱的 Token 可以并行生成，而依赖关系较强的相邻 Token 则难以并行生成，因为它们的独立采样可能导致不一致性。基于这一发现，我们开发了一种并行生成策略，该策略并行生成依赖关系较远的 Token，同时对依赖关系较强的局部 Token 保持序列生成。我们的方法可以无缝集成到标准的自回归模型中，而无需修改架构或 Tokenizer。在 ImageNet 和 UCF-101 数据集上的实验表明，我们的方法在图像和视频生成任务中实现了 3.6 倍的加速，且质量相当；在质量轻微下降的情况下，加速比可达 9.5 倍。我们希望这项工作能够激发未来在高效视觉生成和统一自回归建模方面的研究。项目页面：https://epiphqny.github.io/PAR-project。

Offline Reinforcement Learning for LLM Multi-Step Reasoning

离线强化学习用于大语言模型多步推理

通过离线强化学习 (RL) 提高大语言模型 (LLMs) 的多步推理能力对于快速适应复杂任务的需求至关重要。虽然直接偏好优化 (DPO) 在将大语言模型与人类偏好对齐方面显示出良好的效果，但它不太适合多步推理任务，因为 (1) DPO 依赖于成对的偏好数据，而这些数据在多步推理任务中难以获得，(2) 它统一处理所有 Token，这使得它在多步推理任务中的信用分配效果不佳，这些任务通常伴随着稀疏奖励。在这项工作中，我们提出了 OREO (离线推理优化)，一种用于增强大语言模型多步推理的离线强化学习方法。基于最大熵强化学习的先前工作的见解，它通过优化软贝尔曼方程联合学习策略模型和价值函数。我们从理论上展示了，它减少了对收集成对数据的需求，并实现了更好的信用分配。实验结果表明，OREO 在多步推理基准测试中超越了现有的离线学习方法，包括数学推理任务 (GSM8K, MATH) 和具身智能体控制 (ALFWorld)。在资源充足的情况下，该方法可以扩展到多迭代框架。此外，学习到的价值函数可以无需额外成本地用于指导树搜索，这可以进一步在测试时提升性能。

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

RobustFT: 大语言模型在噪声响应下的鲁棒监督微调

监督微调 (Supervised Fine-tuning, SFT) 在将大语言模型 (Large Language Models, LLMs) 适配于特定领域或任务中起着至关重要的作用。然而，实证研究表明，在实际应用中，收集的数据不可避免地存在噪声，这对模型在下游任务中的性能构成重大挑战。因此，亟需一种噪声鲁棒的 SFT 框架来增强模型在下游任务中的能力。为了解决这一挑战，我们引入了一种鲁棒的 SFT 框架 (RobustFT)，该框架在下游任务数据上执行噪声检测和重新标注。对于噪声识别，我们的方法利用了一个多专家协作系统，结合推理增强模型，以实现高效的噪声检测。在去噪阶段，我们采用了一种上下文增强策略，该策略整合了最相关和最有信心的知识，随后进行仔细评估以生成可靠的标注。另外，我们引入了一种基于响应熵的有效数据选择机制，保证仅保留高质量样本进行微调。在五个数据集上对多个大语言模型进行的大量实验表明，RobustFT 在噪声场景中表现出色。

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

B-STaR: 在自学习推理器中监控与平衡探索与利用

在缺乏大量人工标注数据的复杂推理任务中，自我改进——即模型在其自身输出上进行训练——已成为提升性能的主要方法。然而，这些迭代自我改进方法背后的关键因素仍不明确，例如在什么条件下自我改进有效，以及当前迭代中的瓶颈是什么。在本工作中，我们提出监控这一迭代过程中两个关键因素的方法：(1) 模型生成多样化响应的能力（探索）；以及 (2) 外部奖励在区分高质量与低质量候选方面的有效性（利用）。以数学推理为实例分析，我们首先进行定量分析以跟踪探索与利用的动态变化，发现模型的探索能力在迭代过程中迅速下降，且利用外部奖励的有效性也随之减弱。基于此，我们引入了 B-STaR，一个自学习推理框架，它能够自主调整迭代间的配置以平衡探索与利用，从而根据当前策略模型和可用奖励优化自我改进的有效性。我们在数学推理、编码和常识推理上的实验表明，B-STaR 不仅在训练过程中增强了模型的探索能力，还实现了探索与利用之间更有效的平衡，从而带来了更优越的性能。

Diving into Self-Evolving Training for Multimodal Reasoning

深入探讨多模态推理的自演化训练

推理能力对于大模态模型 (Large Multimodal Models, LMMs) 至关重要。在缺乏多模态思维链标注数据的情况下，自演化训练，即模型从其自身输出中学习，已成为一种有效且可扩展的增强推理能力的方法。尽管其使用日益广泛，但对自演化训练的全面理解，特别是在多模态推理背景下的理解，仍然有限。在本文中，我们深入探讨了多模态推理自演化训练的复杂性，指出了三个关键因素：训练方法 (Training Method)、奖励模型 (Reward Model) 和提示变体 (Prompt Variation)。我们系统地研究了每个因素，并探讨了各种配置如何影响训练的有效性。我们的分析为每个因素提出了一套最佳实践 (best practices)，旨在优化多模态推理。此外，我们探讨了训练过程中的自演化动态 (Self-Evolution Dynamics) 以及自动平衡机制 (automatic balancing mechanisms) 在提升性能方面的影响。在完成所有研究后，我们提出了一个多模态推理自演化训练的最终方案，将这些设计选择封装成一个我们称之为 MSTaR（多模态推理自演化训练）的框架，该框架在不同规模的模型上对各种基准测试普遍有效，例如，在 MiniCPM-V-2.5 (8B)、Phi-3.5-Vision (4B) 和 InternVL2 (2B) 上，显著超越了未演化前的模型，且未使用额外的人工标注。我们相信这项研究填补了多模态推理自演化训练理解中的一个重要空白，并为未来的研究提供了一个稳健的框架。我们的策略和奖励模型，以及收集的数据，已发布以促进多模态推理的进一步研究。

Distilled Decoding 1: One-step Sampling of Image Auto-regressive Models with Flow Matching

Distilled Decoding 1: 使用流匹配对图像自回归模型进行一步采样

自回归 (AR) 模型在文本和图像生成中取得了顶尖的性能，但由于逐 Token 生成的过程，生成速度较慢。我们提出了一个具有挑战性的问题：能否将预训练的 AR 模型调整为只需一步或两步生成输出？如果成功，这将显著推动 AR 模型的开发和部署。我们注意到，现有的研究试图通过一次生成多个 Token 来加速 AR 生成，但由于 Token 之间的条件依赖性，它们无法准确捕捉输出分布，限制了它们在少步生成中的有效性。为了解决这个问题，我们提出了 Distilled Decoding (DD)，它使用流匹配来创建从高斯分布到预训练 AR 模型输出分布的确定性映射关系。然后通过训练一个网络来学习这个映射关系，从而实现少步生成。DD 不需要原始 AR 模型的训练数据，使其更具实际应用价值。我们在最先进的图像 AR 模型上评估了 DD，并展示了令人鼓舞的结果。对于需要 10 步生成的 VAR，DD 实现了一步生成（6.3 倍加速），FID 从 4.19 增加到 9.96，这一变化在可接受范围内。对于 LlamaGen，DD 将生成步骤从 256 步减少到 1 步，实现了 217.8 倍的加速，FID 从 4.11 增加到 11.35，这一变化在可接受范围内。在这两种情况下，基线方法表现极差，FID>100。DD 在文本到图像生成方面也表现出色，将 LlamaGen 的生成步骤从 256 步减少到 2 步，FID 从 25.70 增加到 28.95，这一变化非常小。作为第一个展示图像 AR 模型一步生成可能性的工作，DD 挑战了 AR 模型本质上缓慢的普遍认知，并为高效的 AR 生成提供了新的可能性。项目网站位于 https://imagination-research.github.io/distilled-decoding。

Deliberation in Latent Space via Differentiable Cache Augmentation

基于可微分缓存增强的潜在空间推理

通过生成并关注中间推理步骤，使大语言模型 (LLMs) 能够进行更深入思考的技术，在解决复杂问题方面展现了良好的前景。然而，传统方法在响应前直接生成离散的 Token 序列，这可能导致显著的延迟开销，并且难以优化。在本研究中，我们展示了可以通过一个离线协处理器来增强冻结的大语言模型，该协处理器在模型的键值 (kv) 缓存上进行操作。协处理器通过一组潜在嵌入向量来增强缓存，旨在提高后续解码的准确性。我们使用解码器在标准预训练数据上的语言模型损失来训练该协处理器，同时保持解码器本身冻结。这种方法使模型能够以端到端可微分的方式学习如何将额外的计算压缩到其 kv 缓存中。由于解码器保持不变，协处理器可以离线和异步操作，并且即使协处理器不可用或认为给定的缓存不需要额外的计算，语言模型仍能正常运作。我们通过实验证明，当缓存被增强时，解码器在随后的多个 Token 上实现了更低的困惑度（perplexity）。此外，即使没有任何任务特定的训练，我们的实验表明，缓存增强在一系列推理密集型任务中持续降低困惑度并提高性能。

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

3DGraphLLM: 结合语义图和大语言模型进行三维场景理解

三维场景图是一种紧凑的场景模型，存储了关于物体及其之间语义关系的信息，因此它在机器人任务中具有广阔的应用前景。在与用户交互时，一个具身智能体应该能够以自然语言回应用户提出的关于场景的各种查询。大语言模型（LLMs）由于其自然语言理解和推理能力，成为用户与机器人交互的有效解决方案。最近创建可学习的三维场景表示的方法已经展示了通过适应三维场景来提高LLMs响应质量的潜力。然而，现有方法并未明确利用物体之间的语义关系信息，仅依赖于物体的坐标信息。在这项工作中，我们提出了一种方法3DGraphLLM，用于构建三维场景图的可学习表示。该可学习表示作为LLMs的输入，用于执行三维视觉-语言任务。我们在流行的ScanRefer、RIORefer、Multi3DRefer、ScanQA、Sqa3D和Scan2cap数据集上的实验中，展示了该方法相对于不使用物体之间语义关系信息的基线方法的优势。代码公开在 https://github.com/CognitiveAISystems/3DGraphLLM。

Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization

Fourier Position Embedding：增强注意力的周期性扩展以实现长度泛化

通过改进 Rotary Position Embedding (RoPE) 来扩展语言模型 (LMs) 的上下文长度已成为当前的研究趋势。尽管现有工作主要关注 RoPE 在注意力机制中的局限性，但本文对 LMs 的几乎所有部分进行了深入分析，揭示了它们对基于 RoPE 的注意力在长度泛化方面的不利影响。基于离散信号处理理论，我们证明了 RoPE 通过隐式实现非均匀离散傅里叶变换来支持周期性注意力。然而，这种周期性受到以下因素引起的频谱损伤的削弱：1) 注意力机制之外的线性层和激活函数；2) 时域截断导致的训练不足的频率分量。基于这些观察，我们提出了 Fourier Position Embedding (FoPE)，它通过增强注意力的频域特性来改善其周期性扩展和长度泛化能力。FoPE 构建傅里叶级数并消除破坏性频率分量，从而提高了模型对频谱损伤的鲁棒性。在不同规模的模型实验中，与 RoPE 和 ALiBi 相比，FoPE 能够在不同的上下文窗口中保持更稳定的困惑度，并在“大海捞针”任务中表现出更一致的准确性。多项分析和消融实验进一步验证了我们的方法和理论模型的有效性。

DepthLab: From Partial to Complete

DepthLab: 从部分到完整

深度数据在广泛应用中，缺失值仍然是一个常见的挑战，其成因包括数据采集不完整和视角变化等多种因素。这项工作通过 DepthLab 弥合了这一差距，DepthLab 是一个基于图像扩散先验的基础深度修复模型。我们的模型具备两大显著优势：(1) 它展现出对深度缺失区域的强健性，能够为连续区域和孤立点提供可靠的修复；(2) 在填充缺失值时，它能够忠实维持与已知深度条件的尺度一致性。凭借这些优势，我们的方法在各种下游任务中证明了其价值，包括 3D 场景修复、文本到 3D 场景生成、使用 DUST3R 的稀疏视图重建以及 LiDAR 深度补全，在数值性能和视觉质量上均优于现有解决方案。我们的项目页面及源代码可在 https://johanan528.github.io/depthlab_web/ 获取。

Token-Budget-Aware LLM Reasoning

基于 Token 预算的大语言模型推理

推理是大语言模型 (LLMs) 在各类任务中表现出色的关键因素。尽管 Chain-of-Thought (CoT) 推理等方法通过将问题分解为中间步骤来提升 LLM 的性能，但它们也带来了显著的 Token 使用开销，进而增加了成本。我们发现，当前 LLM 的推理过程存在不必要的冗长，而通过在提示中引入合理的 Token 预算可以对其进行压缩。然而，Token 预算的选择对实际的压缩效果至关重要。为此，我们提出了一种基于 Token 预算的 LLM 推理框架，该框架根据推理复杂度动态估计不同问题的 Token 预算，并利用这些预算来指导推理过程。实验结果表明，我们的方法在 CoT 推理中显著降低了 Token 成本，同时仅带来轻微的性能损失，为平衡 LLM 推理的效率和准确性提供了一种实用的解决方案。代码：https://github.com/GeniusHTX/TALE。

YuLan-Mini: An Open Data-efficient Language Model

YuLan-Mini: 一个开放的数据高效语言模型大语言模型（LLMs）的有效预训练由于资源需求巨大且技术过程复杂，一直面临挑战。本文详细介绍了 YuLan-Mini 的技术报告，这是一个具有 2.42B 参数的高性能基础模型，在相似参数规模的模型中实现了顶级性能。我们的预训练方法通过三个关键技术贡献来提升训练效果：一个精细的数据处理流程结合了数据清理与数据调度策略，一个强大的优化方法用于缓解训练不稳定性，以及一个有效的退火策略，结合了有针对性的数据选择和长上下文训练。值得注意的是，YuLan-Mini 在 1.08T token（标记）的训练下，实现了与需要显著更多数据的行业领先模型相当的性能。为了便于复现，我们发布了每个训练阶段数据组成的完整细节。项目详情可通过以下链接访问：https://github.com/RUC-GSAI/YuLan-Mini。

DeepSeek-V3 Technical Report

DeepSeek-V3 技术报告

我们提出了 DeepSeek-V3，这是一种强大的专家混合模型（Mixture-of-Experts, MoE），其总参数量达到 6710 亿，每个 Token 激活的参数量为 370 亿。为实现高效推理和降低训练成本，DeepSeek-V3 采用了多头潜在注意力机制（Multi-head Latent Attention, MLA）和 DeepSeekMoE 架构，这些技术已经在 DeepSeek-V2 中经过全面验证。此外，DeepSeek-V3 开创了一种无需辅助损失的负载均衡策略，并引入多 Token 预测训练目标，进一步提升了模型性能。

我们在 14.8 万亿个多样化且高质量的 Token 数据上对 DeepSeek-V3 进行了预训练，随后进行了监督微调（Supervised Fine-Tuning）和强化学习阶段，充分挖掘模型能力。评估结果表明，DeepSeek-V3 在性能上超越了其他开源模型，并达到了与领先闭源模型相当的水平。尽管性能卓越，DeepSeek-V3 的完整训练仅消耗了 278.8 万小时的 H800 GPU 计算资源。更值得一提的是，其训练过程极其稳定，全程未出现任何不可恢复的损失峰值，也未执行过回滚操作。

模型的检查点现已开放，访问地址为：https://github.com/deepseek-ai/DeepSeek-V3。