Predictive Data Selection: The Data That Predicts Is the Data That Teaches
语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具体来说,我们借鉴了最近的发现,这些发现表明,当文本领域与下游基准匹配时,多样化模型在某些文本上的压缩效率(即归一化损失)与其下游性能密切相关(Huang et al., 2024)。基于这一观察,我们假设模型损失能够预测下游能力的数据对学习有显著贡献。为了利用这一见解,我们引入了基于数据预测强度(Preselect)的数据选择方法,这是一种轻量级且高效的数据选择方法,仅需训练和部署一个基于 fastText 的评分器。通过对 1B 和 3B 参数模型的广泛实验,我们证明了使用 PreSelect 选择的 30B token 训练的模型性能超过了在 300B token 上训练的普通基线模型,使计算需求减少了 10 倍。此外,PreSelect 在 3B 模型上使用 100B token 进行训练时,显著优于其他竞争性数据选择基线,如 DCLM 和 FineWeb-Edu。我们在 https://github.com/hkust-nlp/PreSelect 上公开了我们训练的数据选择评分器以及精选的数据集。
Chain of Draft: Thinking Faster by Writing Less
大语言模型 (LLMs) 在解决复杂推理任务时表现出色,这主要归功于 Chain-of-Thought (CoT) 提示机制,该机制强调逐步推理的过程。然而,人类通常采用更高效的策略:生成简洁的中间思考,仅保留关键信息。在这项工作中,我们提出了 Chain of Draft (CoD),这是一种受人类认知过程启发的新范式,LLMs 在解决任务时生成简约但信息丰富的中间推理输出。通过减少冗余并聚焦于关键信息,CoD 在准确性上与 CoT 相当甚至更优,同时仅使用 7.6% 的 Token,大幅降低了各种推理任务的成本和延迟。
DeepSolution: Boosting Complex Engineering Solution Design via Tree-based Exploration and Bi-point Thinking
DeepSolution: 通过基于树的探索和双点思维增强复杂工程解决方案设计
在人类生产活动中,为复杂工程问题设计解决方案至关重要。然而,之前的研究在检索增强生成技术 (RAG) 领域并未充分涉及与复杂工程解决方案设计相关的任务。为了填补这一空白,我们引入了一个新的基准,SolutionBench,用于评估系统在生成具有多重复杂约束的工程问题的完整且可行的设计方案方面的能力。为了进一步推进复杂工程解决方案的设计,我们提出了一种新颖的系统,SolutionRAG,该系统利用基于树的探索和双点思维机制生成可靠的解决方案。大量的实验结果表明,SolutionRAG 在 SolutionBench 上实现了领先的 (SOTA) 性能,突显了其在现实应用中增强复杂工程解决方案设计的自动化和可靠性的潜力。
Multi-Turn Code Generation Through Single-Step Rewards
我们解决了从多轮执行反馈中生成代码的问题。现有方法要么无反馈生成代码,要么使用复杂的层次化强化学习来优化多轮奖励。我们提出了一种简单但可扩展的方法,muCode,它仅使用单步奖励来解决多轮代码生成问题。我们的核心观点是,代码生成是一个单步可恢复的 MDP,即正确的代码可以在任何中间状态下通过单轮恢复。muCode 迭代训练生成器和验证器,前者根据多轮执行反馈生成代码,后者对新生成的代码进行评分。实验表明,我们的方法显著优于现有技术基线。我们分析了奖励模型和策略的设计选择,并展示了 muCode 利用执行反馈的有效性。我们的代码可在 https://github.com/portal-cornell/muCode 获取。
How far can we go with ImageNet for Text-to-Image generation?
最近的文本到图像(T2I)生成模型通过在十亿级数据集上训练取得了显著成果,遵循了“规模越大越好”的范式,优先考虑数据数量而非质量。我们通过展示对小规模、精心整理的数据集进行策略性数据增强可以匹配或超越在大规模网络爬取数据集上训练的模型,挑战了这一既定范式。仅使用经过精心设计的文本和图像增强的 ImageNet,我们在 GenEval 上比 SD-XL 高出 2 分,在 DPGBench 上高出 5 分,同时仅使用了十分之一的参数和千分之一的训练图像。我们的结果表明,策略性数据增强,而非大规模数据集,可能为 T2I 生成提供一条更可持续的前进道路。
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs
Phi-4-Mini 技术报告:通过 Mixture-of-LoRAs 实现紧凑而性能强大的多模态语言模型
我们介绍了 Phi-4-Mini 和 Phi-4-Multimodal,这是紧凑但性能强大的语言和多模态模型。Phi-4-Mini 是一个拥有 38 亿参数的语言模型,基于高质量的网络和合成数据进行训练,在性能上显著超越最近的开源模型,并在需要复杂推理的数学和编码任务上匹配了其两倍大小的模型的性能。这一成就归功于精心策划的合成数据配方,强调了高质量的数学和编码数据集。与其前身 Phi-3.5-Mini 相比,Phi-4-Mini 扩展了词汇量,达到 200K tokens,以更好地支持多语言应用,并引入了分组查询注意力机制,以实现更高效的长序列生成。Phi-4-Multimodal 是一个多模态模型,将文本、视觉和语音/音频输入模态集成到一个单一模型中。Phi-4-Multimodal 的新颖模态扩展方法利用 LoRA 适配器和模态特定路由器,允许多种推理模式结合各种模态而互不干扰。例如,它目前在 OpenASR 排行榜上排名第一,尽管语音/音频模态的 LoRA 组件仅有 4.6 亿参数。Phi-4-Multimodal 支持涉及(视觉 + 语言)、(视觉 + 语音)和(语音/音频)输入的场景,在广泛的任务上在性能上超越更大的视觉语言和语音语言模型。此外,我们进行了实验,进一步训练 Phi-4-Mini 以增强其推理能力。尽管其参数规模仅为 38 亿,这个实验版本在推理性能上达到或超过了显著更大的模型,包括 DeepSeek-R1-Distill-Qwen-7B 和 DeepSeek-R1-Distill-Llama-8B。
Visual-RFT: Visual Reinforcement Fine-Tuning
在类似 OpenAI o1 这样的大规模推理模型中,强化微调 (Reinforcement Fine-Tuning, RFT) 通过从模型输出的反馈中学习,在微调数据稀缺的应用场景中尤为有效。最近的开源工作如 DeepSeek-R1 表明,基于可验证奖励的强化学习是重现 o1 模型性能的关键方向之一。尽管 R1 风格的模型在语言模型中取得了成功,但其在多模态领域的应用仍处于探索阶段。本文提出了视觉强化微调 (Visual-RFT),进一步扩展了 RFT 在视觉任务中的应用范围。具体而言,Visual-RFT 首先利用大视觉语言模型 (Large Vision-Language Models, LVLMs) 为每个输入生成包含推理 Token 和最终答案的多个响应,然后通过我们提出的视觉感知可验证奖励函数,结合策略优化算法(如 Group Relative Policy Optimization, GRPO)来更新模型。我们针对不同的感知任务设计了不同的可验证奖励函数,例如用于目标检测的交并比 (Intersection over Union, IoU) 奖励。在细粒度图像分类、少样本目标检测、推理基础以及开放词汇目标检测等基准测试中,实验结果表明,与监督微调 (Supervised Fine-tuning, SFT) 相比,Visual-RFT 展现出更强的性能和泛化能力。例如,在仅有约 100 个样本的单样本细粒度图像分类任务中,Visual-RFT 的准确率比基线模型提高了 24.3%。在少样本目标检测任务中,Visual-RFT 在 COCO 数据集的两样本设置中比基线高出 21.9,在 LVIS 数据集中高出 15.4。Visual-RFT 代表了微调 LVLMs 的一种新范式,提供了一种高效利用数据、基于奖励驱动的方法,显著提升了特定领域任务的推理能力和适应性。
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
神经辐射场(Neural Radiance Fields)和 3D 高斯溅射(3D Gaussian Splatting)已经彻底改变了 3D 重建和新视角合成任务。然而,从极端视角实现逼真渲染仍然具有挑战性,因为伪影在 3D 表示中持续存在。在这项工作中,我们介绍了 Difix3D+,这是一种通过单步扩散模型增强 3D 重建和新视角合成的新颖流程。我们方法的核心是 Difix,这是一种单步图像扩散模型,旨在增强和去除由 3D 表示中欠约束区域引起的渲染新视角中的伪影。Difix 在我们的流程中承担两个关键角色。首先,它在重建阶段用于清理从重建中渲染的伪训练视图,然后将其蒸馏回 3D。这大大增强了欠约束区域的质量,并提高了整体 3D 表示质量。更重要的是,Difix 还在推理过程中作为神经增强器,有效去除由不完美的 3D 监督和当前重建模型容量有限而产生的残留伪影。Difix3D+ 是一个通用解决方案,一个与 NeRF 和 3DGS 表示兼容的单一模型,它在保持 3D 一致性的同时,与基线相比平均提高了 2 倍的 FID 分数。
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
推理时推断 (Test-time inference) 已成为一种强大的范式,使语言模型能够像熟练的人类专家一样,对复杂挑战进行更长时间和更仔细的“思考”。虽然强化学习 (Reinforcement Learning, RL) 可以推动语言模型在可验证任务上的自我改进,但一些模型表现出显著的增益,而其他模型则很快达到瓶颈。例如,我们发现 Qwen-2.5-3B 在相同的 RL 训练下,在 Countdown 游戏中的表现远远超过 Llama-3.2-3B。这种差异引发了一个关键问题:哪些内在特性使得有效的自我改进成为可能?我们引入了一个框架,通过分析四个关键的认知行为——验证 (Verification)、回溯 (Backtracking)、子目标设定 (Subgoal Setting) 和反向链 (Backward Chaining)——来研究这个问题,这些行为既被专家级人类问题解决者使用,也被成功的语言模型采用。我们的研究表明,Qwen 自然地表现出这些推理行为,而 Llama 最初缺乏这些行为。在使用受控行为数据集进行的系统实验中,我们发现,通过包含这些推理行为的示例对 Llama 进行预训练 (Priming),可以在 RL 期间实现显著的改进,达到或超过 Qwen 的表现。重要的是,推理行为的存在,而不是答案的正确性,被证明是关键因素——使用包含正确推理模式的错误解决方案进行预训练的模型,与使用正确解决方案训练的模型相比,表现相当。最后,利用 OpenWebMath 数据进行持续预训练,并通过过滤增强推理行为,使 Llama 模型能够匹配 Qwen 的自我改进轨迹。我们的研究结果建立了初始推理行为与改进能力之间的基本关系,解释了为什么一些语言模型能够有效利用额外的计算资源,而其他模型则达到瓶颈。
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion
DiffRhythm: 基于潜在扩散 (Latent Diffusion) 的极速且极其简单的端到端完整歌曲生成
近年来,音乐生成领域的进展引起了广泛关注,然而现有方法仍面临一些关键限制。当前的一些生成模型只能合成人声轨道或伴奏轨道。虽然有些模型能够生成结合人声和伴奏的音乐,但它们通常依赖于精心设计的多级级联架构和复杂的数据管道,这阻碍了可扩展性 (Scalability)。此外,大多数系统仅限于生成短音乐片段,而非完整歌曲。此外,广泛使用的基于语言模型的方法存在推理速度慢的问题。为了解决这些挑战,我们提出了 DiffRhythm,这是第一个基于潜在扩散 (Latent Diffusion) 的歌曲生成模型,能够在仅十秒内合成包含人声和伴奏的完整歌曲,时长可达 4 分 45 秒,同时保持高音乐性和清晰度。尽管 DiffRhythm 具有显著的能力,但其设计简单而优雅:它消除了复杂数据准备的需求,采用了简单的模型结构,并且在推理过程中仅需要歌词和风格提示。此外,其非自回归 (Non-autoregressive) 结构确保了快速的推理速度。这种简洁性保证了 DiffRhythm 的可扩展性 (Scalability)。此外,我们发布了完整的训练代码以及在大规模数据上预训练的模型,以促进可重复性和进一步研究。
SemViQA: A Semantic Question Answering System for Vietnamese Information Fact-Checking
随着 GPT 和 Gemini 等大语言模型 (Large Language Models, LLMs) 的兴起,错误信息的增加要求强大的事实核查解决方案,特别是对于像越南语这样的低资源语言。现有方法在处理语义歧义、同音词和复杂语言结构时常常面临困难,往往在准确性和效率之间做出妥协。我们介绍了 SemViQA,一个新颖的越南语事实核查框架,集成了基于语义的证据检索 (Semantic-based Evidence Retrieval, SER) 和两步裁决分类 (Two-step Verdict Classification, TVC)。我们的方法在精度和速度之间取得了平衡,在 ISE-DSC01 上达到了 78.97% 的严格准确率,在 ViWikiFC 上达到了 80.82% 的准确率,在 UIT Data Science Challenge 中获得了第一名。此外,SemViQA Faster 将推理速度提高了 7 倍,同时保持了有竞争力的准确率。SemViQA 为越南语事实核查设定了新的基准,推动了对抗错误信息的斗争。源代码可在以下网址获取:https://github.com/DAVID-NGUYEN-S16/SemViQA。
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers
Babel: 开放的多语言大语言模型,服务全球超过 90% 的用户
大语言模型(LLMs)已经彻底改变了自然语言处理(NLP),然而开源的多语言大语言模型仍然稀缺,现有的模型在语言覆盖范围上存在局限性。这些模型通常优先考虑数据资源丰富的语言,而广泛使用但数据资源匮乏的语言往往被忽视。为了解决这种不平衡,我们引入了 Babel,一个开放的多语言大语言模型,覆盖了按用户数量排名前 25 的语言,支持超过 90% 的全球人口,并包括了许多被其他开放多语言大语言模型忽视的语言。与传统的继续预训练方法不同,Babel 通过层扩展技术增加其参数量,从而提升了 Babel 的性能上限。我们引入了两个变体:Babel-9B,为高效推理和微调设计,以及 Babel-83B,它为开放多语言大语言模型设定了新的标准。在多语言任务上的广泛评估表明,与类似规模的开源大语言模型相比,Babel 表现出卓越的性能。此外,使用开源的有监督微调数据集,Babel 取得了显著的性能,其中 Babel-9B-Chat 在 10B 参数规模的大语言模型中领先,而 Babel-83B-Chat 为多语言任务设定了新的标准,达到了与商业模型相同的性能水平。
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs
大语言模型 (LLMs) 的一个致命缺陷是它们倾向于生成非事实性陈述。一个混合了事实和非事实性陈述的响应给人类验证和准确决策带来了挑战。为了解决这个问题,我们提出了高亮思维链提示 (HoT),这是一种提示 LLMs 生成带有 XML 标签的响应的技术,这些标签将事实与查询中的事实关联起来。也就是说,给定一个输入问题,LLMs 首先会重新格式化问题并添加 XML 标签以突出关键事实,然后生成一个带有从输入中引用的事实的高亮的响应。有趣的是,在少样本设置中,HoT 在从算术、阅读理解到逻辑推理的 17 个任务上优于普通的思维链提示 (CoT)。当要求人类验证 LLM 响应时,高亮帮助时间有限的参与者更准确高效地识别 LLMs 的正确性。然而,令人惊讶的是,当 LLMs 出错时,HoT 往往会让用户误以为答案是正确的。
Process-based Self-Rewarding Language Models
大语言模型在各种下游任务中表现出色,并已广泛应用于多种场景。为了进一步提升大语言模型的性能,通常使用人工标注的偏好数据进行训练,但这受到人类能力上限的限制。为此,研究者提出了自奖励方法,即大语言模型通过奖励自身的输出来生成训练数据。然而,现有的自奖励范式在数学推理场景中效果不佳,甚至可能导致性能下降。在本研究中,我们提出了基于过程的自奖励语言模型管道,该管道在自奖励范式中引入了长思维推理、逐步的大语言模型作为评判者以及逐步的偏好优化。通过迭代的基于过程的自奖励,我们的新范式成功提升了大语言模型在多个数学推理基准上的性能,展示了自奖励在实现可能超越人类能力的大语言模型推理方面的巨大潜力。
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding
KodCode: 一个多样化、具有挑战性且可验证的编码合成数据集
我们推出了 KodCode,这是一个合成数据集,旨在解决在多样化的难度和领域中获取高质量、可验证的训练数据以训练大语言模型进行编码的长期挑战。现有的代码资源通常无法同时确保覆盖范围的广度(例如,从简单的编码任务到高级算法问题)和可验证的正确性(例如,单元测试)。相比之下,KodCode 包含通过自验证程序系统验证的问题-解决方案-测试三元组。我们的流程首先合成广泛的编码问题,然后生成解决方案和测试用例,并为具有挑战性的问题分配额外的尝试。最后,通过将问题重写为多种格式,并从推理模型(DeepSeek R1)中基于测试的拒绝采样程序生成响应,完成训练后数据合成。这一流程产生了一个大规模、稳健且多样化的编码数据集。KodCode 适用于监督微调,配对的单元测试也为强化学习调优提供了巨大的潜力。在编码基准测试(HumanEval(+), MBPP(+), BigCodeBench, 和 LiveCodeBench)上的微调实验表明,经过 KodCode 微调的模型实现了最先进的性能,超越了 Qwen2.5-Coder-32B-Instruct 和 DeepSeek-R1-Distill-Llama-70B 等模型。
START: Self-taught Reasoner with Tools
像 OpenAI-o1 和 DeepSeek-R1 这样的大型推理模型 LRMs 通过利用长链思维 CoT 在复杂推理任务中展示了显著的能力。然而,这些模型由于仅依赖内部推理过程,常常会出现幻觉和低效的问题。在本文中,我们介绍了 START,这是一种新颖的工具集成长链思维推理大语言模型,通过利用外部工具显著增强了推理能力。通过代码执行,START 能够执行复杂的计算、自我检查、探索多种方法并进行自我调试,从而解决了 LRMs 的局限性。START 的核心创新在于其自学习框架,该框架包含两个关键技术:1) Hint-infer:我们展示了在 LRM 的推理过程中插入人工设计的提示 (例如,“等一下,也许在这里使用 Python 是个好主意。”) 能够有效激发其利用外部工具的能力,而无需任何演示数据。Hint-infer 还可以作为一种简单有效的序列测试时间扩展方法;2) 提示拒绝采样微调 Hint-RFT:Hint-RFT 通过评分、过滤和修改由 LRM 通过 Hint-infer 生成的带有工具调用的推理轨迹,结合 Hint-infer 和 RFT,然后对 LRM 进行微调。通过这一框架,我们对 QwQ-32B 模型进行了微调,实现了 START。在博士级科学问答 GPQA、竞赛级数学基准 AMC23, AIME24, AIME25 和竞赛级代码基准 LiveCodeBench 上,START 的准确率分别达到了 63.6%、95.0%、66.7%、47.1% 和 47.3%。它显著优于基础 QwQ-32B,并达到了与最先进的开源权重模型 R1-Distill-Qwen-32B 和专有模型 o1-Preview 相当的性能。
Token-Efficient Long Video Understanding for Multimodal LLMs
近年来,视频驱动的多模态大语言模型(Video-LLMs)通过将视频处理为图像帧序列,显著提升了视频理解能力。然而,许多现有方法在视觉主干中独立处理帧,缺乏显式的时间建模机制,这限制了它们捕捉动态模式并高效处理长视频的能力。为了解决这些限制,我们引入了 STORM(面向多模态大语言模型的时空 Token 缩减),这是一种新颖的架构,在图像编码器和大语言模型之间引入了一个专门的时间编码器。我们的时间编码器利用 Mamba 状态空间模型将时间信息整合到图像 Token 中,生成保留整个视频序列中帧间动态信息的丰富表示。这种丰富的编码不仅增强了视频推理能力,还支持有效的 Token 缩减策略,包括测试时采样和基于训练的时间和空间池化,从而在不牺牲关键的时间信息的情况下显著降低大语言模型的计算需求。通过整合这些技术,我们的方法在减少训练和推理延迟的同时提高了性能,实现了在长时间上下文中的高效且鲁棒的视频理解。广泛的评估表明,STORM 在各种长视频理解基准测试中取得了最先进的结果(在 MLVU 和 LongVideoBench 上提升了超过 5%),同时在固定输入帧数的情况下,计算成本降低了最多 8 倍,解码延迟减少了 2.4-2.9 倍。项目页面可在 https://research.nvidia.com/labs/lpr/storm 访问。
LLMVoX: Autoregressive Streaming Text-to-Speech Model for Any LLM
LLMVoX: 适用于任何大语言模型的自回归流式文本到语音模型
近期,语音对话系统利用大语言模型实现了多模态交互,但仍面临微调需求高、计算开销大以及文本-语音不对齐等问题。现有的语音增强大语言模型通常通过修改模型来降低对话质量,从而削弱其语言能力。相比之下,我们提出了LLMVoX,一个轻量级的3000万参数、与大语言模型无关的自回归流式文本到语音系统,能够在低延迟下生成高质量语音,同时完全保留基础大语言模型的能力。与现有的语音增强大语言模型相比,LLMVoX在词错误率上显著降低,同时保持了相当的延迟和UTMOS评分。通过多队列Token流式系统将语音合成与大语言模型处理解耦,LLMVoX支持无缝、无限长度的对话。其即插即用的设计也便于扩展到不同骨干的各种任务。此外,LLMVoX仅需数据集适应即可推广到新语言,并在阿拉伯语语音任务中实现了低字符错误率。我们还将其与视觉-语言模型集成,创建了一个具备语音、文本和视觉能力的全能模型,且无需额外的多模态训练。我们的代码库和项目页面可在https://mbzuai-oryx.github.io/LLMVoX 获取。
EgoLife: Towards Egocentric Life Assistant
我们介绍了 EgoLife,一个旨在开发以用户为中心的生活助手的项目,该助手通过 AI 驱动的可穿戴眼镜陪伴并提升个人效率。为了为这个助手奠定基础,我们进行了一项全面的数据收集研究,六名参与者共同生活了一周,持续记录他们的日常活动(包括讨论、购物、烹饪、社交和娱乐),使用 AI 眼镜进行多模态个人视角视频捕捉,并同步第三方视角视频参考。通过这项研究,我们构建了 EgoLife 数据集,一个包含 300 小时个人视角、人际、多视角和多模态日常生活的综合数据集,并进行了详细的标注。利用这个数据集,我们引入了 EgoLifeQA,一套长时间跨度上下文、面向生活的问题回答任务,旨在通过解决实际问题(如回忆过去的相关事件、监控健康习惯和提供个性化推荐)来提供有意义的日常生活帮助。为了解决以下关键技术挑战:(1)开发用于个人视角数据的鲁棒视觉-音频模型,(2)实现身份识别,以及(3)促进在广泛时间信息上的长时间跨度上下文问题回答,我们引入了 EgoButler,一个包含 EgoGPT 和 EgoRAG 的集成系统。EgoGPT 是一个在个人视角数据集上训练的多模态模型,在个人视角视频理解方面达到了最先进的性能。EgoRAG 是一个基于检索的组件,支持回答超长时间跨度上下文问题。我们的实验研究验证了它们的工作机制,并揭示了关键因素和瓶颈,指导未来的改进。通过发布我们的数据集、模型和基准,我们旨在激发对个人视角 AI 助手的进一步研究。