每周AI论文速递(250505-250509)

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

感知、推理、思考与规划:大模型多模态推理研究综述

推理是智能的核心能力,决定了系统在决策、结论推导及跨领域泛化方面的表现。在人工智能领域,随着系统日益需要在开放、不确定和多模态环境中运行,推理成为实现鲁棒性与自适应行为的关键。大型多模态推理模型 (Large Multimodal Reasoning Models, LMRMs) 作为一种新兴范式,通过整合文本、图像、音频和视频等多模态数据,旨在实现全面感知、精准理解和深度推理。该领域的研究已从早期的模块化感知驱动流程,发展为以语言为核心的统一框架,显著提升了跨模态理解的连贯性。尽管指令微调与强化学习提升了模型推理能力,但在全模态泛化、推理深度和智能体行为等方面仍存在挑战。为此,本文提出了一种基于四阶段发展路线图的系统性综述,该路线图反映了领域设计理念的演变与新兴能力。首先,我们分析了基于任务专用模块的早期研究,其推理过程隐含于表征、对齐与融合的各个阶段;其次,探讨了当前将推理统一至多模态大语言模型的方法,多模态思维链 (Multimodal Chain-of-Thought, MCoT) 和多模态强化学习等技术推动了结构化推理链的发展;最后,结合 OpenAI O3 和 O4-mini 的基准测试与实验案例,阐述了原生大型多模态推理模型 (Native-LMRMs, N-LMRMs) 的设计理念,该模型致力于在复杂现实环境中实现可扩展、自主和自适应的推理与规划能力。

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Absolute Zero:基于零数据的强化自我博弈推理

基于可验证奖励的强化学习 (Reinforcement Learning with Verifiable Rewards, RLVR) 通过直接利用结果反馈进行学习,显著提升了大语言模型的推理能力。当前基于零样本设置的 RLVR 研究虽然避免了对推理过程的标注监督,但仍需依赖人工标注的问答数据集进行训练。高质量人类生成样本的稀缺性引发了对其长期可扩展性的担忧——这一问题在语言模型预训练领域已显露无遗。更关键的是,当人工智能超越人类智能时,人类提供的任务可能难以满足超级智能系统的学习需求。为此,我们提出名为”绝对零度”的新型 RLVR 范式:单个模型通过自主生成能最大化学习进度的任务并进行求解来提升推理能力,全程无需任何外部数据支持。

基于该范式,我们开发了 Absolute Zero 推理器 (Absolute Zero Reasoner, AZR)。该系统采用代码执行器双重验证机制:既检验自主生成的代码推理任务,又验证求解结果,从而形成闭环的可验证奖励系统,驱动模型持续优化训练策略与推理能力。实验表明,尽管完全无需外部数据训练,AZR 在编程和数学推理任务上实现了全面的最先进性能 (SOTA),其表现甚至优于依赖数万条领域标注数据的零样本基准模型。此外,AZR 具备良好的规模扩展性,可适配不同参数量的模型架构。

Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

通过强化微调实现统一多模态思维链奖励模型

多模态奖励模型 (Reward Models, RMs) 的最新研究进展表明,其在为视觉模型提供符合人类偏好的奖励信号方面具有重要价值。然而,现有奖励模型通常只能生成直接响应或进行浅层推理,这往往导致奖励信号准确性不足。我们认为,在奖励推理过程中引入显式长思维链 (Chain-of-Thought, CoT) 可显著提升模型的可靠性和鲁棒性。此外,当奖励模型掌握思维链推理能力后,其直接响应的准确性也能通过隐式推理得到改善。为此,本文提出首个基于统一多模态思维链的奖励模型 UnifiedReward-Think,该模型能够针对视觉理解和生成任务执行多维度、分步骤的长链推理。具体实现上,我们采用探索驱动的强化微调策略来开发模型的潜在复杂推理能力:(1) 首先利用少量图像生成偏好数据蒸馏 GPT-4o 的推理过程,用于模型冷启动以学习思维链推理的格式结构;(2) 然后基于模型先验知识和泛化能力,构建大规模统一多模态偏好数据以激发模型在各类视觉任务中的推理能力,此阶段保留正确推理输出用于拒绝采样优化模型;(3) 最后将错误预测样本用于基于组相对策略优化 (Group Relative Policy Optimization, GRPO) 的强化微调,使模型能够探索多样化推理路径并优化出正确鲁棒的解决方案。大量视觉奖励任务的实验结果表明了我们模型的优越性。

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

现实场景中的Grokking现象:面向真实世界多跳推理的Transformer数据增强

Transformer在众多NLP任务中表现卓越,但在多步事实推理方面仍存在明显不足,特别是在现实世界知识稀疏的情况下。近期关于grokking(指神经网络从记忆到泛化的转变过程)的研究表明,当神经网络识别出底层逻辑模式后,能够实现从记忆到完美泛化的转变——但这些研究主要基于小型合成任务。本文首次将grokking研究扩展至真实世界事实数据,通过向现有知识图谱添加精心设计的合成数据来解决数据集稀疏性问题,将推断事实与原子事实(atomic facts)的比例$\phi_r$提升至grokking所需的临界值以上。令人惊讶的是,我们发现即使是包含事实错误的合成数据也能增强推理电路的形成而非降低准确性,因为这迫使模型依赖关系结构而非简单记忆。在多跳推理基准测试中,我们的方法在2WikiMultiHopQA上实现了95-100%的准确率——显著超越基准模型,并达到或超过当前最优水平。我们进一步深入分析了$\phi_r$的增加如何驱动Transformer内部泛化电路的形成。研究结果表明,基于grokking的数据增强能够释放隐式多跳推理能力,为实现大规模语言模型中更鲁棒且可解释的事实推理提供了新的可能。

Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

Voila:面向实时自主交互与语音角色扮演的语音-语言基础模型

理想的语音AI智能体应具备自主性、实时性和情感表达能力,能够无缝融入日常生活。它不仅响应指令,更能持续聆听、主动推理并实时反馈,实现流畅自然且富有情感的人机交互。我们提出Voila系列大语音-语言基础模型,通过新型端到端架构突破传统流水线系统的局限,在保持音调、节奏和情感等声学细节的同时,实现195毫秒超低延迟(低于人类平均反应时间)的全双工对话。其核心是分层多尺度Transformer架构,融合大语言模型的推理能力与高精度声学建模,支持基于文本指令的角色化语音生成(可定义说话者身份、语调等特征)。Voila提供超过100万种预置音色,并支持仅需10秒样本的高效音色定制。作为统一框架,该模型可扩展至自动语音识别(ASR)、文本转语音(TTS)及轻量适配的多语种语音翻译等场景。Voila已全面开源,以推动开放研究并加速下一代人机交互技术发展。

RM-R1: Reward Modeling as Reasoning

RM-R1: Reward Modeling as Reasoning

奖励建模对于实现大语言模型(LLMs)与人类偏好的对齐至关重要,特别是在基于人类反馈的强化学习(RLHF)框架下。为了提供准确的奖励信号,奖励模型(RM)应当在评分或判断前进行深度思考并执行可解释的推理过程。然而,现有奖励模型要么输出不透明的标量分数,要么直接预测偏好答案,导致其难以整合自然语言反馈,因而缺乏可解释性。受近期思维链(CoT)在推理密集型任务中取得进展的启发,我们提出假设并验证了将推理能力融入奖励建模可显著提升模型的可解释性和性能。本文提出了一类新型生成式奖励模型——推理奖励模型(ReasRMs),将奖励建模构建为推理任务。我们设计了一套面向推理的训练流程,并训练了系列模型RM-R1。该训练包含两个关键阶段:(1)高质量推理链的蒸馏;(2)基于可验证奖励的强化学习。RM-R1通过自生成推理轨迹或特定对话场景的评分标准,并据此评估候选响应来优化LLM输出。实验结果表明,我们的模型在多个综合奖励模型基准测试中达到了生成式奖励模型的SOTA或接近SOTA性能,较开源权重模型(如Llama3.1-405B)和商业模型(如GPT-4o)最高可提升13.8%。除最终性能外,我们还进行了全面的实证分析以揭示成功训练推理奖励模型的关键要素。为促进后续研究,我们在https://github.com/RM-R1-UIUC/RM-R1开源了六个推理奖励模型及相关代码与数据。

On Path to Multimodal Generalist: General-Level and General-Bench

迈向多模态通用智能体:通用层级 (General-Level) 与通用基准 (General-Bench)

多模态大语言模型 (Multimodal Large Language Model, MLLM) 目前正在大语言模型先进能力的推动下快速发展。与早期的专用系统不同,现有 MLLM 正朝着多模态通用智能体 (Multimodal Generalist) 的范式演进。这些模型最初仅具备多模态理解能力,现已发展为既能理解又能跨模态生成内容。其能力范围已从粗粒度多模态理解扩展到细粒度理解,从支持有限模态扩展到任意模态。虽然已有众多基准用于评估 MLLM,但一个关键问题随之产生:跨任务性能的提升是否直接对应 MLLM 能力的增强,使我们更接近人类水平的人工智能?我们认为答案并非如此简单。本项目提出通用层级 (General-Level),这是一个定义了 MLLM 性能与通用性的 5 级评估体系,提供了系统比较 MLLM 并衡量其向更强大通用智能体乃至最终向通用人工智能 (AGI) 演进的方法论。该框架的核心是协同性 (Synergy) 概念,用于评估模型在理解与生成之间、以及跨多模态之间是否保持能力一致性。为支持评估,我们构建了通用基准 (General-Bench),涵盖更广泛的技能、模态、格式和能力,包含超过 700 项任务和 325,800 个测试实例。通过对 100 余个现有最先进 MLLM 的评估,揭示了通用智能体的能力排名,同时展现了实现真正人工智能面临的挑战。我们期望本项目能为下一代多模态基础模型的研究奠定基础,为加速实现 AGI 提供坚实支撑。项目页面:https://generalist.top/

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

统一的多模态理解与生成模型:进展、挑战与机遇

近年来,多模态理解模型与图像生成模型均取得显著突破。虽然二者均获成功,但各自独立发展形成了截然不同的架构范式:自回归(autoregressive)架构主导多模态理解领域,而扩散(diffusion)模型则成为图像生成的基石。近期,开发统一框架以整合这两类任务的兴趣日益浓厚。GPT-4o展现的新能力正是这一趋势的体现,展现了统一化的潜力。然而,两类模型的架构差异构成了重大挑战。为系统梳理当前统一化研究的进展,本文提出全面综述以指导未来工作。首先阐述多模态理解与文生图模型的基础概念与前沿进展;继而将现有统一模型归纳为三大架构范式:扩散架构、自回归架构,以及融合二者的混合架构,并逐类剖析其结构设计与创新点;同时汇总了面向统一模型的数据集与评测基准,为后续研究提供资源支持;最后探讨该新兴领域面临的Token化策略(tokenization strategy)、跨模态注意力机制与数据等核心挑战。鉴于该领域尚处早期发展阶段,我们预计将快速迭代更新本综述,以期推动深入研究并为学界提供参考。相关文献资源详见GitHub(https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models)。

ZeroSearch: Incentivize the Search Capability of LLMs without Searching

ZeroSearch:无需搜索即可激励大语言模型的搜索能力

高效的信息搜索对增强大语言模型 (LLMs) 的推理和生成能力至关重要。近期研究尝试利用强化学习 (RL) 提升大语言模型的搜索能力,方法是让模型与现实环境中的实时搜索引擎交互。虽然这些方法展现出良好的效果,但仍面临两大挑战:(1) 文档质量不可控:搜索引擎返回的文档质量难以预测,为训练过程带来噪声和不稳定性;(2) API 成本过高:强化学习训练需要频繁执行 rollout (策略展开),可能涉及数十万次搜索请求,导致高昂的 API 费用并严重制约可扩展性。

为解决这些问题,我们提出 ZeroSearch——一种无需连接真实搜索引擎即可激励大语言模型搜索能力的强化学习框架。该方法首先通过轻量级监督微调,将大语言模型转化为能处理查询并生成相关文档与噪声文档的检索模块。在强化学习训练阶段,采用基于课程的 rollout 策略逐步降低生成文档质量,通过让模型面对日益复杂的检索场景来持续激发其推理能力。

实验表明,以 3B 大语言模型作为检索模块时,ZeroSearch 能有效提升模型的搜索能力。值得注意的是,7B 参数的检索模块性能已与真实搜索引擎相当,而 14B 模块甚至实现了超越。此外,该框架在各类参数规模的基础模型和指令调优模型上均表现出优秀的泛化能力,且兼容多种强化学习算法。

上一篇