Humanity’s Last Exam
基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类知识前沿设计,旨在成为同类中最后的封闭式学术基准测试,涵盖广泛的主题。
HLE 包含 3,000 个问题,跨越数十个学科,包括数学、人文学科和自然科学。HLE 由全球主题专家开发,包含适合自动化评分的多项选择题和简答题。每个问题都有一个已知的明确且易于验证的解决方案,但无法通过快速互联网检索获得答案。
先进的 LLMs 在 HLE 上表现出低准确性和校准度,突显了当前 LLM 能力与专家人类前沿之间的显著差距,在封闭式学术问题上的表现存在巨大差异。为了基于对模型能力的清晰理解来指导研究和政策制定,我们公开发布了 HLE,地址为https://lastexam.ai。
Chain-of-Retrieval Augmented Generation
本文提出了一种用于训练类似 o1 的 RAG 模型的方法,该方法在生成最终答案之前逐步检索和推理相关信息。传统的 RAG 方法通常在生成过程前执行单一检索步骤,这使得它们在处理复杂查询时效果受限,因为检索结果并不完美。相比之下,我们提出的 CoRAG(Chain-of-Retrieval Augmented Generation)方法允许模型根据动态变化的状态重新表述查询。
为了有效地训练 CoRAG,我们采用拒绝采样来自动生成中间检索链,从而增强仅提供正确最终答案的现有 RAG 数据集。在测试阶段,我们提出了多种解码策略,通过控制采样检索链的长度和数量,按比例调整模型的测试时间计算量。
实验结果跨越多个基准验证了 CoRAG 的有效性,特别是在多跳问答任务中,与强基线相比,观察到超过 10 分的改进在准确度(EM)分数方面。在 KILT 基准上,CoRAG 在各种知识密集型任务中建立了新的最先进性能。
此外,我们提供了全面的分析来理解 CoRAG 的扩展行为,为未来的研究奠定了基础,旨在开发事实性和有依据的基础模型。
Baichuan-Omni-1.5 Technical Report
我们介绍了百川-Omni-1.5,一个不仅具备全模态理解能力(omni-modal),还能提供端到端音频生成能力的全模态模型。为了在不妥协任何模态能力的前提下实现跨模态流畅、高质量交互,我们优先优化了三个关键方面。
首先,我们为多模态数据建立了一个全面的数据清洗和合成管道,获得了约 500B 高质量数据(文本、音频和视觉)。其次,设计了一种音频-Tokenizer(百川-音频-Tokenizer),能够从音频中捕获语义和声学信息,从而实现与 MLLM 的无缝集成和增强兼容性。最后,我们设计了一种多阶段训练策略,逐步整合多模态对齐和多任务微调,确保所有模态之间的有效协同。
百川-Omni-1.5 在综合全模态能力方面领先于当代模型(包括 GPT4o-_mini 和 MiniCPM-o 2.6)。值得注意的是,在各种多模态医学基准测试中,它实现了与 Qwen2-VL-72B 等领先模型相当的结果。
Qwen2.5-1M Technical Report
我们推出了 Qwen2.5-1M 系列模型,该系列将上下文长度扩展至 100 万 Token。与之前的 128K 版本相比,Qwen2.5-1M 系列通过长上下文的预训练和后训练,显著提升了长上下文处理能力。我们采用了如长数据合成、渐进式预训练以及多阶段监督微调等技术,既有效提升了长上下文的性能,又降低了训练成本。
为了让更多用户能够使用长上下文模型,我们开源了推理框架。该框架包括一种长度外推技术,能够在不进行额外训练的情况下,将模型的上下文长度扩展至至少原来的四倍,甚至更长。为了降低推理成本,我们实现了稀疏注意力机制,并结合了针对部署场景的分块预填充优化,同时采用了稀疏性精炼方法以提升精度。此外,我们还优化了推理引擎,涵盖了内核优化、流水线并行以及调度优化,从而显著提高了整体推理性能。通过我们的推理框架,Qwen2.5-1M 模型在 100 万 Token 上下文的场景中,预填充速度提升了 3 到 7 倍。这个框架为开发需要处理长上下文的应用程序,提供了一种高效且强大的开源解决方案。
目前,Qwen2.5-1M 系列包括开源模型 Qwen2.5-7B-Instruct-1M 和 Qwen2.5-14B-Instruct-1M,以及 API 访问模型 Qwen2.5-Turbo。评估结果表明,Qwen2.5-1M 模型在长上下文任务中的表现有了显著提升,同时在短上下文任务中并未降低性能。具体来说,Qwen2.5-14B-Instruct-1M 模型在长上下文任务上大幅超越了 GPT-4o-mini,并支持八倍长的上下文。
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-Training
监督微调 (SFT) 和强化学习 (RL) 是两种广泛应用的基础模型后训练技术。然而,它们在提升模型泛化能力方面的作用仍需进一步研究。
本文重点比较了 SFT 和 RL 在文本规则变体和视觉变体中的泛化与记忆特性。我们引入了 GeneralPoints 这一算术推理纸牌游戏,并采用 V-IRL 现实导航环境,评估使用不同训练方法的模型在面对未见过的文本和视觉变体时的表现。
研究结果表明,强化学习尤其在基于结果奖励的训练方式下,能够有效实现跨规则文本和视觉变体的泛化。而监督微调则更倾向于记忆训练数据,难以推广到分布外场景。进一步分析显示,强化学习不仅提升了模型的视觉识别能力,还增强了其在视觉领域的泛化性能。
尽管如此,研究也表明 SFT 对有效 RL 训练不可或缺。SFT 通过稳定模型输出格式,为后续强化学习提供基础,使其能够实现更好的性能提升。这些发现证实了强化学习在复杂多模态任务中获取可泛化知识的潜力。
Optimizing Large Language Model Training Using FP4 Quantization
随着大型语言模型(LLMs)训练计算需求的持续增长,亟需开发更高效的解决方案。量化训练通过引入低精度算术运算,为降低训练成本提供了有前景的方法。虽然 FP8 精度已展示出可行性,但 FP4 的应用仍面临重大挑战,主要源于显著的量化误差和有限的表现能力。本研究首次为 LLMs 推出了 FP4 训练框架,通过两大创新解决了这些问题:一种可微分的量化估计器实现精确权重更新,以及一个离群值钳制和补偿策略以防止激活坍塌。为了确保稳定性,该框架集成了混合精度训练方案和向量式量化。实验结果表明,我们的 FP4 框架在准确率上与 BF16 和 FP8 相当,且退化极小,成功扩展至使用 100B 标记训练的 13B 参数 LLMs。随着支持 FP4 的新一代硬件的出现,本框架为高效超低精度训练奠定了基础。
Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate
监督微调(SFT)通常用于训练语言模型,使其模仿给定指令的标注性回答。本文提出了一种新的策略——批判性微调(CFT),在该策略中,模型学习批判噪声响应,而不仅仅是模仿正确答案。CFT 的灵感来源于人类学习过程中注重批判性思维的特点,鼓励更深层次的分析与细致理解,这些特点在标准 SFT 中通常会被忽略。为了验证 CFT 的有效性,我们从 WebInstruct 构建了一个包含 50K 样本的数据集,使用 GPT-4o 作为教师,生成批判(格式为:[查询; 噪声响应],批判)。在此数据集上,CFT 在六个数学基准测试中,相比 SFT,在不同基础模型(如 Qwen2.5、Qwen2.5-Math 和 DeepSeek-Math)上取得了 4% 至 10% 的一致性提升。我们进一步扩展到 MetaMath 和 NuminaMath 数据集,发现相似的提升效果。值得注意的是,我们的 Qwen2.5-Math-CFT 模型只需在 8xH100 硬件上对 50K 样本进行 1 小时的训练,就能在大多数基准测试中与使用超过 200 万样本的强劲竞争者(如 Qwen2.5-Math-Instruct)匹敌或超越。同时,它的表现与 SimpleRL 模型相当,后者是使用比 CFT 多 140 倍计算量训练的 deepseek-r1 重现模型。消融实验表明,CFT 对噪声响应来源和教师批判模型具有较强的鲁棒性。基于这些结果,我们认为 CFT 提供了一种更有效的替代方法,能够推动语言模型的推理能力提升。
Atla Selene Mini: A General Purpose Evaluation Model
我们推出了 Atla Selene Mini,一款最先进的小型语言模型评判者(SLMJ)。Selene Mini 是一款通用评估器,在 11 个超出分布的基准测试中,全面超越了现有的最佳 SLMJ 和 GPT-4o-mini,涵盖了绝对评分、分类和成对偏好等任务。它是 RewardBench 上得分最高的 8B 生成模型,超越了如 GPT-4o 和专业评判者等强大基线。为实现这一目标,我们提出了一种有原则的数据策划策略,通过合成生成的批判增强公共数据集,并通过过滤与数据集消融确保数据质量。我们采用了结合直接偏好优化(DPO)和监督微调(SFT)损失的训练方法,最终训练出了一个高度可调的评估器,在实际应用中表现卓越。Selene Mini 在金融和医疗行业数据集上,与人类专家评估的零样本一致性显著提升。它对提示格式的变化也展现出强大的鲁棒性。初步结果显示,Selene Mini 在一个由社区驱动的实时 Judge Arena 中排名第一。我们已在 HuggingFace(此 https URL)和 Ollama 上发布了模型权重,旨在鼓励社区的广泛采用。
Thinking Are All Over the Place: On the Underthinking of o1-Link LLMs
OpenAI 的 o1 等大语言模型(LLMs)通过扩展推理时的计算资源,展现出类似人类深度思考的能力,在复杂推理任务中表现出了非凡的能力。然而,我们发现了一种被称为”浅层思考”(underthinking)的现象: o1 类 LLMs 经常在不同推理路径之间切换,而没有充分探索有潜力的路径以达到正确解答。这种行为导致推理深度不足和性能下降,特别是在解决具有挑战性的数学问题时表现明显。
为了系统分析这一问题,我们在三个具有挑战性的测试集和两个代表性的开源 o1 类模型上进行了实验,发现频繁的思维跳跃与错误输出密切相关。我们引入了一个新指标,通过测量错误结果中的 token 效能来量化浅层思考现象。为了解决浅层思考问题,我们提出了一种带有思路切换惩罚(TIP)的解码策略。该策略通过抑制不成熟的思维跳跃,鼓励对每个推理路径进行更深入的探索。
实验结果表明,我们的方法在不需模型微调的情况下提升了在具有挑战性数据集上的准确率。我们的发现有助于理解 o1 类 LLMs 推理效率低下问题,并为提升其问题求解能力提供了实用解决方案。
注: “TIP”全称为 Thought-switching Inhibition Penalty(思维跳跃抑制惩罚)