分类: 每周AI论文速递

54 篇文章

每周AI论文速递(250310-250314)
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders 使用稀疏自编码器进行生成文本检测的特征级洞察 随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效…
每周AI论文速递(250303-250307)
Predictive Data Selection: The Data That Predicts Is the Data That Teaches 预测性数据选择:预测的数据即教学的数据 语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具…
每周AI论文速递(250217-250221)
Large Language Diffusion Models 大语言扩散模型 自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的…
每周AI论文速递(250210-250214)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 利用隐式推理扩大测试时间计算的深度:一种循环深度方法 我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开…
每周AI论文速递(250203-250207)
s1: Simple test- time scaling s1: 测试时间缩放研究 测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s…
每周AI论文速递(250127-250131)
Humanity's Last Exam 人类的最终考试 基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而,这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%,这限制了对先进 LLM 能力的有根据测量。作为回应,我们介绍了“人类的最终考试”(HLE),这是一个多模式基准测试,在人类…
每周AI论文速递(250120-250124)
Evolving Deeper LLM Thinking 大语言模型思维的深度进化 我们探索了一种进化搜索策略,用于扩展大语言模型中的推理计算时间。我们提出的方法,Mind Evolution,利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时,避免了形式化底层推理问题的需求。在控制推理成本的前提下,我们发现 Mind Evolut…
每周AI论文速递(250113-250117)
Enabling Scalable Oversight via Self-Evolving Critic 通过自我进化的批评者实现可扩展的监督 尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释…
每周AI论文速递(250106-250110)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation 我们介绍了 EnerVerse,一个专门为机器人操作任务设计的具身…
每周AI论文速递(241230-250103)
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs HuatuoGPT-o1, 面向医学复杂推理的大语言模型 OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不…