分类: 每周AI论文速递

47 篇文章

每周AI论文速递(250113-250117)
Enabling Scalable Oversight via Self-Evolving Critic 通过自我进化的批评者实现可扩展的监督 尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释…
每周AI论文速递(250106-250110)
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation 我们介绍了 EnerVerse,一个专门为机器人操作任务设计的具身…
每周AI论文速递(241230-250103)
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs HuatuoGPT-o1, 面向医学复杂推理的大语言模型 OpenAI 的 GPT-4 突破突显了通过增强推理能力来改进大语言模型的潜力。然而,大多数关于推理的研究都集中在数学任务上,而像医学这样的领域则研究较少。尽管医学领域与数学不…
每周AI论文速递(241223-241227)
Parallelized Autoregressive Visual Generation 并行化自回归视觉生成 自回归模型是视觉生成的一种强大方法,但由于其逐 Token 的序列预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是,并行生成依赖于…
每周AI论文速递(241216-241220)
Apollo: An Exploration of Video Understanding in Large Multimodal Models Apollo: 大语言模型中视频理解探索 尽管视频感知能力已迅速集成到大语言模型 (LMM) 中,但其驱动视频理解的基础机制仍未被充分理解。因此,该领域中的许多设计决策缺乏适当的依据或分析。训练和评估此类…
每周AI论文速递(241209-241213)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling 扩展开源多模态模型的性能边界:模型、数据与测试时扩展 我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进…
每周AI论文速递(241202-241206)
GRAPE: Generalizing Robot Policy via Preference Alignment GRAPE: 通过偏好对齐泛化机器人策略 尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其…
每周AI论文速递(241125-241129)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training TÜLU 3: 推动开放语言模型后训练的前沿 语言模型后训练用于精炼行为并解锁近期语言模型的新技能,但应用这些技术的开放配方落后于专有配方。底层训练数据和后训练配方既是最重要的拼图部分,也是透明度最低的部分。为了弥合这一差距…
每周AI论文速递(241118-241122)
LLaVA-o1: Let Vision Language Models Reason Step-by-Step LLaVA-o1: 让视觉语言模型逐步推理 大语言模型在推理能力上取得了显著进展,尤其是在推理时间扩展方面,如 OpenAI 的 o1 模型所示。然而,当前的视觉语言模型 (VLMs) 在处理系统性和结构化推理时往往表现不佳,尤其是在复…
每周AI论文速递(241111-241115)
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation LLM2CLIP: 强大的语言模型解锁更丰富的视觉表示 CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然…