LLaVA-o1: Let Vision Language Models Reason Step-by-Step
大语言模型在推理能力上取得了显著进展,尤其是在推理时间扩展方面,如 OpenAI 的 o1 模型所示。然而,当前的视觉语言模型 (VLMs) 在处理系统性和结构化推理时往往表现不佳,尤其是在复杂的视觉问答任务中。为此,我们提出了 LLaVA-o1,一种新型 VLM,旨在进行自主的多阶段推理。与传统的思维链提示不同,LLaVA-o1 独立地进行一系列阶段,包括总结、视觉解释、逻辑推理和结论生成。这种结构化的推理方式使得 LLaVA-o1 在推理密集型任务中实现了显著的精度提升。为了实现这一目标,我们构建了 LLaVA-o1-100k 数据集,整合了来自多种视觉问答来源的样本,并提供了结构化推理注释。此外,我们还提出了一种推理时间阶段级束搜索方法,有效提升了推理时间扩展的效率。特别值得一提的是,仅使用 100k 训练样本和一种简单而有效的推理时间扩展方法,LLaVA-o1 不仅在广泛的跨模态推理基准上比其基础模型高出 8.9%,还超越了更大甚至闭源模型(如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct)的性能。
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement
本文介绍了一种名为 RAG 的区域感知文本到图像生成方法,该方法基于区域描述,旨在实现精确的布局组合。区域提示或组合生成技术因其能够进行细粒度的空间控制,在实际应用中展现出巨大潜力,因而备受关注。然而,以往的方法要么引入额外可训练模块,仅适用于特定模型,要么通过在交叉注意力层中使用注意力掩码操纵分数图,导致在区域数量增加时控制力减弱。为解决这些问题,我们将多区域生成任务分解为两个子任务:确保区域提示有效执行的单区域构建(硬绑定),以及消除视觉边界并增强相邻区域交互的整体细节优化(软优化)。此外,RAG 还创新性地实现了重绘功能,用户可以在不改变其他区域的情况下,对上一次生成中的不满意区域进行修改,无需依赖额外修复模型。该方法无需调优,可作为其他框架提示跟随属性的增强手段。定量和定性实验结果表明,RAG 在属性绑定和对象关系方面优于以往的无调优方法。
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use
GUI 智能体的兴起:Claude 3.5 计算机使用的初步案例研究
最近发布的 Claude 3.5 计算机使用模型,作为首个提供计算机使用公共测试版图形用户界面 (GUI) 智能体的前沿 AI 模型,引起了广泛关注。尽管目前仍处于早期测试阶段,其在现实复杂环境中的实际能力尚待验证。在本研究中,我们精心设计并组织了一系列跨领域和软件的任务,以深入探索 Claude 3.5 计算机使用的潜力。通过这些案例的观察,我们发现 Claude 3.5 在端到端语言到桌面操作方面展现出了前所未有的能力。
此外,我们还提供了一个开箱即用的智能体框架,便于部署基于 API 的 GUI 自动化模型。我们的案例研究不仅详细分析了 Claude 3.5 的能力与局限,还提出了关于规划、行动和批评的思考,为未来的改进指明了方向。我们期待这一初步探索能够激发 GUI 智能体领域的更多研究。论文中的所有测试案例均可通过以下项目进行尝试:
https://github.com/showlab/computer_use_ootb.
Generative World Explorer
在具身 AI 领域,如何在部分观测的情况下进行有效规划是一个关键难题。以往的研究大多通过开发能够实际探索环境的智能体来解决这一问题,从而更新其对世界状态的认识。与此不同,人类能够通过心理探索想象未知的世界部分,并根据这些想象中的观测结果调整自己的信念。这种更新后的信念使他们能够做出更为明智的决策,而不必时刻进行实际的物理探索。为了模拟这种人类能力,我们提出了生成式世界探索器 (Genex),这是一个以自我为中心的世界探索框架,允许智能体在心理上探索大规模的 3D 世界(如城市场景),并获取想象中的观测结果以更新其信念。这种更新后的信念将有助于智能体在当前步骤做出更为明智的决策。为了训练 Genex,我们构建了一个合成城市场景数据集,即 Genex-DB。
我们的实验结果显示:(1) Genex 能够在长时间探索大规模虚拟物理世界时生成高质量且一致的观测结果;(2) 通过这些生成的观测结果更新的信念能够指导现有的决策模型(如大语言模型智能体)做出更优的规划。
BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices
BlueLM-V-3B: 面向移动设备的多模态大语言模型的算法与系统协同设计
多模态大语言模型 (MLLMs) 的兴起及其广泛应用,极大地提升了日常生活的多个方面,从沟通效率到学习与问题解决能力。移动电话作为日常生活中的重要工具,成为 MLLMs 最理想且便捷的部署平台,能够无缝融入各种日常任务。然而,在移动设备上部署 MLLMs 面临内存和计算能力有限的挑战,难以在不进行深度优化的情况下实现流畅且实时的处理。本文介绍了 BlueLM-V-3B,这是一种专为移动平台高效部署 MLLMs 而设计的算法与系统协同优化方案。具体来说,我们重新设计了主流 MLLMs 采用的动态分辨率方案,并针对硬件特性进行了系统优化,以提升移动设备上的模型推理效率。BlueLM-V-3B 的主要特点包括:(1) 小尺寸:包含一个 2.7B 参数的语言模型和一个 400M 参数的视觉编码器。(2) 快速速度:在联发科天玑 9300 处理器上,采用 4 位大语言模型权重量化,实现了 24.4 token/s 的生成速度。(3) 强大性能:在 OpenCompass 基准测试中,BlueLM-V-3B 以 66.1 的平均分数在参数小于等于 4B 的模型中位居榜首,并超越了多个参数规模更大的模型(如 MiniCPM-V-2.6 和 InternVL2-8B)。
RedPajama: an Open Dataset for Training Large Language Models
大语言模型正逐渐成为人工智能、科学及整个社会的关键技术,然而,数据集构建和筛选的最佳策略仍未明朗。许多顶尖模型在数据集策划和模型开发过程中缺乏透明度,这成为完全开放语言模型发展的障碍。本文中,我们识别了三个核心数据相关挑战,必须解决这些挑战以推进开源语言模型的发展。这些挑战包括(1)模型开发中的透明度,包括数据策划过程,(2)获取大量高质量数据,以及(3)数据集策划和分析所需的工件和元数据的可用性。为应对这些挑战,我们发布了RedPajama-V1,一个LLaMA训练数据集的开放复制品。此外,我们还发布了RedPajama-V2,一个仅包含原始、未过滤文本数据以及质量信号和元数据的大规模网络数据集。RedPajama数据集共同涵盖了超过100万亿个Token,跨越多个领域,并通过其质量信号促进数据筛选,旨在激发新数据集的开发。迄今为止,这些数据集已被用于训练生产中使用的强大语言模型,如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。为深入了解RedPajama的质量,我们进行了一系列分析和消融研究,使用了解码器仅语言模型,参数高达1.6B。我们的研究结果展示了如何有效利用网络数据的质量信号来策划高质量子集,突显了RedPajama在推动透明且高性能的大规模语言模型发展方面的潜力。
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration
SageAttention2 技术报告:用于即插即用推理加速的精确 4 比特注意力机制
尽管线性层的量化已被广泛使用,但其应用于加速注意力过程的案例仍然有限。SageAttention 利用 8 比特矩阵乘法、16 比特矩阵乘法与 16 比特累加器,以及精度增强方法,实现了相比 FlashAttention2 更精确且速度提升 2 倍的核心算法。为进一步提高注意力计算的效率同时保持精度,我们提出了 SageAttention2,它利用显著更快的 4 比特矩阵乘法(Matmul)以及额外的精度增强技术。首先,我们提出在 warp 级粒度上将矩阵(Q, K)量化为 INT4,并将矩阵(widetilde P, V)量化为 FP8。其次,我们提出一种平滑 Q 和 V 的方法,以增强 INT4 QK 和 FP8 PV 的注意力精度。第三,我们分析了时间步和层间的量化精度,然后提出了一种自适应量化方法,以确保各种模型在端到端指标上的表现。SageAttention2 的每秒操作次数(OPS)在 RTX4090 上分别比 FlashAttention2 和 xformers 高出约 3 倍和 5 倍。综合实验证实,我们的方法在包括大语言处理、图像生成和视频生成在内的多种模型中,端到端指标损失可以忽略不计。代码可在 https://github.com/thu-ml/SageAttention 获取。
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
现有的开源多模态大语言模型 (MLLMs) 通常采用预训练和监督微调的训练流程。然而,这些模型面临分布偏移问题,限制了其多模态推理能力,尤其是在思维链 (CoT) 性能上。为此,我们提出了一种偏好优化 (PO) 过程,旨在提升 MLLMs 的多模态推理能力。具体而言,(1) 在数据层面,我们设计了自动化偏好数据构建管道,生成了高质量、大规模的多模态推理偏好数据集 MMPR。(2) 在模型层面,我们将 PO 与 MLLMs 结合,开发了一种简单有效的方法,即混合偏好优化 (MPO),显著提升了多模态 CoT 性能。我们的方法在多个基准测试中表现优异,特别是在多模态推理任务中。特别地,我们的模型 InternVL2-8B-MPO 在 MathVista 上达到了 67.0 的准确率,比 InternVL2-8B 高出 8.7 个百分点,性能与 10 倍大的 InternVL2-76B 相当。我们期待这项研究能推动 MLLMs 的进一步发展。代码、数据和模型将公开发布。
Multimodal Autoregressive Pre-training of Large Vision Encoders
大规模视觉编码器自回归预训练
我们针对大规模视觉编码器预训练提出了一种新方法。
基于近期在视觉模型自回归预训练方面的进展,我们将这一框架扩展至多模态设置,即图像与文本。本文中,我们提出了AIMV2,这是一系列通用视觉编码器,其特点是预训练过程简便、可扩展性强,并在多种下游任务中表现卓越。通过将视觉编码器与一个多模态解码器配对,该解码器自回归生成原始图像块和文本Token,实现了这一目标。我们的编码器不仅在多模态评估中表现优异,还在定位、基础和分类等视觉基准测试中表现出色。特别地,AIMV2-3B编码器在主干冻结的情况下,于ImageNet-1k上达到了89.5%的准确率。此外,AIMV2在多模态图像理解方面始终优于最先进的对比模型(如CLIP、SigLIP),在多种设置中表现优异。
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
OpenAI o1 的推出激起了人们对大型推理模型 (LRM) 研究的高度关注。在此背景下,Marco-o1 不仅专注于数学、物理和编程等有明确答案的领域——这些领域非常适合强化学习 (RL)——还更加注重开放式解决方案。我们旨在探讨:“o1 模型能否在标准模糊且奖励难以量化的广泛领域中有效应用?” Marco-o1 结合了 Chain-of-Thought (CoT) 微调、蒙特卡洛树搜索 (MCTS)、反思机制和创新推理策略,以优化复杂现实问题的解决能力。