OS-ATLAS: A Foundation Action Model for Generalist GUI Agents
当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分布外 (OOD) 场景中与闭源 VLM 相比存在显著性能差距,实践者通常不愿使用开源 VLM。为推动该领域研究,我们开发了 OS-Atlas——一个在 GUI 接地和 OOD 智能体任务中表现卓越的基础 GUI 动作模型,这归功于数据和建模方面的创新。我们投入大量工程资源,开发了一个开源工具包,用于跨 Windows、Linux、MacOS、Android 和 Web 等多个平台合成 GUI 接地数据。利用此工具包,我们发布了迄今最大的开源跨平台 GUI 接地语料库,包含超过 1300 万个 GUI 元素。该数据集与模型训练创新相结合,为 OS-Atlas 理解 GUI 截图并泛化至未见界面提供了坚实基础。在涵盖移动设备、桌面设备和 Web 三个平台的六个基准上进行广泛评估后,OS-Atlas 显示出相较于之前最先进模型的显著性能提升。我们的评估还揭示了持续改进和扩展开源 VLM 智能体能力的宝贵见解。
Personalization of Large Language Models: A Survey
大语言模型 (LLMs) 的个性化近年来变得愈发重要,应用广泛。尽管其重要性和近期进展,现有关于个性化 LLMs 的研究大多集中在 (a) 个性化文本生成,或 (b) 利用 LLMs 进行与个性化相关的下游应用,如推荐系统。在本研究中,我们首次通过引入个性化 LLM 使用的分类法,总结了关键差异和挑战,从而弥合了这两个独立方向之间的差距。我们正式化了个性化 LLMs 的基础,巩固并扩展了 LLMs 个性化的概念,定义并讨论了个性化、使用和个性化 LLMs 期望的新方面。接着,我们通过提出系统化的分类法,统一了这些多样领域和使用场景的文献,涵盖个性化粒度、个性化技术、数据集、评估方法和个性化 LLMs 的应用。最后,我们强调了仍需解决的挑战和重要开放问题。通过使用提出的分类法统一和调查近期研究,我们的目标是提供现有文献和 LLMs 中个性化不同方面的清晰指南,赋能研究人员和实践者。
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents
AndroidLab: 训练与系统性基准测试 Android 自主智能体
自主智能体在现实世界中的应用日益重要。尤其是 Android 智能体,近期备受关注。然而,现有研究在训练和评估 Android 智能体时,对开源与闭源模型的系统性研究尚显不足。为此,我们提出了 AndroidLab,一个系统的 Android 智能体框架。该框架包含多模态、动作空间及可复现基准的操作环境,支持大语言模型 (LLMs) 和多模态模型 (LMMs) 在同一动作空间中的应用。AndroidLab 基准测试涵盖预定义的 Android 虚拟设备及基于这些设备的九个应用中的 138 个任务。通过 AndroidLab 环境,我们开发了 Android 指令数据集,并训练了六个开源的 LLMs 和 LMMs,使 LLMs 的平均成功率从 4.59% 提升至 21.50%,LMMs 的平均成功率从 1.93% 提升至 13.28%。AndroidLab 已开源,并公开发布于 https://github.com/THUDM/Android-Lab。
“Give Me BF16 or Give Me Death”? Accuracy-Performance Trade-Offs in LLM Quantization
“要 BF16 还是死亡”? 大语言模型量化中的精度-性能权衡
尽管大语言模型 (LLM) 量化在推理加速方面广受欢迎,但各种量化格式所关联的精度-性能权衡仍存在显著不确定性。我们进行了一项全面实证研究,评估了 Llama-3.1 模型家族全系列在学术基准和实际任务中,流行量化格式 (FP8, INT8, INT4) 的量化精度。此外,我们还考察了量化模型与其未压缩版本生成文本的差异。除了基准测试,我们还提出了几项量化改进,这些改进使我们获得了最先进的精度恢复结果。我们的研究涵盖了超过 500,000 次单独评估,得出以下关键发现:(1) FP8 权重和激活量化 (W8A8-FP) 在所有模型规模上均无损,(2) INT8 权重和激活量化 (W8A8-INT) 在适当调整时,仅导致 1-3% 的精度下降,(3) INT4 仅权重量化 (W4A16-INT) 与 8 位整数权重和激活量化具有竞争力。为了确定在给定部署环境中“最佳”格式,我们使用流行的开源 vLLM 框架在各种 GPU 架构上进行了推理性能分析。结果显示,W4A16 在同步部署中提供了最佳成本效益,并在中级 GPU 的异步部署中表现优异。同时,W8A8 格式在高端 GPU 上中型和大型模型的异步“连续批处理”部署中表现出色。我们的研究为在不同规模和性能需求下部署量化大语言模型提供了一套实用指南。
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
WebRL: 自进化在线课程强化学习训练大语言模型网络智能体
大语言模型 (LLMs) 在自主智能体,特别是在网络任务中,显示出显著潜力。然而,现有 LLM 网络智能体严重依赖昂贵的专有 LLM API,而开源 LLM 缺乏必要决策能力。本文介绍 WebRL,一个自进化的在线课程强化学习框架,旨在使用开源 LLM 训练高性能网络智能体。WebRL 解决了开发 LLM 网络智能体的三个关键挑战:训练任务稀缺、反馈信号稀疏以及在线学习中的策略分布漂移。具体来说,WebRL 集成了 1) 自进化课程,从失败尝试中生成新任务,2) 强大的结果监督奖励模型 (ORM),以及 3) 适应性强化学习策略,确保持续改进。我们将 WebRL 应用于开源的 Llama-3.1 和 GLM-4 模型,将其转化为熟练网络智能体。在 WebArena-Lite 上,WebRL 将 Llama-3.1-8B 的成功率从 4.8% 提高到 42.4%,GLM-4-9B 的成功率从 6.1% 提高到 43%。这些开源模型大幅超越 GPT-4-Turbo (17.6%) 和 GPT-4o (13.9%),并优于之前基于开源 LLM 训练的最先进网络智能体 (AutoWebGLM, 18.2%)。研究结果表明,WebRL 有效弥合了开源与专有 LLM 网络智能体之间的差距,为更易访问和强大的自主网络交互系统铺平了道路。
How Far is Video Generation from World Model: A Physical Law Perspective
OpenAI 的 Sora 强调了视频生成在开发遵循基本物理定律的世界模型方面的潜力。然而,视频生成模型是否能仅从视觉数据中发现这些定律而不依赖人类先验知识,这一能力值得质疑。一个学习真实定律的世界模型应能对细节做出稳健预测,并正确推断未见场景。在这项工作中,我们在三个关键场景中进行了评估:分布内、分布外和组合泛化。我们开发了一个二维模拟测试平台,用于对象的运动和碰撞,这些运动和碰撞由一个或多个经典力学定律决定性地控制。这为大规模实验提供了无限的数据供应,并能定量评估生成的视频是否符合物理定律。我们训练了基于扩散的视频生成模型,以根据初始帧预测对象的运动。我们的扩展实验显示,在分布内具有完美泛化能力,组合泛化具有可测量的扩展行为,但在分布外场景中失败。进一步的实验揭示了这些模型泛化机制的两个关键见解:(1) 模型未能抽象出一般物理规则,而是表现出“基于案例”的泛化行为,即模仿最接近的训练示例;(2) 在泛化到新案例时,模型在引用训练数据时优先考虑不同因素:颜色 > 大小 > 速度 > 形状。我们的研究表明,仅靠扩展不足以使视频生成模型揭示基本物理定律,尽管它在 Sora 的更广泛成功中发挥了作用。请参阅我们的项目页面:https://phyworld.github.io
HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems
HtmlRAG: HTML 比纯文本更适合在 RAG 系统中建模检索到的知识
检索增强生成 (RAG) 已被证明能够提升知识能力,并缓解大语言模型 (LLM) 的幻觉问题。网络是 RAG 系统中外部知识的主要来源,许多商业系统如 ChatGPT 和 Perplexity 都采用网络搜索引擎作为其主要检索手段。通常,这类 RAG 系统会检索搜索结果,下载结果的 HTML 源码,然后从中提取纯文本。这些纯文本文档或片段随后被输入到 LLM 中,以增强生成过程。然而,在此基于纯文本的 RAG 过程中,HTML 中固有的许多结构和语义信息,如标题和表格结构,都会丢失。
为了解决这一问题,我们提出了 HtmlRAG,它使用 HTML 而非纯文本作为 RAG 中检索到的知识的格式。我们相信,在对外部文档中的知识进行建模时,HTML 比纯文本更具优势,且大多数 LLM 都具备理解 HTML 的强大能力。然而,使用 HTML 也带来了新的挑战。HTML 包含标签、JavaScript 和 CSS 规范等额外内容,这些内容为 RAG 系统带来了额外的输入 Token 和噪声。
为应对这一挑战,我们提出了 HTML 清理、压缩和修剪策略,旨在缩短 HTML 的同时最小化信息损失。具体而言,我们设计了一种基于块树的两步修剪方法,该方法能够修剪无用的 HTML 块,并仅保留 HTML 的相关部分。在六个 QA 数据集上的实验结果表明,在 RAG 系统中使用 HTML 具有显著优势。
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination
多模态大语言模型 (MLLMs) 的快速发展在多模态基准测试中表现出色。然而,训练过程中的数据污染问题为性能评估和比较带来了挑战。尽管已有多种检测大语言模型 (LLMs) 数据集污染的方法,但由于 MLLMs 的多模态特性和多阶段训练过程,这些方法对 MLLMs 的效果不佳。在本研究中,我们引入了一种针对 MLLMs 的多模态数据污染检测框架,即 MM-Detect。实验结果表明,MM-Detect 对不同程度的污染具有敏感性,并能有效识别因多模态基准训练集泄露导致的性能提升。此外,我们还探讨了 MLLMs 所用 LLMs 预训练阶段和 MLLMs 微调阶段可能的污染来源,为污染引入的阶段提供了新视角。
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
我们推出了 Agent K v1.0,这是一个端到端的自主数据科学智能体,旨在自动化、优化并泛化各种数据科学任务。Agent K v1.0 完全自动化,通过经验学习管理整个数据科学生命周期。它采用高度灵活的结构化推理框架,能够动态处理嵌套结构中的记忆,有效利用积累的经验来应对复杂推理任务。通过选择性存储和检索关键信息,优化长短期记忆,Agent K v1.0 根据环境奖励指导未来决策。这种迭代方法使其在不进行微调或反向传播的情况下不断改进决策,通过经验学习实现持续提升。我们以 Kaggle 竞赛为案例,评估了 Agent K v1.0 的能力。遵循完全自动化的流程,Agent K v1.0 系统解决复杂多模态数据科学任务,采用贝叶斯优化进行超参数调优和特征工程。我们开发的新评估框架严格测试了 Agent K v1.0 的端到端能力,从 Kaggle 竞赛 URL 开始生成并提交结果。结果显示,Agent K v1.0 在跨越表格、计算机视觉、NLP 和多模态领域的任务中成功率达到 92.5%。与 5,856 名人类 Kaggle 竞争者相比,通过计算 Elo-MMR 分数,Agent K v1.0 排名在前 38%,展现出与专家级用户相当的整体技能水平。特别地,其 Elo-MMR 分数介于人类大师级选手得分的第一和第三四分位数之间。此外,结果表明,Agent K v1.0 已达到 Kaggle 大师级水平,根据 Kaggle 的晋级系统,累计获得 6 枚金牌、3 枚银牌和 7 枚铜牌。
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models
代码大语言模型 (LLMs) 在代码生成、推理任务和智能体系统等多个领域中已成为关键工具。尽管开源代码 LLMs 的性能正逐渐接近专有模型,但适合严格科学研究、特别是具备可重复数据处理管道和透明训练协议的高质量代码 LLMs 仍然稀缺。这种稀缺性源于资源限制、伦理考量以及保持模型领先优势的竞争压力。为填补这一空白,我们推出了 OpenCoder,这是一个顶级代码 LLM,不仅性能卓越,还为研究社区提供了一本“开放手册”。与以往不同,我们不仅公开了模型权重和推理代码,还提供了可重复的训练数据、完整的数据处理流程、严格的实验消融结果以及详细的训练协议,以支持开放科学研究。通过这一全面公开,我们总结了构建顶级代码 LLM 的关键要素:(1) 数据清洗和去重的代码优化启发式规则,(2) 与代码相关的文本语料库的召回,以及 (3) 在退火和监督微调阶段的高质量合成数据。通过这种开放性,我们旨在全面提升对顶级代码 LLM 的访问,使 OpenCoder 不仅作为一个强大的模型,更作为一个开放的基础,以推动研究进展,并实现代码 AI 的可重复创新。
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning
ReCapture: 基于掩码视频微调的用户视频生成式相机控制
近期,视频建模技术的突破使得在生成视频中可以实现可控的相机轨迹。然而,这些方法无法直接应用于由用户提供的非生成视频。本文介绍了一种名为 ReCapture 的方法,可以从单个用户提供的视频中生成具有新颖相机轨迹的新视频。该方法能够重新生成参考视频,保留其所有场景动态,并从全新视角展现,同时具备电影级的相机运动效果。特别地,我们的方法还能合理地生成参考视频中未曾观察到的场景部分。具体实现步骤包括:(1) 利用多视角扩散模型或基于深度的点云渲染技术,生成带有新相机轨迹的噪声锚点视频;(2) 通过我们提出的掩码视频微调技术,将锚点视频重新生成至干净且时间一致的重新定位视频。
BitNet a4.8: 4-bit Activations for 1-bit LLMs
BitNet a4.8: 4-bit Activations for 1-bit LLMs
近期关于1-bit大语言模型(LLMs)的研究,如BitNet b1.58,展示了一种在保持性能的同时降低推理成本的有前途的方法。本研究中,我们推出了BitNet a4.8,使1-bit LLMs能够采用4-bit激活。BitNet a4.8通过混合量化和稀疏化策略,有效减少了异常通道引入的量化误差。具体而言,我们为注意力层和前馈网络层的输入采用4-bit激活,并对中间状态进行稀疏化处理,随后进行8-bit量化。大量实验显示,BitNet a4.8在相同训练成本下,性能与BitNet b1.58相当,且在推理时通过启用4-bit(INT4/FP4)内核,速度更快。此外,BitNet a4.8仅激活55%的参数,并支持3-bit KV缓存,进一步提升了大规模LLM部署和推理的效率。
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion
DimensionX: 从单张图像生成任意3D和4D场景的可控视频扩散
在本文中,我们介绍了DimensionX,这是一个框架,旨在通过视频扩散从单张图像生成逼真的3D和4D场景。我们的方法基于一个关键洞察:3D场景的空间结构和4D场景的时间演变可以通过视频帧序列有效地表示。尽管最近的视频扩散模型在生成生动视觉效果方面取得了显著成功,但由于生成过程中空间和时间可控性有限,它们在直接恢复3D/4D场景方面存在局限性。为此,我们提出了ST-Director,它通过从维度变化数据中学习维度感知的LoRAs,将视频扩散中的空间和时间因素解耦。这种可控的视频扩散方法能够精确操纵空间结构和时间动态,从而通过结合空间和时间维度的序列帧重建3D和4D表示。此外,为了弥合生成视频与现实场景之间的差距,我们引入了一种轨迹感知的3D生成机制和一种身份保持的去噪策略用于4D生成。在各种真实世界和合成数据集上的广泛实验表明,与之前的方法相比,DimensionX在可控视频生成以及3D和4D场景生成方面取得了更优越的结果。
Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
Mixture-of-Transformers: 一种用于多模态基础模型的稀疏且可扩展的架构
大语言模型 (LLMs) 的发展已扩展至多模态系统,这些系统能够在统一框架内处理文本、图像和语音。与仅处理文本的 LLMs 相比,训练这些模型需要显著更大的数据集和计算资源。为应对扩展挑战,我们引入了 Mixture-of-Transformers (MoT),这是一种稀疏的多模态 Transformer 架构,大幅降低预训练计算成本。MoT 通过模态解耦模型的非嵌入参数——包括前馈网络、注意力矩阵和层归一化——实现对完整输入序列的全局自注意力进行模态特定处理。我们在多种设置和模型规模下评估了 MoT。在 Chameleon 7B 设置(自回归文本和图像生成)中,MoT 仅用 55.8% 的 FLOPs 就达到了与密集基线相当的性能。当扩展至包含语音时,MoT 仅用 37.2% 的 FLOPs 就达到了与密集基线相当的语音性能。在 Transfusion 设置中,文本和图像采用不同训练目标,7B MoT 模型以密集基线三分之一的 FLOPs 达到了与密集基线相当的图像模态性能,而 760M MoT 模型在关键图像生成指标上优于 1.4B 密集基线。系统分析进一步突显 MoT 的实际效益,47.2% 的挂钟时间内实现密集基线的图像质量,75.6% 的挂钟时间内实现文本质量(在配备 NVIDIA A100 GPU 的 AWS p4de.24xlarge 实例上测量)。