Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
我们推出了 InternVL 2.5,这是一个基于 InternVL 2.0 的先进多模态大语言模型 (MLLM) 系列,保留了其核心架构,同时在训练和测试策略以及数据质量上进行了显著改进。本文深入研究了模型扩展与性能的关系,系统地分析了视觉编码器、语言模型、数据集规模及测试时配置对性能的影响。通过在多学科推理、文档理解、多图像/视频理解、现实世界理解、多模态幻觉检测、视觉定位、多语言能力及纯语言处理等广泛基准上的全面评估,InternVL 2.5 展现出与 GPT-4o 和 Claude-3.5-Sonnet 等领先商业模型相媲美的竞争力。特别地,我们的模型在 MMMU 基准上首次突破 70%,通过链式推理 (CoT) 提升了 3.7 个百分点,并展示了强大的测试时扩展潜力。我们期待该模型为开源社区在多模态 AI 系统的开发与应用上树立新标杆。HuggingFace 演示见 https://huggingface.co/spaces/OpenGVLab/InternVL
EXAONE 3.5: Series of Large Language Models for Real-world Use Cases
本技术报告介绍了由 LG AI Research 开发并发布的 EXAONE 3.5 指令调优语言模型。EXAONE 3.5 语言模型提供三种配置:32B、7.8B 和 2.4B。这些模型具备以下几项突出能力:1) 在实际应用中表现出卓越的指令跟随能力,在七个基准测试中获得最高分,2) 在长上下文理解方面表现出色,在四个基准测试中达到最佳性能,以及 3) 在九个通用基准测试中与同类最先进的开源模型相比表现出色。EXAONE 3.5 语言模型面向研究用途开放,并可从 https://huggingface.co/LGAI-EXAONE 下载。如需商业使用,请联系 LG AI Research 的官方联系点:contact_us@lgresearch.ai。
LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment
近期文本到视频 (T2V) 生成模型的进展展示了显著的能力。然而,这些模型在将合成视频与人类偏好(例如,准确反映文本描述)对齐方面仍有不足,这尤其难以解决,因为人类偏好本质上是主观的,且难以形式化为客观函数。因此,本文提出了 LiFT,一种利用人类反馈进行 T2V 模型对齐的新型微调方法。具体来说,我们首先构建了一个包含约 10k 个人类注释的人类评分注释数据集,即 LiFT-HRA,每个注释包括一个分数及其对应的理据。基于此,我们训练了一个奖励模型 LiFT-Critic,以有效学习奖励函数,该函数作为人类判断的代理,用于衡量给定视频与人类期望之间的对齐程度。最后,我们利用学习到的奖励函数,通过最大化奖励加权似然来对齐 T2V 模型。作为一个案例研究,我们将我们的流程应用于 CogVideoX-2B,结果显示,微调后的模型在所有 16 个指标上均优于 CogVideoX-5B,突显了人类反馈在提高合成视频对齐度和质量方面的潜力。
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale
开源的多模态大语言模型 (MLLMs) 在众多多模态任务中展现了巨大的潜力。然而,其推理能力仍受限于现有的指令调优数据集,这些数据集大多源自学术数据集(如 VQA、AI2D 和 ChartQA)。这些数据集主要针对简单任务,仅提供简短的答案,缺乏任何中间推理步骤。为应对这些挑战,我们提出了一种可扩展且经济高效的方法,用于构建包含丰富中间推理步骤的大规模多模态指令调优数据集,旨在促进链式推理 (CoT reasoning)。仅使用开源模型,我们构建了一个包含 12M 指令-响应对的数据集,涵盖了多样化的、推理密集型任务,并提供了详细且忠实的推理过程。实验结果显示,基于该数据集训练的 MLLMs 在推理能力上取得了显著提升,在 MathVerse (+8.1%)、MMMU-Pro (+7%) 和 MuirBench (+13.3%) 等基准测试中达到了领先水平。此外,该模型在非推理类基准测试中也取得了高达 4% 的显著进步。消融研究进一步凸显了数据集构建过程中重写和自过滤等关键组件的重要性。
APOLLO: SGD-like Memory, AdamW-level Performance
APOLLO: 类似 SGD 的内存占用,达到 AdamW 级别的性能
大语言模型 (LLMs) 在训练过程中以内存密集型闻名,特别是在使用流行的 AdamW 优化器时。这种内存负担需要使用更多或更高性能的 GPU,或者减少批量大小,从而限制了训练的可扩展性和吞吐量。为了解决这个问题,已经提出了各种内存高效的优化器来减少优化器的内存使用。然而,它们面临以下关键挑战:(i) 依赖于昂贵的 SVD 操作;(ii) 与 AdamW 相比,性能上有显著的权衡;(iii) 为了保持竞争性能,仍然存在相当大的优化器内存开销。
在这项工作中,我们发现 AdamW 的学习率适应规则可以有效地简化为结构化的学习率更新。基于这一见解,我们提出了用于内存高效 LLM 优化的近似梯度缩放 (APOLLO),它使用基于纯随机投影的辅助低秩优化器状态来近似学习率缩放。这种结构化的学习率更新规则使得 APOLLO 对进一步的内存减少具有高度容忍性,同时提供可比的预训练性能。即使是其 rank-1 变体 APOLLO-Mini,也能在 SGD 级别的内存成本下实现优于 AdamW 的预训练性能。
广泛的实验表明,APOLLO 系列在性能上与 AdamW 相当或优于 AdamW,同时通过几乎消除 AdamW 的优化状态实现了更大的内存节省。这些节省带来了显著的系统级好处:(1) 提高吞吐量:与 AdamW 相比,在 8xA100-80GB 设置下支持 4 倍大的批量大小,从而实现 3 倍的吞吐量。(2) 提高模型可扩展性:在 A100-80GB GPU 上使用朴素的 DDP 预训练 LLaMA-13B,无需系统级优化。(3) 低端 GPU 友好的预训练:使用权重量化在单个 GPU 上预训练 LLaMA-7B,内存使用量少于 12 GB。
SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion
SwiftEdit: 通过单步扩散实现闪电般快速的文本引导图像编辑
近期,文本引导图像编辑技术取得了显著进展,用户可以通过简单的文本输入进行图像编辑,充分利用多步扩散型文本到图像模型的丰富先验。然而,这些方法由于涉及复杂的多步反演和采样过程,往往难以满足实际应用和设备上的速度要求。为此,我们推出了 SwiftEdit,一个简单而高效的编辑工具,能够在 0.23 秒内完成文本引导的图像编辑。SwiftEdit 的创新之处在于:一是单步反演框架,通过反演实现一步图像重建;二是我们提出的注意力重调整机制,结合掩码引导技术,实现局部图像编辑。大量实验证明,SwiftEdit 不仅高效,而且编辑效果出色。特别是,SwiftEdit 的编辑速度比传统多步方法快至少 50 倍,同时在编辑质量上保持了竞争力。项目页面:https://swift-edit.github.io/
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation
在强化学习 (Reinforcement Learning, RL) 领域中,记忆对于许多任务至关重要。尤其在需要利用过往信息、适应新环境以及提升样本效率的任务中,记忆的作用尤为突出。然而,“记忆”这一概念涉及广泛,且目前缺乏统一的验证方法,导致对智能体记忆能力的评估存在偏差,难以与其他增强记忆的智能体进行客观比较。本文旨在通过借鉴认知科学的理论,为 RL 智能体的记忆提供精确且实用的定义,如长期记忆与短期记忆、陈述性记忆与程序性记忆等。基于这些定义,我们系统地分类了不同类型的智能体记忆,并提出了一套稳健的实验方法来评估 RL 智能体的记忆能力,从而实现评估的标准化。此外,我们通过实验验证了遵循该方法在评估不同类型智能体记忆时的重要性,并展示了违反该方法可能带来的后果。
ProcessBench: Identifying Process Errors in Mathematical Reasoning
由于语言模型在解决数学问题时经常出错,自动识别推理过程中的错误对其可扩展监管变得日益重要。本文提出了 ProcessBench,用于评估模型识别数学推理中错误步骤的能力。该基准包含 3,400 个测试用例,主要涵盖竞赛和奥林匹克级别的数学问题。每个测试用例包含一个由人类专家标注错误位置的逐步解决方案。模型需识别出最早包含错误的步骤,或判断所有步骤均正确。我们在 ProcessBench 上进行了全面评估,涉及两种模型:过程奖励模型 (PRM) 和批评模型。对于后者,我们提示通用语言模型逐步骤分析每个解决方案。主要观察结果如下:(1) 现有 PRM 通常难以推广到 GSM8K 和 MATH 之外的更复杂数学问题,其表现不如批评模型(即提示的通用语言模型)以及我们在 PRM800K 数据集上微调的 PRM。(2) 最佳开源模型 QwQ-32B-Preview 的批评能力与专有模型 GPT-4o 相当,但仍落后于专门用于推理的 o1-mini。我们希望 ProcessBench 能够推动推理过程评估领域的未来研究,为语言模型的可扩展监管奠定基础。
Training Large Language Models to Reason in a Continuous Latent Space
大语言模型 (LLMs) 通常在“语言空间”中进行推理,通过链式思维 (CoT) 表达推理过程,以解决复杂问题。然而,我们认为语言空间并非总是推理的最佳选择。例如,大多数词 Token 主要用于文本连贯性,而非推理的核心要素,而某些关键 Token 则需要复杂规划,给 LLMs 带来巨大挑战。为探索 LLM 在不受限潜在空间中推理的潜力,我们提出了一种新范式——Coconut (连续思维链)。我们利用 LLM 的最后一个隐藏状态作为推理状态的表示 (称为“连续思维”)。与其将其解码为词 Token,我们直接将其作为连续空间中的后续输入嵌入反馈给 LLM。实验显示,Coconut 能有效提升 LLM 在多项推理任务中的表现。这种新型潜在推理范式催生了高级推理模式的涌现:连续思维可编码多个备选的下一步推理步骤,使模型能执行广度优先搜索 (BFS) 解决问题,而非像 CoT 那样过早锁定单一确定路径。在需要大量回溯的逻辑推理任务中,Coconut 表现优于 CoT,且推理过程中使用更少的思维 Token。这些发现展示了潜在推理的潜力,并为未来研究提供了重要启示。
STIV: Scalable Text and Image Conditioned Video Generation
尽管视频生成领域已取得显著进展,但仍迫切需要一个清晰、系统的方案来指导开发稳健且可扩展的模型。在本研究中,我们系统地探讨了模型架构、训练方案和数据整理策略之间的相互作用,最终提出了一种简单且可扩展的文本-图像条件视频生成方法,命名为 STIV。我们的框架通过帧替换将图像条件集成到 Diffusion Transformer (DiT) 中,并通过联合图像-文本条件分类器无指导方法引入文本条件。这种设计使 STIV 能够同时执行文本到视频 (T2V) 和文本-图像到视频 (TI2V) 任务。此外,STIV 还可轻松扩展到视频预测、帧插值、多视角生成和长视频生成等多种应用。通过在 T2I、T2V 和 TI2V 上的全面消融研究,STIV 展示了强大的性能,尽管其设计简单。一个 8.7B 模型在 512 分辨率下在 VBench T2V 上达到了 83.1,超过了 CogVideoX-5B、Pika、Kling 和 Gen-3 等领先模型。同样大小的模型在 512 分辨率下的 VBench I2V 任务中也达到了 90.1 的最新结果。通过提供一个透明且可扩展的方案来构建尖端视频生成模型,我们的目标是推动未来研究,加速向更通用和可靠的视频生成解决方案的进展。
Evaluating and Aligning CodeLLMs on Human Preference
代码大语言模型 (codeLLMs) 在代码生成领域取得了重大进展。以往的代码相关基准测试,通常由各种编程练习及其对应的测试用例组成,被广泛用于评估代码大语言模型的性能和能力。然而,现有的代码大语言模型主要关注生成正确的代码片段,而忽略了与人类偏好的对齐问题。具体而言,查询应来源于实际应用场景,且模型生成的响应应符合人类偏好。为解决这一问题,我们提出了一个严格的人工策划基准 CodeArena,旨在模拟现实世界编码任务的复杂性和多样性。该基准包含 397 个高质量样本,涵盖 40 个类别和 44 种编程语言,这些样本均精心筛选自用户查询。此外,我们构建了一个多样化的合成指令语料库 SynCode-Instruct(近 20B Token),通过扩展网站上的指令数据,验证大规模合成指令微调的有效性。实验表明,完全基于合成指令数据训练的 Qwen2.5-SynCoder 在开源代码大语言模型中表现卓越。研究结果显示,基于执行的基准测试与 CodeArena 之间存在显著的性能差异。我们对 CodeArena 在 40 多个大语言模型上的系统实验发现,开源 SOTA 代码大语言模型(如 Qwen2.5-Coder)与专有大语言模型(如 OpenAI o1)之间存在明显的性能差距,这进一步强调了人类偏好对齐的重要性。\url{https://codearenaeval.github.io/ }
DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation
DiffSensei: 连接多模态大语言模型与扩散模型以实现定制化漫画生成
故事可视化,即从文本描述生成视觉叙事的任务,随着文本到图像生成模型的发展已取得显著进展。然而,现有模型在角色外观和互动控制方面,尤其是在多角色场景中,仍存在不足。为此,我们提出了一项新任务:定制化漫画生成,并引入 DiffSensei,这是一个专为生成具有动态多角色控制的漫画而设计的创新框架。
DiffSensei 集成了基于扩散的图像生成器与多模态大语言模型 (MLLM),后者作为与文本兼容的身份适配器。我们采用掩码交叉注意力机制,无缝结合角色特征,实现精确的布局控制,而无需直接的像素传输。此外,基于 MLLM 的适配器根据面板特定的文本提示调整角色特征,使角色表情、姿势和动作能够灵活调整。
我们还推出了 MangaZero,这是一个专为该任务设计的大规模数据集,包含 43,264 页漫画和 427,147 个注释面板,支持在连续帧中可视化多样化的角色互动和动作。大量实验表明,DiffSensei 在漫画生成方面显著优于现有模型,通过实现文本驱动的角色定制,推动了该领域的重大进步。项目页面为 https://jianzongwu.github.io/projects/diffsensei/。
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer
ACDiT: 插值自回归条件建模与扩散 Transformer
近期对综合多模态模型的广泛关注,促使了多种模态的统一。然而,这一统一过程面临着不同方法论的挑战。连续视觉生成需要采用全序列扩散方法,尽管这与文本领域的自回归建模存在差异。我们认为,自回归建模(即基于过去经验预测未来)在视觉生成模型和潜在的统一多模态模型开发中仍至关重要。本文探讨了自回归建模与全参数扩散之间的插值,用于视觉信息建模。核心是提出 ACDiT,一种自回归块状条件扩散 Transformer,其扩散块大小(即自回归单元大小)可灵活调整,以在 Token 级自回归与全序列扩散之间进行插值。ACDiT 实现简单,仅需在训练时创建跳跃因果注意力掩码 (SCAM)。推理时,过程在扩散去噪与自回归解码间迭代,充分利用 KV-Cache。我们在图像和视频生成任务中验证了 ACDiT 的有效性。此外,得益于自回归建模,ACDiT 尽管以扩散为目标训练,仍可无缝应用于视觉理解任务。自回归建模与扩散的权衡分析显示,ACDiT 在长期视觉生成任务中具有潜力。这些优势使其有望成为未来统一模型的核心。
Hidden in the Noise: Two-Stage Robust Watermarking for Images
隐藏在噪声中:图像的两阶段鲁棒水印技术
随着图像生成器质量的不断提高,深度伪造(deepfakes)已成为社会广泛讨论的议题。图像水印技术使负责任的模型所有者能够检测并标记其AI生成的内容,从而减轻其潜在危害。然而,当前最先进的图像水印方法仍易受伪造和移除攻击。这种脆弱性部分源于水印对生成图像分布的扭曲,无意中暴露了水印技术的信息。
在本研究中,我们首先提出了一种基于扩散模型初始噪声的无失真图像水印方法。但检测水印需将图像重建的初始噪声与所有先前使用的初始噪声进行比对。为此,我们提出了一种两阶段水印框架,以实现高效检测。在生成阶段,我们通过生成傅里叶模式增强初始噪声,嵌入所用初始噪声组的信息。在检测阶段,我们(i)检索相关噪声组,(ii)在给定组内搜索可能匹配图像的初始噪声。该水印方法在应对多种攻击时展现出最先进的伪造和移除鲁棒性。
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints
视频扩散模型的最新进展在模拟现实世界动态和保持 3D 一致性方面表现出色。这一进展促使我们探索这些模型在确保多视角动态一致性方面的潜力,这对于虚拟拍摄等应用具有重要意义。与现有专注于单个对象多视角生成的 4D 重建方法不同,我们关注的是从任意视角生成开放世界视频,并结合 6 自由度 (DoF) 摄像机姿态。为此,我们提出了一种即插即用模块,该模块增强了预训练文本到视频模型的多摄像机视频生成能力,确保不同视角间内容的一致性。具体来说,我们引入了一个多视角同步模块,以保持各视角间的外观和几何一致性。鉴于高质量训练数据的稀缺性,我们设计了一种混合训练方案,利用多摄像机图像和单目视频来补充 Unreal Engine 渲染的多摄像机视频。此外,我们的方法还支持一些有趣的扩展,例如从新视角重新渲染视频。我们还发布了一个名为 SynCamVideo-Dataset 的多视角同步视频数据集。项目页面: https://jianhongbai.github.io/SynCamMaster/.
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations
LAION-SG: 一个带有结构化注释的增强型大规模数据集,用于训练复杂的图像-文本模型
近期,文本到图像 (T2I) 生成技术取得了显著进展,能够从文本生成高质量图像。然而,现有 T2I 模型在处理涉及多个对象和复杂关系的组合图像生成时,性能有所下降。我们认为,这一问题源于现有图像-文本对数据集的局限性,这些数据集缺乏精确的跨对象关系注释,仅依赖于提示。为解决这一问题,我们构建了 LAION-SG,这是一个包含高质量场景图 (SG) 结构注释的大规模数据集,能够精确描述多个对象的属性和关系,有效表示复杂场景的语义结构。基于 LAION-SG,我们训练了新的基础模型 SDXL-SG,将结构化注释信息融入生成过程。实验结果表明,使用 LAION-SG 训练的高级模型在复杂场景生成方面,相比现有数据集上的模型,性能有显著提升。此外,我们还推出了 CompSG-Bench,一个用于评估组合图像生成性能的基准,为该领域设定了新标准。
POINTS1.5: Building a Vision-Language Model towards Real World Applications
视觉-语言模型近期取得了显著进展,在多种任务中表现出色,如光学字符识别和复杂图表分析。基于这一趋势,我们推出了新的视觉-语言模型 POINTS1.5,旨在在各种实际应用中表现优异。POINTS1.5 是 POINTS1.0 的升级版,并引入了几项关键创新:
i) 我们用支持原生动态高分辨率的 NaViT 风格视觉编码器替换了原有的固定分辨率 CLIP 视觉编码器。这使得 POINTS1.5 能够直接处理任意分辨率的图像,无需分割成图块。
ii) 我们为 POINTS1.5 增加了双语支持,显著提升了其中文处理能力。由于视觉-语言模型的开源中文数据集匮乏,我们从互联网收集了大量图像,并结合手动和自动方法进行标注。
iii) 我们提出了一套严格的视觉指令调优数据集过滤方法。经过全面评估,我们选择了最有效的过滤方法,以获得最终的视觉指令调优数据集。
得益于这些创新,POINTS1.5 在性能上显著超越了 POINTS1.0,并在一系列实际应用中表现出色。特别值得一提的是,POINTS1.5-7B 在不到 40 亿个 Token 上训练,并在参数少于 100 亿的模型中,在 OpenCompass 排行榜上位居榜首。
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions
InternLM-XComposer2.5-OmniLive: 一个用于长期流式视频和音频交互的综合多模态系统
构建能够像人类一样长期与环境交互的 AI 系统一直是研究的重点。近年来,多模态大语言模型 (MLLMs) 在开放世界理解方面取得了重大进展。然而,如何实现持续且同时进行的流式感知、记忆和推理仍然是一个未被充分探索的挑战。现有的 MLLMs 由于其序列到序列的架构限制,无法同时处理输入和生成响应,类似于无法在感知的同时进行思考。此外,依赖长上下文存储历史数据对于长期交互来说既不实际也不高效。
为此,本项目借鉴了专业化通才 AI 的概念,提出了分离的流式感知、推理和记忆机制,从而实现与流式视频和音频输入的实时交互。所提出的框架 InternLM-XComposer2.5-OmniLive (IXC2.5-OL) 包含三个关键模块:
1. 流式感知模块:实时处理多模态信息,将关键细节存储在记忆中,并在用户查询时触发推理。
2. 多模态长记忆模块:整合短期和长期记忆,通过压缩短期记忆为长期记忆,实现高效检索并提高准确性。
3. 推理模块:响应用户查询并执行推理任务,与感知和记忆模块协同工作。
该框架模拟了人类的认知过程,使多模态大语言模型能够提供持续且适应性的服务。
Phi-4 Technical Report
我们介绍了 phi-4,这是一个 140 亿参数的语言模型,其开发过程以数据质量为核心。与大多数语言模型不同,这些模型的预训练主要基于有机数据源,如网络内容或代码,phi-4 在整个训练过程中战略性地融入了合成数据。尽管 Phi 系列中的先前模型主要提炼了教师模型(特别是 GPT-4)的能力,但 phi-4 在以 STEM 为重点的问答能力上显著超越了其教师模型,这表明我们的数据生成和训练后技术超越了单纯的提炼。尽管 phi-3 架构的变化最小,phi-4 相对于其规模取得了强大的性能——特别是在以推理为重点的基准测试中——这主要得益于改进的数据、训练课程和训练后方案的创新。
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions
近年来,多模态大语言模型 (MLLMs) 取得了显著进展,但在低级视觉感知 (LLVP) 方面仍面临挑战,尤其是准确描述图像几何细节的能力。这一能力对机器人、医学图像分析和制造业等领域至关重要。本文首先引入了 Geoperception 基准,用于评估 MLLM 从图像中准确提取 2D 几何信息的能力。通过该基准,我们揭示了领先 MLLMs 的局限性,并开展了一项全面的实证研究,探索提升其在几何任务上性能的策略。研究结果表明,特定模型架构、训练技术和数据策略(如高保真合成数据和数据课程的多阶段训练)具有显著优势。特别是,数据课程使模型能够学习从零开始难以掌握的复杂几何任务。基于这些发现,我们开发了 Euclid 系列模型,专门优化以实现强大的低级几何感知。尽管仅基于合成多模态数据训练,Euclid 展现出对新颖几何形状的强大泛化能力。例如,在某些 Geoperception 基准任务上,Euclid 的表现比最佳闭源模型 Gemini-1.5-Pro 高出 58.56%,在所有任务上的平均表现高出 10.65%。
Multimodal Latent Language Modeling with Next-Token Diffusion
多模态生成模型需要一种统一的方式来处理离散数据(如文本和代码)和连续数据(如图像、音频、视频)。本研究提出了潜在语言建模(Latent Language Modeling,LatentLM),通过因果 Transformer 实现连续与离散数据的无缝融合。具体而言,我们使用变分自编码器(VAE)将连续数据编码为潜在向量,并引入下一 Token 扩散机制进行这些向量的自回归生成。此外,我们开发了 sigma-VAE 以应对方差崩溃问题,这对于自回归建模至关重要。大量实验验证了 LatentLM 在多种模态中的有效性。在图像生成任务中,LatentLM 在性能和可扩展性上均优于扩散 Transformer。当集成到多模态大语言模型中时,LatentLM 提供了一个通用接口,实现了多模态生成与理解的统一。实验结果显示,在扩大训练 Token 规模的情况下,LatentLM 相比 Transfusion 和向量量化模型表现更优。在文本到语音合成任务中,LatentLM 在说话者相似性和鲁棒性方面超越了当前最先进的 VALL-E 2 模型,且解码步骤减少了 10 倍。这些结果表明,LatentLM 是一种高效且可扩展的方法,能够推动大规模多模态模型的发展。