每周AI论文速递（240805-240809） – 叶子的技术碎碎念

Medical SAM 2: Segment medical images as video via Segment Anything Model 2

Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割

本文介绍 Medical SAM 2 (MedSAM-2)，一种先进的分割模型，采用 SAM 2 框架处理 2D 和 3D 医学图像分割任务。通过将医学图像视为连续视频流，MedSAM-2 不仅适用于 3D 医学图像，还引入了新的单提示分割功能。用户只需为某一特定图像提供目标对象的提示，模型即可在后续所有相关图像中自动分割出相同类型的对象，无需考虑图像间的时间顺序。我们在多种医学成像模式中评估了 MedSAM-2，包括腹部器官、视盘、脑肿瘤、甲状腺结节和皮肤病变，与传统和交互式分割环境中的最先进模型进行了比较。研究结果表明，MedSAM-2 在性能上超越了现有模型，并在广泛的医学图像分割任务中展现出更强的泛化能力。我们的代码将在以下网址发布： https://github.com/MedicineToken/Medical-SAM2

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: 手机上的 GPT-4V 级别 MLLM 多模态大语言模型 (MLLM) 的近期激增，从根本上改变了 AI 研究和行业的面貌，为通往下一个 AI 里程碑开辟了一条光明道路。然而，MLLM 在实际应用中仍面临重大挑战，其中最显著的是运行这些拥有大量参数和广泛计算需求的模型所需的高昂成本。因此，多数 MLLM 必须部署在高性能云服务器上，这严重限制了它们在移动、离线、能源敏感和隐私保护等场景的应用。在本研究中，我们推出了 MiniCPM-V，这是一系列可在终端设备上高效部署的 MLLM。通过在架构、预训练和对齐方面集成最新的 MLLM 技术，最新的 MiniCPM-Llama3-V 2.5 具备以下显著特点：(1) 在 OpenCompass 的 11 个流行基准综合评估中，性能超越了 GPT-4V-1106、Gemini Pro 和 Claude 3，(2) 强大的 OCR 能力，支持任意宽高比的 180 万像素高分辨率图像感知，(3) 低幻觉率的可信赖行为，(4) 支持 30 多种语言，以及 (5) 在手机上的高效部署。更重要的是，MiniCPM-V 体现了这样一个趋势：达到 GPT-4V 级别性能的模型尺寸正在迅速缩小，同时终端计算能力也在快速提升。这表明，在终端设备上部署 GPT-4V 级别的 MLLM 正变得越来越可行，未来将开启更广泛的现实世界 AI 应用。

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Lumina-mGPT：多模态生成式预训练在灵活逼真文本到图像生成中的应用我们提出了 Lumina-mGPT，这是一系列多模态自回归模型，能够执行各种视觉和语言任务，尤其擅长从文本描述生成灵活的逼真图像。与现有的自回归图像生成方法不同，Lumina-mGPT 采用预训练的仅解码器 Transformer 作为统一框架来建模多模态 Token 序列。我们的核心观点是，通过多模态生成式预训练（mGPT），利用大规模交错文本-图像序列上的下一个 Token 预测目标，一个简单的仅解码器 Transformer 可以学习广泛且通用的多模态能力，从而在逼真的文本到图像生成方面取得显著效果。基于这些预训练模型，我们提出了在高质量图像-文本对上的灵活渐进监督微调（FP-SFT），以充分释放它们在任何分辨率下进行高美学图像合成的潜力，同时保持其通用多模态能力。此外，我们引入了全面监督微调（Omni-SFT），将 Lumina-mGPT 转变为一个能够无缝实现全面任务统一的基础模型。所得到的模型展示了丰富的多模态能力，包括灵活的文本到图像生成和可控生成等视觉生成任务，分割和深度估计等视觉识别任务，以及多轮视觉问答等视觉-语言任务。此外，我们还直接比较了基于扩散和自回归方法之间的差异和相似性。

RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

RAG Foundry：提升大语言模型在检索增强生成中的应用框架实施检索增强生成 (RAG) 系统具有固有的复杂性，要求对数据、用例及复杂设计决策有深入的理解。此外，评估这些系统面临重大挑战，需要通过多维度方法来评估检索的准确性和生成的质量。我们推出了 RAG Foundry，这是一个用于提升大语言模型以适应 RAG 应用的开源框架。RAG Foundry 将数据创建、训练、推理和评估整合到一个统一的工作流程中，从而简化了在 RAG 场景下为大语言模型训练和评估创建数据增强数据集的过程。这种整合不仅加速了原型设计和多种 RAG 技术的实验，还使得用户能够利用内部或专业知识源轻松生成数据集并训练 RAG 模型。我们通过在多种 RAG 配置下增强和微调 Llama-3 和 Phi-3 模型，验证了该框架的有效性，展示了在三个知识密集型数据集上的持续改进。相关代码已作为开源项目发布在 https://github.com/IntelLabs/RAGFoundry。

MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models

MMIU: 多模态多图像理解在评估大视觉-语言模型中的应用处理多张图像的能力对于大视觉-语言模型 (LVLMs) 来说至关重要，这有助于它们更深入地理解场景。最近，多图像 LVLMs 已经开始应对这一挑战。然而，相应的评估体系并未跟上其发展的步伐。为此，我们推出了多模态多图像理解 (MMIU) 基准测试，这是一个旨在全面评估 LVLMs 在多图像任务上的综合工具。MMIU 涵盖了 7 种多图像关系、52 项任务、77K 张图像以及 11K 精心设计的多项选择题，使其成为同类基准测试中的佼佼者。我们评估了 24 个流行的 LVLMs，包括开源和专有模型，发现即使在空间理解相关的任务中，多图像理解仍面临重大挑战。即使是如 GPT-4o 这样的顶尖模型，在 MMIU 上的准确率也仅为 55.7%。通过深入的分析实验，我们揭示了关键的性能差距和局限性，为未来的模型和数据改进提供了重要参考。我们的目标是借助 MMIU 推动 LVLM 研究和开发的进步，从而实现更为复杂的多模态多图像用户交互。

LLaVA-OneVision: Easy Visual Task Transfer

LLaVA-OneVision: 轻松实现视觉任务迁移我们推出了 LLaVA-OneVision，这是一系列基于我们在 LLaVA-NeXT 博客系列中对数据、模型和视觉表示的深入见解而开发的开放大型多模态模型（LMMs）。实验结果显示，LLaVA-OneVision 是首个能在单图像、多图像和视频这三个关键计算机视觉场景中，同时提升开放 LMMs 性能的单一模型。该模型的设计使其能在不同模态和场景间进行高效的迁移学习，从而展现出新的能力。尤其值得一提的是，通过图像到视频的任务迁移，LLaVA-OneVision 展示了卓越的视频理解和跨场景应用能力。

An Object is Worth 64×64 Pixels: Generating 3D Object via Image Diffusion

64×64 像素的物体：通过图像扩散生成 3D 物体我们提出了一种新方法，通过名为“物体图像”的表示形式生成带有 UV 贴图的真实感 3D 模型。该方法在 64×64 像素图像中封装了表面几何、外观和补丁结构，将复杂 3D 形状简化为更易处理的 2D 格式。此举解决了多边形网格中固有的几何和语义不规则性问题。我们能够直接利用图像生成模型，如扩散 Transformer，进行 3D 形状生成。在 ABO 数据集上的评估显示，我们生成的具有补丁结构的形状在点云 FID 上与近期 3D 生成模型相当，并自然支持 PBR 材质生成。

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

Optimus-1：混合多模态记忆赋能智能体在长周期任务中表现卓越在人工智能领域，构建一个通用智能体一直是我们的长远目标。尽管现有智能体在多个领域取得了显著成就，但在开放世界中执行长周期任务时仍显不足。我们认为，这是由于智能体缺乏必要的世界知识和多模态经验，这些知识和经验对于应对复杂的长周期任务至关重要。为此，本文提出了一种混合多模态记忆模块，该模块1) 将知识结构化为分层有向知识图，使智能体能够明确地表示和学习世界知识；2) 将历史信息抽象为多模态经验池，为智能体提供丰富的上下文学习资源。基于此模块，我们构建了多模态智能体Optimus-1，该智能体配备了基于知识的规划器和经验驱动的反射器，显著提升了在Minecraft中处理长周期任务的能力。实验结果表明，Optimus-1在长周期任务基准测试中大幅领先于现有智能体，并在多项任务中接近人类表现。此外，我们还引入了多种多模态大语言模型(MLLMs)作为Optimus-1的核心，实验显示，借助混合多模态记忆模块，Optimus-1在多个任务中超越了GPT-4V基线，展现出强大的泛化能力。

Transformer Explainer: Interactive Learning of Text-Generative Models

Transformer 解释器：文本生成模型的交互式学习工具 Transformer 技术已经彻底革新了机器学习领域，但其内部机制对许多人来说仍然神秘。我们推出了 Transformer 解释器，这是一款专为非专业人士设计的交互式可视化工具，旨在通过 GPT-2 模型帮助用户深入理解 Transformer。该工具通过提供模型概览，并实现数学操作和模型结构抽象层次间的无缝切换，使用户能够轻松掌握复杂的 Transformer 概念。用户可以在自己的浏览器中运行一个实时的 GPT-2 实例，通过输入自己的文本，实时观察 Transformer 内部组件和参数如何协同工作，预测下一个 Token。该工具无需安装，也不需要特殊硬件，极大地拓宽了公众接触现代生成式 AI 技术的机会。我们的开源工具已上线，地址为 https://poloclub.github.io/transformer-explainer/，视频演示可访问 https://youtu.be/ECR4oAwocjs。

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

GMAI-MMBench: 面向通用医疗AI的综合多模态评估基准大型视觉-语言模型 (LVLMs) 能够处理影像、文本和生理信号等多种数据类型，并广泛应用于多个领域。在医疗领域，LVLMs 展现出为诊断和治疗提供实质性支持的巨大潜力。为此，开发评估 LVLMs 在医疗应用中有效性的基准显得尤为重要。然而，现有基准多基于特定学术文献，主要聚焦于单一领域，且缺乏多样化的感知粒度，导致临床相关性有限、评估不全面及对交互式 LVLMs 的指导不足。

针对这些局限，我们推出了 GMAI-MMBench，这是迄今为止最全面的通用医疗AI评估基准，具备细致分类的数据结构和多样的感知粒度。该基准整合了来自 285 个数据集的资源，涵盖 39 种医疗图像模态、18 项临床相关任务、18 个部门，并以视觉问答 (VQA) 形式呈现四种感知粒度。此外，我们引入了一种词汇树结构，使用户能够自定义评估任务，满足多样化的评估需求，从而大力推动医疗AI的研究与应用。

我们对 50 个 LVLMs 进行了评估，结果显示，即便是最先进的 GPT-4o 也仅达到 52% 的准确率，这表明仍有显著的提升空间。同时，我们识别出当前顶尖 LVLMs 存在的五个关键不足，这些问题的解决对于推动医疗应用的进一步发展至关重要。我们坚信，GMAI-MMBench 将激励社区开发面向通用医疗AI的下一代 LVLMs。

项目页面: https://uni-medical.github.io/GMAI-MMBench.github.io/