每周AI论文速递(240805-240809)

Medical SAM 2: Segment medical images as video via Segment Anything Model 2

Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割

本文介绍 Medical SAM 2 (MedSAM-2),一种先进的分割模型,采用 SAM 2 框架处理 2D 和 3D 医学图像分割任务。通过将医学图像视为连续视频流,MedSAM-2 不仅适用于 3D 医学图像,还引入了新的单提示分割功能。用户只需为某一特定图像提供目标对象的提示,模型即可在后续所有相关图像中自动分割出相同类型的对象,无需考虑图像间的时间顺序。我们在多种医学成像模式中评估了 MedSAM-2,包括腹部器官、视盘、脑肿瘤、甲状腺结节和皮肤病变,与传统和交互式分割环境中的最先进模型进行了比较。研究结果表明,MedSAM-2 在性能上超越了现有模型,并在广泛的医学图像分割任务中展现出更强的泛化能力。我们的代码将在以下网址发布: https://github.com/MedicineToken/Medical-SAM2

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

MiniCPM-V: 手机上的 GPT-4V 级别 MLLM 多模态大语言模型 (MLLM) 的近期激增,从根本上改变了 AI 研究和行业的面貌,为通往下一个 AI 里程碑开辟了一条光明道路。然而,MLLM 在实际应用中仍面临重大挑战,其中最显著的是运行这些拥有大量参数和广泛计算需求的模型所需的高昂成本。因此,多数 MLLM 必须部署在高性能云服务器上,这严重限制了它们在移动、离线、能源敏感和隐私保护等场景的应用。在本研究中,我们推出了 MiniCPM-V,这是一系列可在终端设备上高效部署的 MLLM。通过在架构、预训练和对齐方面集成最新的 MLLM 技术,最新的 MiniCPM-Llama3-V 2.5 具备以下显著特点:(1) 在 OpenCompass 的 11 个流行基准综合评估中,性能超越了 GPT-4V-1106、Gemini Pro 和 Claude 3,(2) 强大的 OCR 能力,支持任意宽高比的 180 万像素高分辨率图像感知,(3) 低幻觉率的可信赖行为,(4) 支持 30 多种语言,以及 (5) 在手机上的高效部署。更重要的是,MiniCPM-V 体现了这样一个趋势:达到 GPT-4V 级别性能的模型尺寸正在迅速缩小,同时终端计算能力也在快速提升。这表明,在终端设备上部署 GPT-4V 级别的 MLLM 正变得越来越可行,未来将开启更广泛的现实世界 AI 应用。

Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

Lumina-mGPT:多模态生成式预训练在灵活逼真文本到图像生成中的应用 我们提出了 Lumina-mGPT,这是一系列多模态自回归模型,能够执行各种视觉和语言任务,尤其擅长从文本描述生成灵活的逼真图像。与现有的自回归图像生成方法不同,Lumina-mGPT 采用预训练的仅解码器 Transformer 作为统一框架来建模多模态 Token 序列。我们的核心观点是,通过多模态生成式预训练(mGPT),利用大规模交错文本-图像序列上的下一个 Token 预测目标,一个简单的仅解码器 Transformer 可以学习广泛且通用的多模态能力,从而在逼真的文本到图像生成方面取得显著效果。基于这些预训练模型,我们提出了在高质量图像-文本对上的灵活渐进监督微调(FP-SFT),以充分释放它们在任何分辨率下进行高美学图像合成的潜力,同时保持其通用多模态能力。此外,我们引入了全面监督微调(Omni-SFT),将 Lumina-mGPT 转变为一个能够无缝实现全面任务统一的基础模型。所得到的模型展示了丰富的多模态能力,包括灵活的文本到图像生成和可控生成等视觉生成任务,分割和深度估计等视觉识别任务,以及多轮视觉问答等视觉-语言任务。此外,我们还直接比较了基于扩散和自回归方法之间的差异和相似性。

RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

RAG Foundry:提升大语言模型在检索增强生成中的应用框架 实施检索增强生成 (RAG) 系统具有固有的复杂性,要求对数据、用例及复杂设计决策有深入的理解。此外,评估这些系统面临重大挑战,需要通过多维度方法来评估检索的准确性和生成的质量。我们推出了 RAG Foundry,这是一个用于提升大语言模型以适应 RAG 应用的开源框架。RAG Foundry 将数据创建、训练、推理和评估整合到一个统一的工作流程中,从而简化了在 RAG 场景下为大语言模型训练和评估创建数据增强数据集的过程。这种整合不仅加速了原型设计和多种 RAG 技术的实验,还使得用户能够利用内部或专业知