每周AI论文速递（241014-241018）-2

Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts

将医疗大语言模型适配到本地语言中可以降低获取医疗服务的障碍，但数据稀缺仍然是一个重大挑战，特别是对于低资源语言。为了解决这个问题，我们首先构建了一个高质量的医疗数据集，并进行分析以确保数据集的质量。为了利用多语言大语言模型的泛化能力，高效地扩展到更多资源受限的语言中，我们探索了从多语言角度使用专家混合（MoE）模块化的LLM内部信息流。技术上，我们提出了一种新的MoE路由方法，该方法采用语言特定的专家和跨语言路由机制。受电路理论启发，我们的路由分析揭示了一种“末端扩散”的信息流模式：虽然早期层集中了跨语言信息流，但后期层表现出语言特定的发散。这一见解直接导致了Post-MoE架构的发展，该架构仅在后期层应用稀疏路由，同时保持其他层的密集性。实验结果表明，这种方法增强了多语言模型对其他语言的泛化能力，同时保持了模型的解释性。最后，为了高效地将模型扩展到50种语言，我们引入了语言家族专家的概念，借鉴了语言学先验知识，这使得在不增加额外参数的情况下扩展语言数量成为可能。

VidEgoThink: Assessing Egocentric Video Understanding Capabilities for Embodied AI

VidEgoThink: 评估具身AI的自我中心视频理解能力

多模态大语言模型 (MLLMs) 的最新进展为具身AI应用带来了新机遇。基于先前的工作 EgoThink，我们推出了 VidEgoThink，这是一个全面评估自我中心视频理解能力的基准。为弥合 MLLMs 与具身AI低级控制间的差距，我们设计了四个关键任务：视频问答、层次规划、视觉定位和奖励建模。为降低手动标注成本，我们基于 Ego4D 数据集开发了自动数据生成管道，利用 GPT-4o 的先验知识和多模态能力。三位人类标注者随后对生成数据进行筛选，确保多样性和质量，最终形成 VidEgoThink 基准。我们采用三种模型进行了广泛实验：基于API的 MLLMs、开源的基于图像的 MLLMs 和开源的基于视频的 MLLMs。实验结果显示，包括 GPT-4o 在内的所有 MLLMs 在自我中心视频理解相关任务中表现欠佳。这表明，基础模型在应用于具身AI的第一人称场景前，仍需大幅改进。总之，VidEgoThink 反映了利用 MLLMs 进行自我中心视觉研究的趋势，旨在实现类似人类的主动观察和互动能力，以应对复杂现实环境。

HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

HumanEval-V: 通过编码任务评估大型多模态模型的视觉理解和推理能力

编码任务对于评估大语言模型 (Large Language Models, LLMs) 具有重要价值，因为它们要求对高级指令的理解、复杂推理以及功能程序的实现——这些都是推进通用人工智能 (Artificial General Intelligence) 的核心能力。尽管大型多模态模型 (Large Multimodal Models, LMMs) 在视觉感知和理解能力方面取得了进展，但在强调视觉推理的任务中，仍然缺乏严格的编码基准来评估这些模型。为了填补这一空白，我们推出了 HumanEval-V，这是一个新颖且轻量级的基准，专门设计用于通过代码生成来评估 LMMs 的视觉理解和推理能力。HumanEval-V 包括 108 个精心设计的入门级 Python 编码任务，源自 CodeForces 和 Stack Overflow 等平台。每个任务通过修改原始问题的上下文和算法模式来改编，视觉元素被重新绘制以确保与源头的区别，防止潜在的数据泄露。LMMs 需要根据提供的视觉上下文和预定义的 Python 函数签名完成代码解决方案，以明确任务要求。每个任务都配备了精心手工制作的测试用例，以确保对模型生成的解决方案进行全面且可靠的评估。我们使用 HumanEval-V 评估了 19 个最先进的 LMMs，发现了显著的挑战。如 GPT-4o 这样的专有模型在 pass@1 上仅达到 13%，在 pass@10 上达到 36.4%，而具有 70B 参数的开源模型在 pass@1 上的得分低于 4%。消融研究进一步揭示了当前 LMMs 在视觉推理和编码能力方面的局限性。这些结果强调了未来研究中需要增强 LMMs 能力的关键领域。我们在 https://github.com/HumanEval-V/HumanEval-V-Benchmark 上开源了我们的代码和基准。

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

多模态挑战：评估大语言模型在语言、视觉和音频中的幻觉现象

大语言模型 (LMM) 的最新进展在多种任务中显著提升了性能，并持续努力整合视频和音频等额外模态。然而，大多数现有 LMM 仍易受幻觉现象的影响，即事实多模态输入与生成文本输出之间的差异，这限制了其在各种现实场景中的应用。本文首次系统地研究了涉及语言、视觉和音频三种最常见模态的 LMM 中的幻觉现象。我们的研究发现，幻觉现象的两个主要原因是过度依赖单模态先验知识和虚假的模态间关联。为应对这些挑战，我们引入了基准测试“多模态挑战 (CMM)”，该基准全面评估了 LMM 中的幻觉现象，并详细分析了其根本问题。我们的研究结果突显了关键的脆弱性，包括模态整合的不平衡和训练数据中的偏见，强调了平衡跨模态学习和增强幻觉缓解策略的必要性。基于我们的观察和发现，我们提出了可能增强 LMM 可靠性的潜在研究方向。

Movie Gen: A Cast of Media Foundation Models

Movie Gen: 媒体基础模型的阵容

我们提出了 Movie Gen，这是一组能够生成高质量 1080p HD 视频的基础模型，支持不同的宽高比和同步音频。此外，我们还展示了其他功能，如基于精确指令的视频编辑和根据用户图像生成个性化视频。我们的模型在多个任务上设定了新的最先进水平：文本到视频合成、视频个性化、视频编辑、视频到音频生成以及文本到音频生成。我们最大的视频生成模型是一个 30B 参数的 Transformer，训练时最大上下文长度为 73K 视频 Token，对应于以 16 帧每秒生成的 16 秒视频。我们在架构、潜在空间、训练目标和配方、数据整理、评估协议、并行化技术和推理优化方面展示了多项技术创新和简化，使我们能够从扩展预训练数据、模型大小和训练计算中获益，以训练大规模媒体生成模型。我们希望这篇论文能帮助研究社区加速媒体生成模型的进展和创新。本文中的所有视频均可在 https://go.fb.me/MovieGenResearchVideos 获取。

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

MixEval-X: 从真实世界数据混合中进行任意到任意评估

感知和生成多样化的模态对于 AI 模型有效学习和与真实世界信号互动至关重要，这需要对其发展进行可靠的评估。我们发现当前评估中存在两个主要问题：(1) 标准不一致，受不同社区的协议和成熟度水平影响；(2) 明显的查询、评分和泛化偏差。为解决这些问题，我们引入了 MixEval-X，这是首个旨在优化和标准化输入和输出模态评估的任意到任意真实世界基准。我们提出了多模态基准混合和适应矫正管道，以重建真实世界的任务分布，确保评估能有效泛化到真实世界的用例。广泛的元评估显示，我们的方法有效地将基准样本与真实世界的任务分布对齐，模型排名与众包的真实世界评估高度相关（高达 0.98）。我们提供全面的排行榜，以重新排名现有模型和组织，并提供见解以增强对多模态评估的理解，并指导未来研究。

MobA: A Two-Level Agent System for Efficient Mobile Task Automation

MobA: 一种用于高效移动任务自动化的两级智能体系统

当前的移动助手受限于对系统 API 的依赖，或在处理复杂用户指令和多样界面时，由于理解和决策能力的限制而面临挑战。为应对这些挑战，我们提出了 MobA，一种由多模态大语言模型驱动的移动电话智能体，通过两级智能体架构增强了理解和规划能力。全局智能体 (GA) 负责理解用户命令、跟踪历史记忆和规划任务。本地智能体 (LA) 在子任务和 GA 记忆的指导下，以函数调用的形式预测详细动作。引入反思模块，使得任务完成更加高效，并使系统能够处理以前未见过的复杂任务。MobA 在实际评估中展示了任务执行效率和完成率的显著提升，突显了多模态大语言模型赋能的移动助手的潜力。