每周AI论文速递（240729-240802） – 叶子的技术碎碎念

每周AI论文速递系列已经创建GitHub仓库，欢迎star.

SHIC: Shape-Image Correspondences with no Keypoint Supervision

规范表面映射通过将对象的每个像素分配到3D模板中的对应点，从而拓展了关键点检测的应用范围。DensePose在分析人类时推广了这一概念，此后作者们尝试将其应用于更多类别，但由于手动监督的高成本，成功有限。在这项工作中，我们引入了SHIC，一种无需手动监督即可学习规范映射的方法，该方法在大多数类别上取得了比监督方法更好的结果。我们的想法是利用基础计算机视觉模型，如DINO和Stable Diffusion，这些广泛应用的模型对自然类别具有出色的先验知识。SHIC将估计图像到模板对应关系的问题转化为使用基础模型特征预测图像到图像对应关系。这种转化通过将对象的图像与模板的非真实感渲染进行匹配来实现，这模拟了为此任务收集手动注释的过程。然后，这些对应关系用于监督高质量的规范映射，适用于任何感兴趣的对象。我们还展示了图像生成器可以进一步提高模板视图的真实感，这为模型提供了额外的监督来源。

Wolf: Captioning Everything with a World Summarization Framework

Wolf: 利用世界总结框架实现全面视频字幕生成

我们提出 Wolf，这是一个旨在实现精确视频字幕生成的世界总结框架。Wolf 采用专家混合方法，充分利用视觉语言模型 (Vision Language Models, VLMs) 的互补特性。通过整合图像和视频模型，我们的框架能够有效捕捉多层次信息并进行高效总结。该方法可广泛应用于提升视频理解、自动标注及字幕生成等领域。为评估字幕质量，我们创新性地引入了 CapScore，这是一种基于大语言模型 (LLM) 的评估指标，用于衡量生成字幕与真实字幕的相似度和质量。此外，我们还构建了四个领域的人工标注数据集，涵盖自动驾驶、通用场景和机器人，以支持更全面的性能比较。实验结果表明，Wolf 在字幕生成方面显著超越了研究社区的先进方法（如 VILA1.5、CogAgent）以及商业解决方案（如 Gemini-Pro-1.5、GPT-4V）。例如，在处理复杂驾驶视频时，Wolf 的 CapScore 在质量上提升了 55.6%，在相似度上提升了 77.4%。最后，我们设立了一个视频字幕基准，并推出了一个排行榜，旨在推动视频理解、字幕生成及数据对齐技术的发展。排行榜链接: https://wolfv0.github.io/leaderboard.html。

AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

AppWorld：用于基准测试交互式编码智能体的可控应用与人群世界

自主智能体在处理日常数字任务（例如为家庭订购杂货）时，不仅需通过 API 操作多个应用（如笔记、消息、购物应用），还需根据与环境的交互，以迭代方式生成包含复杂控制流的丰富代码。然而，现有工具使用基准仅涵盖了需要简单 API 调用序列的任务，存在不足。为填补这一空白，我们开发了 AppWorld Engine，这是一个包含 9 个日常应用、可通过 457 个 API 操作的高质量执行环境（60K 行代码），并模拟了约 100 名虚构用户的真实数字活动。接着，我们创建了 AppWorld Benchmark（40K 行代码），包含 750 个自然、多样且具有挑战性的自主智能体任务，这些任务需要丰富的交互式代码生成。该基准支持基于状态的单元测试进行稳健的程序化评估，不仅允许以多种方式完成任务，还能检测意外变化，即附带损害。目前，最先进的大语言模型 GPT-4o 仅能解决约 49% 的“正常”任务和 30% 的“挑战”任务，而其他模型表现更差，至少少解决了 16%。这凸显了该基准的难度以及 AppWorld 推动交互式编码智能体发展的潜力。项目网站位于 https://appworld.dev/。

SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain

SaulLM-54B & SaulLM-141B: 法律领域域适应的规模化扩展

在本篇论文中，我们介绍了 SaulLM-54B 和 SaulLM-141B，这是两款专为法律领域定制的大语言模型 (LLMs)。这两个模型分别具有 540亿参数和1410亿参数的架构，基于 Mixtral 架构。SaulLM-54B 和 SaulLM-141B 的开发遵循大规模域适应的指导，分为三种策略：(1) 利用包含超过5400亿个法律Token的基础语料库进行持续预训练，(2) 实施专门的法律指令遵循协议，以及 (3) 使模型输出与法律解释中的人类偏好对齐。在第二和第三步骤中整合合成生成的数据，增强了模型在解释和处理法律文本方面的能力，有效地达到了业界领先水平，并在 LegalBench-Instruct 上超越了先前的开源模型。本研究探讨了在这种规模下特定领域适应所涉及的权衡，提供了可能指导未来使用强解码器模型进行域适应研究的见解。基于 SaulLM-7B，本研究改进了方法，生产出更适合法律任务的 LLM。我们正在 MIT 许可证下发布基于 SaulLM-54B 和 SaulLM-141B 的基础、指令和校准版本，以促进复用和合作研究。

Integrating Large Language Models into a Tri-Modal Architecture for Automated Depression Classification

将大语言模型整合到三模态架构中用于自动化抑郁症分类

重度抑郁症（Major Depressive Disorder, MDD）是一种普遍的心理健康状况，影响全球 3 亿人。这项工作提出了一种新颖的基于 BiLSTM 的三模态模型级融合架构，用于从临床访谈录音中进行抑郁症的二元分类。所提出的架构结合了 Mel Frequency Cepstral Coefficients、Facial Action Units，并使用基于少样本学习法的 GPT-4 模型来处理文本数据。这是首次将大语言模型纳入此类任务的多模态架构中。它在 DAIC-WOZ AVEC 2016 挑战赛的交叉验证分割和 Leave-One-Subject-Out 交叉验证分割上取得了令人印象深刻的结果，超越了所有基线模型和多个最先进模型。在 Leave-One-Subject-Out 测试中，它达到了 91.01% 的准确率、85.95% 的 F1-Score、80% 的精确度和 92.86% 的召回率。

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

SeaLLMs 3: 面向东南亚语言的开源与多语种大语言模型

大语言模型 (LLMs) 在多种任务中展现出显著能力，但其发展主要集中于英语和中文等高资源语言，导致低资源语言服务不足。为解决这一问题，我们推出了 SeaLLMs 3，这是 SeaLLMs 模型家族的最新版本，专门针对东南亚语言。该地区以丰富的语言多样性著称，却缺乏足够的语言技术支持。SeaLLMs 3 通过覆盖该地区广泛使用的语言，包括英语、中文、印度尼西亚语、越南语、泰语、他加禄语、马来语、缅甸语、高棉语、老挝语、泰米尔语和爪哇语，旨在填补这一空白。借助高效的语言增强技术和专门构建的指令调优数据集，SeaLLMs 3 不仅显著降低了训练成本，还保持了高性能和多功能性。我们的模型在处理世界知识、数学推理、翻译和指令遵循等任务时表现卓越，在同类模型中达到了顶尖水平。此外，我们通过考虑通用和文化特定因素，并引入减少幻觉的机制，确保了模型的安全性和可靠性。这项工作强调了包容性 AI 的重要性，展示了先进的 LLM 能力如何惠及服务不足的语言和文化社区。

FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention

FreeLong: 无训练长视频生成与光谱混合时序注意力

视频扩散模型在各种视频生成应用中取得了重大进展。然而，训练用于长视频生成的模型需要大量的计算和数据资源，这对开发长视频扩散模型构成了挑战。本文研究了一种直接且无需训练的方法，以扩展现有的短视频扩散模型（例如，预训练于16帧视频）用于长视频生成（例如，128帧）。我们发现，直接应用短视频扩散模型生成长视频会导致严重的视频质量下降。进一步的研究揭示，这种下降主要是由于长视频中高频成分的失真，表现为空间高频成分的减少和时间高频成分的增加。基于此，我们提出了一种名为FreeLong的新解决方案，用于在去噪过程中平衡长视频特征的频率分布。FreeLong结合了全局视频特征的低频成分（涵盖整个视频序列）与局部视频特征的高频成分（聚焦于较短的子序列帧）。这种方法在保持全局一致性的同时，从局部视频中引入多样且高质量的时空细节，增强了长视频生成的连贯性和保真度。我们在多个基础视频扩散模型上评估了FreeLong，并观察到了显著的改进。此外，我们的方法支持连贯的多提示生成，确保了场景间的视觉连贯性和无缝过渡。

Theia: Distilling Diverse Vision Foundation Models for Robot Learning

Theia: 为机器人学习提炼多样化的视觉基础模型

基于视觉的机器人策略学习，即将视觉输入映射到动作，不仅需要对单一任务如分类或分割有深入理解，更需全面掌握多样化的视觉任务。鉴于此，我们提出了 Theia，这是一个专为机器人学习设计的视觉基础模型，它融合了多个针对不同视觉任务训练的现成视觉基础模型。Theia 通过其丰富的视觉表示，有效编码了多样的视觉知识，从而显著提升了机器人学习的下游应用。实验结果显示，在训练数据量更少和模型规模更小的情况下，Theia 的表现超越了其教师模型及以往的机器人学习模型。此外，我们还对预训练视觉表示的质量进行了量化分析，并提出假设：特征范数分布中更高的熵可能有助于提升机器人学习的表现。相关代码和模型已公开于 https://github.com/bdaiinstitute/theia。

MindSearch: Mimicking Human Minds Elicits Deep AI Searcher

MindSearch: 模拟人类思维的深度AI搜索系统

信息寻求与整合是一项耗时且复杂的认知任务。受大语言模型（LLM）显著进展的启发，近期研究尝试通过结合LLM和搜索引擎来解决这一任务。然而，这些方法仍面临三大挑战：（1）复杂请求难以一次性通过搜索引擎准确完整地获取；（2）相关信息分散在多个网页中，伴随大量噪音；（3）大量内容冗长的网页可能迅速超出LLM的最大上下文长度。借鉴人类解决此类问题时的认知过程，我们提出了MindSearch，旨在模拟人类在网络信息寻求与整合中的思维方式，该系统通过一个简单而有效的大语言模型多智能体框架实现。WebPlanner将人类多步骤信息寻求的思维模式建模为动态图构建过程：它将用户查询分解为图中的原子子问题节点，并基于WebSearcher的搜索结果逐步扩展图。每个子问题由WebSearcher负责，执行分层信息检索，利用搜索引擎收集有价值信息供WebPlanner使用。MindSearch的多智能体设计使得整个框架能够并行地从更大规模（例如超过300个）的网页中寻求和整合信息，仅需3分钟，相当于人类3小时的工作量。MindSearch在闭集和开集问答问题的响应质量上，无论在深度还是广度方面，都显示出显著的改进。此外，基于InternLM2.5-7B的MindSearch生成的响应，在人类评价中优于ChatGPT-Web和Perplexity.ai应用，这意味着MindSearch已经能够提供一个有竞争力的专有AI搜索引擎解决方案。

MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains

MMAU：跨多样领域的智能体能力综合基准

随着大语言模型 (LLM) 的最新进展，对全面基准测试的需求日益增长，以评估其作为类人智能体的能力。尽管现有基准具有一定价值，但它们往往聚焦于特定应用场景，强调任务完成而忽视了驱动这些成果的底层技能。这种缺乏细致划分的情况使得我们难以深入探究失败的根源。此外，搭建这些测试环境需要大量工作，且在交互任务中常出现不可靠性和可重复性问题。为应对这些挑战，我们推出了大规模多任务智能体理解 (MMAU) 基准，该基准包含全面的离线任务，无需复杂的环境设置。MMAU 评估模型在五个领域的能力，包括 工具使用、有向无环图 (DAG) 问答、数据科学和机器学习编码、竞赛级编程 和数学，并涵盖了五个核心能力：理解、推理、规划、问题解决 和 自我修正。通过 20 个精心设计的任务，涵盖超过 3K 个不同提示，MMAU 提供了一个全面的评估框架，用以揭示 LLM 智能体的优势与局限。我们在 MMAU 上对 18 个代表性模型进行了测试，提供了深入且富有洞察力的分析。最终，MMAU 不仅揭示了 LLM 智能体的能力和局限性，还增强了其性能的可解释性。MMAU 的数据集和评估脚本已在 https://github.com/apple/axlearn/docs/research/mmau 发布。

Diffusion Feedback Helps CLIP See Better

Diffusion Feedback 助力 CLIP 视觉提升

对比语言-图像预训练（CLIP）在处理跨领域和模态的开放世界表示方面表现出色，已成为多种视觉和多模态任务的基石。然而，最新研究揭示了 CLIP 在视觉识别上的严重不足，例如难以辨别方向、数量、颜色和结构等。这些视觉缺陷同样限制了基于 CLIP 构建的多模态大语言模型（MLLMs）的感知能力。造成这一问题的原因可能是，用于训练 CLIP 的图像-文本对存在固有偏差，这源于文本的缺乏独特性和图像多样性的不足。在本研究中，我们提出了一种简便的 CLIP 模型后训练方法，通过自监督扩散过程显著改善了其视觉识别能力。我们引入了 DIVA，该系统利用 DIffusion 模型作为 CLIP 的视觉辅助工具。具体来说，DIVA 通过文本到图像扩散模型的生成反馈来优化 CLIP 的图像表示，仅依赖图像数据（无需对应文本）。实验结果显示，DIVA 在评估细粒度视觉能力的 MMVP-VLM 基准上显著提升了 CLIP 的性能（提升幅度达 3-7%），并增强了 MLLMs 和视觉模型在多模态理解和分割任务中的表现。在 29 个图像分类和检索基准上的广泛评估表明，我们的框架成功保留了 CLIP 的强大零样本能力。相关代码将在 https://github.com/baaivision/DIVA 发布。

Mixture of Nested Experts: Adaptive Processing of Visual Tokens

混合嵌套专家：视觉 Token 的自适应处理

视觉媒介（图像和视频）因其天然的信息冗余特性，为提升处理效率提供了广阔空间。尽管基于 Vision Transformer (ViT) 的模型在大数据领域表现出色，但未能充分利用这种冗余，导致计算成本增加。混合专家 (MoE) 网络虽在保持推理成本不变的情况下实现了扩展，但其参数规模较大。为此，我们提出了混合嵌套专家 (MoNE)，该模型采用专家的嵌套结构，使得单个专家的计算与准确性呈递增关系。在既定计算预算下，MoNE 能够动态地按优先级选择 Token，并通过成本较低的嵌套专家处理冗余 Token。通过这一框架，我们不仅实现了与基准模型相当的性能，还将推理时间计算成本降低了超过一半。我们在标准图像和视频数据集（ImageNet-21K、Kinetics400 和 Something-Something-v2）上验证了该方法的有效性。此外，我们还展示了 MoNE 在不同推理计算预算下保持视频处理高性能的能力，且仅需单一训练模型，从而凸显了其强大的适应性。

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

通过直接偏好优化自训练提升链式思维推理能力

为了有效训练语言模型 (LMs) 执行数学推理任务，需要高质量的监督微调数据。除了获取人类专家的标注外，另一个常见方法是利用更大、更强大的 LMs 进行采样。然而，这种知识蒸馏方法不仅成本高昂，而且稳定性差，特别是在依赖如 GPT-4 这样的闭源、专有 LMs 时，其行为往往难以预测。在本研究中，我们展示了通过自训练（即模型从自身输出中学习）可以提升小规模 LMs 的推理能力。此外，我们还发现，通过引入一种名为直接偏好优化 (DPO) 的偏好学习算法，可以进一步增强传统自训练的效果。通过将 DPO 与自训练结合，我们利用偏好数据引导 LMs 实现更准确和多样化的链式思维推理。我们在多个基础模型上对这种方法在各种数学推理任务中进行了评估。实验结果显示，这种方法不仅提升了 LMs 的推理性能，而且相较于依赖大型专有 LMs，提供了更具成本效益和可扩展性的解决方案。

Meltemi: The first open Large Language Model for Greek

Meltemi: 首个针对希腊语的开源大语言模型

本文介绍了 Meltemi 7B 的开发及其功能，这是首个针对希腊语的开源大语言模型。Meltemi 7B 拥有 70亿参数，并在一个包含 400亿 Token 的希腊语语料库上进行训练。在开发 Meltemi 7B 过程中，我们基于 Mistral 在希腊语语料库上进行了连续预训练。Meltemi 7B 包含截至 2023 年 9 月的最新信息。此外，我们还翻译并精选了一个希腊语指令语料库，用于名为 Meltemi 7B Instruct 的聊天模型的指令调优。特别关注了 Meltemi 7B Instruct 的对齐和有毒内容的移除。所开发的模型在一系列收集的评估语料库上进行了评估，并展示了提示和响应的示例。Meltemi 7B 和 Meltemi 7B Instruct 均可在 https://huggingface.co/ilsp 上获得，遵循 Apache 2.0 许可证。

A Large Encoder-Decoder Family of Foundation Models For Chemical Language

化学语言基础模型的大型编码器-解码器家族

化学语言模型的大规模预训练方法标志着化学信息学领域的重大突破。这些方法通过在大型未标注语料库上进行自监督学习，学习输入Token的上下文表示，从而在性质预测和分子生成等任务中表现优异。通常，这涉及在未标注数据上进行预训练，然后在特定任务上进行微调，减少对标注数据集的依赖，并拓宽对化学语言表示的理解。本文介绍了一种大型编码器-解码器化学基础模型，该模型在从PubChem获取的9100万个SMILES样本（相当于40亿个分子Token）的精选数据集上进行了预训练。所提出的基础模型支持不同的复杂任务，包括量子性质预测，并提供了两种主要变体（289M和8倍289M）的灵活性。我们在多个基准数据集上的实验验证了所提出模型在不同任务上提供最先进结果的能力。我们还对嵌入空间的组合性进行了初步评估，作为推理任务的前提条件。我们证实，与现有技术相比，所产生的潜在空间具有可分离性，并具备少样本学习能力。

ThinK: Thinner Key Cache by Query-Driven Pruning

ThinK: 通过查询驱动的剪枝实现更薄的关键缓存

大语言模型 (LLMs) 已经极大地推动了自然语言处理领域的发展，利用增加的模型大小和序列长度，在多种应用中取得了突破性的性能。然而，这一进步也伴随着计算和内存成本的显著上升，尤其是在处理长序列时，由于 Transformer 注意力机制的二次复杂性，这一问题尤为突出。本文针对长上下文场景，致力于解决推理过程中 KV 缓存内存消耗的低效问题。不同于以往基于序列长度优化内存的方法，我们观察到 KV 缓存的通道维度存在显著冗余，具体表现为注意力权重的不平衡幅度分布和低秩结构。基于这些发现，我们提出了 ThinK，一种新颖的查询依赖的 KV 缓存剪枝方法，旨在最小化注意力权重损失的同时，选择性地剪枝最不重要的通道。我们的方法不仅保持或提升了模型精度，而且与传统的 KV 缓存驱逐方法相比，实现了超过 20% 的内存成本降低。在 LLaMA3 和 Mistral 模型上对多种长序列数据集进行的大量评估证实了 ThinK 的有效性，为高效部署 LLM 而不牺牲性能树立了新的标杆。此外，我们还探讨了将我们的方法扩展到值缓存剪枝的可能性，显示了 ThinK 在减少内存和计算开销方面的广泛适用性和多功能性。

Adapting Safe-for-Work Classifier for Malaysian Language Text: Enhancing Alignment in LLM-Ops Framework

针对马来西亚语言文本的安全工作分类器：增强大语言模型操作框架中的对齐

随着大语言模型 (LLMs) 越来越融入操作工作流程 (LLM-Ops)，迫切需要有效的机制来确保安全和一致的交互，包括检测跨语言的潜在不安全或不适当内容的能力。然而，现有的安全工作分类器主要集中在英语文本上。为了解决马来西亚语言的这一差距，我们提出了一种专为马来西亚语言内容定制的新型安全工作文本分类器。通过收集和标注首个涵盖多个内容类别的马来西亚文本数据集，我们训练了一个分类模型，该模型能够使用先进的自然语言处理技术识别潜在的不安全材料。这项工作是实现更安全交互和内容过滤以减轻潜在风险并确保大语言模型负责任部署的重要步骤。为了最大限度地提高可访问性并促进进一步研究以增强马来西亚情境下大语言模型操作框架中的对齐，该模型在 https://huggingface.co/malaysia-ai/malaysian-sfw-classifier 公开发布。

The Llama 3 Herd of Models

Llama 3 模型系列

现代人工智能 (AI) 系统由基础模型驱动。本文介绍了一组新的基础模型，称为 Llama 3。这是一系列原生支持多语言、编程、推理和工具使用的语言模型。我们最大的模型是一个拥有 405B 参数和 128K Token 上下文窗口的密集 Transformer。本文对 Llama 3 进行了广泛的实证评估。我们发现 Llama 3 在众多任务上与 GPT-4 等领先语言模型相比质量相当。我们公开发布了 Llama 3，包括 405B 参数语言模型的预训练和后训练版本以及我们的 Llama Guard 3 模型，该模型专门用于确保输入和输出的安全性。论文还展示了通过组合方法将图像、视频和语音功能集成到 Llama 3 中的实验结果。我们观察到这种方法在图像、视频和语音识别任务上与最先进的技术表现竞争。由此产生的模型尚未广泛发布，因为它们仍在开发中。

Tora: Trajectory-oriented Diffusion Transformer for Video Generation

Tora: 轨迹导向的扩散Transformer在视频生成中的应用

近期扩散Transformer (DiT) 的进展在生成高质量视频内容方面展现了显著的能力。然而，基于Transformer的扩散模型在有效生成可控运动视频方面的潜力仍是一个探索有限的领域。本文介绍了Tora，这是首个轨迹导向的DiT框架，它同时整合了文本、视觉和轨迹条件用于视频生成。具体来说，Tora包括一个轨迹提取器 (TE)、一个时空DiT和一个运动引导融合器 (MGF)。TE利用一个3D视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF将运动补丁整合到DiT块中，从而沿着轨迹生成一致的视频。我们的设计与DiT的可扩展性无缝对接，允许对视频内容的动态进行精确控制，具备多样化的时长、宽高比和分辨率。广泛的实验证明了Tora在实现高运动保真度的同时，还能精细模拟物理世界的运动。页面可在 https://ali-videoai.github.io/tora_video 找到。

SAM 2: Segment Anything in Images and Videos

SAM 2: 图像与视频中的全面分割

我们推出了分割一切模型2（SAM 2），这是一个旨在解决图像和视频中可提示视觉分割问题的基础模型。通过构建一个数据引擎，我们利用用户交互来不断优化模型和数据，从而收集到迄今为止规模最大的视频分割数据集。SAM 2采用了一种简洁的Transformer架构，并配备了流式内存功能，非常适合实时视频处理。在基于我们的数据集训练后，SAM 2在多种任务中展现了卓越的性能。特别是在视频分割领域，我们发现SAM 2能够以先前方法三分之一不到的交互次数，实现更高的准确率。而在图像分割方面，SAM 2不仅更为精确，处理速度也比原版分割一切模型（SAM）快了六倍。我们坚信，我们的数据集、模型及其深入见解，将为视频分割及相关感知任务树立新的里程碑。目前，我们已发布该模型的版本、数据集以及一个互动式演示供公众体验。

Gemma 2: Improving Open Language Models at a Practical Size

在这项工作中，我们介绍了 Gemma 2，这是 Gemma 系列轻量级、最先进的开放模型的最新成员，参数规模从 20 亿至 270 亿。在这个新版本中，我们对 Transformer 架构进行了多项已知的技术改进，包括采用交替的局部-全局注意力机制 (Beltagy et al., 2020a) 和组查询注意力机制 (Ainslie et al., 2023)。此外，我们使用知识蒸馏 (Hinton et al., 2015) 而非传统的下一个 Token 预测方法来训练 20 亿和 90 亿参数的模型。这些改进使得 Gemma 2 模型在同等规模下表现卓越，甚至能与参数数量多出 2-3 倍的模型相媲美。我们已将所有相关模型向社区开放。