每周AI论文速递（240902-240906） – 叶子的技术碎碎念

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

科学文献理解对于提取目标信息和获得洞察力至关重要，从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功，但它们在理解科学文献方面面临挑战，主要是因为 (1) 缺乏科学知识，以及 (2) 不熟悉专门的科学任务。

为了开发专门用于科学文献理解的大语言模型，我们提出了一种混合策略，将持续预训练 (CPT) 和监督微调 (SFT) 相结合，以同时注入科学领域知识和增强针对特定领域任务的指令遵循能力。在这个过程中，我们确定了两个关键挑战：(1) 构建高质量的 CPT 语料库，以及 (2) 生成多样化的 SFT 指令。我们通过一个细致的流程来解决这些挑战，包括 PDF 文本提取、解析内容错误纠正、质量过滤和合成指令创建。应用这一策略，我们提出了一系列专门用于科学文献理解的大语言模型：SciLitLLM。这些模型在科学文献理解基准测试中展示了有前景的性能。

我们的贡献有三方面：(1) 我们提出了一个有效的框架，将 CPT 和 SFT 结合以适应大语言模型到科学文献理解，该框架也可以轻松适应其他领域。(2) 我们提出了一种基于大语言模型的合成方法，以生成多样化和高质量的科学指令，从而产生了一套新的指令集 — SciLitIns — 用于在代表性不足的科学领域进行监督微调。(3) SciLitLLM 在科学文献理解基准测试中实现了有前景的性能提升。

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Mini-Omni: 语言模型在流式传输中实现听、说与思考

近年来，语言模型在实时对话方面取得了重大进展。GPT-4o作为新的里程碑，已实现与人类的实时对话，其自然流畅度接近人类水平。这种人机交互要求模型能够直接通过音频模态进行推理，并生成流式输出。然而，当前学术模型通常依赖额外的TTS系统进行语音合成，导致显著的延迟。本文介绍了Mini-Omni，一种基于音频的端到端对话模型，能够实现实时语音交互。为实现这一功能，我们提出了一种文本指令驱动的语音生成方法，并在推理过程中采用批量并行策略以进一步提升性能。我们的方法还能在最小化语言能力退化的情况下保留原始模型的语言能力，使其他研究能够构建实时交互功能。我们将这种训练方法称为“任何模型都能说话”。此外，我们还引入了VoiceAssistant-400K数据集，用于微调针对语音输出的优化模型。据我们所知，Mini-Omni是首个完全端到端、开源的实时语音交互模型，为未来研究提供了巨大的潜力。

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

VisionTS: 视觉掩码自编码器是无额外成本的零样本时间序列预测解决方案

基础模型在时间序列预测 (TSF) 中展现出巨大潜力。现有方法或微调大语言模型 (LLMs)，或构建大规模时间序列数据集以开发 TSF 基础模型。然而，这些方法受限于严重的跨领域差距或领域内异质性。本文探索了从丰富且高质量的自然图像构建 TSF 基础模型的新途径，基于图像与时间序列的内在相似性。为弥合领域间差距，我们将 TSF 任务重新定义为图像重建任务，并由在 ImageNet 数据集上自监督预训练的视觉掩码自编码器 (MAE) 处理。令人惊讶的是，VisionTS 无需进一步适应时间序列领域，即可实现优于现有模型的零样本预测性能。经过轻微微调，VisionTS 的预测性能进一步提升，并在多数情况下达到领先水平。这些发现表明，视觉模型可能是 TSF 的无额外成本解决方案，并突显了未来计算机视觉与 TSF 跨领域研究的潜力。我们的代码公开发布在 https://github.com/Keytoyze/VisionTS。

Kvasir-VQA: A Text-Image Pair GI Tract Dataset

Kvasir-VQA: 一个文本-图像配对的消化道数据集

我们介绍 Kvasir-VQA，这是一个基于 HyperKvasir 和 Kvasir-Instrument 数据集扩展并增加了问答注释的数据集，旨在促进消化道 (GI) 诊断中的高级机器学习任务。该数据集包含 6,500 张注释图像，涵盖多种消化道状况和手术器械，并支持是/否、选择、位置和数值计数等多种问题类型。该数据集适用于图像字幕生成、视觉问答 (VQA)、基于文本生成合成医学图像、对象检测和分类等应用。我们的实验表明，该数据集在训练三个选定任务模型方面表现出色，展示了其在医学图像分析和诊断中的重要应用。我们还为每个任务提供了评估指标，突出了数据集的实用性和多功能性。数据集及相关资源可在 https://datasets.simula.no/kvasir-vqa 获取。

OLMoE: Open Mixture-of-Experts Language Models

OLMoE: 开源的专家混合语言模型

我们介绍了 OLMoE，一种完全开源的、基于稀疏专家混合 (MoE) 的先进语言模型。OLMoE-1B-7B 拥有 70 亿 (B) 参数，但每个输入 Token 仅消耗 1B 参数。我们在 5 万亿 Token 上对其进行了预训练，并进一步适应以创建 OLMoE-1B-7B-Instruct。我们的模型在所有可用模型中表现优异，甚至在参数数量相近的模型中超越了 Llama2-13B-Chat 和 DeepSeekMoE-16B 等大型模型。我们展示了关于 MoE 训练的各种实验，分析了模型中的路由机制，表现出高度专业化，并全面开源了我们工作的所有方面：模型权重、训练数据、代码和日志。

LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

LongRecipe: 大语言模型中高效长上下文泛化的训练策略

大语言模型 (LLMs) 在处理长上下文任务时面临重大挑战，因其预训练期间的有效上下文窗口大小有限，限制了其在扩展序列上的泛化能力。同时，通过后预训练扩展 LLMs 的上下文窗口是高度资源密集型的。为解决这一问题，我们引入了 LongRecipe，一种用于扩展 LLMs 上下文窗口的高效训练策略，包括关键 Token 分析、位置索引转换和训练优化策略。该策略在保持训练效率的同时，有效处理长序列输入，并显著增强模型对长程依赖关系的处理能力。对三种类型的 LLMs 的实验表明，LongRecipe 能够在仅使用目标上下文窗口大小的 30% 的情况下，有效处理长序列，并将计算训练资源减少了 85% 以上，相比于全序列训练。此外，LongRecipe 还确保了原始 LLM 在一般任务中的性能不受影响。最终，我们能够将开源 LLMs 的有效上下文窗口从 8k 扩展到 128k，仅使用一台配备 80G 内存的单 GPU 进行一天的集中训练，即可达到接近 GPT-4 的性能。 我们的代码已在链接发布。

FLUX that Plays Music

基于 FLUX 的音乐生成模型

本文探讨了一种基于扩散的修正流 Transformer 的扩展，用于文本到音乐的生成，称为 FluxMusic。通常，在高级 Flux 模型的设计中，我们将其转换为梅尔频谱的潜在 VAE 空间。首先，对双文本-音乐流应用一系列独立注意力，然后对单音乐流进行堆叠以进行去噪补丁预测。我们采用多个预训练的文本编码器，以充分捕捉标题语义信息以及推理灵活性。在此过程中，粗略的文本信息与时间步嵌入一起用于调制机制，而细粒度的文本细节则与音乐补丁序列连接作为输入。通过深入研究，我们证明，在优化的架构下，修正流训练显著优于现有的扩散方法，用于文本到音乐任务，这在各种自动指标和人类偏好评估中得到了证实。我们的实验数据、代码和模型权重已在以下公开发布：https://github.com/feizc/FluxMusic。

DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos

DepthCrafter: 为开放世界视频生成一致的长深度序列

尽管单目深度估计在静态图像上取得了显著进展，但在开放世界中进行视频深度估计依然充满挑战，因为开放世界视频在内容、运动、相机移动和长度上极为多样化。我们提出了 DepthCrafter，这是一种创新方法，能够在无需额外信息（如相机姿态或光流）的情况下，为开放世界视频生成时间一致且细节丰富的长深度序列。DepthCrafter 通过从预训练的图像到视频扩散模型训练视频到深度模型，并结合我们精心设计的三阶段训练策略和编译的配对视频深度数据集，实现了对开放世界视频的泛化能力。我们的训练方法使模型能够一次性生成最长可达 110 帧的可变长度深度序列，并从真实和合成数据集中获取精确的深度细节和丰富的内容多样性。此外，我们还提出了一种推理策略，通过分段估计和无缝拼接来处理极长的视频。在多个数据集上的综合评估显示，DepthCrafter 在零样本设置下达到了开放世界视频深度估计的最新技术水平。不仅如此，DepthCrafter 还推动了多种下游应用，包括基于深度的视觉效果和条件视频生成。

Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Loopy: 驯服音频驱动的人像化身与长期运动依赖

随着基于扩散的视频生成技术的出现，音频条件化的人类视频生成在运动的自然性和人像细节的合成方面最近取得了显著突破。然而，由于音频信号在驱动人类运动方面的控制有限，现有方法通常添加辅助空间信号以稳定运动，这可能影响运动的自然性和自由度。

在本文中，我们提出了一种名为 Loopy 的端到端仅音频条件化视频扩散模型。具体来说，我们设计了一个跨片段和片段内的时间处理模块以及一个音频到潜在模块，使模型能够利用数据中的长期运动信息来学习自然运动模式，并提高音频与人像运动的相关性。这种方法消除了现有方法在推理过程中用于约束运动的手动指定的空间运动模板的需求。

大量实验表明，Loopy 优于最近的音频驱动人像扩散模型，在各种场景下提供了更生动且高质量的结果。

LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

提升多模态大语言模型 (MLLMs) 的长上下文处理能力，对于视频理解、高分辨率图像分析以及多模态智能体的发展至关重要。为此，我们进行了一系列系统优化，涵盖模型架构、数据构建和训练策略，尤其针对图像数量增加导致的性能下降和高计算成本问题。本文中，我们采用了 Mamba 和 Transformer 块的混合架构，构建了包含多张图像间时空依赖性的数据集，并实施了渐进式训练策略。发布的 LongLLaVA (长上下文大语言与视觉助手) 模型，作为首个混合 MLLM，在效率和效果之间取得了良好平衡。LongLLaVA 不仅在多项基准测试中表现优异，还保持了高吞吐量和低内存占用。尤为突出的是，它能在单个 A100 80GB GPU 上处理近千张图像，展现出广泛应用的潜力。

LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

LongCite: 使大语言模型能够在长上下文问答中生成细粒度引用

尽管当前的长上下文大语言模型 (LLMs) 在基于大量文本回答用户问题方面展示了令人印象深刻的性能，但其回答中缺乏引用使得用户验证变得困难，进而引发了对模型可信度的担忧，因为这些模型可能产生幻觉。在这项工作中，我们的目标是使长上下文 LLMs 能够生成带有细粒度句子级引用的回答，从而提高其忠实度和可验证性。我们首先介绍了 LongBench-Cite，这是一个用于评估当前 LLMs 在带有引用的长上下文问答 (LQAC) 中性能的自动化基准，结果显示现有模型在此方面仍有显著改进空间。为此，我们提出了 CoF (Coarse to Fine)，一种利用现成 LLMs 自动生成带有精确句子级引用的长上下文问答实例的新型流水线，并利用该流水线构建了 LongCite-45k，一个用于 LQAC 的大规模 SFT 数据集。最后，我们使用 LongCite-45k 数据集训练了 LongCite-8B 和 LongCite-9B，成功地使它们能够在单个输出中生成准确的回答和细粒度的句子级引用。在 LongBench-Cite 上的评估结果显示，我们训练的模型在引用质量方面达到了最先进的水平，超越了包括 GPT-4o 在内的先进专有模型。

Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing

Guide-and-Rescale: 无调优真实图像编辑的自引导机制

尽管大规模文本到图像生成模型近期取得了进展，使用这些模型进行真实图像编辑仍然是一个具有挑战性的问题。现有编辑方法的主要局限性在于，它们要么无法在广泛的图像编辑中保持一致的质量，要么需要耗时的超参数调优或扩散模型的微调，以确保输入图像的特定外观得以保留。我们提出了一种基于修改后的扩散采样过程的新方法，该方法利用自引导机制。在这项工作中，我们探索了自引导技术，以保留输入图像的整体结构及其不应编辑的局部区域外观。特别是，我们明确引入了旨在保存源图像局部和全局结构的布局保持能量函数。此外，我们提出了一种噪声重缩放机制，通过在生成过程中平衡无分类器引导和我们提出的引导者的范数来保留噪声分布。这种引导方法不需要微调扩散模型和精确的反演过程。因此，所提出的方法提供了一种快速且高质量的编辑机制。在我们的实验中，通过人类评估和定量分析，我们展示了所提出的方法能够生成更受人类偏好的期望编辑，并且在编辑质量和原始图像保留之间实现了更好的权衡。我们的代码可在 https://github.com/FusionBrainLab/Guide-and-Rescale 获取。

Attention Heads of Large Language Models: A Survey

自 ChatGPT 问世以来，大语言模型 (LLMs) 在各种任务中表现出色，但仍主要作为黑箱系统运作。因此，其发展严重依赖于数据驱动的方法，限制了通过改变内部架构和推理路径来提升性能。为此，许多研究人员开始探索 LLMs 的潜在内部机制，旨在识别其推理瓶颈的本质，其中大多数研究集中在注意力头上。我们的调查旨在通过专注于注意力头的可解释性和底层机制，揭示 LLMs 的内部推理机制。我们首先将人类思维过程归纳为一个四阶段框架：知识召回、上下文识别、潜在推理和表达准备。利用这一框架，我们系统地回顾现有研究，以识别和分类特定注意力头的功能。此外，我们总结了用于发现这些特殊头的实验方法，将其分为两类：无模型方法和需要模型方法。同时，我们概述了相关的评估方法和基准。最后，我们讨论了当前研究的局限性，并提出了几个潜在的未来方向。我们的参考列表已在 https://github.com/IAAR-Shanghai/Awesome-Attention-Heads 开源。

FuzzCoder: Byte-level Fuzzing Test via Large Language Model

FuzzCoder: 基于大语言模型的字节级模糊测试

模糊测试是一种重要的动态程序分析技术，用于发现复杂软件中的漏洞。模糊测试通过向目标程序提供精心设计的恶意输入，引发崩溃、缓冲区溢出、内存错误和异常。高效生成恶意输入是一个困难的开放问题，最佳方法通常采用现有有效输入的均匀随机变异。在这项工作中，我们提出采用微调的大语言模型 (FuzzCoder) 来学习成功攻击中的输入文件模式，指导未来的模糊测试探索。具体而言，我们开发了一个框架，利用代码大语言模型来指导模糊测试中的输入变异过程。变异过程被视为序列到序列建模，其中大语言模型接收字节序列，输出变异后的字节序列。FuzzCoder 在创建的指令数据集 (Fuzz-Instruct) 上微调，该数据集从启发式模糊测试工具中收集了成功的模糊测试历史。FuzzCoder 可以预测输入文件中的变异位置和策略位置，从而触发程序的异常行为。实验结果表明，基于 AFL (American Fuzzy Lop) 的 FuzzCoder 在有效变异比例 (EPM) 和崩溃次数 (NC) 方面对包括 ELF、JPG、MP3 和 XML 在内的各种输入格式取得了显著改进。