AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

AutoCrawler: 一个为 Web 爬虫生成的渐进式理解 Web 智能体

Web 自动化是一种重要技术，它通过自动执行常见网页动作来处理复杂的网页任务，从而提高操作效率并减少手动干预。传统方法如数据包装器，在面对新网站时常因适应性和可扩展性有限而受限。相比之下，由大语言模型 (LLM) 驱动的生成型 AI 智能体在开放世界场景中的表现通常较差，且重用性不佳。在本研究中，我们提出了针对垂直信息网页的爬虫生成任务，并探索了结合 LLM 和爬虫的新范式，以更有效地应对多样化和变化迅速的网络环境。我们开发了 AutoCrawler，这是一个两阶段框架，它通过利用 HTML 的层级结构实现渐进式理解。通过自上而下和错误回退的操作，AutoCrawler 能从错误中学习，并不断优化 HTML 结构，以改善动作生成。我们使用多个大语言模型进行了广泛的实验，证明了我们框架的有效性。相关资源请访问 https://github.com/EZ-hwh/AutoCrawler。

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Groma: 针对多模态大语言模型的本地化视觉 Token 化

我们介绍了 Groma，这是一个具有精确地面和细粒度视觉感知能力的多模态大语言模型 (MLLM)。Groma 不仅能进行全面的图像理解，还擅长执行如区域描述和视觉定位等区域级任务。这些能力建立在本地化视觉 Token 化机制上，该机制将图像输入分解为感兴趣的区域，并将这些区域编码成区域 Token。通过将这些区域 Token 融入用户指令和模型回应中，Groma 能够精确理解用户指定的区域输入，并将其文本输出与图像有效地联系起来。此外，为了提升 Groma 的视觉地面对话能力，我们利用了 GPT-4V 的强大功能和视觉提示技术，创建了一个视觉地面指令数据集。相较于其他多模态大语言模型，Groma 在标准的引用和地面任务基准测试中展示了其优势，凸显了将定位功能内嵌于图像 Token 化过程中的重要性。项目详细信息请见：https://groma-mllm.github.io/。

TextSquare: Scaling up Text-Centric Visual Instruction Tuning

TextSquare: 扩展以文本为中心的视觉指令调优

在多模态大语言模型 (MLLM) 的推动下，以文本为中心的视觉问答 (VQA) 取得了显著进展，但由于缺乏广泛的高质量指令调优数据，开源模型的性能仍未达到如 GPT4V 和 Gemini 等领先模型的水平。针对此问题，我们提出了一种创建大规模高质量指令调优数据集的新方法，即使用闭源 MLLM 生成的 Square-10M 数据集。这个数据集的构建过程名为 Square，包括自问、回答、推理和评估四个步骤。通过 Square-10M 数据集的实验，我们得出三个关键发现：1) 我们的模型 TextSquare 显著超越了之前的开源文本中心 MLLM，并在 OCRBench (62.2%) 上设立了新的标准，甚至在 10 个文本中心基准中的 6 个超过了顶尖模型 GPT4V 和 Gemini。2) 我们还展示了 VQA 推理数据在为特定问题提供全面背景见解方面的关键作用，这不仅提高了准确性，而且显著减少了幻觉现象。特别是，TextSquare 在四个通用 VQA 和幻觉评估数据集中的平均得分为 75.1%，超过了之前的最先进模型。3) 显著的是，文本中心 VQA 数据集的扩展显示了一个明显的趋势：指令调优数据量的指数增长与模型性能的提升成正比，进一步证明了大规模和高质量数据集的必要性。

PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

PhysDreamer: 通过视频生成与 3D 物体进行基于物理的交互

在创建身临其境的虚拟体验中，真实的物体互动至关重要。尽管如此，针对新型互动合成真实的 3D 物体动力学反应仍然是一个重大挑战。与无条件或文本条件的动力学生成不同，动作条件的动力学需要基于物体的物理材料属性，如硬度，来预测 3D 运动。由于真实物体的物理属性测量极其困难，这仍是一个未解决的问题。我们提出了 PhysDreamer，这是一个基于物理的方法，通过视频生成模型学习到的物体动力学先验来赋予静态 3D 物体互动动力学。通过这些先验，PhysDreamer 能够合成对新型互动的真实物体反应，如外力或代理操控。我们通过多种弹性物体的示例展示了我们的方法，并通过用户研究评估了合成互动的真实性。PhysDreamer 迈向了通过使静态 3D 物体以物理上合理的方式对互动刺激做出动态反应，从而创造更具吸引力和真实的虚拟体验。请查看我们的项目页面 https://physdreamer.github.io/。

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Phi-3 技术报告：您手机上的高能力语言模型

我们推出了 phi-3-mini，一个拥有 3.8 亿参数的语言模型，该模型在 3.3 万亿 Token 上进行了训练。通过学术基准和内部测试衡量，其整体性能与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美（例如，phi-3-mini 在 MMLU 上达到 69%，在 MT-bench 上达到 8.38），尽管其体积小到足以部署在手机上。这一创新完全体现在我们的训练数据集上，这是 phi-2 所用数据集的扩展版本，由大量过滤的网络数据和合成数据构成。该模型还进一步提升了鲁棒性、安全性和对话格式的适应性。此外，我们还提供了在 4.8T Token 上训练的 7B 和 14B 模型的初步参数缩放结果，称为 phi-3-small 和 phi-3-medium，这两者的能力均显著超过 phi-3-mini（例如，分别在 MMLU 上达到 75% 和 78%，在 MT-bench 上达到 8.7 和 8.9）。

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

指令层级：训练大语言模型以优先处理特权指令

当前的大语言模型易受提示注入、越狱及其他攻击的影响，这些攻击使对手能够用恶意提示覆盖模型的原始指令。我们认为，这些攻击背后的主要漏洞在于大语言模型通常将系统提示（如应用开发者的文本）与不可信用户和第三方的文本视为同等优先级。为此，我们提出了一个明确定义不同优先级指令冲突处理方式的指令层级系统。接着，我们开发了一种数据生成方法，展示了如何教会大语言模型在存在优先级冲突时选择性地忽视低特权指令。应用此方法于 GPT-3.5，我们发现它大幅提高了模型的鲁棒性——即使是针对训练期间未遭遇的攻击类型——同时对模型的标准功能几乎没有影响。

How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

低比特量化的 LLaMA3 模型表现如何？一项实证研究

Meta 的 LLaMA 系列已成为最强大的开源大语言模型之一。尤其是，最近发布的 LLaMA3 模型在超过 15T Token 的超大规模预训练中表现出色。鉴于低比特量化在资源受限环境中的广泛应用，我们探索了 LLaMA3 在低比特宽度下的性能。这一探索可能揭示了对 LLaMA3 及未来大语言模型低比特量化的新见解和挑战，特别是在解决模型压缩中遇到的性能退化问题方面。我们评估了 LLaMA3 在 1-8 比特和不同数据集上的十种后训练量化和 LoRA 微调方法，全面展示了其低比特量化的性能。我们的实验结果显示，LLaMA3 在这些情况下仍面临明显的性能退化，特别是在极低比特宽度下。这突显了未来发展中需解决的低比特宽度下的显著性能差距。我们期待这项实证研究将为推动未来模型的发展、实现更低比特宽度和更高准确性的实用化做出贡献。项目和量化模型已发布在 https://github.com/Macaronlin/LLaMA3-Quantization 和 https://huggingface.co/LLMQ。

FlowMind: Automatic Workflow Generation with LLMs

FlowMind: 使用大语言模型的自动工作流生成

随着机器人流程自动化 (RPA) 领域的迅猛发展，在自动化重复任务方面取得了显著成就。然而，面对用户需求的自发性或不可预测性任务时，其效率却大打折扣。本文提出了一种名为 FlowMind 的新方法，通过利用如生成式预训练 Transformer (Generative Pretrained Transformer, GPT) 等大语言模型 (LLMs)，旨在突破这一局限，构建一个自动化工作流生成系统。FlowMind 提出了一个通用的提示配方，用于加强 LLM 的推理，并依赖可靠的应用程序编程接口 (APIs)。该系统不仅减少了大语言模型中的误判，还避免了与敏感数据或代码的直接接触，保障了信息的完整性和保密性——这在金融服务行业尤为重要。FlowMind 还通过提供自动生成的工作流的高级描述来简化用户交互，使用户可以有效地进行检查和反馈。此外，我们引入了一个新的金融领域数据集 NCEN-QA，用于基准测试 N-CEN 基金报告中的问答任务。我们的实验表明，FlowMind 生成的工作流在性能上优于基线和其他变体，证明了所提出的讲座配方中每个组件的重要性以及用户交互和反馈的有效性。

OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

OpenELM: 开源训练和推理框架的高效语言模型家族

大语言模型的可重现性和透明性对于推进开放式研究、确保结果的可信性及探索数据和模型偏见及其潜在风险至关重要。为此，我们发布了 OpenELM——一个先进的开源语言模型。OpenELM 采用层次缩放策略，在 Transformer 模型的每一层中高效地分配参数，显著提升了模型准确性。例如，在约一亿参数的预算下，OpenELM 的准确性比 OLMo 提高了 2.36%，同时所需的预训练 Token 数减少了一半。我们的发布不仅包括模型权重和推理代码，还涵盖了在公开数据集上训练和评估语言模型的完整框架，包括训练日志、多个检查点和预训练配置。此外，我们还发布了代码，将模型转换为在 Apple 设备上进行推理和微调的 MLX 库。这一全面的发布努力旨在赋予权力和加强开放研究社区，为未来的开放研究奠定基础。您可以在 https://github.com/apple/corenet 获取我们的源代码、预训练模型权重和训练配方。此外，\model 模型也可在 HuggingFace 上找到：https://huggingface.co/apple/OpenELM。

Multi-Head Mixture-of-Experts

多头混合专家 (MH-MoE)

稀疏专家混合体 (Sparse Mixtures of Experts, SMoE) 虽然能在不显著增加成本的前提下扩大模型容量，但存在两大问题：(1) 专家激活低，仅有少部分专家参与优化；(2) 缺乏对单个 Token 内多个语义概念的细粒度分析。我们提出了多头混合专家 (Multi-Head Mixture-of-Experts, MH-MoE)，通过多头机制将每个 Token 分割成多个子 Token，并将它们分配给不同的专家并行处理后，无缝地重整为原 Token 形式。此机制不仅显著提升了专家激活率，还加深了对上下文的理解，有效减轻了过拟合现象。MH-MoE 的实现简便，且能轻松与其他 SMoE 模型集成，以增强整体性能。在英语焦点语言建模、多语言语言建模和遮蔽多模态建模任务中的广泛测试，验证了 MH-MoE 的高效性。

Pegasus-v1 Technical Report

Pegasus-1 技术报告

本报告介绍了 Pegasus-1，这是一个针对视频内容理解和通过自然语言交互而设计的多模态语言模型。Pegasus-1 针对视频数据的时空信息解读等独特挑战，提供了跨各种长度的精细视频内容理解。报告详述了 Pegasus-1 的架构、训练策略以及在视频对话、零样本视频问答和视频摘要的基准测试表现。我们还探索了 Pegasus-1 的优势与局限，旨在向读者提供关于其现状及未来方向的全面观点。

FlashSpeech: Efficient Zero-Shot Speech Synthesis

FlashSpeech：高效零样本语音合成

近期，借助语言模型和扩散模型的推动，大规模零样本 (Zero-shot) 语音合成技术已显著进步。尽管如此，这两种方法的生成过程仍然缓慢且计算密集。如何在较低的计算预算下仍能产生与先前工作相媲美的合成质量，持续是一个巨大的挑战。本文提出了 FlashSpeech，这是一种大规模零样本语音合成系统，其推理时间仅为之前研究的 5%。FlashSpeech 基于潜在一致性模型，并采用了一种创新的对抗性一致性训练方法，无需依赖预训练的扩散模型即可从头开始训练。此外，新增的韵律生成模块增加了韵律的多样性，使得语音节奏更加自然。FlashSpeech 可以通过一至两步采样高效完成生成过程，在保持高音质和高度相似性的同时，有效支持零样本语音生成。实验结果证明了 FlashSpeech 的卓越性能。值得一提的是，FlashSpeech 的速度大约是其他同类系统的 20 倍，同时在声音质量和相似性上与它们相当。此外，FlashSpeech 在执行语音转换、语音编辑和多样化语音采样等多种任务方面展现了其高效的多功能性。音频样本可在以下网址查看：https://flashspeech.github.io/。

SnapKV: LLM Knows What You are Looking for Before Generation

SnapKV：LLM 在生成前已知道你的需求

大语言模型 (LLM) 在处理广泛上下文的能力上取得了显著进展，其中键值 (KV) 缓存在性能提升中扮演了关键角色。然而，随着输入长度的增加，KV 缓存的增长对内存和时间效率构成了挑战。本文提出了 SnapKV，这是一种创新且无需微调的方法，它在确保实际应用中的性能与基线模型相当的同时，有效地最小化了 KV 缓存的大小。我们发现，模型中每个注意力头在生成过程中一直专注于特定的提示注意力特征。这种稳定的模式可以从位于提示末端的“观察”窗口获得。借此洞见，SnapKV 通过选择每个注意力头的重要 KV 位置自动压缩 KV 缓存。该方法显著降低了处理长输入序列时的计算开销和内存占用。具体来说，SnapKV 在处理 16K Token 的输入时，保持了一致的解码速度，生成速度提高了 3.6 倍，内存效率提高了 8.2 倍，与多个长序列的数据集相比，性能保持可比。此外，SnapKV 可以在单个 A100-80GB GPU 上使用 HuggingFace 实现处理高达 380K 上下文 Token，仅在极端的大海捞针测试中表现出轻微的准确度下降。进一步的综合研究显示了 SnapKV 在实际应用中的潜力。

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

CatLIP：通过 Web 规模图像文本数据的预训练实现 CLIP 级视觉识别精度，速度提升 2.7 倍

对比学习 (Contrastive Learning) 已经成为一种革命性方法，它通过对齐图像和文本的嵌入来学习有效的视觉表示。然而，图像和文本对之间的对比损失中的成对相似度计算带来了计算上的挑战。本文提出了一种在 Web 规模图像文本数据上对视觉模型进行弱监督预训练 (Weakly Supervised Pre-training) 的新方法。该方法将图像文本数据预训练重新定义为一个分类任务，从而消除了对比损失中进行成对相似度计算的需要，实现了相比传统对比学习在训练速度上的 2.7 倍提升。通过在包括检测和分割在内的多种视觉任务上的广泛实验，我们证明了所提出方法的高质量表现。我们的源代码、预训练模型权重和训练配方可以在 https://github.com/apple/corenet 上找到。

Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding

Layer Skip：允许早期退出推理和自我推测解码

我们介绍了 LayerSkip，一种针对大语言模型 (LLM) 的推理加速的端到端解决方案。首先，在训练阶段，我们采用了层丢失 (Layer Dropout)，前期层的丢失率低，后期层的丢失率高，并在所有 Transformer 层共享同一退出点的情况下应用了早期退出损失。其次，在推理阶段，我们展示了如何通过这一训练方案提高早期层的早期退出准确性，无需为模型增加任何辅助层或模块。第三，我们提出了一种新颖的自我推测解码 (Self-Speculative Decoding) 方法，在早期层退出后，使用模型的剩余层进行验证和纠正。我们的自我推测解码方案相比其他推测解码方案减少了内存占用，并从草案和验证阶段的计算和激活共享中获益。我们在不同大小的 Llama 模型上对各种训练类型进行了实验，包括从零开始的预训练、持续的预训练、特定数据领域的微调和特定任务的微调，并实现了我们的推理解决方案，在 CNN/DM 文档的总结、编程以及 TOPv2 语义解析任务上显示了高达 2.16 倍的速度提升。

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

如何走向 GPT-4V？使用开源套件缩小与商业多模态模型的差距

在本报告中，我们介绍了 InternVL 1.5，一种开源的多模态大语言模型 (MLLM) ，旨在缩小开源与专有商业模型在多模态理解方面的能力差距。我们引入了三项简单的改进：(1) 强大的视觉编码器：我们探索了一种连续学习策略，针对大规模视觉基础模型 InternViT-6B，提升了其视觉理解能力，并实现了在不同大语言模型 (LLM) 中的迁移与重用。(2) 动态高分辨率：我们根据输入图像的宽高比和分辨率，将图像分割成 1 至 40 个 448×448 像素的瓦片，支持高达 4K 的输入分辨率。(3) 高质量双语数据集：我们精心收集了一个覆盖常见场景和文档图像的高质量双语数据集，并用英中问答对进行注释，显著提升 OCR 和中文相关任务的性能。我们通过一系列基准测试和比较研究来评估 InternVL 1.5。相比其他开源及专有模型，InternVL 1.5 展现了竞争力的性能，在 18 个基准测试中的 8 个中达到了行业领先水平。代码已在 https://github.com/OpenGVLab/InternVL 发布。

Make Your LLM Fully Utilize the Context

让你的大语言模型充分利用上下文

尽管许多当代大语言模型 (LLMs) 能处理较长的输入，但它们仍难以充分利用长上下文中的信息，这一挑战被称为“中间丢失”。我们认为这主要是由于在长上下文训练中缺乏足够的显式监督所致，未能强调长上下文中任何位置的关键信息。基于这一直觉，我们的研究提出了信息密集型训练 (IN2 Training)，一种纯数据驱动的解决方案，旨在克服“中间丢失”。具体而言，IN2 训练利用了一个合成的长上下文问答数据集，其中答案依赖于：(1) 对合成长上下文中短段 (~128 Token) 的细粒度信息感知；(2) 从两个或更多短段中整合和推理信息。通过在 Mistral-7B 上应用此训练方法，我们推出了 FILM-7B (填补中间空白)。为了全面评估 FILM-7B 在长上下文中的运用能力，我们设计了三个探测任务，涵盖了文档、代码和结构化数据上下文及前向、后向和双向信息检索模式。探测结果显示，FILM-7B 能在其 32K Token 的上下文窗口中稳健地检索不同位置的信息。除了这些探测任务之外，FILM-7B 在现实世界的长上下文任务上表现显著提升（如，NarrativeQA 的 F1 从 23.5 提升至 26.9），同时在短上下文任务上表现保持相当（如，MMLU 的准确度从 59.3 保持在 59.2）。Github 链接：https://github.com/microsoft/FILM。