Mixture-of-Agents Enhances Large Language Model Capabilities

Mixture-of-Agents 增强大语言模型能力

最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加，如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为此，我们提出了一种新的方法，通过Mixture-of-Agents (MoA) 方法来利用多个LLMs的集体优势。在我们的方法中，我们构建了一个分层的MoA架构，每层包含多个LLM智能体。每个智能体在生成响应时将前一层所有智能体的输出作为辅助信息。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上实现了最先进的性能，超过了GPT-4 Omni。例如，我们仅使用开源LLMs的MoA在AlpacaEval 2.0中以65.1%的得分显著领先，而GPT-4 Omni的得分为57.5%。

CRAG – Comprehensive RAG Benchmark

CRAG – 综合RAG基准

检索增强生成 (Retrieval-Augmented Generation, RAG) 最近被认为是缓解大语言模型 (LLM) 知识不足问题的一种有前途的解决方案。然而，现有的RAG数据集并不能充分代表真实世界问答 (QA) 任务的多样性和动态性。为弥补这一不足，我们引入了综合RAG基准 (CRAG)，这是一个包含4409个问答对和模拟网页及知识图谱 (KG) 搜索的事实问答基准。CRAG旨在涵盖五个领域和八个问题类别的多样问题，反映了从热门到长尾的实体受欢迎程度，以及从几年到几秒的时间动态性。我们在该基准上的评估突显了完全可信问答的差距。虽然大多数先进的LLMs在CRAG上的准确率<=34%，但简单地添加RAG可以将准确率提高到44%。最先进的工业RAG解决方案在没有任何虚假信息的情况下只能回答63%的问题。CRAG还揭示了在回答具有较高动态性、较低受欢迎程度或较高复杂性的问题时的准确率显著下降，提出了未来的研究方向。CRAG基准为KDD Cup 2024挑战赛奠定了基础，在比赛的前50天内吸引了成千上万的参与者和提交。我们承诺维护CRAG，以服务于研究社区，推动RAG解决方案和一般问答解决方案的发展。

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

自回归模型超越扩散模型：用于可扩展图像生成的Llama

我们介绍了LlamaGen，这是一种新的图像生成模型系列，它将大语言模型的原始“下一个 Token 预测”范式应用于视觉生成领域。这证明了普通自回归模型（例如Llama）即使在没有视觉信号归纳偏差的情况下，也可以通过适当扩展实现最先进的图像生成性能。我们重新审视了图像 Tokenizer 的设计空间、图像生成模型的可扩展性特性及其训练数据质量。此探索的结果包括： (1) 一个下采样率为16的图像 Tokenizer，在 ImageNet 基准上的重构质量为 0.94 rFID，代码簿使用率为 97%。(2) 一系列类别条件的图像生成模型，参数范围从 111M 到 3.1B，在 ImageNet 256×256 基准上实现了 2.18 FID，超越了流行的扩散模型，如 LDM、DiT。 (3) 一个具有 775M 参数的文本条件图像生成模型，通过在 LAION-COCO 和高审美质量图像上的两阶段训练，展示了视觉质量和文本对齐的竞争性能。(4) 我们验证了 LLM 服务框架在优化图像生成模型推理速度方面的有效性，并实现了 326% – 414% 的加速。我们发布了所有模型和代码，以促进视觉生成和多模态基础模型的开源社区。

An Image is Worth 32 Tokens for Reconstruction and Generation

一张图像值32个Token用于重建和生成

生成模型的最新进展强调了图像 Tokenization 在高分辨率图像高效合成中的关键作用。Tokenization 将图像转换为潜在表示，相比于直接处理像素，减少了计算需求，并提高了生成过程的效果和效率。先前的方法，如 VQGAN，通常使用具有固定下采样因子的二维潜在网格。然而，这些二维 Tokenization 在处理图像中固有的冗余性时面临挑战，因为相邻区域经常显示出相似性。为了解决这个问题，我们引入了基于 Transformer 的一维 Tokenizer (TiTok)，这是一种创新的方法，将图像转换为一维潜在序列。TiTok 提供了更紧凑的潜在表示，显著提高了表示的效率和效果。例如，一个 256 x 256 x 3 的图像可以减少到只有 32 个离散 Token，远低于先前方法获得的 256 或 1024 个 Token。尽管其结构紧凑，TiTok 在同样的生成框架下达到了竞争性的性能，在 ImageNet 256 x 256 基准上，TiTok 达到了 1.97 gFID，显著超越了 MaskGIT 基线 4.21 的分数。TiTok 的优势在更高分辨率下更为显著。在 ImageNet 512 x 512 基准上，TiTok 不仅超越了最先进的扩散模型 DiT-XL/2（gFID 2.74 对比 3.04），而且将图像 Token 数量减少了 64 倍，生成过程加速了 410 倍。我们表现最好的变体显著超越了 DiT-XL/2（gFID 2.13 对比 3.04），同时仍然能以 74 倍的速度生成高质量样本。

McEval: Massively Multilingual Code Evaluation

McEval: 大规模多语言代码评估

代码大语言模型 (LLMs) 在代码理解、补全和生成任务方面取得了显著进展。编程基准测试通过一系列代码挑战和相应的测试案例，作为评估不同LLMs在这些任务中能力的标准。然而，大多数现有基准主要集中在Python，并且仍然局限于有限的几种语言，其它语言的样本通常是从Python翻译过来的 (例如 MultiPL-E)，这降低了数据的多样性。为了进一步推动代码LLMs的研究，我们提出了一个涵盖40种编程语言的大规模多语言代码基准 (McEval)，包含16,000个测试样本，极大地拓展了代码LLMs在多语言场景中的应用极限。该基准包括代码补全、理解和生成评估任务，使用精心编排的多语言指令语料库 McEval-Instruct。此外，我们还介绍了一种高效的多语言编码器mCoder，基于McEval-Instruct训练，支持多种编程语言生成。大量实验结果表明，在许多语言中，开源模型与闭源LLMs (如GPT系列模型) 之间仍存在显著差距。指令语料库、评估基准和排行榜可在https://mceval.github.io/获取。

The Prompt Report: A Systematic Survey of Prompting Techniques

提示词报告：提示词技术的系统调查

生成式人工智能 (Generative Artificial Intelligence, GenAI) 系统在各个行业和研究环境中被广泛应用。开发者和终端用户通过使用提示或提示工程与这些系统进行交互。虽然提示已经是一个广泛研究的概念，但由于该领域尚处于初期阶段，关于提示的术语存在不一致，且对提示构成的本体理解不够深入。本文通过整理提示技术的分类并分析其使用情况，建立了对提示的系统化理解。我们展示了一个包含33个术语的全面词汇表，58种文本提示技术的分类，以及40种用于其他模态的提示技术。此外，我们还对自然语言前缀提示的全部文献进行了元分析。

NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing

NaRCan: 集成扩散先验的自然精细规范图像用于视频编辑

我们提出了一个视频编辑框架NaRCan，它结合了混合变形场和扩散先验，以生成高质量的自然规范图像来表示输入视频。我们的方法使用单应性模型全局运动，并采用多层感知器 (MLPs) 来捕捉局部残差变形，从而增强模型处理复杂视频动态的能力。通过在训练初期引入扩散先验，我们的模型确保生成的图像保持高质量的自然外观，使其适用于视频编辑中的各种下游任务，这是目前基于规范的方法所无法实现的。此外，我们结合了低秩适应 (LoRA) 微调技术，并引入了噪声和扩散先验更新调度方法，将训练过程加速了14倍。大量实验结果表明，我们的方法在各种视频编辑任务中均优于现有方法，生成的编辑视频序列连贯且高质量。请访问我们的项目页面查看视频结果：https://koi953215.github.io/NaRCan_page/。

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

MotionClone: 无需训练的运动克隆用于可控视频生成

基于运动的可控文本到视频生成涉及利用运动来控制视频生成。先前的方法通常需要训练模型以编码运动线索或微调视频扩散模型。然而，这些方法在应用于训练域之外时，通常会导致次优的运动生成。在这项工作中，我们提出了MotionClone，这是一个无需训练的框架，能够从参考视频中克隆运动以控制文本到视频生成。我们在视频反转中采用时间注意力机制来表示参考视频中的运动，并引入主要的时间注意力引导，以减轻注意力权重中噪声或细微运动的影响。此外，为了帮助生成模型合成合理的空间关系并增强其提示跟随能力，我们提出了一种位置感知语义引导机制，该机制利用参考视频中的前景粗略位置和原始无分类器引导特征来引导视频生成。大量实验表明，MotionClone在全局相机运动和局部物体运动方面均表现出色，在运动保真度、文本对齐和时间一致性方面具有显著优势。·

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Magpie: 通过无提示的对齐大语言模型从零开始合成对齐数据

高质量的指令数据对于对齐大语言模型 (LLMs) 至关重要。尽管一些模型（如 Llama-3-Instruct）具有开放的权重，但它们的对齐数据仍然是私有的，这阻碍了 AI 的普及。高昂的人力成本和提示的有限范围限制了现有开源数据创建方法的扩展能力，可能导致公共对齐数据集的多样性和质量受限。是否可以通过直接从对齐的 LLM 中大规模合成高质量指令数据？我们提出了一种名为 Magpie 的大规模对齐数据自我合成方法。我们的关键发现是，像 Llama-3-Instruct 这样的对齐 LLM，可以在仅输入左侧模板到用户消息预留位置时生成用户查询，这得益于它们的自回归特性。我们使用这种方法来提示 Llama-3-Instruct 并生成了 400 万条指令及其对应的响应。我们对提取的数据进行了全面分析，并选出了 30 万条高质量实例。为了将 Magpie 数据与其他公共指令数据集进行比较，我们使用每个数据集微调 Llama-3-8B-Base，并评估微调模型的性能。结果显示，在某些任务中，使用 Magpie 微调的模型表现与官方的 Llama-3-8B-Instruct 相当，尽管后者通过监督微调 (SFT) 和后续反馈学习增强了 1000 万个数据点。我们还发现，仅使用 Magpie 进行 SFT 的表现优于此前用于 SFT 和偏好优化的公共数据集，例如 UltraFeedback 的直接偏好优化方法。这一优势在对齐基准测试如 AlpacaEval、ArenaHard 和 WildBench 上尤为明显。

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

PowerInfer-2: 在智能手机上进行快速大语言模型推理

本文介绍了 PowerInfer-2，这是一个设计用于在智能手机上快速进行大语言模型 (LLMs) 推理的框架，特别适用于那些模型大小超过设备内存容量的情况。PowerInfer-2 的关键在于通过将传统的矩阵计算分解为细粒度的神经元簇计算，利用智能手机中的异构计算、内存和 I/O 资源。具体而言，PowerInfer-2 具有一个多态神经元引擎，该引擎可以根据 LLM 推理的不同阶段调整计算策略。此外，它引入了分段神经元缓存和细粒度神经元簇级流水线，有效地减少并隐藏了 I/O 操作带来的开销。PowerInfer-2 的实现和评估表明，它能够在两部智能手机上支持广泛的 LLM 模型，与最先进的框架相比，速度提升高达 29.2 倍。值得注意的是，PowerInfer-2 是第一个能够在智能手机上以每秒生成 11.68 个 Token 的速率运行 TurboSparse-Mixtral-47B 模型的系统。对于那些完全适合内存的模型，PowerInfer-2 可以在保持与 llama.cpp 和 MLC-LLM 相当的推理速度的同时，实现大约 40% 的内存使用量减少。欲了解更多详情，包括演示视频，请访问项目网站：www.powerinfer.ai/v2。

What If We Recaption Billions of Web Images with LLaMA-3?

如果我们用 LLaMA-3 重新标注数十亿张网页图像会怎么样？

从网络抓取的图像-文本对通常是噪声较多的。先前的研究表明，语义对齐并丰富这些图像-文本对的描述，可以显著提升模型在各类视觉-语言任务中的训练效果，尤其是在文本生成图像任务中。然而，这一领域的大规模研究大多是闭源的。我们的论文旨在弥合这一研究社区的努力，利用强大且开源的 LLaMA-3，一个 GPT-4 级别的大语言模型。我们的重新标注流程非常简单：首先，我们微调了一个由 LLaMA-3-8B 驱动的 LLaVA-1.5，然后用它来重新标注 DataComp-1B 数据集中的 13 亿张图像。我们的实验证明，这个增强的数据集 Recap-DataComp-1B 在训练高级视觉-语言模型方面有显著的好处。对于判别模型如 CLIP，我们观察到在跨模态检索任务中的零样本性能有所提升。对于生成模型如文本到图像的扩散 Transformer，生成的图像在与用户的文本指令对齐方面有显著提升，特别是在处理复杂查询时。我们的项目页面是 https://www.haqtu.me/Recap-Datacomp-1B/。

Are We Done with MMLU?

我们完成 MMLU 了吗？

可能还没有。我们识别并分析了流行的大规模多任务语言理解 (MMLU) 基准中的错误。尽管 MMLU 被广泛采用，但我们的分析显示了大量的实际错误，这些错误掩盖了大语言模型的真实能力。例如，我们发现病毒学子集中的 57% 的问题存在错误。为了解决这个问题，我们引入了一个新的错误分类框架，用于识别数据集中的错误。随后，我们创建了 MMLU-Redux，这是一个涵盖 30 个 MMLU 主题的 3000 个重新标注问题的子集。使用 MMLU-Redux，我们发现了与最初报告的模型性能指标存在显著差异。我们的结果强烈建议修订 MMLU 中的错误问题，以提高其作为基准的未来效用和可靠性。因此，我们开放了 MMLU-Redux 以供进一步注释 https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。

Depth Anything V2

本文介绍了 Depth Anything V2。在不追求复杂技术的情况下，我们旨在揭示关键发现，为构建强大的单目深度估计模型铺平道路。与 V1 相比，V2 版本通过三项关键实践实现了更精细且更稳健的深度预测：1）用合成图像替换所有标注的真实图像，2）扩大教师模型的容量，3）通过大规模伪标注的真实图像来训练学生模型。与基于 Stable Diffusion 的最新模型相比，我们的模型效率显著提高（快了 10 倍以上）且更加准确。我们提供了不同规模的模型（参数范围从 25M 到 1.3B），以支持广泛的应用场景。受益于其强大的泛化能力，我们用度量深度标签对模型进行微调，以获得我们的度量深度模型。除了模型外，考虑到当前测试集多样性有限且噪声频繁，我们构建了一个多用途评估基准，具有精确的注释和多样的场景，以促进未来的研究。

An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

一张图像的价值超过16×16补丁：探索单像素级的Transformer

这项工作没有引入新方法。相反，我们提出了一个有趣的发现，质疑现代计算机视觉架构中局部性归纳偏差的必要性。具体而言，我们发现普通的 Transformer 可以通过将每个像素作为 Token 来操作，并取得优异的结果。这与 Vision Transformer 中的流行设计大相径庭，后者从 ConvNets 继承了局部邻域的归纳偏差（例如将每个 16×16 补丁作为 Token）。我们主要展示了像素作为 Token 在三个计算机视觉任务中的有效性：物体分类的监督学习，通过掩码自编码的自监督学习，以及通过扩散模型的图像生成。尽管直接操作单个像素在计算上不太实用，但我们认为，社区在设计下一代计算机视觉神经架构时，必须意识到这一令人惊讶的发现。

Transformers meet Neural Algorithmic Reasoners

Transformers与神经算法推理器的结合

Transformer 以其简单而有效的架构革新了机器学习。在大规模互联网文本数据集上预训练 Transformer，使其在自然语言理解（NLU）任务中具有无与伦比的泛化能力。然而，当面对算法推理任务时，这些语言模型仍然显得脆弱，在这些任务中，计算必须精确且稳健。为了解决这一局限性，我们提出了一种新方法，将 Transformer 的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NARs）的稳健性结合起来。NARs 被证明在以图形式表示的算法任务中是有效的通用求解器。为了使这些嵌入对 Transformer 可访问，我们提出了一种混合架构，并采用两阶段训练程序，使语言模型中的 Token 可以交叉注意来自 NAR 的节点嵌入。我们在 CLRS-Text（CLRS-30 基准的文本版本）上评估了最终的 TransNAR 模型，结果显示，在算法推理中，无论在分布内还是分布外，TransNAR 模型相比仅使用 Transformer 模型有显著提升。·