Jamba: A Hybrid Transformer-Mamba Language Model
Jamba:混合 Transformer-Mamba 语言模型
我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamba 层交替布置,兼顾了这两种模型体系的优势。在部分层中融入了 MoE 技术,以扩大模型容量,同时确保参数的活跃使用保持在可控范围内。这种灵活的架构支持针对特定资源和目标的配置。在我们实施的特定配置中,成功构建了一个强大的模型,该模型能够在单个 80GB GPU 上运行。Jamba 在大规模构建时,相比传统 Transformer,提供了更高的吞吐量和更小的内存占用,并在标准语言模型基准测试和长文本评估中展现了卓越性能。值得一提的是,该模型在长达 256K token 的上下文中显示出了强劲的性能。我们对如何结合 Transformer 和 Mamba 层,以及如何混合不同的专家进行了深入研究,并发现其中某些决策对大规模建模至关重要。我们还发现了 Jamba 在训练和评估过程中展现出的几个有趣特性,并计划发布不同消融测试的检查点,以促进对这种新型架构的进一步探索。我们将 Jamba 实现的权重以宽松的许可证形式公开提供。
Gecko: Versatile Text Embeddings Distilled from Large Language Models
我们介绍 Gecko,这是一个既紧凑又多功能的文本嵌入模型。通过从大型语言模型 (LLM) 中提炼知识到检索器,Gecko 实现了优异的检索性能。我们的两步提炼过程首先是利用 LLM 生成多样化的合成配对数据,然后通过为每个查询检索一组候选段落,并利用相同的 LLM 重新标记正面和困难负面段落,从而进一步提高数据质量。Gecko 的紧凑高效体现在其在 Massive Text Embedding Benchmark (MTEB) 上的表现,其 256 维的嵌入模型超越了所有 768 维嵌入模型。768 维嵌入的 Gecko 达到了 66.31 的平均分数,与体量更大、维度更高的模型竞争。
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
Transformer-Lite:在移动电话 GPU 上高效部署大语言模型的策略
大型语言模型 (LLM) 在智能助手、文本摘要、翻译以及移动电话的多模态任务中得到广泛应用。然而,目前在移动设备上部署 LLM 的方法存在推理速度慢,影响用户体验的问题。为了实现高效的 LLM 部署,我们提出了四种优化技术:(a) 采用基于符号表达式的方法支持动态形状模型推理;(b) 通过运算符优化和设置执行优先级来提高推理速度,减少电话延迟;© 使用名为 M0E4 的 FP4 量化方法降低去量化的开销;(d) 利用基于子张量的技术避免在 LLM 推理后复制 KV 缓存的需求。我们在兼容 Qualcomm 和 MTK 处理器的 Transformer-Lite 移动推理引擎中实施了这些方法。通过对 2B 至 14B 不同架构和参数的 LLM 进行测试,我们评估了 Transformer-Lite 的性能。特别是,我们为 ChatGLM2 6B 实现了 121 token/s 的预填速度和 14 token/s 的解码速度,而对于更小的 Gemma 2B,分别实现了 330 token/s 和 30 token/s。与基于 CPU 的 FastLLM 和基于 GPU 的 MLC-LLM 相比,我们的引擎在预填速度上实现了超过 10 倍的加速,在解码速度上实现了 2~3 倍的加速。
Aurora-M: The First Open Source Multilingual Language Model Red-teamed according to the U.S. Executive Order
Aurora-M:首个按照美国行政命令进行红队评估的开源多语言语言模型
我们提出了 Aurora-M,这是一个基于 15 亿参数的多语言开源模型,支持英语、芬兰语、印地语、日语、越南语及编程语言的训练。继 StarCoderPlus 后,Aurora-M 通过增加 4350 亿个 token 的连续预训练,总训练量超过了 2 万亿 token。它是第一个根据人工审核的安全指导进行微调的开源多语言模型,不仅符合传统红队测试的标准,而且遵循拜登-哈里斯行政命令对 AI 的安全、可靠及可信赖开发和使用的规定。Aurora-M 在多个任务和语言中进行了严格评估,显示出对抗灾难性遗忘 (catastrophic forgetting) 的强大能力,并在多语言环境中的安全性评估上超越了其他模型。为促进负责任的开源大语言模型 (LLM) 开发,Aurora-M 及其衍生版本已在 https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407 发布。
Getting it Right: Improving Spatial Consistency in Text-to-Image Models
当前文本到图像 (T2I) 模型的主要不足之一是无法一致生成与文本提示中指定的空间关系相符的图像。本文全面调查了这一局限性,并开发出了一套实现顶尖性能的数据集和方法。首先,我们发现现有视觉-语言数据集对空间关系的表达不够充分,因此创建了 SPRIGHT,这是首个专注于空间的大型数据集,通过重新标注 4 个广泛使用的视觉数据集中的 600 万张图片而成。通过三步评估和分析流程,我们证明 SPRIGHT 在捕捉空间关系方面显著优于现有数据集。利用 SPRIGHT 的约 0.25%,我们在生成空间精确的图像方面取得了 22% 的改善,并提高了 FID 和 CMMD 分数。此外,我们发现在包含大量对象的图像上进行训练,可以显著提高空间一致性。特别是,我们在少于 500 张图像的微调后,在 T2I-CompBench 上以 0.2133 的空间得分达到最高水平。通过一系列控制实验和消融研究,我们记录了多项发现,这些发现有助于深化对影响文本到图像模型空间一致性因素的理解。我们公开发布了数据集和模型,以支持该领域的进一步研究。
Advancing LLM Reasoning Generalists with Preference Trees
我们引入了 Eurus,这是一系列专注于推理的大语言模型 (LLM)。Eurus 从 Mistral-7B 和 CodeLlama-70B 微调而来,其模型在包括数学、代码生成和逻辑推理在内的多样化测试基准中取得了开源模型的最佳性能。特别地,Eurus-70B 在覆盖五个任务的 12 项测试中胜过 GPT-3.5 Turbo,其在 LeetCode 和 TheoremQA 两个具有挑战性的基准上分别达到了 33.3% 和 32.6% 的一次通过率,大幅领先于现有的开源模型,优势超过 13.3%。Eurus 的卓越表现主要得益于我们特别为复杂推理任务设计的大规模高质量对齐数据集 UltraInteract。UltraInteract 不仅适用于监督式微调,也适用于偏好学习,它包含了一个偏好树,其中包括多样化规划策略的推理链、与环境及评价者的多轮互动轨迹以及促进偏好学习的成对数据。通过深入探讨推理任务中的偏好学习,我们发现某些既定的偏好学习算法对推理任务可能不太适合。因此,我们推导出了一个新的奖励建模目标,结合 UltraInteract,形成了一个强大的奖励模型。
Octopus v2: On-device language model for super agent
语言模型在多种软件应用中展现了其有效性,特别是在自动化工作流程的相关任务上。这些模型拥有调用函数的关键能力,对于构建 AI 智能体至关重要。尽管大型语言模型在云环境下表现优异,但隐私和成本问题一直是人们关注的焦点。目前本地设备上的模型在功能调用方面存在延迟和准确性问题。我们的研究提出了一种新策略,使得一个含有 20 亿参数的本地模型在准确性和响应时间上均超过 GPT-4,并将上下文长度压缩了 95%。与采用 RAG-based 函数调用机制的 Llama-7B 相比,我们的方法使延迟时间缩短了 35 倍。此方法有效降低了延迟,满足了生产环境中各种边缘设备的性能要求,适应了实际应用场景的需求。
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model
我们利用流行的 LLaVA 框架和新发布的 Gemma 大语言模型系列(LLMs),培训了一系列多模态基础模型(MMFM)。其中,2B 参数的 Gemma 模型特别引人注目,为构建高效的小型 MMFM 提供了可能。我们测试了预训练连接器、采用更强大的图像支撑和增加语言模型规模三个设计特征的影响。经测试,称为 LLaVA-Gemma 的模型在一系列评估中表现中等,但未能超越同等规模的现有最佳模型。深入分析发现,跳过预训练会降低性能,大型视觉模型有时能提升性能,而语言模型规模的增加效果则不一致。我们为 LLaVA-Gemma 模型公开了训练方法、代码和权重。
Long-context LLMs Struggle with Long In-context Learning
大语言模型(LLMs)在处理超过 32K Tokens 的长序列方面取得了显著进展。然而,其性能评价主要依据困惑度和合成任务等指标,可能未能全面反映它们在复杂的现实场景中的能力。本研究推出了一个专门的基准(LIConBench),关注极端标签分类下的长上下文学习问题。我们精心挑选了六个数据集,标签数量从 28 到 174 不等,输入长度从 2K 到 50K Tokens。该基准要求 LLMs 完全理解输入内容,以准确识别大量的标签空间。在我们的基准上评估了 13 种长上下文 LLMs,发现在 20K Tokens 以下时,这些模型的表现相对较好,且能从长上下文窗口中受益。但当上下文窗口超过 20K Tokens 后,除了 GPT-4 外,大部分模型的表现急剧下降。这表明现有 LLMs 在处理长而内容丰富的序列方面存在明显的能力差距。进一步的分析显示,模型倾向于偏好序列末尾的标签,它们在长序列中进行多重推理的能力还需加强。我们的研究揭示了长上下文理解和推理仍是现有 LLMs 面临的重大挑战。我们认为,LIConBench 可为未来长上下文 LLMs 提供更实际的评估标准。
Mixture-of-Depths: Dynamically allocating compute in transformer-based language models
混合深度:动态分配 Transformer 基语言模型中的计算资源
基于 Transformer 的语言模型通常将计算资源(FLOPs)均匀分配于输入序列中。我们的研究表明,Transformer 能够学会动态地将计算资源分配给序列中的特定位置,优化模型深度的不同层次的资源分配。通过在特定层限制可参与自注意力和 MLP 计算的 token 数(k),我们的方法实现了总计算预算的控制。网络通过 top-k 路由机制确定处理哪些 token。由于 k 是预先定义的,该方法使用固定的计算图和已知的张量大小,与其他条件计算技术不同。尽管 k token 的身份可能变化,但此方法能在时间和模型深度维度上非均匀地分配计算资源。因此,虽然总计算量是可预测的,但在 token 级别上的计算是动态和上下文敏感的。采用此方法训练的模型不仅能有效地动态分配计算资源,而且效率高。这些模型在等效的 FLOPs 和训练时间上与基线性能相当,但每次前向传递所需的 FLOPs 明显减少,并且在训练后采样过程中的速度提升了 50% 以上。
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
我们介绍了 Visual AutoRegressive (VAR) 建模,一种新的生成范式,将图像的自回归学习定义为从粗到细的“下一尺度预测”或“下一分辨率预测”,区别于标准的光栅扫描“下一个 token 预测”。这种简单直观的方法使自回归(AR)Transformer 能够迅速学习视觉分布并表现出良好的泛化能力:VAR 首次让 AR 模型在图像生成领域超越了扩散 Transformer。在 ImageNet 256x256 的基准测试中,VAR 显著改进了 AR 基线,将 Frechet Inception Distance (FID) 从 18.65 降至 1.80,Inception Score (IS) 从 80.4 提升至 356.4,并将推理速度提高了约 20 倍。经实验证明,VAR 在多个维度上,包括图像质量、推理速度、数据效率和可扩展性等,均优于 Diffusion Transformer (DiT)。VAR 模型的扩展展现出了类似于大语言模型(LLMs)观察到的明显的幂律扩展规律,线性相关系数接近 -0.998,为此提供了坚实证据。VAR 还在图像内填充、外填充和编辑等下游任务中展示了零样本泛化能力。这些结果表明 VAR 初步模仿了大语言模型的两个重要特性:扩展规律和零样本任务泛化。我们已经发布了所有模型和代码,以促进对视觉生成和统一学习中 AR/VAR 模型的探索。
Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models
算法推理涉及理解问题背后的复杂模式并将其分解为解决方案的一系列推理步骤。尽管大语言模型(LLMs)在其他推理任务上表现出色,但它们在算法推理方面仍面临挑战。最近的研究利用编程语言(如 Python)来表达解决特定问题所需的逻辑,受其严格和精确的语法启发。然而,编写立即可执行的代码以准确表达逻辑并非易事,且为特定实例生成的代码无法复用于其他实例,即便这些实例属于同一任务且可能需要相同逻辑。本文提出了 Think-and-Execute 框架,将语言模型的推理过程分为两步:首先在 Think 阶段发现并用伪代码表达适用于整个任务的逻辑;然后在 Execute 阶段,针对每个实例调整伪代码并模拟执行。通过对七种算法推理任务的广泛实验,我们证明了 Think-and-Execute 的有效性。与其他专门针对单一实例推理的强基线相比(如 CoT 和 PoT),我们的方法更有效地提高了 LMs 的推理能力,显示出探索任务级逻辑的重要性。此外,我们发现与自然语言相比,伪代码能更有效地指导 LMs 的推理过程,尽管它们主要受训于遵循自然语言指令。
ReFT: Representation Finetuning for Language Models
参数高效微调 (PEFT) 方法旨在通过仅更新少量权重来调整大型模型。然而,大量的解释性研究已表明,表示层编码了丰富的语义信息,这表明通过编辑表示层可能是一个更有效的选择。基于这一假设,我们开发了一系列表示微调(Representation Finetuning, ReFT)方法。ReFT 方法作用于一个固定的基础模型,并学习在隐藏表示上进行任务特定的干预。我们定义了一个强大的 ReFT 实例,低秩线性子空间 ReFT(Low-rank Linear Subspace ReFT, LoReFT)。LoReFT 可以直接替换现有的 PEFT 方法,并且其学习到的干预措施比之前最先进的 PEFT 高出 10 倍到 50 倍的参数效率。我们在八个常识推理任务、四个算术推理任务、Alpaca-Eval v1.0 和 GLUE 上展示了 LoReFT 的效果。在所有这些评估中,LoReFT 均展现出了最佳的效率与性能平衡,并且几乎总是优于最先进的 PEFT 方法。我们已将通用的 ReFT 训练库公开发布在 https://github.com/stanfordnlp/pyreft。
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching
扩散模型在文本到图像生成领域已取得巨大成功。然而,解决文本提示与图像之间的不对齐问题依然充满挑战。这种不对齐的根本原因尚未被广泛探讨。我们发现,不对齐主要由于 token 注意力激活不足引起。进一步分析表明,这一现象是扩散模型训练范式导致的条件利用不足。为此,我们提出 CoMat,一个包含图像到文本概念匹配机制的端到端扩散模型微调策略。通过使用图像标题模型衡量图像与文本的对齐,并引导扩散模型关注被忽视的 tokens,我们有效地解决了此问题。此外,我们还提出了一种新的属性集中模块,以解决属性绑定问题。仅使用 20K 文本提示,我们对 SDXL 进行了微调,得到了 CoMat-SDXL。广泛的实验显示,CoMat-SDXL 在两个文本到图像对齐基准测试中明显优于基线模型 SDXL,并实现了最先进的性能。
Training LLMs over Neurally Compressed Text
本文探讨了在高度压缩的文本上训练大语言模型 (Large Language Models, LLM) 的概念。尽管传统的子词分词器只能实现较低程度的文本压缩,但神经文本压缩器能够实现更高的压缩率。如果能直接在神经压缩文本上训练 LLM,这将提高训练和服务效率,同时简化长文本处理。这一目标的主要障碍是,高度压缩往往产生不适宜学习的不透明输出。特别是,我们发现,通过算术编码简单压缩的文本难以被 LLM 学习。为解决这一问题,我们提出了“等信息窗口”(Equal-Info Windows)这一新颖的压缩技术,将文本划分为每块具有相同比特长度的段落。采用此方法,我们实现了在神经压缩文本上的有效学习,并随着模型规模的增大,其学习效果在困惑度和推理速度的基准测试上远超字节级基准。虽然与相同参数数量训练的模型相比,我们的方法在困惑度上表现不佳,但它通过减少自回归生成步骤,缩短了序列长度,从而减少了延迟。最后,我们对促进学习的属性进行了广泛分析,并提出了具体建议,以进一步提高高压缩分词器的性能。