Pre-training Small Base LMs with Fewer Tokens

使用更少的 Token 对小型基础 LMs 进行预训练

我们研究了一种简单方法来开发一个小型基础语言模型 (LM)，从一个现有的大型基础 LM 开始：首先从较大的 LM 继承一些 Transformer 块，然后在这个较小的模型上使用一个非常小的子集 (0.1%) 进行训练，这个子集来自较大模型的原始预训练数据。我们将我们的简单配方称为 Inheritune，并首次展示了如何使用 1B token (以及较大 LM 的前几层，拥有 3B 参数) 构建一个具有 1.5B 参数的小型基础 LM；我们使用单个 A6000 GPU 在不到半天的时间内完成了这一工作。在 9 个不同的评估数据集以及 MMLU 基准测试中，所得模型与公开可用的 1B-2B 大小的基础模型相比，表现出色，其中一些使用了 50-1000 倍的 token 进行训练。我们在稍有不同的设置中研究 Inheritune，其中我们训练小型 LMs 利用较大 LMs 及其完整的预训练数据集。在这里，我们展示了使用 GPT2-medium (355M) 和 GPT-2-large (770M) 的一些层训练的较小 LMs 可以在使用 OpenWebText 数据集的 9B tokens 进行相同数量的训练步骤时有效地匹配其更大的对应物的 val 损失。我们通过广泛的实验分析了我们的配方，并在多种设置中展示了它的效力。我们的代码可在 https://github.com/sanyalsunny111/LLM-Inheritune 上获得。

COCONut: Modernizing COCO Segmentation

COCONut：现代化 COCO 分割

在近几十年中，视觉社区见证了视觉识别方面的显著进展，部分归功于数据集基准的进步。值得注意的是，已建立的 COCO 基准推动了现代检测和分割系统的发展。然而，COCO 分割基准在过去十年中相对缓慢地改进。最初，它配备了用于事物实例的粗略多边形标注，逐渐加入了用于材料区域的粗略超像素标注，这些后来通过启发式方法合并以产生全景分割标注。这些由不同评价员小组执行的标注不仅产生了粗略的分割面具，还在分割类型之间产生了不一致。在本研究中，我们对 COCO 分割标注进行了全面的重新评估。通过提高标注质量并扩展数据集以包括超过 383K 图像和超过 5.18M 的全景面具，我们引入了 COCONut，即 COCO 下一代通用分割数据集。COCONut 在语义、实例和全景分割之间协调了标注，并设立了一个坚实的所有分割任务的基准。据我们所知，COCONut 是首个大规模的通用分割数据集，由人类评价员验证。我们预期 COCONut 的发布将显著促进社区评估新型神经网络进展的能力。

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

缩小 (Down) CLIP：对数据、架构和训练策略的综合分析

本文研究了对比语言图像预训练 (CLIP) 在缩小到有限的计算预算时的性能。我们沿三个维度探索 CLIP：数据、架构和训练策略。关于数据，我们展示了高质量训练数据的重要性，并显示了一个较小的高质量数据集可以胜过一个较大但质量较低的数据集。我们还检查了模型性能如何随不同数据集大小变化，表明较小的 ViT 模型更适合较小的数据集，而较大的模型在固定计算的情况下在较大的数据集上表现更好。此外，我们提供了关于何时选择基于 CNN 的架构或基于 ViT 的架构进行 CLIP 训练的指导。我们比较了四种 CLIP 训练策略 – SLIP, FLIP, CLIP, 和 CLIP+Data Augmentation – 并显示训练策略的选择取决于可用的计算资源。我们的分析揭示了 CLIP+Data Augmentation 可以仅使用一半的训练数据就能达到与 CLIP 相当的性能。这项工作提供了实际的洞察，如何有效地训练和部署 CLIP 模型，使它们更易于获得并用于各种应用中。

Learn Your Reference Model for Real Good Alignment

真正对齐的参考模型学习

对齐问题的复杂性主要源于现有方法的不稳定性。研究人员不断创新各种技巧来克服这一缺陷。例如，在语言模型对齐的基本技术——基于人类反馈的强化学习 (Reinforcement Learning From Human Feedback, RLHF) 中，除了追求奖励最大化外，还需最小化可训练策略与 SFT 策略之间的 Kullback-Leibler 散度。此举可以防止模型过度拟合奖励模型 (Reward Model, RM) 并生成超出 RM 应用领域的文本。直接偏好优化 (Direct Preference Optimization, DPO) 方法改进了 RLHF 的优化任务，并隐含地保留了策略应接近 SFT 策略的要求。在我们的论文中，我们指出 DPO 方法的这一隐式限制可能导致次优结果。因此，我们提出了一种名为信任区域 DPO (Trust Region DPO, TR-DPO) 的新方法，该方法在培训期间更新参考策略。通过这种直接的更新，我们证明了 TR-DPO 在 Anthropic HH 和 TLDR 数据集上相比 DPO 的优势。我们的测试结果显示，TR-DPO 的性能比 DPO 高出多达 19%，该数据是通过使用 GPT-4 的自动评估得出的。我们提出的新对齐方法能够同时在多个参数上提升模型质量，包括连贯性、准确性、细节层次、实用性及无害性。

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Megalodon：支持无限上下文长度的高效大语言模型预训练及推断

尽管存在如线性注意力和状态空间模型等亚二次解决方案，但 Transformer 的二次复杂度和对长序列的弱延伸能力仍然限制了其应用。我们推出了大白鲨 (Megalodon)，一种能够高效处理具有无限上下文长度序列的新型神经架构。大白鲨沿用了 Mega (具有门控注意力的指数移动平均) 的架构，并引入了多项技术创新以增强性能和稳定性，包括复杂指数移动平均 (Complex Exponential Moving Average, CEMA)、时间步归一化层、归一化注意力机制及具有双跳残差配置的预归一化。在与 Llama2 的对比试验中，大白鲨在 70 亿参数和 2 万亿训练 Token 的规模中显示出优于 Transformer 的效率。大白鲨的训练损失达到了 1.70，介于 Llama2-7B 的 1.75 和 13B 的 1.67 之间。代码链接：https://github.com/XuezheMax/megalodon

TransformerFAM: Feedback attention is working memory

TransformerFAM: 反馈注意力即工作记忆

尽管 Transformer 已经彻底改变了深度学习领域，但其处理无限长输入的能力因二次复杂度的注意力机制而受限。我们提出了反馈注意力记忆 (Feedback Attention Memory, FAM)，一种新型的 Transformer 架构，通过反馈循环使网络能够关注自身的潜在表征。这一设计促进了工作记忆在 Transformer 中的形成，从而处理无限长的序列。TransformerFAM 不需新增权重，可与现有预训练模型无缝融合。我们的实验表明，TransformerFAM 在处理长上下文任务时显著提升了 Transformer 的表现，覆盖了从 1B 到 24B 的各种模型规模。这些成果展示了赋予大语言模型处理无限长序列的潜在能力。

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

Video2Game：从单个视频创建实时、交互式、逼真且兼容浏览器的环境

传统上，打造高质量的游戏和模拟环境需经历复杂且成本高昂的手动建模过程。本文介绍了 Video2Game，一种新颖的方法，能自动将现实世界的视频转化为逼真和互动的游戏环境。系统核心包括三大组件：(i) 一个神经辐射场 (Neural Radiance Fields, NeRF) 模块，有效捕捉场景的几何和视觉特征；(ii) 一个网格模块，从 NeRF 中提炼知识以加速渲染；(iii) 一个物理模块，模拟对象间的交互和动态。遵循我们精心设计的流程，可以构建一个可互动和实操的现实世界数字副本。我们的测试表明，该系统不仅能实时生成高度逼真的渲染，还能在此基础上构建互动游戏。

Dynamic Typography: Bringing Words to Life

动态排版：让文字动起来

文本动画作为一种表现手法，将静态文本转换为动态体验，通过为文字注入动态来唤起情感、强调含义并构建吸引人的故事。制作富有语义的动画面临巨大挑战，需要图形设计和动画的专业知识。我们提出了“动态排版”，一种自动化文本动画方案，结合了变形字母表达语义含义和根据用户提示注入动态的任务。该技术采用矢量图形表示和端到端优化框架，通过神经位移场将字母转换为基本形状，并应用逐帧动作，确保与文本概念的一致性。我们还利用形状保持技术和感知损失规范化，确保动画过程中文字的可读性和结构完整性。我们的方法在多种文本到视频模型中表现出广泛适用性，并证明了端到端方法相比传统方法在生成连贯动画方面的优势。我们的代码可在以下链接获取：https://animate-your-word.github.io/demo/。

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

通过想象、搜索和批评实现大语言模型的自我提升

尽管大语言模型 (Large Language Models, LLMs) 在多种任务上表现卓越，它们在处理复杂推理和规划任务时仍面临挑战。最新研究提出通过高级提示技巧和高质量数据微调来增强 LLM 的推理能力。然而，这些方法受限于数据的可用性和质量。为此，自我修正和学习策略成为了提升 LLM 输出质量和从自我评估奖励中学习的有效途径。本文介绍了 AlphaLLM，一种结合了蒙特卡罗树搜索 (Monte Carlo Tree Search, MCTS) 和 LLM 的自我提升方案，无需额外标注即可增强 LLM 的能力。借鉴 AlphaGo 的成功经验，AlphaLLM 针对结合 MCTS 和 LLM 进行自我提升所面临的独特挑战，如数据稀缺、语言任务搜索空间广阔和反馈主观性，提出了解决方案。AlphaLLM 包括提示合成组件、专为语言任务设计的高效 MCTS 方法和三个评论模型以提供精确反馈。我们在数学推理任务中的实验表明，AlphaLLM 显著提升了 LLM 的性能，展现了大语言模型自我提升的潜力。