每周AI论文速递(240219-240223)

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

具有可学习核函数的线性 Transformer 是更优的上下文学习模型

在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs),最初因其在语言建模任务上超越了 Transformer 的性能而受到赞誉。然而,这些模型在关键的上下文学习能力方面显示出了不足——这是 Transformer 传统上的强项。Based 模型作为一种融合方案出现,结合了线性 Transformer 和一个由指数函数的泰勒展开启发的核,此外还通过卷积网络进行了增强。这使其在上下文学习方面与 Transformer 相匹敌,成为该领域的一个强劲竞争者。在我们的研究中,我们介绍了对 Based 核的一次简洁而优雅的改进,有效提升了其上下文学习的能力,通过在多查询关联回忆任务及整体语言建模过程中的表现得到验证,正如 Pile 数据集上的展示所示。

In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss

在千万级数据中大海捞针:循环记忆揭示大语言模型遗漏之处

本文探讨了使用生成式 Transformer 模型处理长文档的挑战。为了评估不同方案的效果,我们引入了 BABILong,这是一个新的基准,用于评估模型在提取和处理大量文本中分布的信息能力。我们的评估结果,包括对 GPT-4 和 RAG 的基准测试,显示出常见方法仅适用于最多 10^4 个元素的序列。与之相对,通过对 GPT-2 进行循环记忆(RM)增强的微调,使其能够处理高达 10^7 个元素的任务。这一成就代表了一个巨大的飞跃,成为迄今为止任何开放神经网络模型处理的最长输入,显著提升了长序列处理能力。

SPAR: Personalized Content-Based Recommendation via Long Engagement Attention

SPAR: 通过长期参与历史的注意力机制实现个性化内容推荐

个性化内容推荐的核心在于利用用户的长期参与历史。预训练语言模型(PLMs)在自然语言处理(NLP)中取得的成功促使其被用于编码用户历史和候选项,把内容推荐定义为文本语义匹配任务。然而,现有研究在处理极长的用户历史文本和不足的用户-项互动方面仍面临挑战。本文介绍了一个基于内容的推荐框架——SPAR,有效地解决了从长期用户参与历史中全面提取用户兴趣的问题。该框架通过结合预训练语言模型、多注意力层及注意力稀疏机制,以会话为基础编码用户历史。同时,用户和项的特征被有效融合以预测参与度,且为双方保持了独立的表征,提高了模型部署的效率。此外,我们通过大语言模型(LLM)挖掘用户参与历史,以提取广泛兴趣,进一步优化用户画像。在两个基准数据集上的广泛实验证明了我们框架相比现有最先进方法的优势。

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

DataDreamer: 用于合成数据生成和可复现大语言模型工作流的工具

大语言模型(LLMs)在自然语言处理(NLP)研究中对于广泛任务而言已成为一种主导和关键工具。当前,许多研究者利用大语言模型进行合成数据生成、任务评估、微调、蒸馏及其他模型参与的研究工作流。然而,这些模型的规模、封闭源特性及缺乏标准化工具给使用它们的研究带来了挑战,这些挑战对开放科学和研究的可复现性产生了即时的负面影响。本文引入了 DataDreamer,一个开源 Python 库,它使研究者能够通过编写简单代码实现强大的大语言模型工作流。DataDreamer 还帮助研究者遵循我们提出的最佳实践,以促进开放科学和研究的可复现性。该库及其文档可在 https://github.com/datadreamer-dev/DataDreamer 访问。

FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

FinTral: GPT-4 级别的多模态金融大语言模型系列

我们推出 FinTral,这是一系列基于 Mistral-7b 模型并专为金融分析设计的尖端多模态大语言模型(LLMs)。FinTral 融合了文本、数值、表格和图像数据。通过为本项目精心准备的大量文本和视觉数据集,我们对 FinTral 进行了特定领域预训练、指令式微调以及 RLAIF 训练,以此加强其性能。同时,我们还设立了包含九项任务和 25 个数据集的广泛基准测试,评估包括金融领域的虚假生成错误在内的表现。我们的 FinTral 模型采用直接偏好优化与先进工具和检索方法训练,简称 FinTral-DPO-T&R,展现出卓越的零样本表现。它在所有任务上均超越了 ChatGPT-3.5,并在九项任务中的五项上超过了 GPT-4,标志着金融科技 AI 驱动领域的显著进步。我们还证明了 FinTral 在多样化金融环境中进行实时分析和决策的卓越潜力。

Speculative Streaming: Fast LLM Inference without Auxiliary Models

推测性流式处理:无辅助模型的大语言模型快速推理方法

推测性解码是一种加速大目标语言模型推理的重要技术,它基于辅助草稿模型的预测。尽管这种方法有效,但在特定应用场景中,通常需要对草稿和目标模型进行微调以获得高接受率。随着下游任务的增加,这些草稿模型使得推理系统的复杂度显著增加。我们提出了推测性流式处理,这是一种通过将微调目标从下一 Token 预测改为未来 n-gram 预测的方式,将草稿功能整合入目标模型的单模型推测性解码方法。推测性流式处理在诸如摘要、结构化查询和意义表示等多样任务中实现了 1.8 – 3.1X 的解码速度提升,同时保持了生成质量。此外,推测性流式处理具有高参数效率,与 Medusa 风格架构相比,它在使用大约 10000 倍更少的额外参数时,实现了相当或更高的速度提升,非常适合资源受限设备。

FiT: Flexible Vision Transformer for Diffusion Model

FiT:用于扩散模型的灵活视觉 Transformer

在自然界中,分辨率是无限制的。鉴于这一点,现有的扩散模型,例如扩散 Transformer,在处理超出其训练范围的图像分辨率时常常遇到挑战。为了突破这一局限,我们推出了灵活视觉 Transformer(FiT),这是一种特别设计来生成无限制分辨率和比例的图像的 Transformer 架构。FiT 不同于传统方法,后者将图像视作固定分辨率的网格,FiT 把图像视为一连串动态大小的 Token。这种视角为训练和推断阶段适应不同纵横比提供了灵活性,促进了对分辨率的泛化并消除了图像裁剪带来的偏见。得益于精细调整的网络结构和无需额外训练的外推技术的融合,FiT 在分辨率外推生成方面展现出了卓越的灵活性。广泛的实验验证了 FiT 在多种分辨率下的出色性能,证明了其在训练分辨率范围内外均有效。代码仓库地址:https://github.com/whlzy/FiT。

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

AnyGPT:统一多模态大语言模型的离散序列建模

我们介绍 AnyGPT,这是一个利用离散表示进行统一处理的任意到任意多模态语言模型,覆盖了语音、文本、图像和音乐等多种模态。AnyGPT 能够在不改变现有大语言模型(LLM)架构或训练方法的情况下稳定训练,它完全依赖于数据级预处理,使得新模态能够像加入新语言一样轻松地融入到 LLM 中。我们创建了一个以文本为中心的多模态数据集,用于多模态对齐的预训练。通过生成模型,我们制作了首个大规模的任意到任意多模态指令数据集,包含 108k 个样本的多轮对话,复杂地融合了不同的模态,使模型能够处理任意组合的多模态输入和输出。实验结果表明,AnyGPT 能够支持任意到任意多模态的对话,其性能在所有模态上均与专门模型相媲美,证明了离散表示能够在语言模型中有效且便捷地统一多种模态。演示可见:https://junzhan2000.github.io/AnyGPT.github.io/。

Neural Network Diffusion

神经网络扩散

扩散模型在图像和视频的生成领域已经取得了显著成就。本研究进一步展示了扩散模型同样能够生成性能优异的神经网络参数。我们采用的方法结合了自编码器和标准潜在扩散模型,简洁而有效。首先,自编码器负责提取已训练网络参数子集的潜在表示;随后,一个扩散模型被训练以从随机噪声中合成这些潜在参数的表示。这些新生成的表示经由自编码器的解码器转换后,可直接用作网络参数的新子集。在多种架构和数据集上的实验显示,我们的扩散过程能够一致地生成与训练过的网络性能相当或更优的模型,而额外成本极低。特别地,我们发现生成的模型在性能上与训练过的网络有所不同,这一发现促使我们进一步探索扩散模型的多种应用可能。

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

几乎从零开始的合成数据:语言模型的通用指令调优方法

我们提出了一种称为 GLAN 的通用指令调优方法,针对大型语言模型(LLM)的指令调优提供了一种通用且可扩展的方案。GLAN 与之前依赖种子示例或现有数据集的方法不同,它完全基于一套精心准备的人类知识和能力分类,从而在所有学科领域内生成大规模的合成指令数据。借鉴人类教育系统的系统结构,我们半自动地借助 LLM 将人类的知识和能力分解到不同的领域、子领域,最终形成独立的学科分类。在此基础上,我们为每一学科制定了详细的教学大纲,并利用 LLM 设计了针对每个主题的教程。凭借教学大纲中每节课详细的关键概念,我们能够生成覆盖广泛人类知识和技能的多样化指令。在大型语言模型(如 Mistral)上的广泛测试证明了 GLAN 在多个维度上的卓越性能,包括数学推理、编程、学术考试、逻辑推理以及遵循一般指令,而无需依赖这些任务的特定训练数据。此外,GLAN 支持简单的定制化,允许通过向我们的分类中添加新节点来引入新的领域或技能。

Instruction-tuned Language Models are Better Knowledge Learners

指令调优语言模型是更好的知识学习者

为了使基于大型语言模型(LLM)的助手有效应对不断演变的信息需求,更新其事实知识的能力至关重要,这需要通过持续在新数据上进行训练来实现。传统的做法是在新文档上进行持续的预训练,接着在问答(QA)对上进行指令调优。但我们的研究发现,尽管文档的困惑度得到了最小化,采用这种方法训练出的 LLM 在回答问题上仍有困难。我们注意到,QA 对往往直接简单,而文档则更为复杂,以复杂的方式交织了众多事实陈述。因此,我们提出了一种假设:在继续文档预训练之前,先让 LLM 接触 QA 对,这样在处理复杂文档时,能更好地考虑到通过问题获取知识的方式。基于这一点,我们提出了预指令调优(PIT)方法,在文档训练前先对问题进行指令调优。这与传统的在文档训练后进行知识提取学习的指令调优方法形成对比。大量实验和消融研究表明,PIT 显著提升了 LLM 吸收新文档知识的能力,性能比标准指令调优提高了 17.8%。

LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

LongRoPE:扩展 LLM 上下文窗口至超过 200 万 Token

在大型语言模型(LLM)中,实现较大的上下文窗口是一个理想特性。但是,受限于高昂的微调成本、长文本的稀缺以及新 Token 位置带来的问题,目前的扩展上下文窗口通常仅限于约 128k Token。本文首次介绍了 LongRoPE,成功将预训练 LLM 的上下文窗口扩展至 2048k Token,且在 256k 训练长度内只需不超过 1k 微调步骤,同时维持了原始短上下文窗口的性能。此成就基于三大创新:(i)通过高效搜索发掘位置插值的两种非均匀性,为微调提供更佳的初始化,实现了在无需微调的场景下的 8 倍扩展;(ii)采用了一种渐进式扩展策略,首先对 256k 长度的 LLM 进行微调,然后对经过微调扩展的 LLM 进行第二次位置插值,实现 2048k 上下文窗口;(iii)通过在 8k 长度上的调整,恢复了短上下文窗口的性能。在 LLaMA2 和 Mistral 上对各种任务进行的广泛测试验证了我们方法的有效性。LongRoPE 扩展的模型保留了原始架构,只对位置嵌入做了小幅修改,并能复用大部分现有的优化方案。

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

YOLOv9:利用可编程梯度信息定制学习内容

深度学习当前的挑战在于设计最佳目标函数,以便模型预测尽量贴近真实情况,并且需要设计适当的架构以便获取足够的预测信息。传统方法往往忽视了一个关键问题:输入数据在经历层层特征提取和空间变换过程中会丢失大量信息。本文专注于深度网络中数据传输过程中的信息丢失问题,特别是信息瓶颈和可逆函数问题。我们引入了可编程梯度信息(PGI)这一概念,帮助深度网络在追求多目标过程中适应变化。PGI确保目标任务的目标函数能够基于完整的输入信息计算,从而提供可靠的梯度信息以更新网络权重。此外,我们还设计了一种新的轻量级网络架构——广义高效层聚合网络(GELAN),这一架构基于梯度路径规划,证明了PGI在轻量模型上的优越性能。我们在 MS COCO 数据集上对所提出的 GELAN 和 PGI 进行了对象检测验证,结果显示 GELAN 在参数利用效率上超过了基于深度卷积的最新方法。PGI的适用范围广泛,从轻量级到大型模型均可,能够获取完整信息,使得零基础训练的模型超越了使用大数据集预训练的最新模型,具体比较结果见图 1。源代码发布于:https://github.com/WongKinYiu/yolov9。

User-LLM: Efficient LLM Contextualization with User Embeddings

User-LLM:通过用户嵌入实现高效的 LLM 上下文化

大型语言模型(LLM)为自然语言处理领域带来了革命性的变化。然而,如何有效整合复杂和可能存在噪声的用户交互数据仍是一大挑战。针对这一问题,我们提出了 User-LLM,一个新颖的框架,通过用户嵌入来实现 LLM 的上下文化。这些用户嵌入通过自监督预训练从多样化的用户互动中提取,能够捕捉到用户偏好及其随时间的变化。我们通过交叉注意力和软提示技术将用户嵌入与 LLM 结合,使 LLM 能够动态地适应用户上下文。在 MovieLens、亚马逊评论和谷歌本地评论数据集上的实验显示,在多种任务上我们的方法都实现了显著的性能提升。特别地,我们的方法在长序列任务和需要深入理解用户的任务上,比基于文本提示的方法更为出色,同时具有高效的计算性能。我们进一步通过整合感知器层,简化了用户编码器与 LLM 之间的整合,降低了计算需求。

OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

OpenCodeInterpreter:融合代码生成、执行及迭代优化

随着大型语言模型的兴起,代码生成技术取得了显著进步。但开源模型往往不具备 GPT-4 代码解释器等高级系统的执行能力和迭代改进功能。为此,我们推出了 OpenCodeInterpreter——一套设计用于生成、执行和迭代优化代码的开源代码系统。借助含有 68K 多轮互动的 Code-Feedback 数据集,OpenCodeInterpreter 实现了代码执行和人类反馈的集成,支持动态代码优化。通过在 HumanEval、MBPP 及其 EvalPlus 加强版等关键基准测试上的全面评估,OpenCodeInterpreter 展现了出色的性能。特别是,OpenCodeInterpreter-33B 在 HumanEval 和 MBPP 的平均(及其加强版)测试中达到 83.2(76.4)的准确率,与 GPT-4 的 84.2(76.2)相媲美,并在接入 GPT-4 合成的人类反馈后,性能提升至 91.6(84.6)。OpenCodeInterpreter 缩小了开源代码生成模型与专有系统如 GPT-4 代码解释器之间的差距。

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

超越 A*:通过搜索动态引导的 Transformer 实现优化规划

尽管 Transformer 在多个应用领域实现了重大突破,但在处理复杂的决策任务上仍不如传统的符号规划方法。我们通过 Searchformer 展示了如何训练 Transformer 来解决复杂规划任务,这是一种能够以 93.7% 的成功率优化解决新颖推箱子谜题的 Transformer 模型,与标准 A* 搜索相比,减少了高达 26.8% 的搜索步骤。Searchformer 利用编解码器架构训练,预测 A* 搜索的动态过程,通过专家迭代微调,以更少的步骤达成最优规划。我们将 A* 的搜索动态转换为 Token 序列,描绘了符号规划过程中任务状态的添加与移除。在迷宫导航的消融研究中,Searchformer 显著胜过直接预测最优规划的基线模型,模型大小和训练数据集分别减少了 5-10 倍和 10 倍。我们还证明了 Searchformer 在处理更大和更复杂的决策任务,如推箱子时,解决任务的比例和搜索过程都有所改进。

数据来源:https://huggingface.co/papers

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇