每周AI论文速递(240212-240216)

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning

Aya 数据集:多语言指令微调的公开获取资源

数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(LLM)能够对指令做出响应。指令微调(IFT)需要专门设计并标注的数据集。但是,现有数据集几乎全部是英文的。本项工作的主要目标是通过创建一个覆盖65种语言的人工编纂的指令执行数据集,来消除语言之间的鸿沟。我们与全球各地的语言流利者合作,收集了自然场景中的指令及其回答。此外,我们通过模板化和翻译现有数据集,创建了迄今最大的多语言资源库,覆盖114种语言,包含5.13亿个实例。总而言之,我们提供了四项关键资源:开发并公开了 Aya 标注平台、Aya 数据集、Aya 资源库及 Aya 评估工具集。Aya 项目还展示了一种参与性研究的宝贵案例,涵盖了来自119个国家的合作伙伴。我们认为,这为未来希望缩小资源差距的研究合作提供了一个有效的框架。

Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

Aya 模型:开放获取的多语言指令微调语言模型

最近在大语言模型(LLMs)的发展中,重大突破主要集中在一些数据资源丰富的语言上。如何将这些突破扩展到非主流语言上呢?我们的工作推出了Aya,这是一个支持101种语言的大型多语言生成式 AI 模型,其中超过50%的语言属于低资源类别。在大部分任务中,Aya的表现超越了mT0和BLOOMZ,并且所涵盖的语言数量是后两者的两倍。我们还推出了全新的、扩展的评估套件,为99种语言的多语言评估树立了新的前沿技术标准,包括区分和生成任务、人工评估以及涵盖外部任务和分布内表现的模拟胜率。此外,我们还详细研究了最优微调配比、数据筛选,以及模型的有害内容、偏见和安全问题。我们已经将指令数据集和模型开源,欢迎访问 https://hf.co/CohereForAI/aya-101 获取更多信息。

OS-Copilot: Towards Generalist Computer Agents with Self-Improvement

OS-Copilot:自我提升的通用计算机代理向导

计算机的自主交互长期以来都是一个充满潜力的挑战,而大语言模型(LLMs)的快速发展显著推动了数字代理的建设。但大多数代理只能在特定软件或网站等特定领域内操作,这限制了它们处理通用计算机任务的能力。针对这一问题,我们提出了 OS-Copilot 框架,旨在构建能够与操作系统的各种组成部分进行交互的通用代理,这包括网页、代码终端、文件、多媒体及众多第三方应用。利用 OS-Copilot,我们开发了 FRIDAY,一个旨在自动执行通用计算机任务的自我提升的实体化代理。在通用 AI 助手的基准测试 GAIA 上,FRIDAY 以 35% 的优势超越了以往方法,在通过既往任务积累的技能基础上,对新应用展现出了卓越的泛化能力。我们还展示了 FRIDAY 在 Excel 和 PowerPoint 上进行自我提升和控制的定量和定性证明,且只需极少的监督。OS-Copilot 框架及其实践结果为未来开发更高效、通用的计算机代理提供了基础和新见解。

BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

BASE TTS: 在10万小时数据上构建十亿参数文本到语音模型的经验

我们介绍了一款名为 BASE TTS 的文本到语音模型,代表具有突发能力的大型自适应可流式文本到语音技术(Big Adaptive Streamable TTS with Emergent abilities)。BASE TTS 是目前为止最大的文本到语音模型,它在10万小时的公共领域语音数据上接受了训练,达到了语音自然性的新高度。该模型采用了一个十亿参数的自回归 Transformer 技术,能够将原始文本转换成离散的语音代码(speechcodes),随后通过一个基于卷积的解码器,以增量、流式的方式将这些语音代码转换为波形。此外,我们的语音代码采用了一种创新的语音标记化技术,特点是能够将说话者身份进行解耦并通过字节对编码(byte-pair encoding)进行压缩。仿照在数据量增加时大型语言模型所报道的“突现能力”,我们展示了在训练数据超过10K小时且参数超过500M的 BASE TTS 变体,开始在处理文本复杂的句子时呈现自然的韵律。我们设计并分享了一个专门的数据集,以评估文本到语音的这种突现能力。我们通过与包括 YourTTS、Bark 和 TortoiseTTS 在内的公开可用的大型文本到语音系统进行对比评估,展示了 BASE TTS 在自然性方面的最新进展。模型生成的音频样本可以通过访问 https://amazon-ltts-paper.com/ 来收听。

Mixtures of Experts Unlock Parameter Scaling for Deep RL

深度强化学习的专家混合机制开启参数规模化增长

近期自监督学习模型的快速进展,很大程度上遵循了经验性的扩展法则:模型的性能随着其规模的增加而成比例增长。然而,对于强化学习领域,这样的扩展法则仍然是一个难题,因为增加模型的参数量通常会降低其最终的性能。在这篇文章中,我们展示了通过将混合专家(MoE)模块,尤其是软性混合专家(Soft MoEs,Puigcerver 等人,2023年)集成到基于价值的网络中,可以实现参数更加可扩展的模型,这一点通过在不同训练体系和模型规模上取得的显著性能提升得到了证明。因此,这项工作为强化学习的规模化扩展法则的发展提供了有力的经验支持。

World Model on Million-Length Video And Language With RingAttention

基于百万长度视频与语言的世界模型及环形注意力机制 (RingAttention)

目前的大语言模型(LLMs)在理解难以用文字描述的世界方面有其局限性,并且处理复杂的长篇任务时也显得力不从心。视频序列能够提供语言和静态图像所缺失的重要时间信息,因此,将视频与语言进行联合建模显得尤为重要。这类模型有望同时深入理解人类的文本知识和物理世界,进而拓宽AI在帮助人类方面的能力。然而,从包含数百万tokens的视频和语言序列学习,面临着内存限制、计算复杂性和数据集有限的挑战。为应对这些挑战,我们收集了一个包含多样化视频和书籍的大型数据集,采用RingAttention技术对长序列进行可扩展训练,并将上下文大小从4千增加至100万tokens。本论文主要贡献包括:(a) 创建了上下文大小最大的神经网络:我们训练了一个在长视频和语言序列上具有前所未有上下文规模的Transformer模型,为难度较高的检索任务和长视频理解设置了新的标杆。(b) 解决视觉-语言训练挑战的方案,包括采用掩码序列打包混合不同序列长度、通过损失权重实现语言与视觉的平衡,以及生成模型QA数据集用于长序列对话。© 通过RingAttention、掩码序列打包等关键技术,实现了对数百万长度多模态序列训练的高效优化。(d) 完全开源了一套具有70亿参数的模型家族,能够处理超过100万tokens的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。这项工作为在大规模的长视频和语言数据集上进行训练,旨在深化对人类知识及多模态世界的理解,并扩展更广泛的能力,开辟了新的路径。

Lumos : Empowering Multimodal LLMs with Scene Text Recognition

Lumos: 利用场景文本识别技术增强多模态大语言模型的能力

我们推出 Lumos,它是首个集成了场景文本识别(Scene Text Recognition, STR)能力的端到端多模态问答系统。Lumos 核心部分包含一个从第一人称视角图片中提取文本的 STR 组件,该组件的输出被用来增强多模态大语言模型(MM-LLM)的输入。在开发 Lumos 过程中,我们面临了诸多挑战,包括 STR 的准确度、系统的响应时间以及模型的推断效率等。本文深入讨论了这些问题,并阐述了我们为解决这些问题而采取的系统架构设计、决策和建模技术。同时,我们还对每个组件进行了全面评估,证明了系统的高效率和高质量。

Magic-Me: Identity-Specific Video Customized Diffusion

Magic-Me: 针对特定个体的视频个性化生成技术

在生成模型的研究领域,为特定个体(ID)定制内容已引起极大关注。文本到图像(T2I)生成技术已经在主题驱动的内容生成上取得重大进展,能够控制图像中个体识别信息的展示。然而,将此技术扩展到视频生成方面尚未得到深入研究。本文提出了一种简单而有效的视频生成框架——视频个性化生成(Video Custom Diffusion, VCD),能够控制主题个体的身份信息。通过指定少量图像定义的主题个体ID,VCD 强化了身份信息的提取,并在初始化阶段加入帧间关联,以稳定输出视频并大幅保留身份信息。为此,我们引入了三个关键组件,对于高质量的身份保留至关重要:1)一个ID模块,通过提示引导的分割训练,分离身份信息与背景噪声,实现更精确的身份标记学习;2)一个带有3D高斯噪声先验的文本到视频(T2V)VCD模块,保证更好的帧间一致性;3)视频到视频(V2V)的面部清晰化和视频升级模块,用于提升面部清晰度和视频分辨率。通过广泛的实验验证,尽管方法简单,VCD 能生成稳定且高质量的视频,并且在选定的强基线中表现出更优的个体识别性。此外,得益于ID模块的可迁移性,VCD 还可以和公开的经过调整的文本到图像模型配合使用,进一步增强其实用性。代码已公开在 https://github.com/Zhen-Dong/Magic-Me。

Chain-of-Thought Reasoning Without Prompting

无需特定提示的思维链推理研究

在提升大语言模型(LLMs)的推理能力方面,早期研究主要侧重于应用特定的提示技巧,例如零样本或少样本的思维链(CoT)提示方法。尽管这些方法有效,但它们往往需要大量的手动提示设计。我们的研究尝试了一种新思路,探索了大型语言模型是否能在无需外部提示的情况下有效推理的可能性。我们的发现表明,通过简单地修改解码过程,可以激发预训练大型语言模型自发产生思维链推理路径。不采用传统的贪心解码,我们检查了最优先考虑的k个备选token,发现思维链路径往往自然嵌入于这些序列之中。这种方法不仅避开了依赖提示可能引入的问题,还使我们能够评价大型语言模型的固有推理能力。更进一步,我们观察到,解码路径中思维链的存在与模型对解码答案的置信度升高密切相关。这种置信度度量有效地区别了包含思维链与不包含思维链的路径。在多个推理测试基准上的广泛实证研究证明了我们所提出的思维链解码方法显著优于标准的贪心解码策略。

Generative Representational Instruction Tuning

生成型表示性指令微调技术

所有基于文本的语言问题最终都可以简化为生成任务和嵌入任务。目前的模型通常只能在这两者中的一项上表现出色。我们提出了一种名为生成型表示性指令微调(GRIT)的方法,通过该方法,一个大型语言模型被训练以同时处理生成和嵌入任务,并能通过指令来区分这两种任务。与其他开放模型相比,我们的 GritLM 7B 在 Massive Text Embedding Benchmark(MTEB)上创下了新的最高记录,并在多个生成任务上超过了所有同等规模的模型。通过进一步扩大规模,GritLM 8x7B 超越了我们测试的所有开放式生成语言模型,同时在嵌入模型中也处于领先地位。特别是,我们发现 GRIT 能够在仅针对生成或嵌入任务训练的情况下达到匹配的性能水平,这意味着我们可以在不降低性能的前提下实现这两种任务的统一。此外,通过GRIT的统一,对于长文档的检索增强生成(RAG)的处理速度提高了60%以上,这是因为不再需要独立的检索和生成模型。模型和代码等资源已经在 https://github.com/ContextualAI/gritlm 上免费提供。

A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts

借鉴人类阅读方法带有处理极长文本上下文的要点记忆功能的智能阅读代理

我们提出了 ReadAgent,一个基于大语言模型的智能体系统,旨在克服当前大语言模型处理长输入的局限。通过模仿人类阅读长文档的互动方式,ReadAgent 通过一个高级语言处理能力强大的提示系统实现,它能(1)决定将哪些内容聚合存储为一个记忆片段,(2)把这些记忆片段压缩成简洁的情节性要点记忆,并(3)在需要复习相关细节完成任务时,回溯查找原文。在三个长文阅读理解任务上——QuALITY、NarrativeQA 和 QMSum,通过与传统的检索方法、原始长文上下文处理和要点记忆比较,ReadAgent 展现了卓越性能,将有效上下文窗口扩大了 3 至 20 倍,显著优于基准模型。

How to Train Data-Efficient LLMs

如何训练数据高效的大语言模型

针对大语言模型(LLMs)训练成本高的问题,本文探讨了提升预训练 LLMs 数据效率的方法,这些方法致力于模型质量与训练资源及数据消耗之间的最优平衡。我们研究了基于高成本数据质量评估及特征空间内覆盖和多样性最大化的数据选择策略的权衡。我们介绍的第一个方法,Ask-LLM,通过利用经过指令优化的 LLMs 的零样本推理能力,直接评估训练样本的质量。针对覆盖目标,我们推出了密度采样策略,通过建模数据分布来选取多样化样本。在对 19 种采样策略的比较中,包括数百项评估任务和预训练过程,Ask-LLM 和密度采样在其各自类别中表现最佳。覆盖采样能够达到使用全部数据时的性能水平,而基于 Ask-LLM 数据训练的模型不仅一致超过使用全部数据训练的模型,即使排除了 90% 的原始数据集,也能达到更快 70% 的收敛速度。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇