每周AI论文速递(240826-240830)

Building and better understanding vision-language models: insights and future directions

构建与深化理解视觉-语言模型:洞察与未来方向
视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上尚未形成共识。本文旨在作为构建 VLM 的实践指南。我们首先概述了当前最先进方法的优缺点,探讨了领域内主要挑战,并指出了未充分探索领域的潜在研究方向。随后,我们详细阐述了构建 Idefics3-8B 的过程,该模型在性能上大幅领先于前代 Idefics2-8B,且高效地仅利用开放数据集进行训练,流程简洁明了。这一过程中,我们创建了 Docmatix 数据集,旨在增强文档理解能力,其规模达到了先前数据集的 240 倍。我们同时发布了该模型及其训练所用的数据集。

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

SwiftBrush v2: 单步扩散模型超越多步导师
本研究旨在提升SwiftBrush这一单步文本到图像扩散模型的性能,使其能与多步Stable Diffusion模型相媲美。我们首先分析了SwiftBrush与SD Turbo在图像质量和多样性方面的差异:SwiftBrush在图像多样性上表现突出,而SD Turbo则在图像质量上更胜一筹。基于此,我们提出了一系列训练方法的改进,包括优化权重初始化和采用高效的LoRA训练策略。此外,我们创新性地引入了钳制CLIP损失,有效提升了图像与文本的对齐效果和图像质量。特别地,通过融合高效LoRA训练和完整训练的模型权重,我们成功打造了一款新的顶尖单步扩散模型,其FID值达到8.14,超越了所有基于GAN和多步Stable Diffusion的模型。评估代码已公开于:https://github.com/vinairesearch/swiftbrushv2

SWE-bench-java: A GitHub Issue Resolving Benchmark for Java

SWE-bench-java: 针对 Java 的 GitHub Issue 解决基准
GitHub issue 解决在软件工程中扮演着至关重要的角色,近期在业界和学术界引起了广泛关注。在此背景下,SWE-bench 被推出用于评估大语言模型 (LLMs) 的 issue 解决能力,但目前仅限于 Python 版本。考虑到业界对多语言支持的迫切需求,我们首先推出了 Java 版本的 SWE-bench,即 SWE-bench-java。我们已公开发布相关数据集、基于 Docker 的评估环境及排行榜,并计划在未来持续更新和维护。为确保 SWE-bench-java 的可靠性,我们采用了经典的 SWE-agent 方法,并在此基础上测试了多个强大的 LLMs。开发高质量的多语言基准是一项耗时且复杂的工作,我们诚邀各界通过 pull request 或合作方式参与进来,共同推动这一基准的迭代与完善,为实现编程自动化奠定基础。

K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

K-Sort Arena: 基于 K-wise 人类偏好的生成模型高效可靠基准测试
随着视觉生成模型的迅速发展,高效且可靠的评估方法变得尤为重要。Arena 平台通过收集用户对模型比较的投票,能够根据人类偏好对模型进行排序。然而,传统的 Arena 方法虽然在实践中已经建立,但在排序收敛时需要过多的比较,并且容易受到投票中偏好噪声的影响,这表明需要针对当代评估挑战定制更好的方法。在本文中,我们介绍了 K-Sort Arena,这是一个基于一个关键洞察的高效且可靠的平台:图像和视频比文本具有更高的感知直观性,能够同时快速评估多个样本。因此,K-Sort Arena 采用 K-wise 比较,允许 K 个模型进行自由竞争,从而产生比成对比较更丰富的信息。为了增强系统的鲁棒性,我们利用概率建模和贝叶斯更新技术。我们提出了一种基于探索-利用的匹配策略,以促进更有信息的比较。在我们的实验中,K-Sort Arena 相比广泛使用的 ELO 算法表现出 16.3 倍的更快收敛。为了进一步验证其优越性并获得一个全面的排行榜,我们通过众包评估收集了大量先进的文本到图像和文本到视频模型的反馈。得益于其高效率,K-Sort Arena 可以持续纳入新兴模型,并以最少的投票数更新排行榜。我们的项目已经进行了几个月的内部测试,现在可以在 https://huggingface.co/spaces/ksort/K-Sort-Arena 上访问。

Foundation Models for Music: A Survey

音乐基础模型:一项调查
近年来,基础模型(FMs)如大语言模型(LLMs)和潜在扩散模型(LDMs)已对包括音乐在内的多个领域产生了深远影响。本综述全面探讨了音乐领域中的最先进(SOTA)预训练模型和基础模型,涉及表示学习、生成学习及多模态学习等多个方面。首先,我们阐述了音乐在各行业中的重要地位,并追溯了人工智能在音乐领域的演进历程。通过分析基础模型所针对的模态,我们发现许多音乐表示在FM的开发过程中尚未得到充分挖掘。接着,我们强调了先前方法在多样音乐应用中的局限性,并探讨了FMs在音乐理解、生成和医疗应用中的潜在价值。通过深入剖析模型预训练范式、架构选择、Token化、微调策略及可控性等关键环节,我们指出了诸如指令调优、情境内学习、规模法则和涌现能力,以及长序列建模等重要议题,这些议题亟待进一步深入研究。此外,我们还专门探讨了音乐智能体的相关见解,并对预训练和下游任务所需的数据集与评估方法进行了详尽分析。最后,我们强调了伦理考量在音乐FM研究中的核心地位,呼吁未来研究应更加关注解释性、透明度、人类责任和版权等关键问题。本文旨在为音乐领域中FMs的未来发展提供前瞻性见解,以期推动音乐领域人机协作的深入发展。

Writing in the Margins: Better Inference Pattern for Long Context Retrieval

边缘写作:优化长上下文检索的推理模式
本文介绍了一种名为“边缘写作(WiM)”的新推理模式,专为大语言模型设计,旨在优化处理面向检索任务中的长输入序列。该模式通过利用键值缓存的分块预填充技术,实现分段式推理,从而高效处理大量上下文,并生成和分类指导模型执行特定任务的中间信息(即“边缘”信息)。尽管这种方法仅略微增加了计算负担,却显著提升了无需微调的现有模型的性能。具体来说,WiM在推理技能(如HotpotQA和MultiHop-RAG)的准确性上平均提高了7.5%,在聚合任务(如CWE)的F1分数上提升了超过30.0%。此外,我们还展示了该模式如何融入交互式检索系统,该系统能实时向用户反馈上下文处理进度,并精确展示相关信息如何整合到最终答案中。我们在Hugging Face Transformers库中发布了WiM的实现,地址为https://github.com/writer/writing-in-the-margins。

Diffusion Models Are Real-Time Game Engines

扩散模型即实时游戏引擎
我们提出了 GameNGen,这是首个完全由神经模型驱动的游戏引擎,它能够在高质量下实现与复杂环境的长时间实时交互。GameNGen 在单个 TPU 上能够以超过每秒 20 帧的速度交互式地模拟经典游戏 DOOM。其下一帧预测的 PSNR 达到了 29.4,与有损 JPEG 压缩相当。人类评分者在区分游戏短片与模拟短片时,表现仅略优于随机猜测。GameNGen 的训练分为两个阶段:(1)一个 RL 智能体学习玩游戏并记录训练会话,(2)一个扩散模型被训练来生成下一帧,条件是基于过去帧序列和动作。通过条件增强,实现了在长时间轨迹上的稳定自回归生成。

The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Llama 中的 Mamba:混合模型的蒸馏与加速
线性 RNN 架构,如 Mamba,在语言建模方面能与 Transformer 模型竞争,并具有优越的部署特性。鉴于当前对大规模 Transformer 模型训练的重视,我们探讨了将这些预训练模型转换为部署模型的挑战。我们证明,通过重用注意力层的线性投影权重并利用学术 GPU 资源,将大型 Transformer 蒸馏成线性 RNN 是可行的。由此产生的混合模型,仅包含四分之一数量的注意力层,在聊天基准测试中达到与原始 Transformer 相当的性能,并在聊天和通用基准测试中均优于从头开始训练的开放源代码混合 Mamba 模型,这些模型使用了数万亿个 Token。此外,我们引入了一种硬件感知的推测解码算法,加速了 Mamba 和混合模型的推理速度。总的来说,我们展示了如何在有限的计算资源下,移除许多原始的注意力层,并更高效地从生成的模型中进行生成。我们的表现最佳模型,从 Llama3-8B-Instruct 蒸馏而来,在 AlpacaEval 2 上对 GPT-4 的控制长度胜率达到 29.61,在 MT-Bench 上达到 7.35,超过了最佳的指令微调线性 RNN 模型。

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Eagle: 探索基于混合编码器架构的多模态大语言模型的设计空间
准确解释复杂视觉信息的能力是多模态大语言模型(MLLMs)的核心议题。近期研究表明,增强的视觉感知能显著减少幻觉并提升对分辨率敏感任务的处理能力,如光学字符识别和文档分析。许多近期MLLMs通过混合视觉编码器实现了这一目标。尽管取得了成功,但缺乏针对专家选择和多视觉专家集成等关键方面的系统比较和详细消融研究。本研究广泛探索了使用混合视觉编码器和分辨率的多模态大语言模型的设计空间。我们的发现揭示了多种现有策略共有的若干基本原则,从而形成了一种简练而有效的设计方法。我们发现,简单地将来自一组互补视觉编码器的视觉Token级联与更复杂的混合架构或策略同样有效。此外,我们引入了预对齐(Pre-Alignment)以弥合专注于视觉的编码器与语言Token之间的差距,增强了模型的连贯性。由此产生的MLLMs系列,即Eagle,在主要的多模态大语言模型基准测试中超越了其他领先的开放源代码模型。
模型和代码: https://github.com/NVlabs/Eagle

BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline

BaichuanSEED: 通过引入竞争性大语言模型基线展示广泛数据收集与去重的潜力
大语言模型的通用能力在很大程度上取决于预训练数据集的广泛性和选择性,这些数据集通常被多家机构视为商业机密。为解决这一问题,我们公开了适用于各种场景的数据处理流程细节,并通过引入一个具有竞争力的 LLM 基线来验证其效能和潜力。具体而言,该数据处理流程包括大规模收集以扩展数据量和重新加权以提升数据质量。我们随后使用此流程处理了 3T 个 Token,预训练了一个 7B 模型 BaichuanSEED,未进行任何特定下游任务的优化,紧接着进行了一个简便而高效的监督微调阶段。BaichuanSEED 在训练过程中展现出稳定性和可预测性,并在多项综合基准测试中与多个商业先进大语言模型(如 Qwen1.5 和 Llama3)表现相当。此外,我们还进行了若干启发式实验,探讨了在数学和编码等下游任务中进一步优化的可能性。

Dolphin: Long Context as a New Modality for Energy-Efficient On-Device Language Models

Dolphin: 长上下文作为提升设备端语言模型能效的新途径
本文介绍了一种名为 Dolphin 的新型解码器-解码器架构,旨在提高语言模型处理长上下文的能效。该架构针对设备端模型面临的能耗和延迟问题,通过一个紧凑的 0.5B 参数解码器,将丰富的上下文信息压缩成内存嵌入,从而大幅缩短了主 7B 参数解码器的输入长度。借鉴视觉-语言模型的思路,我们利用图像嵌入投影器来编码长文本上下文,将扩展上下文视为一种新的处理模式。这一创新方法使得模型能够在不增加额外计算负担的情况下,处理更长的上下文。实证结果表明,与传统方法相比,Dolphin 在能量效率上提升了 10 倍,延迟降低了 5 倍,且不影响响应质量。我们的研究推动了设备端语言模型的可持续发展,满足了资源受限环境中对高效、响应迅速的 AI 技术的需求,同时确保了长上下文理解的准确性。此项研究对自然语言处理领域,尤其是在资源有限场景下的模型高效设计方面,具有重要意义。通过在边缘设备上实现更高级的 AI 功能,Dolphin 为在计算资源紧张的多种应用中进行先进的语言处理开辟了道路。Dolphin 模型已公开发布于 https://huggingface.co/NexaAIDev/Dolphin

Law of Vision Representation in MLLMs

多模态大语言模型中的视觉表示法则
我们阐述了多模态大语言模型 (MLLMs) 中的“视觉表示法则”。该法则揭示了跨模态对齐、视觉表示对应与 MLLM 性能之间显示出强相关性。我们采用跨模态对齐与对应分数 (AC 分数) 来评估这两个因素。通过涵盖十三种不同视觉表示设置和八个基准的广泛实验,我们发现 AC 分数与模型性能呈线性相关。通过利用这种关系,我们能够仅针对最佳视觉表示进行识别和训练,无需每次都微调语言模型,从而使计算成本降低 99.7%。

CogVLM2: Visual Language Models for Image and Video Understanding

CogVLM2: 图像与视频理解的视觉语言模型
始于 VisualGLM 和 CogVLM,我们不断深入视觉语言模型 (VLM) 的研究,旨在实现更深层次的视觉与语言融合、构建更高效的高分辨率模型架构,并拓展其应用范围至更多模态。本文介绍的 CogVLM2 系列,包括 CogVLM2、CogVLM2-Video 和 GLM-4V,是新一代专为图像和视频理解设计的视觉语言模型。CogVLM2 作为图像理解模型,不仅沿用了视觉专家架构,还通过优化预训练和后训练阶段的训练方法,实现了对高达 1344 x 1344 像素输入分辨率的支持。而 CogVLM2-Video 作为视频理解模型,则引入了多帧输入与时间戳技术,并创新性地提出了自动化时间定位数据的构建方法。值得一提的是,CogVLM2 系列在 MMBench、MM-Vet、TextVQA、MVBench 和 VCGBench 等多个基准测试中均取得了业界领先的成绩。所有相关模型已在 https://github.com/THUDM/CogVLM2https://github.com/THUDM/GLM-4 开源,为推动该领域的发展贡献力量。

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

WavTokenizer:一种用于音频语言建模的高效声学离散编解码器 Tokenizer
语言模型已成功应用于处理多种自然信号,包括图像、视频、语音和音频。在这些模型中,编解码器 Tokenizer 是一个关键组件,它能够将高维自然信号转换为低维离散 Token。本文介绍的 WavTokenizer 在音频领域的先前最先进声学编解码器模型基础上提供了几个优势:1) 极高的压缩率。通过简化量化器的层级结构和离散编解码器的时间维度,24kHz 采样率的一秒音频仅需一个量化器,使用 40 或 75 个 Token。2) 提升的主观质量。尽管 Token 数量减少,WavTokenizer 仍实现了顶尖的重建质量,具有卓越的 UTMOS 分数,并自然包含更丰富的语义信息。具体而言,我们通过设计更广泛的 VQ 空间、扩展的上下文窗口、改进的注意力网络,以及引入强大的多尺度判别器和逆傅里叶变换结构来实现这些成果。我们在语音、音频和音乐领域进行了广泛的重建实验。与最先进的模型相比,WavTokenizer 在各种客观和主观指标上表现优异。我们还测试了语义信息、VQ 利用率和生成模型的适应性。全面的消融研究证实了 WavTokenizer 中每个模块的重要性。相关代码、演示和预训练模型可在 https://github.com/jishengpeng/WavTokenizer 获取。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇