每周AI论文速递 – 第 2 页 – 叶子的技术碎碎念

每周AI论文速递（241014-241018）-1

299

|

0

|

AI,每周AI论文速递

5125 字

|

20 分钟

Baichuan-Omni Technical Report Baichuan-Omni 技术报告 GPT-4o 在多模态能力和交互体验方面的显著表现，使其在实际应用中扮演了重要角色，但目前尚无高性能的开源替代方案。本文中，我们推出了 Baichuan-Omni，这是首个开源的 7B 多模态大语言模型 (MLLM)，能够同时处理和分析图像、视频、音…

每周AI论文速递（241007-241011）

278

|

0

|

AI,每周AI论文速递

7254 字

|

28 分钟

Addition is All You Need for Energy-efficient Language Models 加法即所需：高效能语言模型大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中，我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法，该算法通过整数加法操作来近似浮点数…

每周AI论文速递（240930-241004）

631

|

0

|

AI,每周AI论文速递

5099 字

|

20 分钟

Emu3: Next-Token Prediction is All You Need Emu3: 下一个 Token 预测的全部尽管下一个 Token 预测被视为通向人工通用智能的有力途径，但在多模态任务中，它一直难以超越扩散模型（如 Stable Diffusion）和组合方法（如 CLIP 与大语言模型的结合）。本文中，我们推出了 Emu3…

每周AI论文速递（240923-240927）

2,340

|

0

|

AI,每周AI论文速递

4900 字

|

19 分钟

Imagine yourself: Tuning-Free Personalized Image Generation 想象你自己：无调优个性化图像生成扩散模型在多种图像生成任务中表现出色。本研究中，我们推出了“想象你自己”，一种无需调优的个性化图像生成模型。与依赖调优的传统方法不同，“想象你自己”允许所有用户共享同一框架，无需个体调整。此前，模…

每周AI论文速递（240916-240920）

2,643

|

0

|

AI,每周AI论文速递

5485 字

|

21 分钟

InstantDrag: Improving Interactivity in Drag-based Image Editing InstantDrag: 提升基于拖拽的图像编辑中的交互性基于拖拽的图像编辑因其交互性和精确性而最近受到青睐。然而，尽管文本到图像模型能够在几秒钟内生成样本，但拖拽编辑仍然落后，这是由于在保持图像内容的同时准确反映用户…

每周AI论文速递（240909-240913）

182

|

0

|

AI,每周AI论文速递

4933 字

|

19 分钟

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data 你的代码大语言模型表现如何？利用高质量数据赋能代码指令微调最近，研究如何构建更好的代码指令微调数据集的兴趣逐渐增加。然而，我们观察到使用这些数据集训练的代码模型在Huma…

每周AI论文速递（240902-240906）

206

|

0

|

AI,每周AI论文速递

5279 字

|

20 分钟

SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding SciLitLLM: 如何适应大语言模型以理解科学文献科学文献理解对于提取目标信息和获得洞察力至关重要，从而显著推进科学发现。尽管大语言模型 (LLMs) 取得了显著的成功，但它们在理解科学文献方面面临挑战，主…

每周AI论文速递（240826-240830）

507

|

0

|

AI,每周AI论文速递

5093 字

|

20 分钟

Building and better understanding vision-language models: insights and future directions 构建与深化理解视觉-语言模型：洞察与未来方向视觉-语言模型 (VLMs) 领域，以图像和文本为输入并输出文本，正处于快速发展阶段，但在数据、架构和训练方法等关键开发环节上…

每周AI论文速递（240819-240823）

205

|

0

|

AI,每周AI论文速递

5639 字

|

22 分钟

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models xGen-MM (BLIP-3): 一个开放的大型多模态模型家族本报告介绍了 xGen-MM（又称 BLIP-3），这是一个用于开发大型多模态模型（LMMs）的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产…

每周AI论文速递（240812-240816）

537

|

0

|

AI,每周AI论文速递

5291 字

|

21 分钟

VITA: Towards Open-Source Interactive Omni Multimodal LLM VITA：迈向开源交互式全模态大语言模型 GPT-4o 的卓越多模态能力和交互体验，凸显了其在实际应用中的重要性，但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA，是首个开源的多模态大语言模型（MLLM），能够同时处理和…

分类： 每周AI论文速递

分类：每周AI论文速递