分类: 每周AI论文速递

26 篇文章

每周AI论文速递(240826-240830)
Building and better understanding vision-language models: insights and future directions 构建与深化理解视觉-语言模型:洞察与未来方向 视觉-语言模型 (VLMs) 领域,以图像和文本为输入并输出文本,正处于快速发展阶段,但在数据、架构和训练方法等关键开发环节上…
每周AI论文速递(240819-240823)
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models xGen-MM (BLIP-3): 一个开放的大型多模态模型家族 本报告介绍了 xGen-MM(又称 BLIP-3),这是一个用于开发大型多模态模型(LMMs)的框架。该框架整合了精心策划的数据集、训练方案、模型架构以及一系列由此产…
每周AI论文速递(240812-240816)
VITA: Towards Open-Source Interactive Omni Multimodal LLM VITA:迈向开源交互式全模态大语言模型 GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和…
thumbnail
每周AI论文速递(240805-240809)
Medical SAM 2: Segment medical images as video via Segment Anything Model 2 Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割 本文介绍 Medical SAM 2 (MedSAM-2),一种先进的分割模型,采用 …
thumbnail
每周AI论文速递(240729-240802)
每周AI论文速递系列已经创建GitHub仓库,欢迎star. SHIC: Shape-Image Correspondences with no Keypoint Supervision SHIC: 无关键点监督的形状-图像对应关系 规范表面映射通过将对象的每个像素分配到3D模板中的对应点,从而拓展了关键点检测的应用范围。DensePose在分析人…
thumbnail
每周AI论文速递(240722-240726)
Internal Consistency and Self-Feedback in Large Language Models: A Survey 大语言模型中的内部一致性与自反馈:一项调查 大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consist…
每周AI论文速递(240715-240719)
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models SpreadsheetLLM:优化大语言模型处理电子表格的能力 电子表格因其广泛的双维网格、多样化的布局和格式选项,给大语言模型(LLMs)带来了显著挑战。为此,我们推出了SpreadsheetLLM,这是一种创新的编码方…
thumbnail
每周AI论文速递(240708-240712)
Unveiling Encoder-Free Vision-Language Models 无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训…
thumbnail
每周AI论文速递(240701-240705)
Scaling Synthetic Data Creation with 1,000,000,000 Personas 利用 10 亿角色扩展合成数据创建 我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络…
每周AI论文速递(240624-240628)
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs LongRAG: 使用长上下文大语言模型增强检索增强生成 在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计…