Medical SAM 2: Segment medical images as video via Segment Anything Model 2 Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割 本文介绍 Medical SAM 2 (MedSAM-2),一种先进的分割模型,采用 …
每周AI论文速递系列已经创建GitHub仓库,欢迎star. SHIC: Shape-Image Correspondences with no Keypoint Supervision SHIC: 无关键点监督的形状-图像对应关系 规范表面映射通过将对象的每个像素分配到3D模板中的对应点,从而拓展了关键点检测的应用范围。DensePose在分析人…
Internal Consistency and Self-Feedback in Large Language Models: A Survey 大语言模型中的内部一致性与自反馈:一项调查 大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consist…
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models SpreadsheetLLM:优化大语言模型处理电子表格的能力 电子表格因其广泛的双维网格、多样化的布局和格式选项,给大语言模型(LLMs)带来了显著挑战。为此,我们推出了SpreadsheetLLM,这是一种创新的编码方…
Unveiling Encoder-Free Vision-Language Models 无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训…
Scaling Synthetic Data Creation with 1,000,000,000 Personas 利用 10 亿角色扩展合成数据创建 我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络…
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs LongRAG: 使用长上下文大语言模型增强检索增强生成 在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计…
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning XLand-100B: 一个大规模多任务数据集用于上下文强化学习 在大规模语言模型和计算机视觉模型中,上下文学习范式取得了巨大成功,最近基于上下文的强化学习领域也迅速崛起。然而,由于缺…
Mixture-of-Agents Enhances Large Language Model Capabilities Mixture-of-Agents 增强大语言模型能力 最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为…
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality Transformer 是广义模型与高效算法:通过结构化状态空间对偶实现 虽然 Transformer 是深度学习在语言建模成功的主要架构…