VITA: Towards Open-Source Interactive Omni Multimodal LLM VITA:迈向开源交互式全模态大语言模型 GPT-4o 的卓越多模态能力和交互体验,凸显了其在实际应用中的重要性,但开源模型在这两个领域的表现往往不尽人意。本文介绍的 VITA,是首个开源的多模态大语言模型(MLLM),能够同时处理和…
Paper-Agent支持论文问答转聊天功能
每周AI论文速递(240715-240719)
本周有点偷懒,没想好写什么技术文章,就给Paper-Agent加了点花样,支持基于首页的论文问答进行对话,直接切换到聊天菜单就会自动带上。目前只做了Deepseek的适配,当然理论上所有的符合OpenAI规范的模型都可以适配,只是还未经过测试,不能保证。 因为Deepseek上周支持了硬盘缓存,因此这种比较耗费token的聊天也能节省大量的成本了,…
Medical SAM 2: Segment medical images as video via Segment Anything Model 2 Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割 本文介绍 Medical SAM 2 (MedSAM-2),一种先进的分割模型,采用 …
今天随便翻了翻X,看到了 Sam Altman 7月底发的一篇推文,说的是他在 Washington Post 上的一篇文章,Who will control the future of AI? ,从他说的 U.S. need to maintain its lead in developing in AI 来看,就显然可以看出他不会是那种希望全球…
每周AI论文速递系列已经创建GitHub仓库,欢迎star. SHIC: Shape-Image Correspondences with no Keypoint Supervision SHIC: 无关键点监督的形状-图像对应关系 规范表面映射通过将对象的每个像素分配到3D模板中的对应点,从而拓展了关键点检测的应用范围。DensePose在分析人…
Internal Consistency and Self-Feedback in Large Language Models: A Survey 大语言模型中的内部一致性与自反馈:一项调查 大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consist…
之前写的Paper-Agent最近做了些重构升级,主要是下面这些变动: 多种大模型的支持 之前是只接入了 deepseek 和 kimi, 并且使用 Kimi 作为pdf问答的关键大模型,但经过使用后发现一个比较头疼的问题,kimi 的api略贵了一点,如果要做完整的论文十问可能要一块多,但官方有个 Context Caching 的功能,可以节约…
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models SpreadsheetLLM:优化大语言模型处理电子表格的能力 电子表格因其广泛的双维网格、多样化的布局和格式选项,给大语言模型(LLMs)带来了显著挑战。为此,我们推出了SpreadsheetLLM,这是一种创新的编码方…
Unveiling Encoder-Free Vision-Language Models 无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训…
写了一款可以帮助经常阅读论文的同学提升效率的小工具,有两个部分: HuggingFace Weekly Paper 制作工具 Arxiv Helper 前置条件 翻译基于 deepseek 的服务, 论文十问依赖于 kimi, 因此需要这两个的 api key。可以配置到环境变量中,代码中使用的环境变量 key 分别是 DEEPSEEK_KEY K…