作者: leafw

100 篇文章

thumbnail
每周AI论文速递(240805-240809)
Medical SAM 2: Segment medical images as video via Segment Anything Model 2 Medical SAM 2: 利用 Segment Anything Model 2 实现医学图像的视频化分割 本文介绍 Medical SAM 2 (MedSAM-2),一种先进的分割模型,采用 …
thumbnail
聊一聊Sam Altman的Who will control the future of AI?
今天随便翻了翻X,看到了 Sam Altman 7月底发的一篇推文,说的是他在 Washington Post 上的一篇文章,Who will control the future of AI? ,从他说的 U.S. need to maintain its lead in developing in AI 来看,就显然可以看出他不会是那种希望全球…
thumbnail
每周AI论文速递(240729-240802)
每周AI论文速递系列已经创建GitHub仓库,欢迎star. SHIC: Shape-Image Correspondences with no Keypoint Supervision SHIC: 无关键点监督的形状-图像对应关系 规范表面映射通过将对象的每个像素分配到3D模板中的对应点,从而拓展了关键点检测的应用范围。DensePose在分析人…
thumbnail
关于UnderstandingDeepLearning中译版的说明
​关于之前翻译的UDL一书,之前一直没注意原版的书籍的开源协议问题,协议是知识共享许可协议(Creative Commons license, 简称CC协议),但这本书的完整版权组合是Creative Commons Attribution-NonCommercial-NoDerivatives 4.0(CC BY-NC-ND 4.0)。 对于这本…
thumbnail
每周AI论文速递(240722-240726)
Internal Consistency and Self-Feedback in Large Language Models: A Survey 大语言模型中的内部一致性与自反馈:一项调查 大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consist…
thumbnail
Paper-Agent 新版本更新
之前写的Paper-Agent最近做了些重构升级,主要是下面这些变动: 多种大模型的支持 之前是只接入了 deepseek 和 kimi, 并且使用 Kimi 作为pdf问答的关键大模型,但经过使用后发现一个比较头疼的问题,kimi 的api略贵了一点,如果要做完整的论文十问可能要一块多,但官方有个 Context Caching 的功能,可以节约…
每周AI论文速递(240715-240719)
SpreadsheetLLM: Encoding Spreadsheets for Large Language Models SpreadsheetLLM:优化大语言模型处理电子表格的能力 电子表格因其广泛的双维网格、多样化的布局和格式选项,给大语言模型(LLMs)带来了显著挑战。为此,我们推出了SpreadsheetLLM,这是一种创新的编码方…
thumbnail
每周AI论文速递(240708-240712)
Unveiling Encoder-Free Vision-Language Models 无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训…
thumbnail
写了个平时看论文可能会用上的工具
写了一款可以帮助经常阅读论文的同学提升效率的小工具,有两个部分: HuggingFace Weekly Paper 制作工具 Arxiv Helper 前置条件 翻译基于 deepseek 的服务, 论文十问依赖于 kimi, 因此需要这两个的 api key。可以配置到环境变量中,代码中使用的环境变量 key 分别是 DEEPSEEK_KEY K…
thumbnail
每周AI论文速递(240701-240705)
Scaling Synthetic Data Creation with 1,000,000,000 Personas 利用 10 亿角色扩展合成数据创建 我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络…