今天随便翻了翻X,看到了 Sam Altman 7月底发的一篇推文,说的是他在 Washington Post 上的一篇文章,Who will control the future of AI? ,从他说的 U.S. need to maintain its lead in developing in AI 来看,就显然可以看出他不会是那种希望全球…
每周AI论文速递系列已经创建GitHub仓库,欢迎star. SHIC: Shape-Image Correspondences with no Keypoint Supervision SHIC: 无关键点监督的形状-图像对应关系 规范表面映射通过将对象的每个像素分配到3D模板中的对应点,从而拓展了关键点检测的应用范围。DensePose在分析人…
Internal Consistency and Self-Feedback in Large Language Models: A Survey 大语言模型中的内部一致性与自反馈:一项调查 大语言模型 (LLMs) 本应提供准确答案,但往往出现推理不足或生成虚构内容的问题。为此,一系列以“自-”为前缀的研究,如自一致性 (Self-Consist…
之前写的Paper-Agent最近做了些重构升级,主要是下面这些变动: 多种大模型的支持 之前是只接入了 deepseek 和 kimi, 并且使用 Kimi 作为pdf问答的关键大模型,但经过使用后发现一个比较头疼的问题,kimi 的api略贵了一点,如果要做完整的论文十问可能要一块多,但官方有个 Context Caching 的功能,可以节约…
好久没写文章了,断更了一个多月了,刚开始一段时间主要是上班精神内耗太严重没有精力去写文了,到六月初的时候,参加了一个RAG相关的比赛,初赛本周结束,作为菜鸟的我也是理所应当的没进复赛,跟第一名差了十分多,尝试了很多办法,但的确已经到个人能力的尽头了,决定就此放弃,这也是我第一次参加跟AI相关的比赛,而且还是自己单打独斗,也不能再强求更好了,总的来说…
论文解读:KAN: Kolmogorov–Arnold Networks
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了Ch…
一文带你了解当前主流PEFT技术
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。 什么是PEFT? 有哪些技术? PEFT的全称叫做 Parameter-Efficie…
问答AI模型训练前的必做功课:数据预处理
每周AI论文速递(240226-240301)
论文分享:Chain of LoRA
翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了,主要最近也在学习一些微调上面的知识,平时晚上还需要跑跑代码看看视频啥的,因此也一直没太有空写文章,UDL的翻译整理成PDF的工作都没空整。(虽然实际最近也花了很长时间在打游戏(。・_・。))。又到周末了,再拖着不干点正事我也过意不去了,今天就写点关于最近学习的一些关于微调方面的东西好了,因为我…
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
Metadata Title: Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning Authors: [[Wenhan Xia]], [[Chengwei Qin]], [[Elad Hazan]] Date: [[2024-01-08]] Ta…