好久没写文章了,断更了一个多月了,刚开始一段时间主要是上班精神内耗太严重没有精力去写文了,到六月初的时候,参加了一个RAG相关的比赛,初赛本周结束,作为菜鸟的我也是理所应当的没进复赛,跟第一名差了十分多,尝试了很多办法,但的确已经到个人能力的尽头了,决定就此放弃,这也是我第一次参加跟AI相关的比赛,而且还是自己单打独斗,也不能再强求更好了,总的来说…
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs LongRAG: 使用长上下文大语言模型增强检索增强生成 在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计…
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning XLand-100B: 一个大规模多任务数据集用于上下文强化学习 在大规模语言模型和计算机视觉模型中,上下文学习范式取得了巨大成功,最近基于上下文的强化学习领域也迅速崛起。然而,由于缺…
Mixture-of-Agents Enhances Large Language Model Capabilities Mixture-of-Agents 增强大语言模型能力 最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为…
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality Transformer 是广义模型与高效算法:通过结构化状态空间对偶实现 虽然 Transformer 是深度学习在语言建模成功的主要架构…
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Meteor: 基于 Mamba 的大型语言和视觉模型的推理遍历 大型语言和视觉模型 (LLVMs) 的快速发展得益于视觉指令调优的进步。最近,开源的 LLVMs 整理了高质量的视觉指令调优…
前不久李飞飞教授的"我看见的世界"中译版在中国发售了,我也迫不及待买了一本,这两周断断续续的看完了。看完后的感慨颇深,想着好好写一篇文章来分享给大家。 整本书阅读下来,对于我而言,最难以忘记的词汇就是“北极星”这个词,似乎这就是作者一生所努力的关键词,而这,也是普普通通的我们也同样需要追逐的。 波折而又幸运的成长过程 我在阅读这…
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning PLLaVA:图像至视频无参数扩展的 LLaVA 模型,用于视频详细描述 视觉-语言预训练显著提升了各种图像-语言应用的性能。然而,视频相关任务的预训练过程需巨大的计算和数…
论文解读:KAN: Kolmogorov–Arnold Networks
每周AI论文速递(240422-240426)
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了Ch…
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AutoCrawler: 一个为 Web 爬虫生成的渐进式理解 Web 智能体 Web 自动化是一种重要技术,它通过自动执行常见网页动作来处理复杂的网页任务,从而提高操作效率并减少手动干预。传统…