标签: 人工智能

44 篇文章

每周AI论文速递(241111-241115)
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation LLM2CLIP: 强大的语言模型解锁更丰富的视觉表示 CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然…
thumbnail
论文解读:KAN: Kolmogorov–Arnold Networks
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了Ch…
每周AI论文速递(240415-240419)
Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练 我们研究了一种简单方法来开发一个小型基础语言模型 (LM),从一个现有的大型基础 LM 开始:首先从较大的 LM 继承一些 Transformer 块,然后在这个较小的模型上使用一个非常小的子集 (0.…
thumbnail
一文带你了解当前主流PEFT技术
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。 什么是PEFT? 有哪些技术? PEFT的全称叫做 Parameter-Efficie…
thumbnail
问答AI模型训练前的必做功课:数据预处理
翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了,主要最近也在学习一些微调上面的知识,平时晚上还需要跑跑代码看看视频啥的,因此也一直没太有空写文章,UDL的翻译整理成PDF的工作都没空整。(虽然实际最近也花了很长时间在打游戏(。・_・。))。又到周末了,再拖着不干点正事我也过意不去了,今天就写点关于最近学习的一些关于微调方面的东西好了,因为我…
每周AI论文速递(240325-240329)
Can large language models explore in-context? 大语言模型能进行上下文探索吗? 我们研究了当代大语言模型(LLMs)在多大程度上能够进行探索,这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能,不借助训练干预。我们在简单的多臂赌博机(multi-armed bandit)环境中部署L…