标签: LLM

19 篇文章

理解深度学习中文版PDF发布
之前翻译的Understanding DeepLearning 这本书最近花了些时间用latex重写了一遍,因为原书有很多图片,用md实在太不方便,之前也答应过粉丝的留言要提供pdf版本的,因为md直接导出的pdf太丑了,就一直拖到了现在。 项目地址在: https://github.com/careywyr/UnderstandingDeepLe…
如何实现参加RAG比赛但进不了复赛的总结
好久没写文章了,断更了一个多月了,刚开始一段时间主要是上班精神内耗太严重没有精力去写文了,到六月初的时候,参加了一个RAG相关的比赛,初赛本周结束,作为菜鸟的我也是理所应当的没进复赛,跟第一名差了十分多,尝试了很多办法,但的确已经到个人能力的尽头了,决定就此放弃,这也是我第一次参加跟AI相关的比赛,而且还是自己单打独斗,也不能再强求更好了,总的来说…
论文解读:KAN: Kolmogorov–Arnold Networks
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了Ch…
一文带你了解当前主流PEFT技术
随着LLaMA3的发布,大模型开源社区的战力又提升了一分,国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调,对于微调技术,目前比较常见的就是Peft系列的技术,那么什么是PEFT,有哪些分类,为什么这么受大家欢迎呢?今天我们就好好聊聊这个话题。 什么是PEFT? 有哪些技术? PEFT的全称叫做 Parameter-Efficie…
问答AI模型训练前的必做功课:数据预处理
翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了,主要最近也在学习一些微调上面的知识,平时晚上还需要跑跑代码看看视频啥的,因此也一直没太有空写文章,UDL的翻译整理成PDF的工作都没空整。(虽然实际最近也花了很长时间在打游戏(。・_・。))。又到周末了,再拖着不干点正事我也过意不去了,今天就写点关于最近学习的一些关于微调方面的东西好了,因为我…
每周AI论文速递(240226-240301)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
理解深度学习:第四章 深度神经网络
前面一章我们讨论了只有一个隐藏层的浅层神经网络。本章,我们将转向深度神经网络,这种网络拥有多个隐藏层。无论是浅层还是深层网络,当使用 ReLU (Rectified Linear Unit) 激活函数时,它们都能实现从输入到输出的分段直线式的变换。 浅层神经网络的能力随着隐藏单元数量的增加而提升。实际上,如果隐藏单元足够多,这些网络甚至能够模拟高维…
OpenAI官方给出的Prompt工程建议
OpenAI在自己的官方网站上之前发布了关于如何进行提示工程的指导文档,这份文档可以帮助我们更好的对AI发起提问,从而得到更有效的答案。以下是针对原文的翻译,主要使用ChatGPT4进行机翻,人工也会做一些微调,主要排版做了一点调整,此外有一些翻译不准确的地方请多见谅,但也希望大家看看原文,一起学习。本文主要提供的六个策略我这里直接列出来,方便大家…
又一个提升大模型反馈效果的思路:黑盒Prompt优化
长期潜水在各个LLM技术群的小透明今天看到了智谱AI和清华团队又整了一篇有意思的论文,叫做Black-Box Prompt Optimization: Aligning Large Language Models without Model Training 主要是解决大模型的"对齐问题"。 啥叫对齐问题呢?指的是确保人工智能(…