LLM – 叶子的技术碎碎念

理解深度学习中文版PDF发布

83

|

2

|

AI,Understanding Deeplearning

341 字

|

2 分钟

之前翻译的Understanding DeepLearning 这本书最近花了些时间用latex重写了一遍，因为原书有很多图片，用md实在太不方便，之前也答应过粉丝的留言要提供pdf版本的，因为md直接导出的pdf太丑了，就一直拖到了现在。项目地址在： https://github.com/careywyr/UnderstandingDeepLe…

LLM

如何实现参加RAG比赛但进不了复赛的总结

87

|

0

|

AI

4908 字

|

30 分钟

好久没写文章了，断更了一个多月了，刚开始一段时间主要是上班精神内耗太严重没有精力去写文了，到六月初的时候，参加了一个RAG相关的比赛，初赛本周结束，作为菜鸟的我也是理所应当的没进复赛，跟第一名差了十分多，尝试了很多办法，但的确已经到个人能力的尽头了，决定就此放弃，这也是我第一次参加跟AI相关的比赛，而且还是自己单打独斗，也不能再强求更好了，总的来说…

LLM

论文解读：KAN: Kolmogorov–Arnold Networks

608

|

0

|

论文分享

9829 字

|

38 分钟

五一假期刚开始没两天的时候，刷到了一篇火遍国内外AI圈的论文，叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣，在假期结束之前，抽个空读一下看看是怎么个事。读了之后发现，仅仅只是高数、线代和概率论这些数学知识是看不懂的，最好还需要了解一点数分方面的知识，反正我是借助了Ch…

LLM 人工智能深度学习论文阅读

一文带你了解当前主流PEFT技术

434

|

0

|

AI,大模型微调实战

11418 字

|

45 分钟

随着LLaMA3的发布，大模型开源社区的战力又提升了一分，国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调，对于微调技术，目前比较常见的就是Peft系列的技术，那么什么是PEFT，有哪些分类，为什么这么受大家欢迎呢？今天我们就好好聊聊这个话题。什么是PEFT？有哪些技术？ PEFT的全称叫做 Parameter-Efficie…

LLM 人工智能深度学习

问答AI模型训练前的必做功课：数据预处理

203

|

0

|

AI,大模型微调实战

4185 字

|

23 分钟

翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了，主要最近也在学习一些微调上面的知识，平时晚上还需要跑跑代码看看视频啥的，因此也一直没太有空写文章，UDL的翻译整理成PDF的工作都没空整。（虽然实际最近也花了很长时间在打游戏(。・＿・。)）。又到周末了，再拖着不干点正事我也过意不去了，今天就写点关于最近学习的一些关于微调方面的东西好了，因为我…

LLM 人工智能深度学习

每周AI论文速递（240226-240301）

149

|

0

|

AI,每周AI论文速递

4966 字

|

20 分钟

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型本文针对在移动设备上部署高效的大型语言模型（LLMs）的迫切需求进行研究，这一需求源于云计算成本的上升和延迟问题的…

LLM 人工智能深度学习

理解深度学习：第四章深度神经网络

209

|

0

|

AI,Understanding Deeplearning

7767 字

|

32 分钟

前面一章我们讨论了只有一个隐藏层的浅层神经网络。本章，我们将转向深度神经网络，这种网络拥有多个隐藏层。无论是浅层还是深层网络，当使用 ReLU (Rectified Linear Unit) 激活函数时，它们都能实现从输入到输出的分段直线式的变换。浅层神经网络的能力随着隐藏单元数量的增加而提升。实际上，如果隐藏单元足够多，这些网络甚至能够模拟高维…

LLM 人工智能深度学习

论文分享：Chain of LoRA

366

|

0

|

论文分享

5234 字

|

20 分钟

Metadata Title: Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning Authors: [[Wenhan Xia]], [[Chengwei Qin]], [[Elad Hazan]] Date: [[2024-01-08]] Ta…

LLM 人工智能深度学习

OpenAI官方给出的Prompt工程建议

197

|

0

|

AI

5904 字

|

32 分钟

OpenAI在自己的官方网站上之前发布了关于如何进行提示工程的指导文档，这份文档可以帮助我们更好的对AI发起提问，从而得到更有效的答案。以下是针对原文的翻译，主要使用ChatGPT4进行机翻，人工也会做一些微调，主要排版做了一点调整，此外有一些翻译不准确的地方请多见谅，但也希望大家看看原文，一起学习。本文主要提供的六个策略我这里直接列出来，方便大家…

LLM 人工智能

又一个提升大模型反馈效果的思路：黑盒Prompt优化

143

|

0

|

AI

2712 字

|

11 分钟

长期潜水在各个LLM技术群的小透明今天看到了智谱AI和清华团队又整了一篇有意思的论文，叫做Black-Box Prompt Optimization: Aligning Large Language Models without Model Training 主要是解决大模型的"对齐问题"。啥叫对齐问题呢？指的是确保人工智能（…

LLM RAG 人工智能

标签： LLM