2024 年 4 月 – 叶子的技术碎碎念

每周AI论文速递（240422-240426）

901

|

0

|

AI,未分类,每周AI论文速递

6184 字

|

24 分钟

AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AutoCrawler: 一个为 Web 爬虫生成的渐进式理解 Web 智能体 Web 自动化是一种重要技术，它通过自动执行常见网页动作来处理复杂的网页任务，从而提高操作效率并减少手动干预。传统…

每周AI论文速递（240415-240419）

1,279

|

0

|

AI,每周AI论文速递

3170 字

|

13 分钟

Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练我们研究了一种简单方法来开发一个小型基础语言模型 (LM)，从一个现有的大型基础 LM 开始：首先从较大的 LM 继承一些 Transformer 块，然后在这个较小的模型上使用一个非常小的子集 (0.…

人工智能深度学习论文阅读

一文带你了解当前主流PEFT技术

1,844

|

0

|

AI,大模型微调实战

11388 字

|

45 分钟

随着LLaMA3的发布，大模型开源社区的战力又提升了一分，国内目前应该已经有不少大佬已经开始着手对LLaMA3进行研究或微调，对于微调技术，目前比较常见的就是Peft系列的技术，那么什么是PEFT，有哪些分类，为什么这么受大家欢迎呢？今天我们就好好聊聊这个话题。什么是PEFT？有哪些技术？ PEFT的全称叫做 Parameter-Efficie…

LLM 人工智能深度学习

每周AI论文速递（20240408-20240412）

745

|

0

|

AI,每周AI论文速递

6958 字

|

27 分钟

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences 直接纳什优化：教授语言模型通过通用偏好自我提升本文研究如何利用强大神谕的偏好反馈，对大语言模型 (大语言模型) 进行后训练，以帮助模型迭代地自我改进。传统的大语言模…

问答AI模型训练前的必做功课：数据预处理

719

|

0

|

AI,大模型微调实战

4185 字

|

23 分钟

翻译完了UDL这本书之后放松了一个多礼拜没有更新文章了，主要最近也在学习一些微调上面的知识，平时晚上还需要跑跑代码看看视频啥的，因此也一直没太有空写文章，UDL的翻译整理成PDF的工作都没空整。（虽然实际最近也花了很长时间在打游戏(。・＿・。)）。又到周末了，再拖着不干点正事我也过意不去了，今天就写点关于最近学习的一些关于微调方面的东西好了，因为我…

LLM 人工智能深度学习

每周AI论文速递（240401-240405）

1,663

|

0

|

AI,每周AI论文速递

5596 字

|

22 分钟

Jamba: A Hybrid Transformer-Mamba Language Model Jamba：混合 Transformer-Mamba 语言模型我们推出了 Jamba，这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamb…

人工智能论文阅读

月度归档： 2024 年 4 月