AI – 叶子的技术碎碎念

每周AI论文速递（240715-240719）

52

|

0

|

AI,每周AI论文速递

4947 字

|

19 分钟

SpreadsheetLLM: Encoding Spreadsheets for Large Language Models SpreadsheetLLM：优化大语言模型处理电子表格的能力电子表格因其广泛的双维网格、多样化的布局和格式选项，给大语言模型（LLMs）带来了显著挑战。为此，我们推出了SpreadsheetLLM，这是一种创新的编码方…

论文阅读

理解深度学习中文版PDF发布

83

|

2

|

AI,Understanding Deeplearning

341 字

|

2 分钟

之前翻译的Understanding DeepLearning 这本书最近花了些时间用latex重写了一遍，因为原书有很多图片，用md实在太不方便，之前也答应过粉丝的留言要提供pdf版本的，因为md直接导出的pdf太丑了，就一直拖到了现在。项目地址在： https://github.com/careywyr/UnderstandingDeepLe…

LLM

每周AI论文速递（240708-240712）

61

|

0

|

每周AI论文速递

5572 字

|

22 分钟

Unveiling Encoder-Free Vision-Language Models 无编码器视觉-语言模型的探索当前的视觉-语言模型（VLMs）主要依赖视觉编码器提取视觉特征，并结合大语言模型（LLMs）执行视觉-语言任务。然而，视觉编码器在抽象视觉表示时引入的强烈归纳偏差，如分辨率、宽高比和语义先验，可能限制了VLMs的灵活性和效率。训…

论文阅读

写了个平时看论文可能会用上的工具

60

|

0

|

AI

606 字

|

3 分钟

写了一款可以帮助经常阅读论文的同学提升效率的小工具，有两个部分： HuggingFace Weekly Paper 制作工具 Arxiv Helper 前置条件翻译基于 deepseek 的服务，论文十问依赖于 kimi，因此需要这两个的 api key。可以配置到环境变量中，代码中使用的环境变量 key 分别是 DEEPSEEK_KEY K…

论文阅读

每周AI论文速递（240701-240705）

73

|

0

|

AI,每周AI论文速递

5117 字

|

20 分钟

Scaling Synthetic Data Creation with 1,000,000,000 Personas 利用 10 亿角色扩展合成数据创建我们提出了一种新颖的以角色驱动的数据合成方法，该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法，我们引入了Persona Hub——一个从网络…

论文阅读

如何实现参加RAG比赛但进不了复赛的总结

87

|

0

|

AI

4908 字

|

30 分钟

好久没写文章了，断更了一个多月了，刚开始一段时间主要是上班精神内耗太严重没有精力去写文了，到六月初的时候，参加了一个RAG相关的比赛，初赛本周结束，作为菜鸟的我也是理所应当的没进复赛，跟第一名差了十分多，尝试了很多办法，但的确已经到个人能力的尽头了，决定就此放弃，这也是我第一次参加跟AI相关的比赛，而且还是自己单打独斗，也不能再强求更好了，总的来说…

LLM

每周AI论文速递（240624-240628）

98

|

0

|

AI,每周AI论文速递

5079 字

|

20 分钟

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs LongRAG: 使用长上下文大语言模型增强检索增强生成在传统的检索增强生成 (RAG) 框架中，基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计…

论文阅读

每周AI论文速递（240617-240621）

102

|

0

|

AI,每周AI论文速递

6004 字

|

24 分钟

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning XLand-100B: 一个大规模多任务数据集用于上下文强化学习在大规模语言模型和计算机视觉模型中，上下文学习范式取得了巨大成功，最近基于上下文的强化学习领域也迅速崛起。然而，由于缺…

论文阅读

每周AI论文速递（240610-240614）

111

|

0

|

AI,每周AI论文速递

5553 字

|

22 分钟

Mixture-of-Agents Enhances Large Language Model Capabilities Mixture-of-Agents 增强大语言模型能力最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加，如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为…

论文阅读

每周AI论文速递（240603-240607）

141

|

0

|

AI,每周AI论文速递

4162 字

|

16 分钟

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality Transformer 是广义模型与高效算法：通过结构化状态空间对偶实现虽然 Transformer 是深度学习在语言建模成功的主要架构…

论文阅读

分类： AI