论文阅读归档 - 叶子的技术碎碎念

每周AI论文速递（240429-240503）

19

|

0

|

AI,每周AI论文速递

3977 字

|

16 分钟

PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning PLLaVA：图像至视频无参数扩展的 LLaVA 模型，用于视频详细描述视觉-语言预训练显著提升了各种图像-语言应用的性能。然而，视频相关任务的预训练过程需巨大的计算和数…

人工智能深度学习论文阅读

论文解读：KAN: Kolmogorov–Arnold Networks

81

|

0

|

论文分享

9829 字

|

38 分钟

五一假期刚开始没两天的时候，刷到了一篇火遍国内外AI圈的论文，叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣，在假期结束之前，抽个空读一下看看是怎么个事。读了之后发现，仅仅只是高数、线代和概率论这些数学知识是看不懂的，最好还需要了解一点数分方面的知识，反正我是借助了Ch…

LLM 人工智能深度学习论文阅读

每周AI论文速递（240415-240419）

72

|

0

|

AI,每周AI论文速递

3170 字

|

13 分钟

Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练我们研究了一种简单方法来开发一个小型基础语言模型 (LM)，从一个现有的大型基础 LM 开始：首先从较大的 LM 继承一些 Transformer 块，然后在这个较小的模型上使用一个非常小的子集 (0.…

人工智能深度学习论文阅读

每周AI论文速递（240401-240405）

80

|

0

|

AI,每周AI论文速递

5596 字

|

22 分钟

Jamba: A Hybrid Transformer-Mamba Language Model Jamba：混合 Transformer-Mamba 语言模型我们推出了 Jamba，这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamb…

人工智能论文阅读

每周AI论文速递（240325-240329）

92

|

0

|

AI,每周AI论文速递

3314 字

|

13 分钟

Can large language models explore in-context? 大语言模型能进行上下文探索吗？我们研究了当代大语言模型（LLMs）在多大程度上能够进行探索，这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能，不借助训练干预。我们在简单的多臂赌博机（multi-armed bandit）环境中部署L…

人工智能深度学习论文阅读

每周AI论文速递（240318-240322）

52

|

0

|

AI,每周AI论文速递

5210 字

|

20 分钟

Uni-SMART: Universal Science Multimodal Analysis and Research Transformer Uni-SMART: 通用科学的多模态分析研究 Transformer 在科学研究及其应用领域，科学文献分析极为重要，它使研究人员得以在前人的基础上发展自己的工作。然而，科学知识的快速发展导致学术文章数…

论文阅读

每周AI论文速递（240304-240308）

110

|

0

|

AI,每周AI论文速递

6586 字

|

25 分钟

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks VisionLLaMA: 视觉任务的统一 LLaMA 接口大语言模型基于 Transformer 架构构建，主要处理文本输入。其中，LLaMA 是众多开源实现中的佼佼者。那么，相同的 Transformer 能否用于处理 2D 图像呢？…

人工智能深度学习论文阅读

理解深度学习：第十一章残差网络

103

|

0

|

AI,Understanding Deeplearning

11890 字

|

46 分钟

上一章节阐述了随着卷积网络从八层（AlexNet）增加到十八层（VGG）而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而，随着层数的继续增加，网络性能反而开始下降。本章将介绍残差块的概念。在残差网络中，每一层不是直接对输入进行转换，而是计算一个加性的变更，即残差，以此修改当前的数据表示。这种设计使得我们能够训练更深的网络，但…

人工智能深度学习论文阅读

每周AI论文速递（240219-240223）

102

|

0

|

AI,每周AI论文速递

5555 字

|

21 分钟

Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型在自然语言处理领域快速进展之中，发展语言模型（LMs）的次方级别架构至关重要。当前的创新，包括状态空间模型（SSMs…

人工智能论文阅读

每周AI论文速递（240212-240216）

115

|

0

|

AI,每周AI论文速递

4614 字

|

18 分钟

Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集：多语言指令微调的公开获取资源数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理（NLP）领域的最新成就得益于在多元任务集上进行的预训练模型微调，这一过程使得大语言模型（L…

人工智能论文阅读

标签： 论文阅读

标签：论文阅读