Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Meteor: 基于 Mamba 的大型语言和视觉模型的推理遍历 大型语言和视觉模型 (LLVMs) 的快速发展得益于视觉指令调优的进步。最近,开源的 LLVMs 整理了高质量的视觉指令调优…
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning PLLaVA:图像至视频无参数扩展的 LLaVA 模型,用于视频详细描述 视觉-语言预训练显著提升了各种图像-语言应用的性能。然而,视频相关任务的预训练过程需巨大的计算和数…
论文解读:KAN: Kolmogorov–Arnold Networks
每周AI论文速递(240415-240419)
每周AI论文速递(240401-240405)
每周AI论文速递(240325-240329)
每周AI论文速递(240318-240322)
每周AI论文速递(240304-240308)
每周AI论文速递(240219-240223)
每周AI论文速递(240212-240216)
五一假期刚开始没两天的时候,刷到了一篇火遍国内外AI圈的论文,叫做 KAN: Kolmogorov–Arnold Networks , 尤其国内某些科技媒体铺天盖地的宣传更是让我提起了兴趣,在假期结束之前,抽个空读一下看看是怎么个事。读了之后发现,仅仅只是高数、线代和概率论这些数学知识是看不懂的,最好还需要了解一点数分方面的知识,反正我是借助了Ch…
Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练 我们研究了一种简单方法来开发一个小型基础语言模型 (LM),从一个现有的大型基础 LM 开始:首先从较大的 LM 继承一些 Transformer 块,然后在这个较小的模型上使用一个非常小的子集 (0.…
Jamba: A Hybrid Transformer-Mamba Language Model Jamba:混合 Transformer-Mamba 语言模型 我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamb…
Can large language models explore in-context? 大语言模型能进行上下文探索吗? 我们研究了当代大语言模型(LLMs)在多大程度上能够进行探索,这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能,不借助训练干预。我们在简单的多臂赌博机(multi-armed bandit)环境中部署L…
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer Uni-SMART: 通用科学的多模态分析研究 Transformer 在科学研究及其应用领域,科学文献分析极为重要,它使研究人员得以在前人的基础上发展自己的工作。然而,科学知识的快速发展导致学术文章数…
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks VisionLLaMA: 视觉任务的统一 LLaMA 接口 大语言模型基于 Transformer 架构构建,主要处理文本输入。其中,LLaMA 是众多开源实现中的佼佼者。那么,相同的 Transformer 能否用于处理 2D 图像呢?…
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集:多语言指令微调的公开获取资源 数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(L…