年度归档: 2024 年

41 篇文章

每周AI论文速递(240325-240329)
Can large language models explore in-context? 大语言模型能进行上下文探索吗? 我们研究了当代大语言模型(LLMs)在多大程度上能够进行探索,这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能,不借助训练干预。我们在简单的多臂赌博机(multi-armed bandit)环境中部署L…
每周AI论文速递(240318-240322)
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer Uni-SMART: 通用科学的多模态分析研究 Transformer 在科学研究及其应用领域,科学文献分析极为重要,它使研究人员得以在前人的基础上发展自己的工作。然而,科学知识的快速发展导致学术文章数…
每周AI论文速递(240226-240301)
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases MobileLLM: 针对移动设备使用场景优化的亚十亿参数语言模型 本文针对在移动设备上部署高效的大型语言模型(LLMs)的迫切需求进行研究,这一需求源于云计算成本的上升和延迟问题的…
每周AI论文速递(240219-240223)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…
每周AI论文速递(240212-240216)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集:多语言指令微调的公开获取资源 数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(L…
thumbnail
【转】局部余弦相似度大,全局余弦相似度一定也大吗?
本文转自苏神的博客 在分析模型的参数时,有些情况下我们会将模型的所有参数当成一个整体的向量,有些情况下我们则会将不同的参数拆开来看。比如,一个7B大小的LLAMA模型所拥有的70亿参数量,有时候我们会将它当成“一个70亿维的向量”,有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”,最极端的情况下,我们也会将它看成是“七十亿个1维向量”…