标签: 论文阅读

9 篇文章

每周AI论文速递(240325-240329)
Can large language models explore in-context? 大语言模型能进行上下文探索吗? 我们研究了当代大语言模型(LLMs)在多大程度上能够进行探索,这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能,不借助训练干预。我们在简单的多臂赌博机(multi-armed bandit)环境中部署L…
每周AI论文速递(240318-240322)
Uni-SMART: Universal Science Multimodal Analysis and Research Transformer Uni-SMART: 通用科学的多模态分析研究 Transformer 在科学研究及其应用领域,科学文献分析极为重要,它使研究人员得以在前人的基础上发展自己的工作。然而,科学知识的快速发展导致学术文章数…
理解深度学习:第十一章 残差网络
上一章节阐述了随着卷积网络从八层(AlexNet)增加到十八层(VGG)而带来的图像分类性能的显著提升。这一发现激发了对更深层网络的探索。然而,随着层数的继续增加,网络性能反而开始下降。 本章将介绍残差块的概念。在残差网络中,每一层不是直接对输入进行转换,而是计算一个加性的变更,即残差,以此修改当前的数据表示。这种设计使得我们能够训练更深的网络,但…
每周AI论文速递(240219-240223)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models 具有可学习核函数的线性 Transformer 是更优的上下文学习模型 在自然语言处理领域快速进展之中,发展语言模型(LMs)的次方级别架构至关重要。当前的创新,包括状态空间模型(SSMs…
每周AI论文速递(240212-240216)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Aya 数据集:多语言指令微调的公开获取资源 数据集对于现代人工智能的众多重大进展至关重要。许多自然语言处理(NLP)领域的最新成就得益于在多元任务集上进行的预训练模型微调,这一过程使得大语言模型(L…
分享两个阅读论文的方法
最近因为有事没事就看看论文,虽然现在有GPT的帮助能提升不少效率,但其实对于一个科研小白而言还是非常吃力的。今天分享两个阅读论文的方式,一个是2007年就发表过的S. Keshav的How to Read a Paper,另一个是沈向洋博士提出的论文十问。相信已经有很多做科研的同学们都已经对看论文很熟练了,但对于刚开始入门的同学而言,这两个论文阅读…