Scaling Synthetic Data Creation with 1,000,000,000 Personas 利用 10 亿角色扩展合成数据创建 我们提出了一种新颖的以角色驱动的数据合成方法,该方法利用大语言模型 (LLM) 中的各种视角来创建多样化的合成数据。为了在大规模上充分利用这种方法,我们引入了Persona Hub——一个从网络…
好久没写文章了,断更了一个多月了,刚开始一段时间主要是上班精神内耗太严重没有精力去写文了,到六月初的时候,参加了一个RAG相关的比赛,初赛本周结束,作为菜鸟的我也是理所应当的没进复赛,跟第一名差了十分多,尝试了很多办法,但的确已经到个人能力的尽头了,决定就此放弃,这也是我第一次参加跟AI相关的比赛,而且还是自己单打独斗,也不能再强求更好了,总的来说…
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs LongRAG: 使用长上下文大语言模型增强检索增强生成 在传统的检索增强生成 (RAG) 框架中,基本的检索单元通常都很短。常见的检索器如 DPR 通常处理100字的 Wikipedia 段落。这种设计…
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning XLand-100B: 一个大规模多任务数据集用于上下文强化学习 在大规模语言模型和计算机视觉模型中,上下文学习范式取得了巨大成功,最近基于上下文的强化学习领域也迅速崛起。然而,由于缺…
Mixture-of-Agents Enhances Large Language Model Capabilities Mixture-of-Agents 增强大语言模型能力 最近在大语言模型 (LLMs) 方面的进展显示了其在自然语言理解和生成任务中的显著能力。随着LLMs数量的增加,如何利用多个LLMs的集体智慧成为一个令人期待的研究方向。为…
Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality Transformer 是广义模型与高效算法:通过结构化状态空间对偶实现 虽然 Transformer 是深度学习在语言建模成功的主要架构…
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Meteor: 基于 Mamba 的大型语言和视觉模型的推理遍历 大型语言和视觉模型 (LLVMs) 的快速发展得益于视觉指令调优的进步。最近,开源的 LLVMs 整理了高质量的视觉指令调优…
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning PLLaVA:图像至视频无参数扩展的 LLaVA 模型,用于视频详细描述 视觉-语言预训练显著提升了各种图像-语言应用的性能。然而,视频相关任务的预训练过程需巨大的计算和数…
AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation AutoCrawler: 一个为 Web 爬虫生成的渐进式理解 Web 智能体 Web 自动化是一种重要技术,它通过自动执行常见网页动作来处理复杂的网页任务,从而提高操作效率并减少手动干预。传统…
Pre-training Small Base LMs with Fewer Tokens 使用更少的 Token 对小型基础 LMs 进行预训练 我们研究了一种简单方法来开发一个小型基础语言模型 (LM),从一个现有的大型基础 LM 开始:首先从较大的 LM 继承一些 Transformer 块,然后在这个较小的模型上使用一个非常小的子集 (0.…