作者: leafw

110 篇文章

每周AI论文速递(250505-250509)
## Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models [感知、推理、思考与规划:大模型多模态推理研究综述](https://arxiv.org/abs/2505.04921) 推理是智能的核心能力,决定了系统在决策、结论推导及跨领域…
每周AI论文速递(250428-250502)
## Towards Understanding Camera Motions in Any Video [理解任意视频中的摄像机运动](https://arxiv.org/abs/2504.15376) 我们提出了CameraBench,这是一个用于评估和提升摄像机运动理解能力的大规模数据集与基准。CameraBench包含约3,000个多样化的…
每周AI论文速递(250421-250425)
## Kuwain 1.5B: An Arabic SLM via Language Injection [Kuwain 1.5B:通过语言注入(Language Injection)构建的阿拉伯语小型语言模型(Small Language Model)](https://arxiv.org/abs/2504.15120) 增强现有模型的新知识能力…
每周AI论文速递(250414-250418)
## InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [InternVL3:探索开源多模态模型的先进训练与测试阶段方案](https://arxiv.org/abs/2504.10479) 我们推出Inter…
thumbnail
Tool Calling、 MCP、A2A一文透析
这两年随着大模型的能力的飞速发展,我们可以依赖大模型做很多更加复杂的任务,为了完成这些任务,我们经常需要依赖于外部环境提供的能力,为了整合这些能力,涌现了多种扩展技术,目前很常用的就是工具/函数调用(Tool/Function Calling)和模型上下文协议(MCP, Model Context Protocol),此外就是最近才发布不久的Age…
每周AI论文速递(250310-250314)
Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders 使用稀疏自编码器进行生成文本检测的特征级洞察 随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效…
每周AI论文速递(250303-250307)
Predictive Data Selection: The Data That Predicts Is the Data That Teaches 预测性数据选择:预测的数据即教学的数据 语言模型的预训练需要在广泛的语料库上进行训练,其中数据质量起着关键作用。在这项工作中,我们的目标是直接估计预训练期间数据的贡献,并以高效的方式选择预训练数据。具…
每周AI论文速递(250217-250221)
Large Language Diffusion Models 大语言扩散模型 自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点,LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布,参数化由一个普通的…
每周AI论文速递(250210-250214)
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 利用隐式推理扩大测试时间计算的深度:一种循环深度方法 我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开…
每周AI论文速递(250203-250207)
s1: Simple test- time scaling s1: 测试时间缩放研究 测试时间缩放是一种创新的语言建模方法,通过额外的计算资源提升模型性能。近期,OpenAI 的 o1 模型展示了这一技术潜力,但其具体实现细节尚未公开,引发了学术界的广泛关注和复现工作。 本研究旨在探索实现高效推理的最佳实践方案。首先,我们构建了一个高质量数据集 s…