2025 年 – 叶子的技术碎碎念

每周AI论文速递（250421-250425）

30

|

0

|

AI,每周AI论文速递

4173 字

|

16 分钟

## Kuwain 1.5B: An Arabic SLM via Language Injection [Kuwain 1.5B：通过语言注入（Language Injection）构建的阿拉伯语小型语言模型（Small Language Model）](https://arxiv.org/abs/2504.15120) 增强现有模型的新知识能力…

每周AI论文速递（250414-250418）

82

|

0

|

AI,每周AI论文速递

2868 字

|

12 分钟

## InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [InternVL3：探索开源多模态模型的先进训练与测试阶段方案](https://arxiv.org/abs/2504.10479) 我们推出Inter…

Tool Calling、 MCP、A2A一文透析

138

|

0

|

AI

6566 字

|

26 分钟

这两年随着大模型的能力的飞速发展，我们可以依赖大模型做很多更加复杂的任务，为了完成这些任务，我们经常需要依赖于外部环境提供的能力，为了整合这些能力，涌现了多种扩展技术，目前很常用的就是工具/函数调用（Tool/Function Calling）和模型上下文协议（MCP， Model Context Protocol），此外就是最近才发布不久的Age…

每周AI论文速递（250310-250314）

154

|

0

|

AI,每周AI论文速递

5804 字

|

22 分钟

Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders 使用稀疏自编码器进行生成文本检测的特征级洞察随着先进的大语言模型的兴起，生成文本检测变得越来越重要。尽管有许多努力，但没有单一算法在不同类型的未见文本上表现一致，或保证对新的大语言模型的有效…

每周AI论文速递（250303-250307）

184

|

0

|

AI,每周AI论文速递

7905 字

|

31 分钟

Predictive Data Selection: The Data That Predicts Is the Data That Teaches 预测性数据选择：预测的数据即教学的数据语言模型的预训练需要在广泛的语料库上进行训练，其中数据质量起着关键作用。在这项工作中，我们的目标是直接估计预训练期间数据的贡献，并以高效的方式选择预训练数据。具…

每周AI论文速递（250217-250221）

340

|

0

|

AI,每周AI论文速递

14867 字

|

58 分钟

Large Language Diffusion Models 大语言扩散模型自回归模型 (ARMs) 被广泛认为是大语言模型 (LLMs) 的基础。我们通过引入 LLaDA 来质疑这一观点，LLaDA 是一种在预训练和监督微调 (SFT) 范式下从头开始训练的扩散模型。LLaDA 通过前向数据掩码过程和反向过程来建模数据分布，参数化由一个普通的…

每周AI论文速递（250210-250214）

239

|

0

|

AI,每周AI论文速递

13103 字

|

50 分钟

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach 利用隐式推理扩大测试时间计算的深度：一种循环深度方法我们研究了一种新型的语言模型架构，该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块，在测试时可以展开…

每周AI论文速递（250203-250207）

177

|

0

|

AI,每周AI论文速递

7807 字

|

30 分钟

s1: Simple test- time scaling s1: 测试时间缩放研究测试时间缩放是一种创新的语言建模方法，通过额外的计算资源提升模型性能。近期，OpenAI 的 o1 模型展示了这一技术潜力，但其具体实现细节尚未公开，引发了学术界的广泛关注和复现工作。本研究旨在探索实现高效推理的最佳实践方案。首先，我们构建了一个高质量数据集 s…

每周AI论文速递（250127-250131）

201

|

0

|

AI,每周AI论文速递

3760 字

|

15 分钟

Humanity's Last Exam 人类的最终考试基准测试是追踪大语言模型(LLM)能力快速进展的重要工具。然而，这些基准测试在难度上并未跟上节奏:如今的 LLMs 在 MMLU 等流行基准测试上的准确率已超过 90%，这限制了对先进 LLM 能力的有根据测量。作为回应，我们介绍了“人类的最终考试”(HLE)，这是一个多模式基准测试，在人类…

每周AI论文速递（250120-250124）

305

|

0

|

AI,每周AI论文速递

9315 字

|

36 分钟

Evolving Deeper LLM Thinking 大语言模型思维的深度进化我们探索了一种进化搜索策略，用于扩展大语言模型中的推理计算时间。我们提出的方法，Mind Evolution，利用语言模型生成、重组和优化候选响应。该方法在解决方案评估器可用时，避免了形式化底层推理问题的需求。在控制推理成本的前提下，我们发现 Mind Evolut…

年度归档： 2025 年