2024 年 11 月 – 叶子的技术碎碎念

每周AI论文速递（241125-241129）

248

|

0

|

AI,每周AI论文速递

4577 字

|

18 分钟

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training TÜLU 3: 推动开放语言模型后训练的前沿语言模型后训练用于精炼行为并解锁近期语言模型的新技能，但应用这些技术的开放配方落后于专有配方。底层训练数据和后训练配方既是最重要的拼图部分，也是透明度最低的部分。为了弥合这一差距…

每周AI论文速递（241118-241122）

266

|

0

|

AI,每周AI论文速递

3857 字

|

15 分钟

LLaVA-o1: Let Vision Language Models Reason Step-by-Step LLaVA-o1: 让视觉语言模型逐步推理大语言模型在推理能力上取得了显著进展，尤其是在推理时间扩展方面，如 OpenAI 的 o1 模型所示。然而，当前的视觉语言模型 (VLMs) 在处理系统性和结构化推理时往往表现不佳，尤其是在复…

每周AI论文速递（241111-241115）

297

|

0

|

AI,每周AI论文速递

3332 字

|

13 分钟

LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation LLM2CLIP: 强大的语言模型解锁更丰富的视觉表示 CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号，作为人类知识的载体，塑造了一个强大的跨模态表示空间，这是 CLIP 能力的核心。然…

人工智能

每周AI论文速递（241104-241108）

235

|

0

|

AI,每周AI论文速递

5801 字

|

23 分钟

OS-ATLAS: A Foundation Action Model for Generalist GUI Agents OS-ATLAS: 通用 GUI 智能体的基础动作模型当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分…

每周AI论文速递（241028-241101）

286

|

0

|

AI,每周AI论文速递

4375 字

|

17 分钟

ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting ROCKET-1: 掌握开放世界交互与视觉-时间上下文提示视觉-语言模型 (Vision-language models, VLMs) 在多模态任务中表现出色，但将其应用于开放世界环境中的具…

月度归档： 2024 年 11 月