TÜLU 3: Pushing Frontiers in Open Language Model Post-Training TÜLU 3: 推动开放语言模型后训练的前沿 语言模型后训练用于精炼行为并解锁近期语言模型的新技能,但应用这些技术的开放配方落后于专有配方。底层训练数据和后训练配方既是最重要的拼图部分,也是透明度最低的部分。为了弥合这一差距…
LLaVA-o1: Let Vision Language Models Reason Step-by-Step LLaVA-o1: 让视觉语言模型逐步推理 大语言模型在推理能力上取得了显著进展,尤其是在推理时间扩展方面,如 OpenAI 的 o1 模型所示。然而,当前的视觉语言模型 (VLMs) 在处理系统性和结构化推理时往往表现不佳,尤其是在复…
LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation LLM2CLIP: 强大的语言模型解锁更丰富的视觉表示 CLIP 是当今最重要的多模态基础模型之一。自然语言提供的丰富监督信号,作为人类知识的载体,塑造了一个强大的跨模态表示空间,这是 CLIP 能力的核心。然…
OS-ATLAS: A Foundation Action Model for Generalist GUI Agents OS-ATLAS: 通用 GUI 智能体的基础动作模型 当前构建 GUI 智能体的工作主要依赖于如 GPT-4o 和 GeminiProVision 等稳健的商业视觉语言模型 (VLM)。由于开源 VLM 在 GUI 接地和分…
ROCKET-1: Master Open-World Interaction with Visual-Temporal Context Prompting ROCKET-1: 掌握开放世界交互与视觉-时间上下文提示 视觉-语言模型 (Vision-language models, VLMs) 在多模态任务中表现出色,但将其应用于开放世界环境中的具…
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models UCFE: 一个面向大语言模型的用户中心化金融专业知识基准 本文介绍了 UCFE: 用户中心化金融专业知识基准,这是一个创新框架,旨在评估大语言模型 (LLMs) 处理复杂现实世界金融任务的能力。…
Efficiently Democratizing Medical LLMs for 50 Languages via a Mixture of Language Family Experts 通过语言家族专家混合高效普及50种语言的医疗大语言模型 将医疗大语言模型适配到本地语言中可以降低获取医疗服务的障碍,但数据稀缺仍然是一个重大挑战,特别是对于…
Baichuan-Omni Technical Report Baichuan-Omni 技术报告 GPT-4o 在多模态能力和交互体验方面的显著表现,使其在实际应用中扮演了重要角色,但目前尚无高性能的开源替代方案。本文中,我们推出了 Baichuan-Omni,这是首个开源的 7B 多模态大语言模型 (MLLM),能够同时处理和分析图像、视频、音…
CMU10-414/714 Deep Learning Systems 第二次作业hw1解析
每周AI论文速递(241007-241011)
本周讲解dlsyscourse 的第二次作业,也就是hw1的部分。上周的内容主要是个warm up,熟悉一下环境以及一些简单的代码,本周要开始实现一个基础的自动微分框架needle。同样本周作业也放到了 https://github.com/careywyr/dlsyscourse ,colab的题目也翻译成了中文方便阅读,代码里面也移除了关于mu…
Addition is All You Need for Energy-efficient Language Models 加法即所需:高效能语言模型 大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中,我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法,该算法通过整数加法操作来近似浮点数…