UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
本文介绍了 UCFE: 用户中心化金融专业知识基准,这是一个创新框架,旨在评估大语言模型 (LLMs) 处理复杂现实世界金融任务的能力。UCFE 基准采用了一种混合方法,结合了人类专家评估与动态、任务特定的交互,以模拟不断变化的金融场景的复杂性。首先,我们进行了一项涉及 804 名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了一个涵盖广泛用户意图和交互的数据集。该数据集作为基础,用于使用 LLM-as-Judge 方法对 12 个 LLM 服务进行基准测试。结果显示,基准分数与人类偏好之间存在显著的一致性,Pearson 相关系数为 0.78,证实了 UCFE 数据集和我们的评估方法的有效性。UCFE 基准不仅揭示了 LLMs 在金融领域的潜力,还提供了一个强大的框架,用于评估其性能和用户满意度。基准数据集和评估代码已公开。
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation
大语言模型 (LLMs) 最近在构建自主智能体方面受到了广泛关注。然而,当前基于 LLM 的网络智能体在长时间任务中的表现远未达到最佳,常常出现诸如反复购买不可退款的机票等错误。相比之下,人类能够预见行动的潜在结果(例如,损失金钱),从而避免这种不可逆的错误,这种能力也被称为“世界模型”。受此启发,我们的研究首先从初步分析开始,确认当前 LLM(例如 GPT-4o、Claude-3.5-Sonnet 等)中缺乏世界模型。然后,我们提出了一种世界模型增强的 (WMA) 网络智能体,该智能体模拟其行动的结果以进行更好的决策。为了克服将 LLM 训练为预测下一观测值的世界模型所面临的挑战,例如观测中的重复元素和长 HTML 输入,我们提出了一种专注于转换的观测抽象,其中预测目标是以自由形式的自然语言描述,仅突出时间步之间重要的状态差异。在 WebArena 和 Mind2Web 上的实验表明,我们的世界模型无需训练即可改进智能体的策略选择,并展示了我们的智能体与最近的基于树搜索的智能体相比的成本和时间效率。
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples
NaturalBench: 在自然对抗样本上评估视觉-语言模型
视觉-语言模型 (VLMs) 在最近评估复杂视觉-语言推理的视觉问答 (VQA) 基准测试中取得了显著进展。然而,这些模型的实际效果如何?在这项工作中,我们展示了 VLMs 仍然难以处理人类可以轻松回答的自然图像和问题,我们称之为自然对抗样本。我们还发现,使用 CLIP 和 ChatGPT 等现成模型从自然图像-文本语料库中生成这些 VQA 样本非常容易。我们提出了一种半自动化的方法来收集一个新的基准测试,NaturalBench,用于可靠地评估 VLMs,包含 10,000 个经过人工验证的 VQA 样本。关键的是,我们采用了一种以视觉为中心的设计,将每个问题与两张产生不同答案的图像配对,防止在没有使用图像的情况下回答问题。这使得 NaturalBench 比之前的基准测试更具挑战性,因为之前的基准测试可以通过常识先验轻松解决。我们在 NaturalBench 上评估了 53 个最先进的 VLMs,结果显示,LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL 甚至 GPT-4o 等模型的人类表现差距为 50%-70%(超过 90%)。我们从两个角度分析了为什么 NaturalBench 很难:(1) 组合性:解决 NaturalBench 需要多样化的视觉-语言技能,包括理解属性绑定、对象关系和高级推理,如逻辑和计数。为此,与之前每样本使用单一标签的工作不同,我们为每个 NaturalBench 样本标记了 1 到 8 个技能标签,以进行细粒度的评估。(2) 偏差:NaturalBench 暴露了 VLMs 中的严重偏差,因为模型通常会选择相同的答案,而不管图像如何。最后,我们将基准测试的制作方法应用于多种数据源,包括长描述(超过 100 字)和非英语语言,如中文和印地语,突显了其对 VLMs 动态评估的潜力。
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
MagicTailor: 文本到图像扩散模型中的组件可控个性化
近期文本到图像 (T2I) 扩散模型的进步使得从文本提示生成高质量图像成为可能,但这些模型在生成具有特定视觉概念精确控制的图像方面仍存在不足。现有方法虽能通过参考图像学习复制给定概念,但在对概念内各组件进行细粒度定制方面缺乏灵活性。本文提出组件可控个性化这一新任务,通过允许用户在个性化视觉概念时重新配置特定组件,推动了 T2I 模型的发展。该任务面临两大挑战:语义污染(不希望的视觉元素破坏个性化概念)和语义失衡(导致概念与组件学习比例失调)。为应对这些挑战,我们设计了 MagicTailor 框架,该框架利用动态掩码退化 (DM-Deg) 动态扰动不需要的视觉语义,并通过双流平衡 (DS-Bal) 建立所需视觉语义的平衡学习机制。广泛的对比、消融实验和分析表明,MagicTailor 不仅在这一挑战性任务中表现优异,还为实际应用中的更细致和创造性图像生成提供了广阔前景。
FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors
FrugalNeRF: Fast Convergence for Few-shot Novel View Synthesis without Learned Priors
神经辐射场 (NeRF) 在少样本场景中面临显著挑战,主要是因为过拟合和高保真渲染的长训练时间。现有方法,如 FreeNeRF 和 SparseNeRF,使用频率正则化或预训练先验,但在复杂调度和偏差处理上存在挑战。我们引入 FrugalNeRF,一种新颖的少样本 NeRF 框架,通过跨多尺度的权重共享体素来高效表示场景细节。我们的关键贡献是一种跨尺度的几何适应方案,该方案根据跨尺度的重投影误差选择伪地面真值深度。这指导训练而不依赖于外部学习的先验知识,从而充分利用训练数据。它还可以集成预训练先验,提升质量而不影响收敛速度。在 LLFF、DTU 和 RealEstate-10K 上的实验表明,FrugalNeRF 优于其他少样本 NeRF 方法,同时显著减少训练时间,成为高效且准确的 3D 场景重建的实用方案。
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree
SAM2Long: 通过无训练记忆树增强 SAM 2 以实现长视频分割
分割一切模型 2 (Segment Anything Model 2) 已成为图像和视频中对象分割的强大基础模型,为各种下游视频应用铺平了道路。SAM 2 用于视频分割的关键设计是其记忆模块,该模块从先前帧中提示对象感知的记忆以进行当前帧预测。然而,其贪婪选择的记忆设计存在“错误累积”问题,即错误或遗漏的掩码会级联传播并影响后续帧的分割,从而限制了 SAM 2 在复杂长期视频中的性能。为此,我们引入了 SAM2Long,这是一种改进的无训练视频对象分割策略,该策略考虑了每个帧内的分割不确定性,并以受限树搜索方式从多个分割路径中选择视频级的最优结果。在实践中,我们在整个视频中保持固定数量的分割路径。对于每一帧,基于现有路径生成多个掩码,创建各种候选分支。然后,我们选择具有较高累积分数的相同数量的分支作为下一帧的新路径。处理完最后一帧后,选择具有最高累积分数的路径作为最终分割结果。得益于其启发式搜索的设计,SAM2Long 对遮挡和对象重新出现具有鲁棒性,并且可以有效地分割和跟踪复杂长期视频中的对象。值得注意的是,SAM2Long 在所有 24 个一对一比较中平均提高了 3.0 分,在 SA-V 和 LVOS 等长期视频对象分割基准测试中,J&F 的提升高达 5.3 分。代码已在 https://github.com/Mark12Ding/SAM2Long 发布。
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
CompassJudger-1: 一体化评判模型助力模型评估与进化
高效准确的评估对于大语言模型 (LLM) 的持续改进至关重要。在多种评估方法中,主观评估因其与实际使用场景和人类偏好的高度匹配而备受关注。然而,人类评估成本高且缺乏可重复性,使得精确的自动化评判者 (judgers) 在这一过程中至关重要。在本报告中,我们介绍了 CompassJudger-1,这是首个开源的一体化评判 LLM。
CompassJudger-1 是一个通用 LLM,展现出卓越的多功能性。它能够:1. 作为奖励模型进行单一评分和双模型比较;2. 按照指定格式进行评估;3. 生成批评意见;4. 执行多样任务,如同通用 LLM。为了在统一设置下评估不同评判模型的能力,我们还建立了 JudgerBench,这是一个包含各种主观评估任务并涵盖广泛主题的新基准。
CompassJudger-1 为各种评估任务提供全面解决方案,同时保持适应多样化需求的灵活性。CompassJudger 和 JudgerBench 均已发布,并可在 https://github.com/open-compass/CompassJudger 供研究社区使用。我们相信,通过开源这些工具,可以促进合作并加速 LLM 评估方法的进步。
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
多模态基础模型的最新进展在视觉-语言理解方面取得了显著进步。早期研究也探索了多模态大语言模型 (MLLMs) 在视觉内容生成方面的潜力。然而,现有工作未能充分解决统一 MLLM 范式中不同图像生成任务对不同粒度需求的差异,从文本到图像生成所需的多样性,到图像操作所需的精确可控性。
在这项工作中,我们提出了 PUMA,旨在赋予 MLLMs 多粒度视觉生成能力。PUMA 将多粒度视觉特征统一为 MLLMs 的输入和输出,优雅地解决了统一 MLLM 框架中各种图像生成任务的不同粒度需求。经过多模态预训练和任务特定指令微调后,PUMA 展示了在广泛的多模态任务中的熟练度。
这项工作代表了向真正能够适应各种视觉任务粒度需求的统一 MLLM 迈出的重要一步。代码和模型将在 https://github.com/rongyaofang/PUMA 发布。
AutoTrain: No-code training for state-of-the-art models
随着开源模型的进步,在自定义数据集上训练(或微调)模型已成为开发针对特定工业或开源应用解决方案的关键部分。尽管如此,市场上尚无一款工具能够简化跨不同模态或任务的训练过程。为此,我们推出了 AutoTrain(又称 AutoTrain Advanced)——一个开源、无代码的工具/库,支持多种任务的模型训练(或微调),包括:大语言模型 (LLM) 微调、文本分类/回归、Token 分类、序列到序列任务、句子 Transformer 微调、视觉语言模型 (VLM) 微调、图像分类/回归,以及表格数据的分类和回归任务。AutoTrain Advanced 是一个开源库,提供在自定义数据集上训练模型的最佳实践。该库可通过 https://github.com/huggingface/autotrain-advanced 获取。AutoTrain 既可在本地完全运行,也支持云端部署,并与 Hugging Face Hub 上共享的数万个模型及其变体兼容。
Baichuan Alignment Technical Report
本文介绍了 Baichuan 对齐,这是对 Baichuan 系列模型中采用的对齐技术的详细分析。这是业内首次全面阐述对齐方法,为推进 AI 研究提供了宝贵见解。我们深入探讨了对齐过程中提升模型性能的关键要素,包括优化方法、数据策略、能力增强及评估流程。整个过程分为三个关键阶段:提示增强系统 (PAS)、监督微调 (SFT) 和偏好对齐。我们详细记录了过程中遇到的问题、解决方案及取得的改进。 通过与成熟基准的对比,我们展示了 Baichuan 对齐带来的技术进步。Baichuan-Instruct 是一个内部模型,而 Qwen2-Nova-72B 和 Llama3-PBM-Nova-70B 则是通过 Baichuan 对齐优化的 Qwen2-72B 和 Llama-3-70B 基础模型的指令版本。Baichuan-Instruct 在核心能力上取得了显著提升,用户体验提升幅度达 17% 至 28%,并在专业基准测试中表现优异。在开源基准评估中,Qwen2-Nova-72B 和 Llama3-PBM-Nova-70B 在几乎所有数据集上均超越了各自官方的指令版本。本报告旨在阐明对齐过程中的关键技术,以促进社区的深入理解。 Llama3-PBM-Nova-70B 模型可在 https://huggingface.co/PKU-Baichuan-MLSystemLab/Llama3-PBM-Nova-70B 获取。
SemiEvol: Semi-supervised Fine-tuning for LLM Adaptation
监督微调 (SFT) 在将大语言模型 (LLMs) 适应于特定领域或任务中至关重要。然而,在实际应用中,只有有限数量的标注数据可用,这对 SFT 产生令人满意的结果构成了严重挑战。因此,一个能够充分利用标注和未标注数据进行大语言模型微调的数据高效框架备受期待。为此,我们引入了一种名为 SemiEvol 的半监督微调框架,用于大语言模型的适应,采用传播与选择的方式。对于知识传播,SemiEvol 采用双层方法,通过权重内和上下文内的方法将知识从标注数据传播到未标注数据。对于知识选择,SemiEvol 结合了协同学习机制,选择高质量的伪响应样本。我们使用 GPT-4o-mini 和 Llama-3.1 在七个通用或领域特定数据集上进行了实验,展示了模型在目标数据上的性能显著提升。此外,我们将 SemiEvol 与 SFT 和自进化方法进行了比较,突显了其在混合数据场景中的实用性。
Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
Pangea: 一个完全开放的多语言多模态大语言模型,支持 39 种语言
尽管多模态大语言模型 (MLLM) 近期有所进展,但其发展主要集中在英语和以西方为中心的数据集和任务上,导致全球大多数语言和多样文化背景未得到充分体现。本文介绍的 Pangea 是一个多语言多模态大语言模型,其训练数据集 PangeaIns 涵盖了 39 种语言的 600 万条指令。PangeaIns 的特点包括:1) 高质量的英语指令,2) 精心机器翻译的指令,3) 与文化相关的多模态任务,以确保跨文化覆盖。为严格评估模型能力,我们推出了 PangeaBench,这是一个综合评估套件,涵盖 47 种语言的 14 个数据集。结果表明,Pangea 在多语言环境和多样文化背景下明显优于现有开源模型。消融研究显示,英语数据比例、语言流行度和多模态训练样本数量对整体性能有重要影响。我们完全开源了数据、代码和训练好的模型检查点,以促进包容性和稳健的多语言 MLLM 发展,推动更广泛语言和文化范围内的公平和可访问性。
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
PyramidDrop: 通过金字塔视觉冗余减少加速您的大型视觉-语言模型
在大规模视觉-语言模型 (LVLMs) 中,图像作为输入承载了丰富的信息。正如俗语“一图胜千言”所示,在当前的 LVLMs 中处理单张图像可能需要数百甚至数千个 Token。这导致了显著的计算成本,并且随着输入图像分辨率的增加,这些成本呈二次方增长,从而严重影响了训练和推理的效率。先前的研究尝试在 LVLMs 的早期层之前或内部减少图像 Token 的数量。然而,这些策略不可避免地导致了关键图像信息的丢失,最终降低了模型性能。为了应对这一挑战,我们进行了一项实证研究,结果揭示了在浅层中所有视觉 Token 对 LVLMs 都是必要的,而在模型的深层中 Token 冗余逐渐增加。为此,我们提出了 PyramidDrop,这是一种用于 LVLMs 的视觉冗余减少策略,以在忽略性能损失的情况下提高其训练和推理效率。具体来说,我们将 LVLM 划分为几个阶段,并在每个阶段的末尾以预定义的比例丢弃部分图像 Token,从而在模型层之间创建类似金字塔的视觉 Token。丢弃基于轻量级的相似度计算,并且具有可忽略的时间开销。大量实验表明,PyramidDrop 可以在保持相当性能的情况下,将 LLaVA-NeXT 的训练时间加速 40%,推理 FLOPs 加速 55%。此外,PyramidDrop 还可以作为一种即插即用的推理加速策略,无需训练,性能更好且推理成本更低。我们希望 PyramidDrop 引入的见解和方法能够启发未来的研究,进一步探讨图像 Token 在 LVLMs 中的作用。
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes
我们提出了 SpectroMotion,这是一种新颖的方法,结合了 3D 高斯分布 (3DGS) 与物理渲染 (PBR) 和变形场,以重建动态镜面场景。先前扩展 3DGS 以建模动态场景的方法在准确表示镜面表面方面遇到了困难。我们的方法通过引入一种残差校正技术来解决这一限制,该技术在变形过程中进行精确的表面法线计算,并辅以一个适应时变光照条件的可变形环境图。我们实施了一种由粗到细的训练策略,大幅改善了场景几何和镜面颜色预测。我们证明,我们的模型在包含动态镜面物体的场景的视图合成方面表现优于先前的方法,并且它是唯一能够合成逼真的现实世界动态镜面场景的现有 3DGS 方法,在渲染复杂、动态和镜面场景方面超越了最先进的方法。
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models
视觉偏好对齐旨在训练大视觉语言模型 (LVLMs) 以预测人类对视觉输入的偏好。通常,这一目标通过使用标记的选择/拒绝对数据集,并采用直接偏好优化 (DPO) 等优化算法来实现。现有的视觉对齐方法主要针对单图像场景设计,由于多样训练数据的稀缺性和标注选择/拒绝对的高成本,难以有效应对多图像任务的复杂性。我们提出多图像增强直接偏好优化 (MIA-DPO),这是一种有效处理多图像输入的视觉偏好对齐方法。MIA-DPO 通过将单图像数据扩展为网格拼贴或画中画格式的无关图像,缓解了多样多图像训练数据的稀缺性,显著降低了多图像数据标注的成本。我们的研究发现,LVLMs 的注意力值在不同图像间存在显著差异。我们利用这些注意力值来识别并过滤模型可能错误关注的拒绝响应。我们的注意力感知选择用于构建选择/拒绝对,无需依赖 (i) 人工标注,(ii) 额外数据,和 (iii) 外部模型或 API。MIA-DPO 兼容多种架构,并在五个多图像基准测试中表现优于现有方法,在 LLaVA-v1.5 上平均性能提升 3.0%,在最新的 InternLM-XC2.5 上提升 4.3%。此外,MIA-DPO 对模型理解单图像的能力影响甚微。
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss
对比损失在表示学习中表现出色,通过增大批量规模提供更多负样本,从而更好地区分相似与不相似数据,提升性能。然而,批量规模的扩展受限于GPU内存消耗的二次增长,主要源于相似矩阵的完全实例化。为此,我们提出了一种基于分块的计算策略,将对比损失计算划分为任意小的块,避免完全实例化相似矩阵。此外,我们引入多层次分块策略,利用分布式系统的层次结构,在GPU级别采用环形通信优化同步,在CUDA核心级别使用融合内核减少I/O开销。实验结果显示,该方法将批量规模扩展至前所未有的水平。例如,使用8或32个A800 80GB,可在不损失精度的情况下,分别以4M或12M的批量规模训练CLIP-ViT-L/14模型。与最先进的内存高效方案相比,该方法在保持相当速度的同时,实现了两个数量级的内存减少。代码将公开发布。
Can Knowledge Editing Really Correct Hallucinations?
尽管大语言模型 (LLMs) 在各项任务中表现优异,但仍存在幻觉问题,即生成内容中的非事实信息。与此同时,知识编辑作为一种新兴范式,旨在纠正 LLMs 中编码的错误事实知识,其优势在于无需从头开始重新训练。然而,现有知识编辑评估数据集的一个常见问题是,它们无法确保 LLMs 在编辑前对评估问题生成幻觉答案。因此,当 LLMs 经过不同技术的编辑后在这些数据集上进行评估时,很难直接将性能用于评估不同知识编辑方法在纠正幻觉方面的有效性。这使得一个根本问题仍未得到充分验证:知识编辑能否真正纠正 LLMs 中的幻觉?为此,我们提出了 HalluEditBench,以全面评估知识编辑方法在纠正现实世界幻觉方面的效果。首先,我们严格构建了一个包含 9 个领域、26 个主题和超过 6,000 个幻觉的大规模数据集。然后,我们在五个维度(包括有效性、泛化性、可移植性、局部性和鲁棒性)上全面评估了知识编辑方法的性能。通过 HalluEditBench,我们为不同知识编辑方法在纠正幻觉方面的潜力和局限性提供了新的见解,这可能激发未来的改进并促进知识编辑领域的发展。
LOGO — Long cOntext aliGnment via efficient preference Optimization
长上下文模型 (LCMs) 在处理长输入序列 (甚至超过 100M Token) 方面展现了巨大的潜力,既便捷又高效。随着显著进展,近期研究指出,LCMs 能够准确地在上下文中定位 Token 级别的显著信息。然而,这些 LCMs 的生成性能尚不理想,可能会产生对齐错误的响应,如幻觉。为提升 LCMs 的生成能力,现有研究探讨了数据规模和质量对预训练及指令微调的影响。尽管取得了一定进展,但以往方法在有效性或效率上仍显不足。本文提出 LOGO (通过高效偏好优化的长上下文对齐),这是一种引入偏好优化以实现长上下文对齐的训练策略。为解决长序列带来的 GPU 内存瓶颈问题,LOGO 采用无参考的偏好优化策略,并结合位置合成方法构建训练数据。在单台 8 倍 A800 GPU 设备上,仅用 0.3B 数据训练 16 小时,LOGO 使 Llama-3-8B-Instruct-80K 模型在实际长上下文任务中达到与 GPT-4 相当的性能,同时保持了其在其他任务上的原始能力,如语言建模和 MMLU。此外,LOGO 还能在提升生成性能的同时扩展模型的上下文窗口大小。
Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
高质量数据的存在是提高大语言模型推理能力的最重要因素之一。现有工作已经证明了从种子问题或知识库中创建更多指令数据的有效性得到了证明。最近的研究表明,从强模型(例如,GPT-4)中不断扩展数据合成可以进一步提升推理性能。尽管前景看好,但开源社区仍然缺乏大规模的高质量数据和具有成本效益的可扩展数据合成方法。为了解决这个问题,我们引入了ScaleQuest,这是一种可扩展且新颖的数据合成方法,利用“小型”(例如,7B)开源模型从头开始生成问题,无需种子数据和复杂的增强约束。通过高效的ScaleQuest,我们自动构建了一个包含100万个问题-解决方案对的数学推理数据集,其效果优于现有开源数据集。它可以普遍提升主流开源模型(即Mistral、Llama3、DeepSeekMath和Qwen2-Math)的性能,在MATH上实现29.2%到46.4%的提升。值得注意的是,仅通过我们的数据集微调Qwen2-Math-7B-Base模型,甚至可以超越Qwen2-Math-7B-Instruct,这是一个在闭源数据上表现强劲且对齐良好的模型,以及诸如GPT-4-Turbo和Claude-3.5 Sonnet等专有模型。
OmniParser for Pure Vision Based GUI Agent
大规模视觉语言模型的最新突破显示了其在用户界面上驱动智能体系统的巨大潜力。然而,我们认为多模态模型(如 GPT-4V)在跨多操作系统和不同应用中的通用智能体潜力仍未得到充分发挥,原因在于缺乏一种稳健的屏幕解析技术。该技术需要能够:1)可靠识别用户界面中的可交互图标;2)理解截图中各元素的语义,并将预期操作精准关联到屏幕上对应的区域。为填补这一空白,我们推出了 \textsc{OmniParser},一种将用户界面截图解析为结构化元素的全面方法。这显著增强了 GPT-4V 生成与界面区域准确关联的动作的能力。我们首先基于热门网页和图标描述数据集,精心构建了一个可交互图标检测数据集,并利用这些数据集对专用模型进行了微调:一个用于解析屏幕可交互区域的检测模型,另一个用于提取已检测元素功能语义的生成模型。在 ScreenSpot 基准测试中,\textsc{OmniParser} 显著提升了 GPT-4V 的性能。而在 Mind2Web 和 AITW 基准测试中,仅依靠截图输入的 \textsc{OmniParser} 在性能上超越了需要截图外额外信息的 GPT-4V 基线。