PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning
PLLaVA:图像至视频无参数扩展的 LLaVA 模型,用于视频详细描述
视觉-语言预训练显著提升了各种图像-语言应用的性能。然而,视频相关任务的预训练过程需巨大的计算和数据资源,这限制了视频-语言模型的发展。本文探索了一种简单、高效、资源节约的方法,将现有图像-语言预训练模型适配至视频密集解析。我们的初步实验表明,直接在视频数据集上使用多帧输入对预训练的图像-语言模型进行微调,可能导致性能饱和甚至下降。进一步研究发现,这主要由于学习到的高范数视觉特征偏差所致。基于这一发现,我们提出了一种简单有效的池化策略,通过在时间维度上平滑特征分布,减少极端特征的主导影响。该新模型被称为池化 LLaVA,在现代基准数据集上,对于视频问题回答和生成描述任务刷新了最高性能纪录。特别是,在最新的视频 ChatGPT 基准上,PLLaVA 的五个维度平均得分为 3.48 / 5,超过之前由 GPT4V (IG-VLM) 设定的最高标准 9%。在最新的多选题基准 MVBench 上,PLLaVA 在 20 个子任务上平均准确率为 58.1%,比 GPT4V (IG-VLM) 高出 14.5%。相关代码可通过 https://github.com/magic-research/PLLaVA 访问。
AdvPrompter: Fast Adaptive Adversarial Prompting for LLMs
AdvPrompter:针对大语言模型的快速自适应对抗性提示技术
尽管大语言模型 (LLMs) 最近取得了显著进展,但它们在面对某些越狱式攻击时表现出脆弱性,这类攻击可能引发生成不当或有害内容。手动红队测试通过添加后缀到特定指令来识别这类对抗性提示,此过程不仅效率低下而且耗时。与此同时,自动化的对抗性提示生成常常只能产生语义上无意义的攻击,这类攻击可通过基于困惑度的过滤器轻易识别,有时还需依赖目标大语言模型 (TargetLLM) 的梯度信息,或者因涉及耗时的离散优化过程而难以扩展。本文介绍了一种新的方法,该方法借助另一个大语言模型——AdvPrompter,能在几秒钟内生成人类可读的对抗性提示,速度比传统基于优化的方法快约 800 倍。我们利用一种新算法训练 AdvPrompter,该算法无需获取目标大语言模型的梯度信息。该过程分为两步交替进行:一是通过优化 AdvPrompter 的预测来生成高质量的目标对抗性后缀;二是对 AdvPrompter 进行低秩微调,使用这些生成的对抗性后缀。训练后的 AdvPrompter 能生成的后缀虽遮掩了输入指令,但不改变其原始意图,使得目标大语言模型误产生有害反应。在流行的开源目标大语言模型上的实验表明,AdvPrompter 在 AdvBench 数据集上取得了业界领先结果,并可迁移到闭源黑盒大语言模型 API 上。此外,我们还证明了通过在 AdvPrompter 生成的合成数据集上进行微调,可以在不损害性能(即保持高 MMLU 分数)的前提下,增强大语言模型对越狱攻击的抵抗力。
Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
使用多样化评估小组代替单一大模型评判:评估大语言模型生成的新方法
随着大语言模型 (LLMs) 技术的进步,我们越来越难以准确评估它们的质量。寻找足够的数据以适当探索特定模型属性非常困难,单独评估模型的自由生成正确性同样充满挑战。为此,现有的许多评估方法采用 LLMs 自身作为评判,用以评定其他 LLMs 输出的质量。尽管常用像 GPT4 这样的单一大模型进行评估越来越流行,但这种方法成本高昂,已显示出模型内偏见,我们的研究发现,使用非常大的模型通常是不必要的。我们提出一种新的评估方法,使用由多个小模型组成的评估小组 (PoLL)。在三种不同的评判设置和六个不同数据集的测试中,我们发现使用 PoLL 的表现超过了单一大模型评判,由于由不同模型家族组成,展现出更少的模型内偏见,同时成本也减少了超过七倍。
Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting
推测解码技术已证明在加速大语言模型的推理过程中有效,同时保持了一致的样本分布。传统的训练独立的草稿模型以实现满意的 Token 接受率可能代价高昂。从提前退出技术获取灵感,我们提出了一种名为 Kangaroo 的新型自我推测解码框架,它利用一个固定的浅层子网络作为自我草稿模型,其余层则充当较大的目标模型。我们在子网络之上训练了一个轻量级高效的适配器模块,以弥合其与完整模型在表示能力上的差距。特别地,自我草稿模型的推理延时与大模型相比不容忽视,这要求我们采取策略来提高 Token 接受率,同时尽可能减少小模型的草拟步骤。为此,我们引入了一种额外的提前退出机制来生成草稿 Token。具体来说,一旦当前 Token 的置信度低于某一阈值,我们就停止小模型在草稿阶段的后续预测。在 Spec-Bench 上的广泛实验表明 Kangaroo 的高效性。在单序列验证中,Kangaroo 实现了高达 1.68 倍的加速,并且相较于 Medusa-1,参数减少了 88.7% (67M 对比 591M)。Kangaroo 的代码可通过以下链接访问:https://github.com/Equationliu/Kangaroo。
KAN: Kolmogorov-Arnold Networks
受到 Kolmogorov-Arnold 表示定理的启发,我们提出了 Kolmogorov-Arnold Networks(KANs)作为多层感知器(MLPs)的有前途的替代方案。不同于 MLPs 在节点(神经元)上具有固定的激活函数,KANs 在边(权重)上的激活函数是可学习的。KANs 完全没有线性权重——所有权重参数都被作为样条函数的单变量函数重新参数化。我们的研究表明,这一看似简单的变革使 KANs 在准确性和可解释性方面超越了 MLPs。在准确性方面,较小的 KANs 在数据拟合和偏微分方程求解上能够达到或超过较大 MLPs 的效果。无论是理论上还是实际应用中,KANs 都展现出比 MLPs 更快的神经缩放效应。在可解释性方面,KANs 可以直观地被可视化,并且能够便捷地与人类用户进行交互。通过数学和物理学的应用案例,KANs 已经证明了其作为科学家发现或重新发现数学和物理定律的强大助手的能力。总的来说,KANs 为改进当今依赖于 MLPs 的深度学习模型提供了新的可能性。
Octopus v4: Graph of language models
https://arxiv.org/abs/2404.19296
尽管语言模型在众多应用领域证明了其有效性,最复杂的模型往往是私有的。例如,由 OpenAI 开发的 GPT-4 和 Anthropic 的多种模型不仅价格昂贵,而且耗能巨大。与此相对,开源社区则成功开发了具有竞争力的模型,如 Llama3。此外,专为法律、医疗或金融任务定制的小型语言模型在性能上已超过它们的专有版本。本文提出了一种使用功能性 Token 来整合针对特定任务优化的多个开源模型的新方法。我们新开发的 Octopus v4 模型利用功能性 Token 灵活地将用户查询引导至最适合的垂直模型,并重新构建查询以获得最佳效果。Octopus v4 是前三代模型的进化版,特别擅长于选择、参数理解和查询重构。此外,我们还探讨了如何利用图这一多功能数据结构,通过 Octopus 模型和功能性 Token 的协同作用有效地协调多个开源模型。欢迎使用我们的开源 GitHub (https://www.nexa4ai.com/) 试用 Octopus v4 模型 (https://huggingface.co/NexaAIDev/Octopus-v4),并为构建更大的语言模型网络贡献力量。通过激活不超过 10B 参数的模型,我们在同级别模型中取得了 74.8 的最佳 MMLU 分数。
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation
InstantFamily: 零样本多 ID 图像生成的掩码注意力机制
在个性化图像生成领域,创造能够保持概念一致性的图像的能力得到了显著提升。制作一个在视觉上协调并吸引人的、能够自然整合多个概念的图像,无疑是一个挑战。本文提出了一种名为“InstantFamily”的方法,该方法采用创新的掩码交叉注意力机制和多模态嵌入技术,实现了零样本多 ID 图像生成。该方法通过利用结合了文本条件的预训练面部识别模型中的全局与局部特征,有效地保留了个体身份(ID)。此外,我们的掩码交叉注意力机制允许在生成图像中精确控制多 ID 组合。通过一系列实验,我们证明了 InstantFamily 在生成多 ID 图像方面的优越性,它不仅表现出色,还解决了多 ID 生成中的常见问题。此外,无论是单 ID 还是多 ID 保留,我们的模型均展现出最先进的性能,并且在保留 ID 数量方面显示出超出训练预期的可扩展性。
Better & Faster Large Language Models via Multi-token Prediction
如 GPT 和 Llama 这类大型语言模型通常采用下一 Token 预测损失进行训练。在本研究中,我们提出通过同时预测多个未来 Token 来训练语言模型,这种方法能显著提高样本效率。具体来说,我们要求模型在训练语料库中的每个位置预测接下来的 n 个 Token,这些 Token 通过位于共享模型主体之上的 n 个独立输出头进行预测。将多 Token 预测作为一种辅助训练任务,我们发现这种方法不仅增强了模型在代码和自然语言处理方面的下游能力,而且不增加训练时间。该方法在大型模型和多轮训练中尤其有效,并在生成性基准测试如编程方面表现突出,模型性能连续超过强基线数个百分点。我们的 13B 参数模型在 HumanEval 上比类似的下一 Token 模型多解决了 12% 的问题,在 MBPP 上多解决了 17%。在小规模算法任务上的实验显示,多 Token 预测有利于发展诱导技巧和算法推理能力。此外,采用 4 Token 预测的模型在推理时的速度可达原来的三倍,即使在使用大批量时也是如此。
Iterative Reasoning Preference Optimization
最近的研究表明,迭代偏好优化方法在一般指导调优任务上表现良好,但在推理任务上的改进却不显著(Yuan et al., 2024, Chen et al., 2024)。在本项工作中,我们开发了一种迭代方法,该方法通过优化导向正确答案的胜败推理步骤来调整生成的思维链(Chain-of-Thought, CoT)候选者之间的偏好。我们采用了经过修改的 DPO 损失(Rafailov et al., 2023),并新增了一个负对数似然项,这一点被证实是关键。我们证明了这种方案在重复迭代后,推理能力得到显著提升。仅依赖于训练集中的示例,我们的方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%(在32个样本中进行多数投票后达到 88.7%),在 MATH 上从 12.5% 提高到 20.8%,在 ARC-Challenge 上从 77.8% 提高到 86.7%,超过了其他未依赖额外数据集的基于 Llama-2 的模型。
Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models
Prometheus 2:专门评估其他语言模型的开源语言模型
像 GPT-4 这样的专有语言模型(LMs)常用于评估各种语言模型的响应质量。然而,透明性、可控性和可负担性的关切强烈促使人们开发专门用于评估的开源语言模型。现有的开源评估者 LMs 存在关键缺陷:1)它们给出的分数与人类评分明显不符;2)它们缺乏同时执行直接评估和成对排名的灵活性,这两种评估方式最为常见。此外,它们不能根据自定义评价标准进行评估,而是专注于一般属性,如有用性和无害性。为应对这些问题,我们提出了 Prometheus 2,这是一种比其前身更强大、更贴近人类和 GPT-4 判断的评估者语言模型。此外,它能够处理直接评估和成对排名两种格式,并与用户定义的评价标凈结合使用。在四个直接评估基准和四个成对排名基准上,Prometheus 2 在所有测试的开源评估者 LMs 中与人类和专有 LM 法官的相关性和一致性得分最高。我们的模型、代码和数据均在以下网址公开提供:https://github.com/prometheus-eval/prometheus-eval。