Can large language models explore in-context?

大语言模型能进行上下文探索吗？

我们研究了当代大语言模型（LLMs）在多大程度上能够进行探索，这在强化学习和决策制定中是一个核心能力。我们专注于现有LLMs的本质性能，不借助训练干预。我们在简单的多臂赌博机（multi-armed bandit）环境中部署LLMs作为智能体，并完全在上下文内，即LLM的提示中，定义环境描述和交互历史。通过采用多样的提示设计，我们对GPT-3.5、GPT-4和Llama2进行了实验，发现这些模型在没有大量干预的情况下，不能稳定地进行探索：i) 在我们所有的实验中，只有一种设置表现出了满意的探索行为，即GPT-4配合思维链条推理和外部总结的交互历史，以充足的统计数据呈现；ii) 其他所有设置都未能稳定地展现探索行为，包括那些采用思维链条推理但未进行历史总结的设置。虽然这些发现具有积极的一面，但它们表明，外部总结——在更复杂的环境中可能难以实现——对于激发LLM智能体的理想行为至关重要。我们认为，在复杂环境中赋能基于LLM的决策制定智能体，可能需要进行重要的算法干预，如微调或数据集策划。

AIOS: LLM Agent Operating System

AIOS: LLM智能体操作系统

大语言模型（LLM）基智能代理的集成和部署面临诸多挑战，这些挑战影响了它们的效率和效能。其中的问题包括对LLM上的代理请求进行次优的调度和资源分配、在代理与LLM之间的交互中保持上下文的困难，以及集成具有不同能力和特长的异构代理的复杂性。代理的数量和复杂性的迅速增长进一步加剧了这些问题，常导致瓶颈和资源的次优利用。鉴于这些挑战，本文提出了一个LLM智能体操作系统（AIOS），将大语言模型整合到操作系统（OS）中。具体而言，AIOS设计用于优化资源分配，实现代理间的上下文切换，支持代理的并发执行，提供代理工具服务，并管理代理访问控制。我们介绍了这种操作系统的架构，概述了它旨在解决的核心挑战，并提供了AIOS的基本设计和实施。我们在多代理并发执行方面的实验证明了AIOS模块的可靠性和效率。通过这一系统，我们旨在不仅提高LLM智能体的性能和效率，还为未来AIOS生态系统的发展和部署奠定基础。该项目是开源的，可在 https://github.com/agiresearch/AIOS 查看。

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

做你自己：多主题文本到图像生成的有界注意力

文本到图像扩散模型因其生成多样化和高质量图像的能力而前所未有。但在处理包含多个主题的复杂输入提示时，它们经常难以准确捕捉预期的语义。近期，为增强用户控制，引入了多种布局到图像的扩展，目的是定位由特定token代表的主题。然而，这些方法在处理多个语义上或视觉上相似的主题时，往往生成语义不准确的图像。在本工作中，我们研究并分析了这些限制的原因。我们发现，主要问题源自去噪过程中主题间意外的语义泄露，这归因于扩散模型的注意力层，这些层倾向于混合不同主题的视觉特征。为解决这些问题，我们引入了有界注意力，一种在采样过程中限制信息流动的无需训练的方法。有界注意力阻止了主题间的不利泄露，并使得在复杂的多主题条件下，引导生成过程以强化每个主题的个性成为可能。通过广泛的实验，我们证明了我们的方法能更好地使生成的多主题与给定的提示和布局对齐。

The Unreasonable Ineffectiveness of the Deeper Layers

深层次的不合理无效性

我们对流行的开放权重预训练大语言模型（LLMs）实证研究了一种简单的层剪枝策略，发现直到删减了大量（最多一半）的层，不同的问答基准上的性能几乎未受影响。为了剪枝这些模型，我们通过考虑层间相似性来确定最优的剪枝层块；然后，通过少量的微调来“修复”损害。特别是，我们采用了参数高效的微调方法（PEFT），具体是量化和低秩适配器（QLoRA），使得我们的每个实验都可以在单个A100 GPU上完成。从实践角度看，这些结果表明层剪枝方法可以补充其他PEFT策略，一方面进一步减少微调的计算资源，另一方面可以改善内存和推理延迟。从科学角度看，这些LLMs对于层删除的鲁棒性暗示当前的预训练方法可能未能充分利用网络深层的参数，或者浅层在存储知识中起着关键作用。

2D Gaussian Splatting for Geometrically Accurate Radiance Fields

二维高斯扩散用于几何精确的辐射场

3D高斯扩散（3DGS）最近在辐射场重建中带来了革命性的进展，实现了高质量的新视角合成和快速渲染速度，无需预处理。但3DGS无法准确表现表面，因为3D高斯具有多视角不一致性。我们提出了二维高斯扩散（2DGS），这是一种从多视角图像建模和重建几何精确辐射场的新方法。我们的关键思想是将3D体积压缩到一组二维定向的平面高斯盘。不同于3D高斯，2D高斯在建模表面时提供了视角一致的几何性。为了准确地恢复薄表面并实现稳定的优化，我们引入了一种透视精确的2D扩散过程，采用射线与扩散面的交点和光栅化技术。此外，我们还引入了深度失真和法线一致性条件，以进一步提高重建质量。我们的可微分渲染器能够在保持竞争性外观质量、快速训练速度和实时渲染的同时，实现无噪声和详细的几何重建。我们的代码将公开提供。

ViTAR: Vision Transformer with Any Resolution

ViTAR：任意分辨率的视觉Transformer

本文针对视觉Transformer（ViTs）面临的一个重要挑战：其在不同图像分辨率间的可扩展性受限。通常，ViTs在处理与训练时分辨率不同的图像时，性能会有所下降。我们的工作提出两大创新来解决这个问题。首先，我们设计了一个动态分辨率调整模块，该模块采用单个Transformer块，特别为高效的增量token融合而设计。其次，我们在视觉Transformer中引入了模糊位置编码，以保持多分辨率下的一致位置感知，避免对任一特定训练分辨率的过拟合。我们的成果，ViTAR（任意分辨率的视觉Transformer），展现了卓越的适应能力，在1120×1120分辨率下达到83.3%的顶级准确率，在4032×4032分辨率下达到80.4%的准确率，同时降低了计算成本。ViTAR还在诸如实例分割和语义分割的下游任务中展现出强劲性能，并能轻松与自监督学习技术，如Masked AutoEncoder, 结合。我们的工作为提升ViTs的分辨率可扩展性提供了一种经济高效的方案，为更高效和多样化的高分辨率图像处理铺平了道路。

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini：挖掘多模态视觉语言模型的潜力

在本研究中，我们推出Mini-Gemini，一个简洁高效的框架，旨在增强多模态视觉语言模型（VLMs）。尽管VLMs在基础视觉对话和推理方面取得了进步，但与如GPT-4和Gemini等高级模型相比，性能仍有差距。我们从三个方面努力缩小这一差距：高分辨率的视觉token、高质量数据和VLM引导的生成。为增强视觉token，我们提议使用额外的视觉编码器进行高分辨率精细化，而不增加视觉token数量。我们还构建了一个高质量数据集，以促进精确的图像理解和基于推理的生成，扩大当前VLMs的应用范围。总体而言，Mini-Gemini进一步挖掘了VLMs的潜力，并赋予了当前框架同时进行图像理解、推理和生成的能力。Mini-Gemini支持从2B到34B范围的密集型和MoE大语言模型（LLMs），在多个零样本基准测试中取得领先性能，甚至超越一些已开发的私有模型。代码和模型可在 https://github.com/dvlab-research/MiniGemini 获得。

Long-form factuality in large language models

大语言模型的长篇事实性

大语言模型（LLMs）在回应开放主题的寻求事实的提示时，经常生成含有事实错误的内容。为了评估模型在开放领域的长篇事实性，我们首先使用GPT-4生成了一个覆盖38个主题的包含数千个问题的提示集，名为LongFact。随后，我们提出利用LLM智能体作为长篇事实性的自动评估器，通过一种称为Search-Augmented Factuality Evaluator（SAFE）的方法。SAFE使用LLM将长篇回应分解为一系列独立事实，并利用多步推理过程（包括向Google搜索发送查询并判断事实是否得到搜索结果的支持）来评估每个事实的准确性。此外，我们提议将F1分数扩展为长篇事实性的综合度量标准，通过平衡回应中受支持事实的比例（精确度）和相对于代表用户偏好回应长度的超参数的提供事实的比例（召回率）。实证结果显示，LLM智能体可以实现超越人类评审的性能——在大约16k个独立事实的集合中，SAFE与人工众包注释者的一致性为72%，在100个随机抽样的分歧案例中，SAFE的胜率为76%。同时，SAFE的成本是人类注释者的20倍还低。我们还在LongFact上对13种语言模型进行了基准测试，涵盖Gemini、GPT、Claude和PaLM-2四个模型家族，发现较大的语言模型通常能够实现更好的长篇事实性。LongFact、SAFE及所有实验代码都可在 https://github.com/google-deepmind/long-form-factuality 获得。

sDPO: Don’t Use Your Data All at Once

sDPO：分步使用你的数据

随着大语言模型（LLM）的发展，使其与人类偏好对齐变得越来越重要。我们提出了分步DPO（sDPO），这是直接偏好优化（DPO）的一个扩展，用于调整对齐。该方法涉及分步骤地使用可用的偏好数据集，而不是一次性全部使用。我们证明了这种方法有助于在DPO训练框架中使用更精确对齐的参考模型。此外，sDPO训练出的最终模型表现更加优异，甚至超过了其他参数更多的流行LLMs。