摘要
AutoGen 是一个开源框架,允许开发人员通过多个代理构建 LLM 应用程序,这些代理可以相互对话以完成任务。AutoGen 代理是可定制的、可对话的,并能以各种模式运行,这些模式采用 LLM、人类输入和工具的组合。使用 AutoGen,开发人员还可以灵活定义代理交互行为。自然语言和计算机代码都可用于为不同应用编程灵活的对话模式。AutoGen 可作为一个通用框架,用于构建具有不同复杂性和 LLM 能力的各种应用。实证研究证明了该框架在许多示例应用中的有效性,应用领域包括数学、编码、问题解答、运筹学、在线决策、娱乐等。
1. Introduction
大型语言模型(LLMs)正在成为开发强大代理的关键构件,在许多现实世界的任务中,这些代理利用LLMs进行推理、使用工具和适应新的观察结果(Yao等人,2022年;Xi等人,2023年;Wang等人,2023年b)。鉴于可从 LLMs 中获益的任务在不断扩大,而任务的复杂性也在不断增加,因此扩大代理能力的一个直观方法就是使用多个合作代理。先前的研究表明,多个代理有助于鼓励发散思维(Liang 等人,2023 年),提高事实性和推理能力(Du 等人,2023 年),并提供验证(Wu 等人,2023 年)。鉴于上述直觉和早期证据表明的前景,我们不禁要提出以下问题:如何才能在多代理方法的基础上,促进跨越广泛领域和复杂性的 LLM 应用程序的开发?
我们的见解是利用多代理对话来实现这一目标。得益于 LLM 的最新进展,至少有三个原因可以证实它的普遍可行性和实用性: 首先,由于经过聊天优化的 LLM(如 GPT-4)显示出了纳入反馈的能力,LLM 代理可以通过与彼此或人类的对话进行合作,例如,代理提供并寻求推理、观察、批评和验证的对话。其次,由于单个 LLM 可以表现出广泛的能力(特别是在配置了正确的提示和推理设置的情况下),不同配置的代理之间的对话有助于以模块化和互补的方式将这些广泛的 LLM 能力结合起来。第三,当任务被分解成更简单的子任务时,LLM 已证明有能力解决复杂的任务。多代理对话能以直观的方式实现这种分割和整合。我们如何才能利用上述见解,支持不同的应用,满足协调多个代理(可能由 LLM、人类或表现出不同能力的工具支持)的共同需求?我们希望有一个具有通用抽象性和有效实施的多代理对话框架,它能灵活地满足不同的应用需求。要做到这一点,需要解决两个关键问题:(1) 我们如何才能设计出在多代理协作中能够胜任、可重复使用、可定制和有效的单个代理?(2) 我们怎样才能开发出一个简单、统一的界面,以适应各种代理对话模式?在实践中,不同复杂程度的应用可能需要不同的具有特定能力的代理集,也可能需要不同的对话模式,例如单轮或多轮对话、不同的人工参与模式以及静态与动态对话。此外,开发人员可能更喜欢用自然语言或代码对代理互动进行灵活编程。如果不能充分解决这两个问题,就会限制框架的适用范围和通用性。
虽然同时存在对多代理方法的探索3 ,但我们提出了基于以下新概念的通用多代理对话框架 AutoGen(图 1)。
- 可定制和可对话的代理。AutoGen 采用通用的代理设计,可以利用 LLM、人类输入、工具或它们的组合。因此,开发人员可以通过选择和配置内置功能子集,轻松快速地创建具有不同角色的代理(例如,编写代码、执行代码、输入人工反馈、验证输出等)。代理的后台也可以随时扩展,以允许更多的自定义行为。为了让这些代理适用于多代理对话,每个代理都是可对话的,它们可以接收信息、对信息做出反应并作出回应。如果配置得当,一个代理可以自主地与其他代理进行多轮对话,或在某些回合征求人类的意见,从而实现人类代理和自动化。可对话代理设计利用了最先进的 LLM 在通过聊天获取反馈和取得进展方面的强大能力,同时还允许以模块化方式组合 LLM 的能力。(第 2.1 节)
- 会话编程。AutoGen 的一个基本理念是将复杂的 LLM 应用程序工作流简化和统一为多代理对话。因此,AutoGen 采用了一种以这些代理间对话为中心的编程范式。我们将这种范式称为对话编程,它通过两个主要步骤简化了复杂应用的开发: (1) 定义一组具有特定能力和角色的可对话代理(如上所述);(2) 通过以对话为中心的计算和控制,对代理之间的交互行为进行编程。这两个步骤都可以通过融合自然语言和编程语言来实现,以构建具有各种对话模式和代理行为的应用程序。AutoGen 提供了现成可用的实现方法,并允许对这两个步骤进行轻松扩展和实验。(第 2.2 节)
AutoGen 还提供了使用可对话代理和对话编程创建的多代理应用程序集。这些应用展示了 AutoGen 如何轻松支持各种复杂程度的应用和各种能力的 LLM。此外,我们还进行了基准评估和新应用试点研究。结果表明,AutoGen 可以帮助在许多任务中实现出色的性能,并实现使用 LLM 的创新方法,同时减少开发工作量。(第 3 节和附录 D)
2. The AutoGen Framework
为了减少开发人员创建跨不同领域的复杂 LLM 应用程序所需的工作量,AutoGen 的核心设计原则是使用多代理对话来简化和整合多代理工作流程。这种方法还旨在最大限度地提高已实施代理的可重用性。本节将介绍 AutoGen 的两个关键概念:可会话代理和对话编程。
2.1 Conversable Agents
在 AutoGen 中,可会话式代理是一种具有特定角色的实体,它可以传递信息,与其他可会话式代理之间收发信息,例如开始或继续对话。它根据发送和接收的信息来维护其内部上下文,并可配置为拥有一系列能力,如通过 LLM、工具或人工输入等实现的能力。代理可以按照接下来描述的编程行为模式行事。
由 LLM、人类和工具驱动的代理能力。由于代理的能力直接影响其处理和响应消息的方式,AutoGen 允许灵活地赋予代理各种能力。AutoGen 支持许多常见的可组合代理能力,包括 1) LLM。由 LLM 支持的代理可以利用高级 LLM 的许多功能,如角色扮演、隐式状态推理和以对话历史为条件的进展、提供反馈、根据反馈进行调整和编码。这些功能可以通过新颖的提示技术4 以不同方式结合起来,以提高代理的技能和自主性。AutoGen 还通过增强型 LLM 推断层提供增强型 LLM 推断功能,如结果缓存、错误处理、消息模板等。2) 人类。在许多 LLM 应用程序中,人的参与是必要的,甚至是必需的。AutoGen 可让人通过人支持代理参与代理对话,根据代理配置,人支持代理可在对话的某些回合征求人的输入。默认的用户代理服务器允许配置人类参与的级别和模式,例如请求人类输入的频率和条件,包括人类跳过输入的选项。3) 工具。工具支持代理可通过代码执行或函数执行来执行工具。例如,AutoGen 中的默认用户代理服务器能够执行 LLM 建议的代码,或进行 LLM 建议的函数调用。
代理定制与合作。根据应用程序的特定需求,每个代理都可以配置为混合基本后端类型,以便在多代理对话中显示复杂的行为。通过重用或扩展内置代理,AutoGen 可以轻松创建具有专门功能和角色的代理。图 2 中黄色阴影部分是 AutoGen 内置代理的简图。Conversable Agent 类是最高级别的代理抽象,默认情况下可以使用 LLM、人类和工具。助理代理(AssistantAgent)和用户代理(UserProxyAgent)是两个预先配置好的 ConversableAgent 子类,分别代表一种常见的使用模式,即充当人工智能助理(由 LLM 支持)和充当人类代理以征求人类输入或执行代码/函数调用(由人类和/或工具支持)。
在图 1 右侧的示例中,一个由 LLM 支持的助理代理和一个由工具和人类支持的用户代理代理共同完成一项任务。在这里,助理代理借助 LLM 生成解决方案,并将解决方案传递给用户代理代理。然后,用户代理代理征求人类的意见或执行助手的代码,并将结果反馈给助手。
2.2 Conversation Programming
作为上述问题的解决方案,AutoGen 采用了对话编程模式,该模式考虑了两个概念:第一个概念是计算,即在多代理对话中,代理为计算其响应而采取的行动;第二个概念是控制流,即这些计算发生的顺序(或条件)。第二个概念是控制流,即进行这些计算的顺序(或条件)。正如我们将在应用部分所展示的,对这些进行编程的能力有助于实现许多灵活的多代理对话模式。在 AutoGen 中,这些计算是以对话为中心的。代理会采取与其参与的会话相关的行动,其行动会导致后续会话的消息传递(除非满足终止条件)。同样,控制流也是会话驱动的–参与会话的代理决定向哪个代理发送消息,以及计算过程都是代理间会话的函数。这种范式有助于人们直观地将复杂的工作流推理为代理的行动和代理间的对话信息传递。
图 2 提供了一个简单的说明。底部的子图显示了单个代理如何执行其特定角色、以对话为中心的计算以生成响应(例如,通过 LLM 推理调用和代码执行)。任务通过对话框中显示的对话进行。中间的子图展示了基于对话的控制流。当助手收到信息时,用户代理服务器通常会发送人类输入作为回复。如果没有输入,则执行助手信息中的任何代码。
AutoGen 采用以下设计模式,以方便对话编程:
- 自动代理聊天的统一界面和自动回复机制。AutoGen 中的代理拥有统一的对话界面,用于执行相应的以对话为中心的计算,包括用于发送/接收消息的发送/接收功能和用于根据接收到的消息采取行动并生成回复的生成回复功能。AutoGen 还引入并默认采用代理自动回复机制来实现对话驱动控制: 一旦一个代理收到另一个代理的消息,除非满足终止条件,否则它会自动调用生成回复并将回复发送回发送方。AutoGen 提供基于 LLM 推断、代码或函数执行或人工输入的内置回复函数。用户还可以注册自定义回复函数,以定制代理的行为模式,例如,在回复发件人代理之前先与其他代理聊天。在这种机制下,一旦注册了回复函数,并初始化了会话,会话流程就会自然而然地产生,因此,无需任何额外的控制平面(即控制会话流程的特殊模块),代理会话就会自然而然地进行。例如,利用图 2 中蓝色阴影区域(标有 “开发人员代码”)的开发人员代码,就可以轻松触发代理之间的对话,对话将自动进行,如图 2 中灰色阴影区域(标有 “程序执行”)的对话框所示。自动回复机制提供了一种分散、模块化和统一的方式来定义工作流程。
- 融合编程和自然语言的控制。AutoGen 允许在各种控制流管理模式中使用编程和自然语言: 1) 通过 LLM 实现自然语言控制。在 AutoGen 中,人们可以通过用自然语言提示 LLM 支持的代理来控制对话流。例如,AutoGen 内置的助理代理(AssistantAgent)的默认系统消息使用自然语言指示代理修复错误,并在上一次结果显示有错误时重新生成代码。它还引导代理将 LLM 输出限制在特定结构中,使其他工具支持的代理更容易使用。例如,当所有任务完成时,指示代理回复 “TERMINATE”,以终止程序。有关自然语言控制的更多具体示例,请参阅附录 C。2)编程语言控制。在 AutoGen 中,Python 代码可用于指定终止条件、人工输入模式和工具执行逻辑,例如自动回复的最大次数。还可以注册编程自动回复函数,用 Python 代码控制对话流,如图 2 中 "对话驱动控制流 "代码块所示。3)自然语言和编程语言之间的控制转换。AutoGen 还支持自然语言和编程语言之间灵活的控制转换。人们可以通过在自定义回复函数中调用包含特定控制逻辑的 LLM 推理,实现从代码控制到自然语言控制的过渡;也可以通过 LLM 提议的函数调用,实现从自然语言到代码控制的过渡(Eleti 等人,2023 年)。
在对话编程范例中,我们可以实现多种模式的多代理对话。除了预定义流程的静态对话外,AutoGen 还支持多个代理的动态对话流程。为此,AutoGen 提供了两种通用方法: 1) 定制生成回复函数:在定制生成回复函数中,一个代理可以保持当前会话,同时根据当前消息的内容和上下文调用与其他代理的会话。2) 功能调用: 在这种方法中,LLM 会根据对话状态决定是否调用特定函数。通过向被调用函数中的其他代理发送消息,LLM 可以驱动动态的多代理对话。此外,AutoGen 还通过内置的 GroupChatManager(群组聊天管理器)支持更复杂的动态群组聊天。我们将在第 3 节详细介绍这一功能及其应用。我们将提供已实现的工作系统来展示所有这些不同的模式,其中一些模式的可视化效果如图 3 所示。
3 Applications of AutoGen
我们使用 AutoGen 展示了六个应用(见图 3),以说明其在简化高性能多代理应用开发方面的潜力。选择这些应用的依据是它们与现实世界的相关性(A1、A2、A4、A5、A6)、问题难度和 AutoGen 的解决能力(A1、A2、A3、A4)以及创新潜力(A5、A6)。这些标准共同展示了 AutoGen 在推进法律硕士应用领域中的作用。
A1: Math Problem Solving
数学是一门基础学科,利用 LLM 辅助数学解题的前景开辟了大量新的应用和探索途径,包括个性化人工智能辅导、人工智能研究辅助等。本节将演示 AutoGen 如何帮助开发用于数学问题求解的 LLM 应用程序,展示其在支持各种问题求解范式方面的强大性能和灵活性。
(场景 1)我们能够通过直接重用 AutoGen 的两个内置代理,构建一个自主数学问题求解系统。我们在 MATH(Hendrycks 等人,2021 年)数据集上评估了我们的系统和几种替代方法,包括开源方法,如多代理辩论(Liang 等人,2023 年)、LangChain ReAct(LangChain,2023 年)、vanilla GPT-4,以及商业产品 ChatGPT + 代码解释器和 ChatGPT + 插件(Wolfram Alpha),并在图 4a 中总结了评估结果。我们对随机选取的 120 个 5 级问题和 MATH 的整个 5 级测试数据集进行了评估。结果表明,与其他方法(甚至包括商业方法)相比,AutoGen 的内置代理已经产生了更好的性能。(场景 2)我们还展示了在 AutoGen 的帮助下人在环中解决问题的过程。要将人的反馈纳入 AutoGen,只需在情景 1 中系统的用户代理服务器(UserProxyAgent)中设置人的输入模式="ALWAYS "即可。我们证明,该系统可以有效地结合人类输入,解决没有人类无法解决的挑战性问题。(场景 3)我们进一步展示了一个新颖的场景,即在解决问题的过程中,多个人类用户可以参与对话。我们在这些场景中进行的实验和案例研究表明,与我们实验过的其他解决方案相比,AutoGen 能带来更好的性能或新体验。由于篇幅限制,评估详情(包括三个场景的案例研究)见附录 D。
A2: Retrieval-Augmented Code Generation and Question Answering
检索增强已经成为一种实用而有效的方法,可以通过整合外部文档来缓解 LLM 的内在局限性。在本节中,我们利用 AutoGen 建立了一个名为 "检索增强聊天 "的检索增强生成(RAG)系统(Lewis 等人,2020;Parvez 等人,2021)。该系统由两个代理组成:一个检索增强用户代理代理和一个检索增强助理代理,这两个代理都是从 AutoGen 的内置代理扩展而来。检索增强用户代理包括一个向量数据库(Chroma,2023),并使用句子转换器(Reimers & Gurevych, 2019)作为上下文检索器。附录 D 提供了检索增强聊天的详细工作流程说明。 我们在问题解答和代码生成两个场景中对检索增强聊天功能进行了评估。(场景 1)我们首先在自然问题数据集(Kwiatkowski et al. 在这项评估中,我们按照现有的评估6做法(Adlakha et al. 利用会话设计和自然语言控制,AutoGen 在此应用中引入了一种新颖的交互式检索功能:每当检索到的上下文不包含信息时,基于 LLM 的助手不会终止检索,而是会回复 “对不起,我找不到关于…的任何信息…”。更新上下文。"这将引发更多的检索尝试。我们进行了一项消融研究,在找不到相关信息的情况下,我们会提示助理代理说 “我不知道”,而不是 “更新 CONTEXT.”,结果见图 4b。结果表明,交互式检索机制在这一过程中确实发挥了非同小可的作用。我们在附录 D 中给出了使用这一吸引人的功能的具体示例和结果。(情景 2)我们进一步演示了检索增强聊天如何在给定代码库的基础上生成代码,该代码库包含 GPT-4 训练数据中未包含的代码。
A3: Decision Making in Text World Environments
在本小节中,我们将演示如何利用 AutoGen 开发涉及交互式或在线决策的有效应用程序。我们使用 ALFWorld(Shridhar 等人,2021 年)基准进行了研究,该基准包括家庭环境中各种基于合成语言的交互式决策任务。
在AutoGen中,我们实现了一个双智能体系统来解决ALFWorld中的任务。该系统由一个依赖LLM(低级模型)的助手智能体负责建议执行任务的计划,以及一个执行智能体负责在ALFWorld环境中执行动作。这个系统集成了ReAct提示机制(Yao et al., 2022),并能够实现类似的性能。ReAct和基于AutoGen的双智能体系统都普遍面临一个挑战,即偶尔无法利用关于物理世界的基础常识。这一不足可能会导致系统由于重复错误而陷入循环。幸运的是,AutoGen的模块化设计使我们能够有效地解决这个问题:通过AutoGen,我们能够引入一个接地(grounding)智能体,它在系统出现重复错误的早期迹象时提供关键的常识,比如“在你检查对象之前,你必须找到并拿起它。在你使用目标对象之前,你必须走到它所在的位置。”这显著提高了系统避免陷入错误循环的能力。我们比较了使用GPT-3.5-turbo和ReAct7在ALFWorld的134个未见任务上,我们系统的两个变种的任务解决性能,并在图4c中报告了结果。结果显示,引入接地智能体平均可以提高15%的性能。通过检查系统的输出,我们观察到,接地智能体通过在合适的时机提供背景常识,显著减少了系统坚持执行有缺陷计划的倾向,从而避免了错误循环的产生。有关系统比较的示例轨迹,请参见附录D,图10。
A4: Multi-Agent Coding
在这个小节中,我们使用 AutoGen 基于 OptiGuide(Li 等人,2023a)构建了一个多代理编码系统,该系统擅长编写代码以解释优化解决方案并回答用户问题,例如探索改变供应链决策的影响或理解优化器为什么做出特定的选择。图 3 的第二个子图展示了基于 AutoGen 的实现。工作流程如下:终端用户发送问题,例如“如果我们禁止从供应商 1 向烘焙厂 2 运输怎么样?”给指挥官代理(Commander agent)。指挥官与两个助手代理(包括 Writer 和 Safeguard)协调以回答该问题。Writer 会编写代码并将代码发送给指挥官。收到代码后,指挥官会与 Safeguard 检查代码的安全性;如果通过,指挥官将使用外部工具(例如 Python)来执行代码,并请求 Writer 解释执行结果。例如,Writer 可能会说“如果我们禁止从供应商 1 到烘焙厂 2 的运输,总成本将增加 10.5%”。然后,指挥官将这个最终答案提供给终端用户。如果在特定步骤中出现异常,例如 Safeguard 提出的安全性红旗,指挥官会将问题重定向回 Writer 并提供调试信息。该过程可能会重复多次,直到用户的问题得到回答或超时。
通过AutoGen,OptiGuide的核心工作流代码从超过430行减少到了100行,这显著提高了生产效率。在附录D中,我们提供了ChatGPT+代码解释器与基于AutoGen的OptiGuide用户体验的详细比较。我们展示了基于AutoGen的OptiGuide可以平均节省用户约3倍的时间,并减少3-5倍的用户交互。我们还进行了一项消融实验,显示多代理抽象是必需的。具体来说,我们构建了一种单代理方法,其中一个单独的代理同时进行代码编写和安全防护流程。我们在一个包含相等数量安全和不安全任务的100个编码任务的数据集上测试了单代理和多代理方法。如图4d所报告的评估结果显示,多代理设计在识别不安全代码方面提高了F-1分数,与GPT-4相比提高了8%,与GPT-3.5-turbo相比提高了35%。
A5: Dynamic Group Chat
AutoGen为动态群聊通信模式提供了原生支持,在这种模式下,参与的代理共享相同的上下文,并以动态的方式与其他代理进行对话,而不是遵循预定义的顺序。动态群聊依赖于进行中的对话来引导代理之间的互动。这使得动态群聊非常适合那些不需要严格通信顺序的合作情境。在AutoGen中,GroupChatManager
类作为代理间对话的指挥者,并重复执行以下三个步骤:动态选择发言人,收集选定发言人的响应,并广播消息(见图3-A5)。对于动态发言人选择组件,我们使用了一种角色扮演式的提示。通过对12个手工制作的复杂任务进行的初步研究,我们观察到,与仅基于任务的提示相比,使用角色扮演式的提示通常会在解决问题和选择发言人的过程中更有效地考虑到对话上下文和角色对齐。因此,这导致了更高的成功率和更少的LLM调用。我们在附录D中包括了详细的结果。
A6: Conversational Chess
使用AutoGen,我们开发了“Conversational Chess”,这是一个自然语言界面游戏,如图3的最后一个子图所示。它内置了供玩家使用的代理,玩家可以是人类或LLM(大型语言模型),还有一个第三方棋盘代理提供信息并根据标准规则验证走子。
通过AutoGen,我们实现了两个关键特性:(1)自然、灵活和引人入胜的游戏动态,由AutoGen中可定制的代理设计所支持。Conversational Chess支持一系列游戏模式,包括AI对AI、AI对人和人对人,并在单局游戏中可以无缝切换这些模式。这些有趣的游戏动态的一个示例可以在附录D的图15中找到。(2)对游戏完整性至关重要的锚定(Grounding)。在游戏过程中,棋盘代理检查每个提出的走子是否合法;如果一个走子无效,代理会用一个错误信息做出回应,提示玩家代理重新提出一个合法走子后再继续。这个过程确保了只有有效的走子被执行,并帮助维护一致的游戏体验。作为消融研究(ablation study),我们移除了棋盘代理,而只依赖于一个相关提示:“你应确保你和对手都在进行合法走子”来锚定他们的走子。结果突出显示,没有棋盘代理,非法走子导致游戏中断。模块化设计提供了灵活性,允许对棋盘代理进行快速调整以应对不断变化的游戏规则或不同的国际象棋规则变体。这个消融研究的全面演示在附录D中。
4 Discussion
我们推出了一个开源库,AutoGen,它融合了可对话代理和对话编程的范式。该库使用适合多代理合作的高能代理。它具有统一的代理间对话接口,以及自动回复机制,有助于建立一个充分发挥基于聊天优化的LLM(低层模型)广泛能力的代理交互界面,同时还能适应多种应用场景。AutoGen 作为一个通用框架,用于创建和实验能轻松满足各种实际需求的多代理系统,例如重用、自定义和扩展现有代理,以及在它们之间编程对话。
我们在第三部分详细描述的实验表明,这种方法提供了诸多好处。采用 AutoGen 已经提高了现有应用的性能(优于最先进的方法)、减少了开发代码,并减轻了人工负担。如在 A1(场景3)、A5 和 A6 中所示,AutoGen 允许多代理聊天遵循动态模式,而非固定的来回互动。它允许人类以对话方式与多个AI代理同时进行活动。尽管这些应用的复杂性很高(大多涉及两个以上的代理或动态的多回合代理合作),但基于 AutoGen 的实现仍然直接了当。在不同代理之间划分任务有助于模块化。此外,由于每个代理都可以单独开发、测试和维护,因此这种方法简化了整体开发和代码管理。
虽然这项工作还处于早期的实验阶段,但它为未来多个方向和研究机会铺平了道路。例如,我们可以探索如何将现有的代理实现有效地集成到我们的多代理框架中,并研究多代理工作流中自动化与人为控制之间的最佳平衡。随着我们进一步开发和完善AutoGen,我们的目标是探究哪些策略,例如代理拓扑和对话模式,能够导致最有效的多代理对话,同时优化整体效率等其他因素。尽管增加代理数量和其他自由度为解决更复杂问题提供了机会,但这也可能引入需要额外研究和谨慎考虑的新安全挑战。
我们在附录B中提供了更多的讨论,包括使用AutoGen的指导方针和未来工作的方向。我们希望AutoGen能在开发速度、实验便利性以及整体效能和安全性方面,提升许多LLM应用的性能。我们积极欢迎来自更广泛社群的贡献。
Ethics statement
AutoGen框架的开发和使用可能会引发几个潜在的道德考虑因素。
- 隐私和数据保护:该框架允许人类参与代理之间的对话。保护用户数据和对话的重要性不言而喻,开发者应采取适当措施以保障隐私。
- 偏见和公平性:已有研究表明,大型语言模型(LLMs)会展示其训练数据中存在的偏见(Navigli等人,2023年)。在AutoGen框架中使用LLMs时,解决和减轻代理间对话中可能出现的任何偏见至关重要。开发者应意识到潜在的偏见,并采取措施以确保公平性和包容性。
- 可追溯性和透明度:如在未来工作部分所讨论,由于该框架涉及多个代理进行对话和合作,建立明确的可追溯性和透明度机制是非常重要的。用户应能理解并追踪参与的代理的决策过程,以确保可追溯性,并解决任何潜在问题或偏见。
- 信任和依赖:AutoGen通过代理间的对话在提供自动化的同时,充分利用了人类的理解和智能。考虑这种互动对用户体验、信任和对AI系统的依赖的影响是重要的。关于系统能力和局限性的清晰沟通和用户教育将是必不可少的(蔡等人,2019年)。
- 非预期后果:如前所述,多代理对话和自动化在复杂任务中的使用可能会有非预期的后果。特别是允许LLM代理通过代码执行或函数调用(例如安装软件包)对外部环境进行更改可能是有风险的。开发者应仔细考虑潜在风险,并确保有适当的安全措施以防止伤害或负面结果。