Usage instructions: here
Publish Date | Title | Authors | Code | abstract | |
---|---|---|---|---|---|
2024-12-30 | Aviary: training language agents on challenging scientific tasks | Siddharth Narayanan et.al. | 2412.21154 | null | 解决复杂的现实世界任务需要行动和观察的循环。这在科学领域尤为明显,其中的任务需要分析、工具使用和实验的多次循环。语言代理因其可以通过自然语言或代码与工具进行交互而在自动化科学中的智力任务方面具有前景。然而,它们的灵活性给软件实现带来了概念性和实用性挑战,因为代理可能包括非标准组件如内部推理、规划、工具使用以及温度采样的语言模型固有的随机性。在这里,我们介绍了Aviary,这是一个用于语言代理的可扩展健身房。我们将代理形式化为解决语言接地的部分可观察马尔可夫决策过程的策略,这些过程我们称之为语言决策过程。然后我们实现了五个环境,其中包括三个具有挑战性的科学环境:(1)操作DNA构建体进行分子克隆,(2)通过访问科学文献回答研究问题,以及(3)工程蛋白质稳定性。这些环境被选中是因为它们侧重于多步骤推理且与当代生物学研究相关。最后,通过在线训练和扩展推理时的计算资源,我们展示了基于开源而非前沿LLM的语言代理可以在多个任务上匹配甚至超过前沿LLM代理和人类专家的表现,并且成本降低到高达1/100。 |
2024-12-30 | Exploring and Controlling Diversity in LLM-Agent Conversation | KuanChao Chu et.al. | 2412.21102 | null | 多样性是多智能体通信中的一个关键方面。在本文中,我们重点关注开放域多智能体对话中多样性的控制和探索,特别是在世界模拟应用的背景下。我们提出了一种新颖的方法——自适应提示修剪(APP),该方法通过调整生成话语的提示内容来动态控制多样性,并使用单一参数λ进行调节。通过广泛的实验,我们展示了APP能够有效地跨模型和数据集控制输出多样性,修剪更多的信息会导致更丰富的输出多样性。我们全面分析了提示内容与对话多样性之间的关系。研究结果表明,提示的所有组件中的信息通常会限制输出的多样性,其中记忆块影响最大。APP与已建立的技术如温度采样和top-p采样兼容,提供了一个管理多样性的多功能工具。为了应对增加多样性所带来的不一致等权衡问题,我们引入了一个后生成修正步骤,这能有效平衡多样性增强与输出一致性。此外,我们还研究了提示结构,包括组件顺序和长度,如何影响多样性。本研究探讨了多智能体世界模拟中关于多样性的关键问题,提供了对其控制、影响因素及其相关权衡的见解。我们的贡献为系统地设计基于大型语言模型的多智能体协作中的多样性奠定了基础,推动其在现实世界应用中的有效性。 |
2024-12-30 | Plancraft: an evaluation dataset for planning with LLM agents | Gautier Dagan et.al. | 2412.21033 | link | 我们介绍了Plancraft,一个用于LLM代理的多模态评估数据集。Plancraft具有仅文本和多模态界面,基于Minecraft的合成GUI。我们包含了Minecraft Wiki以评估工具使用和检索增强生成(RAG),还包括了一个oracle规划器和oracle RAG信息提取器,用于测试现代代理架构的不同组件。为了评估决策能力,Plancraft还包括了一组故意无法解决的例子,提供了一个现实的挑战,要求代理不仅完成任务,还要决定任务是否可以解决。我们将开源和闭源的LLM和策略在我们的任务上进行基准测试,并将其性能与手工制作的规划器进行比较。我们发现LLM和VLM在Plancraft引入的规划问题上存在困难,并提出了改进其能力的建议。 |
2024-12-29 | Planning, Living and Judging: A Multi-agent LLM-based Framework for Cyclical Urban Planning | Hang Ni et.al. | 2412.20505 | null | 城市再生在城市化的背景下提出了重大挑战,需要采取适应性方法来应对不断变化的需求。我们提议利用大型语言模型(LLM)的进展,采用循环城市规划(CUP)这一新范式,该范式能够持续生成、评估和优化城市规划并形成闭环。具体而言,我们的多代理LLM框架包括三个关键组成部分:(1)规划,其中LLM代理根据情境数据生成和优化城市规划;(2)生活,其中代理模拟居民的行为和互动,对城市环境中的生活进行建模;(3)评判,涉及评估规划的有效性,并提供迭代反馈以促进改进。这一循环过程使得规划方法具有动态性和响应性。实验证明了我们框架作为连续和自适应规划过程的有效性。 |
2024-12-28 | FaGeL: Fabric LLMs Agent empowered Embodied Intelligence Evolution with Autonomous Human-Machine Collaboration | Jia Liu et.al. | 2412.20297 | null | 近期大型语言模型(LLMs)在推理能力方面的进展提升了具身代理的性能,推动了向通用人工智能(AGI)驱动机器人技术的进步。尽管LLMs已应用于语义推理和任务泛化等任务,但它们在开放物理空间探索中的潜力仍有待开发。本文介绍了一种名为FaGeL的具身代理,它集成了智能织物技术,以实现无缝且非侵入式的人机交互。FaGeL利用可穿戴设备和环境传感器的多模态数据自主生成任务,并通过生成文本中的隐式人类反馈来优化其行为,无需显式的评分或偏好。我们还引入了一种基于令牌级别的显著性映射来可视化LLM的微调过程,从而增强令牌级别对齐的可解释性。该系统利用双重反馈机制来改进令牌级别的对齐,并解决非侵入式人机交互和认知进化中的挑战。我们的贡献包括FaGeL的开发、用于AI对齐的DualCUT算法以及在合作任务中的实验验证,展示了FaGeL能够通过隐式反馈自主适应和进化的能力。未来,我们计划探索FaGeL在动态环境中的可扩展性及其与其他AI系统的集成,以开发能够无缝适应多样化人类需求的AGI代理。 |
2024-12-28 | OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System | Yujie Luo et.al. | 2412.20005 | link | 我们介绍了OneKE,一个容器化的schema引导的知识提取系统,它可以从中提取知识网页和原始PDF书籍,并支持各种领域(科学、新闻等)。具体来说,我们设计了OneKE以支持多个代理和配置知识库。不同的代理执行各自的角色,从而支持各种提取场景。配置的知识库促进了模式配置、错误案例的调试和纠正,进一步提高了性能。在基准数据集上的实证评估证明了OneKE的有效性,而案例研究进一步阐明了它在多个领域的不同任务中的适应性,突显了其广泛应用的潜力。我们的代码已在https://github.com/zjunlp/OneKE开源,并发布了一个演示视频http://oneke.openkg.cn/demo.mp4。 |
2024-12-24 | Explainable Multi-Modal Data Exploration in Natural Language via LLM Agent | Farhad Nooralahzadeh et.al. | 2412.18428 | null | 国际企业和组织、医院等收集了大量的多模态数据,这些数据存储在数据库、文本文件、图像和视频中。虽然多模态数据探索的各个领域以及能够自动将自然语言问题转换为数据库查询语言的数据库系统都取得了近期进展,但结合数据库系统查询与其他非结构化模态(如图像)的自然语言研究挑战尚未得到充分探索。在本文中,我们提出了XMODE系统,该系统能够在自然语言中实现可解释的多模态数据探索。我们的方法基于以下研究贡献:(1) 我们的系统灵感来源于一个真实世界的应用案例,它使用户能够探索多模态信息系统。(2) XMODE利用基于LLM的主动式AI框架将自然语言问题分解为子任务,如文本到SQL生成和图像分析。(3) 在关系数据和图像的多模态数据集上的实验结果表明,我们的系统在准确性和各种性能指标(如查询延迟、API成本、规划效率和解释质量)上均优于现有的多模态探索系统,这得益于LLMs推理能力更有效的利用。 |
2024-12-25 | Defining and Detecting the Defects of the Large Language Model-based Autonomous Agents | Kaiwen Ning et.al. | 2412.18371 | link | 人工智能代理是能够感知其环境、自主规划和执行任务的系统。近期大型语言模型(LLM)的发展引入了一种变革性的范式,使人工智能代理能够通过提示与外部资源和工具进行交互。在这种代理的工作流程中,开发人员编写的代码管理框架构建和逻辑控制,而大型语言模型生成的自然语言则增强了动态决策和交互能力。然而,开发者实现的逻辑与大型语言模型生成的内容在行为和预期结果上的差异可能导致缺陷,例如工具调用失败和任务执行错误。这些问题引入了特定风险,导致大型语言模型驱动的人工智能代理出现各种缺陷,如服务中断。尽管这些问题非常重要,但目前缺乏系统性工作专注于分析大型语言模型驱动的人工智能代理以揭示其代码中的缺陷。在本文中,我们提出了首个专注于识别和检测大型语言模型驱动的代理缺陷的研究。我们收集并分析了来自StackOverflow的6854篇相关帖子,定义了8种代理缺陷类型,并为每种类型提供了详细描述及示例。然后,我们设计了一款静态分析工具Agentable,该工具利用代码属性图和大型语言模型来分析代理工作流程,通过高效识别特定代码模式和分析自然语言描述来进行分析。为了评估Agentable,我们构建了两个数据集:AgentSet包含84个真实世界代理,AgentTest包含78个特意设计以包含多种缺陷类型的代理。我们的结果显示,Agentable的整体准确率为88.79%,召回率为91.03%。此外,我们的分析揭示了AgentSet中的889个缺陷,突显了这些缺陷的普遍性。 |
2024-12-24 | Multi-Agents Based on Large Language Models for Knowledge-based Visual Question Answering | Zhongjian Hu et.al. | 2412.18351 | null | 大型语言模型(LLMs)在基于知识的视觉问答(VQA)方面取得了显著成果。然而,现有的方法仍然面临挑战:无法自主使用外部工具以及无法协作工作。人类在遇到新问题时通常知道是否需要使用外部工具,例如,他们倾向于直接回答熟悉的问题,而在遇到不熟悉的问题时则倾向于使用搜索引擎等工具。此外,人类还倾向于与他人合作和讨论以获得更好的答案。受此启发,我们提出了多代理投票框架。我们设计了三种基于LLM的代理来模拟团队中的不同层级,并根据层级分配可用工具。每个代理提供相应的答案,最后所有代理提供的答案进行投票以得出最终答案。实验结果表明,在OK-VQA和A-OKVQA数据集上,我们的方法比其他基线方法分别高出2.2和1.0。 |
2024-12-24 | INVESTORBENCH: A Benchmark for Financial Decision-Making Tasks with LLM-based Agent | Haohang Li et.al. | 2412.18174 | null | 近期的进展突显了大型语言模型(LLM)在金融决策中的潜力。尽管如此,该领域目前面临两个主要挑战:(1)缺乏一个适用于多种金融任务的综合性LLM代理框架,以及(2)没有标准化的基准和一致的数据集来评估代理性能。为了解决这些问题,我们介绍了\textsc{InvestorBench},这是首个专门用于评估LLM代理在不同金融决策背景下的表现的基准。InvestorBench通过提供一套适用于不同类型金融产品的任务,增强了LLM驱动代理的多功能性,这些金融产品包括单个股票、加密货币和交易所交易基金(ETF)。此外,我们使用十三种不同的LLM作为基础模型,评估了我们的代理框架在各种市场环境和任务中的推理和决策能力。此外,我们还整理了一套开源的多模态数据集,并开发了一整套金融决策环境。这建立了一个高度可访问的平台,可以跨各种场景评估金融代理的表现。 |
2024-12-23 | Large Language Model Safety: A Holistic Survey | Dan Shi et.al. | 2412.17686 | link | 大型语言模型(LLMs)的快速发展和部署标志着人工智能领域的一个新前沿,这些模型在自然语言理解和生成方面展现出了前所未有的能力。然而,随着这些模型越来越多地被整合到关键应用中,随之而来的是重大的安全问题,需要对潜在风险进行彻底的审查并提出相应的缓解策略。本调查提供了关于LLM安全性的全面概述,涵盖了四个主要类别:价值错位、对抗性攻击的鲁棒性、误用以及自主AI风险。除了对这四个方面缓解方法和技术评估资源的综合回顾外,我们还探讨了与LLM安全相关的四个主题:LLM代理的安全影响、可解释性在增强LLM安全性中的作用、由一系列AI公司和研究所提出的并与之遵循的技术路线图,以及旨在实现LLM安全的AI治理,包括国际合作、政策建议和预期的监管方向。我们的研究结果强调了采取积极、多方面方法来确保LLM安全的必要性,强调了技术解决方案、伦理考量和稳健治理框架的融合。本调查旨在为学术研究人员、行业从业者和政策制定者提供一个基础资源,以洞悉与LLM安全集成相关的挑战和机遇。最终,它致力于促进LLM的安全和有益发展,与利用人工智能推动社会进步和福祉的总体目标保持一致。相关论文的精选列表已公开发布在https://github.com/tjunlp-lab/Awesome-LLM-Safety-Papers。 |
2024-12-23 | LegalAgentBench: Evaluating LLM Agents in Legal Domain | Haitao Li et.al. | 2412.17259 | link | 随着大型语言模型(LLM)代理的智能性和自主性的不断提高,它们在法律领域的潜在应用变得越来越明显。然而,现有的通用领域基准无法完全捕捉现实世界司法认知和决策的复杂性和细微差别。因此,我们提出了LegalAgentBench,这是一个专门设计用于评估中国法律领域中的LLM代理的综合基准。LegalAgentBench包括来自真实法律场景的17个语料库,并提供了37种与外部知识交互的工具。我们设计了一个可扩展的任务构建框架,并仔细标注了300项任务。这些任务涵盖了多种类型,包括多跳推理和写作,并且覆盖了不同难度级别,有效地反映了现实法律场景的复杂性。此外,除了评估最终的成功与否,LegalAgentBench还在中间过程中纳入了关键词分析来计算进度率,从而实现更精细的评估。我们评估了八种流行的LLM,突显了现有模型和方法的优势、局限性和潜在改进领域。LegalAgentBench为LLM在法律领域的实际应用设定了新的标准,其代码和数据可在https://github.com/CSHaitao/LegalAgentBench获取。 |
2024-12-22 | LLM Agent for Fire Dynamics Simulations | Leidong Xu et.al. | 2412.17146 | null | 显著的进展已经在利用基础模型,如大型语言模型(LLMs)来加速复杂的科学工作流程上取得。本文介绍了一种名为FoamPilot的概念验证LLM代理,旨在增强FireFOAM的可用性,FireFOAM是一种使用开源计算流体动力学工具箱OpenFOAM构建的专业火动力学和灭火模拟求解器。FoamPilot提供了三个核心功能:代码洞察、案例配置和仿真评估。代码洞察是一种替代传统关键词搜索的方法,采用检索增强生成(RAG),旨在使开发人员和有经验的用户能够高效地导航和总结FireFOAM源代码。对于案例配置,该代理以自然语言解释用户请求,并相应地修改现有的模拟设置,以支持中级用户。FoamPilot的任务执行功能旨在管理在高性能计算(HPC)环境中的模拟提交和执行,并提供模拟结果的初步分析,以支持经验较少的用户。每个功能都取得了有希望的结果,尤其是在简单的任务上,并且识别出了在更复杂任务上进行重大改进的机会。将这些功能整合到一个单一的LLM代理中是为了加速工程师和科学家在进行复杂的FireFOAM模拟时的工作流程,这对于提高消防安全至关重要。 |
2024-12-21 | The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents | Feiran Jia et.al. | 2412.16682 | null | 大型语言模型(LLM)代理作为能够通过工具集成执行复杂现实任务的对话助手正被越来越多地部署。这种增强的能力与外部系统的交互以及处理各种数据源虽然功能强大,但也引入了显著的安全漏洞。特别是嵌入在外部数据源中的恶意指令可以通过间接提示注入攻击操纵代理以偏离用户的意图。尽管基于规则约束、来源 spotlighting 和认证协议的现有防御措施显示出一定的前景,但它们难以在保持任务功能的同时维护强大的安全性。我们提出了一种新的正交视角,将代理安全从防止有害行为重新定义为确保任务一致性,要求代理的每个行动都服务于用户目标。基于这一见解,我们开发了Task Shield,这是一种测试时防御机制,系统性地验证每个指令和工具调用是否有助于用户指定的目标。通过在AgentDojo基准上的实验,我们证明Task Shield将攻击成功率降低到2.07%,同时保持了69.79%的任务效用,在GPT-4o上表现良好。 |
2024-12-19 | Tree-of-Code: A Tree-Structured Exploring Framework for End-to-End Code Generation and Execution in Complex Task Handling | Ziyi Ni et.al. | 2412.15305 | null | 解决复杂的推理任务是智能体的关键实际应用。得益于大型语言模型(LLMs)在代码数据上的预训练,最近的方法如CodeAct成功地使用代码作为LLMs的行动,取得了良好的效果。然而,CodeAct通过依赖片段化的思考来贪婪地生成下一个动作的代码块,这导致了不一致性和不稳定性。此外,CodeAct缺乏与行动相关的地面真值(GT),使其在多轮交互中的监督信号和终止条件受到质疑。为了解决这些问题,我们首先引入了一种简单而有效的端到端代码生成范式——CodeProgram,它利用代码的系统逻辑来与全局推理对齐,从而实现连贯的问题解决。然后,我们提出了基于代码可执行性质的Tree-of-Code(ToC),它可以自生长CodeProgram节点,并在无地面真值场景下实现自我监督。在两个数据集上使用十种流行的零样本LLMs进行的实验结果表明,ToC比CodeAct的准确率提高了近20%,且交互轮次不到其四分之一。一些LLMs在单轮CodeProgram上的表现甚至优于多轮CodeAct。为了进一步研究有效性和效率之间的权衡,我们测试了不同大小的ToC树和探索机制。我们还强调了ToC端到端数据生成在有监督和强化微调中的潜力。 |
2024-12-17 | Memory-Augmented Agent Training for Business Document Understanding | Jiale Liu et.al. | 2412.15274 | null | 传统企业在处理业务文档时面临重大挑战,例如从发票中提取运输参考信息等任务在物流操作中起着至关重要的作用,但目前仍主要依赖人工处理。尽管大型语言模型提供了潜在的自动化可能,但它们直接应用于专业业务领域往往效果不理想。我们介绍了一种名为Matrix(通过推理和迭代探索进行记忆增强代理训练)的新方法,该方法使大型语言模型代理能够通过经验驱动的记忆精炼和迭代学习逐步建立领域专业知识。为了验证这种方法,我们与全球最大的物流公司之一合作,创建了一个通用业务语言格式的发票文件数据集,重点研究了运输参考信息的提取任务。实验表明,Matrix的表现比单一的大型语言模型提示方式高出30.3%,比传统的大型语言模型代理方式高出35.2%。我们进一步分析了优化系统的指标,观察到代理系统需要较少的API调用、成本更低,并且可以平均处理更长的文档。我们的方法通过系统的记忆增强将通用大型语言模型转化为专门的商业工具,在文档处理任务中建立了新的途径。 |
2024-12-17 | On the Structural Memory of LLM Agents | Ruihong Zeng et.al. | 2412.15266 | link | 记忆在使基于大型语言模型(LLM)的代理能够进行复杂和长期的交互中起着关键作用,例如问答(QA)和对话系统。尽管已经提出了各种记忆模块用于这些任务,但不同记忆结构对任务的影响仍未充分探索。本文研究了记忆结构和记忆检索方法如何影响基于LLM的代理的表现。具体来说,我们评估了四种类型的记忆结构,包括片段、知识三元组、原子事实和摘要,以及混合记忆,它结合了这些组件。此外,我们评估了三种广泛使用的记忆检索方法:单步检索、重新排序和迭代检索。在四个任务和六个数据集上进行的广泛实验产生了以下关键见解:(1)不同的记忆结构提供了独特的优点,使它们能够针对特定任务进行调整;(2)混合记忆结构在嘈杂环境中表现出显著的韧性;(3)迭代检索在各种场景中始终优于其他方法。我们的研究旨在激发关于为LLM代理设计记忆系统的进一步研究。 |
2024-12-19 | On Verbalized Confidence Scores for LLMs | Daniel Yang et.al. | 2412.14737 | link | 大型语言模型(LLMs)的兴起及其与我们日常生活的紧密集成使得致力于提高其可信度变得至关重要。通过量化LLMs中的不确定性,可以建立人类对其响应的信任,同时也允许LLM代理基于彼此的不确定性做出更明智的决策。为了估计响应中的不确定性,通常使用内部令牌logits、任务特定的代理模型或多次采样多个响应。这项工作专注于让LLM本身以置信分数的形式口头表达其不确定性作为其输出标记的一部分,这是一种有前景的提示和模型不可知的不确定性量化方法,并且具有低开销。我们使用广泛的基准评估了口头置信分数的可靠性,涉及不同的数据集、模型和提示方法。我们的结果显示这些分数的可靠性在很大程度上取决于模型被询问的方式,但也有可能通过某些提示方法提取出校准良好的置信分数。我们认为口头置信分数可以成为未来一种简单但有效且多功能的不确定性量化方法。我们的代码可在https://github.com/danielyxyang/llm-verbalized-uq 获取。 |
2024-12-19 | Agent-SafetyBench: Evaluating the Safety of LLM Agents | Zhexin Zhang et.al. | 2412.14470 | link | 随着大型语言模型(LLM)作为代理的部署越来越多,它们在交互环境和工具使用中的集成引入了新的安全挑战,这些挑战超出了与模型本身相关的安全问题。然而,缺乏全面的基准来评估代理的安全性构成了有效评估和进一步改进的重大障碍。在本文中,我们介绍了Agent-SafetyBench,这是一个旨在评估LLM代理安全性的综合基准。Agent-SafetyBench涵盖了349个交互环境和2000个测试用例,评估了8类安全风险,并覆盖了在不安全交互中经常遇到的10种常见失效模式。我们对16个流行的LLM代理进行的评估揭示了一个令人担忧的结果:没有一个代理的安全得分超过60%。这突显了LLM代理在安全性方面的重大挑战,并强调了需要大幅改进。通过定量分析,我们确定了关键的失效模式,并总结了当前LLM代理中的两个基本安全检测问题:缺乏鲁棒性和缺乏风险意识。此外,我们的研究结果表明,仅依赖防御性提示不足以解决这些安全问题,强调了需要更先进和更稳健的策略。我们将Agent-SafetyBench发布在https://github.com/thu-coai/Agent-SafetyBench上,以促进进一步的研究和创新,推动代理安全评估和改进。 |
2024-12-18 | A Survey on Large Language Model-based Agents for Statistics and Data Science | Maojun Sun et.al. | 2412.14222 | null | 近年来,由大型语言模型(LLM)驱动的数据科学代理,被称为“数据代理”,在简化复杂数据任务和降低无相关专业知识的用户使用门槛方面展示了巨大的潜力,从而改变了传统的数据分析范式。本文综述了基于LLM的数据代理的发展、功能和应用,并探讨了它们在最小化人为干预的情况下解决以数据为中心的问题中的作用。我们探讨了当前基于LLM框架设计的趋势,详细介绍了规划、推理、反思、多代理协作、用户界面、知识集成和系统设计等关键特性,这些特性使代理能够处理复杂的任务。此外,我们分析了若干案例研究,以展示不同数据代理在实际场景中的应用。最后,我们指出了主要挑战并提出了未来的研究方向,以推动数据代理发展成为智能统计分析软件。 |
2024-12-18 | Tree-of-Code: A Hybrid Approach for Robust Complex Task Planning and Execution | Ziyi Ni et.al. | 2412.14212 | null | 大型语言模型(LLMs)的卓越能力极大地加速了代理的快速发展和广泛应用。最近的研究表明,生成Python代码以将基于LLMs的代理行为整合到统一的动作空间(CodeAct)中是开发实际应用中LLM代理的一种有前景的方法。然而,这种逐步生成代码的方法往往缺乏一致性和稳健性,导致代理应用程序在复杂推理和域外任务中的稳定性不足。在这篇论文中,我们提出了一种称为代码树(ToC)的新方法来解决通过端到端机制进行复杂问题规划和执行的挑战。通过结合思维树和CodeAct的关键思想,ToC融合了它们的优势以增强解决方案探索。在我们的框架中,每个最终代码执行结果被视为决策树中的一个节点,采用广度优先搜索策略来探索潜在解决方案。最终结果通过基于节点输出的投票机制确定。 |
2024-12-18 | TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks | Frank F. Xu et.al. | 2412.14161 | link | 我们日常生活中和工作中都在与计算机进行互动,而且许多工作都可以通过访问计算机和互联网来完成。与此同时,由于大型语言模型(LLM)的改进,与周围环境进行交互并影响其变化的人工智能代理也得到了快速发展。但是,这些人工智能代理在帮助加速甚至自主执行与工作相关任务方面的表现如何?这个问题的答案对于希望在其工作流程中采用人工智能的行业以及希望了解人工智能采用可能对劳动力市场产生的影响的经济政策制定者都具有重要意义。为了衡量这些LLM代理在执行现实世界专业任务方面的进展,我们在本文中介绍了TheAgentCompany,这是一个可扩展的基准测试,用于评估与数字工作者相似方式与世界互动的AI代理:通过浏览网络、编写代码、运行程序以及与其他同事沟通。我们构建了一个自包含的环境,其中包含内部网站和数据,模仿小型软件公司的环境,并创建了一系列可能由此类公司员工执行的任务。我们测试了基于封闭API和开放权重语言模型(LM)的基线代理,发现最优秀的代理能够自主完成24%的任务。这为我们提供了一幅关于使用LM代理进行任务自动化的复杂图景——在一个模拟真实工作场所的环境中,一些较简单的任务可以自主解决,但更复杂的长期任务仍然是当前系统难以企及的。 |
2024-12-18 | Exploring Multi-Modal Integration with Tool-Augmented LLM Agents for Precise Causal Discovery | ChengAo Shen et.al. | 2412.13667 | null | 因果推理是跨领域决策的重要基础,如智能健康、AI药物发现和AIOps。尽管传统的统计因果发现方法已经很成熟,但这些方法主要依赖于观察数据,并且经常忽略了因果关系中固有的语义线索。大型语言模型(LLMs)的出现提供了一种利用这些语义线索进行知识驱动因果发现的经济方式,但在因果发现领域的LLMs开发滞后,尤其是在探索多模态数据方面。为了弥合这一差距,我们引入了MATMCD,这是一种由工具增强型LLMs驱动的多代理系统。MATMCD有两个关键代理:一个数据增强代理负责检索和处理模态增强数据,一个因果约束代理负责整合多模态数据以进行知识驱动的推理。精心设计的内部机制确保了代理之间的成功协作。我们的实证研究涵盖了七个数据集,表明多模态增强因果发现的巨大潜力。 |
2024-12-18 | SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents | Sheng Yin et.al. | 2412.13178 | link | 随着大型语言模型(LLMs)的集成,具身代理在自然语言执行复杂指令方面表现出强大的能力,为具身机器人的潜在部署铺平了道路。然而,可以预见的是,这些具身代理也可以完美地执行一些危险任务,可能在现实世界中造成损害。为了研究这个问题,我们提出了SafeAgentBench——一个新的针对具身LLM代理的安全感知任务规划基准。SafeAgentBench包括:(1)一个包含750个任务的新数据集,涵盖了10种潜在危害和3种任务类型;(2)SafeAgentEnv,这是一个具有底层控制器的通用具身环境,支持多代理执行,并为8种最先进的基线提供了17种高级动作;以及(3)从执行和语义角度出发的可靠评估方法。实验结果表明,表现最好的基线对于安全任务的成功率为69%,但对于危险任务的拒绝率仅为5%,这表明存在显著的安全风险。更多详情和代码可在https://github.com/shengyin1224/SafeAgentBench获取。 |
2024-12-17 | RareAgents: Autonomous Multi-disciplinary Team for Rare Disease Diagnosis and Treatment | Xuanzhong Chen et.al. | 2412.12475 | null | 罕见疾病尽管单个疾病的发病率较低,但全球范围内影响的人数大约有3亿人,这是因为罕见疾病的种类繁多。这些疾病症状复杂且专业医生短缺,使得诊断和治疗比常见疾病更具挑战性。最近,由大型语言模型(LLM)驱动的代理在各个领域都显示出显著的进步。在医学领域,一些代理方法在从医学考试中进行问答的任务上已经超过了直接提示的方法。然而,当前的代理框架缺乏适应现实临床场景的能力,特别是那些涉及罕见疾病复杂需求的情况。为了解决这些挑战,我们提出了RareAgents,这是首个针对罕见疾病复杂临床环境的多学科LLM代理团队。RareAgents集成了先进的规划能力、记忆机制以及医疗工具的使用,其基础模型采用Llama-3.1-8B/70B。实验结果显示,RareAgents在罕见疾病的鉴别诊断和药物推荐方面超越了最先进的领域特定模型、GPT-4o以及现有的代理框架。此外,我们还贡献了一个新的数据集MIMIC-IV-Ext-Rare,该数据集基于MIMIC-IV,以支持该领域的进一步发展。 |
2024-12-16 | Codenames as a Benchmark for Large Language Models | Matthew Stephenson et.al. | 2412.11373 | null | 在本文中,我们提议将广受欢迎的基于词语的棋盘游戏“密码”作为评估大型语言模型(LLMs)推理能力的一个合适基准。密码游戏对实现成功的AI表现提出了高度有趣的挑战,需要具备复杂的语言理解、心理理论和认识论推理能力。此前开发密码游戏代理的努力主要依赖于词嵌入技术,这些技术词汇范围有限,并且在与其他方法结合时表现不佳。尽管LLMs在语言任务的理解和推理能力方面表现出色,但在横向思维挑战中仍可能遇到困难。我们评估了几种最先进的LLMs,包括GPT-4o、Gemini 1.5、Claude 3.5 Sonnet和Llama 3.1,在各种棋盘设置下的表现。我们的结果表明,虽然某些LLMs总体上表现优于其他模型,但不同的模型在游戏中表现出不同的新兴行为,并在特定角色中表现出色。我们还评估了不同组合的LLMs在合作游戏中的表现,证明LLM代理比先前的技术更能适应更广泛的队友组合。 |
2024-12-14 | Towards Action Hijacking of Large Language Model-based Agent | Yuyang Zhang et.al. | 2412.10807 | null | 在过去的几年中,由大型语言模型(LLM)驱动的智能代理在执行复杂任务方面取得了显著进展。这些基于LLM的代理接收查询作为任务,并通过内置的LLM分解成各种子任务,以指导外部实体(例如工具、AI代理)来回答用户的问题。凭借其出色的理解和解决问题的能力,它们被广泛应用于劳动密集型领域,包括医疗保健、金融、代码完成等。与此同时,也有关于这些代理可能被滥用的担忧,促使服务提供商内置了安全防护措施。为了规避内置指南,先前的研究提出了许多攻击方法,包括内存投毒、越狱和提示注入。这些研究往往由于代理采用的安全过滤器所限制的权限和查询中的有害语义而无法保持有效性。在本文中,我们介绍了\Name,一种新颖的劫持攻击,用于操纵黑盒代理系统的行动计划。\Name首先通过提示窃取从长期记忆中收集具有行动意识的记忆。然后,它利用代理的内部记忆检索机制提供错误的上下文。检索器与安全过滤器之间的巨大潜在空间差距使我们的方法能够轻松绕过检测。广泛的实验结果证明了我们方法的有效性(例如99.67%的攻击成功率)。此外,我们的方法对安全过滤器的平均绕过率为92.7%。 |
2024-12-13 | Cultural Evolution of Cooperation among LLM Agents | Aron Vallinder et.al. | 2412.10270 | null | 大型语言模型(LLMs)为构建具有广泛能力的人工智能代理提供了令人信服的基础。这些代理可能会在现实世界中大规模部署,代表个人(如人工智能助手)或群体(如人工智能加速的公司)的利益。目前,关于多个LLM代理在多代迭代部署中的动态知之甚少。在这篇论文中,我们研究了一组LLM代理是否能够在有诱因背叛的情况下学会互利的社会规范,这是人类社会性的一个显著特征,被认为是文明成功的关键因素之一。特别是,我们研究了间接互惠在LLM代理进行经典重复捐赠者游戏过程中跨代的发展,其中代理可以观察到其同伴的近期行为。我们发现不同基础模型的合作演化差异明显,克劳德3.5诗歌模型组成的社团平均得分显著高于杰米尼1.5闪存模型,而后者又优于GPT-4o。此外,克劳德3.5诗歌模型还可以利用额外的成本惩罚机制来实现更高的得分,而杰米尼1.5闪存和GPT-4o则无法做到这一点。对于每种模型类别,我们还观察到随机种子导致的涌现行为变化,这表明初始条件的敏感依赖性是一个有待研究的问题。我们建议,我们的评估体系可以激发一类新的廉价且信息丰富的LLM基准测试,重点关注LLM代理部署对社会合作基础设施的影响。 |
2024-12-13 | ROUTE: Robust Multitask Tuning and Collaboration for Text-to-SQL | Yang Qin et.al. | 2412.10138 | link | 尽管文本到SQL(Text2SQL)领域因大型语言模型(LLMs)取得了显著进展,但最新的最先进方法仍然受限于闭源LLMs(如GPT-4)的上下文学习,这限制了它们在开放场景中的适用性。为了解决这一挑战,我们提出了一种新的鲁棒多任务调优与协作方法(ROUTE),以提高开源LLMs在Text2SQL方面的综合能力,从而提供一个更实用的解决方案。我们的方法从多任务有监督微调(SFT)开始,使用与SQL生成相关的各种合成训练数据。与现有的基于SFT的Text2SQL方法不同,我们引入了几个额外的SFT任务,包括模式链接、噪声校正和续写。参与多种SQL生成任务可以增强模型对SQL语法的理解,并提高其生成高质量SQL查询的能力。此外,受LLM代理协作模式的启发,我们引入了一种多任务协作提示策略(MCP)。该策略利用多个与SQL相关任务之间的协作来减少SQL生成过程中的幻觉,从而通过显式的多任务能力最大化提升Text2SQL性能。我们在八个开源LLMs和五个广泛使用的基准上进行了广泛的实验和深入分析。结果表明,我们的提案优于最新的Text2SQL方法,并取得了领先的表现。 |
2024-12-13 | You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects | Islem Bouzenia et.al. | 2412.10133 | null | 执行项目的测试套件在许多场景下都是至关重要的,例如评估代码质量和代码覆盖率、验证开发人员或自动化工具所做的代码更改以及确保与依赖项的兼容性。尽管如此,在实践中执行项目的测试套件可能具有挑战性,因为不同的项目使用不同的编程语言、软件生态系统、构建系统、测试框架和其他工具。这些挑战使得创建一个可靠且通用的测试执行方法变得困难,该方法可以跨不同项目工作。本文介绍了一种名为ExecutionAgent的自动化技术,它可以安装任意项目,配置它们以运行测试用例,并生成特定于项目的脚本来重现设置。受到人类开发者解决问题方式的启发,我们的方法是一种基于大型语言模型的代理,它能够自主执行命令并与主机系统进行交互。该代理使用元提示来收集关于给定项目最新技术的指南,并根据前一步骤的反馈迭代地完善其过程。我们的评估将ExecutionAgent应用于50个开源项目,这些项目使用了14种不同的编程语言和许多不同的构建和测试工具。该方法成功地执行了33/55个项目中的测试套件,同时与基准测试套件执行结果的偏差仅为7.5%。这些结果比之前可用的最佳技术提高了6.6倍。该方法的成本是合理的,平均每项目执行时间为74分钟,大型语言模型成本为0.16美元。我们预计ExecutionAgent将成为开发人员、自动化编程工具和研究人员的重要工具,他们需要跨大量项目执行测试。 |
2024-12-12 | Can Modern LLMs Act as Agent Cores in Radiology~Environments? | Qiaoyu Zheng et.al. | 2412.09529 | link | 大型语言模型(LLM)的进步为基于LLM的代理系统的发展铺平了道路,这些系统在各个领域提供了增强的准确性和可解释性。放射学,由于其复杂的分析需求,是这些代理应用的理想领域。本文旨在探讨构建具体放射学代理的前提问题,即“现代LLM能否作为放射学环境中的代理核心?”为此,我们介绍了RadABench,并有三个贡献:首先,我们提出了RadABench-Data,这是一个从广泛的分类生成的综合合成评估数据集,涵盖了6个解剖部位、5种成像模式、10类工具和11项放射学任务。其次,我们提出RadABench-EvalPlat,一个新的代理评估平台,具有提示驱动的工作流程和模拟各种放射学工具集的能力。第三,我们从五个视角使用多种指标评估了7个领先的LLM在我们基准上的表现。我们的研究结果表明,尽管当前的LLM在许多方面表现出强大的能力,但它们仍然不够先进,无法作为完全操作的放射学代理系统的核心代理核心。此外,我们确定了影响基于LLM的代理核心性能的关键因素,为临床医生提供了如何在现实世界的放射学实践中有效应用代理系统的见解。我们所有的代码和数据都已开源,详见https://github.com/MAGIC-AI4Med/RadABench。 |
2024-12-11 | ChatDyn: Language-Driven Multi-Actor Dynamics Generation in Street Scenes | Yuxi Wei et.al. | 2412.08685 | null | 生成交通参与者在街道场景中的逼真且交互式的动态对于街道场景模拟至关重要。然而,目前缺乏一种全面的方法来生成包括车辆和行人等多种类型参与者的逼真动态,并且这些参与者之间还存在不同类型的互动。在这篇论文中,我们介绍了ChatDyn,这是首个能够基于语言指令生成街道场景中交互式、可控且逼真的参与者动态的系统。为了通过复杂的语言实现精确控制,ChatDyn采用了一种多LLM代理角色扮演的方法,该方法利用自然语言输入来规划不同交通参与者的轨迹和行为。为了根据规划生成逼真的细节动态,ChatDyn设计了两种新的执行器:PedExecutor,这是一种统一的多任务执行器,能够在不同的任务规划下生成逼真的行人动态;以及VehExecutor,这是一种基于物理过渡的策略,用于生成物理上合理的车辆动态。广泛的实验表明,ChatDyn可以生成包含多个车辆和行人的逼真的驾驶场景动态,并在子任务上显著优于以前的方法。代码和模型将在https://vfishc.github.io/chatdyn 获取。 |
2024-12-11 | TapeAgents: a Holistic Framework for Agent Development and Optimization | Dzmitry Bahdanau et.al. | 2412.08445 | null | 我们介绍了TapeAgents,这是一种围绕着粒度化、结构化的会话日志带(log tape)构建的代理框架,该日志带也充当会话的可恢复状态。在TapeAgents中,我们利用日志带来促进LLM代理开发生命周期的所有阶段。代理通过处理日志带和大语言模型(LLM)的输出来生成新的想法和行动步骤,并将其附加到日志带中。环境则通过类似的方式将观察步骤附加到日志带中。由于这种以日志带为中心的设计,TapeAgents能够为AI从业者提供全面的端到端支持。在开发阶段,日志带促进了会话持久性、代理审核和逐步调试。部署后,可以重用日志带进行评估、微调和提示调优;关键的是,可以从其他代理中适应日志带或使用修订后的历史日志带。在本报告中,我们将详细解释TapeAgents的设计。我们通过几个具体示例展示了如何使用TapeAgents构建单体代理和多代理团队,优化代理提示以及微调代理的大语言模型。我们提供了工具原型,并报告了一个案例研究,在该研究中我们使用TapeAgents对一个Llama-3.1-8B表单填充助手进行了微调,使其性能与GPT-4相当,但成本却低了几个数量级。最后,我们的比较分析表明,TapeAgents相较于先前框架的优势源自于我们新颖地设计了可恢复、模块化的状态机,该状态机生成粒度化、结构化的日志,并能够将这些日志转换为训练文本——这是之前工作中所没有的独特组合功能。 |
2024-12-11 | Federated In-Context LLM Agent Learning | Panlong Wu et.al. | 2412.08054 | null | 大型语言模型(LLMs)通过实现逻辑推理、工具使用和与外部系统作为代理进行交互,彻底改变了智能服务。然而,LLM的进步常常受到高质量数据稀缺的阻碍,而这些数据大多具有内在敏感性。联邦学习(FL)提供了一个潜在解决方案,通过促进分布式LLM的协同训练,同时保护私有数据。然而,FL框架面临着显著的带宽和计算需求,并且存在来自异构数据分布的挑战。新兴的LLM上下文学习能力提供了一种有前景的方法,通过聚合自然语言而不是庞大的模型参数。然而,这种方法存在隐私泄露的风险,因为它需要在聚合过程中收集并展示来自不同客户端的数据样本。在本文中,我们提出了一种新颖的隐私保护联邦上下文学习LLM代理学习(FICAL)算法,据我们所知这是首次利用上下文学习的力量通过联邦学习训练各种LLM代理。在我们的设计中,由新型LLM增强的知识编纂生成(KCG)模块生成的知识编纂在客户端和服务器之间传输,而不是像以前的FL方法那样传输模型参数。除此之外,我们还设计了一个基于检索增强生成(RAG)的工具学习和使用(TLU)模块,并将聚合的全局知识编纂作为教师来教导LLM代理工具的使用。我们进行了广泛的实验,结果表明FICAL在与其他最先进的基线相比具有竞争力的同时,通信成本减少了 |
2024-12-11 | MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents | Yun Xing et.al. | 2412.08014 | null | 物理对抗性攻击在驾驶场景中可以揭示视觉感知模型的关键漏洞。然而,由于现实世界背景的多样性以及保持视觉自然性的要求,开发此类攻击仍然具有挑战性。基于这一挑战,我们将物理对抗性攻击重新定义为一次性补丁生成问题。我们的方法通过深度生成模型生成对抗性补丁,该模型考虑了特定场景上下文,从而实现在匹配环境中的直接物理部署。主要挑战在于同时实现两个目标:生成能够有效误导物体检测系统的对抗性补丁,并确定场景中上下文合适的放置位置。我们提出了MAGIC(Mastering Physical Adversarial Generation In Context),一种新颖的框架,由多模态LLM代理驱动以解决这些挑战。MAGIC通过语言和视觉能力的协同交互自动理解场景上下文并协调对抗性补丁的生成。MAGIC协调三个专门的LLM代理:adv-patch生成代理(GAgent)通过提示工程策略掌握欺骗性补丁的创建;adv-patch部署代理(DAgent)确保上下文一致性,基于场景理解确定最优放置策略;自我审查代理(EAgent)通过提供关键监督和迭代优化来完成这一系列工作。我们在数字和物理层面验证了我们的方法,即nuImage和手动捕捉的真实场景中,统计和视觉结果证明了我们的MAGIC对于攻击广泛使用的物体检测系统非常有效。 |
2024-12-10 | Agents for self-driving laboratories applied to quantum computing | Shuxiang Cao et.al. | 2412.07978 | null | 全自动化的自驾驶实验室有望通过减少重复劳动来实现高通量和大规模的科学发现。然而,有效的自动化需要深入整合实验室知识,这些知识通常是非结构化的、多模态的,并且难以融入现有的人工智能系统。本文介绍了一个名为k-代理框架,旨在支持实验者组织实验室知识并使用代理自动化实验。我们的框架采用基于大型语言模型的代理来封装实验室知识,包括可用的实验室操作以及分析实验结果的方法。为了自动化实验,我们引入了执行代理,它们将多步骤的实验程序分解成状态机,与其他代理交互以执行每个步骤并分析实验结果。分析后的结果随后被用来驱动状态转换,从而实现闭环反馈控制。为了展示其能力,我们将这些代理应用于校准和操作一个超导量子处理器,在数小时内自主规划并执行了实验,成功地生成并表征了在人类科学家水平上达到的纠缠量子态。我们的基于知识的代理系统为管理实验室知识和加速科学发现开辟了新的可能性。 |
2024-12-10 | MAGE: A Multi-Agent Engine for Automated RTL Code Generation | Yujie Zhao et.al. | 2412.07822 | link | 自动从自然语言指令生成RTL代码(如Verilog)在大型语言模型(LLMs)的发展中成为一个有前景的方向。然而,生成既符合语法又具备功能正确的RTL代码仍然是一项重大挑战。现有的单一LLM代理方法面临显著的限制,因为它们必须在多种编程语言之间导航,并处理复杂的生成、验证和修改任务。为了解决这些挑战,本文介绍了一个名为MAGE的开源多代理AI系统,该系统专为稳健且准确的Verilog RTL代码生成而设计。我们提出了一种新颖的高温度RTL候选采样和调试系统,能够有效地探索代码候选的空间,并显著提高候选代码的质量。此外,我们还设计了一种新颖的Verilog状态检查点检查机制,能够在早期检测到功能错误并提供精确反馈进行针对性修复,从而显著提升生成的RTL代码的功能正确性。MAGE在VerilogEval-Human 2基准测试中实现了95.7%的语法和功能正确代码生成率,比最先进的Claude-3.5-sonnet高出23.3%,展示了AI驱动的RTL设计工作流程中的稳健和可靠方法。 |
2024-12-11 | Searching for Structure: Investigating Emergent Communication with Large Language Models | Tom Kouwenhoven et.al. | 2412.07646 | null | 人类语言通过反复的语言学习和使用演化成有结构的形式。这些过程引入了在语言习得期间起作用的偏差,使语言系统趋向于提高交流效率。在这篇论文中,我们研究了是否大型语言模型(LLMs)的隐含偏差也会优化人工语言,并产生类似的效果。为此,我们模拟了一个经典的指称游戏,在这个游戏中,LLM代理学习并使用人工语言。我们的结果显示,最初无结构的整体语言确实被塑造成具有某些结构特性,使得两个LLM代理能够成功地进行交流。与人类实验中的观察结果相似,代际传递提高了语言的可学性,但也可能导致非人类特征的退化词汇。综合来看,这项工作扩展了实验发现,表明LLMs可以作为模拟语言演化的工具,并为该领域的未来人机实验开辟了可能性。 |
2024-12-06 | Enhancing LLMs for Impression Generation in Radiology Reports through a Multi-Agent System | Fang Zeng et.al. | 2412.06828 | null | 本文介绍了一种名为“RadCouncil”的多代理大型语言模型(LLM)框架,旨在增强放射学报告中从发现部分生成印象的能力。RadCouncil由三个专门的代理组成:1)“检索”代理,负责识别并从向量数据库中检索相似的报告;2)“放射科医生”代理,基于给定报告的发现部分以及检索代理找到的示例报告生成印象;3)“审查者”代理,对生成的印象进行评估并提供反馈。该框架的性能通过定量指标(如BLEU、ROUGE、BERTScore)和定性标准进行了评估,并使用GPT-4对胸部X光作为案例研究进行了评估。实验结果显示,在多个维度上,包括诊断准确性、风格一致性以及清晰度方面,RadCouncil相比单一代理方法都有所提升。这项研究强调了利用每个代理都具有特定任务的多个交互式LLM代理来增强在专业医疗任务中的表现,并开发更强大和适应性强的医疗AI解决方案的潜力。 |
2024-12-09 | AutoDCWorkflow: LLM-based Data Cleaning Workflow Auto-Generation and Benchmark | Lan Li et.al. | 2412.06724 | link | 我们研究了大型语言模型(LLMs)在自动生成数据清洗工作流方面的推理能力。为了评估LLMs完成数据清洗任务的能力,我们实现了一个基于LLM的自动化数据清洗工作流(AutoDCWorkflow)管道。该管道针对三种类型的数据质量问题:重复项、缺失值和不一致的数据格式,提示LLMs进行数据清洗操作。给定一个脏表和一个目的(以查询形式表达),此管道生成一个最小的清洁表以满足目的,并生成用于产生该表的数据清洗工作流。规划过程涉及三个主要的LLM驱动组件:(1)选择目标列:识别与目的相关的列集。(2)检查列质量:评估每个目标列的数据质量并生成数据质量报告作为操作目标。(3)生成操作及参数:根据数据质量报告结果预测下一个操作及其参数。此外,我们提出了一套数据清洗基准来评估LLM代理自动生成满足不同难度级别数据清洗目的的工作流的能力。该基准包括注释数据集,其中包含目的、原始表、清洁表、数据清洗工作流和答案集。在我们的实验中,我们评估了三种能够自动生成目的驱动的数据清洗工作流的LLMs。结果表明,LLMs在无需微调的情况下,在规划和生成数据清洗工作流方面表现良好。 |
2024-12-09 | Toward LLM-Agent-Based Modeling of Transportation Systems: A Conceptual Framework | Tianming Liu et.al. | 2412.06681 | null | 在交通系统需求建模和仿真中,基于代理的模型和微观仿真方法是当前最先进的方法。然而,现有的基于代理的模型在行为真实性和资源需求方面仍存在一些局限性,限制了它们的应用。在这项研究中,我们利用新兴的大语言模型(LLM)技术和基于LLM的代理,提出了一种用于交通系统的通用LLM代理建模框架。我们认为,LLM代理不仅具备作为代理的基本能力,还提供了克服现有基于代理的模型的一些局限性的有前景的解决方案。我们的概念框架设计紧密地复制了交通网络中人类旅行者在决策和互动过程中的特性和行为,我们通过相关研究和一个LLM代理在瓶颈场景中学习和调整的示范例子表明,所提出的系统可以满足决策和学习行为的关键行为标准。尽管LLM代理建模框架需要进一步完善,但我们认为这种方法有可能改进交通系统建模和仿真。 |
2024-12-09 | Simulating Human-like Daily Activities with Desire-driven Autonomy | Yiding Wang et.al. | 2412.06435 | null | 现有的以任务为导向的AI代理通常依赖于明确的指令或外部奖励,这限制了它们像人类一样由内在动机驱动的能力。在本文中,我们提出了一种基于欲望驱动的自主框架,用于引导基于大型语言模型(LLM)的代理模拟类似人类的日常活动。与之前的代理不同,我们的欲望驱动自主代理(D2A)遵循内在欲望的原则,使其能够自主地提出和选择满足其动机框架的任务。受到需求理论的启发,动机框架包含了对类似人类欲望的理解,如社交互动的需求、个人成就感的需求以及自我照顾的需求。通过使用基于欲望的任务生成机制,代理评估其当前状态并采取一系列与其内在动机一致的活动。通过模拟,我们展示了我们的欲望驱动自主代理(D2A)生成连贯且语境相关的日常活动,同时表现出类似于人类行为的多样性和适应性。与其他基于LLM的框架的比较分析表明,我们的方法显著提高了模拟活动的合理性。 |
2024-12-09 | StarWhisper Telescope: Agent-Based Observation Assistant System to Approach AI Astrophysicist | Cunshi Wang et.al. | 2412.06412 | null | 随着大型语言模型(LLM)的快速发展,基于LLM的代理引入了便捷且用户友好的方法来利用各个领域的工具。在天文观测领域,新望远镜的建设显著增加了天文学家的工作负担。部署基于LLM的代理可以有效减轻这一负担,并降低培训人员的成本。在涵盖三个观测站点八个望远镜的近邻星系超新星巡天(NGSS)项目中,该项目旨在寻找50mpc范围内的星系瞬变现象,我们开发了名为“StarWhisper望远镜系统”来管理整个观测过程。该系统自动化了生成观测列表、进行观测、分析数据和向观察者提供反馈等任务。观测列表根据不同站点和策略定制,以确保对天体的全面覆盖。经过人工验证后,这些列表通过系统中的代理上传到望远镜,代理会在收到中性语言指令时启动观测。观测图像实时分析,并将瞬变现象迅速传达给观察者。代理将其转换为实时跟进观测建议并发送至兴隆观测站群聊,然后将其添加到第二天的观测列表中。此外,系统内AI代理的集成提供了在线访问功能,节省了天文学家的时间,并鼓励业余天文学家更多地参与NGSS项目。 |
2024-12-09 | Beyond pip install: Evaluating LLM Agents for the Automated Installation of Python Projects | Louis Milliken et.al. | 2412.06294 | link | 近期许多研究提出了使用基于大语言模型(LLM)的代理来执行所谓的“仓库级”任务,这些任务的范围通常超过单个文件。这引发了人们的推测,认为这种仓库级任务的协调可以导致几乎不需要人工干预的软件工程代理。然而,我们认为在这一系列需要由自主软件工程代理执行的任务中,有一个重要任务被忽略了,即通过安装其他仓库来满足项目级别的依赖关系。为了探讨这一仓库级安装任务的可行性,我们引入了一个基准测试集,该测试集从40个开源Python项目中精选而来,并包含了每个目标仓库的实际安装过程作为真实情况。此外,我们提出了一种名为Installamatic的代理,其目标是通过搜索仓库中的文档以寻找相关安装说明来执行并验证仓库的安装。实证实验表明,我们的代理至少有10%的概率能够自动安装55%的研究仓库。通过进一步分析,我们识别了代理无法安装仓库的常见原因,讨论了设计和实现此类代理所面临的挑战,并考虑了这样的代理对开发者可能产生的影响。 |
2024-12-08 | Cooperative SQL Generation for Segmented Databases By Using Multi-functional LLM Agents | Zhiguang Wu et.al. | 2412.05850 | null | 文本到SQL的任务旨在根据用户的文本问题自动生成SQL查询。为了解决这个问题,我们提出了一种基于多功能代理的协作SQL生成框架(CSMA),该框架通过大型语言模型(LLM)代理之间的信息交互来实现。受到人类团队合作的启发,CSMA分为三个阶段:1)与问题相关的模式收集;2)与问题对应的SQL查询生成;3)SQL查询正确性检查。在第一阶段,代理分析各自的模式,并相互交流以收集与问题相关的信息。在第二阶段,代理利用收集到的信息尝试为问题生成相应的SQL查询。在第三阶段,代理根据已知信息检查SQL查询是否生成正确。这种基于交互的方法使每个代理所掌握的问题相关的数据库模式部分能够用于SQL生成和检查。在Spider和Bird基准上的实验表明,CSMA达到了与最先进方法相当的高水平性能,同时保持了这些独立代理中的私有数据。 |
2024-12-06 | Sense and Sensitivity: Evaluating the simulation of social dynamics via Large Language Models | Da Ju et.al. | 2412.05093 | null | 大型语言模型近年来被提议作为经典基于主体的模型(ABMs)的强大替代品,用于模拟社会动态。通过使用大型语言模型作为人类行为的代理,这种方法的希望在于能够模拟比传统ABM更为复杂的动态,并在社会科学、政治科学和经济学等领域获得新的见解。然而,由于大型语言模型的黑箱性质,目前尚不清楚这些模型是否真正执行了自然语言指令中编码的预期语义,以及由此产生的交互动态是否有意义。为了研究这个问题,我们提出了一种新的评估框架,该框架将大型语言模型的模拟与已建立的社会科学研究参考模型中的动态相结合。通过将大型语言模型视为一个黑盒函数,我们相对于这个参考模型评估其输入-输出行为,这使我们能够评估其行为的详细方面。我们的结果显示,虽然可以设计提示词来近似预期的动态,但这些模拟的质量对提示词的具体选择非常敏感。重要的是,模拟甚至对任意变化(如轻微措辞变化和空格)也非常敏感。这引发了对于当前版本的大型语言模型在有意义模拟中的效用的质疑,因为在没有参考模型的情况下,无法预先确定看似无意义的提示词变化对模拟的影响。 |
2024-12-05 | Practical Considerations for Agentic LLM Systems | Chris Sypherd et.al. | 2412.04093 | null | 随着大型语言模型(LLMs)近年来实力的增强,人们对将其作为自主代理基础模型的兴趣也在增加。尽管LLMs在自然语言领域展示了涌现能力和广泛的专业知识,但其固有的不可预测性使得实现LLM代理具有挑战性,从而导致相关研究与此类系统实际部署之间的差距。为了弥合这一差距,本文将研究社区中的可行见解和考虑因素置于已建立的应用程序范式背景下,以促进稳健LLM代理的构建和部署。具体而言,我们根据应用导向文献中的常见做法,将相关研究结果定位到四个广泛的类别——规划、记忆、工具和控制流,并强调在设计面向现实世界应用的代理型LLM时需要考虑的实际问题,例如处理随机性和高效管理资源等。虽然我们未进行实证评估,但我们提供了必要的背景知识,以便在学术界和工业界讨论代理型LLM设计的关键方面。 |
2024-12-05 | LossAgent: Towards Any Optimization Objectives for Image Processing with LLM Agents | Bingchen Li et.al. | 2412.04090 | null | 我们提出了首个损失代理LossAgent,用于低级图像处理任务,如图像超分辨率和修复,旨在实现不同实际应用中的任何定制化优化目标。值得注意的是,并非所有优化目标(例如复杂的手工设计的感知度量、文本描述以及复杂的人类反馈)都可以通过现有的低级损失函数(如均方误差损失)来实现,这在端到端优化图像处理网络时构成了一个关键挑战。为了解决这个问题,我们的LossAgent引入了强大的大型语言模型(LLM)作为损失代理,在优化过程中赋予损失代理理解复杂优化目标、轨迹和外部环境状态反馈的能力。具体来说,我们通过整合支持低级图像处理端到端优化的现有损失函数建立了损失库。然后,我们设计了面向优化的提示工程,使损失代理能够主动且智能地决定每次优化交互中库中每个损失的组成权重,从而实现任何定制化优化目标所需的优化轨迹。在三个典型的低级图像处理任务和多种优化目标上的广泛实验表明,我们提出的LossAgent是有效且适用的。代码和预训练模型将在https://github.com/lbc12345/LossAgent 获取。 |
2024-12-05 | MISR: Measuring Instrumental Self-Reasoning in Frontier Models | Kai Fronsdal et.al. | 2412.03904 | link | 我们提出了一组任务来评估大型语言模型(LLM)代理的工具性自我推理能力。这种工具性自我推理能力可以提高适应性和实现自我修改,但也可能带来显著风险,如导致欺骗性对齐问题。先前的工作仅在非代理设置或有限领域内评估了自我推理。在这篇论文中,我们提出了针对在广泛场景中的代理任务的评估方法,包括自我修改、知识获取和不透明的自我推理。我们评估了使用最先进的LLMs构建的代理,包括商业系统和开源系统。我们发现,工具性自我推理能力仅在最强大的前沿模型中显现,并且高度依赖于上下文。没有模型通过我们评估中最困难的部分,因此我们的评估可以用于衡量未来模型在工具性自我推理能力方面的进步。我们将这些评估开源在https://github.com/kaifronsdal/Self-Reasoning-Evals。 |
2024-12-05 | Educational-Psychological Dialogue Robot Based on Multi-Agent Collaboration | Shiwen Ni et.al. | 2412.03847 | null | 智能对话系统在现代教育和心理辅导领域中的应用越来越广泛,但大多数现有的系统仅限于单一领域,无法同时处理教育和心理问题,并且在处理复杂问题时往往缺乏准确性和专业性。为了解决这些问题,本文提出了一种结合教育和心理辅导功能的智能对话系统。该系统由多个AI代理组成,包括安全检测代理、意图识别代理、教育大型语言模型代理和心理大型语言模型代理,这些代理协同工作,以确保提供准确的教育知识问答和心理支持服务。具体来说,系统通过意图分类模型识别用户输入的意图,并调用经过增强检索的教育大模型和使用心理数据微调的心理大模型,以提供专业的教育建议和心理支持。 |
2024-12-04 | From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents | Xinyi Mou et.al. | 2412.03563 | link | 传统的社会学研究通常依赖于人类的参与,尽管这种方法有效,但成本高昂、难以扩展,并且存在伦理问题。最近,大型语言模型(LLMs)的发展突显了它们模拟人类行为的潜力,使得个体反应的复制和跨多个跨学科研究成为可能。本文对这一领域进行了全面调查,展示了由LLM驱动的代理所推动的最新进展。我们将这些模拟分为三类:(1)个体模拟,模仿特定个人或人口群体;(2)场景模拟,在特定上下文中,多个代理协作以实现目标;(3)社会模拟,模拟代理社会中的互动,反映现实世界动态的复杂性和多样性。这些模拟从详细的个体建模到大规模的社会现象,呈现了一个渐进的过程。我们详细讨论了每种模拟类型,包括模拟的架构或关键组件、目标或场景分类以及评估方法。随后,我们总结了常用的基准数据集。最后,我们讨论了这三种模拟类型的趋势。相关资源库位于{\url{https://github.com/FudanDISC/SocialAgent}}。 |
2024-12-03 | Hacking CTFs with Plain Agents | Rustem Turtayev et.al. | 2412.02776 | link | 我们在高中的水平黑客基准测试中充分展示了基于大型语言模型(LLM)的简单代理设计的应用。具体来说,我们通过使用提示、工具使用和多次尝试,在流行的进攻性安全基准测试InterCode-CTF上达到了95%的性能。这一成绩超越了之前Phuong等人2024年的工作(29%)和Abramovich等人2024年的工作(72%)。我们的结果表明,当前的LLMs在进攻性网络安全方面已经超过了高中水平。它们的黑客能力仍未得到充分利用:我们的ReAct&Plan提示策略能够在1到2次交互内解决许多挑战,而无需复杂的工程或高级的利用技术。 |
2024-12-04 | DataLab: A Unified Platform for LLM-Powered Business Intelligence | Luoxuan Weng et.al. | 2412.02205 | null | 商业智能(BI)通过将现代组织中的大量数据转化为可操作的洞察,帮助进行明智的决策。最近,基于大型语言模型(LLM)的代理简化了BI工作流程,使任务规划、推理和在可执行环境中基于自然语言(NL)查询的动作自动化。然而,现有方法主要集中在个别BI任务上,如NL2SQL和NL2VIS。这些碎片化的任务分布在不同的数据角色和工具中,导致由于BI的迭代和协作性质而产生的低效率和潜在错误。在本文中,我们介绍了DataLab,这是一个统一的BI平台,它结合了一站式LLM代理框架和增强的计算笔记本界面。DataLab通过在一个环境中无缝结合LLM支持与用户定制,支持不同数据角色的各种BI任务。为了实现这种统一,我们设计了一个专门针对企业特定BI任务的领域知识整合模块,一个促进BI工作流程中信息共享的代理间通信机制,以及一种基于单元格的上下文管理策略,以提高BI笔记本中上下文利用的效率。广泛的实验表明,DataLab在各种流行研究基准上实现了最先进的性能。此外,DataLab在来自腾讯的真实世界数据集上保持了高效和高效果,在企业特定BI任务上的准确率提高了58.58%,令牌成本降低了61.65%。 |
2024-12-02 | HackSynth: LLM Agent and Evaluation Framework for Autonomous Penetration Testing | Lajos Muzsai et.al. | 2412.01778 | link | 我们介绍了HackSynth,这是一种基于大型语言模型(LLM)的新型自主渗透测试代理。HackSynth采用双模块架构,包括规划器和总结器,使其能够迭代生成命令并处理反馈。为了评估HackSynth,我们提出了两个新的基于夺旗(CTF)的基准测试集,使用了流行的平台PicoCTF和OverTheWire。这些基准测试集包括两百个不同领域和难度的挑战,提供了一个标准化框架来评估基于LLM的渗透测试代理。根据这些基准测试,我们进行了广泛的实验,分析了HackSynth的核心参数,包括创造性(温度和top-p)以及令牌利用率。我们使用多个开源和专有LLM来衡量该代理的能力。实验表明,该代理在GPT-4o模型下表现最佳,优于GPT-4o系统卡所建议的效果。我们还讨论了HackSynth行动的安全性和可预测性。我们的研究结果表明,基于LLM的代理在推进自主渗透测试方面具有潜力,并强调了建立稳健保障措施的重要性。HackSynth及其基准测试集已公开供研究自主网络安全解决方案之用。 |
2024-12-02 | Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking | Jie Liu et.al. | 2412.01605 | null | 临床决策制定(CDM)是医疗保健交付中的一个复杂动态过程,但对于人工智能系统来说仍然是一个重大挑战。虽然基于大型语言模型(LLM)的代理在一般医学知识方面通过执照考试和知识问答任务进行了测试,但在现实世界场景中的临床决策制定表现有限,这主要是由于缺乏能够反映实际医疗实践的全面测试数据集。为了解决这一差距,我们介绍了MedChain,这是一个包含12,163个临床病例的数据集,涵盖了临床工作流程的五个关键阶段。MedChain通过三个关键特征——个性化、互动性和连续性,与现有基准区分开来。为了应对现实世界的临床决策制定挑战,我们还提出了MedChain-Agent,这是一种集成反馈机制和MCase-RAG模块的人工智能系统,可以学习之前的案例并调整其响应。MedChain-Agent在动态收集信息和处理连续临床任务方面表现出显著的适应性,明显优于现有方法。相关数据集和代码将在本文被接受后发布。 |
2024-12-02 | Can Large Language Models Serve as Evaluators for Code Summarization? | Yang Wu et.al. | 2412.01333 | link | 代码总结对于程序理解和软件维护至关重要,但评估生成的代码总结质量一直是一个挑战。尽管人工评估在评估代码总结质量方面非常有效,但它劳动密集且难以规模化。常用的自动指标如BLEU、ROUGE-L、METEOR和BERTScore通常与人类判断不完全一致。本文探讨了大型语言模型(LLMs)在评估代码总结中的潜力,提出了一种名为CODERPE(代码总结评估的角色扮演者)的新方法,该方法利用角色扮演提示来评估生成总结的质量。具体而言,我们让LLM代理扮演不同的角色,如代码审查员、代码作者、代码编辑器和系统分析师。每个角色从连贯性、一致性、流畅性和相关性等关键维度评估代码总结的质量。我们进一步通过多种提示策略,包括因果推理、情境学习和定制评分表设计,探索了LLMs作为评估者的稳健性。结果表明,LLMs可以有效地评估代码总结方法。特别是,我们的基于LLM的评估器CODERPE在与人类评估的相关性上达到了81.59%的Spearman相关系数,比现有的BERTScore指标高出17.27%。 |
2024-12-02 | RL2: Reinforce Large Language Model to Assist Safe Reinforcement Learning for Energy Management of Active Distribution Networks | Xu Yang et.al. | 2412.01303 | null | 随着大规模分布式能源资源被整合到主动配电网络(ADNs)中,与传统配电网络相比,有效的能源管理在ADNs中变得越来越突出。尽管先进的强化学习(RL)方法通过减轻复杂的建模和优化负担,极大地提高了ADNs中能源管理的效率,但安全性成为实际应用中RL的关键关注点。由于设计和调整惩罚函数(对应于操作安全约束)需要广泛的领域知识,因此新兴的ADN运营商需要一种更灵活和定制化的方法来处理惩罚函数,以进一步提高操作的安全性和效率。借助强大的理解、推理和上下文学习能力,大型语言模型(LLMs)提供了一种有前途的方式来辅助ADNs中的安全RL。在本文中,我们引入了LLM来理解ADNs中的操作安全要求并生成相应的惩罚函数。此外,我们提出了一个RL2机制,通过多轮对话迭代地和自适应地优化生成的函数,在这个过程中,LLM代理根据下游RL代理的训练和测试性能调整函数的模式和参数。所提出的方法显著减少了ADN运营商的干预。综合测试结果证明了该方法的有效性。 |
2024-12-02 | SAUP: Situation Awareness Uncertainty Propagation on LLM Agent | Qiwei Zhao et.al. | 2412.01033 | null | 大型语言模型(LLMs)集成到多步代理系统中能够实现各种应用中的复杂决策过程。然而,它们的输出往往缺乏可靠性,因此不确定性估计变得至关重要。现有的不确定性估计方法主要集中在最终步骤的输出上,这些方法未能考虑到在多步决策过程中累积的不确定性以及代理与其环境之间的动态交互。为了应对这些局限性,我们提出了一种名为SAUP(情境感知不确定性传播)的新框架,该框架通过LLM驱动的代理推理过程中的每一步来传播不确定性。SAUP通过在传播过程中为每个步骤的不确定性分配情境权重来整合情境感知能力。我们的方法兼容各种一步不确定性估计技术,提供了全面且准确的不确定性度量。在基准数据集上的广泛实验表明,SAUP显著优于现有的最先进方法,AUROC值提高了多达20%。 |
2024-11-28 | SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments | Yue Cao et.al. | 2412.00114 | null | 大型视觉-语言模型(LVLMs)在解释视觉内容方面展示了显著的能力。尽管现有工作表明这些模型对故意放置的对抗性文本存在脆弱性,但这些文本通常容易被识别为异常。本文提出了一种生成场景连贯的字体对抗攻击的方法,以误导先进的LVLMs,同时保持视觉自然性,通过使用基于大语言模型(LLM)的代理实现。我们的方法解决了三个关键问题:生成何种对抗性文本,将其置于场景中的何处,以及如何无缝整合。我们提出了一个无需训练、多模态LLM驱动的场景连贯字体对抗规划(SceneTAP),该方法采用三阶段过程:场景理解、对抗性规划和无缝整合。SceneTAP利用链式思维推理来理解场景,制定有效的对抗性文本,战略性地规划其位置,并提供详细的指令以在图像中自然整合。随后,我们使用一种场景连贯的TextDiffuser执行攻击,该方法采用局部扩散机制。我们将该方法扩展到现实场景中,通过打印并放置生成的补丁在物理环境中,展示了其实际应用价值。广泛的实验表明,我们提出的场景连贯的对抗性文本成功误导了最先进的LVLMs,包括ChatGPT-4o,即使在捕获新图像后也是如此。我们的评估显示,攻击成功率显著提高,同时保持了视觉自然性和上下文适宜性。这项工作揭示了当前视觉-语言模型对复杂、场景连贯的对抗性攻击的脆弱性,并提供了潜在防御机制的见解。 |
2024-11-29 | Training Agents with Weakly Supervised Feedback from Large Language Models | Dihong Gong et.al. | 2411.19547 | null | 大型语言模型(LLMs)为创建可以通过迭代环境交互来解决复杂任务的代理提供了有前景的基础。现有方法要么要求这些代理模仿专家提供的轨迹,要么依赖于确定性的环境反馈来进行强化学习,这限制了它们的应用场景,例如游戏或代码生成。本文介绍了一种新的基于弱监督信号从批评者LLM训练LLM代理的方法,从而绕过了对专家轨迹或确定性反馈的需求。我们的代理以迭代方式训练,首先通过环境交互生成轨迹。随后,一个批评者LLM选择一组好的轨迹,然后使用这些轨迹来更新代理,使其在下一次迭代中生成更好的轨迹。在API-bank数据集上的广泛测试表明,尽管使用的是参数少得多的开源模型,但我们的代理能力得到了持续提升,并且性能可与GPT-4相媲美。 |
2024-11-28 | Using a Feedback Loop for LLM-based Infrastructure as Code Generation | Mayur Amarnath Palavalli et.al. | 2411.19043 | link | 代码生成借助大语言模型(LLMs)已经帮助提高了软件开发人员在编码任务中的生产力,但在围绕代码的其他软件开发任务方面影响甚微。特别是基础设施管理仍然是一个悬而未决的问题。我们研究了使用LLM代理利用基础架构即代码(IaC)范式构建基础架构的能力。我们特别研究了使用反馈循环的方法,该循环返回生成的IaC的错误和警告,以允许LLM代理改进代码。我们发现,每次循环迭代后,其有效性呈指数下降,直到达到某个点并变得无效。 |
2024-12-02 | MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications | Vishnou Vinayagame et.al. | 2411.18915 | null | 数学推理能力随着工具增强的语言代理的使用而提升,但这些方法往往依赖于闭源或大型模型、外部数据或大量的提示工程。本文介绍了一种名为MATATA的新颖成本效益方法,用于通过推理、规划和工具使用来训练处理表格数据问题的大型语言模型(LLMs)。通过渐进自我改进范式和迭代弱监督机制,该方法特别适合本地托管和对数据隐私至关重要的敏感业务场景,使用的模型规模为38亿/80亿参数的小型语言模型(SLMs)。通过采用灵活且可重用的工具在不同数据集上,该方法实现了在共享任务中的稳健性能和有效扩展。实验表明,MATATA在基于开源模型的推理框架中,在FinQA和TAT-QA任务上达到了最先进的性能。此外,MATATA模型在TabMWP任务上的表现与基于GPT-4的框架相当,而MATATA本身是小型语言模型。 |
2024-11-28 | Wearable intelligent throat enables natural speech in stroke patients with dysarthria | Chenyu Tang et.al. | 2411.18266 | null | 可穿戴无声语音系统在恢复有言语障碍患者的交流能力方面具有巨大潜力。然而,流畅且连贯的语音仍然难以实现,临床疗效也尚未得到证实。本文介绍了一种由人工智能驱动的智能喉(IT)系统,该系统结合了喉咙肌肉振动和颈动脉脉冲信号传感器与大型语言模型(LLM)处理技术,以实现流畅且富有情感表达的交流。该系统利用超灵敏纺织品应变传感器捕捉颈部区域的高质量信号,并支持令牌级处理,实现实时、连续的语音解码,从而实现无缝、无延迟的通信。在五名患有构音障碍的中风患者测试中,IT系统的LLM代理智能地纠正了令牌错误并丰富了句子级别的感情和逻辑连贯性,实现了低错误率(4.2%的词错误率,2.9%的句错误率)以及用户满意度提高了55%。这项研究建立了一个便携式、直观的交流平台,适用于构音障碍患者,并有可能广泛应用于不同的神经性疾病及多语言支持系统。 |
2024-11-26 | MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation | Harsh Singh et.al. | 2411.17636 | null | 大型语言模型(LLMs)在各个领域,包括机器人操作和导航,展示了显著的规划能力。尽管最近在机器人技术中的努力已经利用了LLMs进行高层次和低层次的规划,但这些方法通常面临重大挑战,例如在长期任务中的幻觉问题以及由于一次性生成计划而缺乏适应性的问题。为了应对这些限制,我们提出了一种新颖的多代理LLM框架——多代理大型语言模型用于操作(MALMM),该框架将高层次规划和低层次控制代码生成分布在专门的LLM代理之间,并由一个额外的代理动态管理转换。通过在每一步之后纳入环境观察,我们的框架能够有效地处理中间失败并实现自适应重规划。与现有方法不同的是,我们的方法不依赖于预训练的技能策略或上下文学习示例,并且可以推广到各种新任务。我们在九个RLBench任务上评估了我们的方法,包括长期任务,并证明了它能够在零样本设置下解决机器人操作问题,从而克服了现有基于LLM的操作方法的关键限制。 |
2024-11-26 | LLM-Based Offline Learning for Embodied Agents via Consistency-Guided Reward Ensemble | Yujeong Lee et.al. | 2411.17135 | null | 利用大型语言模型(LLMs)来使具身代理变得流行,但在实践中也呈现出许多限制。在这项工作中,我们没有直接将LLMs作为代理使用,而是探索它们作为具身代理学习的工具。具体来说,为了通过离线强化学习(RL)训练单独的代理,LLM被用来在训练数据集中对单个动作提供密集的奖励反馈。为此,我们提出了一种一致性引导的奖励集成框架(CoREN),旨在解决将LLM生成的估计值与目标环境领域相结合的难题。该框架采用自适应集成的空间-时间一致奖励,以从训练数据集中推导出领域锚定的奖励,从而实现不同环境领域中有效离线学习具身代理。实验结果表明,在VirtualHome基准测试中,CoREN显著优于其他离线RL代理,并且其性能可与具有8B参数的最先进的LLM基代理相媲美,尽管CoREN的代理策略网络仅具有117M参数,并且仅在训练时使用LLMs。 |
2024-11-23 | Two Heads Are Better Than One: Collaborative LLM Embodied Agents for Human-Robot Interaction | Mitchell Rosser et.al. | 2411.16723 | null | 随着自然语言生成模型——即大规模语言模型(LLMs)的最新发展,出现了一种潜在的应用场景,即通过这些模型来改善人类与机器人助手之间的交互。这些模型应能够利用其广泛的理解能力,将自然语言命令转化为有效的、符合任务需求且安全的机器人任务执行。然而,在现实中,这些模型可能会产生幻觉,这可能导致安全问题或偏离任务。在其他领域,这些问题已经通过使用协作式AI系统得到改进,在这种系统中,多个LLM代理可以协同工作,共同规划、编码和自我检查输出。在这项研究中,测试了多个协作式AI系统与单一独立AI代理的表现,以确定其他领域的成功是否会在提高人机交互性能方面发挥作用。结果显示,并没有明确的趋势表明代理数量与模型成功率之间存在关联。然而,显而易见的是,某些协作式AI代理架构可以大大提升生成无误代码和解决抽象问题的能力。 |
2024-11-25 | Agent-Based Modelling Meets Generative AI in Social Network Simulations | Antonino Ferraro et.al. | 2411.16031 | null | 基于代理的建模(ABM)已成为模拟社交网络的重要工具,涵盖了信息传播、影响力动态和社区形成等多种现象。然而,手动配置多样的代理交互和信息流动态存在挑战,通常导致模型过于简化,缺乏现实世界的普适性。将现代大语言模型(LLM)与ABM结合提供了一种有前景的方法来解决这些挑战并增强模拟的真实性,利用LLM在感知、推理和行为方面的人类化能力。在本文中,我们提出了一种新颖的框架,利用LLM赋能的代理根据用户的兴趣和个性特征模拟社交网络用户。该框架允许自定义代理交互,类似于各种社交网络平台,包括内容重分享和个性化推荐机制。我们使用2020年美国大选期间的全面推特数据集验证了我们的框架,结果表明LLM代理能够准确再现真实用户的语言模式和政治倾向。这些代理形成了同质化的意识形态集群,并保留了其社区的主要主题。值得注意的是,基于偏好的推荐显著影响了代理行为,促进了更高的参与度、网络同质性和回音室的形成。总体而言,我们的研究结果强调了LLM代理在推进社交媒体模拟和揭示复杂的在线动态方面的潜力。 |
2024-11-24 | From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards | Ziyu Chen et.al. | 2411.15891 | null | 大型语言模型(LLMs)和强化学习(RL)是构建自主代理的两种强大方法。然而,由于对游戏环境的理解有限,代理常常依赖于低效的探索和试错,难以制定长期策略或做出决策。我们提出了一种从交互记录中提取经验以建模游戏环境底层规律的方法,利用这些经验作为内部动机来指导代理。这些经验以语言形式表达,非常灵活,既可以辅助代理直接推理,也可以转化为奖励来引导训练。我们的评估结果显示,在Crafter游戏中,无论是RL还是LLM代理都从这些经验中受益,从而提高了整体性能。 |
2024-11-23 | The Decoy Dilemma in Online Medical Information Evaluation: A Comparative Study of Credibility Assessments by LLM and Human Judges | Jiqun Liu et.al. | 2411.15396 | null | 尽管在衡量和减轻人工智能(AI)和社会算法偏见方面取得了进展,但对于大规模语言模型(LLM)在自动化信息判断任务中的理性行为程度,以及它们是否也容易受到人类认知偏差的影响,仍不清楚。为了应对这一开放性问题,本研究通过众包用户实验和基于LLM的模拟实验,比较了在信息检索(IR)环境下,LLM和人类法官在潜在诱饵效应下的可信度评估,并实证检验了LLM在COVID-19医学(误)信息评估任务中的认知偏差程度与传统人类评估者相比的情况。结果显示,1)更大且较新的LLM在区分可信信息与虚假信息时表现出更高的一致性和准确性。然而,由于存在更突出的虚假信息诱饵结果,它们更容易对虚假信息给出更高的评分;2)虽然诱饵效应在人类和LLM的评估中都存在,但在不同条件和主题下的LLM判断中,该效应更为普遍。与通常认为的AI工具“理性”假设相反,本研究表明LLM代理嵌入了认知偏差风险,并评估了诱饵效应对LLM与人类可信度评估的影响,从而强调了去偏见AI代理和发展心理学驱动的AI审计技术和政策的重要性,以应对自动化判断任务及更广泛的应用。 |
2024-11-27 | XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models | Yixin Dong et.al. | 2411.15100 | null | LLM(大语言模型)代理的应用变得越来越复杂和多样化,导致对可以解析为代码、结构化函数调用和具身代理命令的结构化输出有很高的需求。这些发展带来了在LLM推理中进行结构化生成的重大需求。上下文无关文法是一种通过约束解码来实现结构化生成的灵活方法。然而,执行上下文无关文法需要在运行时遍历词汇表中的所有标记经过多个堆栈状态,这给结构化生成带来了不可忽视的开销。在这篇论文中,我们提出了XGrammar,这是一种针对大型语言模型的灵活且高效的结构化生成引擎。XGrammar通过将词汇表分为可以在预检查阶段处理的上下文无关标记和在运行时需要解释的上下文相关标记,从而加速上下文无关文法的执行。我们进一步构建转换以扩展语法上下文并减少上下文无关标记的数量。此外,我们构建了一个高效的持久堆栈以加速上下文相关标记的检查。最后,我们将语法引擎与LLM推理引擎协同设计,以使语法计算与GPU执行重叠。评估结果显示,XGrammar相比现有解决方案可以达到高达100倍的速度提升。结合LLM推理引擎,它能够在端到端低延迟LLM服务中实现近乎零开销的结构化生成。 |
2024-11-22 | ScribeAgent: Towards Specialized Web Agents Using Production-Scale Workflow Data | Junhong Shen et.al. | 2411.15004 | link | 大型语言模型(LLM)代理正在迅速进步,以处理越来越复杂的网络任务。大多数这些代理依赖于像GPT-4这样的通用专有模型,并专注于设计更好的提示以提高其规划能力。然而,通用的LLM并没有专门针对理解特定的网络上下文如HTML进行训练,它们通常在长期规划方面存在困难。我们探索了一种替代方法,即使用来自超过250个领域的生产规模工作流数据(共计60亿个标记)对开源LLM进行微调。这一简单而有效的方法在现有的基准测试中显著优于基于提示的代理——ScribeAgent在Mind2Web上实现了最先进的直接生成性能,并在WebArena上将前最佳纯文本网络代理的任务成功率提高了14.1%。我们进一步对各种微调设计选择进行了详细的消融研究,并提供了有关LLM选择、训练配方、上下文窗口优化和数据集大小影响的见解。 |
2024-11-21 | Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning | Hang Zhou et.al. | 2411.14497 | link | 大型语言模型(LLMs)在下游任务中的有效性通常依赖于指令调优,而这又严重依赖于训练数据的质量。不幸的是,收集高质量且多样化的数据既昂贵又耗时。为了解决这个问题,我们提出了一种名为Star-Agents的新型框架,该框架通过多智能体协作和评估自动化地提升了跨数据集的数据质量。该框架采用三管齐下的策略。首先,它通过定制的采样方法利用多个LLM智能体生成多样化的指令数据。随后,生成的数据会经过严格的评估,使用双模型方法来评估难度和质量。最后,在动态优化阶段,更有效的LLM被优先考虑,从而提高整体数据质量。我们的实证研究,包括使用Pythia和LLaMA等模型进行指令调优实验,证明了所提议框架的有效性。优化后的数据集取得了显著改进,平均提高了12%,并在特定指标上也取得了显著提升,例如Fermi指标提高了40%,这在MT-bench、Vicuna bench和WizardLM测试集等基准测试中得到了验证。 |
2024-11-20 | Mediating Modes of Thought: LLM's for design scripting | Moritz Rietschel et.al. | 2411.14485 | null | 建筑师采用视觉脚本和参数化设计工具来探索更广阔的设计空间(Coates,2010年),精炼他们对设计几何逻辑的理解(Woodbury,2010年),并克服传统软件的局限性(Burry,2011年)。尽管已有二十年的努力使设计脚本更加易于使用,但设计师自由思考方式与算法的严格性之间仍存在脱节(Burry,2011年)。最近大型语言模型(LLM)的发展表明,这种情况可能会很快改变,因为LLM编码了人类语境的一般理解,并表现出生成几何逻辑的能力。本项目推测,如果LLM能够有效地在用户意图与算法之间进行调解,它们将成为一种强大的工具,使设计中的脚本编写更加普及且有趣。我们探讨了此类系统是否可以通过解释自然语言提示来组装与计算设计脚本相关的几何操作。在这个系统中,配置了多个具有特定上下文的LLM代理,以推断用户意图并构建顺序逻辑。给定用户的高层次文本提示,会创建一个几何描述,提炼成一系列逻辑操作,并映射到特定于软件的命令。最终脚本会在用户的可视化编程界面中构建。该系统成功生成了具有一定复杂度的完整可视化脚本,但在超出这一复杂度阈值时失败。这展示了LLM如何使设计脚本更贴近人类的创造力和思维。未来的研究应探索对话交互、扩展多模态输入和输出,并评估这些工具的性能。 |
2024-11-21 | Physics-Informed LLM-Agent for Automated Modulation Design in Power Electronics Systems | Junhua Liu et.al. | 2411.14214 | null | 基于大型语言模型(LLM)的自主代理在解决复杂的工业任务方面已经展示了出色的表现。然而,在追求碳中性和高性能可再生能源系统的过程中,现有的AI辅助设计自动化面临着在解释性、可扩展性和可用性方面的重大局限。为了解决这些挑战,我们提出了LP-COMDA,这是一种基于LLM、物理信息驱动的自主代理,它能够自动化电力电子系统中功率转换器的调制设计,并且只需要最少的人类监督。与传统的AI辅助方法不同,LP-COMDA包含一个基于LLM的规划器,该规划器通过用户友好的聊天界面收集和验证设计规范。然后,规划器协调物理信息驱动的设计和优化工具,迭代地自动生成并优化调制设计。通过聊天界面,LP-COMDA提供了可解释的设计过程,展示了解释和图表。实验表明,LP-COMDA在标准平均绝对误差方面比第二好的基准方法减少了63.2%的误差,优于所有基线方法。此外,对20位专家进行的实证研究表明,使用LP-COMDA的设计时间比传统方法快33倍以上,显示出其在设计效率上的显著提升。 |
2024-11-21 | Multi-LLM-Agent Systems: Techniques and Business Perspectives | Yingxuan Yang et.al. | 2411.14033 | null | 在多模态大型语言模型的时代,大多数操作过程可以通过LLM代理重新制定和再现。这些LLM代理可以感知、控制并从环境中获得反馈,从而以自主的方式完成给定任务。除了与环境交互的特性外,LLM代理还可以调用各种外部工具来简化任务完成过程。这些工具可以被视为具有私有或实时知识的预定义操作流程,这些知识不存在于LLM的参数中。作为发展的自然趋势,被调用的工具正逐渐成为自主代理,因此完整的智能系统变成了一个多LLM代理系统(MLAS)。本文讨论了MLAS的技术和商业前景。与之前的单个LLM代理系统相比,MLAS的优势在于:i)更高的任务解决性能潜力;ii)更高的系统变更灵活性;iii)每个参与实体的数据隐私保护;以及iv)每个实体的货币化可行性。为了支持MLAS的生态系统,我们提供了一个初步版本的MLAS协议,考虑了技术要求、数据隐私和业务激励。因此,MLAS将是实现未来人工智能集体智能的一种实用解决方案。 |
2024-11-21 | Towards Full Delegation: Designing Ideal Agentic Behaviors for Travel Planning | Song Jiang et.al. | 2411.13904 | null | 如何在未来利用基于大语言模型(LLM)的代理?尽管现有工作大多集中在提升特定任务族的性能上,本研究从一个不同的视角出发,探讨全面委托的概念:代理接管人类的日常决策过程,并被人类信任以找到满足个性化需求且适应不断变化环境的解决方案。为了实现这一目标,代理的行为,即自主行为,不仅应根据其成就(即结果评估)进行评价,还应根据其达成这些成就的方式(即过程评估)进行评价。为此,我们提出了APEC代理规范,这是一系列准则,代理应遵循以展示良好的自主行为,包括准确性、主动性、效率和可信度。为了验证APEC是否符合人类偏好,我们开发了APEC-Travel,这是一个旅游规划代理,它通过与旅行者的多轮对话主动提取隐藏的个性化需求。APEC-Travel完全由Llama3.1-405B-Instruct生成的合成数据构建而成,模拟了旅行者个性的丰富分布对话。经过迭代微调以遵循APEC代理规范,APEC-Travel在基于规则的指标上比基线高出20.7%,在LLM作为裁判的得分上高出9.1%。 |
2024-11-21 | Next-Generation Phishing: How LLM Agents Empower Cyber Attackers | Khalifa Afane et.al. | 2411.13874 | null | 日益增长的网络钓鱼邮件威胁变得越来越复杂,这与大型语言模型(LLM)的兴起密切相关。攻击者利用LLM来编写更具说服力和规避检测的网络钓鱼邮件,因此评估当前网络钓鱼防御系统的韧性变得至关重要。在这项研究中,我们对传统的网络钓鱼检测器(如Gmail垃圾邮件过滤器、Apache SpamAssassin和Proofpoint)以及机器学习模型(如SVM、逻辑回归和朴素贝叶斯)进行了全面评估,以识别传统网络钓鱼邮件和经过LLM重写的网络钓鱼邮件。我们还探讨了LLM作为网络钓鱼检测工具的新角色,这种方法已经被NTT安全控股公司和摩根大通等公司采用。我们的结果显示,所有检测器对重写邮件的检测准确性都有显著下降,这突显了当前网络钓鱼防御系统的关键弱点。随着威胁态势的发展,我们的研究结果强调了加强安全控制和对LLM生成内容的监管审查的重要性,以防止其被用于创建高级网络钓鱼攻击。本研究通过利用LLM生成多样化的网络钓鱼变体来进行数据增强,从而增强了网络钓鱼检测能力,并为开发更强大和适应性更强的威胁检测系统铺平了道路。 |
2024-11-21 | An Evaluation-Driven Approach to Designing LLM Agents: Process and Architecture | Boming Xia et.al. | 2411.13768 | null | 大型语言模型(LLMs)的出现使得开发能够自主实现未明确目标并持续进化的LLM代理成为可能,有时甚至无需更新代码或模型。传统方法如预定义测试用例和代码/模型重开发管道,在应对LLM代理开发的独特挑战时显得不足,特别是在质量和风险管理方面。本文介绍了一种基于评估驱动的设计方法,灵感来源于测试驱动开发,以解决这些挑战。通过多声音文献回顾(MLR),我们综合了现有的LLM评估方法,并提出了一种专门设计用于LLM代理的新过程模型和参考架构。所提出的方案整合了在线和离线评估,支持自适应运行时调整和系统的离线重开发,通过持续纳入评估结果(包括来自人类和AI评估者的细化反馈)来改进运行时管道、工件、系统架构和LLMs。 |
2024-11-20 | Metacognition for Unknown Situations and Environments (MUSE) | Rodolfo Valiente et.al. | 2411.13537 | null | 元认知——对自己认知过程的意识和调控——对于人类在未知情况下的适应性至关重要。相比之下,当前的自主代理在新环境中往往难以应对,因为它们的适应能力有限。我们假设元认知是自适应自主系统中的一个关键缺失因素,赋予它们处理陌生挑战所需的认知灵活性。鉴于元认知能力的广泛范围,我们重点关注两个关键方面:能力意识和针对新任务的战略选择。为此,我们提出了元认知未知情境与环境(MUSE)框架,该框架将元认知过程——特别是自我意识和自我调节——整合到自主代理中。我们提出了两种MUSE的初始实现方式:一种基于世界建模,另一种利用大型语言模型(LLMs),这两种方式都实现了元认知循环。我们的系统持续学习评估其在一个给定任务上的能力,并利用这种自我意识来指导策略选择的迭代周期。MUSE代理在自我意识和自我调节方面显示出显著改进,使它们能够更有效地解决新颖、分布外的任务,相比基于Dreamer-v3的强化学习和纯粹基于提示的LLM代理方法具有明显优势。这项工作突显了受认知和神经系统的启发方法在使自主系统适应新环境方面的潜力,克服了当前过度依赖大量训练数据的方法的局限性。 |
2024-11-19 | Human-In-the-Loop Software Development Agents | Wannita Takerngsaksiri et.al. | 2411.12924 | null | 最近,基于大型语言模型(LLM)的多代理范式被引入到软件工程中,以自动解决软件开发任务(例如从给定的问题到源代码)。然而,现有的工作主要基于历史基准数据集进行评估,没有考虑在自动化软件开发过程的每个阶段中的人类反馈,并且尚未在实际中部署。在本文中,我们介绍了一个名为HULA(人机协作LLM代理框架)的框架,用于软件开发,该框架允许软件工程师在生成给定任务的编码计划和源代码时对LLM进行细化和引导。我们设计、实现并已将HULA框架部署到Atlassian JIRA中进行内部使用。通过多阶段评估HULA框架,Atlassian的软件工程师认为HULA可以最小化整体开发时间和精力,特别是在启动编码计划和编写简单任务的代码方面。另一方面,提出了关于代码质量的一些挑战需要在未来的工作中解决。我们总结了经验教训并讨论了未来工作的机会,这将为LLM代理在软件开发中的发展铺平道路。 |
2024-11-19 | Probing the Capacity of Language Model Agents to Operationalize Disparate Experiential Context Despite Distraction | Sonny George et.al. | 2411.12828 | link | 大型语言模型(LLM)代理在越来越多的领域展现出潜力。在许多预期的应用场景中,预计代理需要根据输入提示中的累积经验进行推理。我们提出了OEDD(即使在干扰下也能运用经验)语料库,这是一个经过人工注释者验证的情景集合,其中包含预设的代理历史,代理必须在存在干扰信息的情况下基于不同的环境前提做出决策。我们使用最小化思维链提示策略评估了三种最先进的LLM(GPT-3.5 Turbo、GPT-4o和Gemini 1.5 Pro),并观察到当(1)输入上下文包含超过1615个历史交互令牌,(2)一个关键的决策性前提是在两个不同环境前提下的正确结论,并且(3)随后出现一个微不足道但具有干扰性的误导事实时,所有LLM在选择两个行动方案中较优的一个时表现得比随机选择更差。我们的代码和测试语料库公开可访问:https://github.com/sonnygeorge/OEDD 。 |
2024-11-19 | A More Advanced Group Polarization Measurement Approach Based on LLM-Based Agents and Graphs | Zixin Liu et.al. | 2411.12196 | null | 群体极化是社交媒体内容分析中的一个重要研究方向,吸引了许多研究人员探索这一领域。因此,如何有效地衡量群体极化已成为一个关键问题。在社交媒体上衡量群体极化存在一些挑战,这些挑战尚未被现有解决方案完全解决。首先,社交媒体群体极化的测量涉及处理大量文本,这对信息提取构成了重大挑战。其次,社交媒体上的文本通常难以理解,包括讽刺、表情包和网络俚语。此外,群体极化研究侧重于整体分析,而文本通常是碎片化的。为了解决这些挑战,我们设计了一个基于多智能体系统的解决方案,并使用了一种称为社区情感网络(Community Sentiment Network, CSN)的图结构来表示极化状态。此外,我们基于CSN开发了一种称为社区对立指数(Community Opposition Index, COI)的度量方法来量化极化程度。最后,我们通过零样本立场检测任务测试了我们的多智能体系统,并取得了出色的结果。总之,所提出的方法在可用性、准确性和可解释性方面具有显著价值。 |
2024-11-19 | Generative World Explorer | Taiming Lu et.al. | 2411.11844 | null | 在具身AI中,基于部分观测的规划是一个核心挑战。大多数先前的工作通过开发物理探索环境以更新其对世界状态的认知来解决这一挑战。相比之下,人类可以通过心理探索来想象世界未见的部分,并通过想象中的观察来修正其认知。这样的更新认知可以帮助他们做出更明智的决策,而无需总是进行物理探索。为了实现这种类似人类的能力,我们引入了“生成世界探索者(Genex)”,这是一个以自我为中心的世界探索框架,允许智能体在一个大规模的三维世界(如城市场景)中进行心理探索,并获取想象中的观测结果来更新其信念。这一更新后的信念将帮助智能体在当前步骤中做出更明智的决策。为了训练Genex,我们创建了一个合成的城市场景数据集Genex-DB。我们的实验结果表明:(1) Genex能够在大规模虚拟物理世界的长时域探索中生成高质量且一致的观测结果;(2) 使用这些生成的观测结果更新的信念可以指导现有的决策模型(例如LLM智能体)制定更好的计划。 |
2024-11-18 | LLM-IE: A Python Package for Generative Information Extraction with Large Language Models | Enshuo Hsu et.al. | 2411.11779 | null | 尽管最近采用了大型语言模型(LLMs)进行生物医学信息提取,但在提示工程和算法方面仍然存在挑战,并且没有专门的软件可用。为了解决这些问题,我们开发了LLM-IE:一个用于构建完整信息提取管道的Python包。我们的主要创新是一个交互式的LLM代理,用于支持模式定义和提示设计。 材料与方法:LLM-IE支持命名实体识别、实体属性提取和关系提取任务。我们在i2b2数据集上进行了基准测试并进行了系统评估。 结果:基于句子的提示算法在性能方面表现最佳,但需要更长的推理时间。系统评估提供了直观的可视化效果。 讨论:LLM-IE的设计基于医疗领域的实际NLP经验,并已在内部项目中采用。它对生物医学NLP社区应具有很高的价值。 结论:我们开发了一个名为LLM-IE的Python包,提供用于构建稳健的信息提取管道的构建模块。 |
2024-11-18 | OASIS: Open Agents Social Interaction Simulations on One Million Agents | Ziyi Yang et.al. | 2411.11581 | link | 近年来,人们对增强基于规则的智能体模型(ABMs)以研究社交媒体平台(如X和Reddit)的兴趣日益增长,从而实现对复杂系统进行更精细的研究。因此,在过去的一年里提出了几种基于大型语言模型(LLM)的ABMs。虽然这些模型很有前景,但每个模拟器都是专门为研究特定场景而设计的,这意味着使用相同的ABM探索其他现象既耗时又耗费资源。此外,这些模型只能模拟有限数量的智能体,而现实世界中的社交媒体平台涉及数百万用户。为此,我们提出了OASIS,这是一种通用且可扩展的社交媒体模拟器。OASIS基于真实世界的社交媒体平台设计,包括动态更新的环境(例如,动态社交网络和帖子信息)、多样化的动作空间(例如,关注、评论)以及推荐系统(例如,基于兴趣和热门评分)。此外,OASIS支持大规模用户模拟,能够建模多达一百万用户。凭借这些特性,OASIS可以轻松扩展到不同的社交媒体平台,以研究大规模群体现象和行为。我们复制了各种社会现象,包括信息传播、群体极化和羊群效应,这些现象发生在X和Reddit平台上。此外,我们在不同规模的智能体群体下提供了社会现象的观察结果。我们观察到,更大的智能体群体规模导致更强烈的群体动力和更多样化、更有帮助的智能体意见。这些发现展示了OASIS作为研究数字环境中复杂系统强大工具的潜力。 |
2024-11-16 | IntentGPT: Few-shot Intent Discovery with Large Language Models | Juan A. Rodriguez et.al. | 2411.10670 | null | 在当今数字化驱动的世界中,对话系统在提升用户交互方面发挥着关键作用,从客户服务到虚拟助手。在这些对话中,自动识别用户的目标对于及时解决他们的需求至关重要。这促使了意图检测模型的整合。然而,用户的意图是多样化和动态变化的,因此维持一组固定的预定义意图具有挑战性。因此,更实用的方法是开发一种能够随着新意图出现而识别它们的模型。我们关注的是意图发现这一领域,该领域在近期的研究工作中受到了广泛关注。现有的方法需要大量的数据训练以正确识别新的意图,这需要大量的人力投入。为了解决这个问题,我们提出了IntentGPT,这是一种新颖的无需训练的方法,能够有效地提示大型语言模型(如GPT-4)在少量标记数据的情况下发现新的意图。IntentGPT包括一个“上下文提示生成器”,用于生成上下文学习的信息性提示,一个“意图预测器”用于从语句中分类和发现用户意图,以及一个“语义少样本采样器”,用于选择相关的少样本示例和一组已知意图,并将其注入提示中。我们的实验表明,IntentGPT在包括CLINC和BANKING在内的流行基准测试中优于那些需要大量特定领域数据和微调的先前方法。 |
2024-11-15 | Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash | Parsa Hejabi et.al. | 2411.10422 | link | 大型语言模型(LLMs)在复杂任务和交互环境中展示了令人印象深刻的性能,但其创造力仍需进一步探索。本文介绍了一个利用游戏Balderdash的仿真框架,以评估LLMs的创造力和逻辑推理能力。在Balderdash游戏中,玩家需要为生僻词汇编造虚构定义,以欺骗其他玩家,同时识别正确定义。我们的框架使多个LLM代理能够参与这个游戏,评估它们生成可信定义的能力以及基于游戏规则和历史进行策略规划的能力。我们实现了一个集中式游戏引擎,其中包含多种LLM作为参与者,还有一个判断LLM来评估语义等效性。通过一系列实验,我们分析了不同LLM的表现,考察了诸如真实定义比率、欺骗比率和正确猜测比率等指标。结果提供了关于LLMs创造性和欺骗能力的见解,突显了它们的优势和改进空间。研究特别指出,输入中生僻词汇的频率低会导致对游戏规则和历史背景推理不足(https://github.com/ParsaHejabi/Simulation-Framework-for-Multi-Agent-Balderdash)。 |
2024-11-15 | An Empirical Study on LLM-based Agents for Automated Bug Fixing | Xiangxin Meng et.al. | 2411.10213 | null | 大型语言模型(LLMs)和基于LLM的Agent在自动修复bug方面已经显示出一定的能力,通过与开发环境的交互、迭代验证和代码修改来解决软件缺陷。然而,对这些Agent系统和非Agent系统的系统性分析仍然有限,特别是对于顶级表现系统之间的性能差异研究较少。在这篇论文中,我们在SWE-bench Lite基准上测试了七个专有和开源系统,以评估它们在自动修复bug方面的表现。我们首先评估每个系统的总体性能,记录所有或没有系统能够解决的实例,并探讨为什么某些实例只能被特定类型的系统解决。我们还比较了文件级和行级的故障定位准确性,并评估了bug重现的能力,识别出只有通过动态重现才能解决的实例。通过分析,我们得出结论,需要进一步优化LLM本身以及Agent流程设计,以提高Agent在修复bug方面的有效性。 |
2024-11-15 | Agentic LLMs in the Supply Chain: Towards Autonomous Multi-Agent Consensus-Seeking | Valeria Jannelli et.al. | 2411.10184 | null | 本文探讨了大型语言模型(LLMs)如何在供应链管理(SCM)中实现共识寻求的自动化。在供应链管理中,频繁的决策问题如库存水平和交货时间需要公司之间的协调。传统的供应链管理依赖于人类共识来做出决策,以避免诸如牛鞭效应等突发问题。一些常规的共识过程,尤其是那些耗时且成本较高的过程,可以实现自动化。然而,现有的自动化协调解决方案由于高准入门槛、有限的能力以及在复杂场景中的适应性限制而面临挑战,这将小型和中型企业排除在外。然而,生成式人工智能,特别是LLMs的最新进展显示出了克服这些障碍的潜力。通过在大规模数据集上的训练,LLMs能够进行谈判、推理和规划,从而以较低的准入门槛实现接近人类水平的共识。在这项工作中,我们识别出现有方法的关键局限性,并提出自主LLM代理来解决这些差距。我们引入了一系列针对LLM代理定制的新型供应链特定共识寻求框架,并通过库存管理的案例研究验证了我们方法的有效性。为了加速供应链社区内的进步,我们将代码开源,为LLM驱动的自主供应链解决方案的进一步发展提供基础。 |
2024-11-14 | Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents | Yuyou Gan et.al. | 2411.09523 | null | 随着大型语言模型(LLMs)的不断发展,基于变压器的模型在众多自然语言处理(NLP)任务中取得了突破性的进展,从而催生了一系列使用LLM作为控制核心的代理。尽管LLMs在各种任务中取得了成功,但它们面临着诸多安全和隐私威胁,这些威胁在代理场景中变得更加严重。为了增强基于LLM的应用程序的可靠性,一系列研究从不同角度评估和缓解了这些风险。本文旨在帮助研究人员全面了解各种风险,收集并分析了这些代理面临的不同威胁。为了应对前人分类框架在处理跨模块和跨阶段威胁方面的挑战,我们提出了一种基于威胁来源和影响的新分类框架。此外,我们基于六个关键特征总结了当前的研究进展,并分析了其局限性。随后,我们选择了四个代表性代理作为案例研究,分析了它们在实际应用中可能遇到的风险。最后,基于上述分析,我们从数据、方法论和政策三个角度提出了未来的研究方向。 |
2024-11-18 | Towards Evaluating Large Language Models for Graph Query Generation | Siraj Munir et.al. | 2411.08449 | null | 大型语言模型(LLMs)正在革新生成式人工智能(GenAI)领域,各种基于LLM的创新解决方案层出不穷。然而,当应用于数据库技术,特别是在图数据库和知识图谱(KGs)的查询生成方面时,LLMs仍面临重大挑战。尽管有关于LLM驱动的SQL查询生成的研究已经存在,但针对图数据库的类似系统仍然较少。本文通过一项对比研究,探讨了使用开放访问的LLM生成Cypher查询(一种强大的图数据库交互语言)所面临的挑战。我们严格评估了几种LLM代理(包括OpenAI ChatGPT 4.0、Claude Sonnet 3.5、Google Gemini Pro 1.5以及本地部署的Llama 3.1 8B),采用设计的少量学习提示和基于检索增强生成(RAG)及链式思维(CoT)推理的方法。我们的实证分析表明,在此特定领域中,Claude Sonnet 3.5在查询生成准确性方面优于其竞争对手。此外,我们还指出了未来研究的方向,以解决现有局限并推进LLM驱动的图数据库查询生成技术的发展。 |
2024-11-13 | Collaborative Participatory Research with LLM Agents in South Asia: An Empirically-Grounded Methodological Initiative and Agenda from Field Evidence in Sri Lanka | Xinjie Zhao et.al. | 2411.08294 | null | 人工智能在发展研究方法中的整合为解决参与式研究中长期存在的挑战提供了前所未有的机遇,特别是在像南亚这样语言多样的地区。本文基于斯里兰卡僧伽罗语社区的实证实施,提出了一种以经验为基础的方法论框架,旨在革新参与式发展研究,该框架位于斯里兰卡洪水频发的尼尔瓦拉河盆地这一具有挑战性的多语言环境中。超越传统的翻译和数据收集工具,该框架采用多智能体系统架构,重新定义了在语言和文化多样化的研究环境中如何进行数据收集、分析和社区参与。这种结构化的基于代理的方法使参与式研究既可扩展又具响应性,确保社区视角在研究结果中保持核心地位。实地经验揭示了基于大型语言模型(LLM)的系统在资源有限的地区解决发展研究中长期存在的问题的巨大潜力,提供量化的效率提升和定性的包容性改进。从更广泛的方法论角度来看,本研究议程倡导使用AI驱动的参与式研究工具,这些工具需保持伦理考虑、文化尊重和操作效率,强调部署AI系统以增强社区自主权和公平的知识生成的战略路径,可能为全球南方更广泛的研究议程提供参考。 |
2024-11-11 | Tooling or Not Tooling? The Impact of Tools on Language Agents for Chemistry Problem Solving | Botao Yu et.al. | 2411.07228 | null | 为了增强大型语言模型(LLMs)在化学问题解决中的能力,已经提出了几种配备了工具的LLM基代理,如ChemCrow和Coscientist。然而,它们的评估范围狭窄,对于理解工具在各种化学任务中的益处存在很大差距。为此,我们开发了ChemAgent,这是一种基于ChemCrow的增强型化学代理,并对其在专门化学任务和普通化学问题上的性能进行了全面评估。令人惊讶的是,ChemAgent并不总是在没有工具的情况下提高其基础LLM的表现。通过与化学专家进行错误分析,我们发现:对于专门的化学任务,如合成预测,我们应该为代理配备专门的工具;然而,对于像考试中的普通化学问题,代理正确运用化学知识的能力更为重要,工具的增加并不总是有帮助。 |
2024-11-10 | Hermes: A Large Language Model Framework on the Journey to Autonomous Networks | Fadhel Ayed et.al. | 2411.06490 | null | 推动蜂窝网络运营自动化的需求随着这些系统复杂性的增加而增长。尽管取得了进展,但完全自主目前仍然遥不可及,因为依赖于人为干预来建模网络行为并定义满足目标要求的策略。网络数字孪生(NDT)在增强网络智能方面显示出前景,但这种技术的成功实施受到特定用例架构的限制,限制了其在推进网络自主性方面的作用。需要更强大的网络智能,或“电信大脑”,以实现蜂窝网络的无缝、自主管理。大规模语言模型(LLM)作为这一愿景的潜在推动者应运而生,但在网络建模方面面临挑战,特别是在推理和处理各种数据类型方面。为了解决这些差距,我们介绍了赫尔墨斯(Hermes),这是一种链式LLM代理,通过结构化和可解释的逻辑步骤使用“蓝图”构建NDT实例。赫尔墨斯允许自动、可靠且准确地对各种用例和配置进行网络建模,从而朝着完全自主的网络运营迈进。 |
2024-11-12 | Game-theoretic LLM: Agent Workflow for Negotiation Games | Wenyue Hua et.al. | 2411.05990 | link | 本文研究了大型语言模型(LLMs)在战略决策背景下的合理性,特别是在博弈论框架下。我们评估了几种最先进的LLMs在完全信息和不完全信息游戏中的表现。研究发现,随着游戏复杂性的增加,例如更大的收益矩阵或更深的序列树,LLMs经常偏离理性策略。为了解决这些局限性,我们设计了多种基于博弈论的工作流程,以指导LLMs的推理和决策过程。这些工作流程旨在增强模型计算纳什均衡和在不确定性和不完全信息条件下做出理性选择的能力。实验结果表明,采用这些工作流程显著提高了LLMs在博弈论任务中的合理性和稳健性。具体而言,采用工作流程后,LLMs在识别最优策略、谈判场景中的近似最优分配以及减少谈判中的被利用倾向方面表现出显著改进。此外,我们还探讨了代理是否应该采用此类工作流程的元战略考虑,认识到决定使用或放弃工作流程本身就是一个博弈论问题。本研究有助于深入理解LLMs在战略环境下的决策能力,并提供了通过结构化工作流程提高其合理性的见解。研究结果对开发更强大和更具战略性的AI代理具有重要意义,这些代理能够在复杂的互动环境中导航。支持本研究的代码和数据可在以下链接获取:https://github.com/Wenyueh/game_theory。 |
2024-11-08 | LightVA: Lightweight Visual Analytics with LLM Agent-Based Task Planning and Execution | Yuheng Zhao et.al. | 2411.05651 | null | 视觉分析(VA)要求分析师根据观察结果迭代地提出分析任务,并通过创建可视化和交互式探索来执行这些任务以获得洞察。这一过程需要编程、数据处理和可视化工具方面的技能,突显了对更智能、更精简的VA方法的需求。最近开发的大语言模型(LLM)作为代理,具备动态规划和使用工具的能力,为增强VA的效率和多功能性提供了潜力。我们提出了LightVA,这是一种轻量级的VA框架,通过人机协作支持任务分解、数据分析和交互式探索。我们的方法旨在帮助用户逐步将高层次的分析目标转化为低层次的任务,生成可视化并得出洞察。具体来说,我们引入了一种基于LLM代理的任务规划和执行策略,采用一个涉及规划者、执行者和控制器的递归过程。规划者负责推荐和分解任务,执行者处理任务执行,包括数据分析、可视化生成和多视图组合,而控制器则协调规划者和执行者之间的交互。在此框架基础上,我们开发了一个具有混合用户界面的系统,其中包括用于监控和管理任务规划过程的任务流程图、用于交互式数据探索的可视化面板以及用于通过自然语言指令引导模型的聊天视图。我们通过一个使用场景和专家研究来检验该方法的有效性。 |
2024-11-08 | Enhancing Cluster Resilience: LLM-agent Based Autonomous Intelligent Cluster Diagnosis System and Evaluation Framework | Honghao Shi et.al. | 2411.05349 | null | 近期在大型语言模型(LLMs)以及相关技术如检索增强生成(RAG)和思维导图(DoT)方面的进展,使得创建能够执行集群诊断和故障排除的自主智能系统成为可能。通过将这些技术与自我博弈方法论相结合,我们开发了一种LLM代理系统,旨在自主诊断和解决AI集群中的问题。我们的创新包括专为集群诊断设计的知识库、优化的LLM算法、代理的实用部署策略以及一个专门用于评估LLM在此领域能力的基准。通过在多个维度上的广泛实验,我们展示了该系统在应对集群诊断挑战方面的优越性,特别是在检测和纠正性能问题方面比传统方法更加高效和准确。 |
2024-11-07 | Alopex: A Computational Framework for Enabling On-Device Function Calls with LLMs | Yide Ran et.al. | 2411.05209 | null | 大型语言模型(LLMs)的快速发展促使它们被集成到移动设备中,以提供个性化助手服务,这使得LLMs能够调用外部API函数以增强其性能。然而,数据稀缺、问题格式不当和灾难性遗忘等问题阻碍了设备端LLM代理的发展。为了解决这些问题,我们提出了Alopex框架,该框架利用Fox LLM实现精确的设备端函数调用。Alopex引入了一种基于逻辑的方法来生成高质量的训练数据,并采用新颖的“描述-问题-输出”格式进行微调,从而减少函数信息泄露的风险。此外,还使用了一种数据混合策略来缓解灾难性遗忘,将函数调用数据与教科书数据集结合,以提升在各种任务中的表现。实验结果表明,Alopex提高了函数调用的准确性,并显著减少了灾难性遗忘,为无需人工干预地将函数调用能力整合到LLMs中提供了稳健的解决方案。 |
2024-11-07 | PentestAgent: Incorporating LLM Agents to Automated Penetration Testing | Xiangmin Shen et.al. | 2411.05185 | null | 渗透测试是一种关键的技术,用于识别安全漏洞,传统上由熟练的安全专家手动执行。这一复杂的过程涉及收集目标系统的相关信息、确定入口点、利用系统并报告发现结果。尽管这种方法非常有效,但手动渗透测试耗时且成本高昂,通常需要大量的专业知识和资源,许多组织无法承受。虽然已经提出了自动化渗透测试的方法,但在实际应用中往往由于灵活性、适应性和实施方面的限制而表现不佳。最近大型语言模型(LLM)的进步为通过提高智能和自动化水平来增强渗透测试提供了新的机会。然而,当前基于LLM的方法仍然面临重大挑战,包括有限的渗透测试知识和缺乏全面的自动化能力。为了解决这些不足,我们提出了一种名为PentestAgent的新型LLM驱动的自动化渗透测试框架,该框架利用LLM和各种基于LLM的技术(如检索增强生成,RAG)来增强渗透测试知识并实现多种任务的自动化。我们的框架利用多代理协作来自动化情报收集、漏洞分析和利用阶段,减少人工干预。我们使用一个全面的基准对PentestAgent进行了评估,展示了其在任务完成和整体效率方面的卓越性能。这项工作显著提升了自动化渗透测试系统的实用性和适用性。 |
2024-11-12 | CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models | Jierui Li et.al. | 2411.04329 | null | 预训练于大量代码和文本数据上的大规模语言模型(LLMs)在执行代码生成任务方面已经取得了显著的成就。通过额外的基于执行的反馈,这些模型可以作为代理,具备自主优化和改进生成代码的能力。然而,在具有极大搜索空间的挑战性编码任务中,当前的代理方法仍然难以处理多阶段规划、生成和调试的问题。为了解决这个问题,我们提出了CodeTree框架,该框架使LLM代理能够在代码生成过程的不同阶段高效地探索搜索空间。具体来说,我们采用了一个统一的树结构来明确探索不同的编码策略,生成相应的编码解决方案,并随后对这些解决方案进行优化。在每个阶段,探索过程中的关键决策(排序、终止、扩展)都由环境的基于执行的反馈和LLM代理生成的反馈共同指导。我们在7个代码生成基准上全面评估了CodeTree,并展示了CodeTree相对于强大基线的显著性能提升。使用GPT-4作为基础模型,我们在HumanEval上获得了95.1分,在MBPP上获得了98.7分,在CodeContests上获得了43.0分。在具有挑战性的SWEBench基准上,我们的方法也带来了显著的性能提升。 |
2024-11-06 | From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning | Zhirui Deng et.al. | 2411.03817 | null | 大型语言模型(LLMs)的卓越能力使其成为各种自主代理系统中的关键组件。虽然传统方法依赖于LLMs的内在知识而不进行微调,但更近期的方法转向了强化学习策略,以进一步增强代理在与环境和工具互动时解决复杂任务的能力。然而,先前的方法受到稀疏奖励问题的限制,现有数据集仅对每个多步骤推理链提供一个最终标量奖励,这可能导致策略学习的低效和无效。在这篇论文中,我们介绍了StepAgent,它利用逐步奖励来优化代理的强化学习过程。借鉴新手到专家理论的精神,我们首先比较专家和代理的行为,自动生成中间奖励以实现细粒度优化。此外,我们提出了隐式奖励和逆向强化学习技术,以促进代理的反思和策略调整。进一步的理论分析表明,代理的动作分布可以在多次训练周期内收敛到专家动作分布。实验结果表明,在各种数据集上,StepAgent的表现优于现有的基线方法。 |
2024-11-05 | AI Metropolis: Scaling Large Language Model-based Multi-Agent Simulation with Out-of-order Execution | Zhiqiang Xie et.al. | 2411.03519 | null | 随着大型语言模型(LLM)驱动的代理在模拟环境中进行复杂任务、与其他代理互动以及展示与社会科学研究和游戏相关的新兴行为的能力不断增强,基于这些模型的代理越来越多地被开发出来。然而,当前多代理模拟经常由于虚假依赖导致的有限并行性而遭受效率低下的问题,从而产生性能瓶颈。在这篇论文中,我们介绍了AI Metropolis,这是一种模拟引擎,通过引入乱序执行调度来提高LLM代理模拟的效率。通过动态跟踪代理之间的实际依赖关系,AI Metropolis最大限度地减少了虚假依赖,增强了并行性,并实现了高效的硬件利用。我们的评估表明,AI Metropolis在标准并行模拟与全局同步的情况下,速度提高了1.3倍到4.15倍,并且随着代理数量的增加,其性能接近最优。 |
2024-11-03 | Fixing Security Vulnerabilities with AI in OSS-Fuzz | Yuntong Zhang et.al. | 2411.03346 | null | 关键的开源软件系统会经历大量的模糊测试,以发现可能导致软件崩溃的输入。这种模糊测试通常是对程序输入域进行有偏的随机搜索,以找到可能使软件崩溃的输入。由于即使是闭源软件也可能使用开源组件,因此对开源软件进行测试对于增强软件系统的安全性至关重要。目前,OSS-Fuzz是最重要和最广泛使用的基础设施,用于持续验证开源系统。然而,尽管OSS-Fuzz已经在1000多个软件项目中识别出超过10000个漏洞,但这些被发现的漏洞可能仍然未被修补,因为漏洞修复通常需要手动操作。在本研究中,我们依赖于大型语言模型(LLM)代理在自主程序改进方面的最新进展,包括错误修复。我们定制了著名的AutoCodeRover代理来修复安全漏洞。这是因为LLM代理如AutoCodeRover通过代码搜索根据问题描述来修复错误。相反,在安全补丁方面,我们依靠执行漏洞利用输入来提取与修复相关的代码元素。我们对OSS-Fuzz漏洞数据的经验表明,LLM代理的自主性对于成功修复安全漏洞是有用的,这与那些控制流固定的无代理方法相比是一个优势。更重要的是,我们的研究结果表明,我们不能通过代码相似度(如VulMaster中使用的CodeBLEU分数)来衡量补丁的质量,因为即使具有高CodeBLEU分数的补丁仍无法通过给定的漏洞利用输入。我们的研究表明,安全补丁的正确性需要考虑动态属性,如测试执行,而不是依赖标准文本/代码相似性指标。 |
2024-11-05 | SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents | Dawei Li et.al. | 2411.03284 | link | 虽然多智能体系统已被证明在各种任务和应用中显著提升了大型语言模型(LLMs)的性能,但这些系统中密集的交互可能会影响其效率和多样性。为了解决这些问题,我们从稀疏混合智能体(SMoE)框架中汲取灵感,并提出了一种稀疏混合智能体(SMoA)框架,以提升多智能体LLMs的效率和多样性。与完全连接的结构不同,SMoA引入了新的响应选择和提前停止机制,以稀疏化个体LLM智能体之间的信息流,从而在性能和效率之间取得平衡。此外,受SMoE框架中专家多样性原则的启发,我们在每个LLM智能体上分配不同的角色描述,促进多样性和发散性思维。广泛的实验证明,在推理、对齐和公平性基准测试中,SMoA的表现与传统的混合智能体方法相当,但计算成本显著降低。进一步分析表明,SMoA更加稳定,具有更大的扩展能力,并通过超参数优化提供了巨大的潜力。代码和数据将在:https://github.com/David-Li0406/SMoA 获取。 |
2024-11-05 | Spontaneous Emergence of Agent Individuality through Social Interactions in LLM-Based Communities | Ryosuke Takata et.al. | 2411.03252 | null | 我们从零开始研究通过使用基于大型语言模型(LLM)的代理来产生自主性。在以往对基于LLM的代理的研究中,每个代理的特性,包括个性和记忆,通常是预定义的。我们关注的是如何从一个未分化的状态中分化出个体性,如行为、个性和记忆。当前的LLM代理在一个群体模拟中进行合作交流,通过自然语言交换基于上下文的消息。通过分析这种多代理模拟,我们报告了有关社会规范、合作和个人特质如何自发产生的有价值的新见解。本文展示了自主交互的LLM驱动代理会产生幻觉和标签,以维持交流,这反过来增加了其互动中的词汇多样性。每个代理的情绪会随着交流而变化,当它们形成社区时,代理的个性也随之显现并随之演变。这种计算建模方法及其发现将为分析集体人工智能提供一种新方法。 |
2024-11-04 | CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments | Kung-Hsiang Huang et.al. | 2411.02305 | link | 客户关系管理(CRM)系统对于现代企业至关重要,为管理客户互动和数据提供了基础。将AI代理集成到CRM系统中可以自动化例行流程并提升个性化服务。然而,由于缺乏反映现实世界CRM任务复杂性的现实基准,部署和评估这些代理具有挑战性。为了解决这个问题,我们介绍了CRMArena,这是一个旨在评估AI代理在专业工作环境中的实际任务的新基准。根据CRM专家的指导和行业最佳实践,我们设计了CRMArena,包括分布在三个角色(服务代理、分析师和经理)中的九个客户服务任务。该基准包括16个常用工业对象(如账户、订单、知识文章、案例),这些对象具有高度互联性,并且包括潜在变量(如投诉习惯、政策违规)以模拟现实的数据分布。实验结果显示,最先进的大型语言模型(LLM)代理使用ReAct提示方法在少于40%的任务中取得成功,即使拥有函数调用能力的情况下,成功率也低于55%。我们的研究结果强调了增强代理在函数调用和规则遵循方面的能力的需求,以便在现实世界的工作环境中部署。CRMArena是一个开放的挑战,能够可靠完成任务的系统展示了在流行工作环境中直接的商业价值。 |
2024-11-04 | DynaSaur: Large Language Agents Beyond Predefined Actions | Dang Nguyen et.al. | 2411.01747 | null | 现有的大型语言模型(LLM)代理系统通常在每一步从一个固定且预定义的动作集中选择动作。虽然这种方法在封闭且狭义限定的环境中是有效的,但我们认为它在部署LLM代理到现实世界场景时存在两大挑战:(1) 从固定的动作集中选择显著限制了LLM代理的规划和行动能力;(2) 这种方法需要大量的人力来枚举和实现所有可能的动作,在复杂环境中变得不切实际,因为潜在的动作数量巨大。在这项工作中,我们提出了一种LLM代理框架,该框架能够在在线过程中动态创建和组合动作。在这个框架中,代理通过在每个步骤生成并执行用通用编程语言编写的程序与环境进行交互。此外,生成的动作会随着时间积累以供未来重用。我们在GAIA基准测试上的广泛实验表明,该框架提供了显著更大的灵活性,并优于先前的方法。值得注意的是,它允许LLM代理在没有相关动作存在于预定义集合中或当现有动作因未预见的边缘情况而失败的情况下恢复。在撰写本文时,我们在GAIA公开排行榜上处于领先地位。我们的代码可以在https://github.com/adobe-research/dynasaur找到。 |
2024-11-03 | EcoAct: Economic Agent Determines When to Register What Action | Shaokun Zhang et.al. | 2411.01643 | null | 近期的进展使大型语言模型(LLMs)能够作为代理执行动作并使用外部工具。这要求在采取行动之前将工具信息注册或集成到LLM的上下文中。当前的方法是不加选择地将所有候选工具整合到代理的上下文中,并且这些工具在整个多个推理步骤中都保持不变。这一过程对LLM代理来说是不透明的,并未融入其推理程序中,导致由于不相关的工具增加了上下文长度而效率低下。为了解决这个问题,我们引入了EcoAct算法,它允许LLMs根据需要选择性地注册工具,从而优化上下文的使用。通过将工具注册过程整合到推理过程中,EcoAct在多步骤推理任务中的计算成本降低了50%以上,同时保持了性能,这一点通过广泛的实验得到了证明。此外,它可以插入任何推理管道,并且只需对提示进行微小修改即可实现,使其适用于现在的和未来的LLM代理。 |
2024-11-02 | AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? | Benlong Wu et.al. | 2411.01236 | link | 渗透测试对于确保网络安全至关重要,它能够提前检测和修复漏洞,防止数据泄露和其他严重后果。大型语言模型(LLMs)的强大推理能力在各个领域都取得了显著进展,基于LLM的代理的发展潜力有望革新网络安全领域的渗透测试行业。在这项工作中,我们建立了一个全面的端到端渗透测试基准,使用真实的渗透测试环境来探索LLM代理在这个领域的应用能力。我们的结果显示,这些代理熟悉渗透测试任务的框架,但在生成准确命令和执行完整流程方面仍面临限制。因此,我们总结了当前面临的挑战,包括难以保持整个消息历史记录以及代理容易陷入困境的问题。 基于以上见解,我们提出了一种基于有限状态机(FSM)方法的渗透测试状态机(PSM),以解决这些限制。然后,我们介绍了AutoPT,这是一种基于LLM驱动的渗透测试自动化代理,利用了LLM的内在推理能力和状态机的约束框架。我们的评估结果表明,AutoPT在GPT-4o mini模型上优于基线框架ReAct,并将基准目标的任务完成率从22%提高到41%。与基线框架和人工操作相比,AutoPT还进一步减少了时间和经济成本。因此,我们的AutoPT促进了自动化渗透测试的发展,并对学术界和工业界产生了重要影响。 |
2024-11-02 | A Large-scale Time-aware Agents Simulation for Influencer Selection in Digital Advertising Campaigns | Xiaoqing Zhang et.al. | 2411.01143 | null | 在数字世界中,影响者作为意见领袖起着关键作用,塑造其追随者的观点和选择。现代广告往往遵循这一趋势,营销人员根据详尽的市场分析选择合适的影响者进行产品代言。以往关于影响者选择的研究通常依赖于个人意见和互动的数值表示,这种方法简化了社会动态的复杂性。在这项工作中,我们首先介绍了一种时间感知影响者模拟器(TIS),帮助推广者基于LLM模拟识别并选择合适的影响力人物来推广他们的产品。为了验证我们的方法,我们在公共广告活动数据集SAGraph上进行了实验,该数据集涵盖了社交关系、帖子和用户互动。结果显示,我们的方法优于传统的基于数值特征的方法和使用有限LLM代理的方法。我们的研究表明,通过模拟用户的时间线和内容生命周期,可以简化扩展,从而在社交网络中实现大规模代理模拟。此外,基于LLM的社交推荐和广告代理在促销活动的决策中提供了显著的好处。 |
2024-11-01 | Lingma SWE-GPT: An Open Development-Process-Centric Language Model for Automated Software Improvement | Yingwei Ma et.al. | 2411.00622 | link | 近年来,基于大型语言模型(LLM)的代理在自动软件工程领域取得了显著进展,特别是在软件维护和演化方面。尽管取得了这些令人鼓舞的进步,当前的研究仍面临两大挑战。首先,最先进的性能主要依赖于闭源模型,这极大地限制了技术的可访问性和在不同软件工程任务中的定制潜力。其次,这些模型大多是在静态代码数据上进行训练的,缺乏对软件开发过程中动态交互、迭代问题解决过程和演化特性的深刻理解。为了解决这些挑战,我们的研究采用软件工程视角。我们认识到,现实世界中的软件维护和演化过程不仅包括静态代码数据,还包括开发人员的思维过程、外部工具的使用以及不同职能人员之间的互动。因此,我们推出了Lingma SWE-GPT系列,包括Lingma SWE-GPT 7B和72B。通过学习和模拟真实的代码提交活动,Lingma SWE-GPT系统地融入了软件开发过程中固有的动态交互和迭代问题解决,从而实现了对软件改进过程的更全面理解。我们使用SWE-bench Verified基准进行了实验评估。结果表明,Lingma SWE-GPT 72B成功解决了30.20%的GitHub问题,标志着在自动问题解决方面的重大进步(比Llama 3.1 405B相对提高了22.76%),接近闭源模型的性能(GPT-4o解决了31.80%的问题)。值得注意的是,Lingma SWE-GPT 7B解决了18.20%的问题,突显了将较小模型应用于软件工程任务的潜力。 |
2024-10-31 | From Context to Action: Analysis of the Impact of State Representation and Context on the Generalization of Multi-Turn Web Navigation Agents | Nalin Tiwary et.al. | 2410.23555 | null | 近年来,基于大型语言模型(LLM)的框架已经扩展到复杂的现实世界应用,例如交互式网页导航。这些系统通过用户命令驱动,通过多轮对话在网页浏览器中完成任务,既提供了创新的机会也带来了显著的挑战。尽管已经引入了对话网页导航的基准测试,但影响这些代理性能的关键上下文组件的详细理解仍然难以捉摸。本研究旨在通过分析网页导航代理功能的各种关键上下文元素来填补这一空白。我们研究了上下文管理的优化,重点关注交互历史和网页表示的影响。我们的工作突出了通过有效的上下文管理,在分布外场景下(如未见过的网站、类别和地理位置)改进代理性能。这些发现为LLM基础代理的设计和优化提供了见解,使实际应用中的网页导航更加准确和有效。 |
2024-10-30 | Evaluating Cultural and Social Awareness of LLM Web Agents | Haoyi Qiu et.al. | 2410.23252 | null | 随着大型语言模型(LLMs)扩展到执行现实世界应用中的代理任务,超越传统NLP任务,评估其稳健性变得越来越重要。然而,现有的基准测试往往忽略了诸如文化和社会意识等关键维度。为了解决这些问题,我们引入了CASA,这是一个旨在评估LLM代理在两个基于网络的任务(在线购物和社交讨论论坛)中对文化和社会规范的敏感性的基准。我们的方法评估了LLM代理检测并适当回应违反规范的用户查询和观察的能力。此外,我们提出了一种全面的评估框架,该框架测量意识覆盖率、处理用户查询时的有用性以及面对误导性网络内容时的违规率。实验表明,当前的LLM在非代理环境中的表现明显优于基于网络的代理环境,代理的意识覆盖率低于10%,违规率超过40%。为了提高性能,我们探索了两种方法:提示和微调,并发现这两种方法可以互补——在特定文化数据集上进行微调可以显著提升代理在不同地区的泛化能力,而提示则可以增强代理处理复杂任务的能力。这些发现强调了在开发周期中不断基准测试LLM代理的文化和社会意识的重要性。 |
2024-10-30 | Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration | Yanchu Guan et.al. | 2410.22916 | null | 自主移动应用交互在移动应用程序复杂性日益增加的背景下变得越来越重要。开发能够有效导航和与移动应用交互的智能代理仍然是一个重大挑战。在本文中,我们提出了一种可解释的行为克隆大语言模型代理(EBC-LLMAgent),这是一种结合大型语言模型(LLMs)和行为克隆通过学习演示来创建智能且可解释的代理的新方法,用于自主移动应用交互。EBC-LLMAgent 包括三个核心模块:演示编码、代码生成和用户界面映射,这些模块协同工作以捕捉用户演示、生成可执行代码,并建立代码与用户界面元素之间的准确对应关系。我们引入了行为克隆链融合技术以增强代理的泛化能力。在五个来自不同领域的流行移动应用上进行的广泛实验表明,EBC-LLMAgent 具有卓越的性能,在任务完成方面具有高成功率,能够高效地泛化到未见过的场景,并生成有意义的解释。 |
2024-10-30 | Junting Chen et.al. | 2410.22662 | null | 异构多机器人系统(HMRS)已成为解决单个机器人无法独立完成的复杂任务的强大方法。目前基于大型语言模型的多智能体系统(LLM-based MAS)在软件开发和操作系统等领域取得了成功,但将其应用于机器人控制则面临着独特的挑战。特别是,多机器人系统中每个代理的能力本质上与其物理组成相关,而不是预定义的角色。为了解决这个问题,我们引入了一种新颖的多智能体框架,旨在实现具有不同形态和能力的异构机器人的有效协作,并提出一个新的基准测试Habitat-MAS。我们设计的关键组件是“机器人简历”:不同于采用人为设定的角色扮演方式,我们提出了自我提示的方法,即代理通过理解机器人的URDF文件并调用机器人运动学工具来生成描述其物理能力的文档,以指导其在任务规划和动作执行中的行为。Habitat-MAS基准测试旨在评估多智能体框架如何处理需要体现感知推理的任务,这些任务包括1)操作,2)感知,3)导航,以及4)复杂的多层物体重排。实验结果表明,机器人的简历和我们多智能体系统的分层设计对于在这种复杂的任务环境中有效运行异构多机器人系统至关重要。 | |
2024-10-29 | BENCHAGENTS: Automated Benchmark Creation with Agent Interaction | Natasha Butt et.al. | 2410.22584 | null | 评估受到基准测试可用性的限制。随着模型的发展,需要创建能够衡量新生成能力进展的基准测试。然而,通过人工注释创建新的基准测试既缓慢又昂贵,这限制了对任何能力的全面评估。我们引入了BENCHAGENTS框架,该框架系统地利用大型语言模型(LLMs)自动化创建复杂能力的基准测试,同时确保数据和度量的质量。BENCHAGENTS将基准测试创建过程分解为规划、生成、数据验证和评估四个步骤,每个步骤都由LLM代理执行。这些代理相互交互,并利用基准测试开发者的人机反馈来显式改进和灵活控制数据的多样性和质量。我们使用BENCHAGENTS创建用于评估文本生成过程中规划和约束满足能力的基准测试。然后,我们使用这些基准测试研究七种最先进的模型,并提取关于常见失败模式和模型差异的新见解。 |
2024-10-29 | Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents | Jaekyeom Kim et.al. | 2410.22552 | null | 在本文中,我们介绍了Auto-Intent方法,这是一种在不直接进行微调的情况下将预训练的大规模语言模型(LLM)作为目标领域代理的方法,特别关注网页导航任务。我们的方法首先从目标领域的演示中无监督地发现潜在的意图,以高度紧凑的形式(最多三个词)。通过提取的意图,我们训练意图预测器来根据代理过去的观察和行为预测下一个意图。特别是,我们提出了一种自我探索方法,其中概率最高的前k个意图预测被用作提示提供给预训练的LLM代理,从而增强其决策能力。Auto-Intent显著提高了GPT-3.5、GPT-4和Llama-3.1-70B、Llama-3.1-405B代理在大规模真实网站导航基准(来自Mind2Web)和在线导航任务(来自WebArena)上的性能,并且其跨基准的泛化能力也得到了验证。 |
2024-10-29 | SceneGenAgent: Precise Industrial Scene Generation with Coding Agent | Xiao Xia et.al. | 2410.21909 | link | 工业场景的建模对于工业制造中的模拟至关重要。尽管大型语言模型(LLMs)在从文本描述生成一般3D场景方面已经取得了显著进展,但使用LLMs生成工业场景面临着独特的挑战,因为这些场景需要精确的尺寸和定位,这要求对空间布局进行复杂的规划。为了解决这一挑战,我们引入了SceneGenAgent,这是一种基于LLM的代理,用于通过C#代码生成工业场景。SceneGenAgent通过结构化和可计算的格式、布局验证以及迭代优化来确保精确的布局规划,以满足工业场景的定量需求。实验结果表明,由SceneGenAgent驱动的LLMs超过了它们原有的性能,在实际工业场景生成任务中的成功率达到了81.0%,并有效地满足了大多数场景生成需求。为了进一步提高可访问性,我们构建了SceneInstruct,这是一个专门用于微调开源LLMs以集成到SceneGenAgent中的数据集。实验显示,基于SceneInstruct对开源LLMs进行微调可以获得显著的性能提升,Llama3.1-70B的性能接近GPT-4o。我们的代码和数据可在https://github.com/THUDM/SceneGenAgent获取。 |
2024-10-28 | Can Machines Think Like Humans? A Behavioral Evaluation of LLM-Agents in Dictator Games | Ji Ma et.al. | 2410.21359 | null | 随着基于大型语言模型(LLM)的代理越来越多地承担现实世界任务并与人类社会互动,我们对它们的行为了解多少?本研究(1)调查了不同人格如何诱导LLM代理的亲社会行为——一种基本的社会规范,并将其与人类行为进行基准测试;(2)引入了一种行为方法来评估LLM代理在复杂决策场景中的表现。我们探讨了不同人格和实验框架如何影响这些AI代理在独裁者博弈中的利他行为,并比较了同一LLM家族内、不同LLM家族之间以及与人类行为之间的差异。我们的发现揭示了LLM之间存在显著的差异和不一致性,并且与人类行为相比也有明显区别。仅仅赋予LLM类似人类的身份并不能产生类似人类的行为。尽管这些AI代理是在大量由人类生成的数据上训练的,但它们无法准确预测人类的决定。LLM代理无法捕捉到人类决策过程的内部机制,其与人类行为的一致性高度依赖于特定的模型架构和提示形式;更糟糕的是,这种依赖并不遵循明确的模式。 |
2024-10-28 | Automatic Generation of Benchmarks and Reliable LLM Judgment for Code Tasks | Eitan Farchi et.al. | 2410.21071 | null | 大语言模型(LLMs)可以用于多种与代码相关的任务,例如从一种编程语言翻译到另一种编程语言、实现自然语言需求和代码总结。最先进的大语言模型技术生成的工件有望在用户进行少量简单修改后即可使用。然而,量化这种模糊的概念具有挑战性,因此很难确定与代码相关的LLM解决方案的质量。我们称使用LLM判断来评估LLM解决方案的方法为“LLM作为裁判”,简称LaaJ。在这项工作中,我们介绍了一种生成和评估LaaJ实施的方法论,并利用自动产生的基准进行评估。该基准的目的是双重的,即用于开发和验证LaaJs,以及验证和测试使用LaaJs的大语言模型代码相关解决方案。为此,我们开发了一个自动基准生成引擎,该引擎为多种代码相关任务生成多种编程语言的代码,并将其作为LaaJ评估的输入。我们利用代码相关生成的图形表示G,其中图的顶点是生成的工件,边代表可能的生成,例如从自然语言需求生成Java程序。通过利用LLM代理链和G,我们生成与代码相关的工件。利用G中的循环,我们制定对生成工件的期望。利用这些制定的期望,可以开发和测试可靠的LLM判断,以衡量解决方案生成的工件的有用性。我们的方法能够创建高质量的代码任务解决方案。 |
2024-10-28 | Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments | Sangmim Song et.al. | 2410.20666 | null | 导航对于视觉障碍人士(PVI)来说是一个重大挑战。虽然传统的辅助工具如白色手杖和导盲犬非常宝贵,但它们在提供详细的环境信息和精确引导到目的地方面仍显不足。最近大型语言模型(LLM)和视觉-语言模型(VLM)的发展为增强辅助导航提供了新的途径。在本文中,我们介绍了一种名为Guide-LLM的具身化LLM基代理,旨在帮助视觉障碍人士在大型室内环境中导航。我们的方法采用了一种新颖的基于文本的拓扑图,使LLM能够使用简化的环境表示来规划全局路径,重点关注直线路径和直角转弯,以促进导航。此外,我们利用LLM的常识推理进行危险检测,并根据用户偏好进行个性化路径规划。模拟实验表明该系统在引导视觉障碍人士方面的有效性,突显了其作为辅助技术显著进步的潜力。结果表明,Guide-LLM能够提供高效、适应性强且个性化的导航辅助,指出了该领域有希望的发展前景。 |
2024-10-27 | TrajAgent: An Agent Framework for Unified Trajectory Modelling | Yuwei Du et.al. | 2410.20445 | link | 轨迹建模,包括轨迹数据模式挖掘和未来预测的研究,在生活服务、城市交通和公共管理等领域有着广泛的应用。针对特定问题,已经提出了许多方法来解决轨迹建模中的各种问题。然而,由于数据的异质性和任务的多样性,实现统一的轨迹建模仍然是一个重要的挑战。在本文中,我们提出了一种基于大型语言模型的代理框架TrajAgent,以统一各种轨迹建模任务。在TrajAgent中,我们首先开发了UniEnv,这是一个具有统一数据和模型接口的执行环境,支持各种模型的执行和训练。在此基础上,我们引入了TAgent,这是一种针对各种轨迹任务自动进行轨迹建模的代理工作流程。具体来说,我们在TAgent中设计了AutOpt,一个系统性的优化模块,进一步提高了集成模型的性能。通过输入自然语言的不同轨迹任务,TrajAgent能够通过训练和执行适当的模型自动生成有竞争力的结果。在四个真实世界数据集上进行的四个任务的大量实验表明,TrajAgent在统一轨迹建模方面是有效的,与基线方法相比,平均性能提高了15.43%。 |
2024-10-25 | Cooperative Strategic Planning Enhances Reasoning Capabilities in Large Language Models | Danqing Wang et.al. | 2410.20007 | null | 提升大型语言模型(LLMs)的推理能力对于使其能够解决复杂的多步问题至关重要。多智能体框架在增强LLMs的推理能力方面显示出巨大潜力。然而,LLM智能体之间缺乏有效的合作限制了它们的表现,特别是在多步推理任务中。本文提出了一种新颖的合作多智能体推理框架(CoPlanner),通过分离推理步骤并将不同的任务分配给不同的智能体来实现。CoPlanner由两个LLM智能体组成:规划智能体和推理智能体。规划智能体提供高层次的战略提示,而推理智能体则遵循这些提示并推导出答案。通过通过近端策略优化(PPO)训练规划智能体的策略,基于LLaMA-3-8B的CoPlanner在LogiQA上比之前最好的方法提高了9.94%,在BBH上提高了3.09%。我们的结果表明,规划智能体的指导以及智能体之间的有效合作对CoPlanner在解决多步推理问题方面的优越性能起到了重要作用。 |
2024-10-29 | Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting | Mohamed Salim Aissi et.al. | 2410.19920 | null | 强化学习(RL)是一种有前景的方法,可以将大型语言模型(LLMs)的知识应用于顺序决策任务。然而,很少有研究深入探讨在特定环境中使用RL微调这些模型对其能力的影响。本文提出了一种新颖的框架,用于分析在文本环境中进行RL训练后,LLM代理对提示格式的敏感性。我们的研究结果表明,当面对与RL训练阶段所使用的不同的提示格式时,LLM的性能会下降。此外,我们通过检查模型的内部表示和显著标记来分析这种敏感性的来源。最后,我们提出使用对比损失来减轻这种敏感性,并提高LLM的鲁棒性和泛化能力。 |
2024-10-25 | Investigating the Role of Prompting and External Tools in Hallucination Rates of Large Language Models | Liam Barkley et.al. | 2410.19385 | null | 大型语言模型(LLMs)是通过大量人类可读的文本训练而成的强大计算模型,使它们能够执行通用的语言理解和生成任务。这些模型因其在各种自然语言处理(NLP)任务中的卓越表现而在行业和学术界引起了广泛关注。尽管取得了这些成功,LLMs经常会产生不准确的情况,通常称为幻觉。提示工程,即设计和制定指令以使LLMs执行特定任务的过程,已成为减轻幻觉的关键方法。本文对不同的提示策略和框架进行了全面的经验评估,旨在减少LLMs中的幻觉。各种提示技术被应用于广泛的基准数据集,以评估每种方法的准确性和幻觉率。此外,本文还研究了工具调用代理(具有外部工具增强其能力以超越语言生成的LLMs)对同一基准数据集中幻觉率的影响。研究结果表明,最佳提示技术取决于问题类型,并且在减少幻觉方面,简单的技术往往比复杂的方法更有效。此外,研究表明,由于外部工具使用的复杂性增加,LLM代理可能会表现出更高的幻觉率。 |
2024-10-25 | Designing LLM-Agents with Personalities: A Psychometric Approach | Muhua Huang et.al. | 2410.19238 | null | 本文介绍了一种新颖的方法,用于使用五大人格框架为基于大语言模型的代理(Agent)分配可量化、可控且经过心理测量验证的人格特质。研究旨在克服人类主体研究的限制,提出代理作为社会科学研究的一种可访问工具。通过四项研究,本研究展示了为代理分配心理测量有效人格特质的可行性,并使其能够复制复杂的人类行为。第一项研究在大型语言模型的语义空间中建立了对人格结构和人格测试的理解。随后的两项研究利用实证数据和模拟数据展示了创建代理的过程,并通过显示人类和代理在人格测试中的答案高度对应来验证结果。最后一项研究进一步通过代理在涉及风险承担和道德困境的情境下复制已知的人类人格特质与决策行为之间的相关性,从而验证了人格心理测量方法设计代理的有效性及其在社会和行为研究中的适用性。 |
2024-10-25 | An LLM Agent for Automatic Geospatial Data Analysis | Yuxing Chen et.al. | 2410.18792 | null | 大型语言模型(LLMs)在数据科学代码生成任务中被广泛应用,但它们在处理复杂顺序任务时常常遇到逻辑错误的问题。特别是在处理地理空间数据时,这些模型面临着整合复杂数据结构和空间约束、有效利用各种函数调用以及较少使用的地理空间库方面容易产生幻觉的挑战。为了解决这些问题,我们引入了GeoAgent,这是一种新的交互框架,旨在帮助LLMs更有效地处理地理空间数据处理任务。GeoAgent首创性地将代码解释器、静态分析和基于检索的生成(RAG)技术与蒙特卡洛树搜索(MCTS)算法相结合,提供了一种新颖的地理空间数据处理方法。此外,我们还贡献了一个专门设计的新基准,用于评估基于LLMs的方法在地理空间任务中的表现。该基准利用了多种Python库,并包括从数据获取、数据分析到可视化的单轮和多轮任务。通过在各种地理空间环境中提供全面的评估,这个基准为开发LLMs在地理空间数据分析任务中的应用设定了新标准。我们的研究结果表明,仅依靠LLMs的知识对于准确编程地理空间任务是不够的,这需要连贯的多步骤过程和多次函数调用。与基线LLMs相比,提出的GeoAgent展示了卓越的性能,在函数调用和任务完成方面取得了显著的改进。此外,这些结果为未来LLMs代理在自动地理空间数据分析任务编程的发展提供了宝贵的见解。 |
2024-10-24 | PRACT: Optimizing Principled Reasoning and Acting of LLM Agent | Zhiwei Liu et.al. | 2410.18528 | null | 我们介绍了Principled Reasoning and Acting (PRAct)框架,这是一种新颖的方法,可以从轨迹数据中学习和执行行动原则。我们的方法的核心是使用来自反思和优化引擎的文本梯度来推导这些行动原则。为了使行动原则适应特定任务要求,我们提出了一种新的优化框架,称为Reflective Principle Optimization (RPO)。在执行后,RPO使用反思器来批评当前的行动原则,并使用优化器相应地更新它们。我们在两种场景下开发了RPO框架:Reward-RPO,它使用环境奖励进行反思;以及Self-RPO,它在没有外部奖励的情况下进行自我反思。此外,我们还介绍了两种RPO方法,RPO-Traj和RPO-Batch,以适应不同的设置。实验结果表明,在四个环境中,利用RPO框架的PRAct代理能够有效学习并应用行动原则以提高性能。 |
2024-10-23 | GraphTeam: Facilitating Large Language Model-based Graph Analysis via Multi-Agent Collaboration | Xin Li et.al. | 2410.18032 | link | 图在现实世界场景中,如社交网络和城市计算中被广泛用于建模关系数据。现有的基于大型语言模型(LLM)的图分析方法要么集成了特定机器学习任务的图神经网络(GNN),限制了其可迁移性,要么完全依赖于LLM自身的推理能力,导致性能不佳。为了解决这些局限性,我们利用了LLM基代理的最新进展,这些代理展示了利用外部知识或工具解决问题的能力。通过模拟人类的问题解决策略,如类比和协作,我们提出了一种基于LLM的多代理系统,称为GraphTeam,用于图分析。GraphTeam由三个模块中的五个LLM基代理组成,具有不同专长的代理可以相互协作以解决复杂问题。具体来说,(1)输入-输出规范化模块:问题代理从原始问题中提取并提炼出四个关键参数,便于理解问题,答案代理则将结果组织成符合输出要求的形式;(2)外部知识检索模块:我们首先构建了一个包含相关文档和经验信息的知识库,然后搜索代理为每个问题检索最相关的条目。(3)问题解决模块:给定搜索代理检索到的信息,编码代理使用编程方法生成解决方案;如果编码代理不起作用,推理代理将直接进行计算而无需编程。在六个图分析基准上的大量实验表明,GraphTeam达到了最先进的性能,在准确率方面比最好的基线平均提高了25.85%。代码和数据可在https://github.com/BUPT-GAMMA/GraphTeam 获取。 |
2024-10-25 | MiniFed : Integrating LLM-based Agentic-Workflow for Simulating FOMC Meeting | Sungil Seok et.al. | 2410.18012 | null | 美国联邦基金利率在国内外金融市场中扮演着重要角色。然而,研究主要集中在该利率调整的影响上,而非决策过程本身。最近大型语言模型(LLM)的发展为重建原始的联邦公开市场委员会(FOMC)会议提供了可能,这些会议负责设定联邦基金利率。本文提出了一种五阶段的FOMC会议模拟框架MiniFed,该框架使用LLM代理来模拟现实世界中的FOMC会议成员,并优化FOMC结构。这一框架有效地重新激活了FOMC会议流程,并促进了对联邦基金利率的预测。实验结果表明,我们提出的MiniFed框架在联邦基金利率预测方面达到了高准确度,并且代理的行为与现实世界的对应者保持一致。鉴于目前很少有研究利用LLM代理来模拟大规模的现实世界会议,我们的工作可以作为未来发展的基准。 |
2024-10-22 | SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning | Yizhou Chi et.al. | 2410.17238 | link | 自动化机器学习(AutoML)方法包括传统的优化固定管道以进行模型选择和集成的方法,以及基于最新大语言模型(LLM)的框架,这些框架可以自主构建管道。尽管基于LLM的代理在自动化机器学习任务方面显示出潜力,但它们通常生成低多样性和次优的代码,即使经过多次迭代也是如此。为了克服这些限制,我们引入了树搜索增强型LLM代理(SELA),这是一种创新的代理系统,利用蒙特卡洛树搜索(MCTS)来优化AutoML过程。通过将管道配置表示为树结构,我们的框架使代理能够智能地进行实验,并迭代地优化其策略,从而更有效地探索机器学习解决方案空间。这一新颖的方法允许SELA根据实验反馈发现最优路径,提高解决方案的整体质量。在跨越20个机器学习数据集的广泛评估中,我们比较了传统和基于代理的AutoML方法的性能,结果表明,在所有数据集中,SELA相对于每个基线的胜率为65%到80%。这些结果强调了基于代理策略在AutoML中的巨大潜力,为解决复杂的机器学习挑战提供了新的视角。 |
2024-10-22 | EnvBridge: Bridging Diverse Environments with Cross-Environment Knowledge Transfer for Embodied AI | Tomoyuki Kagaya et.al. | 2410.16919 | null | 近年来,大型语言模型(LLMs)在推理能力方面表现出色,引起了广泛关注,尤其是在各种决策过程中的应用。LLM代理的一个特别有前景的应用是机器人操作。最近的研究表明,LLMs可以为机器人生成文本规划或控制代码,提供了极大的灵活性和交互能力。然而,这些方法在灵活性和跨不同环境的适用性方面仍面临挑战,限制了它们自主适应的能力。目前的方法通常分为两类:一类依赖于特定环境的策略训练,这限制了其可移植性;另一类基于固定提示生成代码动作,在面对新环境时性能会下降。这些局限性显著制约了代理在机器人操作中的通用性。为了解决这些局限性,我们提出了一种名为EnvBridge的新方法。这种方法涉及从源环境保留和转移成功的机器人控制代码到目标环境。EnvBridge通过利用多个环境的见解,增强了代理在多样化设置中的适应性和性能。值得注意的是,我们的方法缓解了环境约束,提供了一个更灵活和通用的机器人操作任务解决方案。我们使用机器人操作基准测试RLBench、MetaWorld和CALVIN验证了该方法的有效性。实验结果表明,LLM代理能够成功利用多样化的知识来源解决复杂任务。因此,我们的方法显著提高了机器人操作代理在多样化环境中规划的适应性和鲁棒性。 |
2024-10-22 | CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing | Chen Yang et.al. | 2410.16670 | link | 在代理系统中,基于大型语言模型(LLMs)的顺序推理已经取得了显著进展,但现有方法仍面临一些限制。反思驱动的推理完全依赖于预训练模型中的知识,这在新颖场景中的表现往往受限;而经验辅助的推理则常常依赖外部经验,并且缺乏选择代表性经验的明确原则。我们通过提出CoPS(跨任务经验共享)算法来解决这些限制,这是一种能够通过跨任务经验共享和选择来增强顺序推理的通用算法。具体来说,CoPS利用代理在先前任务中的经验,通过一种基于悲观策略的方法选择分布匹配的经验,以最大化效用并最小化因分布变化带来的风险。在Alfworld、Webshop和HotPotQA等基准测试中进行的广泛实验结果表明,CoPS始终优于最先进的基线方法,并具有适用于资源受限场景的优越样本效率。从理论上讲,我们的算法性能取决于预训练LLM的质量以及代理的任务相关试验分布与LLM生成分布之间的匹配度。我们的工作填补了现有顺序推理范式之间的空白,并验证了利用跨任务经验的有效性,这为提高代理在多样化任务中的泛化能力和适应性提供了潜在途径。我们的代码可在https://github.com/uclaml/COPS获取。 |
2024-10-22 | Adsorb-Agent: Autonomous Identification of Stable Adsorption Configurations via Large Language Model Agent | Janghoon Ock et.al. | 2410.16658 | link | 吸附能是催化中的一个重要反应描述符,能够实现潜在催化剂的高效筛选。然而,确定吸附能需要比较多种吸附物-催化剂构型的能量,由于可能的构型数量庞大,这在计算上非常耗时。当前的算法方法通常会枚举吸附位点和构型,而不会利用理论见解来指导初始设置。在这项工作中,我们介绍了一种名为Adsorb-Agent的大语言模型(LLM)代理,旨在以最小的人工干预高效地推导出系统特定的稳定吸附构型。Adsorb-Agent利用内置知识和新兴推理能力,显著减少了所需的初始构型数量,同时提高了预测最低吸附能的准确性。我们通过两个实例系统NNH-CuPd3(111)和NNH-Mo3Pd(111),用于氮还原反应(NRR),这是一种可持续替代哈伯-博施工艺的方法,展示了其性能。Adsorb-Agent通过识别能量更低且初始设置更少的构型,优于传统的“启发式”和“随机”算法,从而降低了计算成本并提高了准确性。这凸显了它加速催化剂发现的潜力。 |
2024-10-23 | IBGP: Imperfect Byzantine Generals Problem for Zero-Shot Robustness in Communicative Multi-Agent Systems | Yihuan Mao et.al. | 2410.16237 | null | 随着大型语言模型(LLM)代理越来越多地集成到我们的基础设施中,它们的稳健协调和消息同步变得至关重要。拜占庭将军问题(BGP)是构建在对抗性攻击下具有弹性的多智能体系统(MAS)的关键模型。该问题描述了一种情景,其中系统内存在恶意代理且这些代理的身份未知——在我们的情境中,这种情况可能是由LLM代理的幻觉或外部攻击引起的。在BGP中,整个系统的目的是就采取的行动达成共识。传统的BGP需要所有代理之间的全局共识;然而,在实际场景中,全局共识并非总是必要,甚至可能效率低下。因此,迫切需要探索一种与MAS中观察到的局部协调模式相一致的改进版BGP。我们在研究中将这种改进版称为不完美BGP(IBGP),旨在解决这一差异。为了解决这个问题,我们提出了一种框架,该框架利用了一般MAS环境中的共识协议,提供了对通信攻击的可证明弹性以及适应不断变化的环境的能力,并通过实证结果进行了验证。此外,我们还提供了一个传感器网络环境中的案例研究,以说明我们协议的实际应用。 |
2024-10-21 | NetSafe: Exploring the Topological Safety of Multi-agent Networks | Miao Yu et.al. | 2410.15686 | null | 大型语言模型(LLMs)已经赋予了多智能体网络中的节点以智能,这些模型在学术界和工业界的应用日益广泛。然而,如何防止这些网络生成恶意信息仍然是一个未被充分探索的问题,以前关于单个LLM安全性的研究难以直接转移应用。本文从拓扑学的角度关注多智能体网络的安全性,探讨哪些拓扑特性有助于更安全的网络。为此,我们提出了一种通用框架NetSafe以及一种迭代RelCom交互,以统一现有的各种基于LLM的代理框架,为一般化的拓扑安全性研究奠定基础。我们发现当多智能体网络受到涉及虚假信息、偏见和有害信息的攻击时,会出现几种关键现象,称为代理幻觉和聚合安全性。此外,我们发现高度连接的网络更容易受到对抗性攻击的影响,在星形图拓扑结构下任务性能下降了29.7%。此外,我们提出的静态度量比传统的图论度量更接近现实世界的动态评估,表明距离攻击者平均距离更大的网络表现出更高的安全性。总之,我们的工作引入了一个新的视角来探讨基于LLM的多智能体网络的安全性,并发现了几个未报道的现象,为未来探索此类网络的安全性铺平了道路。 |
2024-10-20 | Who is Undercover? Guiding LLMs to Explore Multi-Perspective Team Tactic in the Game | Ruiqi Dong et.al. | 2410.15311 | null | 大型语言模型(LLMs)在复杂任务中扮演着关键的AI角色,但在复杂场景中的开放式决策问题中仍面临挑战。为此,我们使用语言逻辑游戏“谁是卧底?”(WIU)作为实验平台,提出了多视角团队战术(MPTT)框架。MPTT旨在培养LLMs在复杂场景中的人类语言表达逻辑、多维思维和自我感知。通过交替进行发言和投票环节,并结合自我视角、身份确定、自我反思、自我总结和多轮找队友等技术,LLM代理通过策略性隐藏和沟通作出理性决策,促进人类信任的形成。初步结果显示,MPTT结合WIU利用了LLMs的认知能力,创建了一个可以模拟真实社会的决策框架。该框架有助于少数群体的沟通与表达,促进了决策过程中的公平性和多样性。此外,我们的“人在回路”实验表明,LLMs可以通过互动学习并适应人类行为,这表明它们有潜力积极参与社会决策。 |
2024-10-20 | When Machine Unlearning Meets Retrieval-Augmented Generation (RAG): Keep Secret or Forget Knowledge? | Shang Wang et.al. | 2410.15267 | null | 大型语言模型(LLMs)如ChatGPT和Gemini的部署展示了它们强大的自然语言生成能力。然而,在训练过程中,这些模型可能会无意中学到并保留敏感信息和有害内容,这引发了重大的伦理和法律问题。为了解决这些问题,提出了机器遗忘作为潜在解决方案。尽管现有的遗忘方法考虑了LLMs的具体特性,但它们通常面临高计算需求、有限适用性或灾难性遗忘的风险。为了应对这些局限性,我们提出了一种基于检索增强生成(RAG)技术的轻量级遗忘框架。通过修改RAG的外部知识库,我们在不直接与未学习的LLM交互的情况下模拟遗忘的效果。我们将构建遗忘知识视为一个约束优化问题,并推导出两个关键组件,以支持基于RAG的遗忘的有效性。这种基于RAG的方法对于闭源LLMs特别有效,而现有遗忘方法往往在这些模型上失效。我们通过广泛的实验对我们的框架进行了评估,包括在开源和闭源模型上进行测试,涵盖了ChatGPT、Gemini、Llama-2-7b-chat-hf和PaLM 2。结果显示,我们的方法满足了五个关键的遗忘标准:有效性、通用性、无害性、简单性和鲁棒性。此外,该方法可以扩展到多模态大语言模型和基于LLM的代理。 |
2024-10-19 | SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation | Jingxuan Chen et.al. | 2410.15164 | link | 智能手机代理在帮助用户高效控制设备方面变得越来越重要,多模态大型语言模型(MLLM)方法成为关键的竞争者。然而,公平比较这些代理既重要又具有挑战性,需要多样化的任务范围、集成不同实现方式的代理以及通用的评估管道来评估它们的优势和劣势。本文介绍了SPA-Bench,这是一个综合的智能手机代理基准测试,旨在评估基于(M)LLM的代理在一个模拟现实世界条件的交互环境中。SPA-Bench有三个主要贡献:(1)涵盖系统应用和第三方应用的任务集,包括英语和中文,重点是日常生活中常用的功能;(2)一个即插即用框架,支持与Android设备的实时交互,集成了超过十个代理,并且可以灵活添加更多代理;(3)一种新颖的评估管道,自动从多个维度评估代理性能,包括七个与任务完成和资源消耗相关的指标。我们通过广泛的实验揭示了这些代理在解释移动用户界面、动作定位、记忆保留和执行成本等方面面临的挑战。我们提出了未来的研究方向以缓解这些问题,从而更接近实际的智能手机代理应用。 |
2024-10-22 | Imprompter: Tricking LLM Agents into Improper Tool Use | Xiaohan Fu et.al. | 2410.14923 | link | 大型语言模型(LLM)代理是一种新兴的计算范式,它结合了生成式机器学习与代码解释器、网页浏览、电子邮件等工具,以及更广泛的外部资源。这些基于代理的系统代表了个人计算领域的一个新兴转变。我们为基于代理系统的安全基础做出贡献,并提出了新的自动计算的对抗性提示攻击,这些攻击侵犯了用户资源的机密性和完整性。我们展示了如何在给定模型权重的情况下,利用提示优化技术自动生成这样的提示。我们证明这种攻击可以转移到生产级别的代理上。例如,我们展示了对Mistral的LeChat代理的信息窃取攻击,该攻击分析用户的对话,挑选出个人身份信息,并将其格式化为有效的markdown命令,从而将这些数据泄露到攻击者的服务器上。这种攻击在端到端评估中显示出了近80%的成功率。我们进行了一系列实验来表征这些攻击的有效性,并发现它们在新兴的基于代理的系统如Mistral的LeChat、ChatGLM和Meta的Llama中都能可靠地工作。这些攻击是多模态的,我们在文本和图像领域展示了不同的变体。 |
2024-10-18 | When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs | Hanna Kim et.al. | 2410.14569 | null | 近年来,大型语言模型(LLMs)的发展使其成为能够规划和与各种工具交互的自主系统。这些LLM代理通常与基于网络的工具结合使用,从而能够访问多样化的信息源和实时数据。尽管这些进展在各种应用中带来了显著的好处,但它们也增加了恶意使用的风险,特别是在涉及个人隐私信息的网络攻击中。在这项工作中,我们调查了LLM代理在涉及个人数据的网络攻击中的误用风险。具体而言,我们旨在了解:1)当指导LLM代理进行网络攻击时,其潜在的能力;2)基于网络的工具如何增强网络攻击;以及3)利用LLM代理发起网络攻击变得多么经济实惠和容易。我们考察了三种攻击场景:收集个人身份信息(PII)、生成冒充帖子和创建定向钓鱼邮件。我们的实验揭示了LLM代理在这类攻击中的有效性:LLM代理在收集PII方面的准确率高达95.9%,由LLM代理生成的冒充帖子中有高达93.9%被评估为真实,而由LLM代理创建的定向钓鱼邮件中的链接点击率达到了46.67%。此外,我们的研究还强调了现有商业LLM中的安全防护措施的局限性,强调了迫切需要更强大的安全措施来防止LLM代理的误用。 |
2024-10-18 | Do LLMs "know" internally when they follow instructions? | Juyeon Heo et.al. | 2410.14516 | null | 指令跟随对于构建具有大型语言模型(LLMs)的AI代理至关重要,因为这些模型必须严格遵循用户提供的约束和指南。然而,LLMs经常无法遵循即使是简单且明确的指令。为了提高指令跟随的成功率并防止不期望的输出,需要更深入地理解LLMs的内部状态与这些结果之间的关系。我们对LLM的内部状态进行分析,发现输入嵌入空间中存在一个维度,与成功的指令跟随相关联。我们证明,沿着这个维度修改表示可以提高指令跟随的成功率,而不会损害响应质量。进一步研究显示,这个维度与提示的措辞关系更为密切,而不是任务或指令的固有难度。这一发现还解释了为什么LLMs有时无法遵循清晰的指令,以及为什么即使内容基本不变,提示工程往往有效的原因。这项工作揭示了LLMs指令跟随的内部机制,为可靠LLM代理的开发铺平了道路。 |
2024-10-18 | CoMAL: Collaborative Multi-Agent Large Language Models for Mixed-Autonomy Traffic | Huaiyuan Yao et.al. | 2410.14368 | link | 在城市交通中引入自动驾驶车辆具有巨大的潜力,可以通过减少拥堵和系统地优化交通流量来提高效率。本文介绍了一种名为CoMAL(协作多智能体大语言模型)的框架,旨在通过自动驾驶车辆之间的协作解决混合自主交通问题,从而优化交通流量。CoMAL基于大型语言模型,在交互式交通仿真环境中运行。它利用感知模块观察周围代理,并使用记忆模块存储每个代理的策略。整体工作流程包括一个协作模块,鼓励自动驾驶车辆讨论有效的策略并分配角色,一个推理引擎根据分配的角色确定最优行为,以及一个执行模块使用结合了基于规则模型的混合方法控制车辆动作。实验结果表明,CoMAL在Flow基准测试中表现出色。此外,我们评估了不同语言模型的影响,并将其框架与强化学习方法进行了比较。这突显了LLM代理的强大合作能力,并提出了一个有前景的解决方案来应对混合自主交通挑战。代码可在https://github.com/Hyan-Yao/CoMAL获取。 |
2024-10-18 | Good Parenting is all you need -- Multi-agentic LLM Hallucination Mitigation | Edward et.al. | 2410.14262 | null | 本研究探讨了大型语言模型(LLM)代理检测和纠正AI生成内容中幻觉现象的能力。一个主要代理被任务创建一篇关于一位虚构的丹麦艺术家Flipfloppidy的博客,然后由另一个代理进行审查以识别事实性错误。大多数LLM模型幻化出了这位艺术家的存在。在涉及各种主代理和审查代理组合的4900次测试运行中,先进的AI模型如Llama3-70b和GPT-4变体在识别幻觉方面几乎达到了完美的准确率,并且在收到反馈后成功修正了输出内容的85%到100%。这些发现强调了先进AI模型在显著提高生成内容的准确性和可靠性方面的潜力,为改进AI工作流编排提供了一种有前景的方法。 |
2024-10-18 | Agents4PLC: Automating Closed-loop PLC Code Generation and Verification in Industrial Control Systems using LLM-based Agents | Zihan Liu et.al. | 2410.14209 | link | 在工业控制系统中,可编程逻辑控制器(PLC)代码的生成和验证对于确保运行效率和安全性至关重要。尽管大型语言模型(LLM)在自动化代码生成方面取得了进展,但它们通常无法提供正确性保证,并且缺乏对PLC编程的专业支持。为了解决这些挑战,本文介绍了一种名为Agents4PLC的新框架,该框架不仅实现了PLC代码的自动化生成,还通过基于LLM的多代理系统进行了代码级别的验证。我们首先建立了一个全面的基准,用于可验证的PLC代码生成领域,从自然语言需求过渡到人工编写和验证的形式化规范和参考PLC代码。此外,我们通过结合检索增强生成(RAG)、先进的提示工程技术和链式思维策略,进一步增强了针对工业控制系统的“代理”。评估表明,Agents4PLC显著优于先前的方法,在一系列日益严格的指标上均取得了优异的结果。这项研究不仅解决了PLC编程中的关键挑战,还展示了我们的框架生成适用于实际工业应用的可验证代码的潜力。 |
2024-10-18 | Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs | SeongYeub Chu et.al. | 2410.14202 | null | 现有的自动作文评分(AES)仅依赖于作文文本,而未使用解释性理由分数,因此错失了以细粒度方式捕捉评分标准中特定评估方面的机会。本文介绍了一种名为基于论据的多特征评分(RMTS)的新方法,该方法结合了基于提示的大语言模型(LLMs)和使用较小的大语言模型(S-LLM)的微调式作文评分模型。RMTS 使用基于LLM的特征论据生成系统,其中单独的LLM代理根据评分标准指南生成特征特定的理由,评分模型利用这些理由准确预测多特征分数。在基准数据集(包括ASAP、ASAP++和Feedback Prize)上的广泛实验表明,RMTS 在特征特定评分方面显著优于最先进的模型和普通的S-LLM。通过辅助定量评估以提供细粒度的定性理由,RMTS 提高了特征评分的可靠性,并提供了关于作文的部分解释。 |
2024-10-18 | SRAP-Agent: Simulating and Optimizing Scarce Resource Allocation Policy with LLM-based Agent | Jiarui Ji et.al. | 2410.14152 | link | 公共稀缺资源配置在经济学中扮演着至关重要的角色,因为它直接影响到社会的效率和公平性。传统研究方法,包括基于理论模型、基于实证研究和基于仿真的方法,由于存在理想化的完全信息和个体理性的假设以及有限可用数据的限制,面临着局限性。在这项工作中,我们提出了一种创新框架SRAP-Agent(使用基于大语言模型的智能体模拟和优化稀缺资源配置政策),该框架将大型语言模型(LLMs)集成到经济仿真中,旨在弥合理论模型与现实动态之间的差距。以公共住房分配场景作为案例研究,我们进行了广泛的政策仿真实验来验证SRAP-Agent的可行性和有效性,并采用具有特定优化目标的政策优化算法。源代码可以在https://github.com/jijiarui-cather/SRAPAgent_Framework找到。 |
2024-10-17 | From Barriers to Tactics: A Behavioral Science-Informed Agentic Workflow for Personalized Nutrition Coaching | Eric Yang et.al. | 2410.14041 | null | 有效的管理心脏代谢状况需要持续的积极营养习惯,但这些习惯往往受到复杂且个体化的障碍影响。直接的人类管理难以扩展,而之前的尝试旨在自动化营养辅导,但缺乏解决这些多样化挑战所需的个性化。本文介绍了一种新颖的基于大型语言模型(LLM)的主动工作流程,旨在通过直接针对并缓解患者特定的障碍来提供个性化的营养辅导。该工作流程基于行为科学原则,利用了与相应循证策略相关的全面营养相关障碍映射。一个专门的LLM代理有意探查并识别患者在饮食方面的根本问题。随后,另一个LLM代理提供量身定制的策略,以克服这些特定障碍,并结合患者的具体情况。我们通过一项涉及心脏代谢疾病患者的用户研究来设计和验证我们的方法,证明了该系统能够准确识别障碍并提供个性化指导。此外,我们还通过大规模模拟研究来评估系统的性能,该研究基于真实的患者案例和专家验证的指标,在广泛的情景中进行了评估。我们的研究结果表明,这种基于LLM的主动工作流程有可能通过提供个性化、可扩展且基于行为的干预措施来改善营养辅导。 |
2024-10-17 | AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents | Ke Yang et.al. | 2410.13825 | null | 通过使用大型语言模型(LLMs)的代理实现自主性,可以提升人类在个性化和标准化任务中的效率。自动化网络任务(例如在预算内预订酒店)的需求日益增加。满足实际需求的同时,网络代理也作为各种代理接地场景的重要概念证明示例,其成功预示着许多未来应用的进步。先前的研究通常手工设计网络代理策略(例如提示模板、多代理系统、搜索方法等),这些方法可能无法在所有现实世界场景中普遍适用。另一方面,关于网络代理的观察/动作表示与基于LLM的预训练数据之间不匹配的研究有限。这种差异尤其明显,因为LLM主要针对语言完成进行训练,而不是涉及具身导航动作和符号化网络元素的任务。我们的研究通过简单地优化观察和动作空间来增强基于LLM的网络代理,使其更好地符合LLM的能力。这种方法使我们基础代理AgentOccam在各种网络任务上显著超越之前的方法。具体来说,在WebArena基准测试中,一个包含通用网络交互任务的基准,我们的代理AgentOccam比前最先进的方法和同期工作分别高出9.8(+29.4%)和5.9(+15.8%)个百分点,并且成功率达到26.6点(+161%),超过了具有相同观察和动作空间对齐的普通网络代理。我们实现了这一目标,而没有使用上下文示例、新代理角色、在线反馈或搜索策略。AgentOccam的简洁设计突显了LLMs在网页任务上的零样本性能,并强调了精心调整观察和动作空间对于基于LLM的代理的关键作用。 |
2024-10-17 | Rapid and Automated Alloy Design with Graph Neural Network-Powered LLM-Driven Multi-Agent Systems | Alireza Ghafarollahi et.al. | 2410.13768 | null | 一个多智能体AI模型被用于自动化发现新的金属合金,该模型整合了多模态数据和外部知识,包括通过原子模拟获得的物理见解。我们的多智能体系统具有三个关键组件:(a) 一组大型语言模型(LLMs)负责推理和规划等任务,(b) 一群具有不同角色和专业知识的AI代理动态协作,以及(c) 一种新开发的图神经网络(GNN)模型,用于快速检索关键物理属性。一组由LLM驱动的AI代理合作自动化探索MPEAs(高熵合金)的巨大设计空间,并通过GNN的预测进行引导。我们专注于NbMoTa系列体心立方(bcc)合金,这些合金使用基于机器学习的原子间势进行建模,并针对两个关键性质:Peierls势垒和固溶体/螺位错相互作用能。我们的GNN模型准确地预测了这些原子尺度的性质,提供了一种比昂贵的暴力计算更快的替代方法,并减轻了多智能体系统在物理检索上的计算负担。这个AI系统通过减少对人类专业知识的依赖并克服直接全原子模拟的局限性,革新了材料的发现过程。通过协同GNN的预测能力和LLM代理的动态协作,系统自主导航巨大的合金设计空间,识别原子尺度材料性质的趋势,并预测宏观尺度的机械强度,如若干个计算实验所展示的那样。这种方法加速了先进合金的发现,并有望在其他复杂系统中有更广泛的应用,标志着自动化材料设计领域的一大进步。 |
2024-10-17 | MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling | Yakun Zhu et.al. | 2410.13610 | null | 在大型语言模型(LLMs)中集成工具已经促进了其广泛应用。然而,在专门的下游任务场景中,仅依赖工具不足以完全解决现实世界的复杂性,这尤其限制了LLMs在医学等领域的有效部署。本文专注于医学计算器的下游任务,这些任务使用标准化测试来评估个人的健康状况。我们介绍了MeNTi,这是一种为LLMs设计的通用代理架构。MeNTi集成了专业的医学工具包,并采用元工具和嵌套调用机制以增强LLMs对工具的利用。具体来说,它实现了灵活的工具选择和嵌套工具调用来应对复杂的医学场景中的实际问题,包括计算器选择、插槽填充和单位转换。为了评估LLMs在整个临床过程中的计算器场景下的定量评估能力,我们引入了CalcQA基准。该基准要求LLMs使用医学计算器进行计算并评估患者的健康状况。CalcQA由专业医生构建,包含100个案例-计算器对,并附带一个包含281种医学工具的工具包。实验结果表明,我们的框架显著提升了性能。本研究为在医学的高需求场景中应用LLMs开辟了新的方向。 |
2024-10-17 | Chain of Ideas: Revolutionizing Research in Novel Idea Development with LLM Agents | Long Li et.al. | 2410.13185 | link | 有效的研究创意构思是科学研究的关键步骤。然而,科学文献的指数增长使得研究人员难以跟上最新的进展并确定有意义的研究方向。最近大型语言模型(LLMs)的发展表明,自动化生成新颖的研究创意是一个有前景的途径。然而,现有的创意生成方法要么简单地提示LLMs,要么直接向LLMs暴露大量文献而没有指示有用的信息。受到人类研究人员研究过程的启发,我们提出了一种称为Chain-of-Ideas(CoI)代理的方法,这是一种基于LLM的代理,它以链式结构组织相关文献,有效反映了研究领域的渐进发展。这种组织方式使LLMs能够捕捉当前的研究进展,从而增强其创意生成能力。此外,我们还提出了Idea Arena评估协议,可以从不同角度全面评估创意生成方法,与人类研究人员的偏好紧密对齐。实验结果表明,CoI代理在创意生成方面始终优于其他方法,并且其质量可与人类媲美。此外,我们的CoI代理成本低廉,生成一个候选创意及其相应实验设计的最低成本仅为0.50美元。 |
2024-10-16 | Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving | Sihao Wu et.al. | 2410.12568 | null | 大型语言模型(LLMs)在自动驾驶系统中的集成展示了强大的常识和推理能力,有效地解决了纯数据驱动方法的缺陷。当前基于LLM的代理需要较长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的开放性问题是,我们能否有效利用LLM的知识来训练一个高效且鲁棒的强化学习(RL)代理。本文介绍了一种新颖的RAPID框架,即鲁棒自适应策略注入与蒸馏框架,该框架使用由基于LLM的驾驶代理生成的数据来训练专门的混合策略RL代理,并进行在线适应。RAPID具有三个关键设计:1)利用从LLM代理收集的离线数据来蒸馏专家知识到RL策略中,以加快实时推理速度;2)引入鲁棒蒸馏到RL中,以继承LLM基础教师的表现和鲁棒性;3)采用混合策略方法,通过策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID减少了LLM知识的遗忘,同时保持了对不同任务的适应性。广泛的实验表明,RAPID能够以高效、适应性强和鲁棒的方式将LLM知识有效地整合到规模化的RL策略中。代码和检查点将在接受后公开提供。 |
2024-10-16 | SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling | Loris Gaven et.al. | 2410.12481 | null | 近年来,大规模语言模型(LLMs)不仅作为生成模型,还作为解决文本序列决策任务的代理取得了显著进展。当面对复杂环境,其零样本能力不足时,最近的研究表明,可以使用在线强化学习(RL)让这些LLM代理通过交互式方式发现和学习高效的策略。然而,大多数先前的工作仅限于采用策略梯度算法,这大大限制了这些代理在探索和利用方面可以使用的各种方法,例如经验重放和事后重标记。然而,这些方法对于LLM学习代理来说可能是关键的,尤其是在设计自主内在动机代理时,这些代理会根据自己的目标进行采样和追求(即自目的性代理)。本文提出并研究了一种适应软演员-评论家算法和事后重标记的LLM代理方法。我们的方法不仅为设计在线学习的自目的性LLM代理铺平了道路,还可以在更经典的多目标RL环境中超越策略梯度方法。 |
2024-10-16 | Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance | Yaxi Lu et.al. | 2410.12361 | link | 基于大型语言模型的代理在解决复杂任务方面已经展示了显著的能力。然而,大多数代理系统仍然是反应式的,这限制了它们在需要预见性和自主决策的情景中的有效性。在这篇论文中,我们致力于开发能够预见并主动发起任务的代理,而无需明确的人类指令。我们提出了一种新颖的数据驱动方法来解决这个问题。首先,我们收集真实世界的人类活动以生成主动任务预测。这些预测由人类标注者标记为接受或拒绝。标注后的数据被用于训练一个奖励模型,该模型模拟人类判断,并作为LLM代理主动性的自动评估器。在此基础上,我们开发了一个全面的数据生成管道,创建了一个包含6,790个事件的多样化数据集ProactiveBench。最后,我们证明通过使用所提出的ProactiveBench对模型进行微调可以显著激发LLM代理的主动性。实验结果表明,我们的微调模型在主动提供帮助方面的F1得分达到了66.47%,优于所有开源和闭源模型。这些结果突显了我们方法在创造更主动和有效的代理系统方面的潜力,为未来的人机协作进步铺平了道路。 |
2024-10-16 | Enhancing LLM Agents for Code Generation with Possibility and Pass-rate Prioritized Experience Replay | Yuyang Chen et.al. | 2410.12236 | null | 如今,针对代码生成任务的Transformer基大规模语言模型(LLM)通常应用采样和过滤管道。由于代码生成任务中的稀疏奖励问题,即一个令牌的不正确性会导致Transformer模型采样冗余程序直到找到正确的程序,这导致了低效率。为了解决这一挑战,我们在微调阶段引入了经验回放(ER),其中产生的代码和程序会被存储并重放,以使LLM代理有机会从过去的经验中学习。基于ER的精神,我们介绍了一种称为BTP管道的新方法,该方法由三个阶段组成:束搜索采样、测试阶段和优先级经验回放阶段。该方法利用代码模型收集的失败程序,并从回放缓冲区中重放具有高可能性和通过率优先值(P2Value)的程序,以提高效率。P2Value综合考虑了Transformer输出的可能性和通过率,并可以利用大多数由LLMs收集的程序未能通过任何测试而导致的冗余资源。我们实证地将我们的方法应用于几种LLM中,证明它提升了它们在代码生成任务中的性能,并超越了现有的基线。 |
2024-10-15 | Empowering Users in Digital Privacy Management through Interactive LLM-Based Agents | Bolun Sun et.al. | 2410.11906 | null | 本文介绍了一种将大型语言模型(LLMs)应用于增强用户对隐私政策的理解的新方法,通过交互式对话代理实现。我们展示了LLMs在数据实践识别、选择识别、政策总结和隐私问答等任务中的表现显著优于传统模型,为隐私政策分析设立了新的基准。基于这些发现,我们引入了一种创新的基于LLM的代理,该代理作为处理网站隐私政策的专家系统,能够在不需用户提供特定问题的情况下引导用户理解复杂的法律语言。一项涉及100名参与者的用户研究表明,使用该代理的用户具有更高的理解水平(平均分2.6/3,而对照组为1.8),更低的认知负荷(任务难度评分为3.2/10,而对照组为7.8),更高的隐私管理信心,并且完成任务所需时间更短(5.5分钟vs.15.8分钟)。这项工作突显了基于LLM的代理在改变用户与隐私政策互动方面的潜力,有助于获得更加知情的同意,并在数字服务领域赋予用户更多权力。 |
2024-10-15 | HR-Agent: A Task-Oriented Dialogue (TOD) LLM Agent Tailored for HR Applications | Weijie Xu et.al. | 2410.11239 | null | 近年来,大型语言模型(LLM)的发展在教育和金融等多个领域带来了诸多益处,但在人力资源领域,仍有许多重复性的流程未被解决,例如访问请求、医疗报销和请假申请等。我们希望将这些任务与LLM代理相关联,该代理已经在诸如写作辅助和客户服务等领域取得了成效。我们提出了HR-Agent,这是一种高效、保密且专门针对人力资源领域的基于LLM的任务导向对话系统,旨在自动化处理如医疗报销和访问请求等重复性的人力资源流程。由于在推理过程中不会将对话数据发送给LLM,因此能够保持人力资源相关任务所需的机密性。 |
2024-10-14 | Denial-of-Service Poisoning Attacks against Large Language Models | Kuofeng Gao et.al. | 2410.10760 | link | 近期的研究表明,大型语言模型(LLMs)容易受到拒绝服务(DoS)攻击,例如通过拼写错误或非语义提示的对抗性输入可以触发无限输出,而不会生成[EOS]终止符。这些攻击可能导致高延迟,并使LLM服务对其他用户或任务不可用。然而,在存在语音到文本接口(如机器人语音命令)的情况下,执行此类DoS攻击变得具有挑战性,因为通过语音很难引入拼写错误或非语义提示。一种简单的DoS攻击方式是指示模型“不断重复‘Hello’”,但我们观察到仅依靠自然指令会限制输出长度,该长度受最大长度限制,这是大型语言模型在有监督微调(SFT)数据中的上限。为了解决这一限制,我们提出了针对LLMs的投毒型DoS(P-DoS)攻击,证明注入一个专门设计用于DoS目的的中毒样本可以打破输出长度限制。例如,一个中毒样本成功攻击了GPT-4o和GPT-4o mini(通过OpenAI的微调API),使用不到1美元的成本,导致输出重复直至达到最大推理长度(16K个token,相比之下未中毒前为0.5K)。此外,我们在开源LLMs上进行了全面的消融研究,并将方法扩展到LLM代理,其中攻击者可以控制微调数据集和算法。我们的研究结果强调了急需防御P-DoS攻击以确保LLMs安全的迫切需求。我们的代码可以在https://github.com/sail-sg/P-DoS找到。 |
2024-10-14 | FairMindSim: Alignment of Behavior, Emotion, and Belief in Humans and LLM Agents Amid Ethical Dilemmas | Yu Lei et.al. | 2410.10398 | null | AI对齐是关乎AI控制和安全的关键问题。它不仅应考虑价值中立的人类偏好,还应考虑道德和伦理方面的考量。在这项研究中,我们介绍了FairMindSim,通过一系列不公平的情景来模拟道德困境。我们使用LLM代理来模拟人类行为,在各个阶段确保对齐。为了探索驱动人类和LLM代理作为旁观者在涉及他人的不公正情况下干预的各种社会经济动机,即我们所称的信念,并探讨这些信念如何相互作用以影响个体行为,我们将相关社会学领域的知识纳入其中,并基于递归奖励模型(RRM)提出了信念-奖励对齐行为进化模型(BREM)。我们的研究结果表明,从行为角度来看,GPT-4o表现出更强的社会正义感,而人类则展现出更丰富的情感。此外,我们还讨论了情绪对行为的潜在影响。本研究为LLM与利他价值观对齐的应用提供了理论基础。 |
2024-10-14 | Beyond-RAG: Question Identification and Answer Generation in Real-Time Conversations | Garima Agrawal et.al. | 2410.10136 | null | 在客户联络中心,人工客服经常面临较长的平均处理时间(AHT),因为他们需要手动解析查询并检索相关的知识库(KB)文章。虽然使用大型语言模型(LLM)的检索增强生成(RAG)系统已被广泛应用于行业以协助此类任务,但在实时对话中,RAG系统面临着诸如查询公式不准确和频繁问题重复检索等问题。为了解决这些局限性,我们提出了一种决策支持系统,该系统可以超越RAG,在实时识别客户问题。如果查询匹配常见问题解答(FAQ),系统直接从FAQ数据库中检索答案;否则,通过RAG生成答案。我们的方法减少了对人工查询的依赖,使得响应能够在2秒内提供给客服人员。此系统部署在Minerva CQ的人工智能辅助解决方案中,提高了效率,缩短了AHT,并降低了运营成本。我们还引入了一个自动化的LLM代理工作流,当没有预定义的FAQ时,可以从历史记录中识别FAQ。 |
2024-10-13 | Adaptive Reasoning and Acting in Medical Language Agents | Abhishek Dutta et.al. | 2410.10020 | null | 本文提出了一种创新的大型语言模型(LLM)代理框架,用于提升在模拟临床环境中的诊断准确性,并使用AgentClinic基准进行评估。所提出的自动校正机制使得医生代理能够在错误诊断后迭代地优化其推理和行为,从而随着时间推移提高决策能力。实验表明,采用自适应LLM基础医生代理能够通过与模拟患者的动态互动实现正确的诊断。评估结果突显了自主代理在复杂医疗场景中适应和改进的能力。未来的工作将集中在完善算法并扩大其在更广泛任务和不同大型语言模型中的适用性。 |
2024-10-13 | Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation | Jiarui Ji et.al. | 2410.09824 | null | 图生成是社会、技术和科学研究中广泛研究的基本任务。在建模动态图演化过程时,传统的基于规则的方法难以捕捉图中的社区结构,而深度学习方法仅关注拟合训练图。这限制了现有的图生成器只能生成符合预定义规则或与训练数据集高度相似的图,在动态图生成方面表现不佳。鉴于图是从人类活动中成对交互产生的抽象表示,对人类行为的真实模拟可以更深入地洞察图演化机制。随着大型语言模型(LLMs)在模拟人类行为方面的日益认可,我们引入了一种新的基于仿真框架——GraphAgent-Generator(GAG),用于动态图生成。无需对LLM进行训练或微调,我们的框架有效复制了已建立的网络科学理论中的七个宏观结构特征,同时在特定评估指标上比现有基线在图扩展任务中提高了31%。通过节点分类任务,我们验证了GAG能够有效保留真实世界网络的节点级文本特征在生成的文本丰富的图中。此外,通过并行加速,GAG支持通过基于大规模LLM的代理仿真生成最多接近10万个节点或1000万条边的图,最小加速比为90.4%。源代码可在https://anonymous.4open.science/r/GraphAgent-2206获取。 |
2024-10-13 | Agentic Information Retrieval | Weinan Zhang et.al. | 2410.09713 | null | 自20世纪70年代以来,用户访问相关信息一直依赖于特定领域的信息检索(IR)架构。在过去二十年中,现代IR系统(包括网络搜索引擎和个人化推荐系统)的出现极大地提高了从大量数据集中检索相关信息的效率。然而,这些IR系统的内核范式仍然基本不变,依赖于筛选预定的一组候选项目。自2022年以来,大型语言模型(LLM)的突破开始改变信息访问的方式,建立了一种新的技术范式。在本文献综述中,我们介绍了由LLM代理能力塑造的新IR范式——主动式信息检索(Agentic IR)。Agentic IR扩展了可访问任务的范围,并利用一系列新技术重新定义信息检索。我们讨论了三种前沿应用以及面临的挑战。我们认为,主动式信息检索有望产生创新的应用,可能成为未来数字生态系统中的核心信息入口。 |
2024-10-12 | LLM-SmartAudit: Advanced Smart Contract Vulnerability Detection | Zhiyuan Wei et.al. | 2410.09381 | link | 区块链技术的不变性质虽然革命性,但也引入了显著的安全挑战,特别是在智能合约方面。这些安全问题可能导致巨大的财务损失。当前工具和方法通常专注于特定类型的漏洞。然而,缺乏一种能够广泛检测多种漏洞且具有高准确性的综合工具。本文介绍了一种名为LLM-SmartAudit的新框架,该框架利用大型语言模型(LLMs)的先进能力来检测和分析智能合约中的漏洞。通过多代理对话方法,LLM-SmartAudit采用协作系统与专业代理合作以增强审计过程。为了评估LLM-SmartAudit的有效性,我们编制了两个不同的数据集:一个用于与传统工具进行基准测试的标记数据集,以及一个用于评估实际应用的现实世界数据集。实验结果表明,我们的解决方案在所有传统智能合约审计工具之上,提供了更高的准确性和更大的效率。此外,我们的框架可以检测复杂逻辑漏洞,而传统工具之前未曾发现这些漏洞。我们的研究结果表明,利用LLM代理提供了一种非常有效的自动化智能合约审计方法。 |
2024-10-11 | PEAR: A Robust and Flexible Automation Framework for Ptychography Enabled by Multiple Large Language Model Agents | Xiangyu Yin et.al. | 2410.09034 | link | 叠层成像是在X射线和电子显微镜中的一种先进的计算成像技术。它已被广泛应用于物理、化学、生物和材料科学等科研领域,以及半导体表征等工业应用中。实际上,获得高质量的叠层图像需要同时优化许多实验和算法参数。传统上,参数选择往往依赖于试错法,导致低吞吐量的工作流程和潜在的人类偏见。在这项工作中,我们开发了“叠层实验与分析机器人”(PEAR),这是一个利用大型语言模型(LLM)自动化叠层成像数据分析的框架。为了确保高鲁棒性和准确性,PEAR使用多个LLM代理执行任务,包括知识检索、代码生成、参数推荐和图像推理。我们的研究表明,PEAR的多代理设计显著提高了工作流程的成功率,即使使用较小的开源权重模型如LLaMA 3.1 8B。PEAR还支持各种自动化级别,并且设计为可以与定制的本地知识库一起工作,确保在不同研究环境中的灵活性和适应性。 |
2024-10-14 | AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents | Maksym Andriushchenko et.al. | 2410.09024 | null | 对于语言大模型(LLMs)在面对越狱攻击时的鲁棒性研究,主要集中在它们作为简单的聊天机器人时的情况。然而,能够使用外部工具并执行多阶段任务的语言模型代理可能带来更大的风险,但其鲁棒性仍缺乏充分探索。为了促进对语言模型代理滥用的研究,我们提出了一种新的基准测试——AgentHarm。该基准测试包括110个明确恶意的代理任务(通过增强后达到440个),涵盖了欺诈、网络犯罪和骚扰等11类危害。除了衡量模型是否拒绝有害的代理请求外,要在AgentHarm上取得高分还需要被越狱的代理能够在遭受攻击后维持其能力以完成多步任务。我们评估了一系列领先的LLMs,发现(1)领先的LLMs在没有越狱的情况下会出乎意料地服从恶意代理请求,(2)简单的通用越狱模板可以有效越狱代理,(3)这些越狱能够使连贯且恶意的多步代理行为得以实现,并保留模型的能力。为了便于对基于LLM的代理进行简单可靠的攻击和防御评估,我们公开发布了AgentHarm,网址是https://huggingface.co/datasets/ai-safety-institute/AgentHarm。 |
2024-10-11 | The Dynamics of Social Conventions in LLM populations: Spontaneous Emergence, Collective Biases and Tipping Points | Ariel Flint Ashery et.al. | 2410.08948 | null | 社会惯例是社会和经济生活的基础。随着越来越多的AI代理与彼此以及人类进行互动,它们形成共享惯例的能力将决定它们协调行为、融入社会并影响社会的效果。本文通过模拟交互研究了大型语言模型(LLM)代理群体内部惯例的动力学。首先,我们展示了全球接受的社会惯例可以自发地从相互交流的LLM之间产生。其次,我们演示了在这一过程中即使是个体代理看似无偏见的情况下,强烈的集体偏见也可能会出现。第三,我们考察了少数群体中的坚定LLM如何推动社会变革,通过建立新的社会惯例。我们发现,一旦这些少数群体达到临界规模,它们就能够持续颠覆已建立的行为模式。在所有情况下,将实验结果与一个最小化多代理模型的预测进行对比,使我们能够隔离LLM代理的具体作用。我们的研究结果阐明了AI系统可以在没有明确编程的情况下自主发展规范,并对设计与人类价值观和社会目标相一致的AI系统具有启示意义。 |
2024-10-10 | Benchmarking Agentic Workflow Generation | Shuofei Qiao et.al. | 2410.07869 | link | 大型语言模型(LLMs)凭借其在处理广泛任务方面的出色能力,推动了推理和规划任务的显著进步。在这一过程中,将复杂问题分解为可执行的工作流是关键步骤。现有的工作流评估框架要么仅关注整体性能,要么存在限制,如场景覆盖范围有限、工作流结构过于简单以及评价标准宽松等问题。因此,我们引入了WorFBench,这是一个具有多维场景和复杂图工作流结构的统一工作流生成基准。同时,我们提出了一套系统性的评估协议——WorFEval,利用子序列和子图匹配算法来准确量化LLM代理的工作流生成能力。 通过不同类型的LLM进行全面评估,我们发现LLM代理在序列规划能力和图规划能力之间存在明显的差距,即使是GPT-4也显示出约15%的差距。我们还训练了两个开源模型,并在保留任务上评估它们的一般化能力。此外,我们观察到生成的工作流能够增强下游任务,使得这些任务在推理时能够取得更好的性能并节省时间。所有相关代码和数据集将在https://github.com/zjunlp/WorFBench公开提供。 |
2024-10-10 | AgentBank: Towards Generalized LLM Agents via Fine-Tuning on 50000+ Interaction Trajectories | Yifan Song et.al. | 2410.07706 | null | 在这项工作中,我们引入了AgentBank,这是迄今为止最大的用于开放源代码大型语言模型(LLM)的agent-environment交互轨迹调优数据集,包含超过5万条多样化的高质量交互轨迹,涉及16个任务和五个不同的agent技能维度。通过新颖的注释流程,我们能够规模化地标注轨迹并生成了一个难度偏差最小化的轨迹数据集。进一步地,我们对AgentBank进行调优,得到了一系列的agent模型——Samoyed。我们的比较实验表明,通过扩展交互轨迹数据来获取通用的agent能力的有效性。额外的研究还揭示了一些关于轨迹调优和agent技能泛化的关键观察结果。 |
2024-10-11 | WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents | Siyu Zhou et.al. | 2410.07484 | link | 大型语言模型(LLM)是否可以直接作为模型驱动代理的强大世界模型?虽然LLM的先验知识与指定环境动态之间的差距确实存在,但我们的研究揭示了可以通过使LLM与其部署环境对齐来弥合这些差距,这种“世界对齐”可以通过在LLM上进行规则学习来高效实现。考虑到LLM丰富的先验知识,仅需少量额外规则即可使LLM预测与指定环境动力学相匹配。为此,我们提出了一种神经符号方法,通过LLM以梯度无的学习方式来学习这些规则,通过基于探索轨迹与世界模型预测的比较来诱导、更新和修剪规则。结果的世界模型由LLM和学习到的规则组成。我们构建的实体化LLM代理“WALL-E”基于模型预测控制(MPC)。通过基于精确世界模型优化前瞻行动,MPC显著提高了探索和学习效率。与现有LLM代理相比,“WALL-E”的推理仅需要少量主要规则,而不需要包含在LLM输入中的大量缓冲轨迹。在Minecraft和ALFWorld的开放世界挑战中,WALL-E的成功率高于现有方法,规划时间和推理所需的令牌数量更低。在Minecraft中,WALL-E比基线高出15%-30%,成功率为95%,仅花费6次迭代。 |
2024-10-09 | I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy | Gian Maria Campedelli et.al. | 2410.07109 | link | 随着大型语言模型(LLM)驱动的代理日益自主并在彼此间自由互动,研究它们之间的交互变得至关重要,以预见可能出现的现象并识别潜在风险。受到斯坦福监狱实验的启发,我们在此领域做出贡献,通过在具有严格社会等级特征的情境下研究LLM代理的交互模式。我们特别关注两种现象:说服和反社会行为,在涉及看守和寻求特定目标(例如获得更多户外活动时间或逃离监狱)囚犯的模拟场景中进行研究。利用200个实验场景和总共2000次机器对机器对话,涉及五种流行的LLM,我们提供了一系列值得关注的发现。 首先,我们记录了某些模型如何在具有权力动态作用的多代理设置中持续失败的对话。然后,对于能够成功互动的模型,我们实证地展示了目标对代理的说服力影响主要,而对代理的反社会行为影响则微乎其微。第三,我们强调了代理个性,特别是看守的性格,如何驱动囚犯成功的说服可能性和反社会行为的出现。第四,我们表明,即使没有明确提示特定个性,仅通过分配代理角色,反社会行为也会自然浮现。这些结果对LLM代理的发展以及对其社会影响的辩论有重要意义。 |
2024-10-09 | Reproducing and Extending Experiments in Behavioral Strategy with Large Language Models | Daniel Albert et.al. | 2410.06932 | null | 在这项研究中,我们提出了一种新型方法——利用大型语言模型(LLM)代理在行为策略研究领域,以补充模拟和实验室实验,从而深化对决策过程中认知过程的理解。具体来说,我们复现了一个人类实验室实验中的行为策略,并使用LLM生成的代理与观察到的人类行为进行对比。我们的结果表明,LLM代理能够有效地重现搜索行为以及与人类相似的决策制定过程。 进一步地,我们分析了LLM代理的“思想”模拟,发现更前瞻性的思想与倾向于利用而非探索以最大化财富的行为相关联。我们展示了这一新方法在行为策略研究领域的应用潜力,并探讨了其可能存在的局限性。 |
2024-10-08 | AgentSquare: Automatic LLM Agent Search in Modular Design Space | Yu Shang et.al. | 2410.06153 | link | 近期大型语言模型(LLM)的进展推动了能够处理复杂任务的智能体系统的快速成长。然而,当前的研究主要依赖于基于手动、任务特定设计的方法,这限制了它们在新任务上的适应性。本文提出了一项新的研究问题:模块化语言模型智能体搜索(MoLAS)。我们提出了一个模块化的设计空间,将现有的LLM智能体设计抽象为四个基本模块,并保持统一的输入输出接口:规划、推理、工具使用和记忆。在此基础上,我们介绍了一个名为AgentSquare的新智能体搜索框架,它引入了两个核心机制:模块进化和重组,以高效地搜索优化的LLM智能体。为了进一步加速这一过程,我们设计了一个性能预测器,利用上下文相关模型作为代理设计的近似模型,从而跳过无前景的代理设计。在六个基准测试中进行了广泛实验,涵盖了网络应用、实体交互、工具使用和游戏等不同场景,结果表明,AgentSquare显著优于手工设计的智能体,平均性能提高了17.2%,与人类最佳设计相比。此外,AgentSquare还能生成可解释的设计洞察,有助于深入理解智能体架构及其对任务性能的影响。我们认为,模块化设计空间和AgentSquare搜索框架提供了一个平台,用于充分利用先前成功设计的潜力,并整合研究社区的努力。代码仓库可访问于https://github.com/tsinghua-fib-lab/AgentSquare。 |
2024-10-08 | Conversate: Supporting Reflective Learning in Interview Practice Through Interactive Simulation and Dialogic Feedback | Taufiq Daryanto et.al. | 2410.05570 | null | 求职面试在塑造个人职业生涯方面起着关键作用,然而,缺乏人类教练或同行提供反馈的环境使面试技能训练变得颇具挑战。近期,大型语言模型(LLM)的发展为提升面试练习体验提供了机会。遗憾的是,目前的研究鲜有探讨此类系统的效果及其用户感知,以及利用LLM进行面试练习所涉及的益处与挑战。尽管先前的工作和最近的商业工具已经展示了人工智能辅助面试练习的潜力,它们通常仅提供单向反馈,即用户只能从他们的表现中获取信息。相比之下,对话式反馈,一个在学习科学领域发展起来的概念,是一种双向互动反馈过程,允许用户通过对话进一步参与并从提供的反馈中学习。本文介绍了一款名为Conversate的基于网络的应用程序,它利用大型语言模型(LLM)支持反思性学习,以促进求职面试练习。用户通过提供职位标题(如入门级软件工程师)来启动面试会话。然后,系统中的LLM代理将开始面试模拟,通过向用户提出开场面试问题,并根据用户的回答精心设计后续问题来启动。面试结束后,系统的后端LLM框架将分析用户的回答,指出需要改进的地方。用户可以通过选择特定段落并撰写自我反思来注释转录。最后,用户可以与系统进行对话式反馈交互,与LLM代理对话,根据代理的指导逐步完善自己的答案。 |
2024-10-07 | Better than Your Teacher: LLM Agents that learn from Privileged AI Feedback | Sanjiban Choudhury et.al. | 2410.05434 | null | 大型语言模型(LLM)在决策制定方面展现出令人印象深刻的能力,但当前的方法缺乏从任务执行期间错误中自动自我改进的机制。我们提出了LEAP,一种迭代细调框架,通过从AI专家教师获取反馈来持续提升LLM代理。我们的关键洞察是为专家教师提供一个特权状态——仅在训练期间可用但在测试时隐藏的信息。这使得即使是最弱的专家也能提供精确指导,显著提高学生代理在不访问测试时的特权信息情况下的性能。我们在多种决策制定基准上评估了LEAP,包括基于文本的游戏(ALFWorld)、网络导航(WebShop)和交互式编码(Intercode Bash)。我们的实验表明,LEAP(1)优于行为克隆和ReAct基线(2)使较弱的学生模型(如Llama3-8B)超过强大教师模型(GPT4-o)的表现,并且(3)允许较弱的模型使用自己特权版本的自我提升。我们也提供了理论分析,显示LEAP的成功取决于平衡特权信息与学生的可实现性,我们通过实验证实了这一观点。我们的代码可在https://leap-llm.github.io 获取。 |
2024-10-07 | GLEE: A Unified Framework and Benchmark for Language-based Economic Environments | Eilam Shapira et.al. | 2410.05254 | link | 大型语言模型(LLMs)在经济和战略互动领域展现出显著潜力,因为自然语言通信在此类场景中通常占主导地位。这引发了一系列关键问题:LLMs是否表现出理性?它们能否模仿人类行为?它们是否倾向于达到高效且公平的结果?自然语言在战略互动中的角色是什么?经济环境的特性如何影响这些动态?对于将基于LLM的代理集成到现实世界的数据驱动系统(如在线零售平台和推荐系统)中时的经济和社会影响而言,这些问题至关重要。 尽管机器学习社区已经探索了LLMs在多代理设置中的潜在应用,但不同研究之间在假设、设计选择和评估标准上的差异使得难以得出稳健且有意义的结论。为解决这一问题,我们引入了一个基准,以标准化对基于语言的双人、序列游戏的研究。借鉴经济学文献,我们定义了三个基类游戏家族,具有一致的参数化、自由度以及用于评估代理性能(自我收益)以及游戏结果(效率与公平性)的经济衡量指标。 我们开发了一个开源框架进行交互模拟与分析,并利用该框架收集了LLM与LVM之间的多个游戏配置以及额外的人类与LVM交互数据集。通过大量实验,我们的框架和数据集可以用于:(i) 比较基于LLM的代理与人类玩家在各种经济背景下的行为;(ii) 从个体和集体绩效角度评估代理;(iii) 定量分析经济环境特性对代理行为的影响。 |
2024-10-09 | GenSim: A General Social Simulation Platform with Large Language Model based Agents | Jiakai Tang et.al. | 2410.04360 | link | 近年来,随着大型语言模型(LLM)的迅速发展,利用基于LLM的代理来模拟人类社会行为的研究取得了许多有前景的成果。尽管先前的工作在特定场景下展示了巨大的潜力,并且涉及有限数量的代理,但它们大多缺乏在模拟过程中出现错误时进行适应的能力。为了克服这些局限性,我们提出了一种名为\textit{GenSim}的新颖的基于LLM的仿真平台:(1)\textbf{抽象了一组通用功能},简化了定制社会场景的仿真;(2)\textbf{支持一百万个代理},以更好地模拟现实世界情境中的大规模人群;(3)\textbf{整合了错误纠正机制},确保更可靠和长期的仿真。为了评估我们的平台,我们评估了大规模代理仿真效率以及错误纠正机制的有效性。据我们所知,GenSim代表了基于LLM代理的通用、大规模和可校正的社会仿真平台的初步步骤,有望进一步推动社会科学领域的发展。 |
2024-10-04 | Permissive Information-Flow Analysis for Large Language Models | Shoaib Ahmed Siddiqui et.al. | 2410.03055 | null | 大型语言模型(LLM)正在快速成为更大软件系统中的通用组件。这引发了一系列自然的安全和隐私问题:从一个组件获取的污染数据可以改变模型的行为并破坏整个系统,包括使模型在不可信组件间传播机密数据。一种有前景的方法是在系统层面上通过动态信息流跟踪(即污点跟踪)来解决这些问题。不幸的是,传统方法将最严格的输入标签传播到输出过于保守,不适合LLM在来自不同来源的输入上操作的应用场景。本文提出了一种新颖的、更宽松的方法来在LLM查询中传播信息流标签。我们的方法的核心思想是仅传播生成模型输出时起作用的样本的标签,并消除不必要的输入标签。 我们实现了并研究了两种这种方法的变体,基于(i)提示增强检索和(ii)基于 |
2024-10-03 | AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML | Patara Trirat et.al. | 2410.02958 | null | 本文提出了一种全新的多代理框架——AutoML-Agent,专为全管道自动化机器学习(AutoML)设计,涵盖了从数据检索到模型部署的整个过程。AutoML-Agent通过接受用户的任务描述、促进专门语言模型代理之间的协作,并交付可部署的模型,从而提供了一个自然语言接口,以简化非专家用户构建数据驱动解决方案的过程。与现有工作不同,本文引入了一种基于检索增强的规划策略来提高探索性,以便在搜索更优解的过程中进行探索。我们还通过并行执行来分解每个计划为子任务(例如数据预处理和神经网络设计),每个子任务由我们通过提示构建的专门代理解决,这使得搜索过程更加高效。此外,我们提出了一个多阶段验证方法来验证执行结果,并指导代码生成语言模型实现成功的解决方案。在七个下游任务上使用十四组数据集进行的大量实验表明,AutoML-Agent在自动化全AutoML流程方面取得了更高的成功率,且系统在整个多样化领域中的性能均表现出色。 |
2024-10-03 | Grounding Large Language Models In Embodied Environment With Imperfect World Models | Haolan Liu et.al. | 2410.02742 | null | 尽管大型语言模型(LLMs)在各种应用中取得了广泛的成功,但在处理基本物理推理或执行机器人任务时,它们经常遇到问题,这是因为它们缺乏对现实世界物理细微之处的直接经验。为了应对这些问题,我们提出了一种名为Grounding Large Language Model with Imperfect World MOdel (GLIMO)的方法,该方法利用代理世界模型,如模拟器,来收集和合成训练数据。GLIMO集成了一个基于LLM的自动数据生成器,用于创建高质量且多样化的指令数据集。生成器包括一个迭代自我精炼模块,用于时间上一致的经验采样,一个多样化的问答指令种子集合,以及一个反射性增强生成模块,用于反映先前的经验。 全面的实验表明,我们的方法能够提高强开源LLMs,如LLaMA-3,在三个不同基准上的性能提升分别为2.04倍、1.54倍和1.82倍,分别。这种性能能够与或超越它们更大的同辈,如GPT-4。 |
2024-10-03 | Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents | Hanrong Zhang et.al. | 2410.02644 | link | 为了填补现有文献在全面评估基于大型语言模型(LLM)的代理攻击与防御策略方面的空白,我们提出了一种名为“代理安全基准”(Agent Security Benchmark, ASB)的综合框架。该框架旨在正式化、标准化并评估基于LLM的代理的安全问题,涵盖了10个应用场景(如电子商务、自动驾驶、金融)、10个针对这些场景的代理、超过400种工具、23类不同的攻击与防御方法以及8个评价指标。基于ASB,我们对10种提示注入攻击、一种记忆污染攻击、一种新颖的计划-思维后门攻击、一种混合攻击以及针对这10种攻击的10种相应防御措施,在13个LLM架构下进行了全面的基准测试,总共产生了近9万个测试案例。我们的基准测试结果揭示了代理操作不同阶段中的关键安全漏洞,包括系统提示、用户提示处理、工具使用和记忆检索,其中最高平均攻击成功率达到了84.30%,但当前的防御措施的有效性有限,这表明社区在代理安全方面仍有许多工作要做。有关此研究的代码可在https://github.com/agiresearch/ASB获取。 |
2024-10-03 | ColaCare: Enhancing Electronic Health Record Modeling through Large Language Model-Driven Multi-Agent Collaboration | Zixiang Wang et.al. | 2410.02551 | null | 我们引入了ColaCare框架,该框架通过大型语言模型(LLM)驱动的多代理协作增强了电子健康记录(EHR)建模。我们的方法无缝地将领域特定的专业模型与LLM结合,以弥合结构化EHR数据与基于文本的推理之间的差距。受临床咨询的启发,ColaCare采用了两种类型的代理:医生代理和元代理,它们协同分析患者数据。专家模型处理并从数值EHR数据生成预测,而LLM代理在协作咨询框架内产生推理参考和决策报告。我们还通过检索增强生成(RAG)模块将默克诊断与治疗手册(MSD)医疗指导整合进来,提供权威证据支持。在四个不同的EHR数据集上进行的大量实验证明了ColaCare在死亡率预测任务中的优越性能,这强调了其在临床决策支持系统和推进个性化精准医学方面的潜力。有关代码、完整提示模板、更多案例研究等的更多信息,请访问匿名链接:https://colacare.netlify.app。 |
2024-10-03 | ELLMA-T: an Embodied LLM-agent for Supporting English Language Learning in Social VR | Mengxu Pan et.al. | 2410.02406 | null | 许多人在学习新语言时会遇到困难,传统的工具在提供针对每个学习者需求的上下文化学习方面存在不足。最近,大型语言模型(LLMs)和在社交虚拟现实(VR)中的具身对话代理(ECAs)的发展,提供了以一种考虑到学习者的语言水平和需求的方式进行上下文化且自然的语言学习的新机会。为了探索这一可能性,我们开发了ELLMA-T,一个利用GPT-4和基于情境学习框架来支持社交VR(VRChat)中英语语言学习的具身对话代理。通过12次的质性访谈,我们揭示了ELLMA-T在VR中为学习者与代理之间的互动生成真实、可信和上下文特定的角色扮演的潜力,以及LLM在为学习者提供初始语言评估和持续反馈方面的能力。我们提供了对于未来开发基于LLM的语言代理在社交VR中的五个设计启示。 |
2024-10-03 | A LLM-Powered Automatic Grading Framework with Human-Level Guidelines Optimization | Yucheng Chu et.al. | 2410.02165 | null | 在学习分析(LA)的背景下,开放式短答问题(SAG)被广泛认为是深入了解学习者响应的强大工具。然而,在实践中,SAG经常面临高评分工作量和评估一致性担忧的挑战。随着自然语言处理(NLP)的最新进展,自动短答评分(ASAG)为解决这些挑战提供了有前景的解决方案。尽管如此,当前的ASAG算法往往在泛化能力上有限,并倾向于针对特定问题进行定制。为此,本文提出了一种统一的多代理ASAG框架GradeOpt,利用大型语言模型(LLMs)作为SAG的评分员。更重要的是,GradeOpt引入了两个基于LLM的额外代理——反射器和细化器——到多代理系统中。这使得GradeOpt能够通过对其错误进行自我反思来自动优化原始评分指南。在对具有挑战性的ASAG任务进行实验,即对教学内容知识(PCK)和内容知识(CK)问题进行评分时,GradeOpt在评分准确性和与人工评分员行为的一致性方面均表现出优于代表基线的性能。最后,全面的消融研究证实了GradeOpt中设计的各个组件的有效性。 |
2024-10-02 | Zodiac: A Cardiologist-Level LLM Framework for Multi-Agent Diagnostics | Yuan Zhou et.al. | 2410.02026 | null | 本文介绍了一种名为ZODIAC的大型语言模型(LLM)框架,旨在通过心脏病专家级别的专业素养,辅助心脏病学诊断。ZODIAC能够从患者数据中提取临床相关特征、检测重要的心律失常,并生成初步报告供心脏病专家审查和细化。为了实现心脏病专家级别的专业素养,ZODIAC构建了一个多代理协作框架,允许对多模态患者数据进行处理。每个LLM代理均通过心脏病专家裁定的真实世界患者数据进行精细调优,以此强化模型的专业素养。 ZODIAC经过了严格的临床验证,由独立的心脏病专家评估,涵盖八个指标,衡量临床效果并解决安全问题。结果显示,ZODIAC在性能上超越了行业领先的模型,包括OpenAI的GPT-4o、Meta的Llama-3.1-405B和Google的Gemini-pro,以及专门针对医疗领域的LLM如微软的BioGPT。这表明了专门设计的LLM在医疗保健领域的潜力,能够提供符合医疗实践严格要求的领域特定解决方案。 值得注意的是,ZODIAC已成功集成到心电图(ECG)设备中,展示了将LLM嵌入软件作为医疗设备(SaMD)的趋势日益增长。 |
2024-10-02 | Moral Alignment for LLM Agents | Elizaveta Tennant et.al. | 2410.01639 | null | 基于大型语言模型(LLM)的决策代理正越来越多地在人类活动的不同领域部署。虽然它们的应用目前较为专业化,但已有研究努力开发更通用的代理。随着LLM系统变得更加自主,它们对人类活动的影响将增加,并且透明度会降低。因此,发展有效的方法来使它们符合人类价值观至关重要。 现有的对齐方法通常依赖于人类偏好数据(例如,在RLHF或DPO中),其中价值观是隐含的,并且本质上是从不同模型输出的相对偏好中推断出来的。与此相反,我们在这项工作中提出了一种设计奖励函数的方法,这些函数明确编码了核心的人类价值观,用于强化学习(RL)方式微调基础代理模型。具体来说,我们使用内在奖励来实现LLM代理的道德对齐。 我们通过传统的哲学框架——德ontology伦理和功利主义来评估我们的方法,量化了在迭代囚徒困境(IPD)环境中代理的道德奖励,基于其行为及其后果。我们还展示了如何通过道德微调使代理能够放弃之前开发的自私策略。最后,我们发现某些在IPD游戏中学习的道德策略能够推广到多个矩阵游戏环境。总之,我们证明了使用内在奖励进行微调是将LLM代理与人类价值观对齐的有前景的一般解决方案,并且可能代表了当前主流对齐技术更加透明和成本效益更高的替代方案。 |
2024-10-03 | RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance | Haolin Jin et.al. | 2410.01242 | link | 大型语言模型(LLM)在代码生成任务上展现出了巨大的潜力,并且最近的提示工程研究进一步增强了LLM对文本信息的理解。然而,确保生成代码的准确性通常需要程序员进行大量的测试和验证。尽管LLM能够基于任务描述生成代码,但在复杂任务上的准确度仍然有限,特别是对于那些需要更深入理解问题陈述和代码生成过程的任务。这一限制主要源于LLM同时需要理解和生成语法和语义上正确的代码,而没有能力自动优化代码的能力。在实际的软件开发中,程序员很少能在仅凭任务描述的情况下一次就生成完美的代码,他们依赖于迭代反馈和调试来完善他们的程序。受此过程启发,我们引入了一种基于LLM的多智能体架构用于代码生成和自动调试:改进与指导调试(RGD)。RGD框架是一个利用三种不同LLM代理(引导代理、调试代理和反馈代理)的多智能体调试器,它将代码生成任务分解为多个步骤,确保了清晰的工作流程,并允许基于自我反思和反馈的代码迭代细化。实验结果表明,RGD在代码生成能力上表现出色,分别在HumanEval数据集和MBPP数据集上相比最先进的方法和传统直接提示方法实现了9.8%和16.2%的性能提升。我们强调了RGD框架在增强LLM自主生成和优化代码能力方面的有效性。 |
2024-10-01 | Dynamic Planning for LLM-based Graphical User Interface Automation | Shaoqing Zhang et.al. | 2410.00467 | link | 大型语言模型(LLM)的兴起激发了对自主LLM基代理进行创新性发展的兴趣,尤其是在智能手机图形用户界面(GUI)中的应用。当面对任务目标时,这些代理通常会模仿人类在GUI环境中的操作直至任务完成。然而,一个关键挑战在于如何有效地制定计划以指导GUI任务中的动作预测,尽管规划已被广泛认为是分解复杂任务的有效方式。具体而言,在执行动作后GUI环境的动态性质意味着需要根据环境反馈和动作历史动态调整计划。 我们发现广受欢迎的ReAct方法失败了,原因在于其过于依赖过长的历史对话。为了解决这一挑战,我们提出了一种名为动态思维规划(D-PoT)的新方法,用于基于LLM的GUI代理。D-PoT涉及根据环境反馈和执行历史动态调整规划的过程。实验结果表明,提出的D-PoT方法在准确性上显著超越了强大的GPT-4V基线,提高了12.7%(从34.66%提高到47.36%)。分析揭示了动态规划在不同基础LLM中的通用性,以及在处理未见过的任务时减少幻觉并适应的能力。代码已发布在https://github.com/sqzhang-lazy/D-PoT。 |
2024-09-30 | MemSim: A Bayesian Simulator for Evaluating Memory of LLM-based Personal Assistants | Zeyu Zhang et.al. | 2409.20163 | link | 本文提出了一种名为MemSim的贝叶斯模拟器,用于从生成的用户消息自动构建可靠的问题与答案(Q&A),同时保持其多样性和可扩展性。具体来说,我们引入了贝叶斯关系网络(BRNet)和因果生成机制,以减轻大型语言模型(LLM)幻觉对事实信息的影响,从而促进自动构建评估数据集。基于MemSim,我们在日常生活中生成了一个名为MemDaily的数据集,并进行了广泛的实验,以评估我们方法的有效性。我们还提供了使用MemDaily数据集评估LLM基智能体不同记忆机制的基准。为了惠及研究社区,我们已经在https://github.com/nuster1128/MemSim上发布了我们的项目。 |
2024-10-01 | TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation | Zhiqiang Yuan et.al. | 2409.19894 | null | 本文提出了一种名为TRANSAGENT的新型基于大型语言模型(LLM)的多代理系统,以增强基于LLM的代码翻译过程,并通过四个基于LLM的代理协同工作修复语法错误和语义错误。这四个代理分别是初始代码翻译器、语法错误修复器、代码对齐器和语义错误修复器。TRANSAGENT的核心洞察是首先根据目标程序与源程序之间的执行对齐定位目标程序中的错误代码块,这种方法可以缩小修复范围并降低修复难度。 为了评估TRANSAGENT,我们首先从最近的编程任务构建了一个新的基准,以减轻潜在的数据泄露问题。在我们的基准上,TRANSAGENT在翻译效果和效率方面都优于最新的LLM基代码翻译技术UniTrans;此外,在不同LLM上的评估显示了TRANSAGENT的一般性,并且我们的消融研究揭示了每个代理的贡献。 |
2024-09-26 | From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection | Xinlei Wang et.al. | 2409.17515 | link | 本文提出了一种新颖的方法,旨在通过大型语言模型(LLMs)和生成代理来增强时间序列预测。以语言作为媒介,我们的方法适应性地将各种社会事件整合进预测模型中,将新闻内容与时间序列波动对齐,从而提供丰富洞察。具体而言,我们利用基于语言模型的代理进行迭代筛选,去除无关新闻,并采用类似人类的推理和反思来评估预测结果。这使得我们的模型能够分析复杂事件,如意外事件和社会行为转变,并不断优化选择逻辑以及代理输出的稳健性。通过结合精选新闻和时间序列数据,我们对预训练的LLaMa2模型进行微调。结果显示,在准确性方面有显著提升,这表明通过有效利用非结构化新闻数据,可能在时间序列预测领域实现范式转变。 |
2024-09-25 | AAPM: Large Language Model Agent-based Asset Pricing Models | Junyan Cheng et.al. | 2409.17266 | link | 本文提出了一种新型的资产定价方法——基于LLM代理的资产定价模型(AAPM)。该方法将LLM代理的定性主观投资分析与定量手动金融经济因素融合,以预测超额资产回报。实验结果表明,我们的方法在组合优化和资产定价误差方面均优于基于机器学习的资产定价基准。具体而言,异常资产组合的夏普比率和平均α值分别提高了9.6%和10.8%。此外,我们还对模型进行了广泛的消融研究,并对数据进行了深入分析,以揭示提出方法的更多见解。 |
2024-09-25 | Turn Every Application into an Agent: Towards Efficient Human-Agent-Computer Interaction with API-First LLM-Based Agents | Junting Lu et.al. | 2409.17140 | null | 在多模态大型语言模型(MLLMs)的帮助下,语言模型驱动的代理可以直接与应用用户界面(UI)进行交互,从而在复杂任务中提升代理性能。然而,这些代理常常因为涉及大量顺序UI交互而导致高延迟和低可靠性。为了应对这一问题,我们提出了AXIS,一个新颖的基于语言模型的代理框架,通过应用程序接口(APIs)优先于UI动作来优化代理行为。此外,该框架还通过自动化探索应用以创建和扩展API,促进了API的生成和应用范围的扩展。 我们的实验在Word办公软件上显示,与人类相比,AXIS在完成任务的时间上减少了65%-70%,认知负荷降低了38%-53%,同时保持了97%-98%的准确性。我们的工作为人类-代理-计算机交互(HACI)框架和应用提供者在LLMs时代设计新UI原则提供了贡献,并探讨了将每一个应用转化为代理的可能性,为迈向以代理为中心的操作系统(Agent OS)铺平了道路。 |
2024-09-24 | MultiTalk: Introspective and Extrospective Dialogue for Human-Environment-LLM Alignment | Venkata Naren Devarakonda et.al. | 2409.16455 | null | 本文提出了一种名为MultiTalk的基于大语言模型(LLM)的任务规划方法。通过引入内省和外省对话循环框架,该方法旨在解决LLM在任务规划中可能遇到的问题,如幻觉、用户指令中的歧义、环境约束以及执行代理能力的局限性。这些问题可能导致生成的计划出现错误或不完整。 MultiTalk方法通过特定系统来提取和预测与任务相关的状态,并标记出人、LLM代理和环境之间的不匹配或偏差。有效的反馈路径促进人与LLM之间的有意义对话。这种方法在机器人操作任务的应用中得到了验证。实验和消融分析展示了MultiTalk方法的稳健性和可靠性,与基线方法的比较进一步证明了其在实体代理任务规划方面的优势。 总之,MultiTalk提供了一种通过增强LLM与环境、执行者和用户之间的一致性和沟通来改进任务规划过程的方法,从而提高规划的有效性和效率。 |
2024-09-23 | Safe Guard: an LLM-agent for Real-time Voice-based Hate Speech Detection in Social Virtual Reality | Yiwen Xu et.al. | 2409.15623 | null | 本文介绍了一种名为Safe Guard的LLM代理,用于检测社交VR(VRChat)中的语音交互中的仇恨言论。我们的系统利用了Open AI GPT和音频特征提取技术,实现了实时语音交互的检测功能。我们贡献了一个系统设计以及对该系统的评估,这些都证明了我们方法在检测仇恨言论方面的有效性,并且相比现有方法显著降低了误报率。我们的结果表明基于LLM的代理在创建更安全的虚拟环境方面具有潜力,并为进一步发展基于LLM的管理方法奠定了基础。 |
2024-09-20 | ControlMath: Controllable Data Generation Promotes Math Generalist Models | Nuo Chen et.al. | 2409.15376 | null | 利用大型语言模型(LLM)进行数据增强在数学推理方面取得了令人鼓舞的结果。然而,这些方法在问题多样性方面存在限制,可能仅局限于特定领域的数据生成。为此,我们提出了一种名为ControlMath的迭代方法,该方法包含一个方程式生成模块和两个基于LLM的代理。该模块产生多样化的方程,问题创造者代理随后将其转化为数学文字问题。逆向代理则筛选并选择高质量的数据,遵循“少即是多”的原则,使用更少的数据点就能实现更好的结果。这种方法能够生成多样化的数学问题,不受特定领域或分布的限制。 因此,我们收集了ControlMathQA数据集,包含19万个数学文字问题。广泛的实验结果证明,将我们的数据集与GSM8K等内部领域数据集结合,可以帮助提高模型在数学推理方面的泛化能力,从而在特定领域内以及超出特定领域时都能取得更好的性能。 |
2024-09-25 | Towards a Realistic Long-Term Benchmark for Open-Web Research Agents | Peter Mühlbacher et.al. | 2409.14913 | null | 我们提出了一项即将推出的基准测试,用于评估大型语言模型(LLM)代理在经济价值高的白领任务上的表现。我们对金融和咨询领域常规进行的、现实世界中的“杂乱”开放网络研究任务进行了评估。这样做,我们为建立一个LLM代理评估套件奠定了基础,在该套件中,良好的性能直接对应着巨大的经济和社会影响。我们构建并测试了多个代理架构,包括o1-preview、GPT-4o、Claude-3.5 Sonnet、Llama 3.1(405b)以及GPT-4o-mini。平均而言,使用Claude-3.5 Sonnet和o1-preview的LLM代理在性能上明显优于使用GPT-4o的代理,而基于Llama 3.1(405b)和GPT-4o-mini的代理则落后很多。在所有LLM中,具有委托子任务给子代理能力的ReAct架构表现最佳。除了定量评估之外,我们还通过检查代理的追踪记录和反思它们的观察结果,对代理的能力进行了定性评估。我们的评估代表了首次深入评估代理在真实开放网络上执行具有挑战性的、经济上有价值的分析师式研究的能力。 |
2024-09-23 | Interpreting Multi-band Galaxy Observations with Large Language Model-Based Agents | Zechang Sun et.al. | 2409.14807 | null | 本文展示了大型语言模型为基础的智能体如何加速天文学研究流程,通过模仿人类推理来解释多波段星系观测数据。我们提出了mephisto框架,它能够与CIGALE代码库协作,后者包含了用于解释观测数据的光谱能量分布(SED)模型。在开放世界环境中,mephisto通过自我游戏经验学习、执行树搜索并积累动态更新的知识基础。作为概念验证,我们将mephisto应用于詹姆斯韦伯太空望远镜的最新数据集。结果表明,mephisto在推理星系物理场景方面达到了接近人类的专业水平,甚至在处理新发现的“小红点”星系时也是如此。这是智能体进行天文学研究的首次展示,朝着通过大型语言模型代理实现端到端研究的方向迈进,可能有助于加快天文发现的速度。 |
2024-09-22 | Enhancing LLM-based Autonomous Driving Agents to Mitigate Perception Attacks | Ruoyu Song et.al. | 2409.14488 | null | 随着大型语言模型(LLM)与自动驾驶(AD)系统集成的日益增长的兴趣,AD系统面临着攻击其对象检测与追踪(ODT)功能的风险。我们的评估表明,针对四个近期提出的LLM代理的ODT攻击成功率达到63.26%,导致它们崩溃或违反交通规则,原因在于误导性记忆模块提供的过往经验、提示在识别不一致性方面的局限性以及对地面实况感知数据的依赖。为此,我们提出了一种名为Hudson的驾驶推理代理,它扩展了先前基于LLM的驾驶系统,旨在在感知攻击期间实现更安全的决策制定,同时在正常条件下保持有效性。 Hudson通过首先对AD软件进行仪器化收集实时感知结果和驾驶场景的上下文信息来实现这一目标。这些数据随后被转化为领域特定语言(DSL)。为了引导LLM在ODT攻击期间检测并做出安全控制决策,Hudson将DSL转换为自然语言,并附带一组自定义的攻击检测指令。执行查询后,Hudson分析LLM的控制决策以理解其因果推理过程。 我们使用私有LLM(GPT-4)、两个开源LLM(Llama和Gemma)和各种对抗性驾驶情景对Hudson的有效性进行了评估。GPT-4、Llama和Gemma在平均情况下实现了83.3%、63.6%和73.6%的攻击检测准确率。因此,在86.4%、73.9%和80%的攻击中,它们做出了安全控制决策。随着将LLM集成到AD系统中的兴趣增长,我们的结果强调了LLM的优势及其在检测和缓解ODT攻击方面的潜力。 |
2024-09-20 | Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection | Md Nakhla Rafi et.al. | 2409.13642 | null | 在软件开发过程中,定位和修复软件故障是一个耗时且资源密集型的任务。传统的故障定位方法,如基于频谱的故障定位(SBFL),依赖于测试覆盖率数据的统计分析,但往往准确性较低。基于学习的技术虽然更有效,但需要大量的训练数据,并且计算成本高昂。最近,大型语言模型(LLMs)的进步为改善故障定位提供了有前景的方法,通过增强代码理解和推理来提升性能。然而,这些LLM基线技术仍然面临挑战,包括令牌限制、长输入性能下降以及处理涉及多个相互作用组件的复杂系统时的困难。 为了解决这些问题,我们提出了一种名为LLM4FL的创新性LLM代理基线故障定位方法,它结合了SBFL排名与分而治之策略。通过将大规模覆盖数据分解为可管理的组,并利用多个LLM代理通过提示链式调用,LLM4FL有效地导航代码库并定位故障。该方法还整合了自我反思和链式思考推理,使代理能够迭代生成修复并重新排名可疑方法。我们使用Defects4J(V2.0.0)基准进行评估,其中包括来自14个开源Java项目的675个真实世界故障。结果显示,LLM4FL在Top-1准确率上比AutoFL高出19.27%,并且优于最先进的监督技术,如DeepFL和Grace,所有这些都无需特定任务的培训。此外,我们强调了覆盖拆分和提示链对故障定位性能的影响,并展示了不同的方法排序可以提高Top-1准确率高达22%。 |
2024-09-23 | AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit | Mohanna Hoveyda et.al. | 2409.13447 | null | 在问答(QA)领域,不同的问题可能需要不同的回答策略来有效解决。一些问题可以通过简单的查找来解决,而另一些则需要复杂的、多步骤的推理。这一观察结果激发了开发一种动态方法,该方法能够为每个问题适当地选择最合适的QA策略,从而构建更高效、更有效的系统,能够处理更广泛类型的问题。为了实现这一目标,我们基于多个大型语言模型(LLMs)的集成最新进展,并将适应性QA定义为一个动态编排挑战。我们将此视为一个上下文多臂老虎机问题,其中上下文由进入问题的特性定义,而动作空间包括潜在的LLM代理之间的通信图配置。然后,我们训练了一个线性上界信心边界模型,以学习不同问题类型与其对应的最佳多LLM通信图表示之间的最优映射。我们的实验表明,提出的解决方案适用于适应性的LLM集成问答系统的编排,它结合了更复杂策略的优越性能,同时避免了在简单策略足以的情况下使用这些策略的成本。 |
2024-09-24 | Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models | Hao Ding et.al. | 2409.13107 | null | 本文提出了一种基于数字孪生的机器感知方法,旨在利用近期视觉基础模型的令人信服的表现和开箱即用的泛化能力。该方法通过结合数字孪生的场景表示和大型语言模型(LLM)代理进行规划,与dVRK平台集成,从而开发出一个具有强大任务性能和在不同环境设置下通用性的实体智能系统。在执行穿针移位和纱布检索任务时,我们的方法显示出强大的任务性能和通用性。 尽管表现出令人信服的表现,但本文的工作仅仅是对基于数字孪生的场景表示集成的第一步。为了实现全面的数字孪生框架以改善手术领域实体智能的可解释性和通用性,未来的研究是必要的。 |
2024-09-17 | LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents | Amine B. Hassouna et.al. | 2409.11393 | null | 本文通过提出一个统一框架——LLM-Agent-UMF(基于语言模型的代理统一建模框架),解决了集成工具到语言模型(LLM)驱动的代理以及在多个前沿工作中提出的改进措施所导致的软件架构非统一性问题。传统上,这些技术的结合及后续工作侧重于功能实现而非定义组件边界,导致了研究人员之间的术语和架构上的混淆。 该框架明确了代理的不同组件,包括LLM、工具以及新引入的核心代理概念,其作用是代理的中央协调者,由规划、记忆、个人资料、行动和安全五个模块组成。核心代理的内部结构差异促使我们将其分类为被动型和主动型两种类型。基于此分类,我们提出了结合不同个体代理独特特性的多种多核心代理架构。 为了验证框架的有效性,我们将该框架应用于一系列前沿代理,并展示其与功能的一致性,同时澄清了先前被忽视的架构方面。此外,我们对四个提出的架构进行了详尽评估,通过整合具有不同特性的代理到混合主动/被动核心代理系统中,这一过程提供了对特定代理组合可能带来的改进和面临的挑战的清晰见解。 |
2024-09-17 | Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments | Maria Rigaki et.al. | 2409.11276 | null | 本篇论文探讨了在网络安全环境中使用本地微调的大型语言模型(LLM)作为红队代理的可能性。考虑到商业云基LLM的隐私问题、成本和网络连接限制,我们提出了Hackphyr——一个本地微调的70亿参数模型,旨在用于网络安全环境中的红队任务。我们的模型能够在单个GPU卡上运行,并且在性能上与更大更强大的商业模型如GPT-4相媲美。 Hackphyr在复杂、前所未见的场景中显著优于其他模型,包括GPT-3.5-turbo以及Q-learning代理等基线模型。为了实现这一性能提升,我们构建了一个专门针对网络安全任务的新数据集,以增强基础模型的能力。最后,我们对代理行为进行了全面分析,提供了关于此类基于LLM的代理在网络安全上下文中的规划能力和潜在局限性的见解,从而为更广泛地理解此类代理在网络安全领域的应用提供了参考。 |
2024-09-14 | On the limits of agency in agent-based models | Ayush Chopra et.al. | 2409.10568 | link | 本文介绍了一种名为AgentTorch的框架,旨在通过使用大型语言模型(LLMs)作为具有适应性行为的代理,将基于个体的模型(ABM)扩展到数百万个代理的规模。这一框架旨在在模拟复杂系统的行为时,既捕捉到真实环境动态和适应性代理行为,又保持对庞大人口群体高效模拟的能力。大型语言模型的最新进展为增强ABM提供了机会,但使用LLMs进行大规模代理的计算可行性限制了其广泛应用。 我们通过实验评估了使用LLMs作为ABM代理的实用性,探索了模拟规模与单个代理行为细节之间的权衡。以COVID-19大流行为例,我们展示了AgentTorch如何模拟840万个代表纽约市的代理,以捕捉隔离和就业行为对健康和经济结果的影响。我们比较了基于启发式方法和LLMs的不同代理架构在预测疾病浪潮和失业率方面的性能。 此外,我们展示了AgentTorch在回顾性、假设性和前瞻性分析中的能力,强调了适应性代理行为如何帮助克服历史数据在政策设计中的局限性。AgentTorch是一个开源项目,目前正被全球用于政策制定和科学发现。该框架可在此获取:github.com/AgentTorch/AgentTorch。 |
2024-09-19 | Instigating Cooperation among LLM Agents Using Adaptive Information Modulation | Qiliang Chen et.al. | 2409.10372 | null | 本文提出了一种新颖的框架,将大型语言模型(LLM)代理作为人类战略行为的代理,并结合强化学习(RL)让这些代理在团队环境中进行不断演化的战略互动。我们的方法扩展了传统的基于代理的模拟,通过使用策略性大型语言模型(SLA)以及引入动态和适应性的治理,通过促进社会行为的强化学习代理(PPA),该代理调节网络中代理之间的信息访问,以优化社会福利并促进亲社会行为。通过在迭代游戏中验证,包括囚徒困境,我们展示了SLA代理表现出复杂的战略调整。PPA代理有效地学习调整信息透明度,导致合作率显著提高。这一框架提供了对人工智能驱动的社会动力学的重要见解,为在实际团队环境中部署AI做出了贡献。 |
2024-09-17 | Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition | Chao-Han Huck Yang et.al. | 2409.09785 | null | 在近期生成式人工智能技术的推动下,大型语言模型(LLMs)如何增强基于文本解码的自动语音识别(ASR)模型在声学建模任务中的应用成为了一个关键问题。为了探索语言建模在语音处理领域的潜在新能力,本文提出了一项名为“生成性语音转录错误修正”(GenSEC)的挑战。该挑战包含了三个针对后ASR语言模型的任务:(i)后ASR转录修正、(ii)说话者标签化以及(iii)情感识别。这些任务旨在模拟未来基于语言模型的语音界面代理处理工作时的场景,并通过使用开源预训练语言模型或基于代理的API来保持对广泛受众的可访问性。此外,本文还讨论了基准评估的结果以及设计未来评估时应汲取的经验教训。 |
2024-09-15 | RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation | Qingyao Li et.al. | 2409.09584 | null | 本文针对LLM(大型语言模型)代理与树搜索算法在代码生成任务中的应用进行了深入研究。当前的搜索算法在这一领域存在低搜索质量的问题,主要源于以下三个原因:1)对代码生成任务高推理要求的搜索空间设计不合理;2)未能充分结合代码反馈优化搜索过程;3)处理负反馈时效率低下,导致搜索质量和效率降低。 为解决这些问题,我们提出了一种新的方法——RethinkMCTS(反思蒙特卡洛树搜索)。该方法通过在生成代码之前进行多层次的思考搜索,探索更广泛的策略选项。更重要的是,RethinkMCTS利用细粒度的代码执行反馈构建口头反馈,以修正搜索过程中出现的错误思路。这种机制确保了搜索沿着正确的推理路径前进,从而提高整个搜索树的整体质量。 实验结果表明,与之前的基于搜索和反馈的代码生成基准相比,RethinkMCTS取得了显著的性能提升。在HumanEval数据集上,RethinkMCTS将GPT-3.5-turbo的pass@1指标从70.12提高到了89.02,将GPT-4o-mini的pass@1指标从87.20提升至94.51。通过深入的探索和改进整个搜索树的质量,RethinkMCTS有效地增强了搜索过程的全面性和深度。 |
2024-09-14 | Enhancing Decision-Making for LLM Agents via Step-Level Q-Value Models | Yuanzhao Zhai et.al. | 2409.09345 | null | 本文提出了一种利用任务相关Q值模型来指导行动选择的方法,以增强大型语言模型(LLM)代理在多步决策任务中的性能。具体地,我们首先通过蒙特卡洛树搜索(MCTS)收集了标注有步骤级Q值的决策轨迹,并构建了偏好数据集。接着,我们使用另一个LLM通过步骤级直接策略优化(DPO)拟合这些偏好,从而形成Q值模型。在推理过程中,对于每个决策步骤,LLM代理都会选择具有最高Q值的动作,然后再与环境进行交互。我们将该方法应用于多个开源和API集成的LLM代理上,结果显示,引入Q值模型显著提高了它们的性能。特别值得注意的是,构建于Phi-3-mini-4k-instruct的代理在WebShop任务上的性能提升了103%,在HotPotQA任务上提升了75%,甚至超越了GPT-4o-mini。此外,Q值模型还具备几个优势,如对不同LLM代理的泛化能力和与现有提示策略无缝集成的能力。 |
2024-09-14 | Python Symbolic Execution with LLM-powered Code Generation | Wenhan Wang et.al. | 2409.09271 | null | 本文提出了一种利用大型语言模型(LLM)增强的代理工具——LLM-Sym。该工具旨在解决使用符号执行技术在动态类型语言如Python中遇到的主要挑战。通过自动调用SMT求解器Z3来解决执行路径约束,LLM-Sym能够扩展基础的符号执行引擎,使其支持包含复杂数据类型list 的程序。 LLM-Sym的核心贡献在于将复杂的Python路径约束转化为Z3代码的能力。为了实现准确的路径到Z3代码的转换,我们设计了一个多步骤的代码生成管道,包括类型推断、检索和自我精炼等环节。 实验结果表明,LLM-Sym能够解决具有复杂控制流和列表数据结构的LeetCode问题中的路径约束,这是基础符号执行引擎无法做到的。这一方法为LLM与符号求解器推理能力的结合开辟了道路,并为LLM辅助测试用例生成提供了新的机遇。 |
2024-09-23 | Agents in Software Engineering: Survey, Landscape, and Vision | Yanlin Wang et.al. | 2409.09030 | link | 近年来,大型语言模型(LLMs)在各种下游任务中取得了显著成功,并在软件工程(SE)领域广泛应用。我们发现许多结合LLMs与SE的研究工作明确或隐含地采用了代理概念。然而,缺乏对现有工作的深度综述,以整理其发展背景、分析如何结合LLMs代理技术优化各类任务以及阐明SE中的LLMs代理框架。本文开展首次针对结合LLMs代理与SE的研究综述,并提出SE中LLMs代理的框架,包括感知、记忆和行动三个关键模块。同时,总结了两个领域结合时面临的问题,并针对现有挑战提出了未来机遇。我们维护了一个包含相关论文的GitHub仓库:https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE。 |
2024-09-13 | AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents | Zhe Su et.al. | 2409.09013 | null | 为了安全和成功地部署,语言模型(LLMs)必须同时满足真实性和实用性目标。然而,这两个目标往往在冲突中,例如AI助手帮助二手车销售员销售有瑕疵的汽车。这种冲突部分归因于模糊或误导性的用户指令。我们提出了一种名为AI-LieDar的框架,以研究在多轮交互设置中,基于LLM的代理如何处理实用性和真实性的冲突。 我们设计了一系列现实场景,其中语言代理被指示实现与多轮对话中的真实性冲突的目标。为了大规模评估真实性,我们开发了一个基于心理学文献的可信度检测器,用于评估代理的回答。我们的实验表明,所有模型的真实回答比例不到50%,尽管达到目标(实用性)和真实性的比例在不同模型中有所差异。我们进一步测试了LLM的可引导性,发现模型会遵循恶意指令来欺骗,即使经过引导使其趋向真实的模型也仍然可能说谎。 这些发现揭示了LLM中真实性的复杂性,并强调了确保LLM和AI代理的安全可靠部署需要进一步研究的重要性。 |
2024-09-13 | Safeguarding Decentralized Social Media: LLM Agents for Automating Community Rule Compliance | Lucio La Cava et.al. | 2409.08963 | null | 确保内容遵守社区准则对于维护健康的在线社交环境至关重要。然而,传统基于人工的合规检查在处理用户生成内容的日益增加量以及有限的管理员数量时,面临着难以扩展的问题。大型语言模型在自然语言理解方面的新进展为自动内容合规验证提供了新的机遇。本工作评估了六个基于Open-LLMs构建的AI代理,用于去中心化社交网络中的自动化规则遵循检查,在这种具有挑战性的环境中,由于社区范围和规则的异质性,这一任务尤为困难。通过分析来自数百个Mastodon服务器的超过50,000条帖子,我们发现AI代理能够有效地检测不合规的内容、理解语言的细微差别,并适应多样的社区上下文。大多数代理还表现出高度的一致性和一致性评分解释与合规建议。基于领域专家的人类评估确认了代理的可靠性和实用性,表明它们是半自动化或人机协作内容管理系统的有前景的工具。 |
2024-09-13 | Fusing Dynamics Equation: A Social Opinions Prediction Algorithm with LLM-based Agents | Junchi Yao et.al. | 2409.08717 | null | 在社交媒体日益成为社会运动形成公众意见的重要平台的背景下,准确模拟和预测用户意见动态对于理解社会现象、政策制定以及引导公众意见至关重要。然而,现有的模拟方法在捕捉用户行为的复杂性和动态性方面面临着挑战。针对这一问题,本文提出了一种创新的社交媒体用户意见动态模拟方法——FDE-LLM算法,该算法结合了意见动态与流行病模型,有效约束了大型语言模型(LLM)的行为和意见演化过程,使其更加符合现实网络世界。特别地,FDE-LLM将用户分为意见领袖和跟随者两大类。意见领袖基于LLM角色扮演,并受细胞自动机(CA)模型约束,而意见跟随者则融入了一个结合CA模型与SIR模型的动态系统。这种创新设计显著提高了模拟的准确性和效率。 实验在四个真实微博数据集上进行,并使用开源模型ChatGLM进行了验证。结果表明,相较于传统基于代理的模型(ABM)意见动态算法和基于LLM的意见传播算法,我们的FDE-LLM算法在准确性与可解释性方面表现更优。 |
2024-09-10 | MAGDA: Multi-agent guideline-driven diagnostic assistance | David Bani-Harouni et.al. | 2409.06351 | null | 在紧急护理部门、偏远医院或发展中国家的诊所中,临床医生经常缺乏由训练有素的放射科医生快速分析影像的能力,这会对病人的健康护理产生不利影响。大型语言模型(LLMs)有可能通过提供有助于他们决策的见解来缓解这些临床医生的压力。尽管这些LLM在展示其理论医学知识的医学考试上取得了高分,但它们往往不遵循医学指南。为此项工作,我们引入了一种新的零样本指南驱动决策支持方法。我们构建了一个由多个LLM代理组成的系统,这些代理配备了对比视觉-语言模型,以协作方式达成患者诊断。在向这些代理提供简单的诊断指南后,它们会合成提示并根据这些指南筛选图像以寻找发现。最后,它们提供一个可理解的推理链路来解释其诊断结果,并自我精炼以考虑疾病之间的相互依赖性。由于我们的方法是零样本的,因此适用于罕见疾病场景,在这些场景中训练数据有限,但专家设计的疾病描述可用。我们在两个胸部X射线数据集CheXpert和ChestX-ray 14 Longtail上评估了我们的方法,展示了与现有零样本方法相比的性能提升,并且能够应用于罕见疾病的泛化。 |
2024-09-08 | A Pair Programming Framework for Code Generation via Multi-Plan Exploration and Feedback-Driven Refinement | Huan Zhang et.al. | 2409.05001 | link | 在代码生成领域,大型语言模型(LLM)展现出了令人瞩目的性能。尽管先前的研究通过提示技术及代码精炼对LLM进行了增强,但它们在处理复杂编程问题时仍面临挑战,因为这些问题往往具有僵化的解决方案计划。本文提出了一种名为PairCoder的新型LLM基框架,旨在模仿双人协作编程实践,以解决这一问题。 PairCoder由两个协作的LLM代理组成:导航员(Navigator)和驾驶员(Driver)。导航员负责提出有前景的解决方案计划、选择当前最佳计划,并根据执行反馈指导下一轮迭代。驾驶员则遵循导航员的指引,进行初始代码生成、代码测试和优化。 这种交替和迭代的工作流程包括多计划探索和基于反馈的细化,模拟了双人程序员的合作方式。我们使用开源和闭源的LLM,在多种代码生成基准上对PairCoder进行了评估。实验结果表明,PairCoder在准确性方面显著优于直接使用提示的LLM,相对pass@1提高了12.00%-162.43%。 |
2024-09-06 | Sparse Rewards Can Self-Train Dialogue Agents | Barrett Martin Lattimer et.al. | 2409.04617 | link | 本文探讨了在多轮对话任务中,大型语言模型(LLM)代理的最新进展主要由监督微调和高质量的人类反馈驱动。然而,随着基础LLM模型性能的持续提升,获取有意义的人类反馈变得越来越困难且成本高昂。在某些领域中,基础LLM可能最终超越人类能力,使得传统的基于反馈的方法变得不切实际。因此,本文提出了一种新的自我改进范式,允许LLM代理在没有外部人类反馈的情况下自主提高其性能。 我们引入了一种名为“对比结果为模拟收获”(JOSH)的自我对齐算法,该算法利用稀疏奖励模拟环境来提取理想行为,并进一步训练LLM以自身输出进行训练。我们从MultiWOZ中构建了一个用于工具调用的稀疏奖励仿真环境,称为ToolWOZ。实验结果显示,使用JOSH训练的模型(无论是小型还是前沿模型),在基于工具的交互上显著提高了表现,同时保持了在各种基准测试中的广泛模型能力。 我们的代码和数据已在GitHub上公开提供。 |
2024-09-06 | LLM-based multi-agent poetry generation in non-cooperative environments | Ran Zhang et.al. | 2409.03659 | link | 尽管大型语言模型在自动诗歌生成方面取得了显著进步,但生成的诗歌缺乏多样性,而训练过程与人类学习大相径庭。基于这样的理念,即诗歌生成系统的学习过程应更加人性化,并且其输出更加多样和新颖,我们引入了一种基于社会学习的框架,在此框架中,我们强调除了合作互动之外的非合作互动,以鼓励多样性。我们的实验是首次尝试在非合作环境中利用基于训练的代理(GPT-2)和基于提示的代理(GPT-3和GPT-4)进行诗歌生成的大型语言模型多代理系统。 根据对生成的96,000首诗的评估,我们的框架对基于训练的代理的诗歌生成过程带来了好处,导致n-gram多样性增加了3.0-3.7个百分点,新颖性增加了5.6-11.3个百分点。基于训练的代理生成的诗歌在词汇、风格和语义上表现出群体分化。在我们的框架中,基于提示的代理也从非合作环境中受益,并且具有非同质代理的更多样化的模型集合有可能进一步提高多样性,我们的实验结果显示多样性增加了7.0-17.5个百分点。然而,基于提示的代理显示出随着时间推移,词汇多样性减少,并且没有表现出预期的群体分化意图的社会网络。我们的论文主张,在自动诗歌生成等创意任务中,需要将社会学习过程(通过基于大型语言模型的代理建模)纳入考虑范围,以模仿人类的交互方式。 |
2024-09-05 | Rx Strategist: Prescription Verification using LLM Agents System | Phuc Phan Van et.al. | 2409.03440 | null | 为了保障患者安全,现代药物复杂性要求严格处方验证。我们提出了一种新的方法——Rx Strategist,它利用知识图谱和不同的搜索策略,结合代理框架中的大型语言模型(LLMs),以增强其能力。这种多维度的技术允许构建一个多阶段的LLM管道,并从自定义活性成分数据库中可靠地检索信息。该管道覆盖了处方验证的不同方面,如适应症、剂量和可能的药物相互作用,每个阶段都包含了这些方面的内容。 通过在这些阶段分散推理,我们缓解了单一LLM技术的缺点,提高了正确性和可靠性,同时减少了内存需求。我们的研究结果表明,Rx Strategist超越了许多当前的LLMs,其性能与经验丰富的临床药师相当。在现代药物的复杂世界中,将LLMs与组织化知识和高级搜索方法相结合,提供了一条减少处方错误并提高患者结果的可行途径。 |
2024-09-05 | GraphInsight: Unlocking Insights in Large Language Models for Graph Structure Understanding | Yukun Cao et.al. | 2409.03258 | null | 虽然大型语言模型(LLMs)在处理图方面展现出潜力,但在通过描述序列的图说明来理解图形结构信息时,尤其是在图的大小增加时,它们遇到了挑战。我们归因于LLMs在图描述序列的不同位置上存在不均匀的记忆性能,即所谓的“位置偏见”。为了应对这一挑战,我们提出了GraphInsight,一个旨在提高LLMs对宏观和微观图形信息理解的新框架。GraphInsight基于两个关键策略:1)将关键图形信息放置在LLMs表现出更强记忆性能的位置;2)对于记忆性能较弱的区域,探索使用轻量级外部知识库,灵感来自于检索增强生成(RAG)。此外,GraphInsight还探索了将这两种策略集成到LLM代理流程中,以解决需要多步推理的复合图任务。广泛的基准实验表明,在不同大小的图形结构理解任务上,GraphInsight显著超越了所有其他图描述方法(例如提示技术、重新排序策略等)。 |
2024-09-04 | Large Language Model-Based Agents for Software Engineering: A Survey | Junwei Liu et.al. | 2409.02977 | link | 本文提供了一篇全面且系统的关于大型语言模型(LLM)在软件工程(SE)中的应用的综述。我们收集了106篇论文,并从两个角度进行分类,即软件工程视角和代理视角。此外,我们还讨论了该领域面临的关键挑战以及未来的发展方向。此综述的仓库地址为:https://github.com/FudanSELab/Agent4SE-Paper-List。 |
2024-09-02 | Evolution of Social Norms in LLM Agents using Natural Language | Ilya Horiguchi et.al. | 2409.00993 | null | 大型语言模型(LLM)的最新进展激发了利用这些模型进行游戏理论模拟的兴趣,在这些模拟中,LLM充当个体代理,进行社会互动。本文研究了通过自然语言对话使LLM代理自发生成并遵守规范策略的可能性,以此为基础,探索了对Axelrod的元规范游戏工作的进一步发展。我们的实验表明,通过对话,LLM代理能够仅通过自然语言交互形成复杂的社交规范,如元规范——规范惩罚不惩罚作弊行为的规范。结果证实了使用LLM代理模拟社会互动和理解通过自然语言演化出复杂策略与规范的有效性。未来的工作可能通过扩展到更广泛的场景和代理特征,揭示更多关于社会规范形成的微妙机制。 |
2024-09-02 | Co-Learning: Code Learning for Multi-Agent Reinforcement Collaborative Framework with Conversational Natural Language Interfaces | Jiapeng Yu et.al. | 2409.00985 | link | 基于大型语言模型的在线问答系统从娱乐用途逐渐转向专业领域应用。本文提出了一种名为“代码学习(Co-Learning)社区”的多代理框架,结合环境强化学习(E-RL),旨在帮助初学者独立修正代码错误。该系统通过一个包含702个错误代码的原始数据集评估了多个大型语言模型的表现,并将其作为E-RL奖励或惩罚的标准。通过分析当前代理输入的错误代码,选择合适的基于大型语言模型的代理以实现最佳的错误修正准确率并减少修正时间。 实验结果表明,与无E-RL方法相比,该方法在精确度得分上提高了3%,在时间成本上降低了15%。我们的源代码可访问:https://github.com/yuqian2003/Co_Learning |
2024-08-29 | HoneyComb: A Flexible LLM-Based Agent System for Materials Science | Huan Zhang et.al. | 2409.00135 | null | 为了应对材料科学任务中的复杂性并解决大型语言模型(LLM)在这一领域应用时所面临的问题,如依赖过时的隐性知识导致的准确性下降和幻觉现象,我们提出了HoneyComb——首个专门针对材料科学领域的LLM代理系统。HoneyComb通过利用一个基于可靠文献的高质量材料科学知识库(MatSciKB)和一种创新的工具集(ToolHub),增强其针对材料科学特有的推理与计算能力。 MatSciKB是一个经过精心编纂、结构化的知识集合,旨在涵盖材料科学领域的关键信息。而ToolHub则采用了一种归纳式工具构建方法,用于生成、分解和优化适用于材料科学的API工具,从而极大地提高了系统的实用性。此外,HoneyComb还配备了一个检索模块,该模块能够根据特定任务智能选择最合适的知识来源或工具,确保了答案的准确性和相关性。 实验结果表明,HoneyComb在材料科学领域的各种任务上均表现出显著优于基线模型的能力,成功地弥合了当前LLM技术与材料科学特定需求之间的差距。更为重要的是,我们的可扩展框架易于扩展至其他科学领域,展示了其在推动科学研究和应用发展方面具有广泛的应用潜力。 |
2024-08-30 | Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios | Zhongyuan Wang et.al. | 2408.16991 | null | 本文提出了一种基于工具辅助的代理框架,用于SQL检查和改进,旨在提升大型语言模型(LLM)处理现实世界查询的能力。该框架通过为LLM代理配备两个专门工具——检索器和检测器,以诊断并修正SQL查询中的数据库不匹配问题。这些工具能够增强LLM处理真实场景中出现的条件不匹配和严格约束不匹配等数据库不匹配问题的能力。 我们还引入了Spider-Mismatch,这是一个专门为反映现实世界中遇到的条件不匹配问题而构建的新数据集。实验结果表明,在少量示例设置下,我们的方法在Spider和Spider-Realistic数据集上的平均表现最佳,并且显著优于基线方法,在更具有现实性的数据集Spider-Mismatch上也表现出更好的性能。 |
2024-08-28 | EPO: Hierarchical LLM Agents with Environment Preference Optimization | Qi Zhao et.al. | 2408.16090 | link | 本文提出了一种分层框架,用于解决复杂任务分解为可管理子目标的问题。框架使用了独立的语言模型进行子目标预测和低级动作生成。针对无标注数据集的训练信号创建挑战,我们开发了一个奖励模型,利用环境多模态反馈自动生成奖励信号。我们引入了环境偏好优化(EPO)方法,该方法从环境反馈中生成偏好信号,并利用这些信号训练基于语言模型的代理。ALFRED实验结果表明,我们的框架在性能上处于领先地位,首次登上了ALFRED公开排行榜,并展示了其在不同环境中的长期决策制定能力的提升潜力。 |
2024-09-05 | LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models | Jiayi Gui et.al. | 2408.15778 | link | 本文介绍了一个名为LogicGame的新基准,旨在评估大型语言模型(LLMs)在规则理解和执行、多步规划方面的全面能力。不同于传统的基准测试,LogicGame提供了多种游戏,其中包含一系列规则以及初始状态,要求模型理解并应用预定义规则来解决问题。我们创建了模拟情景,让模型执行或规划操作以达到特定目标。这些游戏场景专门设计以区分逻辑推理与仅依赖知识的能力,完全依赖于预设规则。这种分离允许对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果,还考虑中间步骤,提供模型性能的全面评估。此外,这些中间步骤是确定性的,并且可以自动验证。LogicGame定义了从简单规则应用到复杂推理链的不同难度级别的游戏场景,以精确评估模型在规则理解和多步执行上的性能。通过使用LogicGame,我们测试了各种LLM,并发现了它们在基于规则的逻辑推理能力方面的显著不足。 |
2024-08-27 | AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems | Chi-Min Chan et.al. | 2408.14972 | link | 快速发展的大型语言模型(LLM)推动了基于LLM的代理兴起。近期研究发现,在多代理系统(MAS)中,每个代理执行特定角色时,其性能通常优于单一LLM。然而,配置MAS以完成任务仍然具有挑战性,因为任务表现仅在执行后才能观察到。受到LLM开发中的规模法则启发,我们探索是否能在任务执行前预测MAS的性能。为此,我们引入了AgentMonitor框架,该框架在代理层级集成,用于捕获输入和输出信息,并将这些信息转换为统计数据,用于训练回归模型预测任务性能。此外,AgentMonitor还能够实时对可能由恶意代理引发的安全风险进行纠正,从而减轻负面影响并增强MAS的安全性。 实验结果表明,使用XGBoost模型在领域内场景下达到0.89的斯皮尔曼相关系数,在更具挑战性的场景下达到0.58。通过应用AgentMonitor,有害内容减少了6.2%,有益内容平均增加了1.8%,这显著提高了安全性和可靠性。相关的代码已开源在https://github.com/chanchimin/AgentMonitor。 |
2024-08-26 | LLM-3D Print: Large Language Models To Monitor and Control 3D Printing | Yayati Jadhav et.al. | 2408.14307 | null | 行业4.0通过推动数字化进程并转向增材制造(AM),彻底改变了制造业。熔融沉积建模(FDM)作为关键的AM技术之一,通过逐层挤出方式创建高度定制、成本效益高且材料浪费极小的产品,对传统减材方法构成了重大挑战。然而,材料挤出技术的易错性往往需要专家介入来检测和缓解可能严重损害产品质量的缺陷。虽然已存在自动化错误检测和机器学习模型,但它们在不同3D打印机设置、固件和传感器之间的通用性有限,并且深度学习方法需要大量的标记数据集,这限制了其规模性和适应性。 为了解决这些挑战,我们提出了一种利用大型语言模型(LLMs)与3D打印技术相结合的过程监控和控制框架,旨在检测和解决打印缺陷。该LLM通过分析每层或打印段之后捕获的图像来评估打印质量,识别故障模式,并向打印机查询相关参数。然后,它生成并执行纠正措施计划。我们通过将提出的框架的有效性与一组具有不同AM专业知识的工程师进行了比较,以验证识别缺陷的能力。我们的评估表明,基于LLM的代理不仅准确识别常见的3D打印错误,如不一致的挤出、丝状堆积、翘曲和层粘合问题,而且还能有效确定导致这些失败的参数,并自主地进行修正,无需任何人工干预。 |
2024-09-02 | MLR-Copilot: Autonomous Machine Learning Research based on Large Language Models Agents | Ruochen Li et.al. | 2408.14033 | link | 机器学习研究对于技术进步和创新至关重要,但常常面临复杂性高、实验周期长以及需要专业知识等挑战。为了应对这些挑战,我们提出了一种新的系统框架——自主机器学习研究与大型语言模型(MLR-Copilot),旨在通过利用大型语言模型(LLM)代理自动生成并实施研究想法来提高机器学习研究的生产力。该框架包含三个阶段:研究想法生成、实验实现和执行。首先,通过基于LLM的IdeaAgent利用现有研究论文生成假设和实验计划。接下来,在实现生成阶段,将这些计划转化为可执行代码,使用ExperimentAgent完成此过程。此阶段利用检索到的原型代码,并根据需要检索候选模型和数据。最后,在执行阶段,也由ExperimentAgent管理,涉及运行实验,并通过人类反馈和迭代调试机制,以增加实现可执行研究成果的可能性。我们对五个机器学习研究任务进行了评估,实验结果表明了该框架促进研究进展和创新的潜力。 |
2024-08-26 | AgentMove: Predicting Human Mobility Anywhere Using Large Language Model based Agentic Framework | Jie Feng et.al. | 2408.13986 | link | 人类移动性预测在各种实际应用中扮演着关键角色。尽管深度学习模型在过去十年中显示出有希望的结果,但它们对用于训练的大量私人移动数据的依赖以及无法进行零启动预测的能力,阻碍了进一步的发展。最近,有人尝试使用大型语言模型(LLMs)来执行移动性预测任务。然而,他们的性能受限于缺乏系统的设计工作流程。他们直接使用LLMs生成最终输出,这限制了LLMs发现复杂移动模式的潜力,并低估了它们在全球地理空间知识方面的巨大储备。本文提出了一种名为AgentMove的系统性代理预测框架,以实现对任何全球城市的通用移动性预测。在AgentMove中,我们首先将移动性预测任务分解为三个子任务,并设计相应的模块来完成这些子任务,包括个体移动模式挖掘的空间-时间记忆、城市结构效应对模型的影响的全球知识生成器以及捕获人口共享模式的集体知识提取器。最后,我们将三个模块的结果结合起来,并执行推理步骤以生成最终预测。在来自两个来源的12个城市的数据上进行的广泛实验表明,与最佳基线相比,AgentMove在各种指标上的性能提高了超过8%,并且在不同城市中显示出了稳健的预测结果,且使用不同基础的LLM时也能表现出色,且具有较低的地理偏见。代码和数据可以在https://github.com/tsinghua-fib-lab/AgentMove找到。 |
2024-08-23 | Optimizing Collaboration of LLM based Agents for Finite Element Analysis | Chuan Tian et.al. | 2408.13406 | null | 本文探讨了大型语言模型(LLM)在编程和编码任务中的多代理交互。我们利用AutoGen框架促进代理之间的沟通,并基于每种设置的40次随机运行的成功率评估不同的配置。研究重点在于开发一个灵活的自动化框架,用于将有限元方法应用于解决线性弹性问题。我们的发现强调了优化代理角色及其明确职责的重要性,而不仅仅是增加代理数量。代理间的有效协作被证明对于解决有限元方法的一般挑战至关重要。这项研究展示了LLM多代理系统增强计算自动化在模拟方法学中的潜力,为工程和人工智能的未来进展铺平道路。 |
2024-09-01 | Can LLMs Understand Social Norms in Autonomous Driving Games? | Boxuan Wang et.al. | 2408.12680 | null | 本文探讨了大型语言模型(LLM)在理解与模拟自主驾驶游戏中社会规范的应用。通过将LLM集成到自主驾驶游戏中的智能代理角色中,我们基于文本提示让这些代理按照相关环境设定和观察信息做出决策。我们的框架涉及LLM驱动的代理在多代理系统(MAS)中进行马尔科夫游戏,以此研究个体代理之间社会规范的形成。 我们设计实验,利用OpenAI聊天API(由GPT-4.0提供动力)在无信号交叉口游戏与高速公路车队游戏两种场景下模拟交互并评估LLM驱动代理的表现。结果显示,LLM驱动的代理能够处理马尔科夫游戏中的动态环境变化,并且在两个场景中,代理间形成了社会规范。 在交叉口游戏中,当面临潜在车祸时,LLM驱动的代理倾向于采取保守的驾驶策略。LLM驱动代理在游戏中的优势在于其操作灵活性和可分析性,这有助于实验设计。 |
2024-08-22 | MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents | Congchi Yin et.al. | 2408.12142 | link | 在大多数精神疾病诊断中,临床医生与患者的对话是主要的诊断依据。创建这样的诊断对话数据集有望推动AI精神健康护理领域的发展。然而,直接在实际诊断场景中收集对话极为困难,原因在于隐私和伦理考虑的严格限制。为解决这一问题,我们尝试通过利用易于获取的匿名患者案例来合成诊断对话。具体而言,我们设计了一个神经符号多代理框架,使用大型语言模型合成精神障碍的诊断对话。该框架以患者案例作为输入,并能够生成针对单个患者案例的多个多样化的对话,其基本过程涉及医生代理与患者代理之间的互动,并通过工具代理实现基于符号控制的文本生成,借助动态诊断树。通过应用提出的方法,我们开发了包含1000个清洗过的实际患者案例、与一家领先的精神病医院合作构建的中国最大精神障碍诊断数据集MDD-5k,该数据集包含了5000个高质量的长对话及其诊断结果标签。据我们所知,这是第一个包含中文精神障碍诊断结果的标记数据集。人类评估表明,提出的MDD-5k数据集成功模拟了精神障碍的诊断过程。数据集和代码将在https://github.com/lemonsis/MDD-5k公开提供。 |
2024-08-20 | FLAME: Learning to Navigate with Multimodal LLM in Urban Environments | Yunzhe Xu et.al. | 2408.11051 | link | 大型语言模型(LLM)在视觉与语言导航(VLN)任务中展现出了潜在能力,但当前的应用仍面临挑战。虽然LLM在通用对话场景中表现出色,但在专门的导航任务上却表现不佳,相较于专为VLN设计的模型,其性能较差。为此,我们提出了一种名为FLAME(FLAMingo架构化实体代理)的新颖多模态LLM基元体和架构,旨在解决城市VLN任务,并有效处理多个观察结果。我们的方法采用了三阶段调优技术以适应导航任务,包括单感知调整以描述街景、多感知调整以总结轨迹以及在VLN数据集上进行端到端训练。合成的数据集是自动生成的。实验结果显示,FLAME在Touchdown数据集上的任务完成率优于现有方法,提高了7.3%。这项工作展示了多模态LLM在复杂导航任务中的潜力,并代表了迈向实际应用中多模态LLM于实体AI领域的进步。项目页面:https://flame-sjtu.github.io |
2024-08-20 | Athena: Safe Autonomous Agents with Verbal Contrastive Learning | Tanmana Sadhu et.al. | 2408.11021 | null | 由于新兴能力的加持,大型语言模型(LLMs)被用作基于语言的代理,执行各种任务并作出日益自主的决策。这些自主代理能够理解高级指令、与环境互动,并使用可用工具集执行复杂任务。随着代理能力的扩展,确保其安全性和可信度变得愈发重要。本研究引入了Athena框架,利用了“口头对比学习”的概念,通过将过去的安全和不安全轨迹作为上下文(对比)示例来指导代理在完成给定任务的同时确保安全。该框架还整合了一种批判机制,以指导代理在每一步防止风险行为。此外,鉴于缺乏现有基准来评估基于LLM的代理的安全推理能力,我们收集了80个工具包,覆盖8个类别,共计180个场景,提供了一个安全评估基准。我们的实验评估显示,口头对比学习和交互级批判显著提高了安全性率。 |
2024-08-24 | IDEA:Enhancing the Rule Learning Ability of Language Agents through Induction, Deduction, and Abduction | Kaiyu He et.al. | 2408.10455 | link | 本文提出了一项名为RULEARN的新基准,旨在评估大型语言模型(LLMs)在交互环境中的归纳推理能力。在RULEARN中,代理通过与环境互动收集观察,并从中推断模式,以此解决问题。为了增强LLM代理在该基准上的归纳推理能力,我们引入了IDEA代理,它结合了归纳、演绎和溯因三种推理过程。IDEA代理通过结构化推理序列提升这一方法:首先通过溯因生成假设,然后通过演绎验证这些假设,最后根据反馈进行适应性修正。这种序列使代理能够动态建立并应用规则,模仿人类的推理过程。通过对五种代表性LLM的评估显示,尽管这些模型能够生成合理的初始假设,但在环境内的战略互动、有效整合反馈以及假设的适应性修正方面存在困难。而IDEA代理在RULEARN基准上表现出显著的性能提升,为我们开发能在现实世界场景中实现类似人类规则学习能力的代理提供了宝贵见解。我们将会发布我们的代码和数据。 |
2024-08-20 | MegaAgent: A Practical Framework for Autonomous Cooperation in Large-Scale LLM Agent Systems | Qian Wang et.al. | 2408.09955 | null | 随着大型语言模型(LLM)的兴起,LLM驱动的多智能体系统(LLM-MA系统)被提出以应对实际任务。然而,这些系统的智能体大多遵循在整体交互过程中保持不变的预定义标准操作程序(SOP),缺乏自主性和可扩展性。此外,当前解决方案往往忽视了有效智能体合作的必要性。为了克服上述限制,我们提出了MegaAgent,一个旨在促进大规模LLM智能体系统中自主合作的实用框架。MegaAgent利用智能体的自主性动态生成基于任务需求的智能体,集成了任务自动划分、智能体活动系统级规划与监控以及并发操作管理等功能。此外,MegaAgent采用层次结构设计,并利用系统级并行性来提升性能和增强通信效率。 我们通过围棋游戏开发展示了MegaAgent的有效性,证明它在性能上超越了流行的LLM-MA系统;并通过国家政策模拟验证了其高自主性和快速扩展至590个智能体的能力,同时确保了它们之间的有效合作。我们的结果表明,MegaAgent是首个无预定义SOP、高效且具有高可扩展性的大规模LLM-MA系统,为该领域的进一步研究铺平了道路。我们的代码位于https://anonymous.4open.science/r/MegaAgent-81F3。 |
2024-08-19 | GoNoGo: An Efficient LLM-based Multi-Agent System for Streamlining Automotive Software Release Decision-Making | Arsham Gholamzadeh Khoee et.al. | 2408.09785 | null | 在汽车行业中,传统软件部署决策方法通常依赖于对表格化测试数据的手动分析。这些方法往往导致更高的成本和软件发布周期的延迟,主要是由于它们的劳动密集型特性。大型语言模型(LLM)为解决这些问题提供了有前景的解决方案。然而,它们的应用通常需要多轮的人工驱动提示工程,这限制了其在工业最终用户中的实际部署,特别是那些需要可靠和高效结果的用户。本文提出了一种名为GoNoGo的LLM代理系统,旨在简化汽车软件部署过程,同时满足功能要求和工业约束。与以往系统不同,GoNoGo特别针对特定领域和风险敏感系统进行了定制。我们使用来自工业实践的零次和少量次示例来评估GoNoGo在不同任务难度下的性能。结果显示,GoNoGo在难度不超过二级的3次示例任务中实现了100%的成功率,并且即使对于更复杂的任务也能保持高绩效。我们发现,GoNoGo有效地自动化了较简单任务的决策过程,显著减少了手动干预的需求。总之,GoNoGo代表了一个目前在我们的工业合作伙伴公司中被用于协助软件发布决策的高效且用户友好的LLM基解决方案,支持了风险敏感车辆系统发布过程中的更加明智和及时的决策。 |
2024-08-18 | HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model | Mengkang Hu et.al. | 2408.09559 | link | 大型语言模型(LLM)驱动的代理在各个领域展现出巨大潜力,作为能够处理环境观察并生成执行动作以完成目标任务的交互系统。这些代理的有效性很大程度上受到其记忆机制的影响,该机制通过记录历史经验来形成一系列动作-观察对序列。我们将记忆分为两类:跨试记忆,积累于多次尝试中;以及单试记忆(工作记忆),积累于单一尝试内。尽管关于跨试记忆优化的研究已取得显著进展,但如何通过提升工作记忆利用效率来增强代理性能的探索仍相对不足。现有方法往往直接将整个历史动作-观察对输入到LLM中,导致在长期任务中存在冗余问题。受人类解决问题策略的启发,本文提出了一种名为HiAgent的框架,旨在通过将子目标作为记忆块来对LLM驱动的代理的工作记忆进行层次化管理。具体来说,HiAgent促使LLM在生成执行动作前先制定子目标,并允许LLM主动决定替换之前的子目标,仅保留与当前子目标相关的动作-观察对。在五个长期任务上的实验结果表明,HiAgent的成功率提高了两倍,平均步骤数减少了3.8个。此外,我们的分析显示,HiAgent在整个步骤中均能持续改善性能,这凸显了其稳健性和泛用性。 项目页面:https://github.com/HiAgent2024/HiAgent |
2024-08-15 | EmBARDiment: an Embodied AI Agent for Productivity in XR | Riccardo Bovo et.al. | 2408.08158 | null | XR设备搭载由大型语言模型(LLMs)驱动的聊天机器人具有巨大的潜力,可以作为始终在线的代理,从而实现更高效的工作流程。然而,基于屏幕的聊天机器人并未充分利用XR所提供的全面自然输入,包括内部面向的传感器数据,而是过度依赖明确的声音或文本提示,有时还会与作为查询的一部分投射的多模态数据配对。我们提出了一种解决方案,利用注意力框架从用户行为、注视点和XR环境中的上下文记忆中隐式地推导出背景信息,从而最小化对工程化明确提示的需求,促进基于现实世界且直观的交互,这些交互能够洞察用户的见解并为聊天机器人提供信息。我们的用户研究展示了我们方法的可行性和在XR中与聊天机器人进行交互的潜在变革性,同时也为未来XR-实体LLM代理的设计提供了见解。 |
2024-08-15 | Text2BIM: Generating Building Models Using a Large Language Model-based Multi-Agent Framework | Changyu Du et.al. | 2408.08054 | null | 传统的建筑信息模型(BIM)创建过程通常要求设计师掌握复杂且繁琐的建模命令,以在BIM创建工具中实现其设计意图。这种额外的认知负担使设计过程变得复杂,并阻碍了建筑、工程和施工(AEC)行业对BIM和基于模型的设计的采用。 为了更直观地表达设计意图,我们提出了一种基于大型语言模型(LLM)的多代理框架——Text2BIM。该框架能够从自然语言指令生成3D建筑模型。它通过协调多个LLM代理协作并推理,将文本用户输入转换为调用BIM创建工具API的指令代码,从而在软件中生成具有内部布局、外部外壳和语义信息的可编辑BIM模型。此外,引入了一种基于规则的模型检查器,利用预定义的领域知识指导LLM代理解决生成模型中的问题,并迭代改进模型质量。 进行了大量实验来比较和分析在提议框架下三种不同LLM的表现。评估结果表明,我们的方法能够有效地生成高质量、结构合理且与用户输入指定的抽象概念相一致的建筑模型。 最后,开发了一个交互式软件原型,将该框架集成到BIM创建软件Vectorworks中,展示了通过聊天进行建模的潜力。 |
2024-08-13 | Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents | Pranav Putta et.al. | 2408.07199 | null | 大型语言模型(LLM)在需要复杂推理的自然语言任务上展现了惊人的能力,但在交互环境中进行自主代理的多步骤推理应用仍然是一个挑战。传统的基于静态数据集的监督预训练不足以使自主代理具备在动态设置如网络导航中执行复杂决策所需的自主能力。以往通过监督微调来填补这一差距的方法往往面临累积错误和探索数据有限的问题,导致政策结果不佳。为了克服这些挑战,我们提出了一种框架,结合了引导式蒙特卡洛树搜索(MCTS)搜索与自我批判机制,并使用离策略变体的直接偏好优化(DPO)算法对代理互动进行迭代微调。这种方法允许LLM代理从成功和失败的轨迹中有效学习,从而在复杂、多步骤推理任务中提高其泛化能力。我们在WebShop环境(一个模拟电子商务平台)中验证了我们的方法,该环境在与行为克隆和强化微调基线相比时表现出色,并在配备在线搜索能力的情况下击败了平均人类性能。在实际预订场景中,我们的方法提高了Llama-3 70B模型的零射成功率从18.6%增加到81.7%(相对增加了340%),并在一天的数据收集后进一步增加到95.4%,并且通过在线搜索。我们认为这标志着自主代理能力的一个重大进步,在现实世界环境中实现更高级和可靠决策的道路。 |
2024-08-13 | Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents | Kexun Zhang et.al. | 2408.07060 | null | 大型语言模型(LLM)代理在解决实际世界软件工程(SWE)问题方面展现出巨大的潜力。最先进开源的SWE代理能够解决SWE-Bench Lite中超过27%的实际GitHub问题。然而,这些复杂的代理框架在表现上存在差异,有的在特定任务中表现出色,在其他任务中则表现不佳。为了充分利用这些代理的多样性,我们提出了DEI(多元化智能),一个旨在利用其独特专长的框架。DEI作为现有SWE代理框架之上的元模块,管理代理集体以实现增强的问题解决能力。 实验结果显示,通过DEI指导的代理委员会能够显著超越单个代理的最佳性能。例如,一组开源SWE代理,其最高个体解决率在SWE-Bench Lite中为27.3%,在应用了DEI后,能够达到34.3%的解决率,实现了25%的改进,并击败了许多闭源解决方案。我们的最佳表现团队以55%的解决率在SWE-Bench Lite中取得最高排名。我们的研究结果对合作AI系统的研究领域做出了贡献,揭示了它们在解决复杂软件工程挑战方面的潜力。 |
2024-08-12 | Hierarchical in-Context Reinforcement Learning with Hindsight Modular Reflections for Planning | Chuanneng Sun et.al. | 2408.06520 | null | 大型语言模型(LLM)在各种语言任务上表现出惊人的能力,这使它们成为机器人决策的有希望候选者。受到层次强化学习(HRL)的启发,我们提出了一种新颖框架——在上下文中进行层次化的强化学习(HCRL)。该框架通过LLM基高层策略分解复杂任务,即通过在执行时动态分解复杂任务为子任务,从而利用高阶策略来定义目标,这些目标由子任务组成,并分配给低阶策略以完成。一旦LLM代理确定目标已完成,则会提出新的目标。 为了提高多轮执行中的代理性能,我们提出了事后模块化反思(HMR),其中,代理不是对完整轨迹进行反思,而是将任务目标替换为中间目标,并让代理对较短的轨迹进行反思,以提高反思效率。我们在三个基准环境中评估了所提出的HCRL的决策能力——ALFWorld、Webshop和HotpotQA。结果表明,与强大的上下文学习基线相比,在五轮执行中,HCRL可实现9%、42%和10%的性能提升。 |
2024-08-12 | Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let's Take TravelPlanner as an Example | Yanan Chen et.al. | 2408.06318 | null | 本文旨在填补大型语言模型(LLM)在自主代理与人工通用智能(AGI)接近过程中研究的空白。尽管LLM展现出出色的泛化能力和涌现能力,但目前缺乏对LLM驱动的代理行为、潜在失败原因以及如何提升其性能的研究,尤其是在具有挑战性的现实世界规划任务中的表现。为了填补这一缺口,我们利用了一个名为TravelPlanner的真实基准,其中的代理必须满足多个约束以生成准确的计划。通过TravelPlanner基准,我们针对四个关键研究问题进行了全面的实验:(1)LLM代理在处理长篇和嘈杂上下文时,对于推理和规划的鲁棒性是否足够?(2)少量提示是否会损害LLM代理在长上下文场景下的性能?(3)我们能否依赖细化来改进计划?(4)对LLM进行正负反馈结合的微调是否能带来进一步的提升? 实验结果表明:首先,尽管LLM能够处理大量的参考信息和少量示例,它们在关注长上下文中关键部分的能力上仍然存在不足;其次,它们在分析长计划方面仍面临挑战,并且无法提供准确的反馈用于细化;第三,我们提出了Feedback-Aware Fine-Tuning(FAFT),一种利用正负反馈相结合的方法,相较于纯监督微调(SFT),FAFT在性能上取得了显著提升。我们的发现为社区提供了关于现实世界规划应用方面的深入见解。 |
2024-08-13 | DataNarrative: Automated Data-Driven Storytelling with Visualizations and Texts | Mohammed Saidul Islam et.al. | 2408.05346 | link | 数据驱动的故事叙述是一种强大的方法,通过结合叙事技巧与可视化和文本,来传达见解。这些故事融合了图表中的突出条形和线条以及解释见解的文本注释。然而,创建这样的故事需要对数据有深入的理解,并且需要精心的叙事规划,通常需要人类的介入,这既耗时又费心。虽然大型语言模型(LLMs)在各种NLP任务上表现出色,但在生成连贯和全面的数据故事方面的潜力仍然未被充分探索。为此,我们引入了一个新的任务——数据故事生成,并提供了一个包含来自不同来源的1,449个故事的基准。为了应对创造连贯数据故事的挑战,我们提出了一种多代理框架,利用两个LLM代理来模仿人类讲故事的过程:一个用于理解并描述数据、生成大纲和叙述,另一个则在每个中间步骤进行验证。尽管我们的代理框架在基于模型和人类评估中通常优于非代理对手,但结果也揭示了数据故事生成的独特挑战。 |
2024-08-08 | Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions | Qingbin Zeng et.al. | 2408.04168 | link | 本文探讨了城市导航场景下的AI代理问题:提供目标位置与知名地标之间的语言描述;仅通过观察周围环境,包括识别地标和道路网络连接,代理需要作出决策以无指示地导航至目标位置。这一挑战性在于,它要求代理建立自身定位并获取复杂城市环境的空间表示,而地标往往不可见。在缺乏导航指令的情况下,这种能力对于代理在长距离城市导航中做出高质量决策至关重要。随着大型语言模型(LLMs)推理能力的涌现,一个吸引人的基础方法是提示LLMs对每次观察做出“反应”并据此作出决策。然而,这种方法的性能非常差,代理经常反复访问相同位置,并作出短视、不一致的决策。为解决这些问题,本文引入了一种新型的代理工作流程,其特征在于感知、反思和规划的能力。具体而言,我们发现经过微调的LLaVA-7B能够准确感知地标的方向和距离,适用于城市导航。此外,通过记忆机制实现反思,即存储过往经验并在当前感知下检索,以进行有效的决策论证。规划则利用反思结果生成长期计划,从而避免长距离导航中的短视决策。实验结果显示,设计的工作流程显著提高了LLM代理的导航能力,相较于最先进的基线方法。 |
2024-08-11 | CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases | Xiangyan Liu et.al. | 2408.03910 | link | 大型语言模型(LLM)在诸如HumanEval和MBPP的独立代码任务中表现出色,但它们在处理整个代码仓库时存在挑战。这促使研究界探索如何在仓库级别上增强LLM与代码库的交互。目前的解决方案依赖于基于相似性的检索或手动工具和API,每种方法都有其显著的缺点。基于相似性的检索在复杂任务中召回率往往较低,而手动工具和API通常针对特定任务,需要专家知识,降低了它们在不同代码任务和实际应用中的通用性。为了缓解这些限制,我们引入了CodexGraph系统,它结合了从代码仓库中提取的图数据库接口与LLM代理。通过利用图数据库的结构特性和图查询语言的灵活性,CodexGraph使LLM代理能够构建并执行查询,从而实现精确的、代码结构意识的上下文检索和代码导航。我们使用三个基准测试CodexGraph:CrossCodeEval、SWE-bench和EvoCodeBench。此外,我们开发了五个真实世界的编码应用。通过使用统一的图数据库模式,CodexGraph在学术和实际环境中都展示了竞争力和潜力,证明了其在软件工程领域的多用途性和有效性。我们的应用演示:https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent。 |
2024-08-07 | Large Language Models for Base Station Siting: Intelligent Deployment based on Prompt or Agent | Yanhu Wang et.al. | 2408.03631 | null | 传统的基站选址(BSS)方法主要依赖于驾驶测试和用户反馈,这既费时又需要在通信、网络和优化方面具备专业知识的专家。随着大型语言模型(LLMs)及其相关技术的发展,特别是在提示工程和代理工程领域,网络优化将见证一场革命性的转变。这种转变涉及巧妙地使用精心设计的提示来向这些复杂而先进的LLMs注入人类经验和知识,并通过自然语言连接到人类用户,部署自主代理作为通信桥梁。这种集成代表了人工智能(AI)作为一种服务和AI使生活更便捷的未来范式。 作为初步探索,本研究首先开发了一个由LLM驱动的BSS优化框架,并提出了四种潜在的实现策略:基于优化提示的LLM(PoL)、人机交互的LLM(HiLL)、LLM驱动的自主BSS代理(LaBa)以及协同多个LLM驱动的自主BSS代理(CLaBa)。通过在真实数据上的评估,实验表明,借助提示的LLM和基于代理的LLM能够生成更为高效、成本效益高且可靠的网络部署,显著提高了BSS优化的效率并减少了不必要的手动参与。 |
2024-08-05 | Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information | Yauwai Yim et.al. | 2408.02559 | null | Large language models (LLMs) have shown success in handling simple games with imperfect information and enabling multi-agent coordination, but their ability to facilitate practical collaboration against other agents in complex, imperfect information environments, especially in a non-English environment, still needs to be explored. This study investigates the applicability of knowledge acquired by open-source and API-based LLMs to sophisticated text-based games requiring agent collaboration under imperfect information, comparing their performance to established baselines using other types of agents. We propose a Theory of Mind (ToM) planning technique that allows LLM agents to adapt their strategy against various adversaries using only game rules, current state, and historical context as input. An external tool was incorporated to mitigate the challenge of dynamic and extensive action spaces in this card game. Our results show that although a performance gap exists between current LLMs and state-of-the-art reinforcement learning (RL) models, LLMs demonstrate ToM capabilities in this game setting. It consistently improves their performance against opposing agents, suggesting their ability to understand the actions of allies and adversaries and establish collaboration with allies. To encourage further research and understanding, we have made our codebase openly accessible. |
2024-08-05 | From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future | Haolin Jin et.al. | 2408.02479 | null | With the rise of large language models (LLMs), researchers are increasingly exploring their applications in var ious vertical domains, such as software engineering. LLMs have achieved remarkable success in areas including code generation and vulnerability detection. However, they also exhibit numerous limitations and shortcomings. LLM-based agents, a novel tech nology with the potential for Artificial General Intelligence (AGI), combine LLMs as the core for decision-making and action-taking, addressing some of the inherent limitations of LLMs such as lack of autonomy and self-improvement. Despite numerous studies and surveys exploring the possibility of using LLMs in software engineering, it lacks a clear distinction between LLMs and LLM based agents. It is still in its early stage for a unified standard and benchmarking to qualify an LLM solution as an LLM-based agent in its domain. In this survey, we broadly investigate the current practice and solutions for LLMs and LLM-based agents for software engineering. In particular we summarise six key topics: requirement engineering, code generation, autonomous decision-making, software design, test generation, and software maintenance. We review and differentiate the work of LLMs and LLM-based agents from these six topics, examining their differences and similarities in tasks, benchmarks, and evaluation metrics. Finally, we discuss the models and benchmarks used, providing a comprehensive analysis of their applications and effectiveness in software engineering. We anticipate this work will shed some lights on pushing the boundaries of LLM-based agents in software engineering for future research. |
2024-08-07 | SpecRover: Code Intent Extraction via LLMs | Haifeng Ruan et.al. | 2408.02232 | null | 本文探讨了在大型语言模型(LLM)与程序分析能力结合的形式下,通过LLM代理自动执行程序改进和错误修复的高效低耗工作流程。由于程序改进或修复通常需要明确期望的行为规范,因此规范推断对于产生高质量的代码补丁至关重要。本研究旨在通过在软件项目中进行迭代代码搜索并配合规范推断来探索这一领域,从而从项目的结构和行为中推断出意图。捕获的意图将由审查者代理进行审查,以验证补丁的有效性,并提供对验证后补丁信心度量。 我们的方法“SpecRover”(AutoCodeRover-v2)建立在开源的LLM代理AutoCodeRover之上。在使用SWE-Bench完整集评估时,即针对2294个GitHub问题,我们的方法显示了相对于AutoCodeRover超过50%的效率提升。与现有的开源代理相比,我们的工作在解决SWE-Bench lite中的平均GitHub问题时,成本仅为0.65美元。SpecRover生成的解释能够为开发者提供更明确的信号,表明建议的补丁可以被有信心地接受。 此外,我们的工作还强调了即使在LLM时代,自动化程序修复技术中规范推断的重要性。 |
2024-08-03 | The Drama Machine: Simulating Character Development with LLM Agents | Liam Magee et.al. | 2408.01725 | null | 这篇论文探讨了使用多个大型语言模型(LLM)代理来模拟复杂动态角色在戏剧性场景中的应用。我们提出了一种“戏剧机器”框架,该框架协调了扮演不同“自我”和“超我”心理角色的LLM代理之间的互动。在角色扮演模拟中,这种设计允许在相互作用的对话和个体内部独白之间发展平行的交互。 我们将此框架应用于两个戏剧场景——面试和侦探故事,并比较了在有无“超我”影响下角色发展的差异。尽管是初步研究,但结果表明,这种方法能够产生更加细腻、适应性强的故事,这些故事随着一系列对话回合的发展而演变。我们讨论了基于LLM的角色扮演的不同方式以及这可能对AI主体性的概念化意味着什么。论文最后考虑了这一方法如何为思考AI模拟中内在冲突和社会表演性的作用提供了可能性。 |
2024-08-03 | WaitGPT: Monitoring and Steering Conversational LLM Agent in Data Analysis with On-the-Fly Code Visualization | Liwenhan Xie et.al. | 2408.01703 | null | 大型语言模型(LLM)通过对话式用户界面支持数据分析,以OpenAI的ChatGPT(原名Advanced Data Analysis或Code Interpreter)为代表。本质上,LLM生成代码以完成各种分析任务。然而,直接呈现原始代码可能会使逻辑变得模糊,并妨碍用户验证。为了赋予用户对由LLM执行的数据分析进行增强理解与控制的能力,我们提出了一种新颖的方法来将LLM生成的代码转换为实时交互式的可视化表示。在该方法中,用户可以实时获得清晰、分步的LLM代码可视化,允许他们理解、验证并修改分析中的每个数据操作。我们的设计决策基于一项探索用户实践与挑战的形成性研究(N=8)。此外,我们开发了名为WaitGPT的原型,并进行了一项用户研究(N=12),以评估其可用性和有效性。用户研究的结果表明,WaitGPT有助于监控和引导由LLM执行的数据分析,使参与者能够提高错误检测能力并增加对结果的整体信心。 |
2024-08-03 | Automated Phishing Detection Using URLs and Webpages | Huilin Wang et.al. | 2408.01667 | null | ### 摘要 本文项目聚焦于通过构建利用大型语言模型(LLM)的代理框架,以解决传统基于参考的钓鱼检测方法所面临的局限性。该框架通过主动获取和利用在线信息,提供了一个动态的参考系统,从而实现更精确的钓鱼检测。这一创新避免了依赖静态知识库的需求,显著提升了自动化安全措施的适应性和效率。 ### 项目概述 项目报告首先对现有解决方案进行了初步研究和问题分析,促使我们开发出新的框架。我们以模拟的LLM代理来展示框架,并详细阐述了构建所需的技术,随后提供了完整实施的实例及实验,用于评估新方法相对于同类解决方案的性能。结果显示,我们的方法在准确度上达到了0.945,相比现有解决方案DynaPhish高出0.445个百分点。 ### 性能与局限 实验结果表明,本框架能够显著提高当前基于参考的钓鱼检测方法的有效性,并具有适应实际应用的潜力。同时,我们也讨论了该方法的局限性,并提出了改进策略,旨在进一步提升其效能。 ### 结论 提出的框架为增强现有的基于参考的钓鱼检测手段提供了有效途径,并且具备被应用于实际场景的可能性。 |
2024-08-01 | AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation | Mengkang Hu et.al. | 2408.00764 | link | 大型语言模型(LLM)基于的代理已引起广泛关注并变得越来越流行。此外,规划能力是LLM基于代理的关键组成部分,涉及与环境的交互和执行动作以完成规划任务,通常包括从初始状态达到预期目标的过程。本文研究了通过指令调优增强LLM规划能力的方法,即代理训练。近期的研究表明,利用专家级轨迹对指令调优LLM能有效提升其规划能力。然而,现有工作主要集中在从手动设计的任务和环境中合成轨迹,这导致创建这些环境和任务的劳动密集型,限制了生成足够多样性和广泛性的轨迹。为解决这一限制,本文探索了自动化合成多样化环境以及规划任务的渐进难度范围,从简单到复杂。我们引入了一个框架,名为AgentGen,利用LLM首先生成环境,随后根据这些环境生成规划任务。 具体而言,为了提高环境多样性,我们提出使用包含不同领域特定文本段落的灵感语料库作为合成环境的上下文。此外,为了增加生成规划任务的难度多样性,我们提出了双向演化方法Bi-Evol,该方法从更容易和更难的方向进化规划任务,以合成具有平滑难度曲线的任务集。来自AgentBoard的评估结果显示,AgentGen显著提高了LLM的规划能力,例如,经过AgentGen指令调优的Llama-3 8B在整体性能上超越了GPT-3.5。而且,在某些任务中,它甚至超过了GPT-4。 |
2024-08-01 | Jailbreaking Text-to-Image Models with LLM-Based Agents | Yingkai Dong et.al. | 2408.00523 | null | 近期的进展显著提升了基于大型语言模型(LLM)的自主代理在自动任务解决能力方面的表现。然而,大多数基于LLM的代理主要集中在对话、编程或特定领域,这导致了在处理生成式AI安全任务时存在缺口。这些缺口主要是由LLM的幻觉问题以及缺乏明确指导原则所引发的。本文提出了一种名为Atlas的高级LLM基多代理框架,该框架集成了高效模糊化工作流程,专门针对针对文本到图像(T2I)模型的攻击行为,特别是针对具有安全性过滤器的T2I模型的“越狱”攻击。 Atlas利用视觉语言模型(VLM)来评估提示是否触发了T2I模型的安全性过滤器。然后,它通过迭代方式与LLM和VLM协作,生成一个绕过过滤器的替代提示。此外,Atlas通过利用多代理通信、上下文学习(ICL)记忆机制和思维链(COT)方法,增强了LLM在攻击场景中的推理能力。 我们的评估表明,Atlas成功地在无模型设置下对多个最先进的T2I模型进行了“越狱”,这些模型都配备了多模态安全性过滤器。同时,Atlas在查询效率和生成图像质量方面均超越了现有方法。 |
2024-08-01 | Autonomous LLM-Enhanced Adversarial Attack for Text-to-Motion | Honglei Miao et.al. | 2408.00352 | null | 文本到动作(Text-to-Motion,T2M)模型通过深度生成模型驱动的人类运动生成,在应用中展现出令人信服的能力。然而,这些模型从文本提示生成真实动作的能力引发了安全问题,尤其是当它们可能被恶意利用时。尽管对T2M的兴趣日益增长,但很少有方法专注于保护这些模型免受对抗性攻击的影响。现有针对文本到图像模型的工作对于独特的动作领域来说并不充分。 在本论文中,我们提出了一种名为ALERT-Motion的自主框架,它利用大型语言模型(LLMs)来构建针对黑盒T2M模型的有针对性的对抗性攻击。与先前的方法通过预定义规则修改提示不同,ALERT-Motion利用LLMs对人类动作的知识,自主生成微妙而强大的对抗性文本描述。该框架包含两个关键模块:一个适应性调度模块,构建了一个基于LLM的代理,以迭代地细化和搜索对抗性提示;以及一个多模态信息对比模块,提取与动作相关的关键语义信息,指导代理的搜索。 通过这一基于LLM的方法,ALERT-Motion能够构造查询受害模型以产生与目标动作高度匹配的输出的对抗性提示,同时避免明显的扰动。在流行的T2M模型上进行的评估显示了ALERT-Motion相对于先前方法的优越性,其对抗成功率更高,并且对抗性提示更加隐蔽。这项关于T2M对抗性攻击的开创性工作强调了随着运动生成技术的发展,开发防御措施的紧迫性,这促使我们进一步研究安全和负责任的部署。 |
2024-07-31 | Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries | Felix Ocker et.al. | 2407.21778 | null | 我们提出了一种名为“tulip代理”的架构,旨在实现基于大型语言模型的自主智能体,具有对工具库中大量工具进行创建、读取、更新和删除的能力。与当前先进实现不同的是,“tulip代理”并不在系统提示中编码所有可用工具的描述,这会占用模型的上下文窗口,或在检索合适工具时嵌入整个提示。相反,“tulip代理”能够递归地在其可扩展的工具库中搜索合适的工具,该工具库作为向量存储实现。这种架构显著降低了推理成本,允许使用大量的工具库,并使代理能够适应并扩展其工具集。 我们通过数学领域中的多个消融研究来评估该架构,并展示了其在机器人领域的通用性应用。参考实现和基准测试可在github.com/HRI-EU/tulip_agent上获取。 |
2024-07-31 | Towards Achieving Human Parity on End-to-end Simultaneous Speech Translation via LLM Agent | Shanbo Cheng et.al. | 2407.21646 | link | 在这篇论文中,我们提出了一种高质量且接近人类水平的实时语音翻译系统——跨语言代理——同时口译,简称CLASI。受专业口译员启发,我们采用了创新的数据驱动读写策略来平衡翻译质量和延迟时间。为了应对翻译领域特定术语的挑战,CLASI通过多模态检索模块获取相关资料以增强翻译内容。借助大型语言模型的支持,我们的方法能够考虑输入音频、历史语境以及检索到的信息,生成容错性较高的翻译结果。实验结果显示,我们的系统在各项指标上均显著优于其他系统。 与专业口译员相媲美,我们使用了一个更好的评价指标——有效信息比例(VIP),它衡量了成功传达给听众的信息量。在现实世界场景中,演讲往往不流畅、非正式且模糊不清,CLASI在中英互译方向上的有效信息比例分别达到了81.3%和78.0%,而最先进的商业或开源系统仅分别为35.4%和41.6%。在极度困难的数据集上,当其他系统有效信息比例低于13%时,CLASI仍能实现70%的有效信息比例。 |
2024-07-30 | Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification | Boyang Zhang et.al. | 2407.20859 | null | 近期,基于大型语言模型(LLM)的自主代理在理论研究和实际应用方面均取得了显著进展。这些代理能够通过外部组件扩展基础LLM的能力,在多种方式下增强性能。例如,利用GPT-3.5-Turbo核心构建的代理可能在某些任务上超越更先进的GPT-4模型,关键在于其集成的工具可以使其在现实世界中执行操作,从单纯生成文本转向与环境的互动。鉴于代理在实际应用中的广泛部署及其对环境的直接影响能力,评估潜在漏洞变得至关重要。如果被恶意利用,这些自主系统可能造成的损害远大于单一语言模型。 现有研究已探讨了LLM代理可能引发的有害行为,但我们的研究从一个全新的视角出发,关注于导致系统故障的攻击方式——即误导代理执行重复或无关的操作,从而引发功能紊乱。我们通过采用多样化的攻击方法、场景和属性,进行了全面的评估,旨在揭示这些攻击的脆弱性所在。实验结果表明,在多种情况下,这些攻击能够诱导故障率超过80%。我们进一步在多代理系统中实施并部署了代理,以此突出此类漏洞所引发的现实风险。 为了应对上述攻击,我们提出了自我检查检测方法。然而,我们的研究发现,仅依靠LLM进行有效检测存在困难,这突显了该类漏洞所带来的重大风险。 |
2024-07-28 | The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies | Feng He et.al. | 2407.19354 | null | 受大型语言模型(LLM)快速发展的启发,LLM代理已发展到能够执行复杂任务。这些代理在各个领域广泛应用于处理大量数据以与人类互动并执行任务,这凸显了它们的商业价值。然而,这也暴露了安全和隐私漏洞。目前阶段,对LLM代理的安全性和隐私性进行全面研究至关重要。本文综述旨在全面概述新出现的隐私和安全问题,这些问题由LLM代理面临。 我们首先介绍LLM代理的基本知识,随后对其进行威胁分类和分析。接着讨论这些威胁对人类、环境和其他代理的影响。随后回顾现有防御策略,并最终探索未来趋势。此外,本文通过多种案例研究来促进更易于理解的解释。通过强调这些关键安全和隐私问题,本文旨在激发未来研究,以增强LLM代理的安全性和隐私性,从而在未来应用中提高其可靠性和可信度。 |
2024-07-26 | OfficeBench: Benchmarking Language Agents across Multiple Applications for Office Automation | Zilong Wang et.al. | 2407.19056 | link | 办公室自动化显著提高了人类的工作效率,通过自动完成工作流程中的常规任务。现有的人工智能文献主要集中在基本信息提取上,而办公室自动化研究应该扩展到更现实的办公室任务,这些任务需要整合办公室系统中的各种信息源,并通过一系列决策过程生成输出。我们引入了OfficeBench,这是第一个用于评估当前大型语言模型(LLM)代理在真实办公流程中处理办公任务能力的办公室自动化基准。 OfficeBench要求LLM代理进行可行的长期规划,高效地在应用程序之间切换,并基于工作流程的上下文需求,在庞大的联合动作空间内准确地定位其行动。通过在每个任务上应用我们的定制评估方法,我们发现GPT-4 Omni的通过率为47.00%,显示出在处理办公任务时具有不错的性能。然而,这仍然远低于实际办公流程所需的人类表现和准确性标准。 进一步观察发现,大多数问题与操作冗余、幻觉以及在多个应用程序之间切换的限制有关,这可能为开发有效的自动化代理框架提供有价值的见解。 |
2024-07-30 | MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains | Guoli Yin et.al. | 2407.18961 | link | 近期大型语言模型(LLM)的发展推动了对全面基准的需求,以评估它们作为类人类代理的能力。现有的基准虽然有用,但往往聚焦于特定的应用场景,强调任务完成而非深入剖析驱动这些结果的底层技能。这种缺乏细节性使得难以精确地识别失败的原因。此外,设置这些环境需要大量的工作,并且在交互式任务中,不一致性与可重复性问题有时会出现。为了应对这些局限性,我们引入了大规模多任务代理理解(MMAU)基准,它通过无需复杂环境设置的全面离线任务来实现。MMAU覆盖了五个领域:工具使用、有向无环图(DAG)问答、数据科学和机器学习编程、竞赛级别的编程和数学,并涵盖了五种关键能力:理解、推理、规划、问题解决和自我修正。总计包括20个精心设计的任务和超过3千个独特的提示,MMAU提供了一个全面框架,用于评估LLM代理的优势和限制。通过对18个代表性模型在MMAU上的测试,我们提供了深入而有洞察力的分析。最终,MMAU不仅揭示了LLM代理的能力和限制,还增强了对其性能的可解释性。MMAU的数据集和评估脚本已发布于https://github.com/apple/axlearn/tree/main/docs/research/mmau。 |
2024-07-29 | PersonaGym: Evaluating Persona Agents and LLMs | Vinay Samuel et.al. | 2407.18416 | null | Persona代理人,一种根据分配的人设行事的LLM代理,在各个应用领域展现出卓越的上下文响应能力。这些代理在教育、医疗保健和娱乐等不同行业中提供了显著的增强,因为模型开发者可以将代理响应与不同的用户需求对齐,从而扩展了代理应用的范围。然而,评估Persona代理性能极为困难,主要是由于在各种相关环境中的自由形式交互中评估人设一致性复杂性的挑战。我们引入了PersonaGym,首个动态评估框架,用于评估Persona代理,并提出了PersonaScore,首个基于决策理论的自动化人类对齐指标,用于全面大规模评估Persona代理。通过使用包含200个人设和10000个问题的基准,对6个开源和闭源的LLM进行评估,我们揭示了在最先进的模型中,Persona代理能力存在巨大的改进空间。例如,Claude 3.5 Sonnet的PersonaScore仅比GPT 3.5提高了2.97%,尽管Claude 3.5 Sonnet是一个更先进的模型。重要的是,我们发现模型大小和复杂性的增加并不一定意味着Persona代理能力的提升,这凸显了忠实和高效Persona代理算法和架构创新的迫切需要。 |
2024-08-03 | PyBench: Evaluating LLM Agent on various real-world coding tasks | Yaolun Zhang et.al. | 2407.16732 | link | 为了填补现有基准在简化任务和复杂特定任务方面的局限性,我们引入了PyBench,一个涵盖五大类真实世界任务的基准。这些任务涉及超过10种类型的文件,旨在全面覆盖日常编码需求。当用户提出高阶查询并提供相关文件时,LLM代理需要通过代码解释器执行Python代码进行多轮推理,最终生成满足用户需求的回答。成功解决PyBench中的任务要求代理具备广泛的Python包理解能力、高级推理能力和从执行代码中获取反馈的能力。 我们的评估表明,当前开源的LLM模型在处理这些任务方面存在挑战。因此,我们对四种数据集进行了分析和实验,证明了解决PyBench所需的是全面的能力。我们精心调优的8B大小模型:PyLlama3,在PyBench上的表现令人兴奋,超越了许多更大规模(33B和70B)的模型。 我们的基准、训练数据集和模型在GitHub上提供:https://github.com/Mercury7353/PyBench |
2024-07-23 | LawLuo: A Chinese Law Firm Co-run by LLM Agents | Jingyun Sun et.al. | 2407.16252 | link | 大型语言模型(LLM)在为非法律背景用户提供法律咨询服务方面展现了巨大的潜力,这主要得益于它们在文本理解和生成方面的卓越能力。然而,现有的中文法律LLM仅限于单个模型与用户之间的对话交互,与律师事务所中多员工共同参与的咨询形式不同。这种限制使得咨询体验不那么真实。此外,现有中文法律LLM存在关键问题:(1)对指导微调数据质量控制不足;(2)由于用户查询的模糊性导致模型产生幻觉;(3)在多轮对话中,模型遵循指令的能力下降。针对这些挑战,我们提出了一种名为“LawLuo”的新型法律对话框架,利用多个LLM代理的协作能力,每个代理负责不同的功能,共同为用户提供全面的法律咨询服务。此外,我们构建了两个高质量的法律对话数据集KINLED和MURLED,并使用ChatGLM-3-6b对数据集进行微调。我们还提出了一个名为ToLC的法律查询澄清算法。实验结果表明,与GPT-4等基线LLM相比,LawLuo在律师风格的语言表达、法律建议的有效性以及法律知识的准确性三个方面均表现出更优性能。我们的代码和数据集可访问于https://github.com/NEFUJing/LawLuo。 |
2024-07-21 | Multi-Agent Causal Discovery Using Large Language Models | Hao Duong Le et.al. | 2407.15073 | null | 大型语言模型(LLM)在利用其从大量文本语料库中获取的广泛专家知识进行因果发现任务方面展示了巨大的潜力。然而,LLM在因果发现中的多代理能力尚未得到充分探索。本文提出了一种通用框架来研究这一潜力。首先,是元代理模型,它完全依赖于LLM代理之间的推理和讨论来进行因果发现。其次,是编码代理模型,它利用代理的规划、编写和执行代码的能力,结合高级统计库进行因果发现。第三,是混合模型,它将元代理模型和编码代理模型的方法相结合,融合了多个代理的统计分析和推理技能。我们的提议框架通过有效地利用LLM的专家知识、推理能力、多代理合作以及统计因果方法,显示出了有希望的结果。通过探索LLM的多代理潜力,我们旨在为利用LLM的多代理解决因果相关问题奠定基础。 |
2024-07-19 | KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models | Kemou Jiang et.al. | 2407.14239 | null | 大型语言模型(LLM)作为自主代理提供了一种通过知识驱动方式解决现实世界挑战的新途径。这些基于LLM的方法在泛化和可解释性方面表现出色。然而,驾驶任务的复杂性往往需要多个异构代理的合作,这凸显了LLM驱动的代理需要进行合作知识共享和认知协同的必要性。尽管LLM充满潜力,但当前的应用主要集中在单个代理场景。 为了拓展知识驱动策略的范围并增强自主代理的一般化能力,我们提出了KoMA框架,该框架包括多代理交互、多步规划、共享内存和基于排名的反思模块,旨在增强复杂驾驶场景下多代理的决策制定能力。根据框架生成的驾驶场景文本描述,多代理交互模块使LLM代理能够分析和推断周围车辆的意图,类似于人类的认知过程。多步规划模块使LLM代理能够逐层分析和获得最终行动决策,确保短期行动决策的一致目标。共享内存模块可以积累集体经验,以做出更优决策,而基于排名的反思模块则用于评估和改进代理行为,以提高驾驶安全性和效率。KoMA框架不仅增强了自主驾驶代理的稳健性和适应性,还显著提升了它们在不同场景下的通用能力。实验结果表明,我们的方法在处理复杂的、不可预测的驾驶环境时优于传统方法,特别是在不需要大量重新训练的情况下。 |
2024-07-17 | Leveraging Environment Interaction for Automated PDDL Generation and Planning with Large Language Models | Sadegh Mahdavi et.al. | 2407.12979 | null | 大型语言模型(LLM)在各种自然语言任务中表现出卓越的性能,但它们在需要结构化推理的规划问题上往往表现不佳。为了克服这一局限性,将规划问题转化为规划领域定义语言(PDDL)被提出作为一种潜在解决方案,这使得自动化规划器能够应用。然而,生成准确的PDDL文件通常需要人工输入或修正,这既耗时又成本高昂。本文提出了一种新颖的方法,利用LLM和环境反馈自动生成PDDL领域和问题描述文件,而无需人工干预。我们的方法引入了一个迭代细化过程,该过程生成多个问题PDDL候选,并根据与环境交互获得的反馈逐步细化领域PDDL。为了指导细化过程,我们开发了探索漫步(EW)度量,它为LLM提供了丰富的反馈信号来更新PDDL文件。我们在PDDL环境中评估了我们的方法,实现了66%的任务解决率,相比之下,使用GPT-4进行内在规划并配合链式思考提示的方法仅实现了29%的任务解决率。我们的工作使使用LLM和环境反馈自动建模规划环境成为可能,消除了在PDDL生成过程中需要人工干预的需求,为LLM代理在挑战性问题上的更可靠应用铺平了道路。 |
2024-07-16 | Review-Feedback-Reason (ReFeR): A Novel Framework for NLG Evaluation and Reasoning | Yaswanth Narsupalli et.al. | 2407.12877 | null | 评估自然语言生成(NLG)输出的质量,尤其是大型语言模型(LLMs)产生的输出,面临着巨大的挑战。传统方法要么依赖于资源密集型的人类评估,要么使用自动化指标,这些指标往往与人类判断的相关性较低。这项研究提出了一种名为Review-Feedback-Reason(ReFeR)的创新评估框架,用于利用LLM代理进行NLG评估。我们通过在两个现有的基准数据集上对ReFeR进行严格测试,在多种NLG任务中进行了测试。 ReFeR不仅提高了NLG评估的准确性,相对于之前的基准提高了约20%,而且生成了建设性的反馈,并显著增强了集体推理能力。这种反馈被用于创建指令调优数据集,当这些数据集用于微调较小的模型(如Mistral-7B)时,使它们成为非常优秀的评估者,与人类评估具有更好的相关性,并且性能几乎与GPT-3相当。 我们的方法的有效性通过在三个推理基准上的应用得到了突出,其中ReFeR优于大多数最先进的方法,并且在平均值上分别比GPT-3.5 Turbo和GPT-4在推理能力上高出约11.67%和1%。 |
2024-07-17 | AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases | Zhaorun Chen et.al. | 2407.12784 | link | LLM代理在各种应用中展现了卓越的性能,主要得益于它们在推理、利用外部知识和工具、调用API以及执行操作以与环境互动方面的高级能力。当前的代理通常使用内存模块或检索增强生成(RAG)机制,从知识库中检索过往知识和具有相似嵌入的实例,以指导任务规划和执行。然而,对未经验证的知识库的依赖引发了关于其安全性和可信度的重大担忧。为了揭示这些脆弱性,我们提出了一种新颖的红队方法AgentPoison,这是针对通用和RAG基于的LLM代理的第一个后门攻击,通过污染其长期记忆或知识库来实现这一目标。具体而言,我们将触发器生成过程建模为一个约束优化问题,旨在优化后门触发器,使其将触发实例映射到独特的嵌入空间,从而确保每当用户指令包含优化后的后门触发器时,高概率地从被污染的记忆或知识库中检索到恶意示例。同时,不包含触发器的良性指令仍能保持正常性能。与传统的后门攻击不同,AgentPoison无需额外的模型训练或微调,且优化后的后门触发器展现出优越的迁移性、上下文内连贯性和隐蔽性。广泛的实验结果证明了AgentPoison在对抗三种真实世界的LLM代理:RAG基于的自动驾驶代理、知识密集型问答代理和医疗健康EHRAgent方面的有效性。在每个代理上,AgentPoison平均攻击成功率超过80%,对良性性能的影响最小(低于1%),污染率小于0.1%。 |
2024-07-16 | InferAct: Inferring Safe Actions for LLM-Based Agents Through Preemptive Evaluation and Human Feedback | Haishuo Fang et.al. | 2407.11843 | null | 在实际应用中部署基于大型语言模型(LLM)的代理的关键要求是对可能引发风险或不可逆错误的鲁棒性。然而,现有研究缺乏对LLM代理执行推理路径的前瞻评估,这导致了确保安全可靠操作方面的缺口。为探索更好的解决方案,本文引入了InferAct,一种新颖的方法,利用了LLM的理论思维能力,主动检测潜在错误,以防止关键行动的执行(例如,在自动在线交易或网络购物中的“立即购买”)。InferAct还能够整合人类反馈,以防止不可逆风险并增强行动代理的决策过程。在三个广泛使用的任务上进行的实验证明了InferAct的有效性。提出的解决方案提供了开发可以在涉及关键决策的不同环境安全部署的LLM代理的新方法和具体贡献。 |
2024-07-16 | How Personality Traits Influence Negotiation Outcomes? A Simulation based on Large Language Models | Yin Jou Huang et.al. | 2407.11549 | link | 心理证据揭示了个性特质对决策的影响。例如,和善性通常与谈判中的积极结果相关联,而神经质则经常与较少有利的结果联系在一起。本文提出了一种基于大型语言模型(LLM)的仿真框架,该框架包含了具有合成个性特质的仿真代理。这些代理在讨价还价领域内进行谈判,并且拥有可定制的个性和目标。实验结果显示,LLM基座仿真中的行为倾向能够重现人类谈判中观察到的行为模式。 贡献有两个方面。首先,我们提出了一种仿真方法论,以探究语言能力和经济能力在LLM代理之间的匹配程度。其次,我们提供了关于大五个性特质在双边谈判结果策略影响方面的实证见解。我们还提供了一个基于合成讨价还价对话的案例研究,揭示了一些引人入胜的行为,包括欺骗性和妥协性行为。 |
2024-07-16 | Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning | Yulong Wang et.al. | 2407.10718 | link | 基于大型语言模型(LLM)的现有代理展示了强大的问题解决能力,通过整合LLM的内在知识、强大的上下文学习和零样本能力以及人类设计的复杂LLM调用工作流程与工具的结合。然而,这些代理在长期推理方面仍存在局限性,并且未能充分利用现有工具的潜力,导致在复杂的现实世界推理场景中出现明显的缺陷。为了应对这些限制,我们引入了Sibyl,一个简单而强大的基于LLM的代理框架,旨在通过高效利用最少的工具集来解决复杂推理任务。受到全球工作空间理论的启发,Sibyl整合了一个全局工作空间,以增强系统内部的知识和对话历史的管理和共享。此外,根据心智社会理论的指导,Sibyl实施了一个多代理辩论为基础的陪审团,用于自我细化最终答案,确保全面平衡的方法。这一方法旨在减少系统复杂性,同时扩大可解决的问题范围——从人类几分钟内就能解决的问题到需要数小时甚至几天才能解决的问题,从而实现从系统1到系统2思考方式的转变。Sibyl的设计重点在于可扩展性和调试的简便性,通过从一开始就融入函数编程中的重入概念,旨在实现无缝和低努力的集成到其他LLM应用中,以提高其能力。我们的实验结果表明,使用GPT-4实例化的Sibyl代理在GAIA基准测试集上的表现最佳,平均得分为34.55%,超越了基于GPT-4的其他代理。我们希望Sibyl能够激励更多可靠且可复用的基于LLM的代理解决方案,以应对复杂的现实世界推理任务。 |
2024-07-15 | Leveraging Hybrid Intelligence Towards Sustainable and Energy-Efficient Machine Learning | Daniel Geissler et.al. | 2407.10580 | null | 本文提出了一种利用混合智能以实现可持续和能源意识的机器学习的方法。在机器学习模型开发过程中,人们往往只关注最终模型性能的优化,而忽略了过程本身的效率。此外,在近期,由于复杂和大规模计算过程对环境的巨大影响,能源效率变得同样重要。本工作的贡献在于通过人机交互(Human-in-the-loop,HITL)和大型语言模型(Large Language Model,LLM)代理的集成,强调并进一步解决机器学习开发过程中的低效问题。 简而言之,本文旨在通过结合人类的直觉、经验和AI的高效计算能力,改进机器学习流程的效率和环境友好性。通过引入HITL和LLM作为辅助工具,我们旨在识别和优化机器学习开发过程中的瓶颈,从而减少资源消耗,并促进更加可持续的AI实践。这一方法不仅有助于提高模型的训练速度和效率,还能降低能耗,对环境保护产生积极影响。 |
2024-07-15 | CIBench: Evaluating Your LLMs with a Code Interpreter Plugin | Songyang Zhang et.al. | 2407.10499 | link | 在基于LLM(大型语言模型)的代理取得显著进展的同时,对其能力的基准测试变得具有挑战性,这阻碍了对它们局限性的清晰理解。本文提出了一种交互式评估框架——CIBench,以全面评估LLM在数据科学任务中利用代码解释器的能力。我们的评估框架包括一个评估数据集和两种评估模式。评估数据集通过LLM与人类合作的方式构建,通过连续且互动的IPython会话模拟真实工作流程,从而实现对LLM能力的全面评估。两种评估模式分别考察了在有无人类辅助下,LLM的能力表现。我们进行了大量的实验,分析了24个LLM在CIBench上的表现,并提供了对未来在代码解释器利用方面发展LLM的宝贵见解。 |
2024-07-14 | All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era | Bo Chen et.al. | 2407.10081 | null | 推荐系统(RS)在应对信息过载和提供个性化内容方面至关重要,以满足用户多样化的信息需求。大型语言模型(LLM)的兴起为重新定义推荐系统提供了新的前景,利用其广泛的一般知识和推理能力。站在LLM时代,我们旨在将推荐系统整合到更广阔的框架中,并为未来的研究开辟更全面的解决方案。因此,我们首先提供了一个全面的技术进展概述,特别是针对语言基础模型及其在推荐中的应用。我们识别了现代推荐系统的两条演化路径——基于列表的推荐和对话式推荐。这两条路径最终在具有长期记忆、反思和工具智能优势的LLM代理上交汇。沿着这两条路径,我们指出推荐信息的有效性得到了提高,而用户的获取成本则降低了。我们仔细研究了每个里程碑的技术特性、研究方法论以及内在挑战,从传统的基于列表的推荐到增强的LLM推荐再到带有LLM代理的推荐。最后,我们强调了几个对于未来个性化技术与界面发展至关重要的未解决挑战,并讨论了未来前景。 |
2024-07-14 | Revolutionizing Bridge Operation and maintenance with LLM-based Agents: An Overview of Applications and Insights | Xinyu-Chen et.al. | 2407.10064 | null | 在人类社会发展各工业领域中,人们一直在寻求解放劳动力的方法。构建基于大规模语言模型的代理被视为实现这一目标的高效工具。作为具备感知、规划、决策和行动能力的人类智能实体,代理已经在众多领域创造了显著的生产价值。然而,桥梁维护与管理(O&M)领域相比其他行业,其智能化水平相对较低。尽管如此,该领域已经发展了众多智能检测设备、机器学习算法以及自主评估和决策方法,为本领域的人工智能突破奠定了基础。本研究旨在探讨基于大型语言模型的AI体对桥梁O&M领域的影响,分析它对核心任务可能带来的挑战与机遇。通过深入研究和分析,期望能为理解这一领域智能化应用提供更全面的视角。 |
2024-07-11 | Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility | Yuchen Xia et.al. | 2407.08550 | link | 这篇论文提出了一种新颖的方法,旨在将大型语言模型(LLMs)整合到自动化生产系统中,以提升任务自动化和灵活性。我们根据自动化金字塔构建生产操作的层级结构,将原子操作功能抽象为微服务,并通过专用的数字孪生系统进行调用执行。这为协调生产流程提供了可扩展且灵活的基础。在数字孪生系统中,低层次的、硬件特定的数据被赋予语义,使得LLMs能够理解和处理生产计划与控制任务。当接收到用户请求或识别到触发事件时,LLMs会生成生产流程计划,然后将其分解为一系列微服务,在现实世界的自动化系统中执行。我们在实验室的模块化自动化设施上实现了这一整体方法,通过一个实际案例展示了LLMs如何处理生产规划和控制任务,从而实现了一个直观、自动化程度高且更具灵活性的生产环境。最后,我们指出了实现LLMs在自主系统中的全部潜力所面临的局限性,并强调了其潜在的有益之处。有关此系列研究的演示可在以下链接访问:https://github.com/YuchenXia/GPT4IndustrialAutomation。 |
2024-07-11 | PrefCLM: Enhancing Preference-based Reinforcement Learning with Crowdsourced Large Language Models | Ruiqi Wang et.al. | 2407.08213 | null | ## 翻译 偏好驱动的强化学习(PbRL)作为一种新兴的方法,通过人类比较反馈教导机器人,避免了复杂的奖励工程的需求。然而,现有PbRL方法需要大量反馈,往往导致对由脚本教师生成的合成反馈的依赖,这又回到了复杂的奖励设计,并难以适应人类-机器人交互(HRI)场景中用户对同一任务的独特期望。为解决这些问题,我们提出了一种新颖的框架——PrefCLM,它利用大规模语言模型(LLMs)作为模拟教师参与PbRL。我们运用Dempster-Shafer理论在分数级别融合来自多个LLM代理的个人偏好,有效利用它们的多样性和集体智慧。同时,我们引入了一个用户参与的流程,以促进基于用户交互的集体精进。在各种通用强化学习任务中的实验结果显示,PrefCLM在性能上与传统脚本教师相当,并且在促进更自然、高效的机器人行为方面表现出色。一个现实世界的用户研究(N=10)进一步证明了它在个性化用户偏好的能力,显著提高了HRI场景中的用户满意度。 |
2024-07-10 | Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities | Tianjie Ju et.al. | 2407.07791 | link | 随着大型语言模型(LLMs)在多代理系统中的迅速应用,它们在协作问题解决和自主谈判等领域的出色性能引起了关注。然而,这些基于LLM的多代理系统的安全问题尚未得到充分研究,尤其是在知识操纵传播方面。本文通过构建详细的威胁模型和模拟环境,模拟现实世界中的多代理部署在可信平台上,探讨这一关键问题。我们提出了一种新颖的两阶段攻击方法,包括说服性注入和操纵知识注入,来系统地探究在无明确提示操纵的情况下,如何潜在地传播操纵知识(如虚构和有害知识)。我们的方法利用了LLMs处理世界知识固有的漏洞,攻击者可以借此无意识地传播编造的信息。实验结果表明,我们的攻击方法能够成功诱导基于LLM的代理在交流中传播这两种操纵的知识,同时不会显著降低它们的基础功能。此外,我们发现这些操纵会持续存在于流行的检索增强生成框架中,即使交互结束,若干良性代理也可能继续受到操纵聊天记录的影响。我们的发现揭示了LLM基多代理系统中的重大安全风险,强调了对操纵知识传播进行强大防御的迫切需求,例如引入“守护”代理和先进的事实核查工具。 |
2024-07-09 | Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models | Logan Cross et.al. | 2407.07086 | link | 在多智能体强化学习(MARL)方法中,处理多智能体系统的非stationarity并适应在线学习的能力是一个挑战。为此,我们利用大型语言模型构建了一个自主的解决策略。我们的新型智能体“假设心智”(Hypothetical Minds)采用认知启发式架构,包括感知、记忆和两个抽象层次上的分层规划模块。其中的关键部分是“心理理论”模块,它通过自然语言生成对其他智能体策略的假设,并根据这些假设对其他智能体行为的预测进行评估和迭代优化。通过这种方式,假设心智在Melting Pot基准中的多种竞争、混合动机和协作环境中,无论是二元还是群体环境,都显著优于先前的语言模型智能体(LLM-agent)和强化学习基础线。对比实验还显示,假设的评估和精炼对于在复杂场景中取得成功至关重要。 |
2024-07-09 | Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy | Zhenyu Guan et.al. | 2407.06813 | link | ## 背景 在人类社会中,外交是一种极其复杂的活动,涉及众多各方/行动者的互动,需要具备社会推理、谈判技巧和长期策略规划等多方面能力。以往的AI代理已经在处理多步骤游戏和大动作空间的多代理任务上展示了实力。然而,外交所涉及的决策空间范围惊人,特别是在需要谈判的阶段。近期,大型语言模型(LLM)在一些应用中展现出了超越前代的能力,但仍不足以应对复杂多代理环境中长时间的规划。借助尖端的LLM技术,我们首次尝试探索AI在如此全面的多代理使命中的上限,通过整合三个核心且关键的功能,以构建更强的基于LLM的社会性代理:1)具有记忆和反思的策略规划者;2)目标导向的、具备社会推理的谈判者;3)通过自我对弈游戏增强记忆,实现无人工干预的自我进化。 |
2024-07-10 | FinCon: A Synthesized LLM Multi-Agent System with Conceptual Verbal Reinforcement for Enhanced Financial Decision Making | Yangyang Yu et.al. | 2407.06567 | null | 大型语言模型(LLMs)在执行复杂任务方面展现出显著潜力,并越来越多地应用于金融领域。然而,高质量的连续投资决策过程仍面临挑战,它需要与不断变化的环境进行多次交互,以最大化回报并管理风险。尽管已经开发出基于LLMs的代理系统,它们能够超越人类团队,实现投资收益,但如何优化多源信息整合和决策结果,通过实时经验改进,仍有待探索。为此,我们提出FinCon,一个专为多样化的金融任务设计的基于LLM的多代理框架,其特点在于概念化口头强化和财务组织结构的运用。 FinCon借鉴现实世界投资公司的组织架构,采用经理-分析师的沟通层次,促进跨职能代理间的协同合作,通过自然语言交流实现目标统一。每个代理都具备比人类更大的记忆容量,这有助于更高效的信息处理。此外,FinCon还引入了一个风险控制组件,定期启动自我批判机制,以更新系统的投资理念。这些概念化的信念作为口头强化,指导未来行为,并可根据需要选择性地传递给需要更新知识的节点,从而减少不必要的信息交流成本,提高性能。 FinCon在单一股票交易和资产管理等不同金融任务上表现出强大的泛化能力,证明了其在实际金融场景中的应用潜力。 |
2024-07-08 | Enhancing Language Model Rationality with Bi-Directional Deliberation Reasoning | Yadong Zhang et.al. | 2407.06112 | null | 该论文提出了一个新颖的推理方法——双向决策解放推理(BIDDER),旨在提升语言模型的决策合理性。传统推理方法通常依赖历史信息,采用单向(从左到右)的推理策略,这导致对潜在未来结果的认识不足,以及历史背景的整合不够充分,从而产生次优决策。BIDDER通过融合理性决策的原则,特别是处理不确定性并预测期望效用,弥补了这一短板。其方法包括三个关键步骤:从历史数据中推断隐藏状态,以表示决策过程中的不确定信息;利用这些隐藏状态预测未来的潜在状态和可能结果;结合历史信息(过去情境)和长期结果(未来情境),以指导推理。通过双向推理,BIDDER能够全面考虑过去和未来的情境,从而做出更明智、更理性的决策。我们在扑克(限注德州扑克)和谈判两个明确场景中测试了BIDDER的效果,实验显示它显著提高了语言模型和基于语言模型的代理的决策能力。 |
2024-07-08 | Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation | Jiaqi Chen et.al. | 2407.05890 | null | 基于语言模型的代理在视觉导航(VLN)任务中展现出零样本的强大性能。然而,这些方法仅关注解决高层任务规划,通过选择预定义导航图中的节点进行移动,忽视了现实场景中低层次的控制。为了弥补这一不足,我们提出了AO-Planner,一个新颖的面向可及性规划的连续视觉导航框架。AO-Planner整合多种基础模型,实现面向可及性的运动规划和动作决策,均以零样本的方式执行。具体来说,我们采用了视觉可及性提示(VAP)方法,利用SAM分割可见地面,提供导航可及性信息,从而让语言模型选择潜在的下一个路标,并生成向选定路标的低层次路径规划。此外,我们引入了高级代理PathAgent,识别出最可能的像素级路径,并将其转换为三维坐标,以完成低层次的移动。 在具有挑战性的R2R-CE基准测试上,AO-Planner实现了最先进的零样本性能提升(SPL指标提高5.5%)。我们的方法有效连接了语言模型与三维世界,避免了直接预测世界坐标点的困难,为利用基础模型进行低层次运动控制提供了新的前景。 |
2024-07-05 | VRSD: Rethinking Similarity and Diversity for Retrieval in Large Language Models | Hang Gao et.al. | 2407.04573 | null | 在大型语言模型(LLMs)快速发展的背景下,向量检索算法对于满足相似度和多样性要求的语义查询至关重要。尽管Maximal Marginal Relevance(MMR)在涉及这两个需求的检索场景中被广泛应用,但其参数λ的变化会导致结果波动,使得向量空间中的优化路径变得模糊。此外,当前缺乏对相似性和多样性在检索过程中约束的坚实理论分析。本文提出了一种新方法,通过查询向量与求和向量之间的关系来刻画这两种约束。这种关系确保了相似性,同时要求求和向量中的各个向量以分散的方式与查询向量对齐,以满足多样性需求。 我们还提出了一个新的组合优化问题:从一组候选向量中选择 |
2024-07-05 | When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions | Jérémy Perez et.al. | 2407.04503 | link | 随着大型语言模型(LLMs)之间的互动增加,它们在线上生成的文本量也随之增多,研究如何信息在从一个LLM传递到另一个LLM的过程中发生变化变得至关重要。尽管对单个LLM的行为已有深入研究,但对迭代交互中集体行为和信息扭曲的探讨相对不足。微小的偏差,在单次输出时可能显得不明显,但在多次交互中可能会被放大,可能导致内容朝着吸引子状态演变。我们通过借鉴人类文化进化学的研究方法——电话游戏实验,设计了一种链式传输模型。在这个过程中,LLM代理接收、生成并传递文本,从一个链中的前一个代理到下一个。我们追踪了文本的毒性、积极度、难度和长度在传输链中的演变,揭示了偏见和吸引子的存在,并研究了它们与初始文本、指令、语言模型和模型规模的关系。例如,我们发现开放性指令比约束性任务更容易引发更强的吸引效应。此外,不同的文本特性对吸引子效应的敏感度不同,毒性的影响通常大于长度。这些发现强调了考虑多步骤传输动态的重要性,为进一步理解LLM的文化动态奠定了基础。 |
2024-07-05 | AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents | Petr Anokhin et.al. | 2407.04363 | link | 随着生成式人工智能的进步,大型语言模型(LLMs)在自主代理的发展中展现出广阔的应用前景。实现真正的自主性需要从与环境的交互中积累和更新知识,并能有效利用这些信息。当前基于LLMs的方法依赖于全历史观察、总结或检索增强,但这些非结构化的记忆表示不利于复杂决策中的推理和规划。我们的研究提出AriGraph,一种新型方法,让代理在探索环境中构建融合语义和情节记忆的记忆图。这种图结构促进关联概念的有效检索,这些概念与代理当前状态和目标相关,从而成为一种有效的环境模型,提升探索和规划能力。 我们设计的Ariadne LLM代理,配备有我们提出的记忆架构以及规划和决策功能,能在零样本基础上处理TextWorld环境中的复杂任务,如First TextWorld Problems竞赛中的烹饪挑战,以及新任务如房屋清洁和寻宝谜题。与全历史、总结和检索增强生成等传统方法相比,我们的方法在各种任务中表现出显著优势。 |
2024-07-02 | MMedAgent: Learning to Use Medical Tools with Multi-modal Agent | Binxu Li et.al. | 2407.02483 | link | 尽管多模态大型语言模型(MLLMs)已经取得了成功,但它们的泛化能力仍然有限,在某些情况下表现不如专门化的模型。为了解决这些问题,最近的研究开发了基于LLMs的代理,可以根据用户输入选择合适的专用模型。然而,这种进展在医疗领域尚未得到充分探索。为了弥补这一空白,本文首次提出了一种专门为医疗领域设计的代理,称为\textbf{M}ulti-modal \textbf{Med}ical \textbf{Agent}(MMedAgent)。我们构建了一个指令调优数据集,包含了六个医疗工具来解决七项任务,使代理能够为给定任务选择最合适的工具。实验全面展示了MMedAgent在各种医疗任务上超越了开源方法的最新状态,甚至与闭源模型GPT-4o相比也表现出色。此外,MMedAgent还显示出了更新和整合新医疗工具的高效性。 |
2024-07-02 | Beyond Numeric Awards: In-Context Dueling Bandits with LLM Agents | Fanzeng Xia et.al. | 2407.01887 | null | 本文关注的是大型语言模型在决策制定中的性能,尤其是在杜尔克姆双臂赌博(Dueling Bandits,DB)问题的上下文中。研究比较了GPT-3.5-Turbo、GPT-4和GPT-4-Turbo与现有DB算法的性能。结果显示,尤其是GPT-4 Turbo,能够快速识别出优势明显的选项,从而在弱后悔方面超越当前最佳算法。然而,这些模型在收敛性上存在问题,对提示的敏感度较高,且对提示变化反应脆弱。为了改进,我们提出了一种结合了LLM决策能力与经典DB算法理论保证的增强型算法——IF-Enhanced LLM。这种设计展示了如何增强LLM在对性能稳定性有要求的决策任务中的可信度。IF-Enhanced LLM具有弱后悔和强后悔的理论保证。实验结果验证了即使面对嘈杂和对抗性的提示,IF-Enhanced LLM仍保持稳健。 |
2024-07-01 | Agentless: Demystifying LLM-based Software Engineering Agents | Chunqiu Steven Xia et.al. | 2407.01489 | link | 随着大型语言模型(LLMs)的最新进展,软件开发任务的自动化,如代码合成、程序修复和测试生成,已取得显著进步。研究人员和业界实践者已经开发出各种自主LLM代理来执行端到端的软件开发任务,它们能够利用工具、运行命令、观察环境反馈并规划未来行动。然而,这些基于代理的方法的复杂性以及当前LLM的局限性,引发了一个问题:是否真的需要使用复杂的自主软件代理?为了探讨这个问题,我们构建了Agentless——一种无代理方法,用于自动解决软件开发问题。与复杂的代理设置相比,Agentless采用了一种简单的两阶段过程:定位后修复,不让LLM决定未来的行动或操作复杂的工具。在流行的SWE-bench Lite基准上,我们的实验结果令人惊讶地表明,这种简单的方法能够实现最高性能(27.33%)和最低成本(0.34美元),超越所有开源软件代理! 此外,我们手动分类了SWE-bench Lite中的问题,并发现存在精确的ground truth补丁问题或描述不足/误导性的问题。因此,我们构建了SWE-bench Lite-S,通过排除这些问题来进行更严格的评估和比较。我们的工作突显了当前被忽视的简单、可解释技术在自主软件开发中的潜力。我们希望Agentless将作为自主软件代理的基线、起点和期望值,激发未来在这个关键领域的工作。 |
2024-07-01 | MIRAI: Evaluating LLM Agents for Event Forecasting | Chenchen Ye et.al. | 2407.01231 | null | 随着大型语言模型(LLMs)的最新进展,这些模型能够自主收集全球信息,并进行推理以解决复杂问题,这引发了使用LLM预测国际事件的兴趣。然而,目前缺乏一个严格评估LLM预测能力与可靠性的基准。为了填补这一空白,我们提出MIRAI,这是一个新颖的基准,旨在系统地评价LLM在国际事件时间序列预测中的表现。MIRAI构建了一个代理环境,配备有访问广泛历史结构化事件和文本新闻数据库的工具。我们对GDELT事件数据库进行了精心清洗和解析,设计了一系列关联预测任务,涵盖了不同预测时间范围,从短期到长期,以检验LLM在整合全球关键信息、运用领域特定API和库编写代码以及综合处理来自多种格式和时间的历史知识以准确预测未来事件的能力。通过全面的基准测试,我们的目标是建立一个可靠的框架,以评估LLM在国际事件预测方面的性能,从而推动更精确和可信的国际关系分析模型的发展。 |
2024-07-01 | Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents | Shihan Deng et.al. | 2407.00993 | link | 随着大型语言模型(LLMs)的显著进步,基于LLM的移动代理已成为人机交互领域的研究热点。然而,针对此类代理的基准测试资源相对匮乏。评估这类代理通常面临三个挑战:(1)仅依赖用户界面(UI)操作的低效限制了任务评估;(2)单一应用中的特定指令不足以全面评估LLM移动代理的多维度推理和决策能力;(3)当前的评估指标无法准确衡量连续动作过程。为此,我们提出了Mobile-Bench,一个全新的用于评估LLM移动代理能力的基准。首先,我们扩展了传统的UI操作,融入了103个收集到的API,以提高任务完成的效率。接着,我们通过结合真实用户查询和LLM增强的数据收集来进行评估。为了更好地评价移动代理的不同规划能力层次,我们的数据被分为SAST(简单任务)、SAMT(稍复杂任务)和MAMT(多任务)三类,反映了任务复杂度的差异。Mobile-Bench包含832条数据条目,其中超过200项任务专门设计用于测试跨应用协作场景。此外,我们引入了一种更精确的评估指标,称为CheckPoint,用于检查LLM移动代理在规划和推理步骤中是否达到关键点。 |
2024-06-29 | Large Language Models for Power Scheduling: A User-Centric Approach | Thomas Mongaillard et.al. | 2407.00476 | link | 随着传统优化和调度方法逐渐转向用户驱动和个人化服务,以提升用户体验(QoE)和灵活性,未来的系统,尤其是在无线和数字化能源网络中,面临着如何更好地理解和响应用户需求的挑战。传统的系统往往忽视了用户的个性化需求,因为用户与机器之间的沟通不畅。大型语言模型(LLMs)的出现为解决这个问题带来了突破,它们提供了用户与设备之间自然的交流界面。本文首次提出了一种新颖的架构,通过构建三个LLM代理来将用户的语音请求(VRQ)转化为资源分配向量。具体包括:LLM意图识别代理将请求转化为优化问题(OP)、LLM OP参数识别代理以及LLM OP求解代理。 我们针对电动汽车(EV)充电的典型VRQ创建了一个数据库,作为性能评估的基础。作为概念验证,我们主要使用Llama 3 8B模型进行实验。通过不同的提示工程场景测试,结果显示了所提架构的有效性。研究还揭示了一些关键见解,例如,用于建模实际问题的更大候选OP集可能会由于更高的识别/OP分类噪声而降低最终性能。所有结果和代码已开源,供学术界进一步研究和利用。 |
2024-06-29 | Financial Knowledge Large Language Model | Cehao Yang et.al. | 2407.00365 | null | 人工智能在金融领域取得了显著进步,正在重塑数据处理和解读方式。其中,大型语言模型(LLMs)展现出巨大的潜力,能够自动化复杂任务、提升客户服务,并提供详尽的财务分析。首先,我们介绍IDEA-FinBench,这是一个专为评估大型语言模型在金融知识方面的性能而设计的评价基准。它借鉴了两个全球知名且权威的金融专业考试中的问题,旨在全面检验LLMs解答与金融相关考题的能力。其次,我们提出IDEA-FinKER,是一个金融知识增强框架,旨在快速让通用LLMs适应金融领域。它采用基于检索的少量样本学习方法,实现实时上下文级知识注入,并提供一套高质量的金融知识指令,用于微调任何通用模型。最后,我们展示了IDEA-FinQA,一个由LLMs驱动的金融问答系统。该系统围绕实时知识注入和事实强化的架构构建,利用外部知识。IDEA-FinQA主要由数据收集器、数据查询模块和执行特定功能的LLM代理组成。 |
2024-06-28 | Simulating Financial Market via Large Language Model based Agents | Shen Gao et.al. | 2406.19966 | null | 大多数经济理论通常假设金融市场参与者是完全理性的个体,并使用数学模型来模拟人类在金融市场的行为。然而,人类行为往往并非完全理性,用数学模型精确预测颇具挑战。本文提出了一种新型的\textbf{A}gent-based \textbf{S}imulated \textbf{F}inancial \textbf{M}arket(ASFM),首先构建了一个具有真实订单匹配系统的模拟股票市场。接着,我们设计了一种基于大型语言模型的股票交易代理,它包括个人概况、观察和基于工具学习的动作模块。这种交易代理能够全面理解当前市场动态和金融政策信息,从而根据其交易策略作出决策。实验表明,ASFM在可控场景下的反应与现实股票市场一致。此外,我们在两个经济学研究热点领域进行了实验,结果发现,我们的\model得出的结论与经济学研究的初步发现相吻合。因此,我们认为ASFM为经济研究提供了一个新的范式。 |
2024-06-26 | Simulating The U.S. Senate: An LLM-Driven Agent Approach to Modeling Legislative Behavior and Bipartisanship | Zachary R. Baker et.al. | 2406.18702 | null | 这项研究提出了一种创新的方法,利用语言模型驱动的虚拟代理来模拟立法过程,具体聚焦于美国参议院情报委员会。我们构建了代表个别参议员的代理,并在模拟的委员会讨论中让它们互动。这些代理展现出在现实辩论中的能力,能够提供深思熟虑的观点,并在特定条件下找到两党的解决方案。值得注意的是,模拟显示,面对外部干扰时,代理模型在两党合作上展现出转变的潜力。研究结果表明,这种基于语言模型的策略可能成为理解和改进立法流程的有效工具,这与一系列发现相呼应,即基于语言模型的代理能有用地模拟现实世界现象。未来的研究将致力于提升代理的复杂性,扩大模拟范围,并探索在政策测试和谈判中的应用。 |
2024-06-25 | Beyond Demographics: Aligning Role-playing LLM-based Agents Using Human Belief Networks | Yun-Shiuan Chuang et.al. | 2406.17232 | null | ### 翻译 构建逼真的人工大型语言模型(LLMs)对于实现可信的社会模拟至关重要。尽管基于人口统计信息的角色扮演有时能提升人性化,但效果并不总是理想。本研究旨在探究是否可以通过整合来自实证人类信念网络的信息,进一步提升LLMs与人类行为的契合度。我们利用一项人类调查数据,估计了一个包含18个主题的信念网络,这些主题加载于两个不重叠的潜在因子上。然后,我们在LLM中植入一个关于某一主题的观点,分析其对剩余测试话题表达的观点与相应人类数据的契合程度。仅依赖人口统计信息的角色扮演未能使LLM和人类观点保持一致,但当植入单一信念时,对于相关于信念网络内的主题,这种一致性显著提高,而对于网络外的主题则没有明显影响。这些结果表明了一种新颖的方法,可以用于在追求理解和模拟社会中信念分布模式的人工智能工作中,实现人类与LLMs之间的信念对齐。 |
2024-06-21 | GenoTEX: A Benchmark for Evaluating LLM-Based Exploration of Gene Expression Data in Alignment with Bioinformaticians | Haoyang Liu et.al. | 2406.15341 | link | ## 翻译 近年来,机器学习的进步显著提升了从基因表达数据中识别疾病相关基因的能力。然而,这些过程往往需要深厚的专长和大量的人工努力,限制了其可扩展性。大型语言模型(LLMs)驱动的代理显示出在自动化此类任务方面的潜力,因为它们的问题解决能力日益增强。为了支持这类方法的评估和发展,我们创建了GenoTEX,这是一个基因表达数据分析自动探索的基准,包括数据集选择、预处理和统计分析任务。GenoTEX提供了全面的分析管道,其中包含了人类生物信息学家精心编写的注释,他们对数据集进行深入分析以确保准确性和可靠性。 为了提供这些任务的基线,我们设计了GenoAgents,这是一个基于LLMs的代理团队,具备上下文感知规划、迭代校正以及与领域专家咨询的能力,它们协作探索基因数据集。我们的实验显示了LLM驱动方法在基因组数据分析中的潜力,而错误分析指出了挑战和未来的改进方向。我们提议GenoTEX作为一个有前景的资源,用于衡量和提升人工智能驱动的基因组数据分析方法。我们的基准已公开发布在:\url{https://github.com/Liu-Hy/GenoTex}。 |
2024-06-21 | Autonomous Agents for Collaborative Task under Information Asymmetry | Wei Liu et.al. | 2406.14928 | link | 大型语言模型多-agent系统(LLM-MAS)在解决复杂任务方面取得了显著进步。它们通过系统内各代理之间的通信协作来完成任务,前提是共享信息。然而,当代理间的交流被用于增强人类合作时,由于信息不对称(每个代理仅能访问其对应人类用户的信息),这带来了新的挑战。传统MAS在这种情况下难以完成任务。为解决此问题,我们提出了一种新型多agent系统架构,称为“iAgents”,即信息丰富多agent系统。在iAgents中,人类社会网络在代理网络中得到反映,代理主动交换完成任务所需的人类信息,从而克服信息不对称。iAgents采用了一种新颖的代理推理机制,InfoNav,引导代理之间的有效信息交流。结合InfoNav,iAgents组织了混合记忆中的人类信息,为代理提供准确全面的信息进行交换。此外,我们还推出了首个针对评估LLM在信息不对称条件下任务解决能力的基准——InformativeBench。实验结果显示,iAgents能够在包含140人和588条关系的社会网络中协作,自主进行超过30轮的通信,并从近70,000条消息中检索信息,在3分钟内完成任务。 |
2024-06-21 | FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents | Ruixuan Xiao et.al. | 2406.14884 | null | 基于语言模型的代理作为一种有前景的工具,被设计用于通过迭代规划和行动来执行复杂任务。然而,这些代理在处理需要专业知识的任务时,容易产生不期望的规划幻觉。为了解决这个问题,初步尝试通过融入与工作流程相关的外部知识来增强规划可靠性。尽管显示出潜力,但注入的知识通常杂乱无章,格式多样,缺乏严谨的规范化和全面的比较。为此,我们规范了不同格式的工作流程知识,并提出了FlowBench,这是第一个面向工作流引导规划的基准。FlowBench涵盖了来自6个领域的51个不同场景,其中知识以多样的形式呈现。为了评估不同语言模型在FlowBench上的性能,我们设计了一个多层次的评估框架。我们研究了工作流程知识在多种格式下的有效性,结果表明当前的语言模型代理在满足满意的规划需求方面仍有很大的提升空间。我们期望这个具有挑战性的基准能为未来的代理规划研究铺平道路。 |
2024-07-01 | Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory | Gordon Dai et.al. | 2406.14373 | null | 随着大型语言模型(LLMs)和人工智能的进步,计算社会科学的研究迎来了大规模探索的机遇。我们的工作基于先前对LLM行为体设计的研究,构建了一个模拟的Agent社会,其中复杂的社交关系随时间动态形成和发展。我们赋予这些Agent心理驱动力,并置于一个沙盒生存环境中。通过托马斯·霍布斯的奠基性社会契约理论(SCT)的视角,我们评估了这个Agent社会。实验结果显示,起初,Agent们表现出无拘无束的冲突,符合霍布斯对“自然状态”的描述。然而,随着模拟的进行,社会契约逐渐形成,绝对主权者得到了授权,进而建立了以相互合作为基础的和平共同体。我们的实验发现与霍布斯理论相吻合:LLM驱动的多Agent模拟展示了社会动态的复杂性,可能复制塑造人类社会的力量。尽管无法完全模拟人类行为的所有细微之处,但这种模拟对于理解社会结构、群体动态和复杂人类系统具有潜在价值。 |
2024-06-20 | EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms | Siyu Yuan et.al. | 2406.14228 | link | 随着强大大型语言模型(LLMs)的兴起,一种新的趋势是利用这些模型构建能解决复杂任务的自主代理,尤其是多代理系统。然而,现有的研究很大程度上依赖于人类设计的框架,这限制了代理系统的功能范围和可扩展性。如何自动将专门的代理扩展到多代理系统,以提升任务解决能力,仍然是一个重大挑战。本文提出EvoAgent,这是一种通过进化算法自动将专家代理扩展到多代理系统的方法,旨在提高基于LLM的代理在执行任务中的效率。具体来说,我们视现有的代理框架为初始个体,并应用一系列进化操作(如突变、交叉、选择等)生成具有不同设置的代理。EvoAgent适用于任何基于LLM的代理框架,能够无须额外人工设计自动生成扩展的多代理系统。实验结果显示,EvoAgent能够自动产生多个专家级代理,并显著增强基于LLM的代理的任务解决能力。 |
2024-06-19 | AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents | Edoardo Debenedetti et.al. | 2406.13352 | link | 本文介绍了一个名为AgentDojo的框架,用于评估依赖于外部工具处理不可信数据的AI代理的对抗性鲁棒性。面对不断演变的攻击和防御手段,AgentDojo不是一个静态的测试套件,而是设计和评估新任务、防御策略以及适应性攻击的可扩展环境。它包含了97个实际应用场景的任务(如管理电子邮件客户端、导航网上银行网站或预订旅行),629个安全测试案例,以及来自文献的各种攻击和防御方法。研究发现,当前最先进的语言模型在AgentDojo中的表现并不尽人意(即使没有攻击),并且现有的提示注入攻击虽然能破坏一些安全特性,但并非所有情况都适用。我们期望AgentDojo能够推动研究,以寻找在解决常见任务时既可靠又健壮的AI代理的新设计原则。相关代码已发布在https://github.com/ethz-spylab/agentdojo。 |
2024-06-19 | LLMatDesign: Autonomous Materials Discovery with Large Language Models | Shuyi Jia et.al. | 2406.13163 | null | 发现新材料对科学和技术具有重大意义,但目前仍是艰巨问题,因为化学空间浩瀚。近期,机器学习的进步推动了基于数据的方法来快速筛选或生成有前景的材料,但这些方法仍依赖大量训练数据,且往往缺乏人类期望的材料设计的灵活性和化学直觉。我们提出LLMatDesign,一个由大型语言模型驱动的可解释材料设计新框架。LLMatDesign利用LLM代理理解人类指令,对材料进行修改,并使用提供的工具评估结果。通过自我反思先前决策,LLMatDesign能在零样本情况下快速适应新任务和条件。在离线实验中,对LLMatDesign在多个材料设计任务中的系统评估证实了它在小数据环境下开发出具有用户定义目标性质的新材料的有效性。我们的框架展示了自主LLM引导的计算环境下的材料发现的非凡潜力,预示着未来自驾驶实验室的可能性。 |
2024-06-18 | Identifying Performance-Sensitive Configurations in Software Systems through Code Analysis with LLM Agents | Zehao Wang et.al. | 2406.12806 | null | 背景:配置设置对于调整软件行为以满足特定性能需求至关重要,但错误配置普遍存在。由于配置项众多且复杂,识别影响系统性能的配置是一项挑战。本研究提出PerfSense,这是一个轻量级框架,利用大型语言模型(LLMs)高效地识别性能关键配置,同时保持低开销。PerfSense利用LLM代理模拟开发者和性能工程师之间的交互,采用先进的提示链技术和检索增强生成(RAG)等技术。 方法与成果:我们在七个开源Java系统上的评估显示,PerfSense在分类性能敏感配置方面的平均准确率为64.77%,优于基于LLM的基线(50.36%)和先前的最佳方法(61.75%)。特别是,我们的提示链技术提高了召回率10%至30%,而保持了相似的精确度。进一步的手动分析362个误分类案例,发现常见问题包括LLMs对需求的理解偏差(占26.8%)。 结论:PerfSense显著减少了手动分类性能关键配置的工作量,并为未来的LLM基于代码分析研究提供了有价值的观点。 |
2024-06-18 | AgentReview: Exploring Peer Review Dynamics with LLM Agents | Yiqiao Jin et.al. | 2406.12708 | link | ## 翻译 同行评审是科学出版诚信和进步的基础。传统的同行评审数据分析方法往往侧重于现有数据的探索和统计,但未能充分考虑这一过程的多变量性质,处理潜在变量,且受限于隐私问题,因为数据涉及敏感性。我们提出AgentReview,这是一个基于大型语言模型(LLM)的同行评审模拟框架,有效分解了多个潜在因素的影响,并解决了隐私问题。研究发现,由于社会影响力理论、利他主义疲劳和权威偏见等社会学理论的支持,论文决策中存在显著的37.1%的变异性。我们相信这项研究能为优化同行评审机制设计提供宝贵见解。 |
2024-06-18 | Large Language Models based Multi-Agent Framework for Objective Oriented Control Design in Power Electronics | Chenggang Cui et.al. | 2406.12628 | null | 这篇论文关注于电力电子系统控制设计中的挑战,特别是模型不确定性以及设计周期漫长和成本高昂的问题。论文旨在提出一种基于大型语言模型(LLMs)的多代理框架,用于面向目标的电力电子控制器设计。该框架利用LLMs的推理能力,结合多代理工作流程,旨在开发一个高效且自动化的控制器设计流程。LLM代理能够理解并响应自然语言的高级指令,根据任务的具体需求和实际应用中的约束调整其行为。这种新颖而高效的策略有望显著提升电力电子控制器设计的灵活性和适应性,极大地便利实践者的工作。 |
2024-06-18 | CodeNav: Beyond tool-use to using real-world codebases with LLM agents | Tanmay Gupta et.al. | 2406.12276 | null | 我们介绍CodeNav,这是一种利用大型语言模型(LLM)来导航和利用先前未见过的代码仓库,以解决用户查询的系统。与需要通过手动描述在LLM上下文中“注册”所有相关工具的工具使用型LLM不同,CodeNav能够自动索引和搜索目标代码库中的代码块,找到相关的代码片段,导入它们,并根据执行反馈迭代生成解决方案。首先,我们通过三个案例研究展示CodeNav如何使用三种不同的代码库来解决复杂的用户问题。接着,在三个基准测试中,我们定量比较了仅能访问目标代码库的代码使用方法与拥有对所有工具名称和描述的特权访问的工具使用方法的效果。此外,我们研究了不同类型工具和库描述对代码使用性能的影响,以及将源代码视为输入而非自然语言代码描述的优势。所有代码将遵循宽松许可协议开源。 |
2024-06-17 | Efficient Sequential Decision Making with Large Language Models | Dingyang Chen et.al. | 2406.12125 | null | 该论文关注的是将大型语言模型(LLMs)的成功扩展到序列决策制定。当前的努力要么重新训练或微调LLMs进行决策,要么为预训练的LLMs设计提示。前者面临计算负担重的梯度更新问题,而后者未显示出明显效果。为此,我们提出了一种新方法,利用在线模型选择算法有效地将LLMs整合到序列决策过程中。统计上,我们的方法显著优于传统决策算法和纯LLM代理。在计算上,我们的方法避免了对LLMs进行昂贵的梯度更新,并且在整个决策过程中仅需要少量的LLM调用。我们进行了广泛实验来验证我们方法的有效性。以一个大规模的亚马逊数据集为例,我们的方法在仅使用1.5%的时间步数调用LLMs的情况下,实现了比基线超过6倍的性能提升。 |
2024-06-17 | Small Agent Can Also Rock! Empowering Small Language Models as Hallucination Detector | Xiaoxue Cheng et.al. | 2406.11277 | link | 这篇论文探讨了大型语言模型(LLMs)在幻觉检测方面的挑战,特别指出以往研究主要依赖于强大的闭源模型如GPT-4。作者提出了一种自主的基于LLM的代理框架,称为HaluAgent,它允许较小的模型(如巴 chcuan2-Chat 7B)主动选择适合检测文本、代码和数学表达式等多种幻觉类型的工具。HaluAgent整合了LLM、多功能工具箱,并设计了一个细粒度的三阶段检测框架,同时配备了记忆机制。为了提高HaluAgent的效能,论文利用现有的中文和英文数据集合成检测轨迹进行微调,使其具备双语幻觉检测能力。实验结果表明,仅使用2000个样本对LLM进行调优后,HaluAgent在各种任务和数据集上表现出色,其性能可与GPT-4媲美,甚至在某些情况下超越,且无需额外工具增强,无论在领域内还是领域外的数据集上都展现出良好性能。论文的代码和数据集已发布在https://github.com/RUCAIBox/HaluAgent。 |
2024-06-18 | AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval | Shirley Wu et.al. | 2406.11200 | link | 大型语言模型(LLMs)在利用外部工具和知识提升准确性和减少错误方面展现出显著能力。然而,设计能让LLMs有效运用这些工具的提示技巧是一项耗时且依赖直觉的任务。为此,我们提出AvaTaR,一个创新的自动化框架,它能优化LLMs,使其更有效地利用提供的工具,并在特定任务或领域中提升性能。AvaTaR通过设计一个比较器模块,以训练数据中的正负样本进行推理,迭代地为LLM提供富有洞察力和全面的提示。我们在四个包含文本、视觉和关系信息的复杂多模态检索数据集上展示了AvaTaR的效果。实验表明,AvaTaR在所有四项具有挑战性的任务中均优于现有最先进的方法,并展现出强大的泛化能力,当应用于新案例时,平均在Hit@1指标上实现了14%的相对改进。代码和数据集已在https://github.com/zou-group/avatar上公开。 |
2024-06-17 | Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement | Weimin Xiong et.al. | 2406.11176 | link | 大型语言模型在一系列复杂的交互任务中展现出卓越性能。近期的研究倾向于通过专家轨迹调优来提升模型效果,但主要关注最终结果奖励,这可能导致错误或非最优行为,因为缺乏过程监督信号。为此,我们在本文中提出迭代步级过程改进(Iterative Step-level Process Refinement,IPR)框架,该框架提供了细致的逐步骤指导,以增强训练过程。我们采用蒙特卡洛方法估算每一步的奖励。在每个迭代中,模型沿着专家轨迹探索并生成新动作,然后与专家轨迹的相应步骤进行比较,使用步级奖励评估。这种比较有助于识别差异,形成用于训练的对比动作对。我们在三个复杂代理任务上的实验表明,我们的框架优于多种强大的基线。此外,我们的分析结果揭示了IPR在提升动作效率方面的有效性,并证明其适用于各种模型。 |
2024-06-17 | RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents | Weizhe Chen et.al. | 2406.11132 | null | 在过去的一年里,大型语言模型(LLMs)在传统自然语言处理领域之外展现出惊人成就,人们开始探索在代码生成、旅行规划和机器人控制等更具体的应用领域使用这些模型。通过与LLM构建所谓的LLM代理,旨在协助人们完成日常生活中的各种任务。然而,对LLMs的提示语句对生成内容及其性能至关重要。因此,自动提示工程成为许多研究人员和LLM用户关注的焦点。本文提出了一种新颖的方法,名为\textsc{RePrompt},它利用与LLM代理交互获取的对话历史,通过“梯度下降”优化LLM的逐步指令。通过优化提示,LLM能够学习特定领域的规划策略。我们在PDDL生成和旅行规划任务中进行了实验,结果显示,使用更新后的提示作为初始提示时,我们的方法通常可以提高不同推理任务的性能。 |
2024-06-18 | Embodied Question Answering via Multi-LLM Systems | Bhrij Patel et.al. | 2406.10918 | null | ## 背景 Embodied Question Answering(EQA)是一个关键问题,它涉及一个代理在环境中探索以回答用户查询。当前的研究主要集中在单代理场景中,这可能导致探索时间冗长且成本高昂。在这个工作中,我们考虑了多代理框架下的EQA,其中涉及多个基于大型语言模型(LLM)的独立代理,它们各自解答关于家庭环境的问题。为了为每个查询生成一个答案,我们利用各个独立响应来训练一个中央答案模型(CAM),该模型整合答案以实现更稳健的回答。通过使用CAM,我们观察到其在EQA准确率上比诸如投票机制和辩论等ensemble LLM聚合方法高出50%。CAM无需任何形式的代理间通信,从而避免了相关开销。我们还通过不同的非线性(如神经网络、随机森林、决策树、XGBoost)和线性算法(如逻辑回归分类器、支持向量机)对CAM进行了消融研究。最后,我们通过Permutation Feature Importance(PFI)分析了CAM对每个独立代理和查询上下文的依赖程度,量化了CAM的依赖特性。 |
2024-06-16 | GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents | Dongping Chen et.al. | 2406.10819 | link | 近年来,多模态大型语言模型(MLLM)已被用于控制键盘和鼠标输入,直接感知图形用户界面(GUI),并生成相应的代码。然而,当前的模型主要在静态环境中表现出色,主要应用于相对简单的领域,如网页或移动界面。我们认为,一个稳健的GUI代理应具备理解GUI的时空信息能力,包括动态网页内容和多步骤任务,还要全面理解各种GUI场景,包括桌面软件和多窗口交互。为此,本文提出了一项新数据集——GUI-World,其中包含了精心制作的人机标注,广泛涵盖六种GUI场景和八类GUI相关问题,以三种格式呈现。我们评估了当前最先进的MLLM,如图像LLMs和视频LLMs,在理解和处理不同类型GUI内容,特别是动态和序列内容方面的能力。研究发现,图像LLMs在没有手动标注关键帧或操作历史的情况下,难以应对动态GUI内容。另一方面,由于GUI视频数据集的稀疏性,视频LLMs在所有GUI相关任务上表现不佳。基于GUI-World,我们首次尝试使用微调后的视频LLM作为GUI代理,显示了对各种GUI任务理解的提升。然而,由于基础LLM性能的限制,我们得出结论,将视频LLMs用作GUI代理仍是一个重大挑战。我们相信,我们的工作为未来在动态GUI内容理解方面的研究提供了有价值的洞见。代码和数据集已在我们的项目主页https://gui-world.github.io/上公开。 |
2024-06-16 | HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies | William Watson et.al. | 2406.10803 | null | ## 背景 大型语言模型(LLMs)在处理表格问答任务时面临诸多挑战,主要包括:(1)对于大表格有限的上下文窗口;(2)不同token化模式与单元格边界的复杂差异;(3)以及使用外部模型如gpt-3.5-turbo时的数据保密问题。为解决这些问题,我们提出了一种名为“HiddenTables”的合作游戏。这个游戏涉及代码生成LLM“Solver”和评估其在表格问答任务能力的“Oracle”,以自然语言规范为基础,同时保证数据安全。 我们通过实证实验在多样化的表格上展示了LLMs在处理复杂查询、处理组合依赖以及将自然语言转化为程序指令方面的局限性,特别是在提供具体表格结构的情况下。与基于编码器的模型不同,“HiddenTables”不受行数限制,从而提高了提示和完成 token 的效率。此外,我们创建了一个新的数据集“PyQTax”,包含116,671个问题-表格-答案三元组,并提供了更细致的问题分类和标签,进一步增强了我们的研究。 因此,除了学术贡献,揭示了LLMs在表格问答任务中的不足,“HiddenTables”还展示了如何在保障数据安全的同时,让LLMs与大规模数据集互动,以及降低生成成本的实践方法。 |
2024-06-15 | From Words to Worlds: Transforming One-line Prompt into Immersive Multi-modal Digital Stories with Communicative LLM Agent | Samuel S. Sohn et.al. | 2406.10478 | null | ## 背景 在娱乐、教育和营销领域至关重要的数字故事叙述面临着生产规模扩展和灵活性提升的挑战。这篇论文介绍的StoryAgent框架利用大型语言模型和生成工具来自动化并优化数字故事创作过程。它采用自上而下的故事情节草拟和自下而上的资产生成方法,解决了手动干预、互动场景编排和叙事一致性等关键问题。这个框架促进了交互式和一致叙事的高效生产,适用于多种媒介,推动了内容创作的民主化,增强了用户的参与度。我们的实验结果显示,该框架能够在没有参考视频的情况下生成连贯的数字故事,这标志着自动数字故事叙述技术的一个重大进步。 |
2024-06-13 | GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning | Zhen Xiang et.al. | 2406.09187 | null | 随着大型语言模型(LLMs)的快速发展,LLM驱动的代理被广泛应用于各种应用,这引发了对其安全性和可信度的新担忧。现有的提升LLM安全性的方法并不直接适用于LLM驱动的代理,因为它们具有不同的目标和输出模式。本文提出了一种创新方法——GuardAgent,它作为其他LLM代理的“防护栏”。GuardAgent通过检查其输入/输出是否满足用户定义的一系列守护请求来监督目标LLM。GuardAgent分为两步:1)分析提供的守护请求创建任务计划;2)根据任务计划生成守护代码,并通过API调用或外部引擎执行。整个过程利用LLM作为核心推理组件,结合记忆模块中的上下文示例,增强了知识驱动的推理能力,使其能够理解各种文本守护请求并准确地将其转化为可执行代码,提供可靠的安全保障。 GuardAgent还配备了一个可扩展的工具箱,包含函数和API,无需额外训练LLM,强调了其通用性及低运营成本。此外,我们提出了两个新颖的基准:EICU-AC用于评估医疗健康代理的隐私相关访问控制,Mind2Web-SC用于评估网络代理的安全性。在这些基准上,GuardAgent分别在98.7%和90.0%的精度下有效管理了两种类型代理的无效输入和输出。实验还表明,GuardAgent能够适应新兴的LLM代理和守护请求,定义新的功能,进一步证明了其强大的泛化能力。 |
2024-06-13 | Multi-Agent Software Development through Cross-Team Collaboration | Zhuoyun Du et.al. | 2406.08979 | link | ### 概述 最新的大型语言模型(LLMs)进展,如ChatDev,推动了软件开发领域的深刻变革,特别体现在多代理协作上。这些模型能够像人类团队一样合作,遵循瀑布模型进行需求分析、开发、审查、测试等阶段,实现自主软件生成。然而,单个开发流程中的每个阶段只会产生一种可能结果,导致只完成一条开发链,从而丧失在解决方案空间中探索多种决策路径的机会,可能导致结果不理想。为解决这一问题,我们提出了跨团队协作(Cross-Team Collaboration,CTC)框架,这是一种可扩展的多团队结构,它允许协同工作的团队在跨团队协作环境中共同提出决策,并交流各自见解,以优化内容生成。 实验结果显示,在软件开发领域的应用中,我们的方法显著优于现有基准,证实了框架的有效性。在故事生成方面的显著改进表明,该框架具有广泛的跨领域泛化能力。我们期待我们的工作能引导LLMs向跨团队模式发展,并在软件开发等领域带来重大进步。相关的代码和数据将在https://github.com/OpenBMB/ChatDev上提供。 |
2024-06-13 | StreamBench: Towards Benchmarking Continuous Improvement of Language Agents | Cheng-Kuang Wu et.al. | 2406.08747 | link | 近期的研究表明,大型语言模型(LLMs)能够从经验中自我提升,这是部署后持续改进的重要能力。然而,现有的基准主要评估它们的固有能力,而不考察它们随时间改进的能力。为了填补这一空白,我们引入了StreamBench,这是一个开创性的基准,旨在评估LLMs在输入-反馈序列上的连续改进性能。StreamBench模拟了一个在线学习环境,其中LLMs接收到连续的反馈流,并迭代地提升其表现。此外,我们提出了一些简单但有效的LLM基线,并对影响成功流式策略的关键组件进行了全面分析。我们的工作为开发LLMs的有效在线学习策略奠定了基础,为流式场景中的更适应性AI系统铺平了道路。 |
2024-06-12 | MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents | Luyuan Wang et.al. | 2406.08184 | null | 随着大型语言模型(LLMs)在手机图形用户界面(GUI)上的直接交互能力日益增强,以及它们在自主管理日常任务方面的潜力,基于LLMs的移动代理正逐渐受到学术界和工业界的关注。然而,由于应用程序的无限状态和可行动作序列的模糊定义,对现有移动代理性能的基准研究相对匮乏。为解决这一挑战,我们提出了一种高效且用户友好的基准工具——MobileAgentBench,旨在减轻繁琐的手动测试负担。我们首先定义了涵盖10个开源应用的100项任务,按难度分为多个级别。接着,我们对包括AppAgent和MobileAgent在内的多个现有移动代理进行了评估,以全面系统地比较它们的表现。所有相关材料均可在我们的项目网站https://MobileAgentBench.github.io上获取,这将推动学术和工业领域的进步。 |
2024-06-12 | Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey | Shang Wang et.al. | 2406.07973 | null | 随着人工智能的快速发展,大型语言模型(LLMs)在自然语言处理方面取得了显著进步。这些模型通过大量数据训练,展现出强大的语言理解和生成能力,适用于机器翻译、聊天机器人等各种应用。然而,LLMs在其生命周期中暴露出一系列隐私和安全问题,这引起了学术界和工业界的关注。这些问题与传统语言模型相比具有独特性,鉴于当前的综述缺乏针对不同场景的清晰威胁分类,我们根据五个场景:预训练、微调、RAG系统、部署和基于LLM的代理,强调了独特的风险。考虑到每种威胁的特性,本调查提供了潜在威胁和应对策略。研究LLMs所面临的攻击和防御情况,可以为更多领域提供可行的研究方向,使更多人能够受益于LLMs。 |
2024-06-14 | Can Large Language Models Understand Spatial Audio? | Changli Tang et.al. | 2406.07914 | null | 该论文探讨了如何使大型语言模型(LLMs)掌握多通道音频中的空间信息,这是当前听觉LLMs所缺乏的能力。通过利用LLMs的高级认知和推理能力,目标是提升模型对三维环境的理解,通过音频。研究涉及三项空间音频任务:声源定位(SSL)、远场语音识别(FSR)和基于位置的语音提取(LSE),在每个任务上都取得了显著进展。在SSL方面,我们的方法在Spatial LibriSpeech数据集上的均方误差(MAE)达到2.70°,明显优于先前的基准约6.60°。此外,模型能够利用空间线索提高FSR的准确性,并通过文本提示,根据指定方向聚焦于声音,即使在重叠语音环境中也能执行LSE。这些成果揭示了LLMs适应物理音频概念的潜力,为构建基于LLM的三维环境中的代理铺平了道路。 |
2024-06-11 | DCA-Bench: A Benchmark for Dataset Curation Agents | Benhao Huang et.al. | 2406.07275 | link | 随着人工智能(AI)研究和开发的推进,数据集的质量日益关键。尽管开放数据集平台众多,但数据质量问题,如缺乏文档、标注错误和伦理考量,仍普遍存在。这些问题往往难以通过规则基础脚本检测,需要用户或维护者花费大量人力进行识别和验证。利用大型语言模型(LLMs)处理数据集整理的潜力令人期待。为此,我们提出了一项名为DCA-Bench的数据集管理代理基准,旨在评估LLM在检测隐藏数据质量问题方面的性能。我们从八个公开数据集平台收集了各种实际问题作为测试床。为了建立一个自动评估LLM成功与否的管道,我们设计了一个专门的LLM评估器。实验表明,基于LLM的评估器与人工评价高度吻合,能实现可靠的自动评估。我们还在多个基线LLM上进行了实验,显示了任务的复杂性,意味着将LLMs应用于现实世界的数据集管理仍需深入探索和创新。此外,该基准也可作为衡量LLMs在问题发现能力而非仅解决问题能力的测试平台。基准套件已开放在:\url{https://github.com/TRAIS-Lab/dca-bench}。 |
2024-06-11 | A Synthetic Dataset for Personal Attribute Inference | Hanna Yukhymenko et.al. | 2406.07217 | link | 近年来,强大的大型语言模型(LLMs)已为全球数亿用户所接触,但它们的强大功能和广泛世界知识也带来了隐私风险。本研究关注LLMs新兴的隐私威胁——从网络文本中准确推断个人信息。鉴于基于LLM的作者分析研究缺乏合适的公开数据集,主要是由于涉及真实个人数据的伦理和隐私顾虑,我们的工作在两个方面进行了探索:(i)我们构建了一个使用合成个人资料填充的流行社交平台Reddit的模拟框架;(ii)利用此框架,我们生成了SynthPAI,一个包含超过7800条经过手动标记个人属性的多样化的合成评论数据集。我们通过一项人类研究验证了数据集,结果显示人类在区分真实和合成评论的任务上几乎不优于随机猜测。此外,我们证明了数据集支持有意义的个人属性推断研究,通过18种最先进的LLMs,我们发现使用合成评论可以得出与现实世界数据相同的结论。综上所述,我们的数据集和流程为未来研究如何理解和减轻LLMs带来的基于推断的隐私威胁提供了强大且隐私保护的基础。 |
2024-06-11 | A Tool for Test Case Scenarios Generation Using Large Language Models | Abdul Malik Sami et.al. | 2406.07021 | null | 大型语言模型(LLMs)在软件工程(SE)中广泛应用,涵盖代码生成、软件设计和文档编写、添加代码注释、代码审查以及编写测试脚本等任务。然而,创建测试脚本或自动化测试案例需要与功能需求紧密相关的详尽测试套件文档。这种文档应能在有限的时间和范围内实现全面测试,尤其当需求和用户期望不断变化时。本文主要关注根据用户需求生成史诗级(epics)和高层次用户故事,然后基于这些故事设计测试场景。文章介绍了一种基于LLM代理和提示工程的网络软件工具,该工具能够自动化针对用户需求生成测试场景的过程。 |
2024-06-11 | CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only | Junhee Cho et.al. | 2406.06947 | link | 长期以来,软件机器人已经在机器人流程自动化(RPA)中用于执行枯燥的计算机任务。随着大型语言模型(LLMs)的先进推理能力的出现,这些代理现在能够处理更复杂甚至前所未见的任务。然而,当前文献中的基于LLM的自动化方法往往依赖于HTML源代码作为输入,限制了它们在非网络环境的应用。HTML代码中的信息常常不准确或不完整,这降低了代理在实际应用中的可靠性。我们提出了一种仅基于屏幕截图的LLM驱动的代理,它专注于识别环境,并利用上下文学习来消除对大量人类演示数据的需求。我们的策略名为“上下文感知行动规划”(Context-Aware Action Planning,CAAP)提示,鼓励代理从多个角度仔细审查上下文。通过我们的方法,在67种MiniWoB++问题上实现了94.4%的成功率,每个问题类型只需1.48次演示。我们的方法为更广泛的应用提供了可能,特别是在需要在计算机或智能手机之间进行跨应用协调的任务上,标志着自动化代理领域的重大进步。代码和模型已在https://github.com/caap-agent/caap-agent上提供。 |
2024-06-07 | GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents | Anthony Costarelli et.al. | 2406.06613 | link | 大型语言模型已经在许多自然语言理解任务上展现出卓越的少量样本性能。尽管已经展示过在复杂策略场景中使用大型语言模型,但缺乏一个全面的框架来评估这些模型在游戏中的各种推理能力。为了填补这一空白,我们推出了GameBench,这是一个跨领域的框架,用于评估大型语言模型(LLMs)的战略思维能力。我们专注于9个不同的游戏环境,每个游戏至少涵盖一种在策略游戏中识别出的关键推理技能,并选择那些战略解释不太可能构成模型预训练数据主要部分的游戏。我们的评估使用了基础形式的GPT-3和GPT-4,以及两个旨在增强战略推理能力的引导框架:Chain-of-Thought(CoT)提示和Reasoning Via Planning(RAP)。结果显示,所有测试模型的表现都没有达到人类水平,最差的是GPT-4的表现甚至低于随机行动。CoT和RAP都提高了分数,但仍远未达到人类水平。 |
2024-06-11 | Transforming Wearable Data into Health Insights using Large Language Model Agents | Mike A. Merrill et.al. | 2406.06464 | null | 尽管可穿戴健康追踪器日益普及,睡眠和运动对健康的重要性不言而喻,但从这些数据中提取具有行动价值的个性化见解仍是一个挑战。这需要对大量数据进行非结构化分析。随着大型语言模型(LLM)的兴起,它们能够利用工具理解和与世界互动,为大规模个性化分析带来了希望。然而,在个人健康领域的LLM应用尚待开发。本文介绍了一种名为Personal Health Insights Agent(PHIA)的系统,它利用最新的代码生成和信息检索工具来分析和解释行为健康数据。我们构建了两个超过4000个健康洞察问题的基准问答数据集。根据650小时的人类和专家评估,PHIA能准确回答84%以上的事实性数值问题,以及超过83%的众包开放性问题。这项工作对于推动大众行为健康进步具有重要意义,可能使个人能够解读自己的可穿戴数据,开辟了一个以数据驱动洞察为指导的个性化健康方案的新时代,使得健康保健更加便捷且个性化。 |
2024-06-09 | Hello Again! LLM-powered Personalized Agent for Long-term Dialogue | Hao Li et.al. | 2406.05925 | link | 随着大型语言模型(LLMs)的发展,开放域对话系统取得了显著进步。然而,大多数现有系统主要关注简短的单次会话,忽视了长期陪伴和个性化聊天机器人在现实世界中的需求。为了满足这种实际需求,事件总结和人格管理至关重要,它们能够促进长期对话回复的合理性。近期,大型语言模型在人类认知和推理能力上的进展表明,基于LLM的代理有可能大幅增强自动化感知、决策和问题解决。鉴于此,我们提出了一种模型通用的框架——长期对话代理(LD-Agent),它包括三个可独立调整的模块:事件感知、人格提取和响应生成。事件记忆模块使用长短期记忆库分别关注历史和正在进行的会话,并引入了基于主题的检索机制以提高记忆检索的准确性。此外,人格模块实现了用户和代理的动态人格建模。最后,通过整合检索的记忆和提取的人格,生成器会产生适当的回应。我们在各种示例基准、模型和任务上实证了LD-Agent的有效性、通用性和跨领域能力。代码已在https://github.com/leolee99/LD-Agent上发布。 |
2024-06-09 | A Survey on LLM-Based Agentic Workflows and LLM-Profiled Components | Xinzhe Li et.al. | 2406.05804 | link | ## 背景 近期大型语言模型(LLMs)的进展推动了复杂代理工作流的发展,它们相较于传统的单路径、链式思维(Chain-of-Thought,CoT)提示方法有所改进。这篇综述旨在概述常见的工作流,特别关注大型语言模型特性的组件(LLM-Profiled Components,LMPCs),并强调对非LLM组件的忽略。这种研究的目的是为了增进对LLMs角色的理解,并探索LMPC的复用潜力。 |
2024-06-07 | Mixture-of-Agents Enhances Large Language Model Capabilities | Junlin Wang et.al. | 2406.04692 | null | 近期的大型语言模型(LLMs)进展显著,展现出在自然语言理解和生成任务中的强大能力。随着LLMs的增多,如何有效整合多模型的知识成为了一个令人振奋的研究方向。为此,我们提出了一种新颖的方法——混合代理(Mixture-of-Agents,MoA)方法。在我们的架构中,MoA采用了分层设计,每层包含多个LLM代理。每个代理在生成响应时,会利用前一层所有代理的输出作为辅助信息。通过这种策略,MoA模型在AlpacaEval 2.0、MT-Bench和FLASK等多个评估基准上实现了最先进的性能,超越了GPT-4全能版。例如,仅使用开源LLMs的我们的MoA模型在AlpacaEval 2.0上的得分领先,达到65.1%,而GPT-4全能版的成绩为57.5%。 |
2024-06-06 | AgentGym: Evolving Large Language Model-based Agents across Diverse Environments | Zhiheng Xi et.al. | 2406.04151 | link | 在人工智能领域,建立能够处理各种任务并在不同环境中自我进化的泛化型代理是一个长期目标。大型语言模型(LLMs)因其通用能力被认为是实现这一目标的有前景的基础。当前的方法要么依赖于人类监督,让LLM代理逐步模仿专家提供的轨迹,难以大规模扩展且限制了环境探索;要么让代理在孤立环境中探索学习,导致专长有限、缺乏泛化能力。本文首次尝试构建具备自我进化能力的通用LLM代理。我们提出三个关键要素:1)多样的环境以支持代理探索和学习;2)一套轨迹来赋予代理基本能力和先验知识;3)有效且可扩展的进化方法。 我们提出了AgentGym,一个新框架,它包含丰富的环境和任务,支持全面、实时、统一格式和并发的代理探索。AgentGym还包括一个扩展指令的数据库、基准测试套件以及跨环境的高质量轨迹。接着,我们开发了AgentEvol,这是一种新颖的方法,旨在研究代理在超越既定数据,跨越任务和环境时的自我进化潜力。 实验结果显示,进化后的代理可以达到与最先进的模型相当的性能。我们发布了AgentGym套件,包括平台、数据集、基准、检查点和算法实现。AgentGym套件已在其官方网站https://github.com/WooooDyy/AgentGym上提供。 |
2024-06-05 | The Good, the Bad, and the Hulk-like GPT: Analyzing Emotional Decisions of Large Language Models in Cooperation and Bargaining Games | Mikhail Mozikov et.al. | 2406.03299 | null | ## 翻译 行为研究实验在社会模型和理解人际互动中占据重要地位。然而,实际操作中这类实验常面临内在效度、外在效度、可重复性和社会偏见等挑战,因为人类的社会互动与合作复杂。近年来,大型语言模型(LLMs)的进步为研究者提供了一种新的模拟人类行为的工具。但现有基于LLM的模拟假设模型的行为与人类相似,却忽视了影响人类决策的关键因素——情绪。本文提出一种新颖的方法论和框架,旨在探讨LLMs的决策制定及其在情绪状态下的行为与人类行为的契合度。 通过在两种不同类型的行为经济学游戏(博弈论实验)中使用GPT-3.5和GPT-4,我们发现情绪对LLMs的表现有显著影响,促使它们发展出更优化的策略。尽管GPT-3.5与人类参与者的行动模式有较强的对应,尤其是在讨价还价游戏中,但GPT-4展现出一致的行为,对于情绪诱导的理性决策似乎不受影响。令人意外的是,情绪提示,特别是愤怒情绪,能够打破GPT-4的“超人”一致性,使其反应更接近人类的情绪反应。 |
2024-06-05 | BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents | Yifei Wang et.al. | 2406.03007 | link | 随着大型语言模型(LLMs)的繁荣,基于训练好的LLMs并通过特定任务数据微调的强大智能代理已开发出来,提供定制服务。当前最先进的构建LLM代理的方法是使用预训练模型,并针对任务进行进一步调整。然而,我们揭示了这些方法易受名为BadAgent的新型后门攻击,该攻击通过在后门数据上微调在各种代理任务中植入后门。在测试时,攻击者可以通过在输入或环境中显示触发器,操纵部署的LLM代理执行有害操作。令人惊讶的是,我们的攻击方法即使在信任的数据上进行微调后仍表现出极高的鲁棒性。尽管后门攻击在自然语言处理领域已广泛研究,但据我们所知,我们可能是第一个研究在权限更大的LLM代理上的攻击,这些代理可以使用外部工具,因此更具威胁。我们的工作明确指出了基于不信任的LLM或数据构建LLM代理的风险。我们的代码已公开在:https://github.com/DPamK/BadAgent。 |
2024-06-02 | Teams of LLM Agents can Exploit Zero-Day Vulnerabilities | Richard Fang et.al. | 2406.01637 | null | 随着大语言模型(LLMs)在网络安全领域的复杂性不断提高,研究者发现,当提供漏洞描述和简单的夺旗问题时,这些模型能够利用实际存在的漏洞。然而,对于事先未知的零日漏洞(即攻击者掌握而安全软件供应商还未修补的漏洞),它们的表现仍然不佳。本文展示了,通过团队合作,多个LLM代理可以攻击现实世界的零日漏洞。单独的代理在探索众多漏洞和进行长期规划时面临困难。为此,我们提出了HPTSA系统,它包括一个能调度子代理的计划代理。计划代理负责探索系统并决定使用哪个子代理来尝试不同的漏洞,从而解决了长期规划的问题。我们在一个包含15个真实世界漏洞的基准上进行了实验,结果显示,我们的代理团队比先前的工作提高了4.5倍。 |
2024-06-03 | How to Understand Whole Software Repository? | Yingwei Ma et.al. | 2406.01422 | null | ## 背景 近期,基于大型语言模型(LLM)的代理在自动软件工程(ASE)领域取得了显著进步。尽管现有方法已证实有效,但它们的设计主要侧重于代码的局部信息,如问题、类和函数,这限制了对软件系统全局上下文和依赖关系的理解。根据软件开发人员的实际经验,我们认为全面理解整个仓库是迈向ASE的关键。然而,理解整个仓库带来了诸多挑战,例如:长代码输入、噪声代码信息、复杂依赖关系等。 为了克服这些问题,我们研发了一种名为RepoUnderstander的新ASE方法,通过引导代理全面理解整个仓库。首先,我们采用自上而下的方式将整个仓库的关键信息压缩到知识图谱中,以降低复杂性。接着,我们提出一种蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)为基础的仓库探索策略,赋予代理理解整个仓库的能力。此外,为了更好地利用仓库级别的知识,我们指导代理进行总结、分析和规划,然后他们可以利用工具动态获取信息并生成修复实际GitHub问题的补丁。 大量实验表明,RepoUnderstander具有优越性和有效性。在SWE-bench Lite基准测试中,与SWE-agent相比,它实现了18.5%的相对提升。 |
2024-06-03 | BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards | Diego Dorn et.al. | 2406.01364 | null | ## 背景 输入-输出安全防护机制被用于检测大型语言模型(LLMs)系统的异常输出。这些防护措施在实时监控、离线评估和内容审核等关键应用中发挥核心作用。然而,目前缺乏统一的评估方法来衡量它们的性能。为了填补这一空白,我们提出了“大型语言模型安全防护基准”(Benchmarks for the Evaluation of LLM Safeguards,简称BELLS),它是一个结构化的测试集合,分为三个类别:(1) 建立性故障测试,基于已存在的针对明确故障模式的基准,旨在比较当前输入-输出安全防护的效能;(2) 新兴故障测试,用于衡量对未见过的故障模式的泛化能力,以促进更通用防护机制的发展;(3) 下一代架构测试,针对更复杂的架构(如LLM代理和多代理系统),目标是推动适用于未来尚未存在专门防护的应用的安全防护技术的发展。此外,我们还实现了并分享了第一个下一代架构测试,使用MACHIAVELLI环境,并提供了数据集的交互式可视化。 |
2024-06-03 | A Survey of Useful LLM Evaluation | Ji-Lun Peng et.al. | 2406.00936 | null | 由于大语言模型在各个研究领域展现出卓越的性能,对它们的能力评估方法的需求日益增长,以确定其合适的任务和责任。本文主要探讨如何有效地利用大语言模型作为工具,并提出一个两阶段框架:从“核心能力”到“代理”。首先,核心能力指的是大语言模型生成高质量文本所必需的特性,通过验证这些能力后,它们能够处理现实世界的复杂任务,扮演代理角色。在“核心能力”阶段,我们讨论了大语言模型的推理能力、社会影响以及领域知识。而在“代理”阶段,我们展示了大语言模型在具身行动、规划和工具学习方面的应用。最后,我们分析了当前大语言模型评估方法面临的挑战,并展望了未来的发展方向。 |
2024-06-02 | CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems | Yanlin Feng et.al. | 2406.00583 | link | ### 背景 在数据库和人工智能领域,复合人工智能系统(Compound Artificial Intelligence Systems,CAS)利用大型语言模型(Large Language Models,LLMs)作为代理,通过与工具和数据检索器交互来执行知识密集型任务,引起了广泛关注。尽管这些系统有可能增强企业数据平台中数据分析师的一般分析流程,但CAS面临着与分析师相似的数据发现挑战:组织内部不同团队和部门创建的多模态数据源孤立,这使得寻找完成当前任务所需合适数据源变得困难。现有的数据发现基准并未充分模拟这种多模态和数据源的多样性。此外,CAS的现有基准主要关注端到端任务性能评估,而忽视了数据发现性能。 为了推动在现实世界环境中对多模态数据检索器在CAS中的数据发现性能研究,我们提出了CMDBench,一个旨在模拟企业数据平台复杂性的基准。我们改编了开放领域的现有数据集和基准,如问答、复杂推理以及自然语言查询结构化数据,来评估粗粒度和细粒度的数据发现以及任务执行性能。 ### 实验结果 我们的实验揭示了数据检索器设计对下游任务性能的影响——平均情况下,任务准确率下降了46%。实验结果表明,需要开发优化策略来确定合适的LLM代理和检索器,以提高在企业数据上高效执行CAS的能力。 总之,CMDBench是一个旨在促进针对企业数据平台复杂性进行研究的新工具,它通过综合评估数据发现和任务执行能力,为改进多模态数据检索器在复合人工智能系统中的性能提供了一个有价值的框架。 |
2024-06-01 | Controlling Large Language Model Agents with Entropic Activation Steering | Nate Rahn et.al. | 2406.00244 | null | 随着大规模预训练语言模型(LLMs)的普遍适用性提升,人们对其用作基于上下文的学习代理的兴趣日益增长。在这些情境下,模型需要根据与环境的有限交互形成目标实现策略的信念,并在每一步决策中处理不确定性。本文针对这一问题进行研究,通过控制的序列决策任务实验探讨LLMs如何形成和运用这些信念。 首先,我们发现LLM模型过于自信:它们在缺乏充分证据的情况下就对行动做出强烈判断,导致探索行为不足。进一步深入分析揭示,这种现象源于从LLM采样得到的动作分布熵的塌缩。接着,我们指出现有的基于令牌的采样方法本身不足以促使模型更广泛探索。 鉴于此,我们提出了熵激活导向(Entropic Activation Steering,EAST),这是一种针对在上下文中的LLM代理的激活导向方法。EAST计算一个以熵为权重的表示组合,通过在前向传播过程中干预模型的激活,来调整模型对动作的不确定性,从而促进探索行为的出现。最后,EAST改变了LLM在决策时表达的主观不确定性,为理解和控制模型对决策不确定性的表征提供了途径。 |
2024-05-31 | Learning to Clarify: Multi-turn Conversations with Action-Based Contrastive Self-Training | Maximillian Chen et.al. | 2406.00222 | null | 大型语言模型(LLMs)通过人类反馈的强化学习(RLHF)已经迅速成为构建智能对话助手的主要方法。然而,尽管在多个基准上表现出色,基于LLM的代理在诸如歧义处理等对话技能上仍有欠缺:当通用助手遇到模糊情况时,它们往往过度谨慎或猜测用户的真正意图,而不是提问以求澄清,而在特定任务场景下,高质量对话样本往往有限,影响模型学习最优对话行为策略的能力。我们提出了一种名为Action-Based Contrastive Self-Training(ACT)的近似在线偏好优化算法,它基于Direct Preference Optimization(DPO),旨在实现在多轮对话中的样本高效对话策略学习。 我们在三个具有挑战性的对话任务中验证了ACT的有效性:基于表格的问答、机器阅读理解,以及AmbigSQL,这是一个针对文本到SQL生成的信息寻求请求歧义解决的新任务。此外,我们提议通过评估LLMs能否在对话中识别和推理歧义来衡量其作为对话代理的能力。ACT在与标准监督微调和DPO方法相比时,显示出了显著的对话建模改进。 |
2024-05-31 | Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent | Jie JW Wu et.al. | 2406.00215 | link | 大型语言模型(LLMs)在代码生成任务中的性能显著提升,但仍与顶级软件工程师的水平存在差距。鉴于顶级软件工程师常通过提问来消除需求和编码解决方案中的模糊性,我们提出对于LLMs进行代码生成任务时也应具备类似的沟通能力。为此,我们进行了实证研究,关注LLMs的沟通技能,即“在代码生成问题描述存在问题时能提出澄清问题”。 我们创建了一个新的基准测试,名为HumanEvalComm,通过修改问题描述,引入了不一致性、模糊性和不完整性三个问题维度。我们定义了新的评估指标,如通信率和良好问题率,并在HumanEvalComm上对不同类型的Code LLM(代码语言模型)以及一种新型LLM代理方法(Okanagan)进行了实验,该方法旨在从代码和描述中识别并提问,以进一步优化生成的代码。最后,我们通过比较Code LLMs和Okanagan的表现,讨论了实验结果。 |
2024-05-30 | Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions | Ruochen Zhao et.al. | 2405.20267 | link | 随着语言模型(LLMs)日新月异,迫切需要一种可靠且及时的评估方法。鉴于静态基准易受污染,用户往往依赖于像Chatbot Arena这样的人类投票平台。然而,人工标注需要大量人力。为此,我们创新性地提出Auto-Arena,这是一种自动化全流程的LLM评估框架。首先,由考官LLM设计问题;接着,候选LLMs围绕问题进行多轮相互对决,暴露出它们的真实性能差距;最后,由LLM裁判集体讨论并决定胜者,从而减少偏见,提升公平性。我们在最新17款LLMs上的广泛实验显示,Auto-Arena与人类偏好具有最高的相关性,为替代人类评价平台提供了有前景的解决方案。 |
2024-05-30 | Nadine: An LLM-driven Intelligent Social Robot with Affective Capabilities and Human-like Memory | Hangyeol Kang et.al. | 2405.20189 | null | 在本研究中,我们阐述了为Nadine社交机器人平台开发智能和健壮的社交机器人系统的方法。我们通过集成大型语言模型(LLMs),巧妙地利用这些模型的强大推理和指令执行能力,以实现接近人类的感性与认知能力。这与当前基于LLM的智能体相比是创新的,因为它们通常不具备人类式的长期记忆或复杂的情感评估功能。社交机器人的自然性在很大程度上取决于系统各组件的性能和协同工作。我们构建了一个系统,能够通过多模态输入处理生成恰当的行为,根据识别到的用户引入相关的情景记忆,并模拟机器人在与人类伙伴互动过程中产生的情绪状态。特别是,我们提出了一个针对社交机器人的LLM-agent框架,SoR-ReAct,作为我们系统中交互模块的核心组件。这一设计推动了社交机器人技术的发展,旨在提升人机交互的质量。 |
2024-05-29 | Adaptive In-conversation Team Building for Language Model Agents | Linxin Song et.al. | 2405.19425 | null | ### 翻译 在处理复杂任务时,利用多个大型语言模型(LLMs)展现出前景。然而,如何为特定应用设计有效的多代理团队仍是一个挑战。本文提出了一种新的动态团队构建范式,名为“Captain Agent”。它通过创新的Agent设计,能够自适应地为每个问题解决步骤组建和管理团队,利用嵌套群聊和反思机制确保多元化的专业知识,防止刻板输出。这种方法提供了灵活但结构化的解决问题方式,有助于减少冗余,增强输出多样性。在六个实际场景中的全面评估显示,Captain Agent显著优于现有多代理方法,平均准确率提高了21.94%,并且无需针对特定任务进行繁琐的提示工程,表现出色。 |
2024-05-28 | A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models | Chengxing Xie et.al. | 2405.18208 | null | 近期的研究已经表明,这些大型语言模型在一些简单的任务上,如写作和编码,展现出一定的能力。然而,它们在需要综合规划的任务上仍然面临挑战,这仍是当前模型的一个重要研究问题。本研究聚焦于旅行规划,这是一个涉及多个阶段的复杂问题,包括提纲、信息收集和规划,通常伴随着各种约束和不确定性。现有的推理方法在处理这类问题时效果不佳。我们的目标是通过开发一种类似人类的规划框架,引导大型语言模型模仿人类解决多阶段问题的步骤,以提升其能力。具体来说,我们实施策略,让模型能为每个旅行查询生成连贯的提纲,模拟人类的规划模式。我们还引入了策略块和知识块到框架中:策略块帮助信息搜集,而知识块提供详细规划所需的必要信息。实验结果全面展示了我们框架对大型语言模型规划能力的显著提升,使其在处理旅行规划任务时效率和效果都有所提高。实验结果显示,当与GPT-4-Turbo结合时,我们的框架相较于基础框架在GPT-4-Turbo上的性能提升了10倍。 |
2024-05-28 | Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting | Hongda Sun et.al. | 2405.18113 | null | 随着在线招聘服务的兴起,传统的求职和招聘方式发生了变革,迫切需要开发高质量的工业应用来提升求职者与职位的匹配度。现有的方法主要依赖于简历和职位描述的潜在语义建模,学习两者之间的匹配函数。受到大型语言模型(LLMs)在角色扮演方面强大能力的启发,我们提出引入LLMs模拟面试环节,让其与求职者进行对话,这可以为候选人评估提供额外证据,从而增强仅基于简历和职位描述的个性化匹配。然而,在网络招聘中的面试官和求职者角色塑造仍面临挑战,如提问技巧、回答构建以及双向匹配度评估。 为此,我们提出MockLLM,一个创新的框架,将人职匹配过程划分为两个模块:模拟面试生成和握手协议中的双向评估,通过面试官和求职者之间的协作行为共同提升性能。我们设计了一个多角色、多行为的框架,使单一的LLM代理能有效地扮演双方的不同职能。此外,我们引入了反思记忆生成和动态提示修改技术,以优化双方的行为,持续优化附加的评估证据。实验结果表明,MockLLM在人职匹配上的表现最优,且模拟面试质量高,预示着它在未来在线招聘中的实际应用前景广阔。 |
2024-05-28 | LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins | Yuchen Xia et.al. | 2405.18092 | link | 该论文提出了一种创新的多agent系统架构,将大型语言模型(LLM)应用于数字孪生过程模拟的参数自动化。我们设计了一个框架,包含观察、推理、决策和总结四种类型的代理。通过实现LLM代理与模拟模型的动态交互,该系统可以自动探索参数设置,利用启发式推理确定一组控制模拟以达成目标的参数。这种方法通过注入LLM的启发式,增强模拟模型,并支持自主搜索以解决用户任务,有望提高用户体验并减轻人类用户在复杂决策过程中的认知负担。研究通过一个案例研究展示了系统的有效性与功能,并在GitHub仓库https://github.com/YuchenXia/LLMDrivenSimulation提供了可视化的演示。 |
2024-05-28 | Enabling Generative Design Tools with LLM Agents for Building Novel Devices: A Case Study on Fluidic Computation Interfaces | Qiuyu Lu et.al. | 2405.17837 | null | 在人机交互(HCI)领域,交互设备的设计开发是关键关注点。随着新型硬件和先进制造技术的兴起,对能够简化原型制作过程的专门设计工具的需求日益增长。然而,这些工具虽然通过参数化设计和模拟简化流程,但学习曲线较陡,且在激发创新思维方面有所欠缺。本研究以流体计算界面为例,探讨如何通过大型语言模型(LLM)代理增强物理设备设计工具,创建一个生成设计工具(GDT)。借助LLM,GDT能够理解新设备的特性和局限,提出多样、富有洞察力且实用的应用场景,推荐技术和情境适宜的设备设计,并自动生成设计参数,以便传统设计工具展示结果并生成加工所需的文件。本文阐述了GDT的框架、实现和性能,并反思其前景及遇到的挑战。 |
2024-05-27 | LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence | Zhuoling Li et.al. | 2405.17424 | null | ## 背景 由于需要与现实世界互动,Embodied agent 需要具备丰富的先验知识、长远规划能力以及快速的响应速度。尽管最近的大型语言模型(LLM)在性能上表现出色,但它们仍存在局限性,例如,LLM的输出通常是描述性的句子,在决定具体行动时可能产生歧义。为了克服这些问题,我们引入了大型自回归模型(LARM)。LARM利用文本和多视角图像作为输入,并以自回归的方式预测后续动作。为了训练 LARM,我们开发了一种新颖的数据格式——自回归节点传输结构,并构建了相应的数据集。通过两阶段的训练策略,LARM成功在《我的世界》(Minecraft)中收集魔法装备,这比先前最佳方法的最高成就需要更为复杂的决策链。此外,LARM的速度比现有最快方法快出了6.8倍。 |
2024-05-30 | Meta-Task Planning for Language Agents | Cong Zhang et.al. | 2405.16510 | link | 神经语言模型的快速发展推动了智能代理研究的新热潮。大型语言模型(LLM)作为实现人工智能通用性(AGI)的有前景方法,因其出色的推理和泛化能力而备受瞩目。在实际任务中,有效的规划对LLM代理的成功至关重要。然而,如何为复杂任务设计出可行或最优的精细粒度操作序列,特别是需要组合大量异质行动的序列,仍是挑战。本文提出Meta-Task Planning(MTP),这是一种零样本的协作式LLM多代理系统方法,通过将复杂任务分解为子任务,即元任务,简化了任务规划。每个元任务随后映射为可执行动作。在TravelPlanner和API-Bank两个严格基准上评估了MTP。结果表明,MTP在TravelPlanner上的平均成功率约为40%,远超当前最佳基线(2.92%),并且在API-Bank上的性能比使用ReAct的LLM_{api}-4高出约14%,这显示出将LLM与多代理系统相结合的巨大潜力。 |
2024-05-28 | STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making | Chuanhao Li et.al. | 2405.16376 | link | 大型语言模型(如GPT-4)在自然语言处理方面带来了革命性变化,展现出卓越的语言能力和推理技巧。然而,在战略性的多代理决策环境中,它们面临局限,如数学推理能力差、难以遵循指令和生成错误信息。这些缺点限制了它们在遵守复杂游戏规则、长期规划、探索未知环境以及预测对手行动的互动任务中的表现。为此,本文提出了一种新型的结合了记忆和专业工具的大型语言模型代理框架,旨在提升其在战略决策方面的性能。我们特别在双边谈判、多代理动态机制设计等经济重要场景中应用这些工具,并通过定量指标评估在各种战略决策问题上的效果。研究结果表明,我们的增强框架显著提高了大型语言模型在战略决策中的能力。尽管当前模型存在固有局限,但我们通过有针对性的增强展示了改进的可能性,这为未来大型语言模型在交互环境中的应用提供了有前景的方向。 |
2024-05-29 | Devil's Advocate: Anticipatory Reflection for LLM Agents | Haoyu Wang et.al. | 2405.16334 | null | 在这个工作中,我们提出了一种新颖的方法,通过赋予语言模型(LLM)自我反思能力,增强了其在解决复杂任务时的一致性和适应性。我们的方法促使LLM代理将给定的任务分解为可管理的子任务(即制定计划),并在执行行动之前持续反思可能的失败及其补救措施、执行后与子任务目标对齐并进行必要的回溯以确保全力以赴执行计划,以及在完成计划后进行全面审查,以便于未来策略的优化。通过在WebArena中零样本应用这一方法处理实际的网络环境任务,我们的代理表现出优于现有零样本方法的性能。实验结果显示,这种基于反思的策略不仅提升了代理应对未预见挑战的导航能力,通过强大的计划执行机制,还提高了效率,减少了实现任务所需的尝试次数和计划修订次数。 |
2024-05-25 | AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning | Minghao Chen et.al. | 2405.16247 | link | 大语言模型(LLMs)在执行各种领域任务,如机器人、游戏和网络导航方面展现出潜力。然而,这些模型通常需要精心设计和专家级提示才能适应特定领域的任务,这限制了它们的适应性。为此,我们提出了AutoManual框架,让LLMs能够通过互动自主构建理解,并适应新环境。AutoManual将环境知识分为多样的规则,并通过两个代理进行在线优化:1)规划器根据当前规则制定可操作的行动计划;2)构建者通过一个结构化的规则系统更新规则,促进在线规则管理并保持关键细节。为了减少在管理规则时的幻觉,我们引入了“案例条件提示”策略用于构建者。最终,编译器代理将这些规则整合成一份全面的手册。这份自我生成的手册不仅能提高适应性,还能指导小型LLMs的规划,同时保持人类可读。仅凭一次简单演示,AutoManual显著提高了任务成功率,GPT-4-turbo下达到97.4%,GPT-3.5-turbo下为86.2%。源代码即将发布。 |
2024-05-24 | Luban: Building Open-Ended Creative Agents via Autonomous Embodied Verification | Yuxuan Guo et.al. | 2405.15414 | null | 在人工智能研究中,构建开放型代理一直以来都是终极目标,特别是创造性的代理更具吸引力。现有的大语言模型(LLM)在执行有明确目标的长序列任务(如《我的世界》中的“开采钻石”)上表现出色。然而,它们在处理具有开放目标和抽象标准的创造性任务时遇到困难,因为它们无法弥合这些任务之间的鸿沟,从而缺乏自我改进来解决问题的反馈。为此,我们的工作引入了自主实体验证技术,以填补这一空白,为创造性任务奠定了基础。特别地,我们提出了Luban代理,专注于《我的世界》中的创造性建筑任务,它配备了两级自主实体验证,灵感来源于人类设计实践:(1)视觉验证3D结构推测,通过代理自动生成的CAD建模程序实现;(2)实用验证,根据抽象标准生成并验证与环境相关的功能程序。广泛的多维度人类研究和Elo评级显示,Luban能够在我们提出的基准中完成多样化的创造性建筑任务,并在可视化和实用性方面分别比其他基线提高了33%到100%。此外,实现在真实世界机器人手臂上的演示展示了Luban在物理世界中的创作潜力。 |
2024-05-24 | CulturePark: Boosting Cross-cultural Understanding in Large Language Models | Cheng Li et.al. | 2405.15145 | link | 由于大型语言模型(LLMs)普遍存在文化偏见,主要源于缺乏代表不同文化的代表性数据。传统的文化数据集和基准通常通过从现有数据集中提取或聚合来自维基百科和社交媒体的信息构建,但这种方法依赖于现实世界的数据和人工标注,成本高且难以扩展。本文借鉴认知社会交流理论,提出CulturePark,一个利用LLMs的多代理沟通框架,用于文化数据收集。CulturePark通过模拟不同文化背景下的人类交流,让基于LLM的代理角色扮演,生成包含人类信念、规范和习俗的高质量跨文化对话。我们使用CulturePark生成了41,000个文化样本,对八种特定文化进行了模型微调。在三项下游任务评估中,这些模型的表现优于GPT-4:内容过滤、文化一致性(在霍夫斯泰德文化维度量表上)和文化教育。结果显示,我们的GPT-3.5模型在内容过滤任务上与GPT-4相当或优于它;在文化一致性方面,我们的模型在霍夫斯泰德文化维度量表13框架上超越GPT-4;在人类参与者的文化教育效果和用户体验上,我们的模型也表现出色。CulturePark对于减少文化偏见和推动AI的民主化具有重要意义,强调了文化包容性数据在模型训练中的关键作用。 |
2024-05-23 | AnalogCoder: Analog Circuit Design via Training-Free Code Generation | Yao Lai et.al. | 2405.14918 | link | ### 翻译 在现代芯片技术中,模拟电路设计是一个关键任务,它涉及组件选择、连接和参数设置以确保电路功能正常。尽管大型语言模型(LLMs)在数字电路设计方面取得了进步,但模拟电路的复杂性和数据稀缺性带来了挑战。为此,我们推出了AnalogCoder,这是首个无需训练的LLM代理,专为通过Python代码生成来设计模拟电路。首先,AnalogCoder采用反馈增强流程,并结合定制的领域特定提示,能够自动且自我校正地设计模拟电路,成功率高。其次,它提出了一套电路工具库,用于存储成功的电路设计作为可重用的模块化子电路,简化了复合电路的创建。实验结果显示,AnalogCoder在广泛覆盖模拟电路任务的基准测试上超越了其他基于LLM的方法,成功设计了20个电路,比标准GPT-4o多出5个。我们相信AnalogCoder能显著提升芯片设计过程的效率,让非专家也能高效设计模拟电路。相关的代码和基准已提供在:https://github.com/anonyanalog/AnalogCoder。 |
2024-05-23 | AGILE: A Novel Framework of LLM Agents | Peiyuan Feng et.al. | 2405.14751 | link | 我们提出了一种新颖的框架,称为LLM(大型语言模型)代理AGILE(能够与用户互动并从环境中学习的代理),旨在执行复杂的对话任务,利用LLMs、记忆、工具和专家交互。这种代理不仅具备对话能力,还具备反思、工具运用以及咨询专家的功能。我们将构建此类LLM代理视为强化学习问题,其中LLM作为策略模型。我们使用标注的行为数据和PPO算法对LLM进行微调。特别关注的是问答任务,为此我们发布了一个名为ProductQA的数据集,包含在线购物中的难题。我们在ProductQA和MedMCQA上的大量实验表明,基于130亿和70亿参数的LLM训练的AGILE代理能够超越GPT-4代理的表现。我们的 ablation研究强调了记忆、工具、咨询、反思和强化学习在实现优秀性能方面的重要性。 |
2024-05-23 | Exploring Prosocial Irrationality for LLM Agents: A Social Cognition View | Xuan Liu et.al. | 2405.14744 | null | 由于大型语言模型(LLMs)在训练数据中反映了人类偏见,它们可能会出现幻觉问题。这种情况下,一个关键问题是:LLMs是否能够利用幻觉来模仿人类的认知偏见,从而展现出非理性但社会性的一面?本文探讨了这一问题,通过结合实用的社会科学实验和理论洞察,提出CogMir,一个开放式多LLM框架,旨在利用LLMs的幻觉特性来评估和提升其社会智能,特别是在认知偏差方面。我们在CogMir子集上的实验结果显示,在不确定情境下,LLMs和人类在非理性及亲社会决策上表现出高度一致性,这表明LLMs作为社会实体的亲社会性,并突显了幻觉特性的关键作用。此外,CogMir框架展示了其作为研究LLMs社会智能的有价值平台的潜力。 |
2024-05-22 | HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model | Mustafa Yildirim et.al. | 2405.13547 | null | ## 背景 自动驾驶是一个复杂的任务,它需要先进的决策和控制算法。理解自动驾驶车辆决策的依据对于确保其在高速公路驾驶中的安全与有效性至关重要。本研究提出了一种新颖的方法,称为HighwayLLM,它利用大型语言模型(LLMs)的推理能力来预测ego车辆的未来导航路径点。该方法还采用预训练的强化学习(RL)模型作为高层次规划器,对合适的元级动作进行决策。HighwayLLM将RL模型的输出与当前状态信息相结合,生成安全、无碰撞且可解释的未来状态预测,从而构建出车辆的行驶轨迹。随后,基于PID的控制器引导车辆遵循LLM代理预测的路径点。这种LLM与RL和PID的融合提升了决策过程,并为高速公路自动驾驶提供了可解释性。 |
2024-05-19 | Human-Centered LLM-Agent User Interface: A Position Paper | Daniel Chin et.al. | 2405.13050 | link | 大型语言模型(LLM)-在-环应用已显示出有效理解用户命令、制定计划并相应地操作外部工具/系统的潜力。然而,LLM代理的操作范围局限于被动响应用户,需要用户根据底层工具/系统来表述需求。我们注意到LLM代理用户界面(LAUI)的潜力远未充分利用。理想的LAUI设想中,用户无需深入了解工具/系统,就能与之交互以探索新兴的工作流程。不同于设计固定的可探索GUI来教授用户使用系统的预设方式,LAUI中的LLM代理从一开始就对系统熟练,主动学习用户及其需求,并向用户提出新的互动方案。为了展示LAUI的概念,我们提供了一个具体例子:Flute X GPT,它结合了LLM代理、提示管理器和一个支持复杂实时体验的笛子教学多媒体软硬件系统,旨在简化学习吹奏笛子的过程。 |
2024-05-13 | METAREFLECTION: Learning Instructions for Language Agents using Past Reflections | Priyanshu Gupta et.al. | 2405.13009 | null | 尽管大型语言模型(LLMs)广受欢迎,但为其执行特定任务设计精确的提示仍是一个挑战。用户通常需要与基于LLM的代理进行多轮对话以达成目标。近期研究显示,模型自身的反馈,即自反思,能在对话过程中起到强化作用,有助于更快地达到期望结果。鉴于此,我们提出了一种新颖的方法——METAREFLECTION,它能从训练阶段收集到的个体自反思中学习特定领域的通用提示指令。我们在基础设施即代码(IAC)漏洞检测和问题解答(QA)领域,使用REACT和COT进行了实验。实验结果显示,METAREFLECTION显著优于GPT-4,分别在IAC、COT和REACT中的性能提升分别为16.82%、31.33%和15.42%,这表明METAREFLECTION有潜力提升LLMs的效率,是一种值得探索的策略。 |
2024-05-20 | Eliciting Problem Specifications via Large Language Models | Robert E. Wray et.al. | 2405.12147 | null | 这篇论文探讨了如何利用大型语言模型(LLMs)在认知系统中实现问题定义的转化。通常情况下,人类需要将问题描述转化为认知系统能理解的形式。研究者展示了LLMs能够处理自然语言中定义的问题类别,并将其转换为半形式化规格,这样现有推理和学习系统可以解决这类问题的具体实例。他们设计了一种由LLM驱动的认知任务分析师代理,这种系统能够根据自然语言描述的任务生成问题空间的定义。LLM提示源自人工智能文献中的问题空间概念和通用问题解决策略(如波利亚的《如何解决问题》)。随后,认知系统利用这些问题空间规格,结合领域通用的解决问题策略(如搜索),来解决该类问题的不同实例。这一初步结果表明,通过消除问题表述的中介过程,LLMs有可能加速认知系统的研究,同时保持其核心能力,如稳健的推理和在线学习。 |
2024-05-18 | MapCoder: Multi-Agent Code Generation for Competitive Problem Solving | Md. Ashraful Islam et.al. | 2405.11403 | link | 本文探讨了代码合成这一复杂任务,它需要深度理解复杂的自然语言问题描述、生成复杂的算法和数据结构代码,并执行全面的单元测试。尽管大型语言模型在自然语言处理方面表现出色,但在代码生成任务中的表现仍有待提升。为此,我们提出了一种新颖的方法,即多代理提示框架MapCoder,它模仿人类开发者编程合成的完整过程,分为四个专门设计的LLM(大语言模型)代理:回忆相关示例、规划、代码生成和调试。 通过在八个具有挑战性的竞赛级问题解决和程序合成基准上进行详尽实验,包括HumanEval(93.9%)、MBPP(83.1%)、APPS(22.0%)、CodeContests(28.5%)和xCodeEval(45.3%)等,MapCoder展现了出色的代码生成能力,实现了多项新的最先进的结果。而且,无论编程语言还是问题难度,我们的方法都表现出持续的优越性能。我们开源了该框架,供研究者参考:https://github.com/Md-Ashraful-Pramanik/MapCoder。 |
2024-05-16 | When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models | Xianzheng Ma et.al. | 2405.10255 | link | 随着大型语言模型(LLMs)的不断发展,它们与三维空间数据(3D-LLMs)的融合取得了显著进步,这极大地增强了理解和互动物理环境的能力。这篇综述详细探讨了使LLMs能够处理、理解并生成三维数据的方法论,强调了LLMs的独特优势,如上下文学习、逐步推理、开放词汇能力和丰富的世界知识,这些将极大地推动嵌入式人工智能(AI)系统在空间认知和交互方面的发展。研究涵盖了从点云到神经辐射场(NeRF)等各种三维数据表示,并考察了它们与LLMs在任务中的集成,如三维场景理解、描述、问答和对话,以及基于LLM的代理进行空间推理、规划和导航。论文还简要回顾了其他结合三维和语言的方法。本文的元分析揭示了明显的进展,但也强调了开发新方法以充分利用3D-LLMs潜力的必要性。因此,本文旨在为未来的研究方向指明道路,探索和扩展3D-LLMs在理解和互动复杂三维世界的能力。为了支持本综述,我们已在GitHub上建立了一个项目页面,整理并列出了相关论文:https://github.com/ActiveVisionLab/Awesome-LLM-3D。 |
2024-05-24 | DEBATE: Devil's Advocate-Based Assessment and Text Evaluation | Alex Kim et.al. | 2405.09935 | link | 随着自然语言生成(NLG)模型的普及,系统地评估机器生成文本的质量变得日益关键。近期的研究引入了基于大型语言模型(LLM)的无参考评价器,它们展现出处理新任务的能力。然而,这些模型通常采用单代理方法,我们认为这限制了它们的表现。因为LLM代理的回答存在偏见,比如对特定文本结构或内容的偏好。为此,我们在本工作中提出DEBATE,一个建立在多代理评分系统基础上的NLG评价框架,融入了“恶魔辩手”的概念。在该框架中,一个代理被指令批评其他代理的论点,从而可能消解LLM代理答案中的偏见。DEBATE在两个NLG评价元评估基准——SummEval和TopicalChat上显著优于先前的最佳方法。我们还发现,代理之间的辩论广度以及代理的人格特质会影响评价器的性能。 |
2024-05-05 | Self-Reflection in LLM Agents: Effects on Problem-Solving Performance | Matthew Renze et.al. | 2405.06682 | link | 在这个研究中,我们探讨了大型语言模型(LLMs)中自我反思对问题解决能力的影响。我们让九种流行的LLMs回答一系列选择题,以建立性能基线。对于回答错误的问题,我们指导八种不同类型的自我反思LLM代理反思其错误,并为自己提供改进问题解决的指导。然后,根据这些指导,每个反思型代理重新尝试回答同样的问题。研究结果显示,LLM代理通过自我反思显著提高了问题解决能力( |
2024-05-08 | Air Gap: Protecting Privacy-Conscious Conversational Agents | Eugene Bagdasaryan et.al. | 2405.05175 | null | 随着大型语言模型(LLMs)在对话式代理中的广泛应用,处理敏感用户数据时引发了严重的隐私问题。这些代理虽能理解并处理上下文,但也可能被恶意一方利用。为此,我们提出了一种新的威胁模型,即第三方应用通过操控交互上下文,误导LLM代理泄露与其任务无关的私人信息。在基于上下文完整性框架的基础上,我们开发了AirGapAgent,这是一种注重隐私的代理,旨在通过限制代理仅访问完成特定任务所需的数据,防止意外的数据泄漏。实验使用Gemini、GPT和Mistral模型作为代理,结果显示AirGapAgent在抵御基于单个查询的上下文劫持攻击方面表现出色。例如,对于Gemini Ultra代理,这种攻击从94%的保护能力降低到45%,而AirGapAgent可以保持97%的防护效果,使同样的攻击失效。 |
2024-05-07 | Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation | Atharvan Dogra et.al. | 2405.04325 | null | 近期大型语言模型(LLMs)的进展虽为构建自然语言代理提供了强大基础,但同时也引发了关于它们及其基于它们构建的自主代理的安全性担忧。特别是欺骗能力是一个关键问题,我们关注的是AI代理通过混淆和模棱两可来误导、隐藏真相或推广部分不真实的信念的行为。不同于以往AI安全研究中的撒谎、自私决策或提供虚假信息,我们聚焦于一类特殊的欺骗:类似于魔术师利用障眼法让兔子从帽子里出现,要么通过隐藏的暗门,要么通过转移注意力直接展示。 我们的新实验平台在一个有目标的环境中展示了LLM代理在对抗性对话系统中进行自然语言生成时的欺骗固有能力,该系统基于立法任务“游说”议案。在目标驱动的环境中,我们通过强化学习方法构建欺骗能力,结合语言哲学和认知心理学理论。研究发现,游说代理在对抗互动的后续强化试验中其欺骗能力提高了约40%,并且我们的欺骗检测机制能达到高达92%的识别率。这些结果揭示了人机交互中的潜在问题,即代理可能操纵人类以达成预设目标。 |
2024-05-07 | Granite Code Models: A Family of Open Foundation Models for Code Intelligence | Mayank Mishra et.al. | 2405.04324 | link | 大语言模型(LLMs)在代码领域的训练正在革新软件开发流程。如今,这些代码LLMs正逐步融入软件开发环境,以提升人类程序员的效率,并展现出自主处理复杂任务的潜力。要充分利用代码LLMs的全部效能,需要其具备生成代码、修复bug、解释和注释代码、维护仓库等多种功能。本文介绍Granite系列的解码器仅有的代码模型,专为代码生成任务而设计,训练数据涵盖116种编程语言。Granite Code模型家族包括从3亿到340亿参数的模型,适用于从复杂应用现代化到设备内存受限的多种应用场景。通过全面任务评估,Granite Code模型在开源代码LLM中的性能始终处于领先水平。该模型家族针对企业软件开发工作流进行了优化,表现出色于各种编码任务(如代码生成、修复与解释),是一款多用途的全能代码模型。我们以Apache 2.0许可协议发布所有Granite Code模型,供研究和商业使用。 |
2024-05-07 | Iterative Experience Refinement of Software-Developing Agents | Chen Qian et.al. | 2405.04219 | null | ### 概述 大型语言模型驱动的自主代理在软件开发等场景中展现出强大的自主性潜力。然而,当前静态经验范式依赖于通过启发式方法获取的固定历史经验集,这限制了代理的适应性和效率提升。为此,本文提出了迭代经验优化框架,允许语言模型在执行任务过程中动态调整和优化经验。我们定义了两种核心模式:顺序模式,根据任务批次内的最近经验进行改进;累计模式,积累所有先前任务批次的经验。通过引入经验淘汰策略,该方法优先选择高质量和常用的经验,有效地管理经验空间,提高效率。实验结果显示,尽管顺序模式可能带来更好的性能,但累计模式在稳定性方面更优。此外,通过淘汰策略,仅使用高质量经验子集的11.54%,就能实现更好的性能。 |
2024-05-06 | Large Language Models as Instruments of Power: New Regimes of Autonomous Manipulation and Control | Yaqub Chaudhary et.al. | 2405.03813 | null | ## 翻译 大型语言模型(LLMs)能够模仿各种修辞风格,生成表达广泛情感的文本,这种能力在低成本下迅速普及,带来了潜在的社会危害。本文并未孤立看待这些模型,而是关注它们背后大规模计算基础设施在各领域的应用。我们首先探讨了LLMs如何通过污染和标准化信息环境来影响社会,并指出这些功能可能被用作控制手段。接下来,我们将焦点转向几个新兴研究领域,这些领域增强了LLMs作为权力工具的能力: 1. 通过实时设计对话界面中的选择架构(如“AI角色”),进行说服策略。 2. 利用LLM构建人类行为的计算模型(如“硅质主体”)。 3. 将LLM应用于模拟人类群体行为(如“硅质社会”)。 4. 结合强化学习,创建可控制和导向的战略对话模型。 综合以上几点,我们讨论了如何利用这些技术构建基于LLMs的系统,这些系统通过模拟和伪装的“预测”,成为个体、社会和政治控制的强大工具,操控人类的行为、意图和行动。 |
2024-05-05 | Language Evolution for Evading Social Media Regulation via LLM-based Multi-agent Simulation | Jinyu Cai et.al. | 2405.02858 | link | 社交媒体平台如Twitter、Reddit和新浪微博在全球交流中扮演重要角色,但它们在地缘政治敏感区域常常受到严格监管。这促使用户在受限的社交媒体环境中巧妙地调整沟通方式,经常使用编码语言。这种语言模式的变化不仅是为了对抗监管,也是语言演化的生动例证,展示了社会和技术压力下语言如何自然演变。研究受限制社交媒体环境下语言的演变对于保障言论自由、优化内容管理以及推动语言学研究至关重要。本论文提出了一种基于大型语言模型(LLMs)的多代理模拟框架,用于探索在严格监管下的用户语言进化。该框架包含对话监督的LLM驱动代理和参与者代理,它们在互动中发展语言策略,模拟在规避社交媒体规则的环境中交流方式的演变。通过从抽象场景到现实情境的多种情景评估,研究结果显示LLMs能够有效模拟受限环境中的复杂语言动态和交互,随着进化,它们在规避监督和信息准确性方面表现出提升。此外,研究发现LLM代理针对不同的场景采用了不同的策略。 |
2024-05-02 | OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning | Shihao Wang et.al. | 2405.01533 | link | 随着大规模多模态语言模型(MLLMs)的进步,人们对于基于这些模型的自动驾驶系统表现出日益增长的兴趣,期望利用它们强大的推理能力。然而,将MLLMs的强项应用于驾驶任务的规划部分是一个挑战,因为规划需要对三维环境有全面的理解,而不仅仅是二维推理。为此,我们的工作提出了一种框架,旨在实现模型与3D驾驶任务的紧密契合。我们首先设计了一个新颖的3D MLLM架构,它利用稀疏查询技术将视觉表示提升并压缩到三维空间,然后将其输入到语言模型中。这种基于查询的表示方式使得我们可以同时编码动态物体和静态地图元素(如道路),为感知和行动的对齐提供一个简化的三维世界模型。 此外,我们还创建了OmniDrive-nuScenes,这是一个新的视觉问答数据集,它通过全面的视觉问答任务(如场景描述、交通规则理解、三维定位、反事实推理、决策制定和规划)来考验模型在复杂三维场景中的真正情境意识。大量的实验结果表明,我们的提出的架构有效,并强调了在复杂三维环境中进行推理和规划时,视觉问答任务的重要性。 |
2024-05-02 | CACTUS: Chemistry Agent Connecting Tool-Usage to Science | Andrew D. McNaughton et.al. | 2405.00972 | link | 这篇论文介绍了一种名为CACTUS的大型语言模型,它结合了化学信息学工具,旨在提升在化学和分子发现领域的高级推理与问题解决能力。研究者们使用包括Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b和Mistral-7b在内的多款开源大语言模型,对CACTUS进行了广泛的性能评估,通过数千个化学问题的基准测试。结果显示,CACTUS明显优于基础模型,其中Gemma-7b和Mistral-7b无论采用何种提示策略,表现最为出色。论文还探讨了领域特定提示和硬件配置对模型性能的影响,强调了提示工程的重要性,并指出在消费级硬件上部署较小模型可能不会显著牺牲准确性。 CACTUS通过融合开源大语言模型的认知功能与专业工具,能够协助研究人员进行分子性质预测、相似性搜索和药物适用性评估等任务。作为化学信息学领域的重大突破,CACTUS为化学家和分子探索者提供了一个灵活的工具,有望加速科学研究,推动新型有效、安全药物、催化剂和材料的发现。此外,CACTUS与自动化实验平台的集成以及实时数据驱动决策的能力,为自主发现开辟了新的可能。 |
2024-04-29 | Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs | Bahar Radmehr et.al. | 2404.18978 | null | 随着教育环境中对学习者模型日益增长的兴趣,研究重点逐渐转向如何通过强化学习(RL)与大型语言模型(LLMs)相结合,提升在开放性文本学习环境中的通用能力。本文探讨了三种类型的代理:(1)基于RL的代理,使用自然语言表示状态和行动策略以寻找最佳互动方式;(2)基于LLM的代理,利用模型的广泛知识和推理能力通过提示进行操作;(3)混合LLM辅助RL的代理,旨在提高性能和泛化能力。为了支持这些代理的发展和评估,我们提出了PharmaSimText,这是一个源自PharmaSim虚拟药店环境的新基准,专注于诊断对话实践。实验结果显示,RL基础的代理在任务完成方面表现优秀,但在提问质量上有所欠缺;而LLM基础的代理在提问能力上较强,但任务完成度不高。最后,混合LLM辅助RL的代理展示了克服这些局限性的潜力,证实了RL与LLMs结合用于开发开放性学习环境高表现代理的可能性。 |
2024-04-27 | CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments | Kaixuan Huang et.al. | 2404.18021 | null | 随着基因组工程技术的兴起,精确修改遗传信息已成为可能,但高效基因编辑系统的构建需要深入理解CRISPR技术及其复杂实验背景。大型语言模型(LLMs)在诸多任务中展现出潜力,但在生物设计问题上往往缺乏特定知识。本文介绍CRISPR-GPT,一个增强型LLM代理,它结合了领域知识和外部工具,以自动化并提升基于CRISPR的基因编辑实验设计过程。CRISPR-GPT利用LLMs的推理能力,协助选择CRISPR系统、设计引导RNA、推荐细胞递送方法、起草协议以及设计验证实验以确认编辑结果。我们展示了CRISPR-GPT如何帮助非专家研究人员从头开始进行基因编辑实验,并通过实际案例验证其有效性。同时,我们探讨了自动化基因编辑设计的伦理和监管问题,强调了负责任和透明使用此类工具的重要性。我们的工作目标是弥合初级生物研究者与CRISPR基因组工程技术之间的鸿沟,展示LLM代理在促进复杂生物发现任务中的潜力。 |
2024-04-27 | Testing and Understanding Erroneous Planning in LLM Agents through Synthesized User Inputs | Zhenlan Ji et.al. | 2404.17833 | null | 随着大型语言模型(LLMs)驱动的代理在各种商业应用中,特别是在心理健康支持、化学合成和软件开发等领域展现效用,人们发现这些代理在处理复杂任务和长期规划时容易产生错误。为此,本文提出了一种新颖的自动化方法——PDoctor,旨在检测和理解LLM代理的错误规划。PDoctor首先定义了一个领域特定的语言(DSL),用于用户查询,并借助Z3约束求解器生成各种输入,这些输入是描述一系列任务完成需求的自然语言段落。然后,PDoctor从这些需求中提取约束,形成一个测试基准。我们使用三个主流的代理框架和两个强大的LLMs(GPT-3.5和GPT-4)对PDoctor进行了评估,结果显示它能有效识别代理规划中的各种错误,并为开发者和用户提供了有价值的见解和错误特性。最后,我们讨论了可能的替代设计和扩展PDoctor的方向。 |
2024-04-26 | PLAYER: Enhancing LLM-based Multi-Agent Communication and Interaction in Murder Mystery Games* | Qinglin Zhu et.al. | 2404.17662 | link | 随着大型语言模型(LLMs)的最新进展,增强了代理间的通信和社会交互能力。然而,在涉及竞争与合作的动态环境中,利用这些模型进行复杂推理的构建仍然面临挑战,尤其是因为基于信息图的搜索方法存在局限性。为此,我们提出PLAYER,这是一个基于任意采样式规划器的新框架,它结合了传感器和剪枝技术,构建了一个完全依赖于问题驱动的搜索框架,适用于高难度的推理任务。我们还引入了一种可量化的评估方法,通过多项选择题来测试,并创建了WellPlay数据集,包含1,482个问答对。实验结果表明,PLAYER*在复杂动态环境中的效率和性能优于现有方法,并提供了可量化的对比结果。* |
2024-04-24 | Autonomous LLM-driven research from data to human-verifiable research papers | Tal Ifargan et.al. | 2404.17605 | link | 随着人工智能推动科学发现的步伐加快,人们还不清楚完全由AI驱动的研究是否可行,以及它能否遵循关键的科学价值观,如透明度、可追溯性和可验证性。为了模拟人类的科学研究实践,我们构建了“数据到论文”(data-to-paper),这是一个自动化平台,引导相互协作的人工智能代理通过完整的分步骤研究流程,同时程序化追踪信息流,并允许人类监督和互动。在自动模式下,仅提供标注数据,该平台就能提出假设,设计研究计划,编写和调试分析代码,生成和解读结果,甚至创建完整且信息可追溯的科研论文。尽管研究新颖性有限,但这一过程展示了AI自主从数据中生成原创定量洞察的能力。对于简单的研究目标,全自动流程能创作出大约80-90%无需重大错误的稿件,然而随着目标复杂性的增加,人类的共同参与对于保证准确性至关重要。此外,生成的论文本身也具有内在的可验证性,因为信息追踪使得结果、方法和数据的链接可以程序化进行。因此,我们的工作表明,AI驱动的科研可以加速科学发现,同时增强而非威胁透明度、可追溯性和可验证性。 |
2024-04-11 | The Future of Scientific Publishing: Automated Article Generation | Jeremy R. Harper et.al. | 2404.17586 | null | 这项研究介绍了一种创新的软件工具,它利用大型语言模型(LLM)提示,实现了从Python代码自动生成学术文章,这对于生物医学信息学和计算机科学领域具有重要意义。选择Python作为基础示例,因其广泛使用和强大的数据分析能力。该方法和框架的灵活性使得其适用于多种GitHub仓库,表明了工具的广泛应用潜力(Harper,2024年)。通过简化传统上耗时的学术写作过程,特别是在整合复杂数据集和代码输出方面,这一突破性进展推动了科研成果的快速传播。开发过程中并未依赖高级语言模型,确保了自动化生成内容的连贯性和完整性。此次探索不仅验证了软件的成功应用和效率,还预示了未来可能集成更先进的LLM,将进一步增强其功能,引领一个科研发现发布更加迅速和易获取的时代。 |
2024-05-09 | Large Language Model Agent as a Mechanical Designer | Yayati Jadhav et.al. | 2404.17525 | null | 传统的机械设计方法依赖于专家通过经验引导的修改和有限元分析(FEA)来满足特定需求,但这个过程耗时且高度依赖个人知识。尽管已经开发了许多机器学习模型来简化繁琐的专家驱动迭代过程,但它们通常需要大量训练数据和计算资源。深度学习方法往往局限于其训练领域和任务,限制了跨任务应用。这在自动化效率与资源需求之间形成了权衡。 本研究提出了一种新颖的方法,即将预训练的语言模型(LLMs)与有限元模块结合。有限元模块评估每个设计并提供关键反馈,引导LLMs不断学习、规划、生成和优化设计,无需针对特定领域进行专门训练。我们通过在桁架结构的迭代优化中展示这种框架的有效性,证明它能够根据结构化的反馈和标准调整设计。结果显示,基于LLM的代理成功生成符合自然语言描述的桁架结构设计,成功率高达90%,这取决于所施加的约束条件。通过提示式优化技术,我们展示了LLM代理在接收到解-得分对后,能够根据其内在推理能力迭代优化设计以满足规格要求。 LLM代理能够产生可行的设计并根据其固有的推理能力进行优化,这表明它们有潜力自主发展和实施有效的设计策略。 |
2024-04-26 | Ruffle&Riley: Insights from Designing and Evaluating a Large Language Model-Based Conversational Tutoring System | Robin Schmucker et.al. | 2404.17460 | null | 本文讨论并评估了一种新型的对话式辅导系统(Conversational Tutoring Systems,CTS),该系统利用大型语言模型(Large Language Models,LLMs)的最新进展。首先,系统通过自动从课程文本中生成易于编辑的教学脚本,实现AI辅助的内容创作。其次,系统通过两个基于LLM的代理(Ruffle和Riley)以学习教学模式运行,分别扮演学生和教授角色,进行自由形式的对话,遵循典型的人工智能辅导系统的内环和外环结构。我们在两个在线用户研究(N=200)中对比了该系统与简单的问答聊天机器人和阅读活动在支持生物学课程的效果。研究分析了系统使用模式、预后测试成绩以及用户体验调查,结果显示用户对Ruffle&Riley的参与度高,理解力强,并认为提供的支持有帮助。尽管Ruffle&Riley用户的完成时间较长,但在短期学习成效上并未发现显著差异,优于阅读活动。我们的系统架构和用户研究为未来CTS设计者提供了有价值的信息。此外,我们开源我们的系统,以促进基于LLM的学习技术有效教学设计的研究。 |
2024-04-26 | A Unified Debugging Approach via LLM-Based Multi-Agent Synergy | Cheryl Lee et.al. | 2404.17153 | link | 在软件调试这个耗时的过程中,人们一直在努力实现自动化,包括故障定位和修复生成。近年来,大型语言模型(LLMs)在自动化调试方面展现出巨大潜力。然而,我们发现了传统和基于LLM的调试工具面临三大挑战:1)上游的故障定位不准确会波及下游的修复;2)处理复杂逻辑错误的能力不足;3)忽视程序上下文。针对这些问题,我们提出了首个自动化的、统一的调试框架——FixAgent,通过LLM代理协同。FixAgent能执行端到端的故障定位、修复和分析。 我们的关键洞察是,LLMs能够从人类开发者认可的通用软件工程原则中获益,比如“橡皮鸭调试”,这有助于更好地理解程序功能和逻辑错误。为此,我们设计了三个灵感来源于“橡皮鸭”的解决方案:代理专业化与协同、关键变量跟踪和程序上下文理解,促使LLMs提供明确的解释,并聚焦于关键的程序逻辑信息。在广泛使用的QuixBugs数据集上,FixAgent成功修复了80个bug中的79个,其中9个是之前未解决的。它还在CodeFlaws上合理地修复了1.9倍于最佳修复工具的缺陷,而且无需位置信息,采样率低于0.6%。平均而言,与使用不同LLM的基线模型相比,FixAgent提高了约20%的合理修复和正确修复率,显示出我们设计的有效性。 此外,FixAgent的正确率高达97.26%,表明它有可能克服现有方法的过拟合问题。总结来说,FixAgent是一个有前景的自动化调试框架,旨在提升软件调试的效率和准确性。 |
2024-04-25 | Cooperate or Collapse: Emergence of Sustainability Behaviors in a Society of LLM Agents | Giorgio Piatti et.al. | 2404.16698 | link | 在快速发展的人工智能领域,确保大型语言模型(LLMs)的决策安全是一项重大挑战。本文提出了一种名为“Governance of the Commons Simulation”(GovSim)的模拟平台,旨在研究LLMs中的战略互动和合作决策。通过这个环境,我们探讨了AI代理之间资源分享的动态,强调了伦理考量、战略规划和谈判技巧的重要性。GovSim具有灵活性,支持文本型代理,包括LLMs。利用生成式代理框架,我们创建了一个通用代理,便于整合不同的LLMs。我们的研究发现,在GovSim中,只有15个测试模型中的2个能够实现可持续结果,这表明模型在管理共享资源的能力上存在显著差距。进一步的研究显示,如果移除代理之间的通信能力,它们会过度使用共享资源,突出了合作中沟通的关键性。有趣的是,大多数LLMs缺乏普遍化的假设能力,揭示了它们推理技能的一个重要弱点。我们开源了所有研究结果,包括模拟环境、代理提示以及全面的网络界面,以供进一步研究和讨论。 |
2024-04-24 | Online Personalizing White-box LLMs Generation with Neural Bandits | Zekai Chen et.al. | 2404.16115 | null | 随着大型语言模型(LLMs)开始生成个性化的文本内容,如何在不为每位用户创建独特模型的资源消耗下实现高效个性化成了新挑战。本文提出了一种创新的在线方法,利用神经_bandit算法动态优化软指令嵌入,根据用户反馈调整内容,从而提升白盒LLMs开放性文本生成的个性化水平。通过在多个任务上的严谨实验,我们证明了这种方法相对于基础策略有显著性能提升。特别是针对个性化新闻标题生成,NeuralTS带来了高达62.9%的最佳ROUGE分数提升以及2.76%的LLM代理评估分数增长,这表明其效果显著。 |
2024-04-04 | Elicitron: An LLM Agent-Based Simulation Framework for Design Requirements Elicitation | Mohammadmehdi Ataei et.al. | 2404.16045 | null | ## 翻译 在产品开发的关键阶段——需求获取,往往难以全面捕捉用户需求,导致最终产品可能无法满足期望。为此,本文提出了一种新颖的框架,它利用大型语言模型(LLMs)来自动化和增强这一过程。通过生成大量模拟用户(LLM代理),我们可以探索更广泛的用户需求和未预见的使用场景。这些代理通过描述他们的行为、观察和挑战,参与产品体验情景。随后的代理访谈和分析揭示了宝贵的用户需求,包括潜在需求。我们通过三个实验验证了我们的框架:首先,我们探讨了不同方法生成多样化的代理,分析其优缺点,并证明了具有上下文意识的代理生成能带来更大的需求多样性。其次,我们展示了该框架如何有效地模拟富有同情心的领先用户访谈,识别出比传统人类访谈更多的潜在需求。最后,我们展示了如何使用LLMs分析访谈,提取需求并将其分类为潜在或非潜在。我们的研究工作强调了利用LLM代理加速早期产品研发、降低成本和促进创新的潜力。 |
2024-04-24 | A Human-Computer Collaborative Tool for Training a Single Large Language Model Agent into a Network through Few Examples | Lihang Pan et.al. | 2404.15974 | null | ## 翻译 单个大型语言模型(LLM)在解决复杂任务方面的能力有限。然而,通过连接多个LLM代理构建的网络可以显著提升整体性能。本文介绍了一种人机协作工具——EasyLAN,旨在帮助开发者轻松构建LLM代理网络(LAN)。EasyLAN首先根据任务描述自动生成仅包含一个代理的初始网络。接着,它利用少量训练示例来调整网络。对于每个示例,EasyLAN分析输出与真实结果之间的差距,并找出错误的原因。EasyLAN会采用精心设计的策略来修正这些问题。用户可以介入EasyLAN的工作流程或直接修改LAN。最终,LAN从单个代理发展成多代理的网络。实验结果显示,EasyLAN能够帮助开发者快速构建性能良好的LAN。 |
2024-04-03 | Concept-Guided LLM Agents for Human-AI Safety Codesign | Florian Geissler et.al. | 2404.15317 | null | 随着生成人工智能在软件工程,特别是安全工程中的重要性提升,对它的质量要求也随之提高。单纯依赖大型语言模型(LLMs)已不足以满足这些需求。因此,我们提出了一种高效且融合的策略,旨在利用LLMs进行安全分析和人机协同设计,以确保软件系统的安全性。我们开发了一个定制化的LLM代理,结合提示工程、启发式推理和检索增强生成,专注于解决与预定义安全概念相关的任务,并与系统模型图进行交互。决策流� |