织梦CMS - 轻松建站从此开始!

欧博ABG-会员登录-网站

【Agent】AI智能体(Agent)能力定义与分级:L0

时间:2025-01-29 09:35来源: 作者:admin 点击: 7 次
AI智能体被定义为感知环境、做出决策和采取行动的人工实体。 AI Agent 可以类比为自动驾驶的 L4 阶段,距离真正实现仍有差距。 根据甲子光年报告,AI 与人 类的协作程度可以和自动驾驶等级进行类比。像 ChatGPT 这类对话机器人可以类比 L2 级别自动 驾驶,人类可以向 AI 寻求意见,

AI智能体被定义为感知环境、做出决策和采取行动的人工实体。

AI Agent 可以类比为自动驾驶的 L4 阶段,欧博abg距离真正实现仍有差距。

根据甲子光年报告,AI 与人 类的协作程度可以和自动驾驶等级进行类比。像 ChatGPT 这类对话机器人可以类比 L2 级别自动 驾驶,人类可以向 AI 寻求意见,但 AI 不直接参与工作;Copilot 这类副驾驶工具可以类比为L3 级 别的自动驾驶,人类和 AI 共同协作完成工作,AI 根据 prompt 生成初稿,人类仅需进行修改调整;而 Agent 则进一步升级为 L4,人类给定一个目标,Agent 可以自己完成任务规划、工具调用等。但就如同 L4 级别的自动驾驶还未真正实现一样,AI Agents 容易想象和演示,却难以实现,AI Agents 的真正应用还在不确定的未来。

受到SAE(汽车工程师协会)定义的6个自动驾驶级别的启发,我们将AI智能体能力分为:L0-没有人工智能;L1-规则符号智能;L2-推理决策智能;L3-记忆反思智能;L4-自主学习智能;L5-个性群体智能。后续会给出分级具体定义。

1 - 引言

任何能够感知其环境并执行行动的实体都可以被视为智能体。

智能体可以分为五种类型:简单反射智能体、基于模型的反射智能体、基于目标的智能体、基于效用的智能体和学习智能体[1]。

随着AI的发展,“智能体”一词被用来描述表现出智能行为并具有自主性、反应性、主动性和社交互动等能力的实体。

在20世纪50年代,艾伦·图灵提出了著名的图灵测试[2]。它是AI的基石,旨在探索机器是否能够展示与人类相当或更好的智能行为。这些AI实体通常被称为“智能体”,构成了AI系统的基本构建块。

基础模型[3]在NLP领域最为突出。从技术层面上,基础模型是通过迁移学习和规模实现的。迁移学习的思想是将从一项任务中学到的“知识”应用到另一项任务中。基础模型通常遵循这样一个范式:一个模型在代理任务上预训练,然后通过微调适应感兴趣的下游任务。最近出现的大多数大型语言模型(LLMs)[4]都是基于或建立在基础模型之上的。由于最近展示的卓越能力,LLMs被视为AI向人工通用智能(AGI)渗透的潜在力量,为构建通用AI智能体提供了希望。

AI智能体通常指的是能够使用传感器感知周围环境、做出决策和使用执行器采取行动的人工实体[5]。根据世界范围(WS)[6]的概念,它通过包含从NLP到通用AI的5个级别(即语料库、互联网、感知、具体化和社会)来审计NLP的进展,纯基于LLM的智能体仅建立在从书面互联网世界的第二级。除此之外,欧博官网LLMs在知识获取、指令解释、泛化、规划和推理方面证明了卓越的能力,同时展示了与人类的自然语言互动。从这个状态出发,LLM辅助的智能体具有扩大的感知空间和行动空间,有潜力达到世界范围的第三和第四级别,即感知AI和具体化AI。此外,这些基于LLM的智能体可以通过协作或游戏处理更困难的任务,并且可以发现社会现象,实现世界范围的第五级别,即社会世界。

第2节中,简要回顾了LLMs;

第3节详细阐述了各种AI智能体;

第4节分析并定义了AI智能体的级别;

最后给出结论。

2 - 大语言模型(LLMs)

LLMs[4]是基于Transformer的语言模型类别,其特点是拥有大量的参数,通常数以千亿计甚至更多。这些模型在庞大的文本数据集上进行训练,使它们能够理解自然语言并执行广泛的复杂任务,主要通过文本生成和理解。一些知名的LLMs示例包括GPT3/4、PaLM、OPT和LLaMA1/2。

广泛的研究表明,规模可以大大提高LLMs的模型容量。因此,建立一个定量方法来描述规模效应是有用的。有两种代表性的Transformer语言模型的规模定律:一种来自OpenAI[7],另一种来自Google DeepMind[8]。"预训练+微调"的过程被另一种称为"预训练+提示+预测"的过程所取代[9]。在这个范式中,不是通过目标工程将预训练的语言模型(LM)适应到下游任务,而是将下游任务重新构建,使其看起来更像是在原始LM训练期间通过文本提示解决的问题。通过选择适当的提示,可以操纵模型行为,以便预训练的LM本身可以用来预测所需的输出,有时甚至不需要任何额外的任务特定训练。

提示工程[10]的工作原理是找到最合适的提示,欧博以允许语言模型解决手头的任务。LLMs的新兴能力是区分它们与较小语言模型的最重要特征之一。具体来说,上下文学习(ICL)[11]、指令跟随[12]和思维链(CoT)推理[13]是LLMs的三种典型新兴能力。参数高效微调(PEFT)[14]是一种关键技术,用于将预训练的语言模型(LLMs)适应到专门的下游应用中。PEFT可以细分为基于添加的、基于选择/规范的或基于重新参数化的。它只需要微调一小部分参数,使其方便用于边缘设备,并且可以有效缓解灾难性遗忘问题。由于LLMs被训练以捕获预训练语料库(包括高质量和低质量数据)的数据特征,它们可能会为人类生成有毒的、有偏见的甚至有害的内容。有必要使LLMs与人类价值观保持一致,例如,有帮助、诚实和无害。从人类反馈中进行强化学习(RLHF)[15]已成为微调LLM系统以更紧密地与人类偏好对齐的关键策略。

受到LLMs潜力的激励,提出了许多多模态LLMs(MLLMs)[16],以将LLMs扩展到多模态领域,即感知图像/视频输入,并在多轮对话中与用户交流。在大量图像/视频-文本对上预训练,上述模型只能处理图像级任务,如图像字幕和问题回答。在强大的预训练LLM权重的基础上,多模态LLMs旨在处理除文本之外的多种类型的输入。多模态LLMs已广泛应用于各种任务,如图像理解、视频理解、医学诊断和具体化AI等。人们认为LLMs配备了类似人类的智能和常识,保留了使我们更接近人工通用智能(AGI)领域的潜力。LLMs的出现可能是知识驱动智能体的里程碑,它们感知环境并积累知识[17-27]。

3 - AI智能体

随着人工智能的发展,“智能体”一词被用来描述表现出智能行为和拥有自主性、反应性、主动性和社会互动等能力。20世纪50年代,Alan Turing提出著名的图灵测试。它是人工智能的基石,旨在探索机器是否能表现出智能与人类相当的行为。这些人工智能体通常被称为“Agent”,作为基本单元模块构建AI系统。

AI智能体能够根据其训练和输入数据进行理解、预测和响应。在这些能力得到发展和改进的同时,了解它们的局限性以及它们所训练的基础数据的影响是很重要的。AI智能体系统有一些能力:1)感知和预测建模。2)规划和决策制定。3)自我学习和持续改进;4)执行和互动;5)个性化和协作。具体化智能/AI的目标是构建智能体,欧博娱乐例如机器人,它们通过智能体与环境之间的交互学习解决任务。

对于AI智能体来说,学习行动的有效方法,如RL,是通过与环境的交互进行试错体验。在物理环境中进行训练通常是不可行的,因此使用模拟器来学习策略是一种常见方法。

符号AI[17-18]应用逻辑规则和符号表示来封装知识和促进推理过程,在其中关键问题是转导和表示/推理。一个经典的例子是知识型专家系统。符号智能体在不确定性和大规模问题上面临限制。它们主要依赖于固定的算法或规则集,在它们构建的任务中表现良好。然而,它们通常很难在面对OOD(分布外)任务时进行泛化和推理。

基于RL的智能体[19-24]通过与环境的交互进行累积奖励学习,以处理更困难的任务。一个例子是使用Q学习的AlphaGo。尽管如此,RL的问题是长时间的训练、低样本效率和稳定性问题,特别是在现实世界环境中。

知识智能体可以隐式或显式地利用知识。隐性知识通常是LLMs封装的,显性知识是结构化的,被查询以生成响应。隐性和显性知识的结合使AI智能体能够像人类智能一样在上下文中应用知识。基于LLM的智能体[25-35]将LLMs作为大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略扩展它们的感知和行动空间。它们可以通过思维链(CoT)和任务分割等技术启用推理和规划能力。

LLMs的出现对AI智能体设计产生了重大变化。这些LLM智能体不仅精通理解和生成自然语言,而且擅长泛化。这种能力使它们能够轻松地与各种工具集成,增强了它们的多功能性。另一方面,LLMs的新兴能力在推理方面显示了优势。具有预训练知识的LLM智能体即使没有特定任务的训练,也倾向于决策策略。另一方面,RL智能体通常需要在看不见的情况下从头开始训练,使用交互来学习。

基于LLM的智能体可以相互交互,导致社会现象的出现。在基于LLM的多智能体系统(MAS)中,智能体参与协作、竞争或层次平台来执行任务。这些任务可以从搜索和优化、决策制定和资源分配到协作控制开始。智能体之间的关系决定了它们之间的互动和合作状态。情感推理和移情是许多人工智能-机器交互中智能体的重要技能。

4 - AI智能体级别

Agent可以可分为五种类型:简单反射Agent、基于模型的反射Agent、基于目标的Agent、实用性Agent和学习Agent。

借鉴汽车工程师协会(SAE)对自动驾驶定义的分级方式,Agent根据其效能和能力被分为以下几个层次:

L0级—没有 AI,仅有基本的工具(能实现感知)和行为能力;

L1级—采用基于规则的 AI;

L2级—转而使用基于互动学习(IL)/强化学习(RL)的 AI,并增添推理和决策能力;

L3级—改用基于LLM的 AI 替换互动学习/强化学习的方式,并增加记忆(Memory)与自我反思(reflection);

L4级—在 L3的基础上,加强自我学习和泛化的能力;

L5级—在 L4的基础上,增加了个性(情感+性格)和协作行为(MultiAgent)。

基于能力的范围(普遍性)和深度(性能),一种分类AGI的矩阵方法在[28]中给出,如下表1所示。其中性能(Performance)指标估计AGI与人类在给定任务上的性能水平的比较;普遍性(Generality)指标衡量AI达到目标性能阈值的任务范围。性能和/或普遍性级别的进展速率可能是非线性的。

个人LLM智能体[35]所需的理想特性需要不同种类的能力。个人LLM智能体的智能级别被分为5个级别,从L1到L5。每个级别的关键特征和代表性用例列在下面的表2中。

在本文中,我们根据技术和能力来定义和划分AI智能体的级别如下:

4.1 工具(感知+行动)

各种外部工具支持智能体更丰富的行动能力,包括API、知识库、视觉编码模型和语言模型,使智能体能够适应环境变化,提供交互和反馈,甚至影响环境。工具执行可以反映智能体的复杂要求,并增强其决策的可信度。行动模块的目标是将智能体的决策转化为具体结果。它与环境互动并获取反馈,决定智能体实现任务的有效性。人类反馈与环境的有效性可以使智能体验证其行动结果。行动可以具有感知模块、低级运动规划器和控制器,特别是在机器人和自动驾驶中。特别是,感知模块,像人类的感觉系统,即眼睛和耳朵,感知环境的变化,然后将多模态信息转换为智能体的统一表示。如果智能体配备了记忆模块,记忆回忆可以是行动策略,使智能体能够根据存储在记忆模块中的经验做出决策。智能体可以利用多轮来确定适当的响应作为行动,特别是对于对话目的的聊天智能体。行动的后果可能包括环境的变化、智能体内部状态的变化、新行动的启动以及在人工智能交互场景中对人类感知的影响。

4.2 推理与决策制定

推理对人类智能至关重要,是解决问题、决策制定或规划以及关键分析的基础。演绎、归纳和溯因是推理的主要形式。传统的推理主要依赖于符号方法或模仿/强化学习基础的方法。但观察到这些方法有几个缺点。符号方法需要将自然语言描述的问题转换为规则,这可能需要手动帮助。大多数情况下,这种方法对错误敏感。模仿学习(IL)和强化学习(RL)方法通常与深度神经模型结合使用,作为策略网络、价值函数或奖励模型。虽然RL方法需要大量的样本(与环境的交互),但IL算法很难处理看不见的场景。对于基于LLM的智能体,像人类一样,推理对于解决复杂任务至关重要。它们可能在预训练或微调期间拥有推理能力,或者在达到一定规模后出现。思维链(CoT)是LLMs中推理的代表性方法,它通过提示中的少量语言示例逐步解决复杂的推理问题。通过将复杂任务分解为可执行的子任务,LLMs制定计划和决策的能力显著提高。CoT的扩展包括思维树(ToT)和思维图(GoT),假设人类倾向于以树状或图状的方式思考。多路径思维进一步增强了智能体解决更复杂规划任务的能力。推理通过规划或决策制定进行。规划模块使基于LLM的智能体具有推理和规划任务的能力,无论是否有反馈。与传统智能体调用规划方法如Dijkstra和POMDP以获得最佳行动和计划不同,基于RL的智能体需要学习策略。基于LLM的智能体从LLM实现其规划能力。此外,LLMs在意图理解和其他方面显示出显著的潜力。

基于LLM的智能体可能无法通过提示达到正确的知识,甚至面临幻觉问题。专门的工具使LLMs能够增强其专业知识并适应领域知识。基于LLM的智能体的决策过程缺乏透明度,在高风险领域不太可靠。此外,LLMs对对抗性攻击不容忍。量身定制预训练模型的力量,只需少量数据进行微调,LLMs就可以在下游任务中表现出更强的性能。与仅作为固定知识库的功能不同,基于LLM的智能体表现出适应新任务的强大学习能力。指令调整的LLMs展示了无需微调的零样本泛化。LLMs可以通过遵循指令,在训练阶段未出现的新任务中实现。通过将原始输入与几个示例作为提示结合起来,少量上下文学习(ICL)提高了LLMs的预测性能,以增强上下文。为了模仿人类在反馈经验方面的能力,可以设计规划模块以从环境、人类和模型接收反馈,提高基于LLM的智能体的规划能力。外部反馈作为规划成功或失败的直接评估,构建闭环规划。

4.3 记忆+反思

记忆模块在AI智能体中起着关键作用。它存储从环境感知中提取的信息,并将存储的记忆应用于促进未来的行动。记忆模块可以帮助智能体收集经验、自我学习和以更合理和有效的方式行动。短期记忆保持并以符号形式保留相关信息,确保其在决策过程中的可访问性。长期记忆从早期决策过程中积累经验,包括历史事件流、用户与智能体或其他形成智能体经验的交互信息。反思模块旨在使智能体能够压缩和推导出更高级的信息,或自主验证和验证其行动。它帮助智能体解释属性、偏好、目标和连接,从而监督它们的行为。它以多种形式出现:(1)自我总结。(2)自我验证。(3)自我纠正。(4)移情。通过LLMs辅助的智能体,利用内部反馈机制,通常会产生来自预先存在的模型的见解,以改进和增强规划方法。它们可能从真实或虚拟环境中获得反馈,例如任务完成或行动响应的提示,帮助它们修订和完善策略。

4.4 泛化与自主学习

少量上下文学习(ICL)通过将原始输入与几个示例作为提示连接起来,以增强上下文,从而提高LLMs的预测能力,其关键思想类似于人类的学习过程。指令调整的LLMs展示了无需特定任务微调的零样本泛化。提示对于合理的预测至关重要,直接对提示进行训练可以增强模型对看不见任务的鲁棒性。通过扩大模型规模和训练指令的多样性,可以进一步提高泛化水平。智能体需要将用户在上下文中学到的工具使用技能泛化到新情况下,例如在Yahoo搜索上训练的模型转移到Google搜索上。

如果给出指令和演示,基于LLM的智能体还具有通过生成可执行程序构建工具的能力,将当前工具整合为更强的工具,或者它们可以学习执行自我调试。PaLM-E展示了对新对象或现有对象组合的零样本或单样本泛化能力。Voyager利用技能库组件不断收集新的自我验证技能,这支持AI智能体的终身学习能力。基于LLM的智能体利用LLMs的规划能力,通过持续学习,例如课程学习,来应对更复杂的挑战,以应对灾难性遗忘的挑战。

4.5 个性(情感+性格)和协作行为(多智能体)

正如人类个性是通过社会化形成的,智能体也通过与他人和环境的互动展示一种个性。个性的定义指的是三个特征:认知、情感和性格。认知能力通常被定义为获取知识的心理过程,如决策制定、规划和解决问题。情感包括主观情绪,如愤怒或快乐。基于LLM的智能体包括对情感的详细理解。更狭窄的个性概念属于性格模式。LLM的提示工程涉及性格模式或其他属性的浓缩摘要。通过接触丰富的人格数据集,基于LLM的智能体配备了人格描绘。在社会环境中,AI智能体应该与其他智能体甚至人类合作或竞争,以激发更好的表现。AI智能体可能被赋予需要共同工作或互动环境的复杂任务。集体智能是一个将意见集中到决策的过程中。它来自智能体之间的协作和竞争,出现在基于共识的决策模式中。通过利用智能体社会内的通信,可以模仿人类社会的演变并获得见解。

5 结论

在本文中,AI智能体的级别是基于效用和强度进行分类的,类似于SAE对自动驾驶的自动化级别。对于每个级别,前一个级别的额外模块可以提供更强的AI能力和智能体效用。从级别0到级别3,AI核心已经从无AI发展到基于规则的AI、基于IL/RL的AI到基于LLM的AI。

参考资料

文章:《Levels of AI Agents: from Rules to Large Language Models》

作者:Yu Huang, Roboraction.AI

链接:https://arxiv.org/pdf/2405.06643

记得点赞、分享,让更多的朋友一起探索这个IT世界的新篇章!

记得按时休息

推荐阅读

【Agent】Coze(扣子)一个国内版的类GPTs,使用指南(入门篇)

【Coze教程】从0到1搭建你的第一个AI Bot(飞书知识库助理)

【机器人】具身智能(Embodied AI)的概念、核心要素、难点及突破性进展

【AI教学】生成式AI教育图谱2024

【流程管理】流程管理的发展历程

【Agent】几款AI多智能体框架

大模型和智能体综述

【Agent】Coze多智能体(Multi-Agents)模式体验!

【AI教学】生成式AI教育图谱2024

从码农到AI大师:AI工程师定位与成长全攻略!

【AI绘画】WebUI、Comfy UI与Stable Diffusion关系与选择!一文理清

数字孪生技术综述与展望

AI 推理:CPU 的崛起

【云计算】云计算技术栈,了解云计算知识戳这里!!!

(责任编辑:)
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2025-02-06 04:02 最后登录:2025-02-06 04:02
栏目列表
推荐内容