一、AI Agent 智能体
1.1 什么是智能体
通俗来讲,智能体(AI Agent)是一个能够感知其所处环境,通过内部的智能处理进行决策,并最终采取行动以达成特定目标的系统。其核心特征在于其“自主性”和“行动能力”。这意味着智能体不仅仅是被动地响应指令,更能主动地、有目的地与环境互动。
进入大模型时代,智能体的内涵得到了极大的丰富和增强,它们通常以强大的大型语言模型(LLM)为核心“大脑”,并围绕这个大脑构建起一套完整的感知、规划、记忆和行动机制。
一个典型AI Agent通常由以下几个关键组件构成:
感知(Perception):通过API、传感器、数据库、用户输入等多种方式获取环境信息和任务指令。
规划(Planning):将复杂目标分解为一系列可执行的子任务或步骤,并制定行动策略。
记忆(Memory):具备短期记忆(如当前对话上下文)和长期记忆(如用户偏好、历史经验、知识库),以便在决策和行动中利用。
工具使用(Tool Use):能够调用外部工具或API(如搜索引擎、计算器、日历、特定业务系统接口)来扩展自身能力,获取额外信息或执行特定操作。
行动(Action):根据规划和决策执行具体操作,例如回复用户、调用API、生成内容、控制硬件等。
这些组件协同工作,使智能体能够在一个循环中不断地感知-思考-行动,直至目标完成或达到某种预设状态。
1.2 智能体与大模型的区别
虽然大型语言模型(LLMs)是当前AI Agent实现强大认知和推理能力的核心,但智能体本身并非等同于大模型。LLM可以被视作智能体的“大脑”或者“认知引擎”,它提供了语言理解、文本生成、知识问答和一定程度的逻辑推理能力。然而,智能体在此基础上走得更远,它是一个更完整的系统,强调自主行动和目标达成。
以下表格清晰地展示了智能体与大模型的主要区别:
特征 智能体 (AI Agent) 大模型 (LLM) 定义 能够感知环境、进行决策并采取行动以实现特定目标的自主系统。 拥有海量参数和复杂结构的深度学习模型,主要用于理解和生成内容。 核心能力 规划、记忆、工具调用、执行、与环境交互。 自然语言理解、文本生成、知识推理、多模态内容处理。 自主性 较高,可以根据目标自主规划和执行多步骤任务,无需持续人工干预。 较低,通常需要明确的提示词(Prompt)来驱动,执行单轮或有限轮次的任务。 交互方式 主动与环境、工具和其他Agent进行交互,可以是动态和多轮的。 主要通过文本、语音或图像等方式与用户进行输入/输出交互。 应用焦点 任务完成、流程自动化、复杂问题解决、作为“数字员工”执行工作。 内容生成、信息检索、对话交互、知识问答、辅助创作。 构成关系 通常包含大模型,并增加了规划、记忆、工具使用等模块。可视为:智能体 ≈ 大模型 + 规划 + 记忆 + 工具。继续抽象,智能体=大模型+工具 是智能体的核心认知组件之一。
总的来说,如果大模型是“思考者”和“言说者”,那么智能体则是在此基础上增加了“行动者”的角色。它将大模型的智能潜力转化为实际的行动力,从而解决更广泛、更复杂的问题
二、工作流(Workflow)、Agent
前几天去参加腾讯的AI产业大会,看到腾讯对智能体应用的规划,观点不谋而合
智能体应用落地方向,三个维度,依次是:知识库、工作流、智能体

为了更好的阅读体验,来飞书看吧:
Comments on "AI Agent 智能体阶段总结" :