LLM Agent 的幻象:复杂 Prompt 编排的尽头,仍是语言直觉生成器
LLM 的“智能感”只是语言直觉的产物
LLM(大型语言模型)本质上是一种基于语言数据统计的”直觉生成器“。
它的能力来自于对大量语言数据的学习,推断出语言的组织规律,然后生成最可能的下一个 token。
它并不理解问题的本质,也不会真的“思考”,只是在语言空间中进行高概率生成。
它擅长“像人一样说话”,但并不会像人一样思考。
它的推理不是基于概念模型、变量关系或内在状态,而是基于语言的概率流。
所谓 Agent,不过是 Prompt 的流程化编排
很多人把 Agent 理解为“让 AI 行动起来”的方式,
但如果你深究会发现:现在的 Agent 系统,本质上只是一个多轮 Prompt 调度器,围绕一个不会自主思考的 LLM 构建流程控制层。
以 ReAct 为例,它的结构就是:
1 | Thought → Action → Observation → Thought → ... |
每一步都还是 LLM 的语言生成,唯一的增强只是:
- Thought:让 LLM 进行语言化的“自我思考”
- Action:让它输出一个“像是”工具调用的指令
- Observation:读取外部工具的返回再喂回模型
- Loop:重复以上步骤,直到结束
再看 AutoGPT、CrewAI、LangGraph……它们只是加了一些:
- 角色定义(Prompt 模板)
- 工具注册(API 映射)
- 状态机(何时调用下一个 Prompt)
归根结底:Prompt 仍然是整个系统的最小工作单位,Agent 只是帮你管理这些 Prompt。
为什么这是一种“幻象”?
从用户视角看,这种多轮交互、工具调用、任务完成的行为很像人在思考和执行,但实际上:
- LLM 不知道自己在干什么
- 它只是“生成出看起来合理的下一步”
- Agent 只是把这生成过程流程化、条件化、反复利用
这种智能感是“表象的连续性”,不是真正的认知建构。
逃离不了 Prompt,就逃离不了语言生成的本质
当前所有 Agent 的核心依赖是:
通过语言 prompt 引导 LLM 产生“似是而非”的智能行为
而 LLM 的能力边界就是语言生成:
- 没有状态记忆(只能靠外部 memory patch)
- 没有概念图谱(知识只存在于参数空间)
- 没有真实推理(只是语言链模拟)
你想让它“行动”,只能借助工具调用;
你想让它“思考”,只能靠 CoT 提示;
你想让它“复盘”,还得 prompt 让它分析自己。
归根结底:一切行为、反思、计划、执行,仍然要转化为 prompt 让 LLM 生成文字再做下一步。
这就像造了一座房子,但地基永远是沙子。
真正突破要靠“非语言层”的引入
要构建更强智能,我们需要摆脱 LLM 的语言中心主义,构建具备以下能力的结构:
- 具象的思维状态(Working Memory):像人类有思维缓存,Agent 也需要变量、图谱、栈帧。
- 非语言形式的内部逻辑(结构思维):例如中间代码、逻辑表达式、向量场或符号图。
- 具备自我目标意识的 Planner(非被动应答):LLM 只是在“反应”,我们需要主动“意图调度”。
想象一下未来的 Agent:
- LLM 是表达器
- GNN 是结构理解器
- Diff memory 是长期策略的养成器
- Action planner 是具备目标感的调度系统
那才是从语言生成器迈向“认知机器”的第一步。
结语:LLM Agent 仍在语言幻象的边界中漂浮
LLM 本身并不具备认知能力,它只是语言的镜子。Agent 的出现让它看起来有了“行动的躯体”,但这仍然是一场由 Prompt 驱动的幻象。
如果我们持续在这个幻象上堆叠功能,只会越来越像幻术师在玩道具。
要真正迈向“类人智能”,我们得从语言之外构建它的骨架,从认知机制重建 Agent 的内核。否则,复杂的 Agent 只是复杂 Prompt 的别名。
作者:罗植馨
GitHub: github.com/luoluoter
- Title: LLM Agent 的幻象:复杂 Prompt 编排的尽头,仍是语言直觉生成器
- Author: Luo Zhixin
- Created at : 2025-07-08 13:49:00
- Updated at : 2025-07-15 21:54:51
- Link: https://luoluoter.github.io/2025/07/08/llm-agent-still-prompt/
- License: This work is licensed under CC BY-NC-SA 4.0.