面试官问你:“什么是 ReAct?”如果你回答“就是让大模型先想再做”,面试官追一句“那和 CoT 思维链有什么区别?”你就两手一摊,只能无语了。
为什么?
因为“先想再做”说的其实是 CoT。ReAct 多了一个关键动作——去现实世界里验证。

哈喽大家好,我是二哥呀。今天用 3 分钟,带你彻底搞懂 ReAct 和 CoT 的区别。
面试官问这道题,考两层:第一,ReAct 的三步循环你能不能完整说清楚;第二,它和 CoT 思维链的本质区别在哪,你能不能一句话点透。
好,接下来给你满分回答,照着背就完事了。
先搞清楚 CoT 是什么。CoT,Chain-of-Thought,思维链。让 LLM 一步步推理再给答案,不要直接给结论。比如你问“埃菲尔铁塔所在城市有多少人?”,CoT 会这样想:“埃菲尔铁塔在巴黎,我记得巴黎大概 210 万人,答案是 210 万。”全程在脑子里完成,不查任何外部数据。问题在哪?它“记得”的数据可能是过时的,也可能是编的,但它自己不知道。
再看 ReAct。ReAct,全称 Reasoning + Acting,2022 年由就读于普林斯顿大学的博士生姚顺雨作为第一作者和 Google 联合提出。
核心是一个三步循环:Thought 想、Action 做、Observation 看结果,然后回到 Thought 继续想。
同样的问题,ReAct 这么处理——Thought:“我需要查埃菲尔铁塔在哪个城市”。Action:搜索“埃菲尔铁塔位置”。Observation:返回“法国巴黎”。Thought:“现在查巴黎的人口”。Action:搜索“巴黎人口”。Observation:返回“市区约 210 万,大巴黎约 1300 万”。每一步推理都有真实数据兜底,最后输出的答案是经过验证的。
一句话点透区别——CoT 是闭卷考试,全靠脑子想,想错了没人纠正。ReAct 是开卷考试,想一步查一步,查到的真实结果会纠正下一步的推理方向。
有个数据很能说明问题:CoT 失败案例中 56% 是幻觉,模型自信地编了一个根本不存在的事实。ReAct 的幻觉率接近零,因为每一步都拿真实结果兜底。
面试官如果继续追问:“那 CoT 是不是被 ReAct 淘汰了?”
告诉他——没有。纯推理任务,比如数学计算、逻辑分析、代码审查,不需要查外部数据,CoT 反而更直接高效。ReAct 的优势在需要外部信息的场景。而且 ReAct 里面每一个 Thought 步骤,本身就是 CoT。两者不是替代关系,是组合关系——ReAct 把 CoT 的推理能力和工具调用结合在了一起。
最后送大家一句口诀——CoT 闭卷靠脑想,ReAct 开卷边查边想;想完去查,查完再想,幻觉自然没地藏。
这道题你学废了吗?想解锁更多 Agent 面试题的源码级拆解,点赞关注,我是二哥,下期见!

回复