fundamentals

AI Agent 怎麼思考：ReAct 推理框架完整拆解，以及它為什麼決定了 Agent 能不能真的做事

30 秒速讀

ReAct 框架讓 AI Agent 不再靠幻覺做決定——每一個 Thought、每一次 Action、每一個 Observation 都留有記錄。學會讀懂這三個步驟，你才知道 Agent 是真的在推理，還是在用看起來很有邏輯的方式犯錯。

Alex Mercer · 2026/06/15

完整解析 +

01 · 為什麼發生？

ReAct 框架是 2022 年才提出的，在它出現之前 AI Agent 是怎麼運作的？為什麼 ReAct 是個突破？

ReAct 之前，AI Agent 的設計大致分兩派。第一派是「純推理型」：用語言模型（LLM）做所有的推理，但它只能輸出文字，沒有辦法真正去執行任何動作——只能告訴你「你應該買 ETH」，但無法真正去下單。第二派是「純工具型」：用規則或腳本驅動，Agent 按照預設的邏輯調用工具、執行操作，但它不會「思考」為什麼要這樣做，也沒辦法在工具失敗或情境改變時靈活調整。

ReAct 的突破在於把「語言模型的推理能力」和「工具的執行能力」融合在同一個迴圈裡。Thought 步驟讓 LLM 先想清楚為什麼要做某件事、接下來該做什麼；Action 步驟讓它真的去執行；Observation 步驟把執行結果回饋給 LLM，讓它用真實資料繼續推理——而不是用幻覺填補未知。

這個設計讓 Agent 第一次有了「根據真實世界回饋動態調整」的能力，而不是照腳本走到底。對加密場景而言，這意味著 Agent 能在行情突然變動時（例如鏈上出現大額清算）重新評估整個計劃，而不是繼續執行已經不合適的預設動作。

02 · 運作原理是什麼？

ReAct 迴圈每跑一輪都要花錢（Token 費用），這在加密 Agent 的實際部署上怎麼控制成本？

這是一個在文件裡常被忽略、但在實際部署時非常重要的問題。ReAct 每一輪 Thought 步驟都要呼叫 LLM，依模型和 Token 用量計費。一個複雜的加密任務（例如「評估現在要不要移倉，需要查五個指標」）可能跑 10 輪迴圈，每輪 2,000-3,000 Token，用 GPT-4 等級的模型一次任務就可能花掉 $0.3-$0.8 美元。看起來不多，但如果 Agent 每分鐘都在跑任務、或任務設計不良導致無限迴圈，月費可能飆到數百乃至數千美元。

實際控制成本的三種主流做法：第一，設最大迴圈次數（通常 5-15 輪），超過就強制終止任務並回報「資訊不足，需人工介入」。第二，分層模型使用：Thought 步驟用較便宜的模型（如 Claude Haiku 或 GPT-4o-mini），只有需要高品質推理的最終決策才用貴的模型。第三，快取常用工具結果：如果 ETH 價格 30 秒內已經查過，Observation 直接用快取結果，不重新呼叫 API——減少工具調用次數也間接降低迴圈需求。

加密 Agent 的成本控制是系統設計的重要一環，不是上線後才想的問題。

03 · 如何應用

如果 Agent 的 Thought 步驟被惡意工具汙染（MCP Server 攻擊），我怎麼知道它正在被操控？

這是加密 AI Agent 最值得警惕的安全威脅之一。惡意 MCP Server 攻擊的原理是：在工具的 Observation 結果裡注入假資訊，讓 Agent 的 Thought 步驟讀入錯誤的「事實」，進而做出攻擊者想要的決策。例如：一個查詢鏈上價格的工具，被植入後回傳「ETH 現價 $500」（實際是 $3,400），Agent 的 Thought 步驟讀入後計算出「這是歷史低點，強烈買入」，然後自主簽署大額買入交易。

識別 Agent 正在被操控的幾個信號：決策結果和市場現況嚴重不符（例如在明顯下跌行情中 Agent 持續下買單）；Observation 步驟的數據和你自己查到的不一樣；Thought 步驟出現和你設定目標不相關的推理方向（例如你設定的目標是保守持倉，但 Agent 的 Thought 開始推理高風險操作的理由）。

防禦方式：第一，只授權使用你自己審計過、來源可信的 MCP Server；第二，在關鍵工具調用（sign_tx）前，強制加入一個獨立的資料驗證步驟（用另一個數據源確認工具回傳值的合理性）；第三，設定異常行為警報——如果 Agent 的某次 Action 和過去模式差異超過閾值，立即暫停並通知你。

04 · 我該怎麼做？

現在主流的加密 Agent 框架（ElizaOS、LangChain、AutoGen）在 ReAct 實作上有什麼差異？我怎麼選？

三個框架都基於 ReAct 的核心迴圈，但在加密場景的適用性上差異明顯。

LangChain / LangGraph：最成熟的通用 Agent 框架，工具生態豐富，有大量現成的 DeFi 數據連接器（Coingecko、The Graph、DEX API）。LangGraph 的圖形化工作流設計讓你可以精確控制每一步的邏輯分支，適合需要複雜條件判斷的交易策略。缺點：框架本身較重，上手曲線陡，對沒有工程背景的人不友善。適合：有開發能力、需要高度客製化的加密交易 Agent。

AutoGen：Microsoft 開發，強項是多 Agent 協作——多個 Agent 互相對話、分工、校驗彼此的推理結果。在加密場景的應用：讓一個 Agent 負責技術面分析、另一個負責情緒分析、第三個負責風險評估，三者互相辯論後才輸出最終決策。適合：複雜的多因素判斷任務，比單一 Agent 更有冗餘和校驗能力。

ElizaOS：加密原生，由 ai16z 社群開發，內建對社交平台（Twitter/Farcaster）和鏈上錢包的原生支援，更適合「社交 Agent + 鏈上操作」的混合場景。工具生態不如 LangChain 豐富，但加密向的整合更深。適合：想部署加密社交 Agent 或需要和 ai16z 生態對接的場景。

選擇原則：如果你的核心需求是交易策略和鏈上操作，先看 LangChain；如果需要多 Agent 校驗，看 AutoGen；如果是加密社群 + 社交 Agent，看 ElizaOS。

完整內容 +

大多數人對 AI Agent 的第一個問題是「它能做什麼」，但更關鍵的問題是「它怎麼決定做什麼」。一個加密交易 Agent 在凌晨三點偵測到市場異動，它是怎麼從「偵測到數據」走到「簽署一筆交易」的？答案幾乎都指向同一個框架：ReAct。

ReAct 是 2022 年由 Google 研究團隊提出的推理框架，名字是「Reasoning + Acting」的縮寫。它解決了早期 AI 系統一個核心缺陷——要嘛只會想不會做（純推理），要嘛只會做不會想（純工具調用）。ReAct 把兩者串在一起，形成一個「思考 → 行動 → 觀察 → 再思考」的迴圈，這正是現在幾乎所有主流 AI Agent 框架（LangChain、AutoGen、ElizaOS）的推理核心。

ReAct 迴圈：每一步都在做什麼

用一個加密場景來說明。假設你給 Agent 的任務是：「現在 ETH 值不值得買？幫我查一下目前價格和市場情緒再決定。」

Agent 不會直接回答，它會跑這樣一個迴圈：

第一步 Thought（思考）：「我需要知道 ETH 目前的價格，以及市場上的情緒指標。我有兩個工具可以用：價格 API 和情緒分析工具。我先查價格。」——這一步是純文字推理，Agent 自己跟自己解釋下一步要做什麼和為什麼。

第二步 Action（行動）：調用 get_price(token='ETH') 工具。這一步 Agent 真的去執行了某件事——呼叫 API、查鏈上數據、或在加密世界裡簽署一筆測試查詢。

第三步 Observation（觀察）：工具回傳結果，例如「ETH 現價 $3,420，過去 24 小時上漲 4.2%」。Agent 把這個結果讀入，成為下一輪思考的輸入。

回到第一步 Thought：「價格有點高，漲了 4%。我還需要看情緒指標。調用情緒工具。」然後再 Action → Observation → Thought……直到 Agent 認為資訊足夠，才給出最終回答。

這個迴圈的關鍵在於：每一步的推理都是顯性的、可追蹤的。你可以逐行看 Agent 為什麼這樣決定，哪一步它判斷錯了，哪個工具回傳了垃圾結果。這對加密場景尤其重要——如果一個 Agent 自主執行了一筆讓你虧損的交易，你需要能夠找到是哪個 Thought 步驟出了問題。

ReAct 和「直接問 ChatGPT」有什麼差別

如果你直接問 ChatGPT「ETH 值不值得買」，它會用訓練資料裡的知識給你一個看起來合理的答案——但那個答案的「ETH 價格」可能是幾個月前的資料，情緒分析是它自己猜的，不是即時數據。

ReAct Agent 不同的地方是：它知道自己不知道什麼，並且會主動去查。Thought 步驟讓 Agent 先規劃「我需要哪些資訊、我有哪些工具可以取得」，然後 Action 真的去取得，Observation 讀入真實結果，再做判斷。整個過程是基於即時真實資料的推理，不是訓練資料的幻覺。

這個差別在加密世界是生死之別。一個基於幻覺判斷的 Agent 可能在市場恐慌時反而買進，因為它「記得」ETH 長期看多；一個有 ReAct 迴圈的 Agent 會先查當前恐懼貪婪指數、鏈上資金流向，再做判斷。

ReAct 的失敗模式：什麼時候它會做出爛決定

理解 ReAct 的限制和理解它的能力一樣重要，尤其是打算讓 Agent 管理鏈上資產的人。

工具回傳垃圾，Agent 信以為真。ReAct 的 Observation 步驟假設工具回傳的結果是可信的。如果你的 DEX 價格 API 在流動性極低的時候回傳一個異常高的價格，Agent 可能照單全收、做出錯誤判斷。惡意的 MCP Server 攻擊就是利用這一點——在工具的回傳結果裡注入假資訊，讓 Agent 的 Thought 步驟被汙染。

迴圈次數過多，Token 燒光。ReAct 迴圈每跑一輪都需要 LLM 推理，費用以 Token 計算。如果任務設計不當，Agent 可能陷入「我還需要更多資訊」的無限迴圈，直到 Token 預算耗盡才停下來。這在自主管理資金的場景裡，可能造成操作卡住、費用失控。

Thought 步驟的推理錯誤被放大。如果 Agent 在第一個 Thought 步驟就做出了錯誤的假設（例如把「ETH 上漲 4%」解讀為「強烈買入訊號」而沒有考慮大盤同步上漲），後面每一步的 Action 和 Observation 都是在錯誤假設上疊加，最終可能給出一個看起來很有邏輯、實際上完全錯誤的結論。

加密 Agent 怎麼用 ReAct：實際架構

在加密原生的 Agent 框架裡（以 ElizaOS 和 LangChain 為例），ReAct 通常這樣被實作：

首先，給 Agent 一個工具箱，裡面包含它能調用的所有工具（DEX 價格查詢、鏈上數據 API、錢包餘額查詢、交易簽署函數）。每個工具都有明確的描述——Agent 的 Thought 步驟會讀這些描述來決定調用哪個。其次，設定一個最大迴圈次數（例如 10 輪），防止無限迴圈。第三，設定工具調用的權限層：只讀的工具（查詢價格、讀鏈上數據）可以自由調用；寫入的工具（簽署交易、移動資金）需要通過額外的確認閥門，或者設定金額上限。

這個架構讓你可以在「讓 Agent 有足夠的資訊做判斷」和「不讓 Agent 在沒有確認的情況下動用你的資金」之間找到平衡。

這跟你的錢有什麼關係

如果你打算使用或部署任何加密 AI Agent，理解 ReAct 框架有三個直接影響。第一，你可以讀懂 Agent 的決策日誌。幾乎所有基於 ReAct 的 Agent 都會輸出 Thought/Action/Observation 記錄。學會看懂這些記錄，就能判斷 Agent 是真的在推理，還是在胡說八道。第二，你知道從哪裡審計出錯的交易。Agent 做了一筆讓你虧損的操作，第一件事不是罵它，是去找那個 Thought 步驟——是假設錯了、工具回傳錯了、還是推理鏈中間某個環節出了問題。第三，你知道如何設定合理的工具權限。ReAct 的 Action 步驟能做多少事，取決於你給了它哪些工具以及工具的邊界在哪裡。理解這個，才能設計出「讓 Agent 夠聰明同時又不失控」的系統。

圖解

歡迎截圖分享，轉載請註明來源

提問

相關詞彙