Bible Network Crypto DeFi Onchain RWA AI Agent Stablecoin Chain SAFU CryptoTax DeFAI AGI Claude Me Claude Skill Claude Design Claude Cowork
獨立知識媒體
與任何項目無關聯
拆解加密世界的 AI Agent:機制、風險、經濟模型
aiagent-bible.com
最新
Onchain Agent 最壞情況防禦設計:如果你的 Agent 被完全攻陷,怎麼把損失限制在可接受範圍  ·  如何選擇加密 AI Agent 服務:五個評估框架,讓你不被行銷話術坑  ·  加密 Agent 上線前安全檢查清單:從測試網到主網的 12 個必做項目  ·  Agent 錢包怎麼設計:四種架構的風險與成本完整比較  ·  AutoGen vs LangChain vs ElizaOS:三大框架選哪個,加密 AI Agent 開發者的完整決策指南  ·  Agent 記憶系統設計:短期、長期、語意搜尋三層架構,以及加密場景的安全邊界
名詞解析 · agent-fundamentals

LLM (Large Language Model)

LLM(大型語言模型)
agent-fundamentals 進階

完整解說 +
01 · 這是什麼?

LLM 和傳統的機器學習模型有什麼根本差別?為什麼「預測下一個 token」能產生看起來像「思考」的輸出?

傳統機器學習模型(分類器、迴歸模型)的設計是「輸入特定格式的數據,輸出特定的標籤或數值」——例如「輸入一張圖片,輸出是貓還是狗」。這類模型的能力被嚴格限定在訓練目標上,無法泛化到沒有訓練過的任務。

LLM 的設計本質是「給定前面所有的文字,預測下一個最可能出現的 token」。這個目標看起來非常簡單,但它帶來了一個意外的湧現效果:要在海量文本裡準確預測下一個 token,模型必須「學會」語言的語法、語意、世界知識、因果推理、邏輯一致性——不是因為有人明確教它這些,而是因為這些知識是準確預測所必需的。

結果是:當你問 LLM 一個問題,它在生成每個 token 時,實際上是在「尋找在它的訓練分布裡,跟著這個問題最可能出現的回答」。這個過程沒有真正的「理解」或「意識」,但從外部觀察,輸出高度接近一個真正在推理的系統。這就是為什麼 LLM 的輸出看起來像「思考」,但它其實是非常複雜的統計模式匹配。

對 AI Agent 的意義:理解這個本質讓你知道 LLM 為什麼會「幻覺」——它不是在說謊,而是在生成「統計上看起來像合理答案的文字」,即使那個答案在事實上是錯的。

02 · 為什麼存在?

LLM 的「幻覺」(Hallucination)是什麼?在加密 Agent 場景下,幻覺的後果比普通使用場景嚴重多少?

幻覺是指 LLM 生成了聽起來合理、有信心、但事實上不正確的內容。幻覺不是 bug,而是 LLM 的統計本質的必然副產品——模型在生成每個 token 時,優化的是「統計可信度」而不是「事實準確性」。當模型沒有可靠數據支撐某個答案,它仍然會生成一個「看起來像答案」的文字。

幻覺的幾種常見形態:虛構數據(如「Aave 當前 USDC 利率是 X%」,但這個數字是模型「合理猜測」而不是查到的);錯誤的因果推斷(把相關性當成因果性);以及過度自信地陳述不確定的事情。

在加密 Agent 場景,幻覺的後果比普通使用嚴重得多:在普通使用裡,幻覺最壞的後果是你得到了錯誤信息,你可以事後核查。但在加密 Agent 裡,LLM 的幻覺可能直接觸發鏈上操作——例如 Agent 幻覺了一個「利率高達 12%」的 Aave 數據,然後立刻執行了從低利率協議移倉到 Aave 的操作,而實際上 Aave 當時的利率只有 4%,移倉產生的 Gas 費讓這次操作凈虧損。

防禦設計:所有和市場數據、鏈上狀態相關的判斷,必須從工具回傳的即時數據中獲取,不能讓 LLM 「憑記憶」使用訓練數據裡的數字。在 System Prompt 裡明確指示:「所有數值類信息必須來自工具查詢結果,不得使用訓練數據裡的歷史數字。」

03 · 如何影響你的決策?

不同的 LLM(GPT-4、Claude、Gemini)在 AI Agent 場景有什麼顯著差異?選模型的時候應該考慮哪些維度?

在 Agent 場景,LLM 的選擇不只是「哪個更聰明」,而是需要從幾個具體維度評估:

Context Window 大小:Agent 的 context 通常包含 System Prompt、工具定義、對話歷史、工具回傳結果,實際消耗很快。Claude 的 200K token context window 在需要分析長文件或長期對話記憶的場景有明顯優勢。

工具調用(Tool Use)的穩定性:不是所有 LLM 都能可靠地輸出格式正確的工具調用請求。GPT-4 的工具調用生態最成熟;Claude 在工具調用的格式遵從和錯誤恢復上表現穩定;較小的開源模型在工具調用上通常更不穩定。

指令遵從性:Agent 的 System Prompt 通常很長且複雜,需要 LLM 在整個推理過程中持續遵守設定的規則(「不要在未確認的情況下執行寫入操作」)。不同模型在長 context 下的指令遵從性差異明顯。

延遲和成本:高頻 Agent(每分鐘多次調用)對延遲和成本敏感。旗艦模型(GPT-4o、Claude Sonnet)在速度和成本上優於更大的模型。

加密知識深度:不同模型在加密協議、DeFi 機制、鏈上概念的知識深度不同,雖然 Agent 應該通過工具查詢而不是依賴模型訓練知識,但模型的背景知識影響它解讀工具回傳結果的品質。

04 · 你該怎麼辦?

Fine-tuning(微調)一個 LLM 用在加密 Agent 場景,和直接用通用 LLM 加上好的 System Prompt,哪個更值得?

這個問題沒有絕對答案,但有幾個判斷框架:

Fine-tuning 值得投入的場景:你有大量高品質的加密 Agent 操作數據(幾千到幾萬個高品質的 Thought/Action/Observation 範例);你的 Agent 執行的任務高度重複且有固定格式(例如每次都分析相同格式的 DEX 數據);對延遲和成本有極嚴格要求(Fine-tuned 的小模型比 API 呼叫大模型便宜得多);或者你需要讓模型記住大量加密協議的細節(讓它不需要每次都在 System Prompt 裡解釋 AMM 機制)。

通用 LLM + 好的 System Prompt 更值得的場景:你的數據量不夠(Fine-tuning 需要大量高品質數據,少量數據反而可能讓模型過擬合);你的 Agent 任務多樣且不可預期(通用模型的泛化能力更好);你需要快速迭代(修改 System Prompt 比重新 Fine-tuning 便宜得多);以及你的場景對最新知識有要求(Fine-tuned 模型無法取得 API 後端的持續更新)。

2026 年的實際建議:對絕大多數加密 Agent 開發者來說,優先把精力放在工具設計、System Prompt 優化、記憶系統設計上,而不是 Fine-tuning。Fine-tuning 是一個「讓好的 Agent 更好」的手段,不是「讓差的 Agent 變好」的捷徑。

實際例子 +

實際場景:同一個 DeFi Agent,換 LLM 後行為差異

以下是一個在實際 Agent 開發裡常見的對比場景,說明 LLM 選擇對 Agent 行為的影響。

任務:Agent 需要分析 Aave、Compound、Morpho 三個協議的 USDC 利率,決定是否執行移倉,並解釋推理過程。

使用 GPT-4o-mini(低成本)的表現:工具調用格式正確,能完成基本的利率比較。但在 System Prompt 要求「如果利差不足以覆蓋 Gas 費,應該明確拒絕執行並解釋原因」的指令上,偶爾會在利差很小時仍然輸出「建議執行」而不考慮 Gas 費,顯示指令遵從性在複雜條件下有時不穩定。

使用 Claude Sonnet(中等成本)的表現:相同的 System Prompt,Claude 在「Gas 費合理性判斷」這個複雜的條件推理上更一致,能正確地在 Gas 費超過利差收益時拒絕執行,且解釋理由更詳細(主動列出計算過程:「移倉預期年化收益 X 美元,Gas 費 Y 美元,若利率維持 Z 天才回本,不建議執行」)。

這個對比不代表 Claude 在所有場景都更好,而是說明:在需要「複雜條件判斷」和「指令遵從性」的 Agent 場景,LLM 的差異對輸出品質有實際影響,值得做 A/B 測試而不是隨意選擇。

圖解
LLM in AI Agent Architecture: Brain vs. HandsLLM 在 AI Agent 架構中的角色圖:LLM 作為推理層(大腦),工具層作為執行層(雙手),記憶層提供上下文,三者如何協作完成一個完整的 Agent 任務循環。LLM in AI Agent Architecture: Reasoning Brain vs. Execution HandsLLM (Reasoning Brain)Thinks · Plans · Interprets · DecidesGPT-4 · Claude · Gemini · Open-sourceMemory LayerContext windowVector DB · LogsTool Layer (Hands)Read tools · Write toolsMCP · APIs · ChainUser / HumanSets goals · Confirmshigh-risk operationsreads contextoutputs tool requestsnotifies for confirmationLLM Hallucination Risk in Crypto AgentsLLM never 'knows' real-time data — all prices, rates, Gas must come from tool queries, never from model memoryAI Agent Bible · aiagent-bible.com
歡迎截圖分享,轉載請註明來源
常見誤解 +
✕ 誤解1
× 誤解一:LLM 越大越好,用最大的模型就對了。模型大小和 Agent 任務的匹配度同樣重要。一個 7B 參數的 Fine-tuned 模型在特定的加密分析任務上可能比 GPT-4 更快、更省錢,且表現不差。更大的模型帶來更長的延遲和更高的成本,對需要高頻調用的 Agent 來說是不可忽視的限制。「最大的模型」不是 Agent 設計的答案,「最適合這個任務的模型」才是。
✕ 誤解2
× 誤解二:LLM 說它「確認」或「已驗證」某件事,就代表那件事是真的。LLM 沒有能力真正「確認」任何事情——它只能生成文字。「我確認 Aave 的利率是 X%」這句話只是模型生成的文字,不代表它真的查詢過 Aave 的合約。在加密 Agent 裡,任何數值性的資訊(利率、Gas 費、價格)必須來自工具查詢,不能因為 LLM 用了「確認」這個詞就信以為真。
這件事跟你有什麼關係 +
直接影響

LLM 在 AI Agent 架構裡的核心取捨是「能力上限 vs 成本與延遲」。更強大的 LLM(更大的參數量、更長的 context window)帶來更準確的推理和更好的指令遵從,但成本更高、推理延遲更長。對高頻 Agent(每分鐘多次調用)而言,旗艦模型的成本可能讓整個 Agent 系統在經濟上不可行。另一個取捨是「泛化能力 vs 特定領域深度」:通用 LLM 的泛化能力讓它能處理意外情況,但在特定加密場景的知識深度不如 Fine-tuned 模型。實際設計建議:用模型分層——複雜推理步驟用強模型,簡單的工具調用判斷用小模型,在能力和成本之間取得平衡。

提問
請至少輸入 10 個字
更多相關主題