名詞解析 · agent-fundamentals

LLM (Large Language Model)

Q: LLM (Large Language Model) 為什麼重要？

**LLM 和傳統的機器學習模型有什麼根本差別？為什麼「預測下一個 token」能產生看起來像「思考」的輸出？** 傳統機器學習模型（分類器、迴歸模型）的設計是「輸入特定格式的數據，輸出特定的標籤或數值」——例如「輸入一張圖片，輸出是貓還是狗」。這類模型的能力被嚴格限定在訓練目標上，無法泛化到沒有訓練過的任務。 LLM 的設計本質是「給定前面所有的文字，預測下一個最可能出現的 token」。這個目標看起來非常簡單，但它帶來了一個意外的湧現效果：要在海量文本裡準確預測下一個 token，模型必須「學會」語言的語法、語意、世界知識、因果推理、邏輯一致性——不是因為有人明確教它這些，而是因為這些知識是準確預測所必需的。 結果是：當你問 LLM 一個問題，它在生成每個 token 時，實際上是在「尋找在它的訓練分布裡，跟著這個問題最可能出現的回答」。這個過程沒有真正的「理解」或「意識」，但從外部觀察，輸出高度接近一個真正在推理的系統。這就是為什麼 LLM 的輸出看起來像「思考」，但它其實是非常複雜的統計模式匹配。 對 AI Agent 的意義：理解這個本質讓你知道 LLM 為什麼會「幻覺」——它不是在說謊，而是在生成「統計上看起來像合理答案的文字」，即使那個答案在事實上是錯的。

Q: LLM (Large Language Model) 如何運作？

**LLM 的「幻覺」（Hallucination）是什麼？在加密 Agent 場景下，幻覺的後果比普通使用場景嚴重多少？** 幻覺是指 LLM 生成了聽起來合理、有信心、但事實上不正確的內容。幻覺不是 bug，而是 LLM 的統計本質的必然副產品——模型在生成每個 token 時，優化的是「統計可信度」而不是「事實準確性」。當模型沒有可靠數據支撐某個答案，它仍然會生成一個「看起來像答案」的文字。 **幻覺的幾種常見形態**：虛構數據（如「Aave 當前 USDC 利率是 X%」，但這個數字是模型「合理猜測」而不是查到的）；錯誤的因果推斷（把相關性當成因果性）；以及過度自信地陳述不確定的事情。 **在加密 Agent 場景，幻覺的後果比普通使用嚴重得多**：在普通使用裡，幻覺最壞的後果是你得到了錯誤信息，你可以事後核查。但在加密 Agent 裡，LLM 的幻覺可能直接觸發鏈上操作——例如 Agent 幻覺了一個「利率高達 12%」的 Aave 數據，然後立刻執行了從低利率協議移倉到 Aave 的操作，而實際上 Aave 當時的利率只有 4%，移倉產生的 Gas 費讓這次操作凈虧損。 **防禦設計**：所有和市場數據、鏈上狀態相關的判斷，必須從工具回傳的即時數據中獲取，不能讓 LLM 「憑記憶」使用訓練數據裡的數字。在 System Prompt 裡明確指示：「所有數值類信息必須來自工具查詢結果，不得使用訓練數據裡的歷史數字。」

Q: LLM (Large Language Model) 如何實際應用？

**不同的 LLM（GPT-4、Claude、Gemini）在 AI Agent 場景有什麼顯著差異？選模型的時候應該考慮哪些維度？** 在 Agent 場景，LLM 的選擇不只是「哪個更聰明」，而是需要從幾個具體維度評估： **Context Window 大小**：Agent 的 context 通常包含 System Prompt、工具定義、對話歷史、工具回傳結果，實際消耗很快。Claude 的 200K token context window 在需要分析長文件或長期對話記憶的場景有明顯優勢。 **工具調用（Tool Use）的穩定性**：不是所有 LLM 都能可靠地輸出格式正確的工具調用請求。GPT-4 的工具調用生態最成熟；Claude 在工具調用的格式遵從和錯誤恢復上表現穩定；較小的開源模型在工具調用上通常更不穩定。 **指令遵從性**：Agent 的 System Prompt 通常很長且複雜，需要 LLM 在整個推理過程中持續遵守設定的規則（「不要在未確認的情況下執行寫入操作」）。不同模型在長 context 下的指令遵從性差異明顯。 **延遲和成本**：高頻 Agent（每分鐘多次調用）對延遲和成本敏感。旗艦模型（GPT-4o、Claude Sonnet）在速度和成本上優於更大的模型。 **加密知識深度**：不同模型在加密協議、DeFi 機制、鏈上概念的知識深度不同，雖然 Agent 應該通過工具查詢而不是依賴模型訓練知識，但模型的背景知識影響它解讀工具回傳結果的品質。

LLM（大型語言模型）

agent-fundamentals 進階

完整解說 +

01 · 這是什麼？

LLM 和傳統的機器學習模型有什麼根本差別？為什麼「預測下一個 token」能產生看起來像「思考」的輸出？

傳統機器學習模型（分類器、迴歸模型）的設計是「輸入特定格式的數據，輸出特定的標籤或數值」——例如「輸入一張圖片，輸出是貓還是狗」。這類模型的能力被嚴格限定在訓練目標上，無法泛化到沒有訓練過的任務。

LLM 的設計本質是「給定前面所有的文字，預測下一個最可能出現的 token」。這個目標看起來非常簡單，但它帶來了一個意外的湧現效果：要在海量文本裡準確預測下一個 token，模型必須「學會」語言的語法、語意、世界知識、因果推理、邏輯一致性——不是因為有人明確教它這些，而是因為這些知識是準確預測所必需的。

結果是：當你問 LLM 一個問題，它在生成每個 token 時，實際上是在「尋找在它的訓練分布裡，跟著這個問題最可能出現的回答」。這個過程沒有真正的「理解」或「意識」，但從外部觀察，輸出高度接近一個真正在推理的系統。這就是為什麼 LLM 的輸出看起來像「思考」，但它其實是非常複雜的統計模式匹配。

對 AI Agent 的意義：理解這個本質讓你知道 LLM 為什麼會「幻覺」——它不是在說謊，而是在生成「統計上看起來像合理答案的文字」，即使那個答案在事實上是錯的。

02 · 為什麼存在？

LLM 的「幻覺」（Hallucination）是什麼？在加密 Agent 場景下，幻覺的後果比普通使用場景嚴重多少？

幻覺是指 LLM 生成了聽起來合理、有信心、但事實上不正確的內容。幻覺不是 bug，而是 LLM 的統計本質的必然副產品——模型在生成每個 token 時，優化的是「統計可信度」而不是「事實準確性」。當模型沒有可靠數據支撐某個答案，它仍然會生成一個「看起來像答案」的文字。

幻覺的幾種常見形態：虛構數據（如「Aave 當前 USDC 利率是 X%」，但這個數字是模型「合理猜測」而不是查到的）；錯誤的因果推斷（把相關性當成因果性）；以及過度自信地陳述不確定的事情。

在加密 Agent 場景，幻覺的後果比普通使用嚴重得多：在普通使用裡，幻覺最壞的後果是你得到了錯誤信息，你可以事後核查。但在加密 Agent 裡，LLM 的幻覺可能直接觸發鏈上操作——例如 Agent 幻覺了一個「利率高達 12%」的 Aave 數據，然後立刻執行了從低利率協議移倉到 Aave 的操作，而實際上 Aave 當時的利率只有 4%，移倉產生的 Gas 費讓這次操作凈虧損。

防禦設計：所有和市場數據、鏈上狀態相關的判斷，必須從工具回傳的即時數據中獲取，不能讓 LLM 「憑記憶」使用訓練數據裡的數字。在 System Prompt 裡明確指示：「所有數值類信息必須來自工具查詢結果，不得使用訓練數據裡的歷史數字。」

03 · 如何影響你的決策？

不同的 LLM（GPT-4、Claude、Gemini）在 AI Agent 場景有什麼顯著差異？選模型的時候應該考慮哪些維度？

在 Agent 場景，LLM 的選擇不只是「哪個更聰明」，而是需要從幾個具體維度評估：

Context Window 大小：Agent 的 context 通常包含 System Prompt、工具定義、對話歷史、工具回傳結果，實際消耗很快。Claude 的 200K token context window 在需要分析長文件或長期對話記憶的場景有明顯優勢。

工具調用（Tool Use）的穩定性：不是所有 LLM 都能可靠地輸出格式正確的工具調用請求。GPT-4 的工具調用生態最成熟；Claude 在工具調用的格式遵從和錯誤恢復上表現穩定；較小的開源模型在工具調用上通常更不穩定。

指令遵從性：Agent 的 System Prompt 通常很長且複雜，需要 LLM 在整個推理過程中持續遵守設定的規則（「不要在未確認的情況下執行寫入操作」）。不同模型在長 context 下的指令遵從性差異明顯。

延遲和成本：高頻 Agent（每分鐘多次調用）對延遲和成本敏感。旗艦模型（GPT-4o、Claude Sonnet）在速度和成本上優於更大的模型。

加密知識深度：不同模型在加密協議、DeFi 機制、鏈上概念的知識深度不同，雖然 Agent 應該通過工具查詢而不是依賴模型訓練知識，但模型的背景知識影響它解讀工具回傳結果的品質。

04 · 你該怎麼辦？

Fine-tuning（微調）一個 LLM 用在加密 Agent 場景，和直接用通用 LLM 加上好的 System Prompt，哪個更值得？

這個問題沒有絕對答案，但有幾個判斷框架：

Fine-tuning 值得投入的場景：你有大量高品質的加密 Agent 操作數據（幾千到幾萬個高品質的 Thought/Action/Observation 範例）；你的 Agent 執行的任務高度重複且有固定格式（例如每次都分析相同格式的 DEX 數據）；對延遲和成本有極嚴格要求（Fine-tuned 的小模型比 API 呼叫大模型便宜得多）；或者你需要讓模型記住大量加密協議的細節（讓它不需要每次都在 System Prompt 裡解釋 AMM 機制）。

通用 LLM + 好的 System Prompt 更值得的場景：你的數據量不夠（Fine-tuning 需要大量高品質數據，少量數據反而可能讓模型過擬合）；你的 Agent 任務多樣且不可預期（通用模型的泛化能力更好）；你需要快速迭代（修改 System Prompt 比重新 Fine-tuning 便宜得多）；以及你的場景對最新知識有要求（Fine-tuned 模型無法取得 API 後端的持續更新）。

2026 年的實際建議：對絕大多數加密 Agent 開發者來說，優先把精力放在工具設計、System Prompt 優化、記憶系統設計上，而不是 Fine-tuning。Fine-tuning 是一個「讓好的 Agent 更好」的手段，不是「讓差的 Agent 變好」的捷徑。

實際例子 +

實際場景：同一個 DeFi Agent，換 LLM 後行為差異

以下是一個在實際 Agent 開發裡常見的對比場景，說明 LLM 選擇對 Agent 行為的影響。

任務：Agent 需要分析 Aave、Compound、Morpho 三個協議的 USDC 利率，決定是否執行移倉，並解釋推理過程。

使用 GPT-4o-mini（低成本）的表現：工具調用格式正確，能完成基本的利率比較。但在 System Prompt 要求「如果利差不足以覆蓋 Gas 費，應該明確拒絕執行並解釋原因」的指令上，偶爾會在利差很小時仍然輸出「建議執行」而不考慮 Gas 費，顯示指令遵從性在複雜條件下有時不穩定。

使用 Claude Sonnet（中等成本）的表現：相同的 System Prompt，Claude 在「Gas 費合理性判斷」這個複雜的條件推理上更一致，能正確地在 Gas 費超過利差收益時拒絕執行，且解釋理由更詳細（主動列出計算過程：「移倉預期年化收益 X 美元，Gas 費 Y 美元，若利率維持 Z 天才回本，不建議執行」）。

這個對比不代表 Claude 在所有場景都更好，而是說明：在需要「複雜條件判斷」和「指令遵從性」的 Agent 場景，LLM 的差異對輸出品質有實際影響，值得做 A/B 測試而不是隨意選擇。

圖解

歡迎截圖分享，轉載請註明來源

常見誤解 +

✕ 誤解1

× 誤解一：LLM 越大越好，用最大的模型就對了。模型大小和 Agent 任務的匹配度同樣重要。一個 7B 參數的 Fine-tuned 模型在特定的加密分析任務上可能比 GPT-4 更快、更省錢，且表現不差。更大的模型帶來更長的延遲和更高的成本，對需要高頻調用的 Agent 來說是不可忽視的限制。「最大的模型」不是 Agent 設計的答案，「最適合這個任務的模型」才是。

✕ 誤解2

× 誤解二：LLM 說它「確認」或「已驗證」某件事，就代表那件事是真的。LLM 沒有能力真正「確認」任何事情——它只能生成文字。「我確認 Aave 的利率是 X%」這句話只是模型生成的文字，不代表它真的查詢過 Aave 的合約。在加密 Agent 裡，任何數值性的資訊（利率、Gas 費、價格）必須來自工具查詢，不能因為 LLM 用了「確認」這個詞就信以為真。

這件事跟你有什麼關係 +

直接影響

LLM 在 AI Agent 架構裡的核心取捨是「能力上限 vs 成本與延遲」。更強大的 LLM（更大的參數量、更長的 context window）帶來更準確的推理和更好的指令遵從，但成本更高、推理延遲更長。對高頻 Agent（每分鐘多次調用）而言，旗艦模型的成本可能讓整個 Agent 系統在經濟上不可行。另一個取捨是「泛化能力 vs 特定領域深度」：通用 LLM 的泛化能力讓它能處理意外情況，但在特定加密場景的知識深度不如 Fine-tuned 模型。實際設計建議：用模型分層——複雜推理步驟用強模型，簡單的工具調用判斷用小模型，在能力和成本之間取得平衡。

提問

參照詞條

實用資源

鏈上數據 / TVL → 鏈上分析儀表板 → 區塊鏈瀏覽器 → 幣價 / 市場數據 → MCP 伺服器目錄 → LLM 評測排行 → 模型比較 →