頭條 · 風險識別
「怎麼讓 Agent 不被攻擊」是錯的問題。正確的問題是:「如果 Agent 的所有防禦都失效,攻擊者最壞能做什麼?」如果這個問題的答案是「拿走我所有資產」,安全設計沒完成。正確答案應該是:「操作錢包裡幾天的運作資金,且留下完整日誌讓我事後能追蹤根本原因。」
Jordan Blake
·
2026年06月23日
加密 AI Agent 的安全設計問題,大多數人問的是「怎麼讓 Agent 不被攻擊」。這是錯的問題。正確的問題是:「如果 Agent 的所有防禦都失效了——Prompt Injection 成功、MCP Server 被污染、LLM 推理被完全劫持——攻擊者最壞能做什麼?」如果你無法清楚回答這個問題,你的 Agent 安全設計還沒有完成,不管你的 System Prompt 寫得多好。這篇文章從「最壞情況」出發,設計的目標不是讓攻擊不可能,而是讓攻擊即使成功,後果也在你可接受的範圍內。問對問題才有好的防禦設計傳統的安全設計思維是「把門鎖好」——加入更多安全檢查,讓攻擊更難成功。這個思維對加密 Agent 不夠,因為攻擊成功的可能性永遠存在:LLM 的 Prompt Injection 沒有 100% 的防禦、MCP Server...