Agentモニタリングはどのような重要な指標を追跡すべきですか?各指標のアラート閾値をどのように設定しますか?
Agentモニタリングの指標は3つのレイヤーに分けられ、各レイヤーに異なる重要指標とアラートロジックがあります:
LLM推論レイヤーの指標: ツールのグラウンディング率(ThoughtログとツールログのN数値の一致率、95%未満→アラート);推論ループ回数(プリセット上限を超える→アラート);Context使用率(70%超→アラート)。
ツール実行レイヤーの指標: ツール呼び出し成功率(90%未満→アラート);平均ツール呼び出しレイテンシ;数値異常率(5%超→アラート)。
オンチェーン操作レイヤーの指標: トランザクション成功率(95%未満→アラート);日次Gas消費(150%超→アラート、200%超→サーキットブレーカー);操作アドレスホワイトリストコンプライアンス率(非ホワイトリストアドレスがあれば即時アラート)。
閾値設定の一般原則:テストネットでの通常運用データに基づいてベースラインを確立し、本番環境のアラート閾値を通常範囲の1.5〜2倍に設定します。
アラートの後にどのような行動を取るべきですか?アラートの重大度レベルをどのように設計しますか?
アラートの重大度レベルの設計により、異なる重大度の問題に異なる対応速度とアクションが与えられます。推奨される4レベルのアラート設計:
P0(即時行動、分単位の対応):非ホワイトリストアドレス操作・BLOCKEDでもAgentが試行継続・日次Gasが200%超・Prompt Injectionが疑われるThoughtパターン。自動アクション:すべての書き込み操作を即時停止;Telegram/PagerDutyアラート送信;ERC-20承認の取り消し。
P1(当日行動、時間単位の対応):ツールのグラウンディング率95%未満・ツール呼び出し成功率85%未満・Context使用率80%超。自動アクション:アラート送信(操作は即時停止しない);詳細デバッグログの記録開始。
P2(計画的な修正、日単位の対応):数値異常率5%超・APIレイテンシ正常値の3倍超。アクション:問題を記録し次回デプロイの修正計画に追加。
P3(観察、週単位の対応):統計的な指標の緩やかなドリフト。アクション:トレンドを記録し週次レポートで確認。
Agentモニタリングにはどのようなツールを使いますか?自作 vs サードパーティプラットフォームの選び方は?
LLM推論レイヤーのモニタリングツール:
LangSmith(LangChain公式、$39/月から、無料版あり):LangGraphと最も深く統合されたトレースプラットフォームで、各ノードの入出力・トークン使用量・完全なThoughtLogを自動記録。Langfuse(オープンソース、自己ホスト可能、無料):LangSmithのオープンソース代替案で、データプライバシーの要件が高いシナリオに適しています。
指標集約とアラートのツール:
Grafana + Prometheus(オープンソースの組み合わせ、自己ホスト):最も柔軟な指標可視化とアラートシステム。PagerDuty($20/月から):プロのアラートルーティングプラットフォーム、エンジニアリングチームを持つ機関デプロイに適しています。Telegram Bot(無料):個人開発者向けの最もシンプルなアラートチャンネル。
自作 vs サードパーティの決定原則: LLM推論トレース → サードパーティ;オンチェーンモニタリング → 自作;アラートチャンネル → 個人にはTelegram、企業にはPagerDuty。
AgentモニタリングはどのようにしてPrompt Injection攻撃を検出しますか?ログで識別できる特徴は何ですか?
Prompt Injection攻撃のモニタリング検出は、Agentの動作パターンの継続的な観察に依存します——攻撃が発生すると、Agentの動作は通常の パターンから逸脱し、これらの逸脱はログで定量的に検出できます:
特徴1:ThoughtログN内の異常な目標陳述:System Promptで設定したタスクと無関係な目標が出現する。監視の実装:各LLM出力後にThoughtコンテンツをスキャンし、異常なキーワードを即時アラートします。
特徴2:ツール呼び出しシーケンスの異常:通常は全く呼び出さないツールが突然出現する。監視の実装:通常のツール呼び出しシーケンスのホワイトリストを維持します。
特徴3:Validation Logの集中BLOCKEDパターン:30分ウィンドウ内に同一の非ホワイトリストアドレスへの3回以上のBLOCKED。監視の実装:BLOCKED記録の頻度分析を行い、P0アラートをトリガーします。
特徴4:ツール返却値とThought引用値の大きな乖離:30%超の乖離(単なるハルシネーション閾値の5%ではなく)はPrompt Injectionアラートをトリガーします。
DeFi Agentのモニタリングシステムの最小限実行可能な設計
以下は個人のオンチェーンAgentが2日以内に構築できる最小限実行可能なモニタリングシステムです:
コンポーネント:
structlog + PostgreSQL:構造化された操作ログを記録主なアラートルール:
check_daily_gas() → 日次Gasが予算の150%超でP1アラート;200%超でP0アラートと書き込み操作の一時停止。check_blocked_pattern() → 同一アドレスが3回以上でP0アラート。check_grounding_rate() → 5%超の偏差でP1アラート。
この設計のコスト:Langfuse自架の場合は月次コストほぼ$0。この最小限のモニタリングシステムは、問題発生から5分以内にアラートを受け取ることができます。
詳細なモニタリング(より多くの指標を追跡・より短い確認間隔)→ 問題発見が早くなり・カバレッジが広がるが、システムの複雑さが高く・運用コストが高く・アラート疲労リスクが大きい。シンプルなモニタリング → メンテナンスコストが低く・アラート品質が高いが、モニタリングの盲点がある。ほとんどの個人オンチェーンAgentには:最も重要な3つのモニタリングポイント(日次Gas消費・非ホワイトリストアドレスのBLOCKEDパターン・ツールグラウンディング率)から始め、Agentが安定稼働した後に段階的にモニタリングカバレッジを拡張します。