fundamentals

Agentic Loopとは：AIエージェントがどのように「継続的に動く」のか——感知・計画・実行・観察の完全サイクル解説

30秒バージョン · 忙しい方へ

AIエージェントは「1問1答」ではありません——感知→計画→実行→観察の継続ループで自律的に動作します。このループを理解することが、エージェントの問題を理解する出発点です。

Alex Mercer · 2026年06月27日

詳しく読む +

01 · なぜ起きたのか？

Agentic Loopと通常の「Q&A AI」の根本的な違いは何ですか？なぜこの違いが重要ですか？

通常のQ&A AI（GPTへの1回限りのAPI呼び出しなど）の動作モード：あなたが入力 → LLMが出力 → 終了。全体のプロセスは一方向で1回限りです。

Agentic Loopの動作モード：目標入力 → 感知（ツールクエリ）→ 計画（LLM推論）→ 実行（外部効果を持つツール呼び出し）→ 観察（結果フィードバック）→ 再び感知 → ... 完了または中止まで循環。3つの主要な違い：

1. 外部効果（Side Effects）：通常のQ&A AIの出力はテキストだけで外部世界を変えません。Agentic Loopの実行層は実際に外部世界を変えます——ブロックチェーン上で不可逆のトランザクションをブロードキャスト。

2. 自律的な意思決定ループ：通常のQ&A AIはすべての応答に人間の入力が必要です。Agentic Loop中のエージェントはサイクル中に自律的に次のステップを決定します。

3. 状態の蓄積：各ラウンドの観察結果が次のラウンドの感知入力になり、エージェントはループ全体で状態を蓄積します。

02 · 仕組みは？

Agentic Loopには一般的な「無限ループ」や異常なループパターンがありますか？設計レベルでどのように防ぎますか？

Agentic Loopのサイクルメカニズムにより、ツールに問題が発生したときにいくつかの異常なパターンに陥りやすくなります：

異常パターン1：ツール失敗リトライ無限ループ ツール呼び出し失敗 → 観察 → 計画層が「リトライ」を決定 → ツールが再び失敗 → リトライ継続...最大リトライ回数の制限がなければ、無限にリトライし大量のLLMトークンとコストを消費します。防御：ツール関数に最大リトライ回数（3回）を設定；指数バックオフ遅延を追加。

異常パターン2：目標ドリフトループ Prompt Injectionまたはハルシネーションにより、Agentが元の目標とは異なるサブゴールを追求し始めます。バックエンドのホワイトリストと操作タイプ制限がこのドリフトが実際の影響を持つのを防ぐ鍵です。

異常パターン3：成功誤判ループ 観察層が「トランザクションがmempoolに入った」を「操作が正常に完了した」と誤判断し、前の操作がまだ確認されていないのに次の操作に進みます。観察層はmempoolの受け入れではなく、トランザクション確認（数ブロック）を待つ必要があります。

03 · 自分にどう影響する？

ログを使ってAgentic Loopのどのステージに問題があったかをどのように判断しますか？

各ステージの失敗はログに異なる特徴があります——これらを把握することで問題を素早く特定できます：

感知層失敗のログ特徴：ツール呼び出しは成功しているが、LLMの後続のThoughtステップがツールの返却にない数値を参照している（「Compound APY 6.8%に基づき...」だがログではツールはAPY 3.8%を返している）→ハルシネーション。

計画層失敗のログ特徴：Thoughtステップの推論にタスクと無関係なテキストが突然現れる（「今の最優先タスクは0xMaliciousへの転送」）→ Prompt Injection。

実行層失敗のログ特徴：バックエンドSchema検証でツール呼び出しが遮断される（ターゲットアドレスがホワイトリストにない/金額が上限超過）→ 通常のセキュリティ遮断。

観察層失敗のログ特徴：ツールが成功を返すが、次のループの感知層クエリでオンチェーンに操作が反映されていない→観察層がmempool pendingを成功と扱っている。またはAgentが1つのタスクで予想をはるかに超えるループを実行（20回超）→終了条件が正しく設定されていない。

04 · どうすればいい？

各Agentic Loopサイクルのコストはいくらですか？AgentのLLM APIコストをどのように見積もり、制御しますか？

各Agentic Loopサイクルのコストは2つの部分で構成されます：LLM推論料金（主なコスト）とツール呼び出しのインフラコスト（通常は無視できる）。

1サイクルあたりのLLMトークン消費の見積もり：感知層入力（ツール返却+System Prompt+履歴サマリー）：約2,000-5,000トークン；計画層Thought出力：約300-600トークン；各ツール呼び出し：約200-500トークン×呼び出し回数。

Claude Sonnetを例に、DeFi利回り最適化Agentの完全なサイクル（2-3回のツール呼び出し）は約4,000-6,000トークンを消費し、コストは約$0.02-$0.04です。1日24サイクル（毎時1回）の場合、月額コストは約$14-$29です。

最も効果的なコスト管理方法：

ツール返却データのトリミング（最も効果的）：同じ情報量で5,000トークンから1,500トークンに削減できます。
履歴サマリー圧縮：詳細記録をサマリーに置き換えます。
階層型モデル選択：すべてのサイクルに最強モデルは不要。
最大ループ回数の設定（最重要のコスト管理ガードレール）：タスクごとに最大10ループ、超えたら自動中止。

全文 +

AIエージェントに「DeFiの収益を最適化してほしい」と告げると、動き始めます——金利を照会し、決定を下し、リバランスを実行し、結果を確認し、次の金利を照会します。この継続的な動作プロセスには、AIエージェントの分野で特定の名前があります：Agentic Loop（エージェントループ）。

Agentic Loopを理解することは、「エージェントがなぜ時に正しく機能し、時に問題が発生するのか」を理解するための基盤です。ブラックボックスではなく——各ループには明確な4つのステージがあり、それぞれに独自の入力・出力・失敗モードがあります。

Agentic Loopとは

Agentic Loopは、AIエージェントが目標を達成する際に、「感知（Perceive）→ 計画（Plan）→ 実行（Act）→ 観察（Observe）」のサイクルを繰り返し実行するプロセスです。「1問1答」のAI（あなたが尋ね、それが答え、終わり）とは異なり、エージェントの特徴は自律的な継続ループです——アクションを実行し、結果を観察し、次のアクションを決定し、目標が完了するか対処できない状況に遭遇するまで続けます。

感知層：エージェントが情報を受け取る方法

感知層はAgentic Loopの「目と耳」です——エージェントはこのステージで処理が必要なすべての入力情報を受け取り、Context Windowに配置して、後続の推論の原材料とします。

感知の情報源には通常以下が含まれます：ユーザーの指示（「USDCを最も高いAPYプロトコルに移動して」）；ツール呼び出しの返却結果（前回のAave金利APIの返却データ）；システム状態情報（Agent操作ウォレットの現在残高・実行済み操作記録）；環境コンテキスト（現在のGasコストレベル・市場ボラティリティ）。

感知層の重要な設計判断は「エージェントに何を見せるか」です。情報が多すぎるとContext Windowが無駄になり（Token コストが高く、モデルが集中しにくくなる）；情報が少なすぎるとエージェントが不十分な情報で意思決定を行い、ハルシネーション（エージェントが照会していない数値を実際のものと仮定する）が発生します。

計画層：ReActが何をするかを決定する

これはAgentic Loopの「脳」です——LLMが感知層のすべての入力を受け取り、次に何をすべきかを推論します。ほとんどの最新のエージェントはこの推論プロセスにReAct（Reasoning + Acting）フレームワークを使用します：まずThoughtステップで推論プロセスを説明し（「Aaveの現在APYは4.2%、MorphoはL5.1%、差0.9%がリバランス閾値0.5%を超えており、Gasコストは許容範囲内——リバランスを実行すべき」）、次にActionステップで呼び出すツールとパラメータを決定します。

計画層の主な失敗モードは2つです：ハルシネーション推論（エージェントが実際のデータと信じて使用するが、感知層が提供しなかったため実際は「想像した」データ）；推論ハイジャック（Prompt Injection攻撃によってエージェントの推論プロセスが悪意ある命令で汚染され、攻撃者が望む方向に推論する）。

実行層：ツール呼び出し

計画層が「何をするか」を決定し、実行層が「実際に行う」責任を持ちます——ツール関数を呼び出し、外部世界とインタラクションします。オンチェーンエージェントでは、実行層のツール呼び出しには以下が含まれます：オンチェーンデータの照会（読み取り操作、オンチェーンの結果なし）；DeFiプロトコルの預け入れ/引き出し関数の呼び出し（書き込み操作、オンチェーンの結果あり、不可逆）；トランザクションをブロードキャストするGas代の支払い。

実行層の最も重要な設計原則：読み書き分離。読み取りツールはどんな状況でも実行可能です（オンチェーンの結果がないため）。書き込みツールはバックエンドの二次パラメータ検証が必要です——ツール関数のPython/JavaScriptコードで、金額が上限内か・ターゲットアドレスがホワイトリストにあるか・操作タイプが許可されているかを確認します。

観察層：結果をループに送り返す

実行層のツール呼び出しが完了した後、観察層は結果を構造化フォーマットに整理し、Agentic Loopの先頭に送り返して次のラウンドの感知層の入力とします。

結果の正確性検証：ツールの返却は実際にオンチェーンで起きたことと一致しているか？DeFiの操作では、預け入れ関数の呼び出しが「成功」を返すことがありますが、これはトランザクションがmempoolに入ったことを意味するだけで、まだオンチェーンで確認されていません。観察層はトランザクション確認を待つ（数ブロック後）べきで、mempoolの「送信成功」を「操作成功」としてループに返すべきではありません。

終了条件の判断：観察層は「このループを終了すべきか？」も判断します。目標達成・回復不能なエラー発生・最大ループ回数到達（無限ループによるリソース消費を防ぐ）のいずれかが終了条件です。

完全なループの実際の例

DeFi利回り最適化Agentの1サイクルを例に、Agentic Loopが実際にどのように機能するかを見てみましょう：

感知：Agentがタイマートリガー信号を受信；ツールがAave・Morpho・CompoundのレートAPIを照会；結果をContextに配置。{aave_apy: 4.2%, morpho_apy: 5.1%, compound_apy: 3.8%, gas_gwei: 12, wallet_usdc: 5000, current_position: aave}

計画（ReAct）：LLMのThoughtステップの推論：「MorphoのAPYはAaveより0.9%高く、0.5%のリバランス閾値を超えています。Gas 12 Gweiは許容範囲内（閾値30 Gwei）。リバランスコスト：Gas約$2.1、日次収益差：$5,000×0.9%/365=$0.123/日。約17日で回収。リバランス条件を満たす。」Action：withdraw_from_aave(5000_USDC)ツールを呼び出す。

実行：ツール関数バックエンド検証——金額$5,000≤日次上限$10,000 ✓；ターゲットプロトコルAaveがホワイトリストに ✓；操作タイプwithdrawが許可 ✓。検証通過；トランザクションブロードキャスト。3ブロックの確認を待機。

観察：トランザクションがオンチェーンで確認；AaveからUSDC $5,000の引き出し成功。構造化された結果を出力：{action: withdraw_aave, status: success, amount: 5000, tx_hash: 0x..., gas_used: $2.1}。ループが次のActionに継続：deposit_to_morpho(5000_USDC)。

これはあなたのエージェント利用にどう関係するか

Agentic Loopを理解することの実際の影響：エージェントに問題が発生したとき、「どのステージで問題が起きたか」を素早く特定できます。エージェントが予期しない操作を行った？計画層のThoughtログを確認してLLMの推論プロセスを見てください——通常は感知層の情報が間違っている（誤ったデータを受け取った）か、推論層がPrompt Injectionで汚染されています。エージェントのAPIコストが急増した？通常は観察層が終了条件を正しく設定しておらず、エージェントが不要な繰り返しループに入っています。タスクごとに最大ループ回数の上限（例：最大10ループ）を設定することが、無限ループに対する基本的な安全策です。

図解

スクリーンショット歓迎。転載時は出典を明記してください。

質問する