◈ Agents & Manager/2026-04-28上級

Antigravity Agent 本番障害対応 Runbook 設計 — 検知から復旧・再発防止までの実践フレームワーク

Antigravity Agent の本番障害に備える Runbook 設計の完全ガイド。検知・トリアージ・復旧・ポストモーテムまでを実装コード付きで体系化します。

antigravity⁴³⁶ agents⁹⁰ incident-response sre² runbook production⁵⁹

✦ プレミアム記事

import RelatedArticles from "@/components/RelatedArticles";

「夜中の 2 時に Slack 通知が鳴って、Antigravity Agent が同じツールを 200 回呼び出して止まらなくなっていた」— これは私が実際に体験した一夜の話です。半分寝ぼけながら Manager Surface を開き、どのトレースから見ればいいのか分からず 30 分溶かしました。Runbook さえあれば、5 分で原因特定まで辿り着けたはずでした。

AI Agent の本番運用は、従来の Web サービスとは別物の障害パターンを生み出します。CPU は元気でも「思考が壊れている」状態が起きるのです。ここでは私が複数のプロダクトで失敗を重ねながら整えてきた Antigravity Agent 専用の Runbook フレームワーク を、コード付きで丸ごとお渡しします。

個人開発から数十エージェントを束ねる本番環境まで、規模に応じてスケールする設計にしています。読み終える頃には、Slack に届いた最初のアラートから 5 分以内にトリアージを終え、ユーザー影響を最小化する具体的な手順が手元に揃っているはずです。

なぜ Antigravity Agent には専用 Runbook が必要なのか

通常の Web サービスの Runbook は「リクエスト数が急増した」「DB 接続が切れた」といった外形的な指標に紐づいています。一方、Antigravity Agent の障害は次のような特徴を持ちます。

「正常に動いているのに間違っている」状態が頻発する: ツール呼び出しは成功、API は 200 を返す、しかし出力が業務要件を満たしていない
失敗が伝播しにくい: マルチエージェント構成では Worker Agent が壊れていても Manager Agent が「問題ありません」と返してしまうケースがある
コストが障害指標になる: トークン消費が急増した時点で、すでに数百ドル分の損害が出ている可能性がある
再現性が低い: 同じ入力で 2 回試して再現しないことが普通にある

つまり、HTTP ステータスや CPU 使用率だけを見る Runbook では網羅できません。Antigravity 固有の runId、traceId、agentSpanId を中心に据えた、AI Agent 専用の対応フローが必要になります。

私は当初、既存の SRE Runbook テンプレートをそのまま使っていましたが、トリアージ初動で「どのログを見ればいいのか」を毎回考えてしまい、夜中の対応で頭が回らない時に致命的でした。Agent 専用フレームワークに切り替えてから、初動時間が平均 18 分から 4 分に短縮されました。

Runbook の 4 階層モデル — 個人開発でも回せる軽量設計

私が辿り着いたのは、Runbook を 4 つの階層に分ける構造です。重いプロセスは続かないので、個人開発者が一人で回せる軽さを優先しています。

L0: 検知 (Detection) — 何かがおかしいと最初に気づく層。アラート定義とトリガー条件を集約
L1: トリアージ (Triage) — 5 分以内に「ユーザー影響あり/なし」「自動復旧可能/不可」を判定
L2: 抑制 (Mitigation) — ユーザー影響を止めるための即時アクション。Kill switch・フォールバック・トラフィック遮断
L3: 復旧と再発防止 (Recovery & Postmortem) — 根本原因の修正、Runbook 更新、再発防止策の組み込み

各階層には専用のチェックリストとコードスニペットを用意します。深夜に冷静に判断できる人間はいないので、Runbook が考える代わりに動いてくれる必要があります。

L0: 検知の設計 — 4 種類のアラートを使い分ける

まず Antigravity Agent で監視すべき指標を 4 つに整理します。1 つのダッシュボードに混ぜると見落とすので、必ず分けてください。

// monitoring/agent-alerts.ts
// Antigravity Agent 用のアラート定義（OpenTelemetry + PromQL ベース）
import { Counter, Gauge, Histogram } from "@opentelemetry/api";
 
// ① 動作系: そもそも Agent が動いているか
export const agentRunCount = new Counter({
  name: "antigravity_agent_run_total",
  help: "Total number of Agent runs by status",
  labelNames: ["agent_id", "status"], // status: success | failure | timeout
});
 
// ② 品質系: 出力が業務要件を満たしているか
export const agentEvalScore = new Histogram({
  name: "antigravity_agent_eval_score",
  help: "Eval score (0-1) for Agent outputs",
  labelNames: ["agent_id", "eval_type"],
  buckets: [0.5, 0.7, 0.8, 0.9, 0.95],
});
 
// ③ コスト系: トークン消費が予算内か
export const agentTokenSpend = new Counter({
  name: "antigravity_agent_token_spend_usd",
  help: "Cumulative USD spend per Agent",
  labelNames: ["agent_id", "model"],
});
 
// ④ ループ系: 同じツールを暴走呼び出ししていないか
export const agentToolCallStreak = new Gauge({
  name: "antigravity_agent_tool_call_streak",
  help: "Consecutive identical tool calls (potential loop)",
  labelNames: ["agent_id", "tool_name"],
});

私が実装で痛感したのは、コスト系アラートを最初に設計しないと取り返しがつかない ことです。一晩で $300 溶かした経験があります。agentTokenSpend のような累積カウンターを 1 時間あたり $X 超えたら即時通知する仕組みを、最初の 1 日目に組み込んでください。

PromQL でのアラートルール例も載せます。Cloudflare や Grafana Cloud に置く前提です。

# monitoring/alerts.yml
# Antigravity Agent の本番アラートルール
groups:
  - name: antigravity_agent_alerts
    interval: 30s
    rules:
      # ① 動作系: 失敗率が 5 分間で 20% 超
      - alert: AgentFailureRateHigh
        expr: |
          (
            sum(rate(antigravity_agent_run_total{status="failure"}[5m])) by (agent_id)
            / sum(rate(antigravity_agent_run_total[5m])) by (agent_id)
          ) > 0.2
        for: 5m
        labels:
          severity: page
          runbook: agent-failure-rate
        annotations:
          summary: "Agent {{ $labels.agent_id }} failure rate > 20%"
 
      # ② コスト系: 1 時間で $20 超え（個人開発スケール）
      - alert: AgentTokenSpendBurst
        expr: |
          increase(antigravity_agent_token_spend_usd[1h]) > 20
        for: 5m
        labels:
          severity: page
          runbook: agent-cost-burst
        annotations:
          summary: "Agent {{ $labels.agent_id }} burned ${{ $value }} in 1h"
 
      # ③ ループ系: 同じツールを 30 回連続呼び出し
      - alert: AgentToolLoopDetected
        expr: antigravity_agent_tool_call_streak > 30
        for: 1m
        labels:
          severity: page
          runbook: agent-tool-loop
        annotations:
          summary: "Agent {{ $labels.agent_id }} stuck on {{ $labels.tool_name }}"
 
      # ④ 品質系: Eval スコアが過去 1 時間で 0.7 を下回る
      - alert: AgentQualityDegraded
        expr: |
          histogram_quantile(0.5, sum(rate(antigravity_agent_eval_score_bucket[1h])) by (le, agent_id)) < 0.7
        for: 15m
        labels:
          severity: ticket
          runbook: agent-quality-drop
        annotations:
          summary: "Agent {{ $labels.agent_id }} median eval score < 0.7"

severity: page はオンコールに即時通知、severity: ticket は翌営業日対応で十分なものに分けています。全部 page にすると本当に必要な時に反応できなくなるので、痛い目を見ながら線引きしてきました。

L1: トリアージの 5 分間プロトコル

アラートを受け取ったら、まず 5 分以内に次の 3 つを答える ことを目標にします。

ユーザー影響は出ているか？（出ていれば即 L2 へ）
自動復旧の余地はあるか？（あればまず再試行）
横展開リスクはあるか？（他の Agent や下流サービスへの影響）

このフローを Runbook に落とし込んだ Markdown テンプレートが以下です。Slack の Workflow Builder や Notion にそのまま貼って使ってください。

## トリアージ・チェックリスト（5 分以内に完了）
 
- [ ] **alert ID** を取得 (例: `AgentFailureRateHigh-2026-04-28-02-15`)
- [ ] Manager Surface で該当 `agent_id` の `runId` を上から 3 件開く
- [ ] エラーメッセージのパターンを判定:
  - [ ] `ToolTimeout` → L2-A: タイムアウト緩和フロー
  - [ ] `RateLimitExceeded` → L2-B: バックオフ延長フロー
  - [ ] `MaxIterationsReached` → L2-C: ループ検出フロー
  - [ ] `EvalScoreDrop` → L2-D: モデルロールバックフロー
  - [ ] その他 → L2-E: Kill switch 発動を検討
- [ ] ユーザー影響を `cmd+K` で `is_user_facing` フィールド検索:
  - 「あり」: 60 秒以内に L2 を発動
  - 「なし」: 15 分内で L3 へ移行
- [ ] 横展開リスクの確認:
  - [ ] 同じ tool を使う他の Agent の失敗率 (PromQL: `rate(antigravity_agent_run_total{status="failure", tool_name="<name>"}[5m])`)
  - [ ] 下流サービス (DB, 外部 API) の応答時間
- [ ] **#incidents-agent** チャネルに `[L1完了] agent_id=xxx pattern=ToolTimeout user_impact=あり` を投稿

このチェックリストは、私が実際に 5 分タイマーを使ってリハーサルしながら磨いてきたものです。「Manager Surface で runId を上から 3 件開く」 のように、具体的な GUI 操作を書くのがコツです。「ログを確認する」だけだと、夜中に頭が回らない時に固まります。

L2: 抑制パターン集 — Kill Switch を 1 行で打てるように

ユーザー影響が出ている場合、根本原因の調査より先に 「血を止める」 ことが優先です。Antigravity Agent には次の 5 種類の Mitigation パターンを用意しておきます。

// runbook/mitigations.ts
// 本番障害の即時抑制ライブラリ
import { ConfigStore } from "./config-store";
 
interface MitigationContext {
  agentId: string;
  reason: string;
  operator: string; // 実行者の名前
  durationMinutes?: number;
}
 
export class AgentMitigator {
  constructor(private config: ConfigStore) {}
 
  // パターン A: Kill Switch — Agent を完全停止
  async killSwitch(ctx: MitigationContext): Promise<void> {
    await this.config.set(`agent:${ctx.agentId}:enabled`, false, {
      ttlMinutes: ctx.durationMinutes ?? 60,
      audit: { reason: ctx.reason, operator: ctx.operator },
    });
    console.log(`[KILL] ${ctx.agentId} stopped for ${ctx.durationMinutes ?? 60}min`);
    // 通知も忘れずに
    await this.notifySlack(`🚨 ${ctx.agentId} を ${ctx.durationMinutes ?? 60}分間停止しました (${ctx.operator}: ${ctx.reason})`);
  }
 
  // パターン B: フォールバック — 単純な決定論的処理に切り替え
  async fallbackToDeterministic(ctx: MitigationContext): Promise<void> {
    await this.config.set(`agent:${ctx.agentId}:mode`, "fallback", {
      ttlMinutes: ctx.durationMinutes ?? 30,
      audit: { reason: ctx.reason, operator: ctx.operator },
    });
    await this.notifySlack(`🔄 ${ctx.agentId} をフォールバックモードに切替`);
  }
 
  // パターン C: モデルダウングレード — 安定版に戻す
  async downgradeModel(ctx: MitigationContext, fallbackModel: string): Promise<void> {
    await this.config.set(`agent:${ctx.agentId}:model`, fallbackModel, {
      ttlMinutes: ctx.durationMinutes ?? 1440,
      audit: { reason: ctx.reason, operator: ctx.operator },
    });
    await this.notifySlack(`⬇️ ${ctx.agentId} を ${fallbackModel} にダウングレード`);
  }
 
  // パターン D: トラフィック制限 — 同時実行数を絞る
  async throttle(ctx: MitigationContext, maxConcurrent: number): Promise<void> {
    await this.config.set(`agent:${ctx.agentId}:max_concurrent`, maxConcurrent, {
      ttlMinutes: ctx.durationMinutes ?? 60,
      audit: { reason: ctx.reason, operator: ctx.operator },
    });
    await this.notifySlack(`🐌 ${ctx.agentId} の並列度を ${maxConcurrent} に絞りました`);
  }
 
  // パターン E: ループ強制脱出 — 進行中のループを中断
  async breakLoop(ctx: MitigationContext, runId: string): Promise<void> {
    await this.config.set(`run:${runId}:cancel`, true, {
      ttlMinutes: 5,
      audit: { reason: ctx.reason, operator: ctx.operator },
    });
    await this.notifySlack(`✂️ runId=${runId} のループを強制終了`);
  }
 
  private async notifySlack(message: string): Promise<void> {
    const webhookUrl = process.env.SLACK_INCIDENT_WEBHOOK_URL;
    if (!webhookUrl) {
      console.warn("SLACK_INCIDENT_WEBHOOK_URL not set, skipping notification");
      return;
    }
    try {
      await fetch(webhookUrl, {
        method: "POST",
        headers: { "Content-Type": "application/json" },
        body: JSON.stringify({ text: message, channel: "#incidents-agent" }),
      });
    } catch (e) {
      console.error("Slack notify failed:", e);
      // 通知失敗で抑制処理を止めないこと（ここが重要）
    }
  }
}
 
// 使い方の例: Kill Switch を 1 行で打つ
// const mitigator = new AgentMitigator(configStore);
// await mitigator.killSwitch({ agentId: "code-reviewer", reason: "暴走検知", operator: "masaki" });

ここで意識しているのは、Slack 通知の失敗で抑制処理を止めないこと です。本番障害中に Slack まで落ちている可能性は普通にあります。try/catch でくるんで、抑制自体は完遂させてください。

それから TTL 必須 にしているのも重要なポイントです。手動で enabled = false にして、そのまま忘れて翌週まで止めっぱなし、という事故を防ぎます。最大 24 時間で自動復活させて、必要なら更新する設計にしましょう。

L3: 復旧 — Trace ID から原因を辿る実装

血が止まったら、根本原因を特定して恒久対策を打ちます。Antigravity Agent の場合、traceId を起点に「思考の足跡」を再現できることが強力な武器になります。

// runbook/postmortem-data.ts
// 障害ポストモーテム用のデータ収集スクリプト
// 使い方: node postmortem-data.ts <traceId>
 
import { AntigravityClient } from "@antigravity/sdk";
import { writeFileSync } from "node:fs";
 
interface PostmortemBundle {
  traceId: string;
  agentId: string;
  startedAt: string;
  endedAt: string;
  totalTokens: number;
  totalUsd: number;
  toolCalls: Array<{
    spanId: string;
    toolName: string;
    durationMs: number;
    success: boolean;
    inputHash: string;
    outputHash: string;
  }>;
  modelMessages: Array<{
    role: string;
    contentSummary: string; // 最初の 200 文字
    tokens: number;
  }>;
  evalScores: Array<{ evalType: string; score: number }>;
}
 
async function collectBundle(traceId: string): Promise<PostmortemBundle> {
  const client = new AntigravityClient({
    apiKey: process.env.ANTIGRAVITY_API_KEY!,
  });
 
  try {
    const trace = await client.traces.get(traceId);
    const spans = await client.traces.spans(traceId);
    const evals = await client.traces.evals(traceId);
 
    return {
      traceId,
      agentId: trace.agentId,
      startedAt: trace.startedAt,
      endedAt: trace.endedAt ?? new Date().toISOString(),
      totalTokens: trace.totalTokens,
      totalUsd: trace.totalUsd,
      toolCalls: spans
        .filter((s) => s.type === "tool_call")
        .map((s) => ({
          spanId: s.id,
          toolName: s.attributes.tool_name,
          durationMs: s.durationMs,
          success: s.status === "ok",
          inputHash: s.attributes.input_hash,
          outputHash: s.attributes.output_hash,
        })),
      modelMessages: spans
        .filter((s) => s.type === "model_message")
        .map((s) => ({
          role: s.attributes.role,
          contentSummary: (s.attributes.content ?? "").slice(0, 200),
          tokens: s.attributes.tokens ?? 0,
        })),
      evalScores: evals.map((e) => ({ evalType: e.type, score: e.score })),
    };
  } catch (e) {
    console.error(`Failed to collect bundle for ${traceId}:`, e);
    throw new Error(`Trace ${traceId} not found or API error`);
  }
}
 
// CLI エントリポイント
const traceId = process.argv[2];
if (!traceId) {
  console.error("Usage: node postmortem-data.ts <traceId>");
  process.exit(1);
}
 
collectBundle(traceId)
  .then((bundle) => {
    const filename = `postmortem-${traceId.slice(0, 8)}-${Date.now()}.json`;
    writeFileSync(filename, JSON.stringify(bundle, null, 2));
    console.log(`✅ Saved bundle: ${filename}`);
    console.log(`   Tool calls: ${bundle.toolCalls.length}`);
    console.log(`   Token cost: $${bundle.totalUsd.toFixed(2)}`);
    console.log(`   Failures: ${bundle.toolCalls.filter((c) => !c.success).length}`);
  })
  .catch((e) => {
    console.error("❌ Bundle collection failed:", e.message);
    process.exit(1);
  });

このスクリプトを npx tsx postmortem-data.ts <traceId> で叩けば、ポストモーテム用のデータが 1 ファイルにまとまります。私はこれを Notion のポストモーテムページに添付して、後から見返せるようにしています。

実行結果の例はこんな感じです。

✅ Saved bundle: postmortem-abc12345-1714356123456.json
   Tool calls: 247
   Token cost: $18.42
   Failures: 12

Tool calls: 247 がすでに異常値だと一目で分かります。健全な実行は通常 5〜30 件に収まるからです。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦深夜に Agent が暴走しても 5 分でトリアージできる Runbook テンプレートを手元に持てるようになります

✦検知 → 抑制 → 復旧の 3 段階を Antigravity 固有の Trace ID と Manager Surface に紐付ける具体的な実装パターンを習得できます

✦個人開発でも回せる「軽量ポストモーテム」フォーマットで、同じ障害を二度と起こさない仕組みを今日から構築できます

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

ポストモーテム — 個人開発でも 30 分で書ける軽量フォーマット

ポストモーテム文化の重要性は理解していても、本格的な「5 Whys」「タイムライン詳細」を書こうとすると 3 時間かかって続きません。私が個人開発の規模で続けられる形に削ぎ落としたテンプレートを共有します。

# Postmortem: <障害タイトル> (YYYY-MM-DD)
 
## 影響
- 期間: HH:MM 〜 HH:MM (合計 N 分)
- 影響を受けたユーザー: 約 N 人 / 全体の N%
- 失われた金額: $N (Agent 暴走によるトークン消費)
- 失われた信頼: 主観で 1〜5
 
## タイムライン (簡潔に)
- HH:MM 検知 (アラート名: AgentFailureRateHigh)
- HH:MM トリアージ完了 (パターン特定: ToolTimeout)
- HH:MM 抑制実行 (Kill Switch)
- HH:MM 復旧確認
 
## 根本原因
3〜5 行で。技術的な原因と、それを許してしまった構造的原因の両方を書く。
 
## 直接修正したこと
- [ ] 修正 PR: #1234
- [ ] デプロイ済み
 
## 再発防止策 (DA: Done / WIP / TBD で進捗管理)
- [DA] アラートしきい値を 20% → 10% に厳格化
- [WIP] tool_call_streak の上限を 30 → 15 に
- [TBD] 同種パターンの定期 Eval を追加
 
## Runbook 更新
- [ ] L2 パターンに「ToolTimeout の連鎖検知」を追加
- [ ] チェックリストに「対象 tool の他 Agent 影響」を明記
 
## 学び (3 行で)
- 何を間違えていたか
- 次は何を変えるか
- 他の人 (将来の自分) に伝えたいこと

このフォーマットの肝は 「学び (3 行)」 セクションです。詳細を全部書こうとすると挫折するので、3 行に絞って凝縮させます。半年後に読み返した時に、当時の自分の判断を思い出せる粒度を狙ってください。

よくある間違い・落とし穴 — 私が踏んだ地雷

ここからは、私が実際に踏み抜いてきた落とし穴を共有します。先に知っておけば、同じ夜中の電話を受けずに済みます。

落とし穴 1: アラートを Slack の DM に送る

通知先を個人 DM にすると、寝てる時に気づきません。逆に通知先を共通チャネルにしても、誰も対応しないことがあります。「対応する人を強制的にローテーションさせる」 仕組みを最初から入れてください。一人開発なら自分しかいませんが、その場合でも PagerDuty や Opsgenie の無料枠を使って 電話 + プッシュ通知 にしましょう。Slack 通知だけだと、深夜の重大事故を見落とします。

落とし穴 2: Kill Switch を「とりあえず無効化」で済ませる

enabled = false にして放置すると、翌週まで止まったままになりがちです。前述のように TTL 必須 にして、24 時間で自動復活させましょう。復活時にユーザー影響が再発したら、それは「修正が間に合っていない」シグナルです。延長判断を強制的に発生させることで、修正を後回しにしない圧力を作れます。

落とし穴 3: コストアラートを後回しにする

「まずは動かしてから監視を入れよう」と考えていると、必ず一晩で数百ドル溶かします。私は実際に Agent が無限ループに陥り、$ 312 を一晩で消したことがあります。agentTokenSpend の累積カウンターと「1 時間あたり $X 超えたら page」のルールは、最小構成でも デプロイ初日に必須 です。

落とし穴 4: トリアージで「ログを全部見よう」とする

これは私の最大の反省点です。500 件の Span を上から眺めても、何も分かりません。「最初の 3 件」「最後の 3 件」「失敗した Span だけ」 のように、見る範囲を強制的に絞るチェックリストを Runbook に書いておきましょう。網羅しようとすると思考が止まります。

落とし穴 5: ポストモーテムを完璧に書こうとする

「ちゃんと書こう」と思った瞬間に、書かなくなります。前述の軽量フォーマットを 30 分タイマーで埋めて、不完全でも保存することを最優先にしてください。後から追記すれば良いのです。書かれていないポストモーテムは存在しないのと同じで、半年後に同じ障害を繰り返すコストの方がはるかに大きいです。

落とし穴 6: 「再発防止」を Runbook に書いて終わりにする

修正 PR をマージしただけでは、Runbook 自体が古いままです。ポストモーテム時に必ず Runbook の該当セクションを書き換える ことをセットで行ってください。私は Notion で Runbook を管理していますが、ポストモーテムテンプレートに「Runbook 更新」セクションを必須項目として入れてあります。

Manager Surface との連携を仕込む

Runbook は本番障害時にどれだけ素早くアクセスできるかで価値が決まります。Antigravity の Manager Surface には、初動の負荷を下げる仕掛けを事前に入れておく価値があります。

私が組み込んでいる代表的なフックは、Agent ごとの Runbook リンク と Trace 連動アクションボタン の 2 つです。前者は Agent 詳細ページに Runbook URL を貼ります。後者は Mitigation アクション (Kill Switch・Throttle・Model Downgrade) をボタン化し、現在見ている agentId と runId をすでに知っている状態で呼び出せるようにします。

// manager-surface/runbook-links.ts
// Manager Surface に表示する Agent ごとの Runbook URL を登録する
import { ManagerSurface } from "@antigravity/manager-surface";
 
const surface = new ManagerSurface({ apiKey: process.env.ANTIGRAVITY_API_KEY! });
 
await surface.registerAgentMetadata({
  agentId: "code-reviewer",
  runbookUrl: "https://notion.so/team/runbook-code-reviewer",
  primaryOnCall: "@masaki",
  costBudgetUsdPerHour: 5,
  killSwitchEnabledBy: ["@masaki", "@oncall-rotation"],
});
 
await surface.registerAgentMetadata({
  agentId: "data-extractor",
  runbookUrl: "https://notion.so/team/runbook-data-extractor",
  primaryOnCall: "@masaki",
  costBudgetUsdPerHour: 2,
  killSwitchEnabledBy: ["@masaki"],
});
 
console.log("✅ Runbook links registered for all agents");

これを登録しておくと、深夜の自分は Trace を開いた瞬間に「Runbook を開く」ボタンが目に入ります。最も判断力が落ちている時に、認知負荷を 1 つ減らせる効果は侮れません。

Trace 連動アクションボタンはさらに強力です。私が試して定着したのは、Mitigation アクションを Manager Surface のカスタムコマンドとして登録し、それぞれを先ほどの AgentMitigator ライブラリに直結させるパターンです。Kill Switch が「いま見ている Trace の上で 1 クリック」になり、ターミナルにコンテキストスイッチして引数を思い出す手間が消えます。

Game Day で Runbook を継続的に磨く

どれだけ綺麗に書いた Runbook も、放っておけば必ず腐ります。API は変わり、アラート閾値は調整され、オンコールローテーションも動きます。最も安く効く保険が、四半期に 1 回の Game Day です。意図的に障害をシミュレートし、L0 → L1 → L2 → L3 を通しでなぞります。

私は Game Day を 90 分のソロエクササイズとして実施しています。手順はシンプルです。

過去の障害か、ありそうなシナリオを 1 つ選ぶ
キッチンタイマーを 5 分にセットし、Runbook だけを手元に L1 から開始
30 秒以内に次のステップが見つからなかった箇所を全てメモ
シミュレーション後に、見つかったギャップを全て Runbook に反映

これを繰り返すと、Runbook が少しずつ「迷わないスクリプト」に近づきます。私の場合、初回の Game Day で 11 箇所のギャップが出ました。3 回目には 1 箇所まで減りました。

チームメンバーがいるなら、ペアでの Game Day がさらに効きます。1 人が「システム役」として偽のアラートと Trace を投げ、もう 1 人が「オンコール役」をやります。役割を交代することで、両方が運用知識を維持できます。

副次効果として、Game Day は 観測性のギャップ も浮かび上がらせます。Runbook に「Tool ごとの失敗率を確認」と書いてあるのにダッシュボードでそれが見にくければ、それは Runbook ではなくダッシュボードの改善ポイントです。

ステージごとに Runbook をサイズ調整する

よくある失敗が、巨大企業の Runbook テンプレートを 1 人プロジェクトにそのまま持ち込むパターンです。誰も読まない 50 ページのドキュメントが完成します。Runbook はステージに合わせて右サイズに調整してください。

ソロ開発で本番 Agent が 1〜2 個なら、Notion 1 ページで L0〜L3 セクションを折りたたんで持つだけで十分です。全体で 800 文字以内に収めましょう。先ほど紹介した 4 つのアラート、5 つの Mitigation パターン、軽量ポストモーテムを足しても、その文字数に余裕で収まります。

5〜10 Agent の小チーム規模なら、「グローバル Runbook」(障害プロセス・重大度定義・ポストモーテムテンプレート) と「Agent 別 Runbook」 (各 Agent の失敗モード・Mitigation・オンコール) に分割します。Agent 別ページは 500 文字以内に絞り、グローバル Runbook がプロセスの単一情報源になるようにします。

数十 Agent ・複数チームの規模になったら、PagerDuty や Opsgenie を Slack と統合し、FireHydrant や incident.io のようなインシデント管理ツールでプロセスを駆動させ、Runbook はコードで生成する設計に切り替えます。この規模では静的 Runbook は逆に負債化するので、「どの Agent が壊れたか」を知った状態でコンテキストを自動で組み立ててくれる仕組みに投資する方が効きます。

嘘をつかない重大度定義 (Severity)

多くのチームが P1/P2/P3 のような重大度ラベルを採用しますが、「何が P1 なのか」を文章化していないことがほとんどです。結果として、誰も P1 を宣言したくないので全てが P2 になり、本物の P1 がノイズに埋もれます。

ここは厳密に書きます。私が現在 Antigravity Agent に対して使っている重大度テーブルが下記です。数字はあなたの環境に合わせて調整してください。構造はそのまま使えます。

## Severity Definitions
 
### P1 (24/7 即時ページ)
- 任意の Agent でユーザー影響のある失敗率が 5 分以上 20% 超
- 単一 Agent で 1 時間あたり $50 超のコストバースト
- 同じ Tool の連続呼び出しが 100 回超 (ループ)
- データ破損の疑い (Agent が System of Record に不正データを書き込み)
 
### P2 (営業時間内ページ・夜間チケット)
- ユーザー影響のある失敗率が 30 分超で 5-20% を維持
- コストバーストが $20-50/時
- Eval 中央値が 2 時間超で 0.7 を下回る
- レイテンシ P95 が 30 分超で 30s を超える
 
### P3 (チケット・現スプリントで修正)
- Eval 中央値が 24 時間超で 0.7-0.85
- 単一 Agent run の失敗で伝播なし
- バーストなしのコスト緩慢上昇
 
### P4 (バックログ・余裕がある時に修正)
- 表示崩れ・ログスパム・廃止予定警告
- 10% 未満の性能劣化でユーザー影響なし

注目してほしいのは、全ての閾値に 「大きさ」と「持続時間」の両方 を入れていることです。「失敗率 20% 超」だけだと一瞬のスパイクでもページが鳴ります。「5 分以上で 20% 超」とすればノイズを除いて本物の火事だけ残せます。これは全てのアラートに当てはまる原則で、持続時間がないアラートはアラートではなく「ページ製造機」です。

もう 1 つ重要なのは、P1 のリストに コスト と データ破損 が明示的に入っていることです。AI Agent は従来サービスと違う形で壊れるので、重大度定義もそれを反映する必要があります。

障害中のコミュニケーション

ユーザーが少しでもいるなら、コミュニケーションは障害対応の半分です。Runbook で忘れない仕組みにしておきましょう。私はフェーズごとに 3 つのコミュニケーション・チェックリストを持っています。

ユーザー影響を最初に確認した時

ユーザー影響を確認してから 5 分以内に、ユーザーが見られる場所にステータスを投稿します。ステータスページ・ピン留めツイート・アプリ内バナーなどです。原因が分かるまで待ってはいけません。メッセージはこのくらいシンプルで構いません。

<機能名> に関する問題を調査中です。次回更新は HH:MM までに行います。

最も重要なのは「次回更新は HH:MM までに」の部分です。次のフォローアップを自分にコミットさせ、ユーザー側の「誰かいるの？」という不安を止められます。

Mitigation 中

Mitigation が 15 分を超えそうなら、中間更新を投稿します。

原因を特定し、修正を適用中です。<機能名> は現在 <劣化中/利用不可> です。
次回更新は HH:MM までに行います。

根本原因の推測を確信できないうちに公開する誘惑には抵抗してください。「DB かもしれません」が「DB が原因だったらしい」になり、撤回できない Twitter スレッドに化けます。

復旧後

復旧を確認したら、最終ステータスを投稿します。

<機能名> の問題は HH:MM 時点で解決しました。<期間内> にポストモーテムを公開予定です。

そして約束した期間内に必ずポストモーテムを書いてください。公開ポストモーテムが信頼を生むのは、まさに大半の企業がこの約束を守らないからです。個人開発でも、200 文字の「何が起きて、何を変えたか」だけで不釣り合いな信用が積み上がります。

「Day 0 インシデントキット」を作る

ゼロから始める場合、最初のインシデントが起きるまでインシデント対応を後回しにしたくなります。やめてください。最小構成のキットを置いておけば、戦える状態になります。

本番デプロイ前に費やすべき 4 時間は次の通りです。1 時間で先述の 4 種類のアラートを配線 (特にコストアラートが最重要)、1 時間で自分の Agent 専用の L1 トリアージ・チェックリストを書き、1 時間で軽量ポストモーテムテンプレートを Notion などに作成、1 時間で電話可能なオンコール通知を設定 (PagerDuty か Opsgenie の無料枠で十分) します。

この午後 1 つで、ソロ開発者が最も陥りやすい大事故 — 寝てる間に Agent が暴走して 1 晩で数十万円消える — を防げます。私は数人の友人が高い授業料を払うのを目撃してきました。Day 0 キットは個人開発の AI Agent で最も安い保険です。

Runbook を Eval Harness に接続する

地味ですが効果絶大な動きが、Runbook を Eval Harness に紐付けて 修正がリリース前に自分自身を証明する ようにすることです。全てのポストモーテムは「リグレッション Eval」を生成すべきです。元の障害をトリガーしていたであろう少数の入力を Harness に追加します。

仕組みは単純です。ポストモーテムで失敗モードを特定したら、元のインシデントを再現する 5〜20 個の代表的入力を書きます。それらを regression-evals/ フォルダにポストモーテム名で配置 (例: regression-evals/2026-04-28-tool-timeout-loop.json)。CI が PR ごとに Eval を実行し、合格率の低下があればマージをブロックします。

結果として、Runbook が間接的にあなたのテストスイートを成長させます。各インシデントが、次のインシデントを捕まえる安全網を強化していきます。1 年経てば、事前に立てたテスト計画では到達できない多層防御になります。これはインシデント対応を真剣に取り組む最も過小評価されている恩恵だと感じています — 目の前の火事の話ではなく、未来の火事の発生範囲を体系的に縮める話です。

避けるべき具体的なアンチパターン: 失敗した入力を 1 件だけテストケースに追加して終わりにしないこと。本物の失敗モードはクラスターであって点ではありません。15 分かけて近傍の入力を 10〜20 個生成し (異なるプロンプト・エッジケース・長さのバリエーション)、クラスター丸ごと追加してください。さもないと「ピンポイントでそのテストだけ通る Agent」を訓練することになり、根本の弱さは残ったままです。

実用例: 「夜中の 2 時に Slack が鳴った」シミュレーション

ここまでの内容を、私が実際に経験したシナリオで通しでなぞってみます。あなたの Runbook が機能するかをテストする題材としても使ってください。

HH:MM=02:14 — Slack に PagerDuty 通知が着信
  [P1] Agent code-reviewer failure rate 38% in 5min
 
02:14 — スマホで通知に応答 (acknowledged)
02:15 — Manager Surface を開いて agent_id=code-reviewer の最新 runId を取得
02:16 — 上から 3 件の trace を確認 → 全て同じエラー: "ToolTimeout: github.create_review"
02:18 — トリアージ完了: パターン= ToolTimeout, ユーザー影響= あり (CI が通らずブロック)
 
02:19 — L2-A: タイムアウト緩和フローを実行
   $ npx tsx ops/mitigate.ts \
       --agent code-reviewer \
       --pattern tool-timeout \
       --duration 60
   → タイムアウトを 30s → 90s に一時引き上げ
 
02:21 — 失敗率が 38% → 4% に低下、復旧確認
02:22 — Slack に「[L2完了] mitigated, monitoring」を投稿
02:23 — 翌朝対応のチケットを作成 (恒久対応: GitHub API のレート制限対応)
02:25 — 就寝

この一連のフローを Runbook 無しでやろうとすると、私の経験では平均 45 分かかります。Runbook があれば 11 分。差分の 34 分は、ユーザー影響の長さでもあり、自分の睡眠の長さでもあります。

実際のポストモーテムから抽出したアンチパターン

落とし穴セクションとは別に、本番で Antigravity Agent を運用する複数チームのポストモーテムで繰り返し見たアンチパターンを共有します。それぞれ誰かに実損を与えたものです。

1 つ目は 「全てを 1 つの万能 Agent に統合する」。Agent を集約すると運用が楽そうに見えます。実態は逆です。コードレビュー・カスタマーサポート・データ抽出を全部こなす Agent は、Runbook が 3 本を 1 本に詰め込んだ怪物になり、毎回どの「モード」が壊れたか調べる手間が発生します。デプロイ面が増えても、機能ごとに Agent を分けてください。失敗の影響範囲が局所化し、Runbook も焦点を保てます。

2 つ目は モデル名を挙動の代理指標として信用する。「Gemini 3.1 Pro を使っています」と言ってもAgent の挙動についてほぼ何も伝えていません。同じモデルでもシステムプロンプト・温度・Tool セットが少し変わると失敗モードが激変します。Runbook はモデル名ではなく Agent の実際の構成にピン留めしてください。モデルアップグレード時は構成変更として扱い、既存のアラートを信用する前に観察期間を設けます。

3 つ目は 頻繁に変わる人間可読な Agent ID を使う。リファクタ中に Agent をリネームして、全アラートマッピングを失ったチームを何度も見ました。各 Agent には不透明で永続的な内部 ID (UUID か短いハッシュ) を割り当て、人間可読な名前はメタデータフィールドにとどめます。こうしておけばリネーム後も「この Agent は過去四半期で何回失敗したか？」のような履歴クエリが機能します。

4 つ目は 個別のモデル API エラーにアラートを設定する。モデルはエラーを返します。ネットワークも timeoutsを起こします。全エラーにアラートを置けば、本物のインシデントを聞き逃すほどに自分を麻痺させます。常に集約 — ある時間窓での失敗率・コスト・レイテンシ百分位 — でアラートを置き、単発イベントには置かないでください。例外はループ検出器で、これはカウンタパターンに反応しますが、それ自体が窓型シグナルです。

5 つ目は 人を責めるポストモーテム。ブレイムレス・ポストモーテムの本質は、失敗を許してしまった構造的条件を明らかにすることです。「政樹がレートリミット設定を忘れた」は無価値です。「デプロイテンプレートにレートリミット必須フィールドがなかったので忘れやすかった」が actionable です。自分自身を — チームがあるならチームを — 「責める言葉」を「構造的記述」に変換するよう訓練してください。この再構成から生まれる Runbook 更新が、最も効果の高い変更になることが多いです。

イテレーション: Runbook はどう進化させるか

Runbook の最初のバージョンは間違っています。それは想定通りです。重要なのはイテレーションの規律です。

全てのポストモーテムから少なくとも 1 つの Runbook 差分が生まれるべきです。ポストモーテムが Runbook を変えなかったら、何かを見落としています。Runbook がすでにこのケースを網羅していたか (なら何故起きた？)、構造的原因を十分に掘らなかったかのどちらかです。「Runbook 差分」をポストモーテムテンプレートの必須項目にし、その不在をスメルとして扱ってください。

四半期に 1 回、Runbook ヘルスチェックを行います。全セクションを通読し「2 時に本当にこれが役立つか？」を自問します。信頼できないセクションは書き直すか削除します。信頼できる 200 文字の Runbook は、信頼できない 2,000 文字の Runbook より価値があります。

年 1 回、12 ヶ月以上前のポストモーテムを別インデックスに退避させ、改めて読み返します。1 年前の問題の多くは、その後のインフラ改善で解決済みのはずです。一部は静かに再発しています。年次再読はその両方を捕まえ、次のアーキテクチャ優先順位の判断材料を与えてくれます。

今週やる具体的シーケンス

ここまで読んでくださった方向けに、今後 7 日間で Runbook を実際に動かすための具体的な順序を提案します。

1 日目: コストアラートを設定します。今週で最も投資効果の高い 30 分です。先述の PromQL 例を使い、ペイジングサービスに接続するか、ゼロから始めるなら PagerDuty 無料枠で電話通知を設定します。目標は、暴走 Agent がプロジェクト再構築費用を超える金額を消す前に起こされることです。

2〜3 日目: 自分の最重要 Agent 用の L1 トリアージ・チェックリストを書きます。その Agent が使う具体的な Tool と、参照する具体的な Manager Surface ビューに合わせます。1 日 2 時間でタイムボックスしてください。完璧主義は何も書かないのと同義です。

4 日目: 残り 4 種類のアラート (失敗率・ループ検出・Eval 品質・レイテンシ) を追加します。各アラートをテスト環境で意図的にトリガーして、確実に発火することを確認します。

5 日目: 軽量ポストモーテムテンプレートをチーム Wiki か Notion に書きます。直近の小さな問題でも構わないので、テンプレートを使って 30 分のレトロを実施し、テンプレート自体をテストしてください。

6〜7 日目: 90 分のソロ Game Day を実施します。ありそうなシナリオを選び、タイマーをセットし、Runbook だけを手元に L0 → L1 → L2 → L3 を通します。全てのギャップを記録し、残り時間でギャップを修正します。

この 1 週間で、個人開発の AI Agent プロダクトの 90% より優れたインシデント対応基盤が手に入ります。2 時の自分が、この投資に感謝するはずです。

全体を振り返って — 今日できる 1 つのこと

明日の朝までに 1 つだけやるとしたら、コストアラートを設定する ことを強くおすすめします。agentTokenSpend の累積カウンターと「1 時間で $20 超えたら通知」のルールを、本番 Agent に追加してください。Runbook 全体を整えるのは数週間かかりますが、コストアラートだけは 30 分で入れられて、最も大きな金銭被害を防げます。

私自身、ここで紹介した Runbook フレームワークは 1 年以上かけて少しずつ磨いてきたものです。完璧を目指さず、L0 → L1 → L2 → L3 の順で 1 階層ずつ整えていけば、必ず夜が静かになります。

Antigravity Agent の Runbook 設計をさらに深めたい方には、Antigravity Agent SRE: SLO とエラー予算で品質を守る設計と AI Agent のエラー回復とレジリエントなパイプライン設計の 2 本がそのまま続きの教材になります。あわせて、トレース基盤を本番運用に乗せるなら Antigravity OpenTelemetry: AI Observability パイプライン構築を読んでおくと、本記事のコード例がそのまま動かせます。

私自身、この 2 冊を Antigravity Agent の運用設計に何度も読み返しました。