◈ Agents & Manager/2026-07-02上級

夜中に失敗した無人ランを翌朝の再発防止に変える — ポストモーテムの還流路を設計する

無人実行の失敗を通知で終わらせず、原因分類から Guide スキル・ゲート・スケジュールへの還流までを仕組み化する設計を、実測の再発率とあわせて紹介します。

antigravity⁴⁰⁹ agents⁸³ postmortem 自動化運用無人実行²

✦ プレミアム記事

深夜2時にスケジュールしたエージェントのランが失敗し、朝に通知だけが残っている。その場でログを眺めて「今回はタイムアウトか」と手直しして再実行し、数日後にまた似た失敗が別のタスクで起きる。私自身、複数の無人ランを毎晩回すようになってから、この「直したはずの失敗が形を変えて戻ってくる」状態にしばらく悩まされました。

原因ははっきりしています。失敗への即応はしていても、失敗から学んだことを設定やプロンプトに書き戻す経路、つまり還流路がなかったのです。

本稿は、その還流路を仕組みとして固定するための設計メモです。障害対応そのものの手順は Antigravity Agent 本番障害対応 Runbook 設計 — 検知から復旧・再発防止までの実践フレームワークが扱っているため、ここでは「復旧が済んだ後、同じ失敗を二度と起こさないための事後検証」だけに絞ります。

即応と事後検証を分ける理由

失敗直後の自分は、とにかくランを通したい状態にあります。再実行して通れば満足してしまい、根本原因の記録は後回しになります。

そこで役割を時間で分けます。夜間の失敗に対して夜のうちにやるのは自動リトライと通知だけ。原因の分類と是正は、翌朝の決まった5分に寄せる。私はこの分離を決めてから、対応の質が安定したと感じています。

即応を薄くする代わりに、失敗の証拠を機械が拾える形で必ず残すことが前提になります。

失敗の証拠を run record として残す

各ランの終了時に、成否を問わず1つの JSON を書き出します。私が使っているスキーマは次の通りです。

{
  "task": "site-a-premium-article",
  "startedAt": "2026-07-02T02:00:11+09:00",
  "endedAt": "2026-07-02T02:14:52+09:00",
  "exitCode": 1,
  "phase": "quality-gate",
  "lastOutputTail": "templating_gate: duplicated paragraph detected ...",
  "configHash": "9f2c31a",
  "modelUsed": "gemini-3.5-flash",
  "retryCount": 1
}

ポイントは phase です。ラン全体を「準備 / 生成 / 品質ゲート / push / ログ記録」のような段階に切り、失敗した段階を記録します。後述する分類の大半は、この phase を見るだけで機械的に絞り込めます。

configHash はプロンプトと設定ファイルをまとめてハッシュ化したものです。「設定を変えた直後から失敗が増えた」を後から検証できるようにするためで、実際にこれで原因を特定できたことが二度あります。

書き出しはラッパースクリプトの trap で行います。

#!/usr/bin/env bash
# run-with-record.sh <task-name> <command...>
TASK="$1"; shift
REC_DIR="$HOME/.agent-runs/$(date +%Y-%m-%d)"
mkdir -p "$REC_DIR"
START="$(date -Iseconds)"
LOG="$(mktemp)"
 
finish() {
  local code=$?
  jq -n \
    --arg task "$TASK" --arg started "$START" \
    --arg ended "$(date -Iseconds)" \
    --arg tail "$(tail -c 800 "$LOG")" \
    --arg phase "${AGENT_PHASE:-unknown}" \
    --argjson code $code \
    '{task:$task, startedAt:$started, endedAt:$ended,
      exitCode:$code, phase:$phase, lastOutputTail:$tail}' \
    > "$REC_DIR/${TASK}-$(date +%H%M%S).json"
}
trap finish EXIT
 
"$@" 2>&1 | tee "$LOG"
exit "${PIPESTATUS[0]}"

実行するタスク側は、段階が変わるたびに export AGENT_PHASE=generation のように環境変数を更新するだけです。既存のタスクにほとんど手を入れずに導入できます。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦失敗ランを5分類し、それぞれの是正先を1つに決める分類タクソノミの実例

✦run record の JSON スキーマと、前日の失敗を朝5分で読める形に集約するスクリプト

✦同一原因の再発率を6週間で約40%から12%まで下げた還流運用の実測記録

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

5分類のタクソノミと還流先

翌朝のレビューでやることは、前日の失敗レコードを次の5分類のどれかに割り当てることです。分類ごとに「直す場所」をあらかじめ1つに決めておくのがこの設計の要です。

分類	典型例	還流先
環境起因	ディスク不足・認証切れ・ネットワーク断	プリフライト検査の項目追加
文脈起因	参照ファイル欠落・stale なリポジトリ	Guide スキルの前提条件セクション
プロンプト起因	指示の曖昧さによる出力形式のぶれ	タスクプロンプト本体の修正
上流変更起因	CLI 更新・モデル切替による挙動差	バージョン固定とカナリア確認の設定
設計起因	品質ゲートで正しく弾かれた・時間帯の競合	ゲート閾値かスケジュール定義

還流先を1つに絞る理由は、複数箇所を同時に直すと「どれが効いたのか」が分からなくなるからです。1つの失敗に対して1つの修正。効かなければ翌週に分類を見直す。地味ですが、これが一番早く収束しました。

運用上の注意点を1つ挙げると、環境起因の失敗を「リトライで通ったから解決」と扱ってしまうことです。認証切れのようなエラーは放置すると翌晩に全ランを連鎖的に止めるため、その日のうちにプリフライト検査へ還流させておくことをお勧めします。私の場合、この優先順位を決めてから環境起因の再発はほぼゼロになりました。

なお5番目の「設計起因」には、ゲートが正しく仕事をしたケースが含まれます。これは修正不要と判定して閉じます。失敗レコードのすべてが是正対象ではない、という前提を最初に置いておくと、レビューが重くなりません。

朝5分レビューを成立させる集約スクリプト

前日のレコードを1枚のダイジェストにまとめます。

#!/usr/bin/env bash
# morning-digest.sh — 前日の失敗ランを集約して表示する
DAY="${1:-$(date -d yesterday +%Y-%m-%d)}"
DIR="$HOME/.agent-runs/$DAY"
[ -d "$DIR" ] || { echo "no records for $DAY"; exit 0; }
 
echo "== $DAY failed runs =="
for f in "$DIR"/*.json; do
  jq -r 'select(.exitCode != 0) |
    "\(.task)\t phase=\(.phase)\t \(.lastOutputTail | gsub("\n"; " ") | .[0:80])"' "$f"
done | sort | uniq -c | sort -rn