◈ Agents & Manager/2026-06-14上級

Managed Agents API のバッチを、途中で落ちても作り直さない形にした記録

Managed Agents API で 200 件規模のバッチを回すと、途中失敗のたびに前半をやり直してトークンを溶かしていました。チェックポイントと冪等キーを足して、落ちた箇所から再開できるようにした設計と実装をまとめます。

Antigravity²³⁰ Managed Agents² エージェント³⁵ 冪等性³ チェックポイント² Python¹²

✦ プレミアム記事

Managed Agents API でまとまった量の処理を回し始めて、最初に痛い目を見たのは「途中で 1 件こけると、前半の成功分まで巻き添えにしてやり直していた」ことでした。

200 件の記事メタデータを 1 件ずつエージェントに整形させるバッチを組んだとき、137 件目で API が 503 を返しました。スクリプトはそこで例外を投げて停止し、私はつい python batch.py を再実行しました。すると 1 件目から走り出します。前半 136 件分の推論コストが、そのまま二度払いになりました。

クラウド側で実行が完結する Managed Agents は、手元の CLI エージェントと違って「途中状態がプロセスのメモリではなくサービス側にある」ぶん、再開の設計を自分で用意しないと、こうした取りこぼしが静かにコストへ変わります。本稿は、その再開の仕組みを少しずつ足していった記録です。コードは執筆時点（2026年6月14日）の公開プレビュー挙動に基づきます。

何が「やり直し」を生んでいたか

素朴なバッチは、だいたいこういう形をしています。

import os
from google import genai
 
client = genai.Client(api_key=os.environ["YOUR_GEMINI_API_KEY"])
 
def run_batch(items):
    results = []
    for item in items:
        op = client.agents.run(
            agent="managed-default",
            input=item["payload"],
        )
        result = poll_until_done(op)  # 完了までポーリング
        results.append(result)
    return results

このコードには、再開の観点で次の 3 つの穴があります。

進捗がメモリ上の results にしか無いことです。プロセスが死ねば、どこまで進んだかの記録ごと消えます。
client.agents.run() の呼び出しに識別子が無いことです。同じ item を二度投げれば、サービス側は素直に二度実行します。クラウド実行はここが手元と決定的に違う落とし穴で、後述の冪等キーで回避します。
失敗の種類を区別していないことです。503（一時的）も、入力不正の 400（恒久的）も、同じ例外として全体を止めます。本来、前者は待って再試行、後者はスキップして記録、という別々の扱いが要ります。

この 3 点は、本番運用に乗せるバッチほど効いてきます。順番に塞いでいきます。

チェックポイントを外部に置く

まず、進捗をプロセスの外に逃がします。大げさな仕組みは要らず、個人開発の規模なら SQLite 一枚で十分でした。

import sqlite3, json, time
 
class Checkpoint:
    def __init__(self, path="batch_state.db"):
        self.db = sqlite3.connect(path)
        self.db.execute("""
            CREATE TABLE IF NOT EXISTS items (
                key TEXT PRIMARY KEY,
                status TEXT NOT NULL,        -- pending / claimed / done / failed
                op_name TEXT,                -- サービス側の実行 ID
                result TEXT,
                updated_at REAL
            )
        """)
        self.db.commit()
 
    def seed(self, items):
        for it in items:
            self.db.execute(
                "INSERT OR IGNORE INTO items(key, status, updated_at) VALUES (?, 'pending', ?)",
                (it["key"], time.time()),
            )
        self.db.commit()
 
    def pending_keys(self):
        cur = self.db.execute(
            "SELECT key FROM items WHERE status IN ('pending', 'claimed')"
        )
        return [row[0] for row in cur.fetchall()]
 
    def set(self, key, status, op_name=None, result=None):
        self.db.execute(
            "UPDATE items SET status=?, op_name=COALESCE(?, op_name), "
            "result=COALESCE(?, result), updated_at=? WHERE key=?",
            (status, op_name, json.dumps(result) if result else None, time.time(), key),
        )
        self.db.commit()

ポイントは status を pending / claimed / done / failed の 4 状態にしたことです。done は再実行で必ず飛ばすので、二度払いがここで止まります。再開時は pending_keys() が返す未完了分だけを処理すれば良く、137 件目で落ちても次回は 137 件目から走り出します。

key には、入力から決まる安定した値（記事スラッグなど）を使います。実行ごとに変わる UUID を振ると、再開時に「同じ仕事」と認識できず、結局やり直しになります。安定キーは再開設計の土台です。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦200 件のバッチを途中失敗から再開できるよう、SQLite を使った最小のチェックポイントストアを動くコードで示します

✦クラウド実行特有の二重起動を、idempotency key と「予約 → 実行 → 確定」の3状態でどう塞いだかを共有します

✦再開設計を入れる前と後で、失敗 1 回あたりの無駄トークンが約 60% 減った実測値と、その内訳をお伝えします

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

二重起動を「予約 → 実行 → 確定」で塞ぐ

チェックポイントだけでは、まだ穴が残ります。claimed にしてからサービスへ投げ、その直後にプロセスが落ちると、次回は同じ claimed をもう一度投げかねません。クラウド側で実行が走っていれば、二重実行です。

ここで Managed Agents の client_request_id（冪等キー）が効きます。同じキーで二度 run を呼んでも、サービスは最初の実行を返すだけで、新しい実行は作りません。キーは入力から決定的に作ります。

import hashlib
 
def idempotency_key(item):
    raw = f'{item["key"]}:{item["payload_version"]}'
    return hashlib.sha256(raw.encode()).hexdigest()[:32]
 
def process_one(cp, client, item):
    cp.set(item["key"], "claimed")                      # 1. 予約
    op = client.agents.run(
        agent="managed-default",
        input=item["payload"],
        client_request_id=idempotency_key(item),        # 2. 実行（冪等）
    )
    cp.set(item["key"], "claimed", op_name=op.name)     # 実行 ID を控える
    result = poll_until_done(op)
    cp.set(item["key"], "done", result=result)          # 3. 確定
    return result

payload_version をキーに混ぜているのは、入力を直したのに古い実行が返ってきて困らないためです。本文を直したら版を上げる、という運用にしておくと、意図した再実行はちゃんと新しい実行になります。

op_name（サービス側の実行 ID）を claimed の段階で控えておくと、再開時に「投げたけれど確定前に落ちた」ものを、新規実行ではなく既存実行のポーリングから再開できます。冪等キーと二重で守る形です。

失敗を一時的と恒久的に分ける

最後に、止まり方を整えます。一時的な失敗で全体を止めるのは、再開設計の意味を半減させます。

TRANSIENT = {429, 500, 502, 503, 504}
 
def run_resumable(cp, client, items, max_passes=5):
    cp.seed(items)
    by_key = {it["key"]: it for it in items}
    for attempt in range(max_passes):
        todo = cp.pending_keys()
        if not todo:
            break
        for key in todo:
            try:
                process_one(cp, client, by_key[key])
            except genai.APIError as e:
                if e.code in TRANSIENT:
                    cp.set(key, "pending")               # 次パスで再試行
                else:
                    cp.set(key, "failed", result={"error": str(e)})
        time.sleep(min(2 ** attempt, 30))                # パス間バックオフ

503 のような一時失敗は pending に戻して次のパスで拾い直し、400 のような恒久失敗は failed として記録だけ残し、残りの処理は続けます。最後まで failed だった分だけを人が見れば良くなります。バッチ全体が 1 件の不正データで止まる、という構図がここで消えます。

max_passes で全体の再試行回数に上限を置いているのは、ネットワークが本当に死んでいるときに無限ループへ落ちないためです。私は 5 回・パス間は指数バックオフ（上限 30 秒）に落ち着きました。

入れてみての実測

この再開設計を入れる前後で、同じ 200 件バッチを何度か回し、失敗 1 回あたりの「無駄になったトークン」を比べました。

導入前は、途中失敗のたびに平均で 60〜130 件分を再実行していました。導入後は、落ちた地点以降だけを走らせるため、失敗 1 回あたりの無駄トークンが約 60%（6 割）減りました。減り幅の大半は「成功済みを二度払いしなくなった」ことで、冪等キーによる二重起動の抑止は件数としては少数ながら、たまの二重課金を確実に消してくれました。

体感として効いたのは、コスト以上に「再実行が怖くなくなった」ことです。落ちたら python batch.py をもう一度叩けば続きから走る、と分かっていると、夜間バッチを安心して仕掛けられます。クラウド実行は便利な反面、状態が手元から見えないぶん、再開可能性を自前で持っておくと運用の気持ちが軽くなります。

どこまでやるかの線引き

ひとつ補足すると、この設計は「数十〜数百件を、落ちても作り直したくない」規模に向いています。数千件を超えて並列度も上げたくなったら、SQLite ではなくキュー（や本物のジョブストア）へ移すことを推奨します。逆に十数件なら、ここまでせず手で再実行したほうが速い場面もあります。

私自身は「同じバッチを 2 回以上やり直した」と感じた時点で、はじめてチェックポイントを足すようにしています。先回りして作り込むより、痛みが出てから最小限を足すほうが、結局は身軽でした。

次に試すなら、まずは手元の一番長いバッチに Checkpoint クラスだけを差し込み、done のスキップが効くことを確かめてみてください。冪等キーと失敗分類は、その後で足しても遅くありません。お読みいただきありがとうございました。同じようにバッチの再実行でトークンを溶かした方の、ささやかな手がかりになれば幸いです。