◈ Agents & Manager/2026-06-16上級

Antigravity のエージェント評価ゲートが揺れて信用できないとき — 確率的な揺らぎに負けない合否判定の実装メモ

同じコードなのに評価が通ったり落ちたりする。Antigravity でエージェント評価を CI に組んだとき最初に壊れるのは判定の安定性です。揺らぎを区別し、静かな劣化を捕まえる合否設計を実装で固めます。

antigravity³⁵⁸ ai-agent¹⁴ evaluation³ ci-cd⁹ testing⁹ reliability⁴

✦ プレミアム記事

エージェントの評価を CI に入れた初日、私は自分の評価コードを疑いました。コードを一文字も変えていないのに、朝のビルドでは緑、昼のビルドでは赤。同じテストケースが通ったり落ちたりするのです。

最初は「フレーキーなテストを直そう」と考えました。でも、これは直すべきバグではありませんでした。確率的なシステムを二値の合否で測ろうとしたこと自体が、設計のずれだったのです。

個人開発で Antigravity のエージェントを書いていると、評価そのものより「評価を信用できる状態にする」ことのほうがずっと難しい、と私は感じています。ここでは、揺れる評価ゲートを落ち着かせ、本物の劣化だけを赤にするための合否設計を、実装の手触りごと共有します。

揺らぎを「直す」のではなく「測る」

確率的なエージェントの出力は、毎回少しずつ違います。temperature を 0 に落としても、ツール呼び出しの順序、外部 API の応答、コンテキストの詰まり具合で挙動は揺れます。

ここで二値の passed: true / false を使うと、判定が境界線の上で振動します。スコア 0.79 と 0.81 のあいだに 0.8 の閾値を置けば、実体は同じエージェントなのに、試行ごとに合否が反転する。これは情報の損失です。連続量を無理やり一点で切ったために、揺らぎがそのまま合否のノイズになっています。

解決の方向はひとつ。1回の合否を捨て、複数試行のスコア分布で判断することです。同じケースを n 回走らせ、平均と散らばりを見る。散らばりが小さければ自信を持って閾値で切れますし、散らばりが大きければ「このケースはそもそも不安定だ」という別の情報が得られます。

// eval-types.ts
// 1回の試行ではなく、複数試行の集約を評価の最小単位にする
 
export interface TrialResult {
  score: number;        // 0.0 - 1.0（部分点を許容する連続スコア）
  latencyMs: number;
  toolCallCount: number;
  failures: string[];
}
 
export interface CaseStats {
  caseId: string;
  trials: number;
  meanScore: number;
  stdDev: number;        // 散らばり = 不安定さの指標
  ciLow: number;         // 平均スコアの95%信頼区間 下限
  p95LatencyMs: number;  // 平均ではなく裾を見る
}
 
export function aggregate(caseId: string, results: TrialResult[]): CaseStats {
  const n = results.length;
  const scores = results.map((r) => r.score);
  const mean = scores.reduce((a, b) => a + b, 0) / n;
  const variance = scores.reduce((a, s) => a + (s - mean) ** 2, 0) / n;
  const stdDev = Math.sqrt(variance);
 
  // 標準誤差から95%信頼区間の下限を出す（z=1.96）
  const stdErr = stdDev / Math.sqrt(n);
  const ciLow = mean - 1.96 * stdErr;
 
  const latencies = results.map((r) => r.latencyMs).sort((a, b) => a - b);
  const p95LatencyMs = latencies[Math.min(latencies.length - 1, Math.floor(n * 0.95))];
 
  return { caseId, trials: n, meanScore: mean, stdDev, ciLow, p95LatencyMs };
}

ここで ciLow（信頼区間の下限）を採用しているのが要点です。平均が 0.85 でも散らばりが大きければ下限は 0.7 まで落ちる。「運が良ければ通る」エージェントを通さないためには、楽観値である平均ではなく、悲観的な下限でゲートを引くほうが安全です。私は試行回数を 5 回以上に取り、信頼水準は 95% で運用することを推奨しています。試行が 3 回程度だと信頼区間が広がりすぎて、ゲートがほとんど機能しません。

ノイズによる失敗と、本物の劣化を切り分ける

複数試行で散らばりを測れるようになると、次の問いが立ちます。「赤くなったとき、それはノイズなのか、本当に悪くなったのか」。これを取り違えると、ノイズに振り回されて本物の劣化を見逃します。本番環境に出してから「実はあの変更で落ちていた」と気づくのは、評価ゲートの一番大きな落とし穴です。

私が使っているのは、絶対閾値ではなくベースライン比較です。main ブランチの最新スコアを基準として保存しておき、新しい変更がそこから有意に下がったときだけ赤にする。固定の 0.8 という線ではなく、「前回より悪化したか」を見るわけです。

// regression-gate.ts
// 絶対閾値ではなく、ベースラインからの有意な悪化を検出する
 
import type { CaseStats } from "./eval-types";
 
export interface GateVerdict {
  pass: boolean;
  reason: string;
  regressions: string[];
  flaky: string[];
}
 
export function judgeAgainstBaseline(
  current: CaseStats[],
  baseline: Record<string, { meanScore: number; stdDev: number }>,
): GateVerdict {
  const regressions: string[] = [];
  const flaky: string[] = [];
 
  for (const cur of current) {
    const base = baseline[cur.caseId];
 
    // 散らばりが大きすぎるケースは「不安定」として隔離する。
    // ゲートを赤にはせず、別枠で可視化して改善対象にする。
    if (cur.stdDev > 0.2) {
      flaky.push(`${cur.caseId}: stdDev=${cur.stdDev.toFixed(2)}（不安定・要改善）`);
      continue;
    }
 
    if (!base) continue; // 新規ケースはベースラインなし
 
    // 悪化の判定: 信頼区間の下限が、ベースライン平均から
    // ノイズ幅（ベースラインの標準偏差）を超えて下回ったか。
    const noiseBand = Math.max(0.05, base.stdDev);
    if (cur.ciLow < base.meanScore - noiseBand) {
      regressions.push(
        `${cur.caseId}: ${base.meanScore.toFixed(2)} → ${cur.meanScore.toFixed(2)}（CI下限 ${cur.ciLow.toFixed(2)}）`,
      );
    }
  }
 
  const pass = regressions.length === 0;
  return {
    pass,
    reason: pass ? "ベースラインからの有意な劣化なし" : `${regressions.length}件の回帰を検出`,
    regressions,
    flaky,
  };
}

この設計には実用上の効きどころが二つあります。ひとつは noiseBand。ベースライン自身の散らばりをノイズ幅として使うので、もともと揺れやすいケースには甘く、安定しているケースには厳しく判定が効きます。もうひとつは、不安定なケースをゲートから隔離して flaky に逃がしていること。不安定さを理由にビルドを赤にしない。代わりに「このケースは設計を見直す対象」として別枠で見えるようにします。赤を本物の劣化だけに予約することで、赤の信号が信用される状態を保てます。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦1回実行の合否を捨て、複数試行のスコア分布と信頼区間でゲートを引く実装

✦ノイズによる失敗と本物の劣化を切り分ける、ベースライン比較とシード固定の手順

✦既定モデルが勝手に上がる時代に、回帰を静かに見逃さないカナリア評価の組み方

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

シードと環境を固定して、揺らぎの原因を減らす

揺らぎを測るのと並行して、避けられる揺らぎは元から潰しておきます。すべての非決定性が等しく価値あるわけではありません。

評価実行で固定すべきものは、おおむね次の通りです。

temperature と top_p を評価用に下げる
ツールのモック応答を固定する（実 API のレイテンシ揺れを評価に混ぜない）
日時や乱数に依存する箇所はシードを注入する
モデルのバージョンを固定する（最も見落としやすい）

四つ目を強調するのには理由があります。これを怠ると、後述する「気づかないうちにモデルが入れ替わる」問題に直結するからです。

// eval-config.ts
// 評価時だけ非決定性を絞り込むための設定束
 
export const EVAL_MODEL_CONFIG = {
  // モデル文字列を明示的にピン留めする。
  // "latest" や既定エイリアスを評価に使ってはいけない（後述）。
  model: "antigravity-preview-05-2026",
  temperature: 0,
  topP: 1,
  seed: 42,            // 対応モデルでは決定性が大きく上がる
  maxOutputTokens: 4096,
} as const;
 
// ツール呼び出しは評価時にモックへ差し替え、外部要因の揺れを排除する
export function buildEvalTools(fixtures: Record<string, unknown>) {
  return {
    async callTool(name: string, args: unknown) {
      const key = `${name}:${JSON.stringify(args)}`;
      if (key in fixtures) return fixtures[key];
      // フィクスチャ未登録の呼び出しは即座に失敗させ、
      // 「評価が実 API に漏れている」ことを検知できるようにする
      throw new Error(`未登録のツール呼び出し: ${key}`);
    },
  };
}

フィクスチャ未登録の呼び出しを例外にしているのは意図的です。これがないと、評価のつもりが実 API を叩いてしまい、レイテンシもコストもアウトプットも揺れます。「漏れたら気づく」設計にしておくと、評価環境の純度を保てます。

既定モデルが勝手に上がる時代の回帰検出

ここからが、2026 年に効いてくる話です。Antigravity の Managed Agents や Gemini 系の API では、antigravity-preview-05-2026 のようなプレビュー文字列や既定エイリアスを指定して動かす構成が増えました。便利な反面、自分のコードを一行も変えていないのに、裏でモデルが差し替わって挙動が変わることが起こり得ます。

これは厄介です。回帰の原因が自分のコミットにない以上、main 直前のベースライン比較だけでは捕まえきれません。昨日まで緑だったものが、モデル側の更新で今日から赤くなる。原因のコミットを探しても見つからない、という状況に陥ります。

対策は、コードの変更とは独立に、定期的にベースラインを撮り直すカナリア評価を回すことです。Antigravity の v2.1.4 以降はスケジュール起動が扱いやすくなっているので、毎晩エージェントを同じデータセットで走らせ、スコアの時系列を記録します。私の運用では、前日比で 5% を超える低下が出たケースだけを通知に上げ、それ以下の揺れは無視しています。差分が出たら、それがコミット由来かモデル由来かを切り分けられるようにしておきます。

// canary-track.ts
// 日次でベースラインを撮り直し、モデル更新による回帰を時系列で捕まえる
 
import * as fs from "node:fs";
 
interface CanaryEntry {
  date: string;
  modelLabel: string;     // 実際に応答したモデルの識別子（取得できる場合）
  meanScore: number;
  worstCases: string[];   // スコアが急落した上位ケース
}
 
export function recordCanary(entry: CanaryEntry, path = "canary-history.json") {
  const history: CanaryEntry[] = fs.existsSync(path)
    ? JSON.parse(fs.readFileSync(path, "utf-8"))
    : [];
  history.push(entry);
 
  // 直近2点を比較し、コードを変えていないのに落ちていれば警告する
  if (history.length >= 2) {
    const [prev, cur] = history.slice(-2);
    const drop = prev.meanScore - cur.meanScore;
    if (drop > 0.05) {
      const modelChanged = prev.modelLabel !== cur.modelLabel;
      console.warn(
        `⚠️ スコア低下 ${drop.toFixed(2)}（${prev.date}→${cur.date}）` +
          (modelChanged
            ? ` / モデルが ${prev.modelLabel} → ${cur.modelLabel} に変化。モデル由来の回帰の可能性が高い`
            : ` / モデル識別子は同一。データ品質か外部依存を疑う`),
      );
    }
  }
 
  fs.writeFileSync(path, JSON.stringify(history.slice(-90), null, 2));
}

応答したモデルの識別子をログに残せる場合は必ず残してください。modelLabel の変化とスコア低下が同時に起きていれば、それはモデル由来の回帰だと素早く判断できます。識別子が同じままスコアだけ落ちたなら、疑うべきは自分のデータセットや外部依存のほうです。「原因の切り分けを自動化しておく」ことが、夜間に静かに進む劣化への一番の備えになります。

試行回数とコストの折り合い

複数試行は効きますが、ただではありません。1 ケースを 5 回走らせれば、API コストも実行時間も単純に 5 倍になります。全 50 ケースを毎コミットで 5 回ずつ回すと、CI が重くなりすぎて誰も待てなくなります。

私が落ち着いた配分はこうです。プルリクエストの段階では、安定しているケースは 1 回、flaky 枠に入っているケースだけ 5 回走らせる。安定しているケースは揺れないと分かっているので、複数試行の価値が薄いからです。試行回数は固定値ではなく、そのケースの過去の散らばりに応じて動的に決めると、コストを必要な場所に集中できます。

夜間のカナリアでは逆に、全ケースを 5 回以上、時間に余裕を持って走らせます。ここは誰も待っていないので、精度を優先してよい場所です。「待たれる評価」と「待たれない評価」で試行回数を変える。この一手で、評価の信頼性を保ったまま CI の体感速度を取り戻せました。個人開発だと CI 時間はそのまま自分の待ち時間になるので、ここの配分はとくに効きます。