◈ Agents & Manager/2026-07-01上級

モデルがフォールバックしても命名と書式をぶらさない — エージェント出力の一貫性を保つ契約

エージェントの実行中にモデルがフォールバックすると、コードの命名規約や書式が静かにぶれます。モデルに依存しないスタイル契約と正規化パスで、出力の一貫性を保つ実装をまとめました。

Antigravity²⁹⁹ エージェント⁵² モデルフォールバックコード品質² 自動化²³

✦ プレミアム記事

先週、Antigravity のエージェントに 4 つのアプリの設定画面をまとめて実装させていたとき、途中から生成されるコードの雰囲気が変わっていることに気づきました。前半のファイルは handleSubmit のようなキャメルケースで揃っていたのに、後半では on_submit が混ざり、インデントもタブとスペースが入れ替わっていたのです。

原因はすぐに分かりました。実行の途中で上位モデルが混雑し、下位モデルへフォールバックしていたのです。モデルが変われば、既定の書式や命名の癖も変わります。人間には些細に見えても、レビュー時の認知負荷は確実に増えますし、diff が無駄に膨らみます。

個人開発でアプリを 12 年ほど続けてきて、私自身がいちばん時間を溶かしてきたのは、こういう「機能ではなく一貫性の欠如」に対するレビューでした。前置きは省いて、モデルがフォールバックしても出力がぶれない仕組みを、実際に組んだ順番でお伝えします。

フォールバックが「静かなドリフト」を生む理由

モデルのフォールバックは、多くの場合ログにしか残りません。エージェントは処理を止めずに続行するため、成果物の見た目だけがじわりと変わります。ここが厄介な点です。エラーで止まってくれれば気づけますが、ドリフトは正常終了の中に埋もれます。

ぶれやすいのは次の 3 種類でした。

命名規約（キャメルケースとスネークケースの混在、Boolean の is/has 接頭辞の有無）
書式（インデント幅、末尾セミコロン、import の並び順）
出力構造（コメントの粒度、関数分割の細かさ、早期リターンの好み）

書式はフォーマッタで吸収できますが、命名と構造はフォーマッタでは直りません。ここを人間のレビューに丸投げすると、モデルが変わるたびに指摘コストが跳ね上がります。

対策の骨子 — モデルに依存しないスタイル契約

私が採ったのは、「生成するモデルが何であっても、通過しなければならない機械的な契約を先に固定する」という方針です。モデル側の善意に一貫性を期待するのをやめ、出口で強制する発想です。

契約は 3 層に分けました。

第 1 層: フォーマッタ（Prettier）で書式を無条件に正規化する
第 2 層: Lint（ESLint）で命名規約と構造ルールを機械判定する
第 3 層: ドリフト検知で「同じ実行内で規約がぶれた箇所」を差分から洗い出す

第 1 層と第 2 層は既存資産で足ります。肝は第 3 層です。フォーマッタと Lint は「ルール違反」しか見ませんが、ドリフトは「実行の前半と後半で癖が変わった」という相対的な現象だからです。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦モデル切替で起きる命名・書式ドリフトを検知する差分チェックの実装

✦ESLint/Prettier/命名規約をモデル非依存で強制するスタイル契約の構成

✦フォールバック発生率とドリフト率を計測して閾値で止める運用の作り方

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

スタイル契約を最小構成で固定する

まず、モデルが何を出そうと同じ形に畳むための設定を置きます。エージェントの生成ステップの直後に必ず走らせる前提です。

// .prettierrc.json — 書式はここで一意に決める
{
  "semi": true,
  "singleQuote": true,
  "tabWidth": 2,
  "useTabs": false,
  "trailingComma": "all",
  "importOrder": ["^react", "^@/", "^\\."],
  "importOrderSeparation": true
}

命名規約は Lint で機械判定します。ESLint の @typescript-eslint/naming-convention は、モデルがスネークケースを混ぜてきても確実に検知してくれます。

// eslint.config.js（抜粋）— 命名のぶれを機械で止める
export default [
  {
    rules: {
      '@typescript-eslint/naming-convention': [
        'error',
        { selector: 'function', format: ['camelCase'] },
        { selector: 'variable', format: ['camelCase', 'UPPER_CASE'] },
        {
          selector: 'variable',
          types: ['boolean'],
          format: ['PascalCase'],
          prefix: ['is', 'has', 'should', 'can'],
        },
      ],
    },
  },
];

ここまでで書式と命名は担保できます。エージェントのワークフローには、生成 → Prettier → ESLint --fix → ESLint 検査、の順で 4 ステップを固定で挟みます。--fix で直る違反は自動修正し、直らない違反だけを人間に見せる構造です。

実行内ドリフトを差分から検知する

第 3 層のドリフト検知が、この設計の中心です。狙いは「Lint は通るが、実行の前半と後半で癖が変わった」ケースを拾うことです。たとえば早期リターン主体だった書き方が、途中からネストした if に変わる、といった変化です。

同じエージェント実行が触ったファイル群を対象に、簡単な指標を測って前半と後半で比較します。

# drift_probe.py — 実行内で書き癖がぶれた箇所を洗い出す
import re, subprocess, sys
 
def metrics(path: str) -> dict:
    src = open(path, encoding="utf-8").read()
    lines = src.splitlines()
    return {
        "early_return": len(re.findall(r"\breturn\b", src)),
        "nested_if": sum(1 for l in lines if re.match(r"\s{6,}if\b", l)),
        "snake_ident": len(re.findall(r"\b[a-z]+_[a-z]+\b", src)),
        "arrow_fn": len(re.findall(r"=>", src)),
        "loc": len(lines),
    }
 
def normalize(m: dict) -> dict:
    loc = max(m["loc"], 1)
    return {k: round(v / loc, 4) for k, v in m.items() if k != "loc"}
 
def changed_files() -> list[str]:
    out = subprocess.check_output(
        ["git", "diff", "--name-only", "HEAD~1", "HEAD"], text=True
    )
    return [f for f in out.splitlines() if f.endswith((".ts", ".tsx"))]
 
files = changed_files()
half = len(files) // 2
early = [normalize(metrics(f)) for f in files[:half]]
late = [normalize(metrics(f)) for f in files[half:]]
 
def avg(rows, key):
    return sum(r[key] for r in rows) / max(len(rows), 1)
 
drift = {}
for key in ("nested_if", "snake_ident", "arrow_fn"):
    a, b = avg(early, key), avg(late, key)
    if a and abs(b - a) / a > 0.35:  # 35%以上の変化をドリフトと判定
        drift[key] = (round(a, 3), round(b, 3))
 
if drift:
    print("⚠️ style drift detected:", drift)
    sys.exit(1)
print("✅ consistent within run")

閾値の 35% は、私の 4 アプリのリポジトリで数週間まわして落ち着いた値です。10% では正常なファイル差でも鳴りすぎ、50% では実際のドリフトを見逃しました。ここはプロジェクトごとに調整してください。数値の根拠を持たずにコピーすると、鳴りすぎて誰も見なくなる警告になります。

本番運用でつまずいた点と対処

最初の落とし穴は、フォールバック自体を計測していなかったことです。ドリフトが出ても、それがモデル切替由来なのか、単にタスクの性質が変わっただけなのか切り分けられませんでした。そこで、エージェントの実行ログからフォールバック発生の有無をメタデータとして残し、ドリフト検知の結果と突き合わせるようにしました。フォールバックが起きた実行でだけドリフト率が跳ねるなら、原因はモデルにあります。

2 つ目の落とし穴は、--fix を過信したことです。Prettier と ESLint の自動修正は書式を直しますが、修正の副作用でセマンティックな差分が混ざることがまれにあります。自動修正コミットと生成コミットを分け、修正だけを別コミットにしておくと、レビュー時に「本質的な変更」と「整形」を切り分けられます。これは診断のときに効きました。

3 つ目は閾値の運用です。ドリフト検知を最初から exit 1 でマージゲートにすると、調整前の期間に開発が止まります。私は最初の 2 週間は警告のみ（exit 0 でログ出力だけ）にして、実データで閾値を固めてからゲート化しました。計測を挟まずにゲートを先に立てるのは、経験上いちばん嫌われる導入の仕方です。

どこまで機械に任せ、どこから人間が見るか

私自身の判断としては、書式と命名は 100% 機械に倒すのを推奨します。ここは一貫していれば十分で、人間が悩む価値がありません。一方、構造のドリフト（関数分割や早期リターンの好み）は、検知はしても自動修正しない運用を採っています。構造は文脈に依存するため、機械が一律に直すと可読性をむしろ損なうことがあるからです。

この線引きは、AdMob 収益に直結する初期化コードのように「壊れると即座に売上へ響く」箇所を触るときに特に効きました。書式のぶれで無駄な diff が増えると、本当に注意すべき一行を見落とします。機械で消せるノイズは徹底的に消し、人間の集中を意味のある差分に残す。それが、モデルがどれだけ入れ替わっても品質を落とさないための、いちばん地味で確実な土台だと感じています。

Dolice Labs の複数サイトを一人で運用していると、こうした「静かにコストを増やす現象」をいかに早く数値化できるかが、そのまま続けられるかどうかを分けます。フォールバックによるドリフトは、その典型でした。まず計測し、機械で畳み、残りだけを見る。この順番を崩さないことを、次に触るリポジトリでも守っていくつもりです。