ANTIGRAVITY LABEN
記事一覧/Agents & Manager
Agents & Manager/2026-06-17上級

複数案を出させたあと、どれを採用するか — 検証で裁定する Best-of-N の設計

Gemini 3.5 Flash の速さで、同じ実装を複数案つくらせるのは現実的になりました。難しいのは生成ではなく裁定です。多数決でも自己申告の自信でもなく、検証可能な信号だけで採用案を決める Best-of-N アービターの設計と TypeScript 実装を共有します。

antigravity369マルチエージェント37Best-of-Nアービター検証4Gemini 3.5 Flash3運用設計15

プレミアム記事

同じ修正を Antigravity のエージェントに3回投げて、3回とも違うコードが返ってきたことがあります。どれも一見もっともらしく、しかし1つはテストを壊し、1つは型が通らず、残る1つだけが実際に動きました。問題は「どれが動くか」を人間が毎回読んで見抜かなければならなかったことです。レビューに15分かかり、自動化したはずの作業が結局手作業に戻っていました。個人開発で複数のサイトを一人で回していると、この「人間が最後に毎回見抜く」工程こそが自動化の最大のボトルネックになります。私自身、ここを設計し直すまで、夜間バッチの成果を翌朝ずっと検品していました。

6/18 に Gemini CLI が Antigravity CLI へ統合され、動力が Gemini 3.5 Flash になります。Flash は同等タスクで上位モデルの数倍速とされ、1つの問題に対して候補を3つ、5つと並行生成しても費用と時間が現実的な範囲に収まります。つまり「1案を信じる」前提から「複数案から選ぶ」前提へ、設計の重心が移ります。

ここで主役になるのは生成側ではなく、**裁定側(アービター)**です。複数の候補をどう比べ、何を根拠に1つへ絞るのか。本稿はその設計に絞って書きます。

多数決と自己申告が当てにならない理由

最初に考えるのは「同じ答えが多い案を採る」多数決です。けれど LLM の誤りは独立ではありません。同じプロンプトと同じモデルから生成すれば、間違いも揃って出ます。3案のうち2案が同じバグを共有していれば、多数決はそのバグを「正解」として選びます。

次に思いつくのが、モデル自身に自信度を答えさせる方法です。これも危ういものです。自己申告の確信度は、実際の正しさとほとんど相関しません。流暢で断定的な誤答ほど高い自信を返すことすらあります。

採用基準は、生成モデルから独立した、検証可能な信号でなければなりません。コードであれば、型が通るか、テストが緑か、実際に起動するか。これらはモデルの気分に左右されない客観的な事実です。アービターの仕事は、候補をこれらの事実に通し、生き残ったものを選ぶことに尽きます。

設計の全体像

パイプラインは3段に分けて考えると整理できます。

責務独立性
生成(Generator)同一仕様から N 個の候補を並行生成するモデル依存
検証(Verifier)各候補を客観ゲートに通しスコア化するモデルから独立
裁定(Arbiter)スコアと予算から採用案を1つ決める規則ベース

肝心なのは、検証と裁定を生成から完全に切り離すことです。生成側がどのモデルでも、何案でも、検証と裁定のコードは変わりません。この境界を守ると、モデルが入れ替わっても評価基準は安定します。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
候補を多数決や自己申告ではなく検証可能な信号で裁定する、Arbiter の全実装コード(TypeScript)を取得できます
型検査・テスト・スモーク実行を段階ゲートで走らせ、早期に脱落させてコストを抑える評価順序の設計が分かります
全候補が落ちたとき・同点のとき・予算上限に達したときの縮退戦略と、実運用で踏んだ落とし穴を学べます
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Antigravity Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

Agents & Manager2026-06-17
どのエージェントがいくら使ったかを会計する — タスク別コスト帰属の設計
月末の請求は1つの数字でも、Gemini 3.5 Flash で複数エージェントを走らせていると、どのタスクが費用を食ったかが見えません。予算で止めるガードとは別に、使用量をタスク別・サイト別の原価へ帰属させる会計設計を、個人運用の実装と数値で共有します。
Agents & Manager2026-06-17
並行エージェントの動きを後から辿る — 構造化ログとスパンで作る可観測性
Antigravity 2.0 のデスクトップで複数エージェントを並行させると、どれが何をしているか追えなくなります。混線する print デバッグを捨て、run_id と span で実行を後から辿れるようにする可観測性の設計を、個人運用の実装と数値で共有します。
Agents & Manager2026-06-17
Managed Agents の無人バッチを再実行で壊さない — 冪等性とチェックポイントの設計
Antigravity 2.0 の Managed Agents API で夜間バッチを組むと、途中失敗からの再実行が必ず問題になります。二重実行で投稿が重複した失敗を起点に、冪等キー・チェックポイントストア・再開ロジックの実装を、個人開発の運用実数値とともに共有します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →