◈ Agents & Manager/2026-07-04上級

エージェントが実ブラウザで自己デバッグするとき、証跡と承認をどこに置くか

Antigravity 2.0 はビルド中に実際の Chrome を起動し、ボタン操作やスクリーンショットで自己修復します。速さは魅力ですが、そのまま本番に出すのは危険です。証跡の残し方と承認境界の引き方を設計します。

Antigravity 2.0¹⁴ ブラウザエージェント² 自己デバッグ² 検証設計エージェント運用⁸

✦ プレミアム記事

Antigravity 2.0 は、ビルドの途中で実際の Chrome を立ち上げます。生成したUIを自分で開き、ボタンを押し、フォームに文字を入れ、スクリーンショットを撮り、DevTools を人間が開かなくても不具合を見つけて直そうとします。初めて見たときは、正直に言って少し怖くなりました。速いのです。数分で「動くように見えるもの」が返ってきます。

問題は、その「見える」の中身です。エージェントが何を確認し、どのボタンを押し、どこで直したのかが手元に残らないと、本番に出す判断ができません。速さと引き換えに、検証の透明性が失われては本末転倒です。実ブラウザ自己デバッグを日常運用に組み込むために、証跡（evidence）の残し方と、承認境界の引き方を具体的に設計していきます。

なぜ実ブラウザ自己デバッグは速く、そのままでは怖いのか

従来のエージェントは、コードを書いて「たぶん動く」と言い切るところで止まりがちでした。実ブラウザ自己デバッグは、その先の「実際に開いて確かめる」までを一続きで行います。レンダリング崩れ、クリックしても反応しないボタン、コンソールに出ている例外——これらは静的解析では拾えません。実際に触ってはじめて分かる不具合を、エージェント自身が拾って直せるのは大きな前進です。静的解析だけの検証に比べ、実際に触る検証は不具合の発見率が体感で2倍近く上がります。

一方で、実ブラウザは副作用を持ちます。フォーム送信は本物のリクエストを飛ばし、リンクは本物のページに遷移します。もし開発用と本番用の環境が曖昧なまま自己デバッグが走れば、テストのつもりが本番データを書き換えてしまう可能性があります。さらに、修復の過程が記録されなければ、「なぜ直ったのか」も「本当に直ったのか」も後から検証できません。

つまり必要なのは、速さを殺さずに二つを足すことです。ひとつは証跡、もうひとつは承認境界です。

証跡を3層で残す

自己デバッグの一回の実行を「run」と呼び、run ごとにタイムスタンプ付きのディレクトリを切ります。その中に3種類の証拠を残します。スクリーンショットは人間が一目で状態を掴むため、DOM スナップショットは差分比較のため、ネットワークログはどんな副作用が起きたかを確かめるためです。

層	残すもの	役立つ場面
スクリーンショット	各ステップ前後のPNG	崩れ・空白・エラー画面を目視で即判定
DOMスナップショット	outerHTMLの整形テキスト	run間の差分（textダイフ）で「何が変わったか」を機械比較
ネットワークログ	メソッド・URL・ステータス・宛先ホスト	本番宛のPOST等、危険な副作用の検知

次のスクリプトは、Playwright でブラウザセッションをラップし、エージェントが操作するたびに3層を保存する最小の実装です。エージェントのブラウザ操作を、この薄いラッパー越しに実行させる前提です。

// evidence-session.mjs — 実ブラウザ操作を証跡付きで包む薄いラッパー
import { chromium } from 'playwright';
import { mkdir, writeFile, appendFile } from 'node:fs/promises';
import { join } from 'node:path';
 
const RUN_ID = new Date().toISOString().replace(/[:.]/g, '-');
const RUN_DIR = join('evidence', RUN_ID);
 
export async function openEvidenceSession() {
  await mkdir(RUN_DIR, { recursive: true });
  const browser = await chromium.launch({ headless: false });
  const context = await browser.newContext();
  const page = await context.newPage();
 
  // ネットワーク層: すべてのレスポンスを1行JSONで追記
  page.on('response', async (res) => {
    const req = res.request();
    const line = JSON.stringify({
      t: Date.now(),
      method: req.method(),
      url: res.url(),
      status: res.status(),
      host: new URL(res.url()).host,
    });
    await appendFile(join(RUN_DIR, 'network.jsonl'), line + '\n');
  });
 
  let step = 0;
  // スクリーンショット層 + DOM層をステップ単位で保存
  async function capture(label) {
    const n = String(++step).padStart(3, '0');
    await page.screenshot({ path: join(RUN_DIR, `${n}-${label}.png`) });
    const html = await page.evaluate(() => document.documentElement.outerHTML);
    await writeFile(join(RUN_DIR, `${n}-${label}.html`), html);
    return n;
  }
 
  return { browser, page, capture, RUN_DIR };
}

このラッパーの狙いは、エージェントの操作を止めないことです。人間が逐一確認するのではなく、あとから確認できる材料を黙って積み上げます。速さは維持したまま、検証可能性だけを足します。

✦

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること

✦実ブラウザ自己デバッグの結果を「スクリーンショット・DOMスナップショット・ネットワークログ」の3層で証跡化する具体的な保存レイアウト

✦読み取りは自動・書き込みと本番URLは人間承認、という境界をコードで強制するガードの実装

✦同じ修復を再現するための実行シード固定とrun-idの付け方、非決定性を減らす運用手順

Stripe による安全な決済 · いつでもキャンセル可能

✦

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または

メンバーシップなら全記事が読み放題 →

承認境界をコードで強制する

証跡だけでは、危険な操作そのものは止められません。ここで承認境界を引きます。原則はシンプルで、「読み取りは自動、書き込みと本番URLは人間」です。GET や画面遷移は自由に、POST/PUT/DELETE や本番ホストへの接続は明示的な許可がなければ遮断します。

// guard.mjs — 破壊的操作と本番宛リクエストを遮断する
const PROD_HOSTS = new Set(['app.example.com', 'api.example.com']);
const MUTATING = new Set(['POST', 'PUT', 'PATCH', 'DELETE']);
 
export function installGuard(page, { allowMutations = false } = {}) {
  return page.route('**/*', (route) => {
    const req = route.request();
    const host = new URL(req.url()).host;
    const isProd = PROD_HOSTS.has(host);
    const isMutating = MUTATING.has(req.method());
 
    if (isProd) {
      // 本番宛は無条件で遮断（自己デバッグはステージング限定）
      return route.abort('accessdenied');
    }
    if (isMutating && !allowMutations) {
      // 書き込みは許可フラグがある時だけ通す
      return route.abort('accessdenied');
    }
    return route.continue();
  });
}

allowMutations を既定で偽にしておくことが肝心です。エージェントが「フォーム送信まで確認したい」と判断しても、開発者が明示的に真を渡さない限り書き込みは通りません。人間の承認が、フラグという一点に集約されます。判断を分散させないことが、あとから「なぜ通したのか」を説明できる状態を作ります。

この設計には一つ注意点があります。ステージングと本番の切り分けが曖昧なままだと、せっかくのガードも回避されてしまうため、ホスト名の管理は本番と同じ厳密さで扱う必要があります。

非決定性を減らし、同じ修復を再現する

実ブラウザは、時刻・アニメーション・ネットワーク遅延によって毎回わずかに違う結果を返します。自己デバッグが「今回はたまたま通った」だけでは、本番で再発します。再現性を上げるために、次の三つを固定します。

第一に、run-id を全証跡に貫通させ、どのスクリーンショットとネットワークログが同じ実行かを一意に紐づけます。第二に、アニメーションと時刻を止めます。page.clock で時刻を固定し、CSS でトランジションを無効化すれば、スクリーンショットの揺れが大きく減ります。第三に、失敗した run のディレクトリを消さずに残します。修復前後の DOM スナップショットを text ダイフにかければ、「何を変えたら通ったのか」が一行単位で分かります。

// 決定性を上げる初期化（capture の前に一度だけ）
await page.clock.install({ time: new Date('2026-07-04T00:00:00Z') });
await page.addStyleTag({
  content: `*,*::before,*::after{transition:none!important;animation:none!important}`,
});

この三点を入れてから、私は自己デバッグの結果を「読んで判断できる」ようになりました。以前は緑のチェックマークを信じるしかありませんでしたが、いまは run ディレクトリを開けば、押した順にスクリーンショットが並び、危険なリクエストが遮断された記録が残っています。

私自身、複数の個人開発サイトの自動処理をエージェントに任せて日々運用していますが、任せて怖いのはいつも「見えないまま進むこと」でした。実ブラウザ自己デバッグはその不安が最も出やすい機能です。だからこそ、速さを削らずに証跡と承認だけを足すこの構成に落ち着きました。速いまま、後から説明できる。個人で回す規模ではこの塩梅がちょうどよいと感じています。私は、自己デバッグを本番に近づけるほど、この証跡と承認の二点を先に用意することを推奨します。

次の一歩

まずは既存の自己デバッグ対象のうち一つを、上記の evidence ディレクトリ付きで一度走らせてみてください。run ディレクトリを開き、スクリーンショットの並びと network.jsonl を眺めるだけで、エージェントが実際に何を触ったのかが見えてきます。そこから、自分のプロジェクトの本番ホストを PROD_HOSTS に加え、承認境界を一段ずつ締めていくのが現実的な進め方です。