エージェントに短いナレーションや環境音のループを書き出してもらったあと、私はこれまで決まった遠回りをしていました。生成されたファイルをいったん書き出し、ファイルマネージャで探し、別のプレイヤーで開いて、また会話に戻る。一回ずつは小さな手間ですが、バリエーションを並べて聴き比べたい場面では、この往復がそのまま集中力を削っていきます。
Antigravity の 6 月後半に出た一連のポイントリリース(v2.2.1 系)には、地味ですが日々効く変更が混ざっていました。会話ビューでの音声ファイルのインライン描画です。エージェントが出力した、あるいは添付した音声を、会話の流れを離れずにそのまま再生できるようになりました。
インライン描画で実際に何が起きるか
これまで音声は「リンクとして置かれた成果物」でした。中身を確かめるには会話の外へ出る必要があり、外へ出た時点で、直前にエージェントへ出した指示や、なぜそのパラメータにしたのかという文脈から一度切り離されます。インライン描画が入ると、音声は会話の中に再生可能な要素として並びます。指示・生成物・試聴が一本の縦の流れに収まる、というのがいちばん大きい変化です。
私が試した範囲では、エージェントに「同じ原稿で声色だけ変えた候補を 3 本書き出して」と頼むと、3 本がそのまま会話に縦に並び、上から順に再生して比べられました。書き出してフォルダを開く動作が消えるだけで、聴き比べの心理的なハードルがはっきり下がります。
確認のボトルネックは、生成ではなく試聴だった
エージェントに音声を扱わせるとき、私たちはつい「どれだけ速く・うまく生成できるか」に注目します。けれど個人開発で音声アセットを回していると、私自身がいつも実際に詰まるのは、生成そのものよりも試聴の段にあります。10 本作るのは一瞬でも、10 本を聴いて良し悪しを判断し、どれを採用するか決めるのは人間の耳の作業で、ここは速くなりません。
だからこそ、試聴に挟まる余計な手数(書き出し・ファイル探し・アプリ切り替え)を削ることは、見た目より効きます。生成が 2 倍速くなっても判断は速くなりませんが、試聴の往復が消えると、聴いて・却下して・作り直す一周がそのまま短くなります。個人開発でいくつものアプリの音を作ってきた実感として、エージェント活用で本当に縮むのはこの「却下までの時間」だと考えています。
会話そのものを試聴ログとして使う
インライン再生が入ったことで、会話ビューを「音声の試聴ログ」として運用できるようになりました。私が決めている小さなルールはふたつです。
ひとつは、エージェントに候補を出させるとき、必ずファイル名へ意味のあるラベルを付けさせること。narration_v3_warm_slow のように、何を変えた版なのかが名前で分かるようにしておくと、あとで会話を遡ったときに、どの音がどの意図だったかを耳と名前の両方から辿れます。
もうひとつは、採用・不採用をその場のテキストで一行残すこと。「v3 を採用。v2 は語尾が硬い」と書いておくだけで、会話が判断の記録になります。後日同じアプリの音声を作り直すとき、過去の却下理由がそのまま再利用できます。長い会話を遡る所作については、長く走ったエージェントが何をしたかを遡る — 会話内検索を起点にしたレビュー術で触れた検索の使い方と組み合わせると、試聴ログがさらに引きやすくなります。
インライン再生に頼りすぎないための線引き
便利になったぶん、線引きも決めておきたいところです。会話ビューでの再生は、あくまで「方向性が合っているか」を素早く確かめるためのものだと割り切っています。最終的な音量(ラウドネス)、書き出しフォーマット、実機での聞こえ方は、ブラウザやエディタ上の再生では判断しきれません。
私の場合、ループ音や通知音を扱うときは、インラインで候補を絞り込んだあと、必ず実際のアプリに組み込んで端末で鳴らして確認します。静かな部屋では良くても、屋外でスピーカーから小さく鳴らすと印象が変わる音は珍しくありません。インライン再生は一次選考、実機確認が最終選考、という二段構えにしておくと、手数を減らしつつ品質を落とさずに済みます。音声エージェント自体を本番品質で組む話は、ElevenLabs × Antigravity でリアルな音声AIアプリを開発する実践ガイドでより踏み込んでいます。
小さなポイントリリースは見出しになりにくく、つい読み飛ばしてしまいます。けれど音声のインライン描画のように、毎日触る道具の手数をひとつ削る変更は、積み重なると作業のリズムを確かに変えてくれます。次にエージェントへ音声を頼むときは、書き出してから開く手を止めて、そのまま会話の中で聴いてみてください。