夕方、キーボードに手を置いたまま天井を見ていることがあります。頭の中ではエージェントに頼みたい内容が固まっているのに、それを文章に起こすのが面倒で止まってしまう。Antigravity 2.0 に追加されたライブ音声書き起こしを使い始めたのは、まさにこの「考えはあるのに入力で詰まる」瞬間を減らせないかと思ったからでした。
一週間、個人開発の実作業に混ぜて使ってみた結果、想像していた使い方とはかなり違う場所で役に立ちました。コードを声で書くためのものではなく、エージェントへの「意図」を素早く流し込むためのものだ、というのが今の実感です。
何が新しくなったのか
これまで音声で開発しようとすると、Aqua Voice — 声だけで開発するセットアップと運用 や Typeless — あらゆるAIツールと相性抜群のAI音声入力アプリ のような外部ディクテーションツールを別途立ち上げ、書き起こした文字列を Antigravity のチャット欄に貼り付ける、という二段構えが必要でした。
2.0 で変わったのは、この書き起こしが Gemini Audio モデルを使ってエディタの内側に組み込まれた点です。マイクのトグルを押すと、話した内容がそのままエージェントへの指示欄に流れ込みます。外部アプリとのウィンドウの行き来や、クリップボードを経由する手間がなくなりました。地味な変化に見えますが、思考を止めずに指示を出せるかどうかは、この一手間の有無で大きく変わります。
コードの口述には向いていません
最初の二日間は、欲張って関数の中身まで声で書こうとして失敗しました。「if ユーザーがnilだったら早期リターンして」と言うと、書き起こしは正確なのですが、それをコードに直すのはエージェントの仕事で、私が口で言うべき粒度ではありませんでした。記号や括弧の対応、インデントを声で指定するのは、キーボードより明らかに遅いのです。
うまくいき始めたのは、粒度を一段上げてからでした。「この決済処理、リトライを入れたいんだけど、指数バックオフで最大3回、429のときだけ再試行して、それ以外のエラーはそのまま投げて」のように、実装の方針を丸ごと話してエージェントに委ねる。この使い方だと、声のほうがキーボードより速く、しかも頭の中の文脈を取りこぼさずに渡せます。音声書き起こしは「タイピストの代わり」ではなく「意図を伝える口」だと考えると、急にしっくりきました。
技術用語と日本語混じりの精度
私自身、日本語圏の開発者として一番気にしていたのが、技術用語の混じった日本語の精度でした。結論から言うと、カタカナ化された用語(リファクタリング、デプロイ、マイグレーション)はほぼ問題ありません。問題が出やすいのは、英語のまま読む固有名詞でした。
たとえば「ステートフル」は通りますが、ライブラリ名やコマンド名を英語発音で挟むと揺れます。useEffect を「ユーズエフェクト」と言うと、use effect と二語に割れたり、別の語に化けたりします。私の対処は単純で、固有名詞だけは話さずに後からキーボードで補う、という割り切りです。方針を声で流し込み、固有名詞のスペルだけ指で直す。この分担にしてから、書き起こしのやり直しがほとんどなくなりました。手で打つ量を減らしつつ、正確さが要る部分だけは手に残す——音声入力を全部任せようとせず、役割を分けるのが結局いちばん速いというのが、個人開発で試してたどり着いた結論です。
数値の扱いも一点だけ注意があります。「3回」「429」のような短い数字は安定しますが、長い桁やバージョン番号(たとえば 2.0.3 のようなドット区切り)は誤認が出ます。バージョンを指示に含めるときは、声では「最新版」とだけ言い、正確な番号は文字で添えるほうが安全でした。
実際に定着した使い方
個人開発では設計から実装、リリース後の運用までを一人で回すので、入力にかける時間は少しでも削りたいところです。一週間でほぼ毎日使うようになったのは、次の三つの場面でした。
ひとつ目は、エージェントへの最初の依頼です。タスクの背景と制約をひと息に話せるので、これまで箇条書きを打ち込んでいた前置きが、二、三十秒の発話で済みます。ふたつ目は、生成されたコードへのレビューコメントです。画面のコードを見ながら「ここのエラーハンドリング、握りつぶしてるから上に投げて」と口頭で返すのは、視線を移さずに済む分だけ速い。三つ目は、自分用のメモです。後で調べたいことを声で書き起こしておき、作業を中断せずに残せます。
逆に、コミットメッセージや細かい命名のように、一文字単位の正確さが要る場面では使っていません。そこは素直にキーボードに戻ります。
マイクの後ろに人間がいる前提を忘れない
最後に、運用面で一点だけ。音声書き起こしは入力を速くしてくれますが、エージェントに渡る指示そのものをレビューする習慣は変えないほうがいいです。声で流し込んだ指示は、打ち込んだ指示よりも勢いがついて、つい確認を飛ばしがちになります。とくにファイルの削除や外部への送信を含む依頼は、書き起こされたテキストを一度目で読んでから実行するようにしています。スケジュール実行のエージェントを運用していると、スケジュール実行のエージェントが二重に走る — 重複と再実行に耐える冪等設計 のような「人が見ていない時間」の事故が一番怖いと身に沁みているので、入口の指示だけは人の目を通す、という線は守っています。
声で開発が完結する未来を期待していた人には、まだ物足りないかもしれません。けれど「考えてから入力するまでの距離を縮める道具」として見ると、Antigravity 2.0 のライブ書き起こしは十分に実用域に入っていると感じています。週末に一度、最初の依頼だけ声でやってみると、思っていた使いどころとのずれに気づけるはずです。