ANTIGRAVITY LABEN
記事一覧/AIツール
AIツール/2026-06-14中級

Gemini 3.5 Flash の thinking_level をタスク別に切り替えて、トークン消費を測り直した記録

Gemini 3.5 Flash が Antigravity のデフォルトになってから、思考トークンが静かに膨らんでいました。thinking_level をタスク別に切り替えて、消費と精度のどちらも崩さない運用に落ち着くまでの実測メモです。

Gemini 3.5 FlashAntigravity230thinking_levelトークン最適化個人開発68コスト最適化6

プレミアム記事

Antigravity 2.0 で Gemini 3.5 Flash がデフォルトの Flash モデルに切り替わった週、月初のトークン使用量グラフが、いつもより少し早く立ち上がっていることに気づきました。

コードの体感は速いままです。けれど、内訳を開くと「思考トークン(thinking tokens)」の比率が以前より明確に増えていました。Flash は速いモデルという認識のまま使っていたので、この内訳のズレが少し引っかかりました。

個人開発で4つのサイトを並行運用していると、エージェントを回す回数は1日で数百回に達します。1回あたりの差はわずかでも、月末にはまとまった額になります。そこで腰を据えて、thinking_level をタスクごとに測り直すことにしました。本記事はその実測と、最終的に落ち着いた運用設定の記録です。

thinking_level が効くのは「考える必要のないタスク」での無駄

Gemini 3 系で導入された thinking_level は、モデルが応答前にどれだけ内部推論に予算を割くかを段階で指定するパラメータです。lowhigh を中心に、Antigravity 側のモデル設定や SDK の thinking_config から制御します。2.5 世代までの thinking_budget(トークン数での直接指定)も併存しており、用途によって使い分けます。

ここで見落としやすいのは、思考トークンも課金対象の出力トークンとして計上される点です。最終的な回答が3行でも、その前にモデルが2,000トークン分「考えて」いれば、その分は請求に乗ります。

つまり最適化の余地が一番大きいのは、難しいタスクではありません。「変数名を一括で直す」「import 文を並べ替える」といった、本来は考える必要がほとんどないタスクで、モデルが過剰に思考しているケースです。ここを low に寄せるだけで、品質を一切落とさずに消費だけが下がります。

同じタスクを level 別に流して測る

感覚で語っても再現性がないので、代表的な3種類のタスクを、同じ入力で lowhigh の両方に流し、思考トークンと候補トークンを記録しました。計測は google-genai SDK の usage_metadata から取得しています。

from google import genai
from google.genai import types
 
client = genai.Client()  # GEMINI_API_KEY を環境変数から読み込みます
 
def measure(prompt: str, level: str) -> dict:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=prompt,
        config=types.GenerateContentConfig(
            thinking_config=types.ThinkingConfig(thinking_level=level),
        ),
    )
    usage = response.usage_metadata
    return {
        "level": level,
        "thinking_tokens": usage.thoughts_token_count or 0,
        "output_tokens": usage.candidates_token_count or 0,
        "text": response.text,
    }
 
# 同一プロンプトを2水準で計測
for lv in ("low", "high"):
    r = measure("この関数の変数名を camelCase に統一して", lv)
    print(lv, r["thinking_tokens"], r["output_tokens"])

私の環境で繰り返し測った平均値は、おおよそ次のようになりました(数字は入力やモデル更新で動くため、参考値として扱ってください)。

機械的な整形タスク(変数名の統一)では、low の思考トークンが平均で約110、high が約1,650でした。比にして15倍ほどですが、出力されたコードはどちらも同一でした。考える必要がないタスクに high を使うのは、ほぼそのまま無駄になります。

中程度のリファクタリング(責務の分割を伴う書き換え)では、low が約340、high が約1,900。ここでは出力に差が出ました。low は分割の粒度がやや粗く、2回に1回は手直しが必要でした。high は一度で意図に近い形にまとまりました。

設計判断を含むタスク(データ取得層の境界をどう引くか)では、low は表層的な提案にとどまり、high が約2,400トークンを使って前提条件への言及まで返してきました。ここは消費が増えても high の価値が明確に上回ります。

結論はシンプルで、消費と精度のトレードオフは「タスクの種類」でほぼ決まり、level を一律にする運用は、どちらの方向にも損をします。

ここまでお読みいただきありがとうございます。

この記事の続きを読む

この先には、実装コードやベンチマーク結果など、実務でお役に立てる内容をご用意しています。このサイトは広告を掲載しておらず、サーバーや開発にかかる費用はメンバーの皆様のご支援で成り立っています。もしお役に立てていましたら、ご支援いただけますと大変ありがたいです。

この記事で得られること
thinking_level を low / high で切り替えたときの思考トークン差を実測(私の環境で約12〜15倍)
タスクを3層に分けて thinking_level を自動で割り当てる Python ルーターの実装
本番で踏んだ落とし穴(thought_signatures の欠落・low での取りこぼし)と回避策
Stripe による安全な決済 · いつでもキャンセル可能

この記事を購入する

この先の内容をすべてお読みいただけます。一度のご購入で、いつでも何度でもアクセスできます。このサイトは広告を掲載しておらず、皆さまのご支援がサーバー費用などの運営を支えています。

または
メンバーシップなら全記事が読み放題 →
シェア

お読みいただきありがとうございます

Antigravity Lab は広告なしで運営しており、サーバー費用などの運営コストはメンバーシップのご支援で賄っています。実装コード・ベンチマーク・本番設計パターンなど、実務でお役立ていただける記事を毎日更新しています。もし読んでよかったと感じていただけましたら、ぜひご覧ください。

  • コピー&ペーストで使える実装コード付き
  • 毎日新しい上級ガイドを追加
  • ¥580/月 または ¥1,480 の永久アクセス
メンバーシップを見る →

関連記事

AIツール2026-05-06
Gemini 2.5 Flash をAntigravityのデフォルトに切り替えて3週間 — 速度・精度・コストの実測記録
Gemini 2.5 ProからFlashに切り替えたら、何が変わって何が変わらなかったか。個人開発の現場で3週間使い続けた実測値と、モデルを使い分ける判断基準を共有します。
AIツール2026-05-05
Antigravity vs Cursor vs Bolt — 収益化プロジェクトに最適なAI開発ツールを選ぶ2026年版比較
Antigravity、Cursor、Bolt の3大AI開発ツールを収益化の観点で徹底比較。個人開発者・フリーランスが「稼げるプロジェクト」に最適なツールを選ぶための実践的な判断基準を解説します。
AIツール2026-05-03
AntigravityとLovableを使い比べてわかったこと — AI IDEとビジュアルビルダー、どちらが自分に合うか
AntigravityとLovable(AI Webアプリビルダー)を実際に使い比べて見えた違いを整理します。ゼロからアプリを作りたい人・既存コードベースを育てたい人・個人開発者それぞれの視点で、選び方の判断基準を解説します。
📚RECOMMENDED BOOKS
大規模言語モデル入門
山田育矢
LLM開発
生成AIプロンプトエンジニアリング入門
我妻幸長
プロンプト
Claude CodeによるAI駆動開発入門
平川知秀
AI駆動開発
※ アフィリエイトリンクを含みます
もっと見る →