「無料で使えるモデルがフロンティア級の性能になった」——2026年4月4日、Google DeepMind が発表した Gemma 4 はそのひとことで表せる。商用利用も改変も自由な Apache 2.0 ライセンスで、Arena AI テキストリーダーボード世界3位のモデルが手に入った。この記事では、ラインナップの選び方から Ollama ローカル実行の手順、ファインチューニングまでを一気通貫で解説する。
Gemma 4とは何か——「オープン版 Gemini 3」が Apache 2.0 で登場
Gemma 4 は Google DeepMind が開発した最新のオープンウェイトモデルファミリーだ。内部的には Gemini 3 と同じ技術基盤 で構築されており、要するに「Gemini の能力をそのままオープンソースに移植した」と考えてよい。
前世代の Gemma 3 との最大の違いは3点ある。まず ライセンス:Gemma 3 は商用利用に制限があったが、Gemma 4 は Apache 2.0 に転換し、改変・再配布・商用利用がすべて自由になった。次に マルチモーダル対応:全モデルがテキスト・画像・動画・140言語をネイティブサポートし、コンテキストウィンドウは 256K トークンに拡張。そして エージェント特化設計:関数呼び出しや構造化出力が大幅に強化され、実業務での自律タスク実行を念頭に置いた設計になっている。
ここで迷いやすいのが「Gemini と何が違うの?」という点だが、整理するとシンプルだ。Gemini は Google のクラウドAPIで使う商用モデル、Gemma 4 はローカル環境に落として自由に使えるオープンモデル。用途が違うだけで、中身の技術は兄弟関係にある。
4サイズ徹底比較——あなたのハードウェアに合うのはどれ?
Gemma 4 は E2B・E4B・26B MoE・31B Dense の4サイズ展開だ。「どれを選べばいいか」はシンプルに 手元のメモリ量 で決まる。
| モデル | 必要メモリ | 想定ハードウェア | 特徴 |
|---|---|---|---|
| E2B | 3 GB RAM | スマホ・Raspberry Pi・Jetson Nano | エッジ特化。テキスト+画像+音声対応 |
| E4B | 8 GB RAM | 一般ラップトップ・M2 MacBook Air | バランス型。日常の開発作業に最適 |
| 26B MoE | 24 GB VRAM | RTX 3090/4090・AMD RX 7900 XTX | アクティブパラメータ 3.8B。Q4量化で 24GB 圧縮可能。コスト最小で高精度 |
| 31B Dense | 80 GB VRAM | A100・H100 | 精度最優先。Arena 世界3位(ELO ~1452)。ファインチューニングベースに最適 |
比喩として言えば、E2B はスマホで動くポケット翻訳機、E4B はラップトップで十分回るオールラウンダー、26B MoE は「大きく見えて実は省エネ」な混合エキスパート、31B Dense は精度を妥協しないフラッグシップだ。ほとんどの個人開発者には E4B か 26B MoE がちょうどいい。
ベンチマーク実測——「20倍大きいモデルを超える」は本当か?
Gemma 4 の性能数値を見ると、思わず二度見してしまう。
- MMLU Pro: 85.2%(多分野の知識・推論テスト)
- AIME 2026: 89.2%(数学オリンピック難問)
- LiveCodeBench v6: 80%(実践的なコーディング評価)
- Codeforces ELO: 110 → 2150(Gemma 3 比で競技プログラミング力が劇的向上)
特筆すべきは Arena AI リーダーボードの結果だ。31B Dense は GLM-5 の 34分の1 のパラメータ数 で同等の性能を達成している。要するに「重さ 34 分の1 の選手が同等のパフォーマンスを出す」という話で、モデル効率の観点から見ると衝撃的な数字だ。
競合との比較も整理しておこう。Llama 4 Maverick(オープンウェイト最強競合)は 400B パラメータと桁が違うが、Gemma 4 31B はコスト対性能比で明らかに上回っている。Qwen 3.6 Plus はアジア系言語で強いが商用制限あり。Mistral Small 4 は軽量・欧州系で Gemma 4 E2B と競合帯に入る。ここで迷いやすいのが「どれが最強か」だが、Apache 2.0 かつ高性能という組み合わせでは Gemma 4 の競合は現時点でほぼいない。
OllamaでGemma 4をローカル実行——5分セットアップガイド
Gemma 4 は Ollama day-0 対応 で、リリース当日からコマンド一発で動く。手順を順番に追っていこう。
ステップ 1 — Ollama のインストール(未導入の場合)
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows は https://ollama.com/download からインストーラーを取得
ステップ 2 — モデルのダウンロード
メモリに合わせて選ぼう。ここで迷いやすいのが「どの量化を使うか」だが、q4_K_M が速度と精度のバランスで最も無難だ。
# E4B(8GB ラップトップ向け)
ollama pull gemma4:4b
# 26B MoE(24GB GPU 向け / Q4量化 約 15GB)
ollama pull gemma4:27b-instruct-q4_K_M
# 31B Dense(80GB VRAM 向け)
ollama pull gemma4:31b
ステップ 3 — 起動して対話
# 対話モード
ollama run gemma4:4b
# APIサーバーとして起動(ポート 11434)
ollama serve
Apple Silicon(M1/M2/M3 Mac)での実行
MLX フレームワークを使うと Metal GPU を最大活用できる。要するに「Mac の GPU をフルに使える専用エンジン」が MLX だ。
pip install mlx-lm
mlx_lm.generate --model google/gemma-4-4b-it --prompt "Gemma 4について教えて"
llama.cpp(CPU でも動かしたい場合)
# GGUF モデルを Hugging Face からダウンロード後
./llama-cli -m gemma-4-4b-it-Q4_K_M.gguf -p "こんにちは" -n 256
エージェント・コーディング活用の最前線
Gemma 4 をただ対話に使うだけではもったいない。開発者コミュニティではリリース当日から実践的な活用が始まっている。
Axolotl でのファインチューニング
Axolotl コア開発者の Wing Lian が v0.16.1 を即日リリース し、Gemma 4 のファインチューニングに対応した。MoE + LoRA の最適化済みカーネルを使って RTX 5090 上で 26B A4B を動かせる。
# Axolotl のインストール
pip install axolotl
# 設定ファイル(gemma4_finetune.yaml)を作成して実行
accelerate launch -m axolotl.cli.train gemma4_finetune.yaml
比喩として言えば、AxolotlでのファインチューニングはGemma 4という「素直な生徒」に自社のマニュアルを叩き込む作業だ。Apache 2.0 なので業務データで訓練したモデルを商用サービスに組み込める。
Android エッジ展開 — AICore Developer Preview
Google の AICore Developer Preview で、Gemma 4 E2B を Android スマホのオンデバイスエージェントとして動かすことができる。クラウド API 不要のプライベート AI アシスタントが端末内で完結する。
// Android Kotlin — AICore API でモデル呼び出し
val session = AiCoreService.createSession(ModelConfig.GEMMA_4_E2B)
val response = session.generate("ユーザーの質問をここに挿入")
NVIDIA 最適化(RTX〜DGX Spark)
NVIDIA が Gemma 4 向けの RTX AI Toolkit 最適化版を提供している。DGX Spark(M4 Max 相当の NVIDIA AI PC)では 26B MoE を快適に動かすことができる。ここで注目したいのが「DGX Spark は個人でも買える $3,000 台の AI ワークステーション」という点で、ローカル AI の敷居が急速に下がっている。
Android Developers Blog / 開発者向け詳細ガイド
まとめ——Gemma 4が「ローカルLLM新標準」になる理由
Gemma 4 を使ってみると、「ローカルモデルはクラウドの劣化版」というイメージが完全に崩れる。実際に試してみると気づくのが、応答の速さ と プライバシーの安心感 だ。データが手元を離れないまま、フロンティア級の推論が動いている。
今回の記事で学んだことをまとめると:
- Apache 2.0:商用利用・改変・再配布がすべて自由。業務への組み込みに躊躇がなくなる
- 4サイズ展開:3GB RAM のスマホから 80GB VRAM の H100 まで、手元の環境に合わせて選べる
- MMLU Pro 85.2% / AIME 89.2%:知識・数学・コーディングの3領域でフロンティア級の数値
- Ollama day-0 対応:コマンド数行でローカル実行できる即戦力ぶり
- エコシステムの速さ:リリース当日に Axolotl・MLX・llama.cpp が対応。オープンソースの底力を見た
要するに、Gemma 4 は「誰でも持てるフラッグシップ」だ。クラウド API の月額コストを気にせず、プライベートなデータで気兼ねなくファインチューニングできるモデルが今日から使える。ローカル LLM の新時代はもう始まっている。
関連記事
- AI最新ニュースまとめ 2026年4月4日号 — Gemma 4を含む本日の主要AIニュース5本はこちら