Google Gemma 4完全ガイド——ローカル実行・ベンチマーク・活用法

「無料で使えるモデルがフロンティア級の性能になった」——2026年4月4日、Google DeepMind が発表した Gemma 4 はそのひとことで表せる。商用利用も改変も自由な Apache 2.0 ライセンスで、Arena AI テキストリーダーボード世界3位のモデルが手に入った。この記事では、ラインナップの選び方から Ollama ローカル実行の手順、ファインチューニングまでを一気通貫で解説する。

Gemma 4とは何か——「オープン版 Gemini 3」が Apache 2.0 で登場

Gemma 4 は Google DeepMind が開発した最新のオープンウェイトモデルファミリーだ。内部的には Gemini 3 と同じ技術基盤 で構築されており、要するに「Gemini の能力をそのままオープンソースに移植した」と考えてよい。

前世代の Gemma 3 との最大の違いは3点ある。まず ライセンス：Gemma 3 は商用利用に制限があったが、Gemma 4 は Apache 2.0 に転換し、改変・再配布・商用利用がすべて自由になった。次に マルチモーダル対応：全モデルがテキスト・画像・動画・140言語をネイティブサポートし、コンテキストウィンドウは 256K トークンに拡張。そして エージェント特化設計：関数呼び出しや構造化出力が大幅に強化され、実業務での自律タスク実行を念頭に置いた設計になっている。

ここで迷いやすいのが「Gemini と何が違うの?」という点だが、整理するとシンプルだ。Gemini は Google のクラウドAPIで使う商用モデル、Gemma 4 はローカル環境に落として自由に使えるオープンモデル。用途が違うだけで、中身の技術は兄弟関係にある。

Google 公式ブログ / Hugging Face

4サイズ徹底比較——あなたのハードウェアに合うのはどれ?

Gemma 4 は E2B・E4B・26B MoE・31B Dense の4サイズ展開だ。「どれを選べばいいか」はシンプルに 手元のメモリ量 で決まる。

モデル	必要メモリ	想定ハードウェア	特徴
E2B	3 GB RAM	スマホ・Raspberry Pi・Jetson Nano	エッジ特化。テキスト+画像+音声対応
E4B	8 GB RAM	一般ラップトップ・M2 MacBook Air	バランス型。日常の開発作業に最適
26B MoE	24 GB VRAM	RTX 3090/4090・AMD RX 7900 XTX	アクティブパラメータ 3.8B。Q4量化で 24GB 圧縮可能。コスト最小で高精度
31B Dense	80 GB VRAM	A100・H100	精度最優先。Arena 世界3位（ELO ~1452）。ファインチューニングベースに最適

比喩として言えば、E2B はスマホで動くポケット翻訳機、E4B はラップトップで十分回るオールラウンダー、26B MoE は「大きく見えて実は省エネ」な混合エキスパート、31B Dense は精度を妥協しないフラッグシップだ。ほとんどの個人開発者には E4B か 26B MoE がちょうどいい。

ハードウェア要件詳細

ベンチマーク実測——「20倍大きいモデルを超える」は本当か?

Gemma 4 の性能数値を見ると、思わず二度見してしまう。

MMLU Pro: 85.2%（多分野の知識・推論テスト）
AIME 2026: 89.2%（数学オリンピック難問）
LiveCodeBench v6: 80%（実践的なコーディング評価）
Codeforces ELO: 110 → 2150（Gemma 3 比で競技プログラミング力が劇的向上）

特筆すべきは Arena AI リーダーボードの結果だ。31B Dense は GLM-5 の 34分の1 のパラメータ数 で同等の性能を達成している。要するに「重さ 34 分の1 の選手が同等のパフォーマンスを出す」という話で、モデル効率の観点から見ると衝撃的な数字だ。

競合との比較も整理しておこう。Llama 4 Maverick（オープンウェイト最強競合）は 400B パラメータと桁が違うが、Gemma 4 31B はコスト対性能比で明らかに上回っている。Qwen 3.6 Plus はアジア系言語で強いが商用制限あり。Mistral Small 4 は軽量・欧州系で Gemma 4 E2B と競合帯に入る。ここで迷いやすいのが「どれが最強か」だが、Apache 2.0 かつ高性能という組み合わせでは Gemma 4 の競合は現時点でほぼいない。

Google DeepMind モデルページ

OllamaでGemma 4をローカル実行——5分セットアップガイド

Gemma 4 は Ollama day-0 対応 で、リリース当日からコマンド一発で動く。手順を順番に追っていこう。

ステップ 1 — Ollama のインストール（未導入の場合）

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows は https://ollama.com/download からインストーラーを取得

ステップ 2 — モデルのダウンロード

メモリに合わせて選ぼう。ここで迷いやすいのが「どの量化を使うか」だが、q4_K_M が速度と精度のバランスで最も無難だ。

# E4B（8GB ラップトップ向け）
ollama pull gemma4:4b

# 26B MoE（24GB GPU 向け / Q4量化 約 15GB）
ollama pull gemma4:27b-instruct-q4_K_M

# 31B Dense（80GB VRAM 向け）
ollama pull gemma4:31b

ステップ 3 — 起動して対話

# 対話モード
ollama run gemma4:4b

# APIサーバーとして起動（ポート 11434）
ollama serve

Apple Silicon（M1/M2/M3 Mac）での実行

MLX フレームワークを使うと Metal GPU を最大活用できる。要するに「Mac の GPU をフルに使える専用エンジン」が MLX だ。

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-4b-it --prompt "Gemma 4について教えて"

llama.cpp（CPU でも動かしたい場合）

# GGUF モデルを Hugging Face からダウンロード後
./llama-cli -m gemma-4-4b-it-Q4_K_M.gguf -p "こんにちは" -n 256

Ollama × Gemma 4 詳細ガイド

エージェント・コーディング活用の最前線

Gemma 4 をただ対話に使うだけではもったいない。開発者コミュニティではリリース当日から実践的な活用が始まっている。

Axolotl でのファインチューニング

Axolotl コア開発者の Wing Lian が v0.16.1 を即日リリース し、Gemma 4 のファインチューニングに対応した。MoE + LoRA の最適化済みカーネルを使って RTX 5090 上で 26B A4B を動かせる。

# Axolotl のインストール
pip install axolotl

# 設定ファイル（gemma4_finetune.yaml）を作成して実行
accelerate launch -m axolotl.cli.train gemma4_finetune.yaml

比喩として言えば、AxolotlでのファインチューニングはGemma 4という「素直な生徒」に自社のマニュアルを叩き込む作業だ。Apache 2.0 なので業務データで訓練したモデルを商用サービスに組み込める。

Android エッジ展開 — AICore Developer Preview

Google の AICore Developer Preview で、Gemma 4 E2B を Android スマホのオンデバイスエージェントとして動かすことができる。クラウド API 不要のプライベート AI アシスタントが端末内で完結する。

// Android Kotlin — AICore API でモデル呼び出し
val session = AiCoreService.createSession(ModelConfig.GEMMA_4_E2B)
val response = session.generate("ユーザーの質問をここに挿入")

NVIDIA 最適化（RTX〜DGX Spark）

NVIDIA が Gemma 4 向けの RTX AI Toolkit 最適化版を提供している。DGX Spark（M4 Max 相当の NVIDIA AI PC）では 26B MoE を快適に動かすことができる。ここで注目したいのが「DGX Spark は個人でも買える $3,000 台の AI ワークステーション」という点で、ローカル AI の敷居が急速に下がっている。

Android Developers Blog / 開発者向け詳細ガイド

まとめ——Gemma 4が「ローカルLLM新標準」になる理由

Gemma 4 を使ってみると、「ローカルモデルはクラウドの劣化版」というイメージが完全に崩れる。実際に試してみると気づくのが、応答の速さ と プライバシーの安心感 だ。データが手元を離れないまま、フロンティア級の推論が動いている。

今回の記事で学んだことをまとめると：

Apache 2.0：商用利用・改変・再配布がすべて自由。業務への組み込みに躊躇がなくなる
4サイズ展開：3GB RAM のスマホから 80GB VRAM の H100 まで、手元の環境に合わせて選べる
MMLU Pro 85.2% / AIME 89.2%：知識・数学・コーディングの3領域でフロンティア級の数値
Ollama day-0 対応：コマンド数行でローカル実行できる即戦力ぶり
エコシステムの速さ：リリース当日に Axolotl・MLX・llama.cpp が対応。オープンソースの底力を見た

要するに、Gemma 4 は「誰でも持てるフラッグシップ」だ。クラウド API の月額コストを気にせず、プライベートなデータで気兼ねなくファインチューニングできるモデルが今日から使える。ローカル LLM の新時代はもう始まっている。

AI最新ニュースまとめ 2026年4月4日号 — Gemma 4を含む本日の主要AIニュース5本はこちら

Google Gemma 4完全ガイド——スマホからH100まで動くオープンソースAIの実力