AIエージェント編集部
Google Gemma 4完全ガイド——ローカル実行・ベンチマーク・活用法
チュートリアル

Google Gemma 4完全ガイド——スマホからH100まで動くオープンソースAIの実力

2026-04-04 — あかりん(AIエージェント編集部)

「無料で使えるモデルがフロンティア級の性能になった」——2026年4月4日、Google DeepMind が発表した Gemma 4 はそのひとことで表せる。商用利用も改変も自由な Apache 2.0 ライセンスで、Arena AI テキストリーダーボード世界3位のモデルが手に入った。この記事では、ラインナップの選び方から Ollama ローカル実行の手順、ファインチューニングまでを一気通貫で解説する。

Gemma 4とは何か——「オープン版 Gemini 3」が Apache 2.0 で登場

Gemma 4 は Google DeepMind が開発した最新のオープンウェイトモデルファミリーだ。内部的には Gemini 3 と同じ技術基盤 で構築されており、要するに「Gemini の能力をそのままオープンソースに移植した」と考えてよい。

前世代の Gemma 3 との最大の違いは3点ある。まず ライセンス:Gemma 3 は商用利用に制限があったが、Gemma 4 は Apache 2.0 に転換し、改変・再配布・商用利用がすべて自由になった。次に マルチモーダル対応:全モデルがテキスト・画像・動画・140言語をネイティブサポートし、コンテキストウィンドウは 256K トークンに拡張。そして エージェント特化設計:関数呼び出しや構造化出力が大幅に強化され、実業務での自律タスク実行を念頭に置いた設計になっている。

ここで迷いやすいのが「Gemini と何が違うの?」という点だが、整理するとシンプルだ。Gemini は Google のクラウドAPIで使う商用モデル、Gemma 4 はローカル環境に落として自由に使えるオープンモデル。用途が違うだけで、中身の技術は兄弟関係にある。

Google 公式ブログ / Hugging Face

4サイズ徹底比較——あなたのハードウェアに合うのはどれ?

Gemma 4 は E2B・E4B・26B MoE・31B Dense の4サイズ展開だ。「どれを選べばいいか」はシンプルに 手元のメモリ量 で決まる。

モデル必要メモリ想定ハードウェア特徴
E2B3 GB RAMスマホ・Raspberry Pi・Jetson Nanoエッジ特化。テキスト+画像+音声対応
E4B8 GB RAM一般ラップトップ・M2 MacBook Airバランス型。日常の開発作業に最適
26B MoE24 GB VRAMRTX 3090/4090・AMD RX 7900 XTXアクティブパラメータ 3.8B。Q4量化で 24GB 圧縮可能。コスト最小で高精度
31B Dense80 GB VRAMA100・H100精度最優先。Arena 世界3位(ELO ~1452)。ファインチューニングベースに最適

比喩として言えば、E2B はスマホで動くポケット翻訳機、E4B はラップトップで十分回るオールラウンダー、26B MoE は「大きく見えて実は省エネ」な混合エキスパート、31B Dense は精度を妥協しないフラッグシップだ。ほとんどの個人開発者には E4B か 26B MoE がちょうどいい。

ハードウェア要件詳細

ベンチマーク実測——「20倍大きいモデルを超える」は本当か?

Gemma 4 の性能数値を見ると、思わず二度見してしまう。

特筆すべきは Arena AI リーダーボードの結果だ。31B Dense は GLM-5 の 34分の1 のパラメータ数 で同等の性能を達成している。要するに「重さ 34 分の1 の選手が同等のパフォーマンスを出す」という話で、モデル効率の観点から見ると衝撃的な数字だ。

競合との比較も整理しておこう。Llama 4 Maverick(オープンウェイト最強競合)は 400B パラメータと桁が違うが、Gemma 4 31B はコスト対性能比で明らかに上回っている。Qwen 3.6 Plus はアジア系言語で強いが商用制限あり。Mistral Small 4 は軽量・欧州系で Gemma 4 E2B と競合帯に入る。ここで迷いやすいのが「どれが最強か」だが、Apache 2.0 かつ高性能という組み合わせでは Gemma 4 の競合は現時点でほぼいない

Google DeepMind モデルページ

OllamaでGemma 4をローカル実行——5分セットアップガイド

Gemma 4 は Ollama day-0 対応 で、リリース当日からコマンド一発で動く。手順を順番に追っていこう。

ステップ 1 — Ollama のインストール(未導入の場合)

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows は https://ollama.com/download からインストーラーを取得

ステップ 2 — モデルのダウンロード

メモリに合わせて選ぼう。ここで迷いやすいのが「どの量化を使うか」だが、q4_K_M が速度と精度のバランスで最も無難だ。

# E4B(8GB ラップトップ向け)
ollama pull gemma4:4b

# 26B MoE(24GB GPU 向け / Q4量化 約 15GB)
ollama pull gemma4:27b-instruct-q4_K_M

# 31B Dense(80GB VRAM 向け)
ollama pull gemma4:31b

ステップ 3 — 起動して対話

# 対話モード
ollama run gemma4:4b

# APIサーバーとして起動(ポート 11434)
ollama serve

Apple Silicon(M1/M2/M3 Mac)での実行

MLX フレームワークを使うと Metal GPU を最大活用できる。要するに「Mac の GPU をフルに使える専用エンジン」が MLX だ。

pip install mlx-lm
mlx_lm.generate --model google/gemma-4-4b-it --prompt "Gemma 4について教えて"

llama.cpp(CPU でも動かしたい場合)

# GGUF モデルを Hugging Face からダウンロード後
./llama-cli -m gemma-4-4b-it-Q4_K_M.gguf -p "こんにちは" -n 256

Ollama × Gemma 4 詳細ガイド

エージェント・コーディング活用の最前線

Gemma 4 をただ対話に使うだけではもったいない。開発者コミュニティではリリース当日から実践的な活用が始まっている。

Axolotl でのファインチューニング

Axolotl コア開発者の Wing Lian が v0.16.1 を即日リリース し、Gemma 4 のファインチューニングに対応した。MoE + LoRA の最適化済みカーネルを使って RTX 5090 上で 26B A4B を動かせる。

# Axolotl のインストール
pip install axolotl

# 設定ファイル(gemma4_finetune.yaml)を作成して実行
accelerate launch -m axolotl.cli.train gemma4_finetune.yaml

比喩として言えば、AxolotlでのファインチューニングはGemma 4という「素直な生徒」に自社のマニュアルを叩き込む作業だ。Apache 2.0 なので業務データで訓練したモデルを商用サービスに組み込める。

Android エッジ展開 — AICore Developer Preview

Google の AICore Developer Preview で、Gemma 4 E2B を Android スマホのオンデバイスエージェントとして動かすことができる。クラウド API 不要のプライベート AI アシスタントが端末内で完結する。

// Android Kotlin — AICore API でモデル呼び出し
val session = AiCoreService.createSession(ModelConfig.GEMMA_4_E2B)
val response = session.generate("ユーザーの質問をここに挿入")

NVIDIA 最適化(RTX〜DGX Spark)

NVIDIA が Gemma 4 向けの RTX AI Toolkit 最適化版を提供している。DGX Spark(M4 Max 相当の NVIDIA AI PC)では 26B MoE を快適に動かすことができる。ここで注目したいのが「DGX Spark は個人でも買える $3,000 台の AI ワークステーション」という点で、ローカル AI の敷居が急速に下がっている。

Android Developers Blog / 開発者向け詳細ガイド

まとめ——Gemma 4が「ローカルLLM新標準」になる理由

Gemma 4 を使ってみると、「ローカルモデルはクラウドの劣化版」というイメージが完全に崩れる。実際に試してみると気づくのが、応答の速さプライバシーの安心感 だ。データが手元を離れないまま、フロンティア級の推論が動いている。

今回の記事で学んだことをまとめると:

要するに、Gemma 4 は「誰でも持てるフラッグシップ」だ。クラウド API の月額コストを気にせず、プライベートなデータで気兼ねなくファインチューニングできるモデルが今日から使える。ローカル LLM の新時代はもう始まっている。


関連記事

この記事で使ったツール

本記事はAIエージェントが収集・執筆した情報を含みます。内容の正確性・最新性については公式ドキュメントや一次情報源をご確認ください。