Google「Gemma 3 270M」正式公開：2.7億パラメータの小型LLMが“超省メモリ”でオンデバイス運用—4bitで約240MB、32Kコンテキスト、QAT対応も【最新動向まとめ】

Googleは2.7億パラメータの小型モデル「Gemma 3 270M」を新たに公開しました。

タスク特化の微調整（fine-tuning）と構造化テキスト生成に強みを持つ「超効率」モデルで、オンデバイス／低リソース環境を主眼としています。
4bit量子化時のおおよそのVRAM使用量は約240MB（公式表）で、コンテキスト長は32K。Gemma 3ファミリー全体の仕様やライセンス条件、より軽いGemma 3nとの関係も含めて、一次情報を基に**“できること／できないこと”**を検証します。
Google Developers BlogGoogle AI for DevelopersHugging Face

何が新しい？「Gemma 3 270M」の公式ポジショニング

用途：小型でタスク特化の微調整に向く。初期から強い指示追従（instruction-following）とテキスト構造化能力を狙って設計
Google Developers Blog
位置づけ：Gemma 3シリーズの“ツールキット”拡張。省電力・省メモリでエッジ／ローカル環境を想定
Google Developers Blog
サイズ展開（シリーズ全体）：270M / 1B / 4B / 12B / 27B。270Mはテキスト専用
Google AI for DevelopersHugging Face

参考：3月発表のGemma 3自体は「単一GPUで動かすモデルとして最強」というメッセージでローンチ（27B等）。今回の270Mはその最小構成にあたります。The Verge

スペックの“事実”を確認（公式ドキュメント／モデルカード）

コンテキスト長：270M/1Bは32K、4B/12B/27Bは128K
Hugging Face
メモリ目安（ロード時）：公式表によると、Gemma 3 270Mは
- BF16: 約400MB、SFP8(8bit): 約297MB、Q4_0(4bit): 約240MB
  Google AI for Developers
学習トークン数：モデルカードに270Mは約6兆トークンと明記（27Bは14Tなど、サイズ別に異なる）
Hugging Face
入出力モダリティ：270Mはテキスト入出力のみ（シリーズの4B以上は画像入力にも対応）
Hugging Face

実務メモ：GGUF 4bitビルドは約0.24〜0.25GB程度（変種ごとの差は数MB）。スマホ／ローエンドPCでも検証しやすいサイズ感です。
Hugging Face

兄弟モデルとの違い：Gemma 3n／27B（QAT）との関係

Gemma 3n：モバイル・PCでの完全ローカル運用を強く打ち出した派生。2GB RAM級でも動くという報道や、DeepMindページの“端末ローカル想定”記述がある（実効条件は端末性能・量子化で変動）
The Economic TimesGoogle DeepMind
Gemma 3 27B（QAT）：**量子化認識学習（QAT）**版が公開され、コンシューマGPUでも実用的に動かす取り組み。品質を保ったままメモリ要件を削減するのが狙い
Google Developers BlogHugging Face

どこまで“軽い”のか：導入・運用の現実的ポイント

実メモリ：公式目安は上記の通りだが、アプリ／ランタイムのオーバーヘッドや推論時バッファで**+α**を見込むのが安全。
量子化の選択：Q4_0／Q4_Kなど4bitでサイズは約240〜250MB。タスク次第で8bit/SFP8やBF16へ切り替え
Google AI for DevelopersHugging Face
微調整（LoRA/QLoRA等）：270Mはタスク微調整が主眼。小規模データ×高速反復に向く。公式ブログも「task-specific fine-tuning」*強調
Google Developers Blog

ライセンスと配布：“完全OSS”ではない

Hugging Faceでは利用条件への同意が必須。Terms（Gemma利用規約）に基づく“オープンウェイト”配布であり、用途制約がある点は過去のGemmaと同様
Hugging Face
主要メディアも、Gemma 3の“オープン”表現を巡る議論（完全OSSか否か）に触れている。
The Verge

使いどころ：日本企業・開発者の実務ユースケース

エッジでの組込み：FAQ要約／レポ整形／フォーム検証など、構造化テキストが中心の業務ロジック。
オフライン補助：現場端末（検査・点検）でのテンプレ生成／ナレ要約。
軽量RAG：小規模ベクトルDB＋270Mで高速回答（“検索→構造化テキスト出力”）。
セキュリティ／法務：クラウド送信が難しいデータをローカル処理したい場面で“まず試す”選択肢。

画像理解や長文多段推論が主目的なら、4B/12B/27Bの上位を検討。コンテキスト128Kや視覚入力は上位のみの機能です。
Hugging Face

事実関係のチェックポイント（要旨）

正式発表：Google Developers BlogでGemma 3 270Mを「超効率」「タスク特化の微調整」向けとして告知
Google Developers Blog
シリーズ仕様：270M/1B/4B/12B/27Bのラインアップ。270M/1Bは32K、4B以上は128K
Google AI for DevelopersHugging Face
メモリ要件：4bit量子化で約240MB（公式表）
Google AI for Developers
トークン数：270Mは約6Tトークンで学習（モデルカード）
Hugging Face
ライセンス：利用規約への同意が必要（完全OSSではない）
Hugging Face

参考リンク（一次情報中心）

Introducing Gemma 3 270M（公式ブログ）
Google Developers Blog
Gemma 3 Overview（開発者ドキュメント、サイズ表・メモリ要件）
Google AI for Developers
Hugging Face モデルカード（Gemma 3 270M）：32K context、6T tokensほか詳細
Hugging Face
Gemma 3（3月のシリーズ発表、The Verge報道）：単一GPUでの性能・ライセンス言及
The Verge
Gemma 3 QAT（公式ブログ）：大規模モデルの省メモリ運用方針
Google Developers Blog

補足：SNSでは「スマホで0.5GB前後で動いた」等の実測報告も見られますが、これは量子化方式／実行環境に依存し、公式数値（4bit ≈240MB）と誤差が出ます。検証の際は公式要件＋手元環境のベンチをご確認ください。Google AI for Developers