Googleは2.7億パラメータの小型モデル「Gemma 3 270M」を新たに公開しました。
タスク特化の微調整(fine-tuning)と構造化テキスト生成に強みを持つ「超効率」モデルで、オンデバイス/低リソース環境を主眼としています。
4bit量子化時のおおよそのVRAM使用量は約240MB(公式表)で、コンテキスト長は32K。Gemma 3ファミリー全体の仕様やライセンス条件、より軽いGemma 3nとの関係も含めて、一次情報を基に**“できること/できないこと”**を検証します。
Google Developers BlogGoogle AI for DevelopersHugging Face
目次
何が新しい?「Gemma 3 270M」の公式ポジショニング
-
用途:小型でタスク特化の微調整に向く。初期から強い指示追従(instruction-following)とテキスト構造化能力を狙って設計
Google Developers Blog -
位置づけ:Gemma 3シリーズの“ツールキット”拡張。省電力・省メモリでエッジ/ローカル環境を想定
Google Developers Blog -
サイズ展開(シリーズ全体):270M / 1B / 4B / 12B / 27B。270Mはテキスト専用
Google AI for DevelopersHugging Face
参考:3月発表のGemma 3自体は「単一GPUで動かすモデルとして最強」というメッセージでローンチ(27B等)。今回の270Mはその最小構成にあたります。The Verge
スペックの“事実”を確認(公式ドキュメント/モデルカード)
-
コンテキスト長:270M/1Bは32K、4B/12B/27Bは128K
Hugging Face -
メモリ目安(ロード時):公式表によると、Gemma 3 270Mは
-
BF16: 約400MB、SFP8(8bit): 約297MB、Q4_0(4bit): 約240MB
Google AI for Developers
-
-
学習トークン数:モデルカードに270Mは約6兆トークンと明記(27Bは14Tなど、サイズ別に異なる)
Hugging Face -
入出力モダリティ:270Mはテキスト入出力のみ(シリーズの4B以上は画像入力にも対応)
Hugging Face
実務メモ:GGUF 4bitビルドは約0.24〜0.25GB程度(変種ごとの差は数MB)。スマホ/ローエンドPCでも検証しやすいサイズ感です。
Hugging Face
兄弟モデルとの違い:Gemma 3n/27B(QAT)との関係
-
Gemma 3n:モバイル・PCでの完全ローカル運用を強く打ち出した派生。2GB RAM級でも動くという報道や、DeepMindページの“端末ローカル想定”記述がある(実効条件は端末性能・量子化で変動)
The Economic TimesGoogle DeepMind -
Gemma 3 27B(QAT):**量子化認識学習(QAT)**版が公開され、コンシューマGPUでも実用的に動かす取り組み。品質を保ったままメモリ要件を削減するのが狙い
Google Developers BlogHugging Face
どこまで“軽い”のか:導入・運用の現実的ポイント
-
実メモリ:公式目安は上記の通りだが、アプリ/ランタイムのオーバーヘッドや推論時バッファで**+α**を見込むのが安全。
-
量子化の選択:Q4_0/Q4_Kなど4bitでサイズは約240〜250MB。タスク次第で8bit/SFP8やBF16へ切り替え
Google AI for DevelopersHugging Face -
微調整(LoRA/QLoRA等):270Mはタスク微調整が主眼。小規模データ×高速反復に向く。公式ブログも「task-specific fine-tuning」*強調
Google Developers Blog
ライセンスと配布:“完全OSS”ではない
-
Hugging Faceでは利用条件への同意が必須。Terms(Gemma利用規約)に基づく“オープンウェイト”配布であり、用途制約がある点は過去のGemmaと同様
Hugging Face -
主要メディアも、Gemma 3の“オープン”表現を巡る議論(完全OSSか否か)に触れている。
The Verge
使いどころ:日本企業・開発者の実務ユースケース
-
エッジでの組込み:FAQ要約/レポ整形/フォーム検証など、構造化テキストが中心の業務ロジック。
-
オフライン補助:現場端末(検査・点検)でのテンプレ生成/ナレ要約。
-
軽量RAG:小規模ベクトルDB+270Mで高速回答(“検索→構造化テキスト出力”)。
-
セキュリティ/法務:クラウド送信が難しいデータをローカル処理したい場面で“まず試す”選択肢。
画像理解や長文多段推論が主目的なら、4B/12B/27Bの上位を検討。コンテキスト128Kや視覚入力は上位のみの機能です。
Hugging Face
事実関係のチェックポイント(要旨)
-
正式発表:Google Developers BlogでGemma 3 270Mを「超効率」「タスク特化の微調整」向けとして告知
Google Developers Blog -
シリーズ仕様:270M/1B/4B/12B/27Bのラインアップ。270M/1Bは32K、4B以上は128K
Google AI for DevelopersHugging Face -
メモリ要件:4bit量子化で約240MB(公式表)
Google AI for Developers -
トークン数:270Mは約6Tトークンで学習(モデルカード)
Hugging Face -
ライセンス:利用規約への同意が必要(完全OSSではない)
Hugging Face
参考リンク(一次情報中心)
-
Introducing Gemma 3 270M(公式ブログ)
Google Developers Blog -
Gemma 3 Overview(開発者ドキュメント、サイズ表・メモリ要件)
Google AI for Developers -
Hugging Face モデルカード(Gemma 3 270M):32K context、6T tokensほか詳細
Hugging Face -
Gemma 3(3月のシリーズ発表、The Verge報道):単一GPUでの性能・ライセンス言及
The Verge -
Gemma 3 QAT(公式ブログ):大規模モデルの省メモリ運用方針
Google Developers Blog
補足:SNSでは「スマホで0.5GB前後で動いた」等の実測報告も見られますが、これは量子化方式/実行環境に依存し、公式数値(4bit ≈240MB)と誤差が出ます。検証の際は公式要件+手元環境のベンチをご確認ください。Google AI for Developers