※本ページはプロモーションが含まれています

今日のAI話

Google「Gemma 3 270M」正式公開:2.7億パラメータの小型LLMが“超省メモリ”でオンデバイス運用—4bitで約240MB、32Kコンテキスト、QAT対応も【最新動向まとめ】

Googleは2.7億パラメータの小型モデル「Gemma 3 270M」を新たに公開しました。

タスク特化の微調整(fine-tuning)と構造化テキスト生成に強みを持つ「超効率」モデルで、オンデバイス/低リソース環境を主眼としています。
4bit量子化時のおおよそのVRAM使用量は約240MB
(公式表)で、コンテキスト長は32K。Gemma 3ファミリー全体の仕様やライセンス条件、より軽いGemma 3nとの関係も含めて、一次情報を基に**“できること/できないこと”**を検証します。
Google Developers Blog
Google AI for DevelopersHugging Face

何が新しい?「Gemma 3 270M」の公式ポジショニング

  • 用途:小型でタスク特化の微調整に向く。初期から強い指示追従(instruction-following)とテキスト構造化能力を狙って設計
    Google Developers Blog

  • 位置づけ:Gemma 3シリーズの“ツールキット”拡張。省電力・省メモリエッジ/ローカル環境を想定
    Google Developers Blog

  • サイズ展開(シリーズ全体):270M / 1B / 4B / 12B / 27B。270Mはテキスト専用
    Google AI for DevelopersHugging Face

参考:3月発表のGemma 3自体は「単一GPUで動かすモデルとして最強」というメッセージでローンチ(27B等)。今回の270Mはその最小構成にあたります。The Verge


スペックの“事実”を確認(公式ドキュメント/モデルカード)

  • コンテキスト長:270M/1Bは32K、4B/12B/27Bは128K
    Hugging Face

  • メモリ目安(ロード時):公式表によると、Gemma 3 270M

  • 学習トークン数:モデルカードに270Mは約6兆トークンと明記(27Bは14Tなど、サイズ別に異なる)
    Hugging Face

  • 入出力モダリティ:270Mはテキスト入出力のみ(シリーズの4B以上は画像入力にも対応)
    Hugging Face

実務メモ:GGUF 4bitビルドは約0.24〜0.25GB程度(変種ごとの差は数MB)。スマホ/ローエンドPCでも検証しやすいサイズ感です。
Hugging Face


兄弟モデルとの違い:Gemma 3n/27B(QAT)との関係

  • Gemma 3n:モバイル・PCでの完全ローカル運用を強く打ち出した派生。2GB RAM級でも動くという報道や、DeepMindページの“端末ローカル想定”記述がある(実効条件は端末性能・量子化で変動)
    The Economic TimesGoogle DeepMind

  • Gemma 3 27B(QAT):**量子化認識学習(QAT)**版が公開され、コンシューマGPUでも実用的に動かす取り組み。品質を保ったままメモリ要件を削減するのが狙い
    Google Developers BlogHugging Face


どこまで“軽い”のか:導入・運用の現実的ポイント

  • 実メモリ:公式目安は上記の通りだが、アプリ/ランタイムのオーバーヘッド推論時バッファで**+α**を見込むのが安全。

  • 量子化の選択Q4_0/Q4_Kなど4bitでサイズは約240〜250MB。タスク次第で8bit/SFP8やBF16へ切り替え
    Google AI for DevelopersHugging Face

  • 微調整(LoRA/QLoRA等):270Mはタスク微調整が主眼。小規模データ×高速反復に向く。公式ブログも「task-specific fine-tuning」*強調
    Google Developers Blog


ライセンスと配布:“完全OSS”ではない

  • Hugging Faceでは利用条件への同意が必須Terms(Gemma利用規約)に基づく“オープンウェイト”配布であり、用途制約がある点は過去のGemmaと同様
    Hugging Face

  • 主要メディアも、Gemma 3の“オープン”表現を巡る議論(完全OSSか否か)に触れている。
    The Verge


使いどころ:日本企業・開発者の実務ユースケース

  • エッジでの組込みFAQ要約/レポ整形/フォーム検証など、構造化テキストが中心の業務ロジック。

  • オフライン補助:現場端末(検査・点検)でのテンプレ生成/ナレ要約

  • 軽量RAG小規模ベクトルDB270M高速回答(“検索→構造化テキスト出力”)。

  • セキュリティ/法務クラウド送信が難しいデータローカル処理したい場面で“まず試す”選択肢。

画像理解や長文多段推論が主目的なら、4B/12B/27Bの上位を検討。コンテキスト128K視覚入力は上位のみの機能です。
Hugging Face


事実関係のチェックポイント(要旨)

  1. 正式発表Google Developers BlogGemma 3 270Mを「超効率」「タスク特化の微調整」向けとして告知
    Google Developers Blog

  2. シリーズ仕様270M/1B/4B/12B/27Bのラインアップ。270M/1Bは32K、4B以上は128K
    Google AI for DevelopersHugging Face

  3. メモリ要件:4bit量子化で約240MB(公式表)
    Google AI for Developers

  4. トークン数:270Mは約6Tトークンで学習(モデルカード)
    Hugging Face

  5. ライセンス利用規約への同意が必要(完全OSSではない)
    Hugging Face


参考リンク(一次情報中心)

  • Introducing Gemma 3 270M(公式ブログ)
    Google Developers Blog

  • Gemma 3 Overview(開発者ドキュメント、サイズ表・メモリ要件)
    Google AI for Developers

  • Hugging Face モデルカード(Gemma 3 270M)32K context6T tokensほか詳細
    Hugging Face

  • Gemma 3(3月のシリーズ発表、The Verge報道):単一GPUでの性能・ライセンス言及
    The Verge

  • Gemma 3 QAT(公式ブログ):大規模モデルの省メモリ運用方針
    Google Developers Blog


補足:SNSでは「スマホで0.5GB前後で動いた」等の実測報告も見られますが、これは量子化方式/実行環境に依存し、公式数値(4bit ≈240MB)と誤差が出ます。検証の際は公式要件+手元環境のベンチをご確認ください。Google AI for Developers

-今日のAI話
-, ,

Copyright© IT小僧の時事放談 , 2025 All Rights Reserved Powered by AFFINGER5.