※本ページはプロモーションが含まれています

今日のAI話

やっとお目見え Appleの生成AI 「MGIE」リリース

やっとお目見えです。
Appleの生成AI 「MGIE」がリリースされました。

Appleがカリフォルニア大学サンタバーバラ校と協力し、言葉で指示するだけで写真を編集してくれるAIモデル「MGIE」をリリースしました。

[2309.17102] Guiding Instruction-based Image Editing via Multimodal Large Language Models
https://arxiv.org/abs/2309.17102

apple/ml-mgie
https://github.com/apple/ml-mgie

MGIEはMLLM-Guided Image Editingの略称で、画像内の物体の形状を変更したり、明度を編集したりするなどさまざまな画像編集タスクを行う事が可能です。MGIEは画像と自然言語の両方を扱うマルチモーダル大規模言語モデルであり、ユーザーは自然言語で指示するだけで良いとのこと。ユーザーの入力をベースに「表現豊かな指示」を生成することで、実際に編集を行うAIが適切な画像編集を行えるようになるという仕組みです。

MGIEを使用した編集の例は下図の通り。それぞれの画像ペアにおいて左が元の画像、右がMGIEの出力結果となっています。左上のピザの例では「make it more healthy(もっとヘルシーに)」と曖昧な指示をすると「The pizza includes vegetable toppings, such as tomatoes and herbs(トマトやハーブなどの野菜がトッピングされたピザ)」という詳細な指示が生成され、野菜のトッピングが追加されました。右上の画像編集の例では「remove the woman in the background(後ろの女性を削除して)」と指示するとその通りになっています。そのほか、画像の明度を上げたり画像内のPCの表示内容を変更したりすることも可能とのこと。

従来の手法である「InsPix2Pix」「LGIE」との比較はこんな感じ。左端の「Input Image」が入力データであり、右端の「Ground Truth」は正解データとなっています。ちゃんと雷を表示したり、クリスマスツリーを消したりするなどMGIEが一番指示通りに編集できていることが一目瞭然です。

MGIEモデルはLLaVAからの差分ウェイトとして商用利用不可のCC-BY-NCライセンス配布されています。そのため、MGIEモデルを使用するにはLLaVAのライセンスにも従う必要があるとのこと。LLaVAのトレーニングにはCLIPLLaMAVicunaGPT-4が使用されているためこれらの規約にも従う必要があります。

以下のリンク先ではMGIEのデモが公開されており、実際にMGIEを使った画像編集を試すことができます。

MLLM-guided Image Editing (MGIE) - a Hugging Face Space by tsujuifu
https://huggingface.co/spaces/tsujuifu/ml-mgie

続きはこちらから👇

Appleが言語で指示するだけで写真を編集してくれる画像編集AIモデル「MGIE」をリリース、デモも公開されたので使ってみた - GIGAZINE
https://gigazine.net/news/20240208-apple-ml-mgie/
2024年02月08日

いつものように先頭ではなく 誰かがはじめたことを 後追いしブラッシュアップして「いかにもAppleが発明」したかのように宣伝をするアップル

今回のAIに関して米国巨大テック産業では最期に登場と言っていいだろう。

もちろん ターゲットは、iPhone アップルの売り上げの多くは、iPhoneに付加価値をつけるためと言っていいと思います。

なにしろ 次回のiPhoneはさすがにデザインも帰るだろう。

すでに機能だけではなく、デザインもAndroidOSに抜かれつつあるし、SiriもAIとして大きく遅れをとっている。

このテクノロジーをどうやってiPhoneに搭載してくるのだろうか?

楽しみですね。

以下のURLで試すことができるので興味のある人は挑戦してみましょう。

MLLM-guided Image Editing (MGIE) - a Hugging Face Space by tsujuifu
https://huggingface.co/spaces/tsujuifu/ml-mgie

 

独自ドメインがずっと無料!国内シェアNo.1

-今日のAI話
-, , ,

Copyright© IT小僧の時事放談 , 2024 All Rights Reserved Powered by AFFINGER5.