Siriに向かって
「ゼルタクスセイアン」
なんて話している人は、今でもいるのでしょうか?
iPhoneに搭載されている音声認識プログラム「Siri」を相手に
「AIは、こんなこと言っているぞ」
とドヤる芸人が登場していたバラエティ番組は、イーロン・マスクやマーク・ザッカーバーグも取り上げていて「エンターテーメント」として面白かった。
ところであの番組 信じている人
いないよね!
今回のIT小僧の時事放談は、
オンデバイス音声認識搭載のGoogle Assistantの凄さに期待 【Google I/O 2019】On-Device Speech Recognizer
スポンサーリンク
目次
音声認識は、宇宙大作戦からはじまった
音声認識と言えば、齢57歳のIT小僧は、「宇宙大作戦(スタートレック)」でしょう。
カーク船長 率いる U.S.S. Enterprise NCC-1701という宇宙船で宇宙を冒険するドラマです。
※カーク船長 =ジェームズ・タイベリアス・カーク(James Tiberius Kirk)(2233年3月22日 - 2293年/2371年)
特撮技術は、古臭くて時代遅れなこともありますが、インターネットどころかパソコンもない半世紀以上前のSFドラマですから、そこは、レトロな気分を楽しむ余裕を持ちましょう。
しかし、登場人物設定、時代設定、社会構造、倫理観そしてストーリーが、凝っていて最近のドラマ以上の面白さがあります。
そこで登場したテクノロジーで注目すべきは、宇宙船、通信機(トリコーダー)、転送装置そしてコンピューターです。
声で操作するコンピューター
「宇宙大作戦(スタートレック)」に登場するコンピューターは、キーボードがありません。
音声で命令を行います。
「コンピューター ドクター・マッコイは、どこにいるかね?」
という 「コンピューター」というキーワードでコンピューターと会話を始めます。
しかも、船内のどこにいてもコンタクトが取れるようになっています。
[amazonjs asin="B002BH4U56" locale="JP" title="スタートレック TOS 宇宙大作戦 U.S.S.エンタープライズNCC-1701"]
Amazon Echoの技術者に拍手
「宇宙大作戦(スタートレック)」に登場するコンピューターは、
「アレクサ」
「OK グーグル」
「へい シリ」
などのウェイクワード(WakeWord)でコンタクトをとるスマートフォンやスマートスピーカーと同じ仕様になっています。
AmazonのEchoというスマートスピーカーは、「アレクサ」というワードを「コンピューター」に変更できるというトレッキーの心をくすぐる演出が用意されています。
※トレッキー:スタートレックマニアのこと
Amazonの技術者は、「宇宙大作戦(スタートレック)」を見ていた子どもたちが、設計したに違いない。
少し脱線しましたが、音声認識というテクノロジーの歴史は、ドラマになるぐらいから古く、同時にAI搭載のコンピューターの概念もSFのクリエーター達は、未来を見通していました。
まさか、それらのテクノロジーがIT小僧が生きている間に実現するとは、
「素晴らしい時代に生まれてきたと感謝したい気持ちです」
[amazonjs asin="B07934NYFN" locale="JP" title="Echo Show (エコーショー) 第2世代 - スクリーン付きスマートスピーカー with Alexa、チャコール"]
iPhoneのSiri
「宇宙大作戦(スタートレック)」から40年ほど経過
音声認識「Siri」を搭載したiPhoneが登場
これは、おもしろかった。
「へい Siri」とか、
かっこ悪いウェイクワードは、置いておいて
冒頭のバラエティ番組で使われたようなネタ的な使われ方や、iPhone音楽再生のコントロールぐらいしか使いみちがなかった。
「音声を解析してコマンドに置き換えてiPhoneを動作させる」
程度でアシスタントと呼べるレベルには程遠いレベルのまま止まっています。
結局「iPhoneのおまけ」でしか考えていなかったんでしょう。
非常にもったいない。
※Siriを開発した会社は、Apple社に買収された後、エンジニアが離脱したことも影響があると思います。
Apple社が、停滞している間にMicrosoft、IBM、AmazonそしてGoogleが、AIを全面に押し出した音声認識を開発
パソコン、スマートスピーカー、スマートフォンに搭載さえ、今では、音声認識は、さほど珍しいことでは、なくなった。
これらの音声認識システムは、AI、システムの大きさから、ほとんどが、クラウドなどで動作していました。
マイクで「ウェイクワード」を拾うとその後クラウドに音声を送り、そこで解析してデバイスに戻す。
というものが一般的です。
でもこの場合だと、ネットワークに必然でスピードに遅延が発生したり、コマンドが行方不明になることが度々発生します。
AmazonのEchoでも時々
「よくわかりません」
などとツンデレな返答が返ってくることがあります。
オンデバイス音声認識搭載
「Google I/O 2019」というGoogleが発表した音声認識は、これまでの常識をくつがえすものでした。
簡単に言えば
「音声認識をスマートフォンなどのデバイス側で実行できる技術」
つまり、クラウドにわざわざ音声を送らなくても手元のスマートフォンで完結してしまう技術です。
音声認識ソフトウェアのサイズは、クラウド上で約2GBでスマートフォンにインストールするのは、結構難儀です。
これを同じ性能で80MBで実現することに成功、約25分の1に圧縮することでスマートフォンやスマートスピーカーに音声認識システムを搭載することが可能となる。
※自然言語処理の分野で高い成果を挙げている「再起型ニューラルネットワーク(RNN)トランデューサー」と呼ばれています。
この
「今までの10倍以上高速なレスポンスが期待できる」
という仕組みをGoogleは
「オンデバイス音声認識」(On-Device Speech Recognizer)
と呼んでいます。
この「オンデバイス音声認識」により
「OK Google」などのウェイクワードの反応もよくなるのは、当然ですが、
音声認識の遅延が、なくなると いろいろなことが実現できるようになりそうです。
Live Caption
端末で再生される「音声の字幕化機能」の紹介がありまさひた
ほぼリアルタイムで音声認識ができることで
動画、ポッドキャスト、ラジオなど どんなメディアでもリアルタイムで自動的に字幕に変換してくれることが可能
詳しくは、YouTubeを見てください。
ごく自然に字幕が出てくるようですね。
デバイス側で処理が完結するということは、機内モードでも使えそうです。
この機能は、近いうち(今年中)に搭載されそうです。
さらに別のアピールも大きいようです。
セキュリティ
2018年、主にGDPRが中心になって「独占禁止法」や「個人情報」でGoogleに「いちゃもん!」失礼
「抗議」を行い、司法に訴えて賠償金を請求しています。
個人情報は、Appleが盛んに宣伝していますが、iCloudというクラウドを使っていいる以上、多かれ少なかれ個人情報の収集は行わえています。
インターネットの数々のサービスは、個人情報や広告を見るという行為の代金を支払うことで、無料で使える仕組みになっています。
これに対して文句を言うのなら、マップもカレンダーもGmailも使わずに電波の届かない孤島で暮らすしかありません。
今回、「Google I/O 2019」では、盛んにセキュリティについて訴えているようで
「オンデバイス音声認識」は、音声をクラウドに送らないことでセキュリティが守られるということも発言しています。
Google Assistant急成長の予感
昨年、「Google I/O 2018」のデモでは、AIが、あらかじめ与えられたスケジュールに沿って
Android端末のAssistantが、美容院に電話をかけて、電話の向こうの人と会話をしながら予約を行うという デモを発表しました。
人とAIが、極自然な会話をするというプロジェクトは、現在 米国で試験中です。
今回、「Google I/O 2019」のデモでは、さらに人との会話をすることができることをアピールしました。
毎回「OK、Google」というウェイクワードを言う必要がなく、自然な会話をGoogle Assistantと交わすデモが実演されました。
詳しくは、YouTubeを見てください。
22:30からのデモを見てください。
特に以下の時間に注目 素晴らしいデモを見ることができます。
23:30-24:10
25:00-27:00
何よりもライブであったというところが素晴らしい。
まとめ
「コンピューター 宇宙日誌補足」
「いつになったら スタートレックのようなコンピューターに追いつくのかね?」
Google AssistantやAmazone Echoは、教えてくれるでしょうか?
「オンデバイス音声認識」(On-Device Speech Recognizer)というアドバンテージは、AmazonやMicrosoftに大きな差をつけたことになります。
次は、スマートスピーカーの最大シェアを誇るAmazon Echoが、どのようなテクノロジーを出して対抗するか楽しみになりました。
参考資料
「オンデバイス音声認識」について
Google AI Blog: An All-Neural On-Device Speech Recognizer
https://ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html
スポンサーリンク