Googleアシスタントはマルチステップで賢く
音声認識のGoogleアシスタントにマルチステップが導入されました。「マルチステップって何だ?」と思われるかもしれませんが、複数の命令を同時に実行できる機能です。簡単のように思えますが、いままでGoogleアシスタントのコマンドでは、このことができませんでした。したがって待望のマルチステップ搭載といえます、
たとえば、従来は「今日はどんな日?」と聞いたとき、現在の時刻、現在地の気温や天気を回答していました。しかし、今後は朝起きて「今日はどんな日?」と質問したとき、ニュースや交通状況、カレンダーから今日やるべきことを読み上げる、あるいは同時にお気に入りの音楽を再生することなどのカスタマイズができるようになります。
アメリカから導入が始まったようですが、実際にどのようなことができるのか、先行しているAlexaも含めて音声認識の最新動向を探ります。
マルチステップで可能なこと
マルチステップはいわゆるルーチンで、あらかじめ設定した一連の動作を実行します。
当初は「Good Morning(起床)」、「Bedtime(就寝)」のほか、「Leaving home(外出)」、「I’m home(帰宅)」といった日常の基本的な活動、ビジネス関連では「Commuting to work(出勤)」や「Commuting home(退勤)」という6種類のルーチンが導入されるようです。
たとえば帰宅したときにGoogle Homeに「OK Google, I’m home」とコマンドを告げれば、Googleアシスタントに対応したライトが点灯し、テレビや音楽を再生できるようになります。なんとなく未来的な印象です。ひとり暮らしの生活には便利かもしれません。しかしながら、この夢のような世界を実現するには、照明やテレビがGoogleアシスタントに対応した機器であることが必要です。
eRemoteやスマートプラグ(コンセント)など、音声認識AIのコマンドに対応した製品は増えつつあります。しかし、Clovaを所有している個人的な印象からは、音声で部屋のライトを点けるために特別なコントローラーやコンセントを買うのはどうだろう?と懐疑的です。
製品が増えたとしてもまだイノベーティブなユーザーではなければ購入しないのではないのでしょうか。アメリカの大豪邸ならともかく狭い日本の自宅では「電気を点けて」という前に、目の前にあるスイッチを押した方が早いからです。
さらに最近、Clova WAVEに関していえば、最初に声をかけたときの反応が鈍くなったと感じます。2回目からはすぐに反応するのですが、3〜5回ほど「J-WAVEかけて」と声をかけなければ反応しないときがあります。機能が増えたせいか、音声認識のセンサーが劣化したのか、あるいは室内でワイヤレス通信が干渉しているせいなのか、理由は分かりません。
Google Homeであれば問題ないのかもしれませんが、マルチステップを実行するにしても動作が軽いことが条件になるはずです。あるいは何度声をかけても反応がなければ、かえってストレスになります。
Alexaはマルチステップができていた
ところで、さまざまな音声認識がありますが、このマルチステップの機能はGoogleよりも早くAmazonのAlexaが2017年9月に発表し、翌月には使えるようになりました。GoogleはようやくAmazonに追いついた形です。
2018年3月30日にAmazonは日本の「Alexaスキルストア」を開始しました。3月の時点では、20のジャンル、600以上のスキルが公開、販売されています。複数のトリガーワードによる定形アクション機能、つまりGoogleアシスタントのマルチステップになる機能にも人気が集まっているようです。今後スキルがアプリのように身近になり、サードパーティーによるスキル開発も進展するのではないかと予測されます。
現在日本では実装されていませんが、Alexaには連続した会話ができる「Context Across Turns」という機能もあります、これは「美術館の場所を教えて」「住所は◯◯になります」「そこまで行くにはどうやって行けばいい?」「ルートを表示します」のような対話が可能になります。
まとめてルーチンを実行することも便利ですが、連続した対話で知りたい情報や行動を決めていくことにも意義があるのではないでしょうか。音声認識によるサービスは確実に成長しています。
テレパシーの時代は来るのか
ところで、話題になったのでご存知の方も多いかもしれませんが、マサチューセッツ工科大学(MIT)は、4月4日に発話しなくても頭の中でしゃべるだけで音声認識ができるシステムを発表しました。「AlterEgo」です。
右から顎にかけてウェアラブルデバイスを装着し、このデバイスによって人間がしゃべるとき、言葉を思い浮かべたときに流れる微弱な電気信号を検出。ニューラルネットワークを通して単語に変換されるそうです。10人の被験者で実験したところ、約92%の平均認識精度だったという驚くべき結果です。
このようなデバイスがあれば、発話しなくても装着したウェアラブルデバイスから直接スマートホーム内のIoTと通信し、デバイスどうしと対話もがきるかもしれません。そんな未来が実現したら楽しそうです。