進化したAI「Google Pathways」とは!?
この記事では、Google PathwaysというGoogle社が発表した新しいAIについて解説します。
多くの人がスマートフォンやタブレット、PCに触れる機会があるとは思いますが、AIはすでにそれらを使う上で欠かせない技術となっています。
そのAI技術に大きな変革をもたらそうとしているのが、このGoogle Pathwaysです。
この記事を読むと以下の3つのことがわかります
①AI、機械学習とは
②Google Pathwaysと従来のAIの違い
③Google Pathwaysによってできること
Google Pathwaysとは、進化したAI?
GoogleのAI部門の責任者であるJeff Dean氏は、Google Pathways(以下Pathwaysと表記)とは「次世代のAIアーキテクチャ」であり、「1つのモデルで数千、または数百万ものことをするよう訓練できる」と表現しています。(※1)
今までのAIの機械学習では、入力された情報に対して一つの感覚によってしか理解ができませんでした。しかしこのPathwaysでは、入力された情報に対して複数の感覚によって理解ができるようになりました。
そもそもAI、機械学習とは?
ここで簡単に、AIと機械学習について説明したいと思います。
AIとはArtificial Intelligenceの略で、日本語では人工知能と呼びます。「人間の知的な振る舞いをコンピュータ上で再現する技術」と説明されるものです。
そして機械学習とは、「人間が持つ学習能力をコンピュータ上に再現する技術」と説明されます。学習用のデータを与えることで、コンピュータ自身が意思決定や予測を行えるようになります。
身近な例としては、SNSで自分向けのおすすめの投稿が表示されたり、検索ボックスに間違った言葉を入力しても正しい候補を表示してくれる機能(図1)などがあります。
これは、今までの閲覧履歴、入力履歴を読み取って(機械学習)、ユーザーが必要としている情報を予測・提案する(AIが知的に振る舞う)ことで可能となった技術です。
図1 Google Document での誤字の修正案の例
従来のAIについて
この機械学習の方法、過程に、従来のAIとPathwaysの大きな違いがあります。
従来のAIでは、与えられた学習データに対して、単一の感覚でしか理解ができませんでした。(※3)
例えば、「今、目の前の道を車が走っている」という事象があるとします。目に見える車という物体が動いていて、エンジン音を出していたとします。
AIはこの事象を、カメラで読み込めば画像として認識します。また、マイクを使って音としても認識できます。
しかし、従来のAIはこのようにして事象を画像や音といった感覚で理解できても、その二つは全く別のものとして処理されていました。正確には、画像を理解するAIと、音を理解するAIが別々になっていました。一つのAIでは、同時に両方の感覚で読み込み、一つの「概念」として認識できなかったのです。
人間であれば、その事象をみて「今、目の前の道を車が走っている」という概念を目と耳、そして自分の知識を通して理解できますが、従来のAIにとっては「車の画像」「車の音」という全く別のデータが存在するだけだったのです。
よって一つの事象を概念としてAIが認識することには限界があり、それも膨大な量のデータと時間が必要でした。その点が、AIの機能的な限界だとも言われていました。
しかし、これに大きな変革をもたらそうとしているのがGoogle Pathwaysです。
従来のAIとGoogle Pathwaysの違い
先ほど、従来のAIでは単一の感覚でしかデータを理解ができないという説明をしましたが、Pathwaysはこの点を克服しています。
つまり、与えられた学習データに対して複数の感覚で理解ができ、概念を認識することが出来ます。
先ほどの車の例であれば、画像、音声の情報が繋がった状態でPathways内に概念が形成されます。さらには「車」という音声(自然言語)を入力しても、Pathways内で車の概念を認識することが可能です。
従来の単一の感覚のみで理解するものを「モノモーダル」(monomodal:単一形式)に対して、複数の感覚で概念を理解できるものを「マルチモーダル」(multimodal:複数形式)と呼びます。
このマルチモーダルな仕組みは、実際に人間が複数の感覚(五感)を使って世界を認識することに似ています。
Pathwaysがこのようにして複数の感覚で事象をとらえることで、人間では考えられないような間違いが無くなるなど、AIの精度の向上が期待できます。
Pathwaysによってできることは?
マルチモーダルによって事象を捉えることができるので、今までは人間にしかできなかったような判断ができる可能性があります。従来のAIでは単一の領域に対する最適解のみで、その結果を複数の領域が絡み合う現場において、実際にどう扱うかの判断を下すのは人間でした。
しかし、一つの事象を複数の感覚でとらえ、その相互関係を考慮して全体的な最適解を導くことができるPathwaysであれば、最終的な判断も任せられる可能性もあります。
それどころか、コンピュータは人間が処理できない膨大な量のデータを処理することができます。よって気象力学や化学などの分野の、人間の科学者でも難しい天文学的な数値を扱うような場面においても、最適解を導き出せる可能性があります。
また、一つのAIで複数の感覚から理解した複数の情報を統合することで、要求されるタスクに対して従来のAIよりもより効率的に対処することができるとも言われています。
先述のようにAI内に概念が形成されるため、要求されたタスクに対して必要な情報のみを、複数の感覚から得た複数種類の情報の中からそれぞれピックアップすることができます。そしてその異なる感覚由来の情報同士を結びつけることで、最短経路のタスク処理が可能となります。つまり、ある領域においては感覚Aから得た情報a、ある領域においては感覚Bから得た情報bが最も必要で、その二つを結び付けてショートカットする、といったイメージです。(図2)
これによって従来のAIよりも必要となる情報量の密度が圧倒的に少なくなり、コンピュータの電力効率や速度が上がることが期待されています。(※3)そして、精度も同時に向上すると考えられます。
図2 Google Pathwaysのタスク処理のイメージ図(※4)
まとめ
ここまで、Google Pathwaysについて解説してきました。
Pathwaysはより人間の脳に近い処理ができるように進化していて、これからどのようなサービスが提供されるのか、社会はどう変わっていくのかがとても興味深いです。
それによって人間の仕事の範囲や内容も、大きく変わるかもしれません。
大手ゼネコンBIM活用事例と 建設業界のDXについてまとめた ホワイトペーパー配布中!
❶大手ゼネコンのBIM活用事例
❷BIMを活かすためのツール紹介
❸DXレポートについて
❹建設業界におけるDX
▼キャパの公式Twitter・FacebookではITに関する情報を随時更新しています!
参考URL
※1:クラウドWatch 「「Pathways」とは Googleが期待する次世代AI」
https://cloud.watch.impress.co.jp/docs/column/infostand/1364413-3.html
※2:allai.jp 「Googleが次世代のAIアーキテクチャ ”Pathways”を発表」
https://allai.jp/google-pathways/
※3:CNET 「グーグル、次世代のAIアーキテクチャー「Pathways」を発表–マルチタスクが可能に」
https://japan.cnet.com/article/35178824/
※4:Google 「Introducing Pathways: A next-generation AI architecture」
https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/