Metaがオープンソースで公開したマルチモーダルAI「ImageBind」とは?その真価に迫る
FacebookやInstagramといったSNS運営で知られる世界的テック企業のMetaは、近年メタバース領域やAI開発の領域での活躍でも知られています。そんな同社が新たに発表したマルチモーダルAIの一種である「ImageBind」は、AI運用のあり方をアップデートしたり、AI開発そのものを加速させる可能性があったりするということでその動向に期待したいところです。
この記事では、Metaが新たにオープンソースで公開しているAIであるImageBindについて、その概要や強み、そして同社のAI開発の今後について解説します。
目次:
- マルチモーダルAIとは
- MetaのオープンソースAI「ImageBind」とは
- ImageBindで何ができるのか
- ImageBindとマルチモーダルAI開発の今後
マルチモーダルAIとは
そもそもマルチモーダルAIとは、複数種類のデータを関連付けながら処理を実行できる、単一のAIのことを指します。
通常のAIの場合、一つのAIにつき一つのデータというのが一般的であり、異なる種類のデータ、つまり音声や画像、文字、数字といった情報をまとめて処理することはできませんでした。
しかしマルチモーダルAIではこれらのデータをまとめて一つのAIで処理し、関連づけられるようになっているため、単一のAIで複数のタスクを実行させることができたり、実行結果のクオリティを高めることができたりします。
特定領域に特化した専門AIがAI活用の要となっていますが、マルチモーダルAI開発が進むことで、あらゆるタスクに対応可能な汎用AIの登場も、大きく前進することが期待されている技術です。
MetaのオープンソースAI「ImageBind」とは
マルチモーダルAIは開発途上のテクノロジーではありますが、2023年5月にMetaが新たに発表した「ImageBind」は、マルチモーダルなデータを処理できるAI、つまり複数種類のデータを関連付けられる機能を備えたAIモデルです*1。
そもそもAI学習の現場で、複数のデータを関連づけてインプットさせるということは、従来の機械学習手法でもよく行われていました。例えば正解の画像データに正解のタグをテキストで貼り付け、そうでない画像データには不正解のタグを関連させることで、AIは効率的に画像データを学習し、正誤判定を高い精度で、かつスムーズに身につけられるようになっていたのです。
ImageBindのようなマルチモーダルAIは、このようなデータ間の関連づけをより高度に行える点が高く評価されています。例えば画像データに対してこれまで通りテキストのデータを紐づけるのはもちろん、音声や3D深度、熱、動きといった要素のデータを関連づけることで、さらに画像データを多面的に解釈できるようになりました*2。
このような学習が可能になったことで、AIは一つ一つのデータを大量のリソースを使って解釈しなくとも、最小限のトレーニングで無駄なく学習し、判断内容にも柔軟性を持たせられるようになったということです。
ImageBindで何ができるのか
ImageBindをAI開発の現場に取り入れることで、具体的に何が可能となったのでしょうか。ポイントとしては、
- コストパフォーマンスに優れたAI開発
- オープンで発展性に優れたAI開発
といったメリットが期待できる点にあります。
コストパフォーマンスに優れたAI開発
ImageBindが優れている点として、まずオープンソースの無料のAIモデルということが挙げられるでしょう。多くのAIモデルは企業が独自に開発し、第三者が利用するにあたっては制限も大きいものですが、ImageBIndについてはその限りではありません。
誰でも無料で利用できるオープンソースモデルのため、マルチモーダルAIという最新技術が広く開かれ、一からAIを開発するコストを削減することができます。
また、上でも触れたようにマルチタスクでのデータ処理ができるImageBindは、学習に必要なリソースを小さく抑えられるため、膨大な開発リソースを用意しなくともAI開発を効率よく進められる可能性を秘めています。高度なAI開発には巨大なデータセンターが必須とも言えるのが現状ですが、マルチモーダルAIの活用により、こういった設備投資コストも抑えられるかもしれません。
オープンで発展性に優れたAI開発
ImageBindがオープンソースで開発を行える学習モデルであるということは、グローバルに開発コミュニティを形成し、AI開発や研究を従来よりも高速で進められる可能性を秘めています。
一般的な最先端のAI研究の多くは、企業がドメスティックに行うというものが大半であり、テクノロジーの大半がベールに包まれているケースも珍しくありません。しかしオープンソースのImageBindはその運用からトラブルシューティングまでを開かれた環境で実施するので、広くノウハウが共有され、世界の開発者が協力しながら問題解決に取り組めるのが強みです。
オープンソースのAI開発は近年注目を集めている分野であり、企業が独自に開発するよりも効率的であるメリットが高く評価されています。
ImageBindとマルチモーダルAI開発の今後
ImageBindは現状、6つのデータ領域を統合することを目的として開発されましたが、今後はこのデータの数をより広く、深くしていくことでさらなるポテンシャルを追求することができるとしています。
Metaが注目しているのは特に人間の感覚と結びついたデータ領域で、触覚や嗅覚、脳のfMRI信号など、いずれも人間中心のAIモデル構築に役立つものです*3。こういったデータの取り込みが実現すれば、より人間の感性に基づいた、極めて質の高いアウトプットができるAIの登場を加速させるかもしれません。
また、マルチモーダル研究そのものも最新のAI領域ということもあり、その研究開発ノウハウも発展途上の段階にあります。ImageBindそのものの技術発展はもちろん、ImageBindを基軸としたマルチモーダルAI開発のさらなる発展にも注目したいところです。
まとめ
この記事では、Metaが新たに公開したオープンソースのマルチモーダルAIであるImageBindについて紹介しました。ImageBindはデータを多面的に分析できるポテンシャルを秘めており、最小限のリソースで高度なアウトプットを実現したり、AI開発そのものを世界で加速させる可能性を秘めています。
今後の研究開発次第で、私たちの利用するAIサービスにも大きなアップデートが行われるきっかけにつながるかもしれません。
大手ゼネコンBIM活用事例と 建設業界のDXについてまとめた ホワイトペーパー配布中!
❶大手ゼネコンのBIM活用事例
❷BIMを活かすためのツール紹介
❸DXレポートについて
❹建設業界におけるDX
出典
*1 ITmedia NEWS「Meta、マルチモーダルAI「ImageBind」をオープンソース化」
https://www.itmedia.co.jp/news/articles/2305/10/news087.html
*2 GIGAZINE「文字・画像と映像・音・3D深度・熱・動作を統合して現実世界を理解できるAI「ImageBind」をMetaがオープンソースで公開」
https://gigazine.net/news/20230510-meta-ai-imagebind/
*3 上に同じ