Metaがオープンソースで公開したマルチモーダルAI「ImageBind」とは？その真価に迫る

2023.11.02

FacebookやInstagramといったSNS運営で知られる世界的テック企業のMetaは、近年メタバース領域やAI開発の領域での活躍でも知られています。そんな同社が新たに発表したマルチモーダルAIの一種である「ImageBind」は、AI運用のあり方をアップデートしたり、AI開発そのものを加速させる可能性があったりするということでその動向に期待したいところです。

この記事では、Metaが新たにオープンソースで公開しているAIであるImageBindについて、その概要や強み、そして同社のAI開発の今後について解説します。

マルチモーダルAIとは
MetaのオープンソースAI「ImageBind」とは
ImageBindで何ができるのか
ImageBindとマルチモーダルAI開発の今後

マルチモーダルAIとは

そもそもマルチモーダルAIとは、複数種類のデータを関連付けながら処理を実行できる、単一のAIのことを指します。

通常のAIの場合、一つのAIにつき一つのデータというのが一般的であり、異なる種類のデータ、つまり音声や画像、文字、数字といった情報をまとめて処理することはできませんでした。

しかしマルチモーダルAIではこれらのデータをまとめて一つのAIで処理し、関連づけられるようになっているため、単一のAIで複数のタスクを実行させることができたり、実行結果のクオリティを高めることができたりします。

特定領域に特化した専門AIがAI活用の要となっていますが、マルチモーダルAI開発が進むことで、あらゆるタスクに対応可能な汎用AIの登場も、大きく前進することが期待されている技術です。

MetaのオープンソースAI「ImageBind」とは

マルチモーダルAIは開発途上のテクノロジーではありますが、2023年5月にMetaが新たに発表した「ImageBind」は、マルチモーダルなデータを処理できるAI、つまり複数種類のデータを関連付けられる機能を備えたAIモデルです*1。

そもそもAI学習の現場で、複数のデータを関連づけてインプットさせるということは、従来の機械学習手法でもよく行われていました。例えば正解の画像データに正解のタグをテキストで貼り付け、そうでない画像データには不正解のタグを関連させることで、AIは効率的に画像データを学習し、正誤判定を高い精度で、かつスムーズに身につけられるようになっていたのです。

ImageBindのようなマルチモーダルAIは、このようなデータ間の関連づけをより高度に行える点が高く評価されています。例えば画像データに対してこれまで通りテキストのデータを紐づけるのはもちろん、音声や3D深度、熱、動きといった要素のデータを関連づけることで、さらに画像データを多面的に解釈できるようになりました*2。

このような学習が可能になったことで、AIは一つ一つのデータを大量のリソースを使って解釈しなくとも、最小限のトレーニングで無駄なく学習し、判断内容にも柔軟性を持たせられるようになったということです。

ImageBindで何ができるのか

ImageBindをAI開発の現場に取り入れることで、具体的に何が可能となったのでしょうか。ポイントとしては、

コストパフォーマンスに優れたAI開発
オープンで発展性に優れたAI開発

といったメリットが期待できる点にあります。

コストパフォーマンスに優れたAI開発

ImageBindが優れている点として、まずオープンソースの無料のAIモデルということが挙げられるでしょう。多くのAIモデルは企業が独自に開発し、第三者が利用するにあたっては制限も大きいものですが、ImageBIndについてはその限りではありません。

誰でも無料で利用できるオープンソースモデルのため、マルチモーダルAIという最新技術が広く開かれ、一からAIを開発するコストを削減することができます。

また、上でも触れたようにマルチタスクでのデータ処理ができるImageBindは、学習に必要なリソースを小さく抑えられるため、膨大な開発リソースを用意しなくともAI開発を効率よく進められる可能性を秘めています。高度なAI開発には巨大なデータセンターが必須とも言えるのが現状ですが、マルチモーダルAIの活用により、こういった設備投資コストも抑えられるかもしれません。

オープンで発展性に優れたAI開発

ImageBindがオープンソースで開発を行える学習モデルであるということは、グローバルに開発コミュニティを形成し、AI開発や研究を従来よりも高速で進められる可能性を秘めています。

一般的な最先端のAI研究の多くは、企業がドメスティックに行うというものが大半であり、テクノロジーの大半がベールに包まれているケースも珍しくありません。しかしオープンソースのImageBindはその運用からトラブルシューティングまでを開かれた環境で実施するので、広くノウハウが共有され、世界の開発者が協力しながら問題解決に取り組めるのが強みです。

オープンソースのAI開発は近年注目を集めている分野であり、企業が独自に開発するよりも効率的であるメリットが高く評価されています。