Metaが開発した画像認識技術「Segment Anyting」とは何か

2024.03.22

投稿者: chiebo

　メタバースという新たなフィールドへ大きく舵をとり、社運をかけて莫大な投資をしたものの、未だに活路を見いだせていない「Meta（旧Facebook）」。自動運転車やAR技術の開発など、迷走しているようにも見えます。しかし、技術力・開発力に関しては、世界トップクラスであることは間違いないようです。
　今回は、Metaが2023年4月に発表した画像セグメンテーション技術「Segment Anything」について見ていきましょう。

この記事でわかること
　・Segment Anythingの機能と特徴
　・画像セグメンテーション技術の活用場面
　・Metaはどこへ向かっているのか

「Segment Anything」の機能と特徴について

　「Segment Anything」は、Metaが2023年4月に発表した新たな画像セグメンテーションモデルです。1,100万枚のライセンス画像、110万枚の高品質セグメンテーションマスクデータ、10億以上のマスクアノテーションで訓練されたモデルです。

　「アノテーション」とは、画像や動画、音声、テキストといったデータから、抽出したい対象を選択し属性をタグ付けすることで、訓練用の教師データを作成することです。このデータの品質が、セグメンテーションの精度を大きく左右します。

　「セグメンテーション」とは、画像に写っている対象物を識別し、パーツごとに切り分ける技術のことをいいます。一枚の写真から車や人、道路などを区別して正しく認識することができます。

　画像認識の技術にはいくつかのカテゴリーが存在します。

　「画像分類（classification）」と呼ばれるものは、画像に何が写っているのかを判断し、画像ごとに分類する技術です。大量の画像データを「風景写真」とか「人物写真」とかに分類・整理するような用途が考えられます。

　また、より詳細に1枚の画像の中で、どこに何が写っているかを抽出する技術を「画像検出（detection）」といいます。「この画像には車と人物が写っています」など、判別することが可能です。さらに、その場所も特定することができますので、自動運転車の目として活用するなどの用途に適しています。

　さらに進んで、対象となる物体それぞれの領域まで、正確に区分することができるのが「セマンティック・セグメンテーション（Semantic Segmentation）」です。画像加工アプリを使っている人であれば、人物だけを選択するツールなどが近いイメージなのかもしれません。AIによって、それぞれの対象が何なのかを判断・分類してくれます。

　「セマンティック・セグメンテーション」は非常に強力な機能を持っていますが、教師データの作成が複雑で、構築するのが大変だという欠点があります。
　Metaの「Segment Anyting」では、ユーザーがこのような教師データを構築する必要がなく、簡単に利用することができるという特徴を持っています。

　「Segment Anyting」では、学習されてない全く新しい種類の画像に対しても、特別な教師データを構築せずに利用できることが画期的とされています。これを「zero-shot-segmentation」といい、画像セグメンテーションの民主化を実現することができると、Metaは高らかに宣言しました。

　画像認識の初期の段階では、近似する色などをひとまとまりのグループとして捉える程度のことが精一杯でした。しかしAIの発達に伴い、対象となる物体の形状を区別して分類し、タグ付けをすることができるようになっています。
　さらに進んで、3D的に切り出したりすることも可能となり、応用範囲が拡大しています。

　「Segment Anyting」のライセンスはApach2.0であり、研究目的に限って利用が許可されています。2023年4月の発表から数ヶ月も経たないうちに、関連する研究が数多く発表されており、この技術の注目度がわかります。*注1

画像セグメンテーション技術の活用場面

　では画像セグメンテーション技術は、どのような場面で応用されるのでしょうか。

◯自動運転車

　自動運転車はセンサーで捉えた外部情報を画像解析し、リアルタイムで対象物を判断しながら運転を制御していきます。道路の領域や障害となるもの、人物や他の車など多くの情報をAIが判断しながら、適時車両をコントロールすることで自動運転を実現します。
　画像解析技術の進化は、自動運転の実現に欠かせないものの一つです。

◯設備や建造物の障害などを検知する

　設備や建造物の定期点検などの際、熟練の技術者が実際に目視確認することは日常的に行われています。これを画像解析技術を使って代替できれば、危険を伴うような作業を軽減しながらコストや工数を削減することができます。
　表面の形状の変化、サビやひび割れの検出、異物などの検出へ応用が期待されます。

◯医療分野への応用

　レントゲン画像や内視鏡で撮影した画像などを見て、腫瘍の有無などを判断するのは知識と経験を持つ医師の領域でした。しかし、大病院などで大量の画像データを扱い、一つのミスもなく完璧に読み取るのは困難を伴います。
　医師や技術者のスキルに頼るのには限界があり、このような分野へのAIの活用が待たれます。画像解析技術を最も必要としている分野と言っても良いでしょう。

　ここで紹介した以外にも、Webサイトの解析や製造業における品質チェック、ロボット関連など多くの分野で必要とされています。
　人間が視覚情報をメインに活動をしていることから、画像解析技術とAIが私たちの生活や産業に応用できるのは至極当然でしょう。「見る・判断する・行動する」という一連の流れを、AIが効率よく肩代わりしてくれる未来がもうすぐ到来するのではないでしょうか。*注2

Metaはどこへ向かっているのか？

　ところで「Meta」って何の会社でしたっけ？
　世界最大のSNSに成長したFacebookで創業しInstagramを傘下にするなど、「SNSサービスを中心とし、広告収入を主な収益源としている」企業です。現在はSNSの次のプラットフォームとして、メタバースの実用化に社運をかけて取り組んでいます。

　SNSを生み出し、普及させてきたMetaですが、実名登録が要求されるFacebookを好まないユーザーも一定数います。さらに、X（twitter）のように気軽に利用できるものや、LINEのように特定の地域で活発に利用されているコミュニケーションツールなども根強い人気を持っています。
　Metaは、すでに飽和してしまい根本的な進化が見込めないFacebookに依存するビジネスモデルに、強い危機感を感じているのでしょう。

　このような事情からMetaは、ゲーム分野へ積極的に投資し、ARゴーグルなどのプロダクトを発売するといった新たな領域を開拓してきました。現在は、新たなコミュニケーションプラットフォームとしてのメタバースに活路を見出し、創業以来の社名を変えるほどの情熱で取り組んでいます。

　しかし、大々的にアナウンスし、一時は時代のトレンドとも言える話題を集めてはいたものの、思ったよりもユーザーを確保できず失速した感は否めません。
　Metaとしては、メタバースをより魅力的なプラットフォームにすることが最重要課題であり、そのために周辺技術をブラッシュアップしていくことが必須です。

　ARゴーグルを装着した状態で、リアル空間からセンサーで取得した情報をリアルタイムで解析・データ化する。そのためのAIの開発と、画像解析技術の向上はとても重要です。
　このような技術の開発と実装によって、メタバース空間とリアル空間を融合させた新たなプラットフォームへの道筋が開くのではないでしょうか。

　もちろんMetaが開発した「Segment Anyting」は画像解析の基礎技術ですから、応用範囲は広く、何もメタバースに限られるものではありません。
　AppleがApple Watchでフィットネス分野へ進出してきたように、Metaも新しい技術開発をテコにして、コミュニケーションプラットフォーム以外のビジネスを立ち上げる可能性も充分にあります。

　どちらにしても、AI・画像解析は今後のIT業界にとって欠かせない技術であり、世界中の技術者がしのぎを削っている分野であることは間違いありません。
　生成系AIが2023年のトレンドとなりましたが、今後はより多くのアプリケーションとして登場し、私たちの生活や社会を大きく変えていくことでしょう。

【まとめ】
　世界最大のSNSプラットフォームを有し、莫大な広告収入を得ることで安定した収益を上げているMeta。潤沢な資金を武器に、有望なベンチャー企業の買収や、最先端技術の開発などにも積極的に取り組んでいるIT業界の巨人です。
　しかし、10年後、20年後を見据えると、果たしてFacebookがその地位を維持しているかどうか不透明です。

　若くして起業し、誰もが憧れる成功を手にした創業者のザッカーバーグは、今、意外にも苦しんでいるのかも知れません。
　Metaの今後はここ数年の取り組みによって、新たなビジネスモデルに結実するかどうかにかかっています。それがメタバースになるのか、何か他の新たなプロダクトやサービスになるのかは、まだ判然としていません。