1. TOP
  2. ブログ
  3. Metaがオープンソースで公開したAudioCraftとは

Metaがオープンソースで公開したAudioCraftとは

今年IT関連で話題をリードしているのは、なんといっても「生成系AI」ではないでしょうか。ChatGPTを代表として、AIが絵を描いたり、音楽を作成したり。人間にしかできないとされていたクリエイティブな分野へと、次々に進出してきました。
今回の記事では、Meta(旧Facebook)が公開した、音楽生成AI「AudioCraft」について触れていきましょう。

この記事でわかること
 ・AudioCraftの概要
 ・Metaはなぜオープンソース化したのか
 ・Metaはどこへ向かうのか

Metaがオープンソースとして公開したAudioCraftの概要

ChatGPTは、テキストプロンプトに質問を入力すると、膨大なデータから平均的な回答を作成し、自然言語で回答してくれるAIサービスです。そのあまりに「自然な」やりとりから、AIの進化はついにここまできたのか!と大きな話題を集めました。

ChatGPT以外にも、大まかなイメージを伝えると絵を生成してくれるAIや音楽を作成してくれるものなど、人間の感性や発想が必要と思われる分野にまで進出しています。
 2023年8月には、Metaが新しい音楽生成AI「AudioCraft」をリリースするなど、今現在、最もホットな分野となっています。

Metaの「AudioCraft」もChatGPTと同様に、テキストプロンプトに「こんな音楽を作成して欲しい」と要望を入力するだけで、音楽や音声を生成してくれます。オープンソースで公開されており、これまでの類似サービスに比べて、より高品質でリアルな音楽と音声を生成できると紹介されています。

Metaによると、「これまでの音楽生成AIは複雑で高度なため、一般の人が気軽に利用できる状態になってない。AudioCraftはこの部分を改善し、より多くの人に簡単な操作で利用され、しかも高い品質の音楽や音声が得られるようにしている」とのことです。

利用場面として、プロのミュージシャンが新しい作曲をする場面や、ゲームのサウンドエフェクト、インスタグラムなどで使うサウンドトラック生成などが紹介されています。
確かに私たちの身の回りには、数秒から数十秒程度の「ちょっとした」音楽が溢れています。これらの作曲がAIで簡単にできるようになれば、非常に便利になるはずです。

「AudioCraft」は、MusicGen・AudioGen・EnCodecの3つの機能で構成されています。MusicGenがテキストから音楽(メロディ)を生成し、AudioGenはサウンドエフェクトなどを生成する機能を持っています。EnCodecは2022年にMetaがリリースした機能で、AIを使って音声データを圧縮する技術です。MP3と比較して約10倍の圧縮率を持ちながら、品質を維持することが可能と紹介されています。

さて、本来であればここで「AudioCraft」がなぜ、他のサービスと比べて優れているのか、どんな新しい技術が使われているのかについて紹介すべきなのでしょう。しかし、その内容は非常に高度で専門的であり、この記事の取り扱える範囲を大きく超えてしまいます。
「残差ベクトルの量子ボトルネック」という用語が理解できる方であれば、もう少し専門的な記事を検索してみると良いでしょう。

ここで言えることは、Metaが開発していたEnCodecが「かなり良い働き」をしているようで、他の同様のサービスと比べて高い品質の音楽や音声の生成を実現しているという部分までです。

このような生成系AIで重要な要素は、どのくらいのデータを学習に使用したかという「物量」になります。Metaはこれについても紹介しており、MusicGenでは約40万件(2万時間に相当する音楽データ)を使ってトレーニングしているとのことです。
これらのデータはMetaに所有権があるか、またはライセンスを受けたものであり、著作権に関する問題はクリアしています。

ChatGPTは、ネット上にある多種多様の情報をトレーニングソースとして利用しており、生成された文章が著作権に関してクリアしているのか微妙でした。また、文章の場合は、正しいかどうかも確認する必要があるなど、そのまま利用するには一定の配慮が必要です。

しかし、全てのトレーニング用データが著作権問題をクリアしており、「正しいかどうか」の確認が不要である音楽生成AIならば、得られた結果をそのまま利用することができるでしょう。
もちろん、「たまたま既存の音楽と似ている」ということは発生するかもしれませんが。*注1

Metaはなぜオープンソース化したのか

このような新しい技術のコア部分は、できる限り秘匿して会社の大切な知財として守るのが一般的でしょう。営利企業にとっての生命線であり、生馬の目を抜くような厳しい競争を生き抜いていくためには必要不可欠なことです。
しかし、Metaはこのようなスタンスを取らず、GitHub上でオープンソースとして公開することにしました。

その理由についてMetaは、「自社で行っているトレーニングだけでは、偏りがあり、広く公開することで、もっと改善していくことを目標としている」といった説明をしています。機械学習やAIの知識を持つ多くの人の手によって、「AudioCraft」がブラッシュアップされることを期待しています。

今後はさらなる、「スピードアップ」「効率の向上」「モデル制御の改善」を目標として掲げており、オープンソース化することでそれらの実現を加速しようという思惑です。
世界中に存在する数万・数十万の技術者が、24時間・365日改善に取り組んでくれる。このことにより、自社内で数十人単位の専門家チームを組むよりも、はるかにスピーディにブラッシュアップが進むはずです。

Metaとしては、このように物量が要求される部分を、オープンソース化することで解決していき、その成果をどうやってビジネスに利用するかを考えれば良いのです。このことは企業の持つ性格にも関係しているかもしれません。

Metaの創業者であるザッカーバーグは、一人で初期のFacebookをゼロから構築した生粋のエンジニアです。超がつくハッカーの一人であり、これがMetaのスタンスにも大きく影響しています。
一方、Appleの創業者であるジョブズは、おそらくまともなコードも書けないはずです。プロダクトデザインも自分ではできません。
ジョブズは、産業史に残るのが確実である事業家であり、ビジョナリーとして多くの人から尊敬される存在ではありますが、ザッカーバーグとは対照的です。
現在のAppleのCEOであるクック氏も、流通・調達分野で長く活躍してきた人であり、エンジニアではありません。このような違いもあって、Appleはコア技術に関しては徹底した秘密主義を取り、Metaはオープンソース化に積極的というスタンスを取ることが多いようです。

もちろん、ビジネスモデルの違いも大きく影響しています。しかしその点についても、それぞれの企業がそのビジネスモデルを構築した要因が、創業者の性格や技術背景に大きく依存しているという見方もできるでしょう。*注2

Metaはどこへ向かうのか

Metaといえば、2022年ごろからメタバース関連の話題でよく登場してきました。会社名をMetaに変えるほどの入れ込みようです。
Metaの主力サービスは、世界最大のSNSであるFacebookです。しかし、その利用者はすでに飽和しており、若い世代での利用率が落ちてきています。

インスタやX(旧twitter)など、匿名で使えるSNSが人気であり、実名利用を前提とするFacebookは「中年以降がよく使うSNS」・「本音が言えず、常に見られていることを意識する」使いにくいサービスになりつつあります。
特に日本では、LINEの方が人気があり、閲覧時間もYoutubeなどの動画配信サービスが勢いを増しています。

世界中の多くの人が長い時間利用しているからこそ、「企業からの広告を集めることができる。」それがFacebookの強みでした。シェアを他のサービスに奪われつつあるMetaにとって、「次の主力サービス」を開拓していくことは大きな企業課題です。
Metaは、メタバースを「次世代のSNSに変わるコミュニケーションプラットフォーム」として重視していました。

今回話題に取り上げた音楽生成AI「AudioCraft」が、Metaの収益にどのように関係してくるのかについてはまだ不明です。しかし、根幹となるAI技術について、世界トップクラスの水準を維持しておくことが、今後の新たなサービス展開に必要不可欠と考えていることは間違いありません。

実際、ザッカーバーグが主導して進めている「生成AI」への取り組みの一環として、今回
「AudioCraft」がFacebookユーザー向けにリリースされています。Facebookのアカウントがあれば、誰でも利用できるようになっており、現時点では、Facebookユーザーへの特典という位置付けになるのでしょう。

Metaは、Facebookやインスタなどの主力サービスを、さらに充実させるためのAI技術を必要としています。もちろん、最適な広告ターゲットの抽出や効果的なマーケティングなどにもAI技術は必須です。このような最新の技術を世界最高水準で維持することが、企業としての生命線にも繋がっていくことを十分知っています。

メタバースの話題は、最近少し沈静化してきましたが、MetaがIT分野でトップ水準を持つ企業であることは間違いありません。SNSを中心としたコミュニケーションプラットフォームの代表企業として、今後も話題を集める新しい取り組みを見せてくれるのではないでしょうか。*注3

【まとめ】
朝イチでAIがピックアップした重要性の高いメールを閲覧。どうでもいいものについてはAIに自動返信させてメールチェックは完了。自動運転車に行き先を音声入力、AIに今日の気分に合わせた音楽を生成させる。会社に着くまでに必要な資料に目を通しながら、オンラインでチームとミーティング。
そんな時代がもうすぐやってくるかもしれません。なんだか、21世紀って感じがしますね。

建築・土木業向け BIM/CIMの導入方法から活用までがトータルで理解できる ホワイトペーパー配布中!

❶BIM/CIMの概要と重要性
❷BIM/CIM導入までの流れ
❸BIM/CIM導入でよくある失敗と課題
❹BIM活用を進めるためのポイント
についてまとめたホワイトペーパーを配布中

■参考文献
注1
Forbs 「メタのAudioCraftがあなたの言葉を「音楽に変える」
https://forbesjapan.com/articles/detail/65070

IT Media 「Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化」
https://www.itmedia.co.jp/news/articles/2308/03/news127.html

Gigazine 「テキストから音楽や効果音を生成するためのオープンソースなAIツール「AudioCraft」をMetaが発表」
https://gigazine.net/news/20230803-meta-audiocraft-generative-ai-audio/

注2 GitHub 「AudioCraft」
https://github.com/facebookresearch/audiocraft

Legdi.ai 「Meta幹部 AI技術の一部企業による支配は続かずと予測 オープンソース戦略の重要さ強調」
https://ledge.ai/articles/meta_opensource_importance

注3
HYPEBEAST 「Meta がテキストベースで曲作りができる AI ツール “AudioCraft” を発表」
https://hypebeast.com/jp/2023/8/meta-text-base-music-craft-ai-tool-audiocraft-release-info

    ホワイトペーパーフォームバナー

    【DL可能な資料タイトル】

    • ・プログラムによる建築/土木設計のQCD(品質/コスト/期間)向上
    • ・BIM/CIMの導入から活用までの手引書
    • ・大手ゼネコンBIM活用事例と建設業界のDXについて
    • ・デジタルツイン白書
    • ・建設業/製造業におけるデジタルツインの実現性と施設管理への応用

    詳細はこちら>>>

    PAGE TOP