1. TOP
  2. ブログ
  3. 感情まで表現できるMetaの新翻訳AI「Seamless Communication SeamlessM4T v2」とは

感情まで表現できるMetaの新翻訳AI「Seamless Communication SeamlessM4T v2」とは

 スタートレックのようなSF作品の中で、便利なツールとして必須なのが「宇宙翻訳機」です。映画に出てくる多種多様な宇宙人ごとに、異なる言語を作り毎度字幕で表示するのは制作側にとっても手間ですし、見る方も疲れてしまいます。これを解消する便利ツールが「宇宙翻訳機」です。
 映画の「宇宙翻訳機」は、話し手の喜怒哀楽の感情表現まで再現してくれるという優れものであり、物語の臨場感を強めてくれます。

 実は最近Metaから、まるでSF世界に登場するような「感情を表現することができる翻訳ツール」が発表されました。スタートレックの世界に近づくようなこのツールについて、今回の記事で取り上げていきましょう。

この記事でわかること
 ・「Seamless Communication SeamlessM4T v2」の特徴について
 ・利用する条件
 ・「AI Alliace」について

「Seamless Communication SeamlessM4T v2」の特徴

 「Seamless Communication」は、2023年11月にMetaが発表した、新たなAIモデルスイートです。
 「Seamless Communication」は「SeamlessExpressive」・「SeamlessStreaming」・「SeamlessM4T v2」の3つのモデルで構成されており、それぞれ異なる役割を担っています。

 「SeamlessM4T v2」は、2023年8月に公開された「SeamlessM4T」のアップグレード版です。音声を入力するだけで、文字起こしや別言語への翻訳、別言語への吹き替えができる性能を持つモデルです。

 発表された論文によると、「テキストと音声出力の一貫性の向上」が強化されており、より自然で矛盾の少ない、音声による翻訳を実現しているようです。
 音声による直接入力が可能になれば、宇宙翻訳機のように異言語間でのリアルタイムコミュニケーションができそうです。

 さらに「SeamlessExpressive」が実現する機能が、今回の目玉になります。一番の特徴は、話し手の感情表現を合成音声で再現して、翻訳する機能があることです。
 元音声が早口で捲し立てているようなスタイルの場合、翻訳後の言語でも同様のスピードやイントネーション、強弱をつけて表現します。

 現在、人工音声はかなりリアルな人間の発音や、イントネーションに近づいています。しかし喜怒哀楽のような感情表現はできず、アナウンサーのような冷静沈着な話し方が一般的です。

 SF映画などでは、アンドロイドやマザーコンピューターに感情を乗せない冷静な話し方をさせることで、不気味さを表現するなどの効果を出しています。2001年宇宙の旅では、ボーマン船長とHAL9000が対決する場面があり、非常に印象的なシーンでした。
 しかし、どうやら私たちの世界での未来線においては、感情豊かな表現ができるアンドロイドに出会えそうです。スターウォーズのC-3POや、猫型ロボットのドラえもんのような。

 また、入力された音声データを解析し、単語や文を理解した上で別の言語に翻訳。さらに自然な音声として出力するまでを「SeamlessM4T v2」が担当します。
 それとは別に、入力された音声データのスピードや強弱、特徴など付帯する情報を取得し、話し手の感情表現を読み取った上で出力される合成音声に反映させる。この部分を「SeamlessExpressive」が担当しています。

 Metaでは、「表現力豊かなクロスリンガルコミュニケーションをリアルタイムで実現できる初のシステム」と高らかに宣言しており、その自信のほどが窺えます。
 Metaは世界最大のSNSプラットフォーム「facebook」を運営し、現在はメタバースの開発・拡大に注力している企業です。そのため、「表現力のあるコミュニケーションツール」の開発が非常に重要と考えているのでしょう。

 「SeamlessExpressive」のサイトには、「出会いを喜んでいる女性」「早口で相手を急がせている男性」「一人にしないよう懇願する女性」「音を立てないよう、囁き声で話す女性」のデモが掲載されています。

 話し方の抑揚やペース、強弱まで再現されており、口の形との不一致さえ気にしなければ、まるで本人が話しているように思えるぐらいです。
 この技術が本格的に実用化されると、もう映画の吹き替えは必要なくなるのではないかというぐらいのクオリティになると思われます。

 吹き替えと言って思い出すのは、刑事コロンボです。日本語吹き替えを担当していた小池朝雄さんが有名ですね。しかし、刑事コロンボ役の元のピーター・フォークは、結構甲高い声で早口で喋るため、最初聞いた時はイメージが違い戸惑いました。
 このような現象は、実は吹き替えだからこそ起こることであり、それはそれで「味」となっていました。

 「SeamlessExpressive」で一つ心配なことは、あまりに人間らしい話し方をさせる事によって、フェイク動画に悪用されないかという点です。しかし、この対策もすでに織り込み済みであり、AI合成音声であることを示す「ウォーターマーク」を付加しています。
 このことにより、フェイク音声かどうかを見分けることが可能となり、悪用される危険性を排除しています。

 さらに「SeamlessStreaming」は、リアルタイムコミュニケーションを実現する機能を持っています。わずか2秒程度の遅延で会話を逐次翻訳する機能を実現しており、相手が話し終わるのを待つ必要がありません。

 文章の前後関係などもありますから、一つのセンテンスを聞き終わらない限り正確な翻訳は不可能です。その意味でも約2秒の遅延は、どうしても必要な時間だと思えます。
 SF映画のように、相手が話すと同時に翻訳していくのは論理的に無理でしょう。

 なお「SeamlessStreaming」と「SeamlessM4T v2」は、100もの入力言語に対応していますが、「Seamless Communication Translation Demo」サイトでは、英語・スペイン語・フランス語・ドイツ語のみに対応となっています。
 感情表現を付加する機能が、まだ多言語対応できていないのかもしれません。また、入力時間も10秒に制約されています。*注1

「Seamless Communication」利用の条件

 「Seamless Communication」は、誰でも無料でデモを試すことができます。下記のデモサイトに行って、利用規約に合意するだけで利用可能です。
 ただし、音声入力できる時間は最大でも10秒までとなっています。10秒経過したら自動的に処理が開始され、元の音声・通常の翻訳・表現力を高めた翻訳の3つを比較することができます。

◯デモサイト

 オンラインだけでなく、ローカル環境にインストールして利用することも可能です。インストールの仕方や必要なソースは、「GitHub」などに公開されていますので、興味のある方は一度試してみると良いでしょう。

 ただし、商用利用などは禁止されていますので注意が必要です。

◯GitHub facebookresearch/seamless_communication

Metaが立ち上げた新団体「AI Alliace」について

 AIが進化するに従って、私たちの生活やビジネスは確実に便利になっていきます。その一方で悪意を持って利用する人もいるため、フェイク動画など新たな問題が発生しています。
 AIの開発を進めるメーカーにとっては、このような課題に対しての対抗策を、あらかじめ準備する必要があります。

 Metaは世界トップクラスのAI開発事業者であり、コミュニケーションツールの一つとして非常に重要であると考えているはずです。どんな形であれ、その開発・利用に制限がかかるような事態は避けたいところでしょう。

 このような問題に対応し、オープンで安全かつ責任あるAIの進展を目指した団体「AI Alliace」を、MetaはIBM社と共同で立ち上げました。
 「主要な技術開発者・研究者・AI導入者」が参加する国際的なコミュニティーであり、日本からは東京大学・慶應義塾大学・ソニーグループ株式会社などが参加しています。

 「AI Alliace」は、科学的厳密性・信頼性・安全性・セキュリティー・多様性・経済競争力を確保することを宣言し、その上でオープンなコミュニティの育成と、AIに関するイノベーションを加速することを目的としています。

 いわゆる業界団体だけでなく、研究機関や規制する側である政府機関も参画することで、犯罪への悪用などを抑制しながら、より良い発展を目指しています。*注2

【まとめ】
 これまでの翻訳ソフトは「正確さ」が何よりも重要でした。最近になって、AIや機械学習という技術の進化に伴い、無料で使えるような翻訳ソフトでもかなりの精度を実現できるようになっています。
 今後は、Metaの取り組みのように「正確さ」以外の特徴、例えば「豊かな表現」であったり、「リアルタイム性」などが重要となってくるのでしょう。私たちは今、幼い頃に夢見てきたSF世界の入り口に差し掛かっているのかもしれません。

大手ゼネコンBIM活用事例と 建設業界のDXについてまとめた ホワイトペーパー配布中!

❶大手ゼネコンのBIM活用事例
❷BIMを活かすためのツール紹介
❸DXレポートについて
❹建設業界におけるDX

■参考文献

注1

Gigazine 「Metaが日本語音声を入力するだけで文字起こしなどが可能なAI「SeamlessM4T」の改良版「SeamlessM4T v2」をリリース」

https://gigazine.net/news/20231201-meta-seamlessm4t-v2/

Seamless Communication Translation Demo

https://seamless.metademolab.com/expressive

BRIDGE 「Meta AI、リアルタイム翻訳のAIモデル「Seamless Communication」をオープンソース公開」

https://thebridge.jp/2023/12/meta-ai-unveils-seamless-translator-for-real-time-communication-across-languages

注2

IBM 「オープンで安全な、責任あるAIの推進に向け、主要な技術開発者、研究者、AI導入者が協業する国際的なコミュニティーとして「AI Alliance」が発足」

https://jp.newsroom.ibm.com/2023-12-06-blog-AI-Alliance-Launches-as-an-International-Community-of-Leading-Technology-Developers-Researchers-and-Adopters-Collaborating-Together-to-Advance-Open-Safe-Responsible-AI

    ホワイトペーパーフォームバナー

    【DL可能な資料タイトル】

    • ・プログラムによる建築/土木設計のQCD(品質/コスト/期間)向上
    • ・BIM/CIMの導入から活用までの手引書
    • ・大手ゼネコンBIM活用事例と建設業界のDXについて
    • ・デジタルツイン白書
    • ・建設業/製造業におけるデジタルツインの実現性と施設管理への応用

    詳細はこちら>>>

    カテゴリ一覧

    PAGE TOP