Amazon Pollyとは？今、音声合成技術が熱い！

2021.04.05

投稿者: chiebo

　YOASOBI・ヨルシカなどYoutubeなどでバズったアーティストが、メジャー音楽シーンを賑わせていますね。この2ユニットで作詞作曲を担当しているAYASEさん・n-bunaさんはボカロPとしても活躍しています。
　そういえば、米津玄師さんも「ハチ」名義でボカロ作品を数多く生み出していましたよね。
　ボカロは日本発の音声合成技術で、今では一つの文化として大きく成長しています。実は音楽関連以外でも2020年あたりから、この音声合成技術の新たな活用が注目されています。
　今回の記事では、Amazonの音声合成技術である「Polly」や、音声合成を使った新しい動きについてまとめてみましょう。*注1

この記事でわかること
　・Amazon Pollyでできることは何か
　・音声合成技術の利用が企業のブランドイメージに繋がる
　・日本でも進む音声合成技術の利用シーンについて

Amazon Pollyでできること

　Amazon Pollyは、2016年にスタートしたサービスです。各国語に対応した合成音声で、テキストの読み上げをするものです。詳しい内容については以下の記事を参考にしていただくとして、ここではわかりやすく端的に特徴を見ていきましょう。

■CAPA　「テキスト読み上げサービスAmazon Pollyとは」

Amazon Pollyの特徴

　・とにかく安い！
　・AWSのアカウントさえあれば、すぐにでも使える
　・同じ英語でもイギリスやオーストラリアなど地域の英語にも対応
　・高度なディープラーニング技術の応用で自然な音声を合成

　Amazon Pollyには、標準音声（TTS）とより自然なニューラルテキスト読み上げ音声（NTTS）の二種類が提供されています。
　標準音声の場合、初回利用から12ヶ月間は500万字／月までは無料。それ以降は100万字あたりわずか月4ドルで利用できます。
　500万字ってどのくらいの文字量か分かりにくいですよね？例えば、１分間に100字をタイピングできる人が、夜も寝ずに一心不乱に打ち続けて１ヶ月以上かかるぐらいの文字量です。打ち終わる前に次の月になるので、実質無料枠を超えずに利用できますね。

　ニューラルテキスト読み上げの方も、12ヶ月間は100万字まで無料です。それを過ぎても月額16ドルで利用が可能です。
　料金設定から判断すると、AWS利用者に対する「おまけ」のような位置付けなのでしょうか。豊富なオプションを準備することで、より一層AWSの価値を高めることができます。
　AWS利用者ならば、わざわざ他の音声合成サービスを契約しなくても良いので、コスト削減に大きな効果が見込めます。

　さらにAmazon Pollyは、29もの言語に対応しています。同じ英語でもオーストラリア英語やイギリス英語など国別に細かまく分類されています。

　◯Amazon Pollyが対応している言語

　１　アラビア語　　　　　１６　日本語
　２　中国語（マンダリン）　１７　韓国語
　３　デンマーク語　　　　　１８　ノルウェー語
　４　オランダ語　　　　　　１９　ポーランド語
　５　英語（オーストラリア）２０　ポルトガル語（ブラジル）
　６　英語（イギリス）　　　２１　ポルトガル語（ポルトガル）
　７　英語（インド）　　　　２２　ルーマニア語
　８　英語（アメリカ）　　　２３　ロシア語
　９　英語（ウェールズ）　　２４　スペイン語（スペイン）
　１０　フランス語　　　　２５　スペイン語（メキシコ）
　１１　フランス語（カナダ）２６　スペイン語（アメリカ）
　１２　ドイツ語　　　２７　スウェーデン語
　１３　ヒンディー語２８　トルコ語
　１４　アイスランド語２９　ウェールズ語
　１５　イタリア語
　
　また、それぞれの言語に女性・男性のキャラクターが設定されています。言語によっては女性だけのものもあれば、アメリカ英語のように子供の音声や同じ性別でも複数のキャラクターが登録されているものもあります。
　インド英語とヒンディー語を両方話すことができる”Aditi”のように「バイリンガル」という設定もあります。

　日本語はMizuki（女性）とTakumi（男性）の音声が準備されています。性別が一つしかない言語でも女性が優先されているのは、ガイダンスなどの用途を想定しているからでしょうか。
　より人間らしい自然な読み上げができるニューラル音声（NTTS）に対応しているのは、イギリス英語・アメリカ英語・オーストラリア英語・ポルトガル語（ブラジル）・スペイン語（アメリカ）の特定のキャラクターに限られています。
　残念ながら、日本語は対応していません。*注2

驚くほど自然な音声読み上げを実現

　コンピューターで合成された音声は、以前なら平坦なイントネーションでいかにも人工的という感じのものでした。一昔前のSF映画などのイメージです。
　しかしAmazon Pollyでは、ディープラーニング技術を使って、まるで実際の人間が話しているような自然な音声を作ることができます。利用者側ではテキストを入力するだけの簡単操作のみで、細かなチューニングも必要ありません。

　〇サンプル音声

１　英語（マシュー）　標準音声（TTS）

２　英語（マシュー）　ニューラル音声（NTTS）

　上記2つのリンクは、Amazonが提供しているサンプルです。標準音声の方はイントネーションに違和感がありますが、ニューラル音声の方はかなり自然な発音に聞こえます。
　残念ながら日本語は、現在のところ標準音声だけしか提供されていません。

　もちろん、個別にチューニングをすることも可能です。音声合成マークアップ言語(SSML)を使うと、スピードや一時休止など「話し方」をコントロールしたり、音声の「相」を調整したりすることができます。
　安くて簡単、柔軟性もあり、しかも「信頼と実績の」AWS上で動作するPolly。活用しない手はないですよね。

音声合成技術の利用が企業のブランドイメージに繋がる

　このような音声合成技術の利用については、問い合わせに対する自動応答システムなど、どちらかというと「省力化・人件費削減」などが主な利用場面でした。
　しかしAI技術と融合した形で、iPhoneのSIRIなどこれまでより身近で日常的に使用するシーンにも活用されるようになり、徐々に「個性」を持った存在として認知されています。
　さらに一歩進んで、企業のブランドイメージに繋がるような音声合成技術の利用が、これからは進んでいくようになるでしょう。
　Amazon Pollyもこのような利用に対応するべく、音質をカスタマイズできるように進化してきました。これまでは音声のキャラクターともいうべき音質は固定されており、スピードや音声の「相」を調整することで「話し方」をコントロールするまでしかできませんでした。それが音質を変えることによって、新しく作り上げたキャラクターに話をさせることができるようになっています。

　これは”Brand Voice”と言われる新機能で、ケンタッキーフライドチキンのカーネル・サンダースをイメージしたキャラクターなどが紹介されています。まさに企業のブランドイメージを体現するキャラクターであり、これまでの使用例とは一段階異なるステージの音声合成技術の利用になります。
　カーネル・サンダースバージョンのPollyは、アメリカ南部の訛りで会話し、店舗での注文に対する応答などで利用することができます。実際の音声は次のリンクから聴く事ができます。*注3

Amazon Polly KFC

2021年になって日本でも進む音声合成技術の利用シーン

　今回の記事で、2016年登場のAmazon Pollyを改めて取り上げたのには、一つ大きな理由があります。
　昨年から今年にかけて、Amazon Pollyをはじめとする音声合成技術の新しい活用が広がり、私たちの身近なビジネスシーンやエンターテイメント分野で面白い動きが出始めているからです。
　2021年は、音声合成技術の活用が一歩進んだステージに進み、まさに「熱い」シーンになりそうな予感がしています。
　では、いくつか事例をご紹介していきましょう。

有名タレントの音声を使ったコンテンツのリリース

　まずは有名タレントをキャラクターとして使用した音声合成、AI技術の利用例です。

　◯ケンドーコバヤシの声をAIで再現
　ケンドーコバヤシのキャラクターを音声合成で実現し、なんと法令集を朗読するというものです。ケンドーコバヤシ自身が持つキャラクターとのギャップが楽しいですね。
　ドワンゴからリリースされていますが、今後も美声を持つタレントによるオーディオブックシリーズが予定されているようです。*注4

　◯音声対話アプリ「携帯人間AIジミー大西」
　携帯アプリとして、ジミー大西さんが応答してくれるサービスです。吉本興業とNTTグループなどが共同出資したラフ＆ピースマザーが開発・提供予定です。*注5

　これまでは、有名タレントを使った音声サービス（オーディオブックなど）を製作しようとしたら、膨大な量の音声データを収集する必要がありました。多忙な有名タレントを長時間拘束するのは、時間面でもコスト面でも無理があります。
　しかし、ディープラーニング技術・AI技術の進化によって、現在ではかなり少ないサンプルデータでも、本人の音声を忠実に再現できるようになっています。これからはこのような形での「有名タレントAI音声」が増加していく事でしょう。*注6

　◯VTuber「花譜」をモデルにした、合成音声「可不」の登場
　花譜さんはインターネット上で顔出しをしない、VTuberとして活躍している歌手です。
　独特の個性を持った歌声の「過去を食らう」は、Youtubeでの再生回数1,000万回を超えるなど、多くのファンを持っている次世代のアーティストです。
　「可不」は花譜さんの合成音声であり、ほぼ無調整でも十分リアルな人間が歌っているような合成音声を作成できるソフト「CeVIO AI」のキャラクターとして登場予定です。*注7

　◯アイドルグループ嵐の歌声を再現する「A･NA･TA for DREAM」
　こちらは2020年の話題ですが、2020年に活動を停止した嵐の歌声を再現するジェネレーター「A･NA･TA for DREAM」がリリースされました。ネット上では「本物と区別がつかない」などその再現性の高さが話題になっています。*注8

　ここで紹介した事例は全体のごくわずかにすぎません。企業でのカスタマーサービスの一環としてや、エンターテイメント分野での活用など、2020年から2021年にかけて活況を呈している状況です。
　2021年は間違いなく「音声合成が熱い」年になります。

【まとめ】
　音声合成のエンターテイメント分野での活用としては、ボカロが有名です。ボカロの分野でも、リアルに近い歌声をほぼ無調整で実現できる「AIきりたん」が登場するなど、絶え間ない進化を続けています。
　紅白での「AI美空ひばり」は多くの人が驚いたと思います。あの再現性と技術がもっと手軽に、もっと身近に利用される日が現実となっています。
　2021年は音声合成技術の利用により、豊富なバリエーションのコンテンツが期待できる年になりそうです。