テキスト読み上げサービスAmazon Pollyとは

2020.03.10

投稿者: chiebo

一般ユーザーにとってAmazonといえば、ECサイトかAmazon Primeで利用できるオンデマンドビデオサービスというイメージなのではないでしょうか。しかし、一方では世界最大級のWebサービスである「AWS」を提供している企業としても有名です。クラウドという言葉を一般的にし、各種Webシステムの基盤として利用できるようになったのも、AmazonのAWSの影響が大きいといっても過言ではないでしょう。今回の記事では「AWS」で利用できるテキスト読み上げサービスである「Amazon Polly」についてご紹介します。

この記事でわかること
・Amazon Pollyとは？
・具体的にどんな場面で利用できる？
・幅広い応用範囲があるディープラーニング技術

幅広く広がる合成音声によるサービス

コンピューターの合成音声を聞く場面は日常生活でも多く見かけられます。カーナビや電話の応答メッセージ、各種Webサービス、ゲームやアプリなど幅広い利用例があり、かなり身近に感じられる技術です。Amazon Pollyはデジタル化されたテキストを合成音声に変換するもので、同種のサービスは他にも数多く存在します。何が他のサービスと異なるのかを含めてAmazon Pollyについて調べてみました。

Amazon Pollyとは

Amazon AWSのページによると「深層学習を使用して文章をリアルな音声に変換」するとあります。さらにその特徴として
・テキスト読み上げができるアプリケーションを作成できる
・高度なディープラーニング技術を使用したテキスト読み上げサービス（TTS）
・自然な人間の音声を合成
・何十種類ものリアルな音声を多数の言語でサポート
・標準TTS音声に加えて、新しい機械学習アプローチによる音声品質の高度な改善を実現するニューラルテキスト読み上げ（NTTS）音声を提供
と説明されています。*注1

Amazon Pollyの使い方

使い方はいたって簡単です。AWSにアクセスし無料アカウントを作成、Amazon Pollyのページを開き、音声化したいテキストを入力するだけです。試しにプレーンテキストを入力するとすぐに日本語の合成音声が作成されます。気になる料金ですが、商用利用であっても新規サインアップから１年間はひと月500万文字まで無料です。これはよほどヘビーに利用しない限り１年間は無料枠内で使えそうですね。

料金体系

１年経過後は従量制で課金されますが、非常に安価な設定になっているのが何と言っても一番の魅力です。基本的には100万語あたり4ドルで、音声のクオリティが高いニューラルプランでも100万語あたり16ドルとなっています。下記のリンクで具体的な事例で発生する料金が掲載されていますが、例えばマーク・トウエインの「ハックルベリー・フィンの冒険」60万字を音声変換するコストはわずか2.40ドルしかかかりません。音声データの長さは13時間50分にもなるというのに、この料金設定は非常に安価な設定といえるでしょう。
*注2

24の言語に対応し47種類の音声を提供

Amazon Pollyは世界24の言語に対応しており、それぞれの言語で男女の音声が用意されています。言語によっては複数の音声があり、音声の種類は全部で47種類も準備されています。日本語ではMizuki（女性）とTakumi（男性）の音声が選択できるようになっています。面白いのは同じ英語でも、アメリカだけでなくオーストラリア、イギリス、インド、ウェールズなども別の言語として利用できるなど、地域にふさわしい選択が可能な点です。*注3

MP3などの音声ファイルを保存可能で再利用無制限

Amazon Pollyが生成した音声データは「MP3」「Vorbis」「raw PCM」などのオーディオ形式で保存することが可能で、追加料金なしで再利用ができます。一度音声化してしまえば、料金を気にせずそれぞれの目的で再利用できるというのは非常に便利な点でしょう。例えば、定型文の音声データを使うようなサービスや、版権の問題さえクリアすれば視覚障害者向けに書籍を音声化する際など利用の幅が広がります。*注4

多くのプログラミング言語をサポート

Java、PHP、RubyなどWeb関連のエンジニアであれば馴染みの深い各種言語に対応しています。API経由でテキストを送信することで合成音声をリアルタイムでストリーミング再生することもできますし、生成した音声ファイルを取得することも可能です。Webサイト、モバイルアプリケーション、各種デバイスなどのアプリケーションでAmazon Pollyを比較的簡単に導入することができます。

音声品質が高く、スタンダード版でも十分なクオリティ

コンピューターで合成された音声は、カーナビや電話応答サービスでのガイダンスなど、かなり以前から私たちの身の回りでも利用されてきました。しかし、2000年以前のものだと単語ごとに録音された音声を単純につなぎ合わせて文章化するようなタイプのもので、言語としての不自然さがどうしても残ってしまいます。ところが最近では、ニューラルネットワークやディープラーニングという技術の実用化と、高速処理可能なGPUによってナチュラルな音声を合成することが可能になっています。

音声マークアップ言語であるSSMLに対応

Amazon Pollyは、WEBサイトを構築するときに使用されるHTMLと同じ種類のマークアップ言語である「SSML」に対応しています。これにより合成音声をより自然なものにするための「相」をコントロールすることができます。「相」とは発音、声量、声の高さ、速度などであり、それぞれを様々なパターンに併せて具体的に指定することで、人間の発声に近い自然な合成音声にカスタマイズすることができます。

利用できる場面は広範囲に拡大

このような音声合成技術の応用範囲は広く、特にアプリケーションと連携してリアルタイムに応答するようなサービスが実際に私たちの日常でも利用され始めています。iPhoneのSiriなどモバイル端末での利用をイメージするとわかりやすいと思います。もはや、特別な存在ではなくなり、人間の音声に近い自然な会話が可能になるのもそれほど遠い未来ではないかもしれません。

また、コールセンターでの自動応答、電子機器などの操作ガイダンス、駅や空港での場内案内、カーナビや電子辞書などある程度決まった文章をユーザーの操作や指定に合わせて流すような用途以外にも、
・スマホなどのモバイル端末で利用されるアプリや音声アシスタント
・アニメ、テレビ番組、ニュース放送などでの利用
など、応答を含めたリアルタイム音声合成、指定された原稿を正確に読み上げるケースなども広く利用されています。

日本での導入事例

AWSでは日本での導入事例として、FM和歌山でニュース原稿や天気予報を読み上げている「人工知能アナウンサー・ナナコ」へのAmazon Pollyの利用を紹介しています。災害時などアナウンサーやディレクターの確保が困難な時でも、Amazon Pollyと独自のシステムを連携することによって、必要な情報を即座に放送することが可能となりました。

放送に耐えるだけの音声品質があり、システムと連携することでリアルタムに近い状態での音声データの取得ができること。従来からの開発サイドにおいて、馴染みのあるPHPやPerl、JavaScriptに対応しているため導入の敷居が低いことなど、多くの利点があったそうです。何よりも年間のコストが400円-800円程度と、FM和歌山が以前に導入を検討していた他社サービスと比べても圧倒的に安価で利用できているというのは驚きです。ラジオ放送という音声が重要な商用利用において、このくらいのコストで済んでいるというのはにわかに信じられないぐらいです。*注5

ニューラルネットワーク、ディープラーニングを利用したサービス

Amazon Pollyは2016年12月に他の２つのサービスと同時に発表されました。自動音声認識（ASR）技術と自然言語理解（NLU）を活用した、音声とテキストによる対話型インタフェースを構築するための新しいサービスである「Amazon Lex」。インテリジェントスピーチを実現する「Amazon Polly」。画像を解析し、顔や物体、景色を認識するアプリを迅速かつ容易に開発できるサービス「Amazon Rekognition」です。いずれもニューラルネットワーク、ディープラーニング技術を利用して開発されています。

大量のデータの中から法則性を抽出し、その特徴に基づき正しい判断を下すため人間の脳の仕組みをアルゴリズムとして組み入れたものがニューラルネットワークであり、通常のデータ分析よりも深い層まで解析を行う技術がディープラーニングと呼ばれます。ざっくりとした説明で申し訳ありませんが、詳しく説明しようとするとかなり専門的かつ高度になってしまいますのでここではあくまでイメージレベルにしておきましょう。

このような技術の進歩と高速でデータ処理ができるハード（GPUなど）、さらに大量の情報を収集するために有効なネットワークの発展などが、新しいサービスを生み出した背景となっています。これまで経験や勘、センスなどに頼りがちだった大量の情報から、法則性を見つけ出すという部分が最先端の技術の発達によって、安定した信頼性の高い結果を導出することができるようになりました。

とはいうものの、実際に目的に合わせた形でディープラーニングを応用しようとすると、膨大な作業と専門的な技術が必要であり、なかなか一般のデベロッパーが気安に使えるとまではいきません。このようなニーズに応える形で、WEBサービスとして手軽かつ安価に利用できる形で、「Amazon Lex」・「Amazon Polly」・「Amazon Rekognition」という３つのサービスが提供されました。音声合成、言語理解、画像認識以外にも、このようなディープラーニング技術は応用範囲が広く、今後に大きな期待がされています。

【まとめ】
「2001年宇宙の旅」のHALは映画の中で登場した最初期のAIとして有名です。アーサー・C・クラークとスタンリー・キューブリックが描いた「未来」がもうすぐ目の前にきているという事が感じられるのが今回の話題でした。応用範囲が広く、まだまだ進化を続けていくディープラーニング技術に基づく高品質なサービスの登場で、映画の世界で憧れた「近未来」に近づいていく事が実感されるのはなんとも感慨深いものです。

注１ Amazon AWS
https://aws.amazon.com/jp/polly/

注2　Amazon polly　料金
https://aws.amazon.com/jp/polly/pricing/

注3　Voices in Amazon Polly
https://docs.aws.amazon.com/polly/latest/dg/voicelist.html

注４　OSS×Cloud News　Amazon Web Services／Amazon Pollyとは
https://www.ossnews.jp/oss_info/Amazon_Polly

注５　AWS 導入事例：特定非営利活動法人エフエム和歌山
https://aws.amazon.com/jp/solutions/case-studies/fm-wakayama/

▼キャパの公式Twitter・FacebookではITに関する情報を随時更新しています！