AI活用の最高峰技術の一つ「ディープフェイク」とは
皆さんは「ディープフェイク」という技術についてご存知でしょうか?
元々は2017年に「Deepfakes」というハンドルネームでネットにアップされた、一連の動画がきっかけとなっています。あまりよろしくないAIの利用方法として、一時大きな話題となりました。
しかし、実は「ディープフェイク」の応用範囲は広く、使われている技術も最高レベルのものであり、有効に利用されれば私たちにとってもメリットが大きいはずです。
今回はこの「ディープフェイク」についてまとめてみましょう。
この記事でわかること
・ディープフェイクの歴史
・利用されているコア技術について
・ディープフェイクの応用例について
ディープフェイクの歴史
ディープフェイクが一般に広く知られるようになったのは、2017年にある掲示板にアップロードされた一連のフェイク動画です。
有名女優の顔をポルノ動画に合成したものですが、その出来栄えは従来のものとは比べ物にならないほど高いものでした。人間の目ではフェイク動画と判別するのが難しいぐらいであり、一目見ただけでは本当に有名女優が出演しているように見えたことで、世界中に衝撃を与えました。
顔を合成されたのは、「ワンダーウーマン」の主演女優ガル・ガドット。「攻殻機動隊」の実写版で主演したスカーレット・ヨハンソン。大ヒットTVドラマ「ゲーム・オブ・スローンズ」の主要キャストの一人メイジー・ウィリアムズなどです。グラミー賞歌手のテイラー・スウィフトも被害にあっています。
動画をデジタル処理で合成する技術はそれまでにもありましたが、熟練の技術者によるきめ細かい作業が必須であり、一本制作するにもかなりの時間とコストがかかっていました。
それがわずか一人のエンジニアによって、これだけ短期間に大量のフェイク動画が作成されるということ自体が驚異でした。
しかもその出来栄えが最高レベルというのですから、何らかの技術的なブレイクスルーがあったのは間違いありません。*注1
「Deepfakes」氏によると、フェイク動画はGoogleが提供するTensorFlowのような機械学習ツールを使用したとのことです。誰でも利用できるようなオープンソースを使って、熟練の動画制作プロも実現できないような、リアルなフェイク動画が製作されたということになります。
その後「Deepfekes」氏は、同じようなフェイク動画を作れるPC用のソフト「FakeApps」を発表します。これにより文字通り「誰もが簡単にフェイク動画を制作」できるようになりました。
今やハリウッド技術者も顔負けのフェイク動画が、CG技術も知らない専門的なソフトも高性能ワークステーションも持たない素人の机の上で製作されています。
ICT技術の進化は、時にこのような飛躍をもたらせますが、その中でも特にエポックメイキングになる出来事でした。
この一連の出来事があってから、有名人の顔を使ったフェイク動画のことを「ディープフェイク」と呼ぶようになりました。分野もポルノに限らず、有名人が本人の言うはずもないメッセージを話すような動画などにも利用されるようになります。
オバマ大統領やMeta(旧Facebook)CEOのザッカーバーグ氏などのフェイク動画が、有名な事例です。
最近では、ウクライナのゼレンスキー大統領のフェイク動画が出回るなど、単に「愉快犯」的なものだけでなく、政治的な目的でも利用されるようになっています。
このように、一般的には「実在の人物の顔を合成して作るフェイク動画」が、「ディープフェイク」として知られています。
しかし、実際にはもっと応用範囲は広く、有効に利用すれば私たちの生活にも多大な利益をもたらすものです。
次節では、技術的な側面について見ていきましょう。
ディープフェイクで利用されているコア技術について
初めにお断りしておきますが、ディープフェイクに関する技術を網羅することは、この記事内ではできません。もし技術を網羅しようと思った場合、専門の論文何本にも匹敵するような分量の高度な数学・情報工学に関わる数式で埋め尽くされてしまうでしょう。
もちろん筆者の力量を大きく超えるものであり、とても不可能です。
そこでこの記事では、ディープフェイクに関するコア技術をできるだけ簡易的に説明するに留めておきます。
キーワードは「GAN」です。「GAN」は機械学習の手法の一つであり「Generative Adversarial Networks(敵対的生成ネットワーク)」と呼ばれるものです。
機械学習は、大量のデータをAIに与え、その中から法則性や特徴を抽出することに特徴があります。
「大量のデータに対してある仮定を立て、それを検証する。」
自然科学分野で、我々人間が数千年の歴史の中で培ってきた手法ですが、それをAIは凄まじいスピードで処理していきます。人間では数万年かかっても導くことが困難である法則を、瞬時に得ることができます。
AIが「学習」する際に、人間がある程度「正解と不正解」に関してヒントを与える手法を「教師あり機械学習」と言います。人間が、それまで得られた知見をあらかじめAIに教えることで、無駄な検証を省きスピーディに結果に結びつけることができるという利点があります。
しかし「教師あり機械学習」の場合、「人間では思いもよらないような成果」を、最初の段階で排除することにもつながり、AIじゃないと見出せなかった特徴や法則に辿り着けないこともあり得ます。
例えて言うなら、親が子供にある程度のレールを敷いて育てているようなものです。失敗する危険は少ないでしょうが、親を超える才能を発揮する可能性を低くしてしまいます。
これに対して「教師なし機械学習」では、ランダムにデータを与え人間はそれらのデータが「正しいか正しくないか」をサジェッションしません。あくまでアルゴリズムだけを設定し、その判断をAIに任せるという手法です。
その結果、「教師あり機械学習」に比べて無駄な検討を大量にすることになりますが、人間ではとても見出せない新しい成果に辿り着くこともあります。
「GAN」はこの「教師なし機械学習」に分類される手法であり、「生成深層学習」とも呼ばれる学習方法になります。
世の中には正解と不正解が明確でないようなテーマも多く存在します。「教師なし機械学習」はそのようなテーマに対して効果を発揮します。
全く過去に類似品が存在しないような製品に対するターゲティングなどが、「教師なし機械学習」の例になります。過去に事例がないのですから、正解自体が存在しません。
人間なら「長年の勘」に頼らざるを得ない場面で、「教師なし機械学習」が大いに活躍します。*注2
では、具体的に「ディープフェイク」動画を作成するときの手順を見ていきましょう。
ディープフェイク動画の作成手順
1・顔画像の抽出
画像解析技術を使い、画像の中から対象となる人物の顔・目・鼻など特徴のある部分を抽出し、データ化していきます。
その中で、顔の向きや大きさなどの特徴についても特定します。
2・顔変換のためのモデル訓練
次に動画に登場する人物の顔を入れ替えるための準備をおこないます。
まずAという人物が登場する動画と、顔を入れ替えるBの画像を準備し、AIに対して入力していきます。
AIは手順1で取得した顔やパーツの情報を元に、自分でそれぞれの人物の画像を再構築していきます。この時用いられるのが「GAN」であり、機械学習を繰り返すことで実物と遜色ない画像データが作成されていきます。
この部分が少しわかりにくいため、簡単な例をあげて説明しましょう。
【例】あなたがAIだとして、以下のような指示を受けます。
「目の前にいる人物Aの似顔絵を描け」
渡された紙には、その人物の顔の大まかなラインや目・鼻などパーツの位置に印をつけることだけができます。その後、自分の記憶だけでAさんの顔を正確に描かなくてはいけません。
この場合、最初にできた似顔絵はあまり出来の良いものではないでしょう。
ここで、別の人物があなたの描いた似顔絵をチェックします。この人物はAさんの写真とあなたの描いた似顔絵を見比べて、似ているかどうかの判断をします。
実はこの判断をおこなう人物も、特に似顔絵のスペシャリストというわけではありません。また最初の段階では、それほど優れた判断能力も判別能力もありません。
しかし、素人目で見ても明らかに「似ていない」とわかる出来だったので、あなたの描いた似顔絵は不合格となりました。
あなたは再度、どこがだめだったのか?どうしたらもっと実物に似るのか?などを考えながら、同じ手順で似顔絵を描いていきます。
この例の「あなた」の役割をGANでは「Generator」と呼びます。また、正しいかどうかの判断をする人物の役割は「Discriminator」と呼ばれます。
GANでは、このような「データの生成」と「正誤の判断」をものすごいスピードで繰り返すことによって、精度をあげていきます。
似顔絵を描く方も徐々に正確さを増していくでしょうし、判断する方もだんだん正確になっていく似顔絵に対して、本物との微妙な違いを見分ける精度が上がっていきます。
このようにして、いずれは本物と見分けのつかない顔データをAIが生成できるようになります。
もはや人間は「Discriminator」がどんな特徴に注目して「似てるか似てないか」を判断しているのかすらわかりません。もちろん、「Generator」がどんなことを考えてデータを生成しているかも、詳細に理解することは不可能です。
人間は、データセットを入力し「GAN」というアルゴリズムを動かしていくだけで、だんだん正確になっていくフェイク画像を手に入れることが可能となります。
3・顔画像変換処理
ここまで準備できればあとは簡単です。
元動画から抽出された顔やパーツの位置情報などに合わせて、「GAN」を使って生成された人物の顔画像を当てはめていくだけです。
元動画に登場するAの顔を生成すれば、オリジナルと瓜二つの「AIによって再構成された動画」が出来上がります。その後、別人物であるBの顔画像を動画に当てはめれば、フェイク動画の完成です。
4・後処理
もちろん、これだけでは顔画像とオリジナル画像との境界線の不一致など、微妙な矛盾が残ってしまいます。そこで後処理を施し、このような矛盾を修正することで滑らかで精細なフェイク動画を作ることができます。
逆にフェイク動画とリアル動画の区別をする際にも、このような微妙な矛盾を見つけることが一つの判断材料になります。
人物の目の中の虹彩の光や動きの滑らかさなど、人間の目では即座に判断できないような矛盾をAIを使って見つけ出すことで、フェイク画像を発見していく手法が取られています。*注3
ディープフェイクの応用例について
「ディープフェイク」は、フェイクポルノなどの「あまり望ましくない」用途で有名になってきた技術です。しかし前述した通り、その応用は幅広く私たちにとっても様々な恩恵をもたらせてくれる可能性があります。
最後に今後の「ディープフェイク」可能性について、希望が持てる事例を見ていきましょう。
1)エンターテイメント分野
映画「アバター」が一番わかりやすいイメージでしょう。
「アバター」は2009年に製作された映画です。今回、紹介しているディープフェイクのコア技術である「GAN」は2014年の論文発表ですので、「アバター」自体は現在のディープフェイク技術で製作されたものではありません。
膨大な労力と予算、高性能な機材に熟練のエンジニアやクリエーターが総力を結集し、製作されたものです。
しかし、ディープフェイク技術を利用すれば、当時よりずっと簡単にリアルな映像を製作することが可能になります。
何年もかけて作っていた映画と同程度の映像クオリティが、毎週放送されるTVドラマでも提供できるようになります。
また、ディープフェイク技術を使えば、実際に存在しない人物の画像を生成することもできます。小説の映画化やオリジナル作品を製作する際に、俳優のスケジュール調整や高額な出演料を気にせず、リアルで魅力的なAIが生成した俳優で映画を作ることができるでしょう。
実はスポンサー企業にとっても、フェイク俳優の起用は一定のメリットがあります。
有名俳優を起用してCMを製作した場合、多くのファンに訴求するというメリットはありますが、その一方で不祥事などが起きた時、膨大な予算をかけたCMが無駄になるというリスクを抱えています。しかし、実在しないフェイク俳優であれば、その心配はありません。
2)音声サービスへの活用
この記事では主に、フェイク動画における「ディープフェイク」技術の利用について紹介してきました。
しかし広い意味で「ディープフェイク」を捉える場合、音声関連を含める場合があります。音声を認識したり合成する技術や、誰か特定の人物の音声を利用する音声クローニング技術などを総合し、顔の入れ替えのように音声を入れ替えることが可能です。
この技術を利用しカーナビや音声ガイダンスなどで、自然な音声をAIを使って合成することができます。
これまでカーナビなどでは、実在の人物が必要となる文章を何百時間もかかって実際に録音するなど、膨大な手間隙がかかっていました。それが、音声クローニング技術を利用することによって、はるかに短い時間で必要なガイダンスを作成することが可能です。
3)オンライン会議やメタバースでのアバター
オンライン会議やメタバースなど、ネットワーク上でコミュニケーションを取る場合、実際の人物画像をアバターに置き換える時にも利用できます。
リアルタイムで人物の表情の変化を読み取り、指定したアバターで置き換えることができるため、アニメ顔でもリアルな人物でも思いのままです。
コロナの影響でこのようなオンライン上での交流機会が増えており、今後期待される技術の一つとなっています。
4)GANによる人工歯のデザイン
「ディープフェイク」の範囲からは少し外れますが、「GAN」を利用した3D画像生成技術として注目されている例が「人工歯のデザイン」です。
カリフォルニア大学バークレー校とGlidewell Dental Labが共同で開発した技術で、GAN技術を利用して、欠損した歯を補う人工歯のデザインを可能にしました。
従来であれば、熟練した技術者が時間をかけて型取りし、微調整しながら作成していた人工歯が、「GAN」を利用することでスピーディかつ正確に作成することが可能となります。
また人工歯を作成する際には、単にその1本の形状だけではなく、噛み合わせなどにも注意する必要があります。
このように、人間だと難しい情報であっても、「GAN」を使えばうまく処理できるため、これまでよりもはるかに容易に人工歯を作成できるようになります。*注4
まとめ
今回の記事では、「ディープフェイク」について技術的な側面と応用に注目しながら、記事にまとめてみました。できるだけ平易でわかりやすく記述するため、多少正確性を犠牲にした部分もあることをご了承ください。
2014年に論文発表された「GAN」が、わずか3年後の2017年には実物と見分けがつかないほど精細なフェイク動画作成に結びつきました。ICT技術の最も端的なブレイクスルーの現場に、今私たちは立ち会っているのかもしれません。
建設・土木業界向け 5分でわかるCAD・BIM・CIMの ホワイトペーパー配布中!
CAD・BIM・CIMの
❶データ活用方法
❷主要ソフトウェア
❸カスタマイズ
❹プログラミング
についてまとめたホワイトペーパーを配布中
▼キャパの公式Twitter・FacebookではITに関する情報を随時更新しています!
■参考文献
注1
Gigazine 「AI製「有名女優のポルノ」が爆増」
https://gigazine.net/news/20180125-ai-fake-celebrity-porn/
「AIで有名女優のポルノ動画を作成するプログラマーが登場、まるでリアルのような完成度」
https://gigazine.net/news/20171212-ai-assisted-fake-porn/
AI Smiley 「今話題のディープフェイクとは?進化したAI技術で本物そっくりの顔を生成」
https://aismiley.co.jp/ai_news/deepfake/
注2
NTT東日本 「教師なし学習とは?覚えておきたい機械学習の学習手法概要」
https://business.ntt-east.co.jp/content/cloudsolution/column-162.html
注3
NABLAS 「ディープフェイクと生成ディープラーニング」
https://www.nablas.com/post/deepfake-and-generative-deep-learning-3?lang=ja
Sciens Direct ”Deepfakes and beyond: A Survey of face manipulation and fake detection”
https://www.sciencedirect.com/science/article/abs/pii/S1566253520303110
Ledge.AI 「ディープフェイク(Deepfake)とは|基本知識、表出した恐怖とその対策について」
https://ledge.ai/deep-fake/
Spectee 「ディープフェイクの危険性:我々は見破れるか?」
https://spectee.co.jp/report/can_we_detect_deepfake/
注4
NABLAS 「ディープフェイクと生成ディープラーニング」
https://www.nablas.com/post/deepfake-and-generative-deep-learning-3?lang=ja