Googleの対話型AI「Bard」に搭載されたLLM「LaMDA」の特徴

2024.05.31

投稿者: chiebo

　最近のIT系の話題の中心となるのは、なんといっても「対話型AI」でしょう。
　自然言語を理解し、プロンプトに入力された文章に基づいて、まるで人間がそこにいるかのような対話をすることができる。まさに21世紀を感じさせる新たな技術です。
本稿では、最先端を走るGoogleの対話型AIに搭載されているLLM「LaMDA」についてまとめていきたいと思います。

この記事でわかること
　・「LaMDA」の特徴
　・進化を続ける「Bard」に搭載されたLLM
　・対話型AIの利用場面

感情や知性を持つと言われた「LaMDA」の特徴

　「LLM」は大規模言語モデルというものであり、対話型AIの中核となる技術です。Googleでは「LaMDA」というLLMをベースとした対話型AI「Bard」をリリースしています。
　先行する技術としては、2018年に発表された「BERT」があり、自然言語処理（NLP）において革命を起こしたとも言われています。

　「LaMDA」は、「BERT」からさらに進化しており、2020年から開発をスタートし、2021年には第一世代、2022年には第二世代が発表されています。
　最大の特徴として、特定の分野に限定されることなく、非常に幅広いテーマについて対話ができることが挙げられます。

　2022年6月には、開発に加わっていたエンジニアから「LaMDAは意識を持つのではないか？」との投稿があり、特に注目を集めました。エンジニアが、「LaMDA」の性能をテストする目的で日常的に対話を繰り返すうちに、とてもAIとは思えない感情や知性に触れた、というのがその内容です。

　ではまず、「LaMDA」の仕組みについて、簡単に触れておきましょう。

　基本的には「大量の文章を学習することで自然な応答ができるようになる仕組み」が「LLM」です。一言でいうと単純ですが、これをどうやって効率的かつ高い精度で実現していくかが重要となります。

　基盤となるアーキテクチャは、自然言語処理におけるディープラーニング（深層学習）モデルである「Transformer」です。「Transformer」は、自然言語処理のブレイクスルーと呼ばれる「Attention」という技術を効率的に利用できるよう、設計されています。

　「Attention」とは、簡単に表現するなら「文章の中のどの単語に注目するべきかを数値化する」技術です。従来の技術では、翻訳などの場面において、文章が長くなるほど精度が低下するという問題がありました。AIが長い文章のどこに注目すれば良いかのメリハリが分からず、正確に翻訳することができないためです。

　そこで「Attention」では、長い文章であっても重要な単語を抽出し、重みづけをすることで、正しく文章を解釈することができるようにしました。
　私たち人間が長い文章を読む時に、経験から大事な単語だけを拾い読みして、大体の文脈を理解するのと同じです。全体に影響のない細かな部分は読み飛ばして、重要な単語だけを追いかければ、大体の内容は把握できます。

　思い切り簡単に言い換えるなら、「逐次翻訳ではなく、斜め読みして理解できるようになった」でしょうか。
　例えば英語学習初心者の場合、とにかく頭から逐次翻訳しようとして失敗しがちです。しかし慣れてくると、文章全体をサッと見てどこが重要か、どんな構造になっているかを把握した上で、正しく翻訳できるようになります。これと同じことがAIでも可能になりました。

　この仕組みは、何も自然言語の理解だけで利用するのではありません。一枚の画像を見て、重要な情報がどこにあるのかを把握する際にも活用できます。画像上にある人物や動物、持っているもの、何をしているか、背景は何か、など重要な情報の塊（パーツ）に注目した上で、画像が何を表しているのかを把握することができます。

　この「Attention」をベースに、大量のデータセットを使い学習した上で、さらに細かいチューニングを施したのが「LaMDA」です。「LaMDA」の特徴として、広範囲のトピックに対応できるという点を挙げました。
　実際に「LaMDA」と対話すると、まるで人間同士が会話しているかのように、移り変わっていくテーマにも適切に対応し、混乱することなく話が続くことに驚かされます。

　「LaMDA」では、自然な対話ができるための指標として、「品質」「安全性」「根拠」の3つの観点をスコア化し、評価しています。
　「品質」では、矛盾やミスがないこと、文脈に沿った具体的な内容であること。さらには人間に近いような、意外性や機知に富んだ会話ができること、などが評価されます。
　
　Googleのエンジニアが、性能チェックでテストしていく中で「AIが意識を持った」と勘違いするのも納得できるレベルです。
　人間にしかわからないと思われていた微妙な文脈やニュアンスを正確に捉え、時には感情を伴うとも思えるような対話をすることができるAIが誕生しました。*注1

進化を続ける「Bard」に搭載されたLLM

　ここまで紹介した内容を見ると、すでに「LaMDA」が十分完成されたLLMのように思えます。しかし、技術の進歩はその歩みを止めず、現在進行形で次々に新たなモデルが開発されています。
　Googleの対話型AIに搭載されたLLMも「BERT」から「LaMDA」へ、さらに「PaLM」、「PaLM2」、「Gemini」へと進化しています。

　「PaLM」・「PaLM2」では多言語対応を果たし、さらに慣用句やなぞなどなど微妙なニュアンスも理解するようになっています。また、学術論文を学習することで、数学的な推論ができたり、高度で専門性の高い分野であっても正確な応答が可能になっています。

　「Gemini」が現時点で最も進化したLLMです。テキストだけに限らず、多様なデータ形式（画像など）にも対応した、マルチモーダルな設計が特徴です。
　スマートフォンでも利用できる軽量なモデルから、クラウド上の高性能コンピュータに搭載して利用する最上位モデルなどが存在しています。

　「Gemini」の最上位モデルである「Gemini Ultra」は、性能評価でChat GPTに搭載されているLLM「GPT-4」よりも優秀であることが示されました。もちろん、評価する内容や条件により、結果が異なる場合もあるでしょうが、現時点で最高性能を持つ最新のLLMであることは間違いありません。

　「Gemini」の特徴として、論理的な機能を強化したPaLMの上位バージョンであることから、プログラミングなどに強い点があげられます。プログラマーにとっては最高のアシスタントとして、業務効率の向上に役立ってくれることでしょう。

　さらに、Googleの各種サービスと連携できることや、マルチモーダル対応で自由度が高いこと。さまざまなアプリケーションに利用できることなどが特徴です。最新の設計であることから、従来のモデルに比べて安全性も格段に強化されており、悪用などへの対策も取られています。*注2

対話型AIの利用場面

　さて、テキスト・画像・音声・動画など幅広い入力に対応し、専門的で高度なテーマから日常的な会話まで、まるで人間のように応答してくれるAI。実際、どんな使い道があるのでしょうか？答えは「ありとあらゆる場面で活用できる」です。

　すでに広く活用されている事例としては、プログラミングのサポートです。すでにプログラマーは、必要な機能を実装するために、ゼロからコードを自分で作るような作業はほとんどおこなっていません。

　世界のどこかに、すでに似たような機能を実現するコードを作成し、アップしてくれているエンジニアがいます。それを検索し、作成中のプログラムに合うようアレンジして実装する。それがプログラミングの作業の大半を占めていることもあります。このような作業を肩代わりしてくれるのが「対話型AI」です。
　
　実際、効率良くコードを検索したり、検索したコードが脆弱性を含んでいないかのチェックなど、決して単純とは言えない作業が多くあります。それをAIが肩代わりしてくれるのですから、飛躍的に作業効率がアップします。

　また、長い文章を含むレポートや論文の要約、ある事柄に関する調査やまとめ、作成したい文章の下書き、アイディアの収集、翻訳作業などなど、Chat GPTを使ったことのある人ならすぐに思いつく用途も当然含まれます。

　さらに医療分野での応用も期待されています。レントゲン画像を正確に読み取り、病気の有無を診断するには、長い年月をかけた専門的な訓練が必要です。実際はその技術を持つ専門家が不足しており、大量の画像診断を必要とする大病院などでは、外部の専門機関に外注することもあります。
　もし万が一、画像診断で重大な病気を見逃してしまうようなことになれば大変です。

　マルチモーダルに対応したAIであれば、これらの作業を効率よく、スピーディかつ正確に診断することができるでしょう。本格的な実用化が進めば、初期の段階で病気を発見し治療に結びつけることも可能になります。医学への貢献は計り知れないほど大きいはずです。

　これまで人間にしかできないとされていた分野であっても、最新のAIが能力を発揮しつつあります。
　すでに画像生成AIなどでは、驚くほど高精細な画像を大量に生成出来るようになり、私たちのこれまでの常識を凌駕する生産性を発揮しています。
　今後は医療・ビジネス以外にも、さまざまな分野での応用で、私たちを驚かせてくれることでしょう。

【まとめ】
　映画「ブレードランナー」では、人工的に作られたアンドロイド（作中ではレプリカント）が登場します。人間と見分けるため、矛盾や不合理な内容を含む質問を投げかけ、反応を見るテストが実施されます。
　アンドロイドには感情面で人間とは異なる性質があり、反応の仕方で判別が可能という設定です。

　さて、現代の対話型AIはこのテストに対してどんな反応をするのでしょうか？ちょっと興味はあるのですが、もしかして「簡単に合格してしまうのでは？」と思うと、少し怖くてまだ試せていません。