さらに進化を遂げたGoogleの大規模言語モデル「PaLM2」とは

2023.11.15

投稿者: chiebo

Googleは、2023年5月11日に開催された開発者向け会議「Google I/O 2023」で、「PaLM」の後継である「PaLM2」について発表を行いました。
Open AIが開発したChatGPTをきっかけに、Googleやマイクロソフトなど、次々に名乗りを上げている「自然言語処理AI」分野における最新情報の一つです。
今回の記事では、この話題について取り上げていきましょう。

この記事でわかること
　・Googleが開発した大規模言語モデルPaLMとは
　・PaLMとPaLM2の違いについて
　・Geminiについて

Googleが開発した大規模言語モデルPaLMとは

まずはPaLMについて、その特徴をおさらいしておきましょう。
PaLMは、Googleが開発した自然言語モデルであり、正式名称は「Pathways Language Model」です。最大の特徴は、1つの言語モデルで複数のタスクに対応できる点です。

一般的な言語モデルは、タスクごとに学習用のデータを準備する必要があります。タスクは「目的」と言い換えるとわかりやすいでしょう。例えば「翻訳」を目的とするなら、それに適したデータセットを準備し、専用の学習モデルを構築する必要があります。

そのため、異なる目的の言語モデルを構築するには、さらに必要となるデータセットを追加して学習し直すか、改めて最初から組み直すという手間がかかります。
これに対してPaLMは、一つの言語モデルで複数のタスクに対応できることから、非常に効率良く汎用性が高い言語モデルです。

例え話をするなら、言語モデルを構築するというのは、学習塾で生徒に受験指導するようなものです。医学部受験生と法学部受験生では当然カリキュラムも異なり、目的の大学や学部によって適した参考書や問題集を揃える必要があります。
もし芸大受験生であった場合、さらに特殊なトレーニングをしないと指導することができません。

ところが、PaLMは超優秀な受験生ですので、医学部でも法学部でも例え芸大であっても、非常に優秀な成績で合格することができるスキルがあります。いわゆる「天才」です。
そのため、開発スピードも大幅にアップし、省コストで応用範囲の広いアプリケーションに活かすことが可能となります。

この超天才であるPaLMを支えるベースとなっているのは、大量のパラメーターとトークン数です。PaLMでは、最大5,400億のパラメーターと7,800億のトークンを使用しています。
ライバルと比較してみると、OpenAIの「GPT-3」のパラーメーター数は1750億、Metaの「LLaMA」は650億ですから、大幅に上回っていることがわかります。

パラメーターとは、例えると受験生が参考書に貼る「付箋」のようなものです。この受験生（PaLM）は、貼った付箋の場所の内容を確実に覚えており、瞬時に思い出すことができる能力を持っています。
当然その数が多ければ多いほど、高難度な入試問題であっても適切な回答を導き出すことができるわけです。

トークンは、1トークンが1英単語に相当しており、7,800億のトークンとはすなわち7,800億もの英単語に該当するデータを学習していることを示しています。
日本の大学入学共通テスト（英語）に必要な語彙力は5,000語程度です。難易度の高い大学入試であっても10,000語以下で十分です。そのことを考えると、PaLMは「語彙力7,800億語」の超天才受験生ということになります。

「Pathways Language Model（PaLM）」の「Pathways」は、Googleが独自開発した機械学習アーキテクチャです。PaLMでは、深層学習に特化したプロセッサー「TPU V4」を、6,144台のニューラルネットワークで結びつけたスーパーコンピューターを利用しています。
このTPUを2つのグループに分けて並列学習させることで、効率的な処理を実現しています。

受験生の例なら「一人で勉強するよりも、ライバルがいた方が捗る」ということでしょうか。お互いに得意分野を教え合い、不得意分野をカバーすることで飛躍的に成長できる。。。無茶苦茶アバウトな例えで申し訳ありません。
それぞれのTPUグループは、与えられたタスク（目的）に対して必要な部分だけ動作するように設計されています。「俺は数学を勉強するから、お前は英語担当な。」みたいな感じです。
「Pathways」は、最小の時間とコストで最大限に成果を出す優れたアーキテクチャとして、PaLMの性能を支えています。*注1

PaLMとPaLM2の違い

では、超天才受験生PaLMの後継であるPaLM2は、どのような部分がさらに進化したのでしょう。

　◯100以上の言語で作成されたソースを学習用に利用

PaLMでソースとして利用していたのは基本的に英文であり、必要に応じて一部多言語のテキストを利用していました。
PaLM2では、最初から100以上の言語で作成されたさまざまな文章をソースとして投入していますので、多言語に強いという特徴があります。

　◯科学論文やソースコードを学習用に利用

ネットに氾濫する真偽の良くわからない雑多な文章だけでなく、科学論文やコースコードなどを学習用データとして活用しています。そのため、論理的な文章の作成・解析・推論に強く、多数のプログラミング言語にも対応することができるようになりました。

ChatGPTは優れた文章生成AIですが、基本的に質問に対して「Web上に存在する情報の中から、平均的な結果」を自然言語で返すだけのツールです。その内容が真実かデマかの判断はしていません。
質問を受けたらパッとネット検索。出てきたサイトを斜め読みしただけで、もっともらしい回答をする人のようなものです。

しかしPaLM2は、科学論文などで鍛えられた論理力を発揮し、人間のような推論を構築できる可能性があります。より正確で信頼性の高い回答をしてくれる「専門家」としての活躍が期待できるでしょう。

◯4つのモデルがあり、幅広いデバイスや用途に対応

PaLM2には、Gecko（ヤモリ）・Otter（カワウソ）・Bison（バイソン）・Unicorn（ユニコーン）と名付けられた4つのモデルが存在します。
一番軽量なGeckoは、モバイル端末でも動作可能で、オフラインでも十分な結果を出すことができます。
このようにサイズの異なるモデルを準備することで、幅広い製品をカバーできるという優れた特性を持ちます。実際、25を超えるGoogle製品や機能にすでに搭載され、サービスの質の向上に役立っています。BardやGoogle Work Spaceなどをはじめとし、将来的には新しい検索サービス（SGE）にも活かされる予定です。

PaLM2は例えるなら、初めからマルチリンガルとして育てられ、優れたライバルと共に充実した学生生活を送ったのち、全ての学科で最優秀レベルの成績を納めて卒業。
医師国家試験や司法試験にも楽々パスし、あらゆる開発言語でコードを生成できるウィザード級のプログラマーでもある超天才。
卒業後は、小規模のショップの窓口業務からグローバル企業を支える業務までマルチに活躍するスーパーエリートとしてだけでなく、ジョークも理解するなどの魅力的な一面も持っています。

ほんと、人間なら非の打ち所がないスーパーマンです。実際に存在したらこんな頼りになる同僚はいないでしょう。*注2

PaLM2の後継であるGeminiについて

PaLM2は、いくつかのタスクに特化したバリエーションがあります。プロンプトに入力された指示に従って、分類・抽出・要約・コンテンツ生成などを実行する「PaLM2 for Text」。
関数・Webページ・単体テストのコード生成などを得意とする「Codey for Code Generation」。
書きかけのコードを保管することでバグの解消や開発の高速化を支援する「Codey for Code Complition」。

他にもセキュリティ分野に強い「Sec-PaLM2」や、医療分野に特化した「Med-PaLM2」など、幅広いニーズに対応し柔軟にアレンジできることが特徴です。

このように、もはや完璧に思えるPaLM2ですが、AIの進化はまだ途上です。GoogleはPaLM2の後継であるGeminiについてもすでに開発中であり、次を見据えた動きを着々と進めています。

Geminiに関しては、マルチモーダル（テキスト以外にも画像などの入力）に対応する予定であることがアナウンスされています。いずれはカメラやマイクなどのデバイスとも接続し、ユーザーが指を差しながら「これ何？」と言えば説明してくれるようなAIが登場するのでしょう。
2足歩行ロボットに組み込まれると、誰もが待ち望んだ「ドラえもん」の世界が実現しそうです。

【まとめ】
ChatGPTの登場を契機として、言語モデルの進化とアプリケーションへの応用が爆発的に拡大しています。世界をリードするIT企業であるGoogleやMeta、マイクロソフトなどに加え、OpenAIといったベンチャーが次の覇権を狙って精力的に開発を進めていることが大きな要因です。
AI・言語モデル・機械学習は、間違いなくここ10年で最もホットなテーマとして、これからも進化と発展を続けていくでしょう。