1. TOP
  2. ブログ
  3. Google GeminiのマルチモーダルAIを使ってみた!PC&スマホアプリ無償版の使い方も解説

Google GeminiのマルチモーダルAIを使ってみた!PC&スマホアプリ無償版の使い方も解説

Chat GPTなどのAIサービスを使っていますでしょうか?

メールの文章を作成したり、知りたいことを検索してまとめてくれたりと、AIはかなり人間に近い働きをするようになりました。

さらに、最近ではテキスト入力だけでなく、画像や音声などの複数の情報からもデータを処理できるようになっています。

それが「マルチモーダルAI」と呼ばれる新しい生成AIです。(*1)

今回は、2024年2月8日にスマホ向けアプリがリリースされたマルチモーダルAI「Google Gemini」についてご紹介します。(*2)

最新のAIを活用して、毎日の生活をもっとラクに、便利にしていきましょう。

この記事を読むと以下の3つのことがわかります

1.マルチモーダルAI「Google Gemini」とはどんなものか
2.マルチモーダルAI「Google Gemini」の使い方
3.ほかのマルチモーダルAIと「Google Gemini」の違い

「Google Gemini」のマルチモーダルAIとは?

「Google Gemini」とは、Googleが開発しているマルチモーダル生成AIモデルです。

マルチモーダルAIとは、2種類以上の情報をまとめて処理できるAIのことです。(*1)
これまでのAIモデルは、テキストならテキストのみ、画像なら画像のみという一つの情報源からしか処理ができませんでした。
しかし、マルチモーダルAIは、画像と音声など、異なる種類の情報をまとめて処理することができます。

そのため、動画の映像と音声を同時に処理したりと、複雑な対応ができるようになりました。

「Google Gemini」のマルチモーダルAIでできること

ここからは、「Google Gemini」マルチモーダルAIでできることを見ていきましょう。

画像のキャプションを考える

「Google Gemini」のマルチモーダルAIは、画像のキャプションを考えることが可能です。(*2)

例えば、スマホのカメラで撮影した写真をAIに見せながら「この写真のキャプションを作って」と頼んでみます。
すると、画像を分析しながらテキストの指示に従って、キャプションを提案してくれます。

画像引用:Google Gemini

従来の生成AIの機能と、マルチモーダルAIの複数の情報をまとめて処理できる機能により、「画像を見ながらテキストを考える」という、人間のような複雑な処理ができるようになっています。

料理の名前と作り方が回答できる

例えば、SNSで気になる料理があったとします。
スマホで写真を撮り、「Google Gemini」に「これは何ていう料理?」と聞くと、画像の料理の名前を表示してくれます。(*2)

画像引用:Google Gemini

さらに「この料理のレシピを教えて」と聞くと、くわしいレシピを表示することもできます。

画像引用:Google Gemini

パンクしたタイヤの対処方法を提案できる

外出先で、自転車のタイヤがパンクして困ったことはないでしょうか?
「Google Gemini」のマルチモーダル生成AIを使うと、パンクしたタイヤの修理方法を検索することも可能です。(*2)
パンクしたタイヤの写真をスマホで撮影して、Google Geminiに「対処方法を教えて」と質問すると、今できる対処方法を回答してくれます。

画像引用:Google Gemini

これまでの生成AIだと、回答を得るには、テキスト入力でパンクについて説明しなければなりませんでした。
しかし、マルチモーダル生成AIは画像とテキストをまとめて処理できるので、説明が難しいところは、画像を見せることで説明することができます。
これまで以上に素早く、知りたい情報が得られますね。

「Google Gemini」マルチモーダルAIの使い方

「Google Gemini」のマルチモーダルAIは、かなり複雑な処理ができることがわかりました。
毎日の生活で、使ってみたい場面が思い浮かんだのではないでしょうか?
ここからは、マルチモーダルAI「Google Gemini」の使い方を見ていきましょう。

Google Gemini Proモデルなら無償で使える

「Google Gemini」には3つのモデルがあります。(3) 上から、Ultra、Pro、Nanoの3サイズとなっており、PCでは最上位モデルのUltra 1.0搭載の「Gemini Advanced」が利用できます。 「Gemini Advanced」の利用は有償で、Google Oneの「AI プレミアム」プランに加入する必要があります。(4)

しかし、チャットボット「Bard」(現在の名称はGemini)(2)でGemini Proが利用可能になったため、Proの機能は無償で試すことができます。(6)

Google Gemini

https://gemini.google.com/app

また、2024年2月8日には「Gemini Pro」と「Gemini Advanced」のモバイルアプリがリリースされています。(*5)
こちらも、「Gemini Pro」は無料で使えますが、「Gemini Advanced」を利用する場合は有償となります。
モバイルアプリは、AndroidではGeminiアプリ、iOSではGoogleアプリ内で利用できます。

「Google Gemini」の料金は?

スマホ向けの「Geminiアプリ」は無料でダウンロードできます。
PCやスマホで「Gemini Advanced」を使う場合は、月額2900円(税込み)のGoogle Oneの「AI プレミアム」プランに加入することとなっています。(*4)

2か月の無料トライアルもありますが、無料トライアルを利用するには、Googleアカウントにお支払い方法を登録する必要があります。

対応言語は英語のみ

スマホ向けの「Geminiアプリ」もPCの「Gemini Advanced」も、英語版のみの提供です。
日本語対応は、リリース日の2月8日の次週からの提供予定となっています。(*2)

日本語版「Bard」でも英語でテキストを入力すると、画像生成をすることも可能です。
こちらの画像のように、英語で「猫の画像を生成して」と入力すると、猫の画像を複数生成してくれます。

画像引用:Google Gemini

「Google Gemini」マルチモーダルAIと他のAIとの違いは?

「Google Gemini」マルチモーダルAIと他のAIは、何が違うのでしょうか?

「Google Gemini」はAIモデルの能力テストで、人間の専門家を上回る結果を出しました。(*3)
この結果は、GPT-4を超える数値となっています。
また、自然画像のOCRやインフォグラフィックの理解でも、GPT-4を上回っています。

「Google Gemini」とGPT-4の違いは、開発過程にもあります。
「Google Gemini」は、開発のスタート段階からマルチモーダルAIとして開発されています。(*3)
複数の異なる情報を処理するためのテストを繰り返しているため、マルチモーダルAIとしての能力が高い生成AIモデルとなっています。

対して、GPT-4のトレーニング方法は非公開とされています。(*7)
当初はシングルモーダルAIとして開発されていたことから、シングルモーダルAIとしてのベースを保ったまま開発を重ねてきたことが予測できます。

こうした開発環境の違いが、最終的な能力の違いとなって数字に表れているのではないでしょうか。

まとめ

2024年2月16日には、Gemini Proで利用できる最新バージョンのGemini 1.5 Proがリリースされました。(*8)
Gemini 1.5 Proは、最高モデルのGemini 1.0 Ultraとほぼ同レベルの動作ができるとされています。
動画なら1時間、コードなら30,000行以上を処理することが可能です。
困ったことがあるけど誰かに聞きづらいときや、周りに人がいないときは、Google Geminiに相談してみてはいかがでしょうか。 

建設・土木業界向け 5分でわかるCAD・BIM・CIMの ホワイトペーパー配布中!

CAD・BIM・CIMの
❶データ活用方法
❷主要ソフトウェア
❸カスタマイズ
❹プログラミング
についてまとめたホワイトペーパーを配布中

◆参考URL

*1 Softbank『AI用語解説 マルチモーダルAI』

https://www.softbank.jp/biz/solutions/generative-ai/ai-glossary/multimodal-ai/

*2 Google Japan Blog『Bard から Gemini へ:Ultra 1.0 とGemini アプリを発表』

https://japan.googleblog.com/2024/02/bard-gemini-ultra-10-gemini.html

*3 Google DeepMind『テクノロジー』

https://deepmind.google/technologies/gemini/#capabilities

*4 Google One『Gemini Advanced』

https://one.google.com/explore-plan/gemini-advanced?utm_source=gemini&utm_medium=web&utm_campaign=gemini_advanced_announce

*5 ケータイ Watch『グーグルの最新AI「Gemini」がスマホアプリとして登場――BardはGeminiに改名、最高モデル「Gemini Ultra」も有料サービスで登場』

https://k-tai.watch.impress.co.jp/docs/news/1567595.html

*6 Google Japan Blog『日本語の Bard でも Gemini Pro が利用可能に。 あわせて、回答を確認するダブルチェック機能も公開。』

https://japan.googleblog.com/2024/02/bard-gemini-pro.html

*7 PR TIMES『GPT-4 について詳しく学ぶ: GPT-4 とは何か、およびその使用方法 [HIX GPT 4 バージョンアップ]』

https://prtimes.jp/main/html/rd/p/000000003.000131648.html

*8 Google Japan Blog『次世代モデル、 Gemini 1.5 を発表』

https://japan.googleblog.com/2024/02/gemini-15.html

    ホワイトペーパーフォームバナー

    【DL可能な資料タイトル】

    • ・プログラムによる建築/土木設計のQCD(品質/コスト/期間)向上
    • ・BIM/CIMの導入から活用までの手引書
    • ・大手ゼネコンBIM活用事例と建設業界のDXについて
    • ・デジタルツイン白書
    • ・建設業/製造業におけるデジタルツインの実現性と施設管理への応用

    詳細はこちら>>>

    PAGE TOP