1. TOP
  2. ブログ
  3. AI画像生成「Stable Diffusion」用追加学習モデル「Lora」のダウンロードと使い方

AI画像生成「Stable Diffusion」用追加学習モデル「Lora」のダウンロードと使い方

 一昔前は、高額なハードウエアとソフトを準備した上で、膨大な労力をかけてやっと作ることができた、高精細な3D画像やアニメーション。今ではプロンプトに魔法の呪文を入力するだけで、自宅のPC上で簡単に生成することができます。
 画像生成ソフト「Stable Diffusion」では、追加学習モデルと呼ばれる「Lora」を活用することで、背景や服装、モデルのポーズや表情まで細かくアレンジすることができます。

この記事でわかること
 ・画像生成ソフト「Stable Diffusion」と追加学習モデル「Lora」の関係
 ・「Lora」のダウンロード方法・インストール方法
 ・「Lora」を利用する上での注意点

画像生成ソフト「Stable Diffusion」と追加学習モデル「Lora」の関係

 画像生成ソフト「Stable Diffusion」は、プロンプトからテキストを入力することで、目的の画像を自動で生成することができます。
 正確には「Stable Diffusion」は、オープンソースとして公開されている一連のプログラムのことであり、パッケージ化された製品ではありませんので、「ソフト」と表現するのは適切ではないかもしれません。

 ユーザーは「Stable Diffusion」を組み込んだサービスを利用するか、自分でローカルPCやクラウドサーバなどにインストールして使うことができます。Webアプリとして使ったり、日本語に対応しているサービスもあるため、プログラミングに詳しくない方でも比較的容易に利用することが可能です。

 「Stable Diffusion」は、イギリスのスタートアップ企業である「Stability AI」が開発し、オープンソースATとして無料で公開しています。「diffusion」は日本語で「拡散」という意味があり、画像生成AIでは広く使われている「拡散モデル」をベースとしています。

 技術的に詳しく踏み込むとキリがないのですが、簡単にその仕組みを紹介しておきましょう。
 画像生成AIでは、まず1枚の画像にノイズを少しずつ加えていき、その過程を学習します。最後には人間が見ても全く何の画像かわからない、完全なノイズだけになります。

 次に、その画像から少しずつノイズを除去して、元の画像に戻す作業を行います。こうして大量の画像で「ノイズから画像を生成する」方法を学習していきます。

 例えるなら、何もない一本の丸太から彫刻を切り出していくようなものでしょうか?素人には何が何だかさっぱり分からない物が、長年にわたるトレーニングを続けた芸術家であれば、「丸太に埋まっている彫刻作品」が見えるようなものです。

 大量の画像で訓練されたAIは、全く意味がないように見えるランダムなノイズの中から一枚の美しい画像を見つけ出すことができるようになります。

 次に、プロンプトで指定されたテキストに対応した画像を生成する仕組みです。これには「CLIP」という技術が利用されています。「CLIP」は、Open AI社が発表した技術であり、テキストと画像をAIが理解できるよう数値化する事で「テキストの内容に適した画像」を対応させる仕組みです。
 この技術を使うことで、ユーザーが入力したテキストをAIが理解し、それにふさわしい画像を生成することが可能になります。

 ただし、これらの作業を実行するには膨大なマシンパワーが要求されます。例えば512ピクセル×512ピクセルサイズの画像には、約25,000のドットがあり、それぞれが色情報を持っています。そのため、1枚の画像をピクセル単位で操作すると、膨大な計算量が要求されてしまいます。
 それはまるで、「点描」という手法で絵を描くようなものです。スーラの「グランド・ジャット島の日曜日の午後」が点描画としては有名ですが、気の遠くなるような時間と根気が必要となります。
 しかも画像生成AIは、まるで実写と見間違えるような高精細な画像を生成しますので、汎用PCのマシンスペックでは、その計算を実行することができません。

 そこで、この膨大な計算量を軽減する手法として開発されたのが「潜在的拡散モデル」です。一枚の画像の特徴を数値化し、「潜在空間」という特別な空間で処理を施すことで、計算量を軽減することができるようになります。

 これもイメージで例えると、一つひとつのドット(点)に注目するのではなく、絵の中にある特徴を捉え「ここに人物の顔がある」とか「青い空が広がっている」など大きな括りに注目し、数値化する事で計算量を軽減しています。

 上記の例は人間にわかりやすく表現したものですので、実際はAIが「人物」とか「空」を認識している訳ではありません。あくまでAIが理解しやすい括りで分類し、数値化したものですので、実際に数値化されたデータを人間が見ても、何のことかきっとわからないでしょう。

 ここまでに紹介した、いくつかの技術を組み合わせることで、「汎用PCでも比較的簡単に、テキスト入力だけで高精細な画像を生成する」ことができるようになりました。この記事で紹介している「Stable Diffusion」以外にも、「Midjourney」などいくつか人気のサービスがリリースされています。

 では「LoRA」とは、どのようなものなのでしょうか?

 例えば、「Stable Diffusion」のプロンプトに「海辺に佇む女性の横顔」と入力してみます。たったそれだけの情報でも、AIがそれなりの画像を生成してくれますが、ユーザーが望んだものになるとは限りません。入力情報が曖昧すぎて、いくらでも解釈のしようがあるからです。

 アニメ風なのか、写実的なのか、朝か夜か、女性の髪は長いのか、季節は夏なのか冬なのかなど、より詳細な情報をプロンプトに入力していくことで、徐々に希望の画像に近づいていくはず。しかし、そのものズバリの画像を得るには、かなり細かい設定が必要となります。

 このような事情もあり、望んだ結果を得るため適切なプロンプトの入力をする「プロンプトエンジニアリング」という、新たな分野まで登場しています。また、入力文章のことを「呪文」と呼ぶ人もいて、魔法使いのような熟練の技術と知識が必要な場面も出てきました。
 しかし、これでは本末転倒です。本来「誰でも簡単に望みの画像を生成できる」だったはずです。

 実はプロンプトだけの問題だけではなく、細かなチューニングをするためには、追加で学習データを準備する必要もあります。「Stable Diffusion」では、50億枚を超える膨大な数の画像データを学習用として使用していますが、それでは不十分と言われています。

 ここで登場するのが「LoRA」です。

 「LoRA」は、「追加学習ファイル」と言われるもので、「Stable Diffusion」に追加で学習させるためのデータセットです。風景や服装、ポーズなど特定の対象に対して適用し、生成される画像に対してよりきめ細かいチューニングが可能です。
 AI画像生成の自由度を格段に向上させながら、圧倒的に作業量を軽減することができる魔法のツールです。

 「LoRA」のデータセットはいくつかの配布サイトに登録されていますので、そこから自分の望むものをダウンロードし、「Stable Diffusion」に読み込ませるだけで使うことができます。*注1

「Lora」のダウンロード方法とインストール方法

 「Lora」を配布しているサイトとして、有名なのは次の2つです。

 ◯ civitai
https://civitai.com/
 

 ◯ Hugging Face
 https://huggingface.co/

 
 「civitai」での「Lora」のダウンロード方法は以下の通りです。

 1.「Explore all models 」をクリック
 2.メニューの中から「Models」をクリック
 3.右上の「Filters」をクリック
 4.「Model types」の中の「LoRA」と「LyCORIS」にチェック
 5.検索窓にキーワードを入力し、目的にあったモデルを選択
 6.「Download」ボタンをクリックしてダウンロード先を選択

 ※「LyCORIS」は「LoRA」の上位モデルであり、使い方は同じです。

 また、ローカル環境で「LoRA」を「Stable Diffusion」に導入するには次の手順で行います。

 ・「stable-diffusion-webui」フォルダ>「models」フォルダ>「Lora」フォルダを順番にクリックして開き、ダウンロードした「LoRAファイル」を保存

 これだけで、利用する準備は完了です。実に簡単ですよね。

 「Stable Diffusion Web UI」を立ち上げると、「Generate」ボタンの下に花札ボタンがあります。それをクリックするとダウンロードした「LoRA」が表示されますので、指定の「LoRA」を選択すればOKです。
 プロンプトには指定した「LoRA」に対応した『呪文』が自動入力されますので、あとは自分で必要な情報を追加すれば、画像が生成されます。

「Lora」を利用する上で注意すること

 「LoRa」のダウンロードや導入方法、使い方は利用するサイトやシステムによっても異なりますので、自分の環境に合わせる必要があります。

 とは言え「Stable Diffusion」を組み入れたWebサービスなどもありますので、今や「誰もが気軽に画像生成AIの恩恵を受ける」ことができる状況になりました。

 しかし、その際に注意したいのが著作権などの問題です。「LoRA」の中には、許可されていない画像をデータとして利用しているものもあります。特に有名なアニメや漫画の画像などには注意が必要です。
 権利関係に抵触するような画像を間違えて配布したり公開すると、思わぬトラブルに見舞われることになってしまいます。

 このような問題は生成AIだけでなく、インターネットを利用する上で常について回ります。便利なシステムやサービスを利用できる代わりに、さまざまな問題にも意識を振り向けるようにしましょう。安易な行動で取り返しのつかない失敗につながることもありえますので、十分な注意が必要です。*注2

【まとめ】
 話題になったアニメや漫画の実写化について、うまくいくものもあればさまざまな問題を起こして黒歴史となるものもあります。西洋が舞台なのに登場人物が全員日本人で、全くイメージに合わないひどいものもあります。
 画像生成AIがさらに進化し、高品質の動画が自由に作れるようになれば、このような問題もなくなるのかもしれません。

建設・土木業界向け 5分でわかるCAD・BIM・CIMの ホワイトペーパー配布中!

CAD・BIM・CIMの
❶データ活用方法
❷主要ソフトウェア
❸カスタマイズ
❹プログラミング
についてまとめたホワイトペーパーを配布中

■参考文献

注1

romptn 「Stable Diffusionで使える『lora』データを配布しているサイトを紹介!」

https://romptn.com/article/8796

Ainova 「モデルやLoRAがDLできる「Civitai」の使い方や料金を徹底解説!生成した画像の商用利用は可能?」

https://generativeinfo365.com/?p=2470

GRUSOROBAN 「【Stable Diffusion Web UI】追加学習モデルLoRAの使い方」

https://soroban.highreso.jp/article/article-041

PROMPTY 「Stable DiffusionのLoRAとは?ダウンロード方法と導入方法を解説」

https://bocek.co.jp/media/exercise/stable-diffusion/5616/

AI Smily 「Stable Diffusionとは?話題の画像生成AIの使い方・初心者向けのコツも徹底解説!」

https://aismiley.co.jp/ai_news/what-is-stable-diffusion/

「Diffusion model(拡散モデル)とは?仕組みやGAN・VAEとの違いを解説」

https://aismiley.co.jp/ai_news/what-is-the-diffusion-model/

日経XTECH 「「Stable Diffusion」がAIで画像を生成する仕組み、鍵はノイズの除去過程」

https://xtech.nikkei.com/atcl/nxt/column/18/02553/081800002/

@IT 「「Stable Diffusion」でノイズから画像が生成される過程を確認しよう」

https://atmarkit.itmedia.co.jp/ait/articles/2209/30/news052.html

注2

AI Smily 「イラストを自動生成するAI「mimic」は違法なのか。画像生成AIモデルと著作権」

https://aismiley.co.jp/ai_news/mimic-copyright-problem/
    ホワイトペーパーフォームバナー

    【DL可能な資料タイトル】

    • ・プログラムによる建築/土木設計のQCD(品質/コスト/期間)向上
    • ・BIM/CIMの導入から活用までの手引書
    • ・大手ゼネコンBIM活用事例と建設業界のDXについて
    • ・デジタルツイン白書
    • ・建設業/製造業におけるデジタルツインの実現性と施設管理への応用

    詳細はこちら>>>

    PAGE TOP