AI画像生成「Stable Diffusion」で使えるおすすめのLoRAは？

2024年8月1日 2024年6月21日

chiebo

　自然言語で対話できるChatGPTの登場から、次々にAIが活躍するサービスが生み出されています。今、間違いなくホットな分野は、画像生成関連のAIではないでしょうか？
　今回の記事では、その中でも「Stable Diffusion」を使って生成される画像を、自分好みにチューニングできる追加学習用の「LoRA」についてまとめていきましょう。

この記事でわかること
　・画像生成AIの種類について
　・追加学習モデル「LoRA」の役割
　・おすすめの「LoRA」

画像生成AIにはどんなものがあるか

　画像生成AIは、今とても人気が高まっており、さまざまな企業が参入して数多くのサービスを提供しています。有料だけでなく無料でも使え、特定のプラットフォーム上で動作するものからローカル環境で動くものまで、非常にバリエーションが豊富です。

　1）Midjouney

　チャットツールの「Discord」上で動作する画像生成AIです。プロンプト入力だけでなく、豊富な機能やパラメータ（設定）が備えられてる点も魅力です。
　あとで紹介する「Stable Diffusion」と並んで、画像生成AIを代表するサービスと言えるでしょう。

　以前は無料のお試しプランがありましたが、現在は廃止されています。「Basic Plan」から「Mega Plan」まで4つのプランが設定されています。「Basic Plan」では、月額料金10ドルで最大200枚までの画像を生成することができます。

　2）Stable Diffusion

　英国のAI企業である「Stability AI」が開発した、オープンソースAIです。オープンソースであることから、「Stable Diffusion」をベースにして、多くの企業が独自のサービスを提供しており、LINE上で使える「AIイラストくん」やWeb上で使える「Leonardo.AI」などがあります。

　「Stable Diffusion」は、「Dream Studio」「StableDiffusion Online」「Hugging Face」などのWebサービスで利用することができます。さらに、自分のPC上に環境を構築して利用する方法もあります。これなら利用料金や枚数制限を気にすることなく使えますが、それなりのマシンスペックが要求されます。

　3）その他の画像生成AIサービス

　「Midjourney」をベースに開発された「にじジャーニー」は、漫画やアニメのような2次元画像に特化しており、Discord上や専用アプリで利用できます。月額10ドルから利用でき、画像の生成枚数に応じて変動します。

　「DALL・E3」は、ChatGPTやBing AIなどのサービス上で利用できます。日本語で画像生成ができるため、他のサービスに比べて使いやすい仕様となっています。「Bing AI」であれば無料で使えますが、「ChatGPT」で利用する場合は有料契約が必要です。

　「Adobe Firefly」は、Adobe社が開発・提供している画像生成AIです。Web上で動作するため、PCスペックを気にする必要はありませんし、著作権にも配慮した設計のため、安心して商用利用できるという利点があります。

　すでに「Adobe Creative Cloud」や「Adobe Stock」の契約をしている方の場合、「Adobe Firefly」のクレジットが付属している場合があります。ユーザーアカウントから確認できますので、興味のある方は調べてみてください。
　基本契約は月額680円で100クレジット（100枚の画像が生成できる）からとなっています。

　他にも「Novel AI」や「mimic」など、特徴のあるサービスがありますので、目的やスキルなどによって使い分けると良いでしょう。

追加学習モデル「LoRA」の役割について

　では実際に「Stable Diffusion Web UI」を使った、画像生成の手順を見ていきましょう。本稿ではすでに「Stable Diffusion Web UI」がローカル環境にセッティングされているものとします。

　プロンプトに希望する画像に対応した文字列を入れていきますが、「Stable Diffusion」は日本語に対応していませんので、英語で指定する必要があります。

　例えば、「美しい日本人の女性が山を背景に白い服を着て立っているところ」を画像化したい時には、「1 beautiful woman,standing,a mountain in background,white cloths」などと入力すればOKです。
　単語はカンマで区切って複数指定することができますが、矛盾する内容を記載しないようにしましょう。

　選択したモデル（checkpoint）に従い、指定したプロンプトの条件に合う画像を、たったこれだけの文字列で生成してくれます。最初はこのことだけでも十分驚きに値すると思いますが、しばらく試していると「もう少し細かな部分まで指定したい」と思い始めます。

　「プロンプトに文字列を入力するだけで簡単に画像が生成できる」というものの、思い通りの画像を手に入れたい場合、それほど簡単ではありません。
　「プロンプトエンジニア」という言葉が生まれるほど、入力するワードによって画像の出来上がりに差が出てしまいます。

　出力される画像の品質を向上させるには、以下のような定番ワードがあります。

　・画質を向上させる：best quality / HD / 8K / masuterpiece　など
　・画風を指定する：digital painting / photorealistic / water color　など
　・ポーズを指定する：standing / selfie / back view　など
　・背景を指定する：sky / room / nature / background　など

　またネガティブプロンプトに、反映させたくない要素を指定することも重要です。「Stable Diffusion」は指の表現が苦手なこともあり、「bad hands」を指定することも多いようです。
　文字が入るのを防ぐ「text」や「watermark」なども、よくネガティブプロンプトに入力される定番ワードです。

　プロンプトに入力する要素は、前の方ほど優先される傾向にあります。特に強調したい時は、半角( )で要素を囲んでください。
　さらに( masterpiece : 1.1 )などのように、反映させる度合いを数値で指定することもできます。1を基準とした数値を用い、大きくなるほど反映の度合いが強くなります。

　このようにモデルを選択して、プロンプトに入力する内容を工夫しても、なかなか思い通りの画像が得られないことがあります。そんな時には、簡単に出力結果をチューンできる「LoRA」を利用すると、思い通りの画像を生成することができます。

　例えば、美容室に行ってヘアスタイルを説明する場面を想像してみてください。ちゃんとした理容室であれば「お任せ」でも、それなりには仕上げてくれるでしょう。しかし、「こんなヘアスタイルにしたい」という明確な希望があれば、それを伝える必要があります。

　しかし、言葉で細かく説明するのはなかなか結構難しいものです。そんな時に役に立つのが「スタイルブック」です。いろんなヘアスタイルのモデルが載っているため、そのページを開いて「こんな感じで」で伝えることができます。
　後は多少言葉で補うことで、自分がイメージするヘアスタイルに仕上げてもらえるでしょう。

　簡単に言うと追加学習モデル「LoRA」は、このスタイルブックのようなものです。
　キャラクターや背景、ポーズ、オブジェクトなど種類別にさまざまな「LoRA」があり、サイトからダウンロードして「Stable Diffusion」に組み込むだけで、イメージする画像を生成することができるようになります。

おすすめの「LoRA」について

　では実際にいくつかの作例を示しながら、おすすめの「LoRA」を紹介していきましょう。

　モデル（checkpoint）は＜chilled_remix_v2＞を使いました。これはアジア系のリアルな美女を生成するモデルです。

　プロンプトには「masterpiece, best quality, ultra high res, extremely realistic,1 beautiful woman,standing,white cloth,beautiful eyes, detailed eyes, detailed hair,light on face 」と入力しました。日本語で言うと「白い服を着て立っている目の綺麗な美人」みたいな感じです。

　ネガティブプロンプトにも「余計な手足はつけない」とか「ゾンビみたいなのはダメ」など多くのNG項目を入れましたが、かなり冗長になりますので、ここでは紹介を省きます。
　
　とりあえず「LoRA」は何も適用せず、生成したのが次の画像になります。

　M1チップ搭載のMacbook Proであれば、インスタントコーヒーを注いで戻ってくるぐらいの時間で1枚生成されました。簡単なプロンプトにしては、なかなか良い出来に思えます。

　これに背景を暗くする「LoRA」を適用してみましょう。「LowRA-OFFSET NOISE」という「LoRA」で、「civitai」からダウンロードすることができます。

　
◯civitai

　背景が暗くなり、妖艶な感じが出てきました。

　中東あたりにいそうなアジア系美人ではあるのですが、「LoRA」を使って日本人女性に変えてみましょう。若い日本人女性を生成するモデルである「JapaneseDollLikeness」という「LoRA」を使います。

　「JapaneseDollLikeness」は一時、civitaiから消えていましたが、現在はバージョンアップしたものがダウンロードできるようになっています。

　20歳前後ぐらいの日本人女性の画像をうまく生成することができました。

　このシリーズは他にも「韓国女性風」などもあり、バリエーションが豊富です。

　また「LoRA」は、複数組み合わせて使うことも可能です。「LowRA-OFFSET NOISE」と「JapaneseDollLikeness」を同時に適用すると、次のような画像が生成されます。

　このように、人種や年齢などをある程度限定したキャラクターの生成や、背景、ポーズ、オブジェクトに関するものなど、「LoRA」にはさまざまな種類が存在します。

　civitaiなどのサイトに大量のモデルがあり、登録すれば無料で利用することができます。

　他にも3Dアニメ風の画像を生成できる「Hipoly 3D Model LoRA」や、モデルのパーツを細かく設定したいときに使う「Add More Details」、3Dのちびキャラを生成する「blindbox」など、幅広いモデルがあります。

　探せば目的のモデルが必ず見つかるのでは？と思えてしまうほどです。

【まとめ】

　今回は「Stable Diffusion」で使える「LoRA」についてまとめてみました。全体の流れがわかるように、細かい部分を省略しながらではありますが、まだ扱ったことのない方でも大体のイメージは掴めたのではないでしょうか。

　非常にクオリティの高い画像やイラストが、絵心のない私でもコーヒー1杯飲む間に作れてしまいます。AIの発達には驚かされてばかりですね。

株式会社キャパからのお知らせ

カスタマイズ開発を主軸とした、CAD×AI活用セミナーを開催します。

お申込み受付中です。ぜひご活用ください。

プログラムの詳細・お申込みはこちらから

カテゴリー: AI、トレンド

画像生成AIにはどんなものがあるか

追加学習モデル「LoRA」の役割について

おすすめの「LoRA」について

この記事を読んだ人は、こちらの記事も読んでいます。