はじめてのStable Diffusion！ WebUIの使い方入門編

前回の記事では、新しいWebUIであるForgeのインストール手順をStable Diffusionを初めて使う方向けに紹介しました。

まだWeb UIのインストールが済んでいない方はそちらの記事を見ながらインストールしてきてくださいね！

今回は、Stable DiffusionのWebUI Forgeのインストールが終わったばかりの方向けにWebUIの基本的な使い方を紹介します。

使い始めの時に知っておくべきことは全てこの記事で紹介しますので、Stable Diffusionの使い方をサクッとマスターしちゃいましょう！

このページの目次

Stable Diffusion WebUIの画面
画像を生成してみる
- モデルを選択する
- 呪文(プロンプト)を入力する
モデルを入手する
生成される画像のクオリティを上げる
大きいサイズの画像を生成する
- Hires.fixので大きい画像を作る
縦長、横長の画像を生成する
まとめ

Stable Diffusion WebUIの画面

Forgeの画面を起動するとこんな感じになっています。(AUTOMATIC1111もかなり似ていますが、細かいところが違います)

それぞれのエリアの役割をざっくり説明するとこんな感じです。

ものは試し、とりあえず画像を1枚生成してみましょう！

画像を生成してみる

モデルを選択する

まずは↑の画像の ①モデルを選択するというところをクリックしてください。

最初から1つだけ選択肢があると思います。それを選択してください。

これはモデルといって、Stable Diffusionで絵を生成する時の大元の絵柄に関わるものです。

モデルには実写に近いもの、イラスト風のものがあって、数え切れないほどの数がネット上で公開されています。

今後Stable Diffusionを使う上で、好みの絵柄を探し求めてどんどん増えていくでしょう笑

とりあえず今回はデフォルトで用意されているモデルを使ってみましょう！

呪文(プロンプト)を入力する

次は、この画像の②の部分です。

ここは、どんな画像を生成したいかをStable Diffusionに伝えるための部分です。

英語で伝える必要があるため少し難しそうに感じるかもしれませんが、基本は単語や短い文を入力するので英語が苦手でも問題有りません。

2つのエリアに分かれていますが、この2つは↓の様に役割が分かれています。

上の枠は通常のプロンプトです。画像に含めてほしい要素を書き並べます。

下の枠はネガティブプロンプトといって、画像に含めてほしくない内容を書き並べます。

ものは試し、プロンプト(上側の入力エリアに)1girl または 1boy のどちらか好きな方を入力してみてください。

1girl

1boy

入力が出来たら、右にあるオレンジの大きなGenerateと描かれたボタンをクリックしてみましょう！

クリックしてしばらく経つと、オレンジのボタンの下のエリア(色分けした画像でいうと⑤の部分)にStable Diffusionによって描かれた画像が表示されるはずです。

この時点でStable Diffusionすげーとなると思うのですが、同時に「こういう画像が作りたいわけでもないんだよなー」と思ってきませんか？

そんなときは好みのモデルファイルを探しに行きましょう！

モデルを入手する

この記事ではイラスト風のモデルとして超定番のAnythingV5というモデルで説明しますが、他のモデルを使いたい方は好きなものを使用していただいて構いません！

ただ、モデルによって呪文(プロンプト)や設定値による反応具合が違ったりするので、まずはAnythingV5を使用することをおすすめします。

AnythingV5はイラスト風の画像生成用として定番のモデルの一つなので、持っておいて損はないと思います！

それでは、AnythingV5をダウンロードしにいきましょう。

↓をクリックしてください。

万象熔炉 | Anything XL - ink_base | Stable Diffusion Checkpoint | Civitai

下载模型之前，请仔细查看模型介绍 Please review the model introduction carefully before downloading the model モデルをダウンロードする前に、モデル紹介をよく見てくだ...

クリックするとCIVITAIというStable Diffusion用の素材が集まるサイトのAnythingのページが開きます。

ここで、モデル名のAnythingのすぐ下にあるV5.0というボタンを選択した状態で、右にあるDownloadボタンをクリックしてください。

anything_v50.safetensorsというファイルがダウンロード出来るはずです。

このファイルがモデルファイルで、見ての通り約2GBととても大きいファイルです。

Stable Diffusionを使っていると、モデルファイルはどんどん増えますし、生成した画像も溜まっていくのでどんどん容量が食われていきます笑

さて、このモデルファイルですが、使うためには所定の場所に置かなくてはなりません。

models > Stable-diffusion

WebUIを起動するためにwebui-user.batというファイルを起動したと思いますが、そのファイルがある場所と同じところにmodelsというフォルダがあります。

modelsフォルダの中にはStable-diffusionフォルダがあるので、今ダウンロードしてきたanything_v50.safetensorsはそこに置いてください。

ファイルを置いたら、WebUI Forgeの画面に戻り、モデルファイル選択のプルダウンの右にある更新ボタンをクリックしてください。

これで今ダウンロードしてきたモデルファイルがプルダウンから選べるようになったはずです。

早速選択してGenerateしてみましょう！

だいぶ生成される画像のテイストが変わりました。

ただ、まだ画像の完成度が低くないですか？

全体的に雑だし、顔もなんだかちょっと崩れています。

次は生成される画像のクオリティを上げる方法と、顔の書き込みの制度を上げる方法を紹介します！

生成される画像のクオリティを上げる

画像のクオリティを上げる方法は色々あるのですが、まず最初に知っておくべきなのは以下の2つ

クオリティを上げるための呪文を入れて生成する
顔の書き込みを丁寧にしてかわいい・かっこいい顔が描かれるようにする

ひとつめから順番に紹介しますね！

画像のクオリティを上げるための呪文を入れて生成する

Stable Diffusionでクオリティの高い画像を生成するためのセオリーとして、プロンプトやネガティブプロンプトに、画像のクオリティを上げるための呪文を入れるというのがあります。

試しにやってみましょう！

今、プロンプトには1boy、もしくは1girlという呪文だけが入っていると思いますが、そこに呪文を追加して、以下の様に書き換えてみてください(コピペでOK)

(masterpiece:1.5), super fine illustration, 4k, 8k, (high quality:1.1), highly detailed, detailed face, detailed eyes,
1girl,

1行目に色々追加しました。なんだかごちゃごちゃ色々書いてますが、とりあえず内容は理解していなくて大丈夫です。

一般的にクオリティを上げるための呪文は、プロンプトの先頭に書きます。

プロンプトは先頭に近いものほど影響が強くなるので、ハイクオリティな画像が生成される確率を上げるためにクオリティを上げるための呪文は先頭に書くことが多いです。

次に、ネガティブプロンプトが今は空の状態だと思いますが、以下の呪文を入れましょう！

(worst quality, low quality:1.2)

この状態でGenerateしてみましょう！

まだ完璧ではないけど、少し画像のクオリティが上がったような気がしませんか？

今プロンプトとネガティブプロンプトに入力したクオリティを上げるための呪文は生成される画像に大きく影響します。

masterpieceというのは英語で「傑作」という意味の単語でクオリティを上げるための呪文の定番です。

さらに(masterpiece:1.5)という書き方をすることで、その呪文を強調できます。

呪文の「強調」について

コロン(:)の後の数字の大きさに応じて強調の度合いを変えることが出来ます。

また、(masterpiece)の様に単純にカッコ()で囲むだけでも強調出来ます。

数字で強調	カッコだけで強調	強調の倍率	式
masterpiece	masterpiece	1倍
(masterpiece:1.1)	(masterpiece)	1.1倍
(masterpiece:1.2)	((masterpiece))	1.21倍	1.1 × 1.1
(masterpiece:1.3)	(((masterpiece)))	1.331倍	1.1 × 1.1 × 1.1
︙		︙	︙

あまり強く強調しすぎると変なところに影響が出たり、画像全体が崩れたりするので1.1～1.5くらいが無難です。

逆に1未満の数字を指定することで呪文の効力を弱めることも出来ます。

masterpieceの他にもhigh quality(ハイクオリティ)や、detailed face(詳細に書き込まれた顔)、4k, 8kといった画像の品質が上がりそうな呪文を並べています。

また、ネガティブプロンプトには(worst quality, low quality:1.2)という呪文が入っています。

worst quality, low qualityは低クオリティという意味なので、Stable Diffusionに「低クオリティな画像はつくらないで」と指示をしているというわけです。

ちなみに、強調構文は複数の呪文をまとめて強調することが出来ます。

今回のネガティブプロンプトは(worst quality, low quality:1.2)という形でカッコの中に2つの呪文を入れてまとめて強度1.2で強調しています。

強調したい単語のところに入力カーソルを置いてCtrl + ↑↓を押すと簡単に強調度合いを変えられます。複数単語の呪文の場合は範囲選択することで同じ様に変更可能です。

こんな感じで、プロンプトとネガティブプロンプトで品質をコントロールすることで、よりクオリティの高い画像が生成されるように調整するわけです。

なお、品質系の呪文は人によって様々で、いろんな書き方が存在します。色々試してみて自分好みのパターンを見つけてみてください！

顔の書き込みを丁寧にさせる

さっきはクオリティを上げるための呪文をプロンプトにいれることで画像全体のクオリティをあげましたが、それでも生成される画像は顔の表現がちょっと雑であんまりクオリティの高い画像とは言えないと思います。

この問題を解決する一番効果的な方法が、ADetailerという拡張機能を使うこと！

Stable Diffusionに拡張機能を入れることで色々機能を追加できるのですが、ADetailerもそんな拡張機能の一つです。

ADetailerを使うことで、生成される画像の人物の顔部分のクオリティをぐっと上げてくれます。

拡張機能(ADetailer)のインストール

拡張機能のインストールはWebUI上で出来ます。

拡張機能は今後いろんなものを追加していくことになるのと思うので手順は覚えちゃいましょう！

まずは、WebUIのExtensionsと描かれたタブをクリックしてください。

↓こんな画面が開くので、その中にあるInstall from URLタブをクリックしてください

開いた画面にURL for extension’s git repositoryという入力欄があるので、そこに↓のURLをコピペし、Installボタンをクリックしてください。

https://github.com/Bing-su/adetailer

しばらく待つとInstallボタンの下にこんなメッセージが出てきます。

「インストールが終わったからInstalledタブから再起動してね」と言っているので、Installタブを開きましょう。

Installedタブが開かれます。

Installタブには、現在WebUIにインストールされている拡張機能がズラッと並んでいるのですが、今インストールしたADetailerが追加されているか確認しておきましょう。

おそらく一覧の一番下にadetailerという行があるはずです。

確認が出来たらInstalledタブの一番上にあるApply and restart UIというボタンをクリックして、WebUIを再起動しましょう。

しばらく(長いと1分ぐらい)待つとWebUIの画面が再度開かれます。

画面にADetailerという項目が追加されていればインストールは完了です。

ADetailerをONにして画像生成してみる

先ほどインストールしたADetailerの部分をクリックするとADetailerの設定をするエリアが展開されます。

上部のEnable ADetailerにチェックを入れてADetailerを有効にしてください。他の項目は初期値のままでOKです！

では画像生成してみましょう。

先ほどWebUIを再起動したため、プロンプトとネガティブプロンプトが空になってしまっています。

さっき生成したときと同じものを入力しましょう。

(masterpiece:1.5), super fine illustration, 4k, 8k, (high quality:1.1), highly detailed, detailed face, detailed eyes,
1girl,

(worst quality, low quality:1.2)

入力したらGenerateしてみましょう！

顔が丁寧に描かれたイラストが出てくるようになりました！

今回は顔のアップになりやすい呪文で画像生成をしていたので、効果が分かりづらいかもしれませんが、Stable Diffusionは引きの構図になるほど顔などの細かい部分の描写がテキトーになるので、そういう時に絶大な効果を発揮する拡張機能です！

Stable Diffusionで生成された画像で顔がかわいい、かっこいい画像はたいていこの拡張機能が使われていると思っていいです。

大きいサイズの画像を生成する

そこそこいい感じの画像を生成出来るようになってきました。

ただ、生成される画像自体が小さく、アップで見てみると画像がかなり荒いです。

WebUIの画面の↓の部分を見てみるとWidth(幅)もHeight(高さ)も512になっています。

ここを1920×1080とかにすればよいのかと思ってしまいますが、Stable Diffusionはそう単純ではありません。

Stable Diffusionは仕組み上単純に出力サイズを上げてしまうとワケのわからない画像が生成されます。

そこで、いい感じに大きな画像を生成する方法がいくつか用意されているのですが、そのなかの一つで定番になっているのがHires.fix(ハイレゾフィックス)という方法です。

Hires.fixので大きい画像を作る

Hires.fixはWebUIの初期状態から使えるようになっているためADetailerの時のようなインストール作業は不要です。

WebUIの↓の部分を見ると、Hires.fixという項目があるので、◀ボタンをクリックして設定メニューを開いてみましょう。

こんな感じでHires.fixの設定項目が展開されます。

重要な設定項目は以下の通り。

項目名	意味
Upscaler	画像を拡大していく仕組みを選択する
Hires steps	画像拡大のステップ数を指定。0だとSampling stepsと同じ数になる。
Denoising strength	ノイズ除去の強度。数値が小さいほど拡大前の画像が維持される。
Upscale by	画像を何倍に拡大するか

とりあえず試してみましょう、以下の設定でGenerateしてみます。

項目名	設定値
Upscaler	DPM++ 2M Karras
Hires steps	0
Denoising strength	0.7
Upscale by	2

(masterpiece:1.5), super fine illustration, 4k, 8k, (high quality:1.1), HDR, looking at viewer,
1girl, upper body, pink hair, smile, sky, blouse, (side view:0.8)

(worst quality, low quality:1.2), (bad anatomy:1.4), (realistic:1.1), nose, lips, adult ,fat, sad, (inaccurate limb:1.2), extra digit, fewer digits ,six fingers, (monochrome:0.95)

生成された画像をクリックして拡大表示すると、これまでより大きくはっきりしたイラストになっていることがわかると思います。

画像が大きく引き伸ばされただけではなく、線もはっきりして書き込み量も増えています。

ただし、Hires.fixは高画質な大きい画像を生成する時によく使うのですが、生成にかかる時間がかなり長くなります。

また、グラフィックボードのVRAMの消費量も多くなるので、Out of MemoryというVRAMが足りない時のエラーが発生して画像生成自体に失敗してしまうこともあります。

Hires stepやUpscale byを大きい数字にするとどんどんかかる時間もVRAMの消費量も伸びていくので、グラボに余裕がある場合を除いては2～2.5ぐらいに収めておくのが無難です。

縦長、横長の画像を生成する

これまで生成した画像は全て正方形の画像でした。

今回は縦長、横長の画像を生成してみましょう。

さっきちょっと出てきたWidthとHeightをいじれば良いんだろうという予想はつくと思いますが、Stable Diffusionで画像サイズを指定する時は512～768の範囲内で指定したほうがよいと言われています。

あまり大きくしすぎても画像が破綻するわ生成にかかる時間が長くなるわで良いことがないんです。

なので、縦長、横長の画像を生成したい場合は↓の表のとおりのサイズを基準に生成するのがおすすめです。(768を超えなければOK)

	Width(幅)	Height(高さ)
縦長の画像	512	768
横長の画像	768	512

それでは実際に縦長または横長の画像を生成してみましょう。

WidthかHeightのどちらかの数値を768にしてみてください。

Generateしてみましょう！

縦長、横長の画像が生成されましたね！

生成画像のサイズを512×768にしてHires.fixで2倍にすると、生成される画像は1024×1536になります。2.5倍にすると1920×1200になります。

ただ、むやみにHires.fixの倍率を上げていくと絵はおかしくなるわ生成時間もバンバン伸びるわでろくなことにならないです。

Stable Diffusionで4Kの様な画像を効率よく品質を保って作るのは結構難しいので、とりあえず1024×1536でたくさん生成してみて、慣れてきたら大きな画像に挑戦するという感じで考えたほうが良いかもしれません。

まとめ

今回は、はじめてStable Diffusionを使って画像生成する方が、まず最初に覚えるべき内容について紹介しました。

本記事の内容だけで最低限の画像生成は出来るようになっているはずです。

ここからどんどんテクニックを学んで、効率よくハイクオリティな画像を生成する術を身につけていってください！

ここまで読んでいただきありがとうございました！！