スポンサーリンク
画像生成AIの代表格の一つ、Stable Diffusion 3がリリースされたのが夏。不評でその後のFLUX.1に話題をかっさらわれたせいなのか、早くもバージョンアップがやってきた。
Stable Diffusion 3.5を早速使ってみた。残念だが3本の手を持つ人間はまだ生成される。うーむ。
画像生成AIについてのまとめはこちら。
夏にはStable Diffusion XLのバージョンアップ、Stable Diffusion 3がリリースされて早速使ってみた。
XLよりはましになったがまだまだプロンプトを工夫しないとだめなのだろうなと思えた。
その一方でStable Diffusionの開発メンバが立ち上げたFLUX.1は素晴らしい。同じプロンプトであっても画質というか題材というか、あるいは学習データが異なるのだろうか。
思ったものに近いものができるので助かる。
そんな中でStabe Diffusion3.5が出たという話を聞いたので早速試してみた。
早すぎるバージョンアップは、FLUX.1の高評価と無縁ではなさそうだ。
いつものようにpython の仮想環境を作り、pipで追加パッケージをインストールするだけだ。
環境はF:\python\sd3_5にpythonの仮想環境をインストールし、F:\ai\sd3.5に実行時に作られるファイルを置く。
詳細なところはHugingFaceに載っている。
なお今回はMediumで試している。
毎度おなじみだ。pythonをインストールしていない人はWindowsストアからインストールしよう。
cd \python
python3 -m venv sd3_5
cd sd3_5\Scripts
activate
gitからダウンロードする。別途git for windowsをインストールしておくこと。
cd F:\ai
git clone https://github.com/Stability-AI/sd3.5
requirements.txtを使ってインストールする。
python -s -m pip install -r requirements.txt
インストールが成功したら、以下のコマンドも実行する。
mkdir models
猫の画像を生成するサンプルがあるのでこれを使ってみる。
python sd3_infer.py --prompt "cute wallpaper art of a cat"
2回実行してできた画像はこちら。
では、ライバルであるFLUX.1と比較する。FLUX.1は以前記事にした省メモリ対応版だ。
プロンプトは以下のもの。
Japanese women wearing a casual dress holding a wine glass with a gentle smile in the restaurant.
FLUX.1の生成画像はこちら。
Stable Diffusion3.5はこちら。
作成時間の詳細などは動画も参照。
Stable Diffusion 3.5になっても手が多いとか幽霊の手が表示されたりはまだまだある。XLよりはもちろん減っているが。
生成される画像の好みはFLUX.1の方なので自分はFLUX.1を使おう。
PR