本ページはプロモーションが含まれています。

おしらせ

【画像生成AI】Stable Diffusion3をためしてみた

最終更新：2024年8月13日
投稿：2024年7月16日

Jisaku8

画像生成AI

購入、周年レビュー

画像生成AIの代表格の一つ、Stable DIffusion 3がリリースされたので早速使ってみた。以前のように人間の写真を生成すると腕が3本あるとかそういうことが多かったのだが、今回は少なくなった。進化したな。

画像生成AIについてのまとめはこちら。

" >

ChatGPTの登場でAIが身近になった。画像生成AIも身近になり、自作PCでいろいろ試している。

開催中のセール、キャンペーン情報

Stable Diffusion3のリリース

昨年出ていたものはStable Diffusion XLだった。それまでのStable Diffusionと一部互換性がないという話があった。
どういう画像を生成できるのか、またどのくらいの時間で生成できるのかを試してみた。Ryzen 5700XとRTX3060で実行してみた。
詳細は下のリンクからどうぞ。

" >

【自作PC】AI対応自作PC　8代目、Jisaku8の構築　(11)Stable Diffusion XLを使うその１

自作PC7代目のJisaku7の調子が徐々に悪くなってきた。壊れると日々の作業に支障があるので、ちょっと早めだがちょうどセールがあったので自作PC8代目のJisaku8を作ることにした。この連載は自作PCのパーツ選び、 […]

プロンプトもよくわからない状況で使ってみたら、奇妙な画像ばかり作られてげんなりした。
その後いろいろな画像生成AIが出たり、Stable Diffusionのフロントエンドをするソフトウェアが出たりでプロンプトの文字が少なくてもまともな画像ができるようになった。

" >

【ANIMAGINE XL 3.0】アニメ調の静止画生成AIを試してみた

画像生成AIの火付け役になったStable Diffusion の派生ソフトウェアの、アニメ調の静止画を作成するAimagine XL 3.0を試してみた。画像生成AIについてのまとめはこちら。 Animagine X […]

" >

【OPENDALLE】OSSの静止画生成AIを試してみた

DALLE-3に似たOSS、OPEN DALLEがリリースされている。PCにインストールしてSDXLとの使い勝手の差を確認した。画像生成AIについてのまとめはこちら。 OPEN DALLEとは OPEN DALLEはプ […]

そんな中でStabe Diffusion3が出たという話を聞いたので早速試してみた。

インストール・準備

最初のころはかなりてこずったが、最近はすんなりと使えている。
いつものようにpython の仮想環境を作り、pipで追加パッケージをインストールするだけだ。
環境はF:\python\sd3にpythonの仮想環境をインストールし、F:\ai\sd3に実行時に作られるファイルを置く。

詳細なところはHugingFaceに載っているのだろうが、自分が読んでもわからないところがあったので、一部試行錯誤している。

HuggingFace

１　Pythonの仮想環境作成

毎度おなじみだ。pythonをインストールしていない人はWindowsストアからインストールしよう。

cd \python python3 -m venv sd3 cd sd3\Scripts activate

２　pipで追加インストール

いつものようにtramsfermerやtorchをインストールする。torchはdGPU対応版を指定する。いつもと違うのは、最初のコマンドだ。これは先のHungingFaceに書かれている。
pip install --upgrade diffusers pip install transformers pip install Image pip install torch -f https://download.pytorch.org/whl/torch_stable.html

HuggingFaceに書かれている猫の写真から生成するプログラムを実行した。しかし動かない。
HuggingFaceを改めて読むと、先に認証しないといけないようだ。

Stable Diffusion3 認証エラー

トークン作成

HuggingFaceでトークンを作成して、先ほどの画面で読み込ませないといけないようだ。
まずは開いて、トークンに必要な情報を入力する。

トークン作成

Stable Diffusion3 　登録

赤線のあるName,Email,Organization or Affiliationを入力する。CountryにはJapanだ。下のAgree and access repositryをクリックして完了だ。

続いてトークン作成ページに行き必要な情報を記入する。トークン名はSD3だ。

Stable Diffusion3 　登録

そしてトークン作成画面にてトークンを作成する。忘れずにトークンをテキストファイルなどに記録しておこう。

Stable Diffusion3 　トークン

続いてさきほどのコンソールからかきコマンドを入力して、トークンを貼り付ける。

huggingface-cli login

これでレポジトリからの訓練済みデータのダウンロードができるようになったはず。

サンプルを実行

猫の画像から生成するサンプルがあるのでこれを使ってみる。
生成した画像を保存できるように、後半を改造している。

しかし、エラーになった。
ValueError: Cannot instantiate this tokenizer from a slow version. If it's based on sentencepiece, make sure you have sentencepiece installed.

ググるとtransformersのインストールをちょっと変える必要がありそうだ。
pip install transformers[sentencepiece]

これでエラーにならず実行できるようになった。

Stable Diffusion3 作例

数回やったがいろいろな写真が作られた。

テキストからの生成

では、プロンプトからの生成を試してみよう。
長いダウンロード時間を終えて、数分で1枚画像ができた。

Stable Diffusion3 　ローディング

こちらもサンプルからソースコードを作成した。

import torch from diffusers import StableDiffusion3Img2ImgPipeline from diffusers.utils import load_image import datetime pipe = StableDiffusion3Img2ImgPipeline.from_pretrained( "stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16 ).to("cuda") init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png") Parray = [ "A cat holding a sign that says hello world", "A dog holding a sign that says hello world", "A mouse holding a sign that says hello world", "A horse holding a sign that says hello world", "A cow holding a sign that says hello world", "A dinasor holding a sign that says hello world", "Tokyo, Shibuya, crossing, many people", "Shinkansen", "Tokyo sightseeing spot, best10", "anmal holding a sign that says IrvineのもっとPC自作日記", ] Loop = 3 for prompt in Parray : for loop in range(Loop): image = pipe(prompt, image=init_image).images[0] dt_now = datetime.datetime.now() month = "00"+str(dt_now.month) day = "00" + str(dt_now.day) hour = "00" + str(dt_now.hour) min = "00" + str(dt_now.minute) sec = "00" + str(dt_now.second) filename = str(dt_now.year)+month[-2:] + day[-2:] + hour[-2:] + min[-2:] + sec[-2:] image.save(filename + ".png")

1枚3分前後でできている。

Stable Diffusion3　生成中

できた画像はこちら。プロンプトは上のソースコードを参照。まずはHello Worldの看板を持つ動物たち。

東京渋谷の交差点で作成。

Stable Diffusion3 作例

新幹線で作成。新幹線はありそうだけど、ホームの形状がちょっと違う。最近はホームドアが多いし、黄色のブツブツしている線が太すぎ。

Stable Diffusion3 作例

東京の観光、10選。どこの寺？

Stable Diffusion3 作例

作成時間の詳細などは動画も参照。

まとめ

Stable Diffusion XLのときのように手がたくさんある人間が作られることは少なくなった。でもなくなってはいない。
またちょっと試してみるか。
なお、UIはComfyUI が推奨とのこと。前から来ている名前ではあるが使ったことがないので試してみるかな。

それからpipで下のコマンドを入れ忘れているようだ。入れて実行していないが何度も警告が出ていたのでインストールすべきだろう。
pip3 install accelerate

GPU

HuggingFace

Irvine

PC自作

著者プロフィール

irvine

　ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
　仕事でUS,UK,SGなどの国とかかわる。
　自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
　新しい機器、サービスに興味あり。年数回のレビュー（自腹購入、ご依頼）と発表されて興味があるものの新製品机上レビューをやっている。
　2022年はJAPANNEXT様のアンバサダーを務めました。