スポンサーリンク
画像生成AIの代表格の一つ、Stable Diffusionの開発者が作ったFLUX.1をリリースして1年が経ち、後継のFLUX.2がリリースされた。要求スペックが高そうなので無理だろなと思っていたら、こうすればできるという記事を見かけてたので、試してみた。
画像生成AIについてのまとめはこちら。
FLUX.1の記事はこちら。
FLUXシリーズは画像生成AIの代表格であるStatbke Diffusionを作ったメンバが新たに作ったAIだ。Black Forest Labが開発している。
その成果はHuggingFaceで公開されている。
WEBで調べるとGPUのメモリは16GB以上が必要らしく、我が家のRTX3060/12GBでは無理だなとあきらめていた。
ところが、このGPUのスペックでも画像生成できたという記事を見つけ、じゃやってみようかなと思った次第だ。
以下の記事を参考にした。この記事がなければやってみようと思わなかったので感謝。
ComfyUIでFP8/GGUF版のFLUX.2 devを試す(VRAM 16GB以上)
以下はこの記事に沿って以下の手順で実施している。ちなみにFP8でやっている。
それから使ったPCは2年前に作った自作PCのJisaku8で、以下の仕様だ。
以下のWEBサイトからWindows用のポータブル向けパッケージをダウンロードした。ポータブル用のものを選択した理由は、FLUX.1を設定している旧バージョンのComfy UIを削除したくなかったので。FLUX.2を試しても実用的ではない時間がかかるようならFLUX.1を再度使えるようにしたい。そう考えたためだ。


FLUX.2 dev Comfy UI ダウンロード
上記の参考サイトの情報を引用する。詳細は上記サイトを参照。巨大なファイルなのでまあまあ時間がかかる。
https://huggingface.co/Comfy-Org/flux2-dev
split_files/diffusion_models/
flux2_dev_fp8mixed.safetensors (33.0GB)split_files/text_encoders/
mistral_3_small_flux2_fp8.safetensors (16.7GB)split_files/vae/
flux2-vae.safetensors (320MB)
詳細を知りたい場合はこちらを参照。


FLUX.2 dev 出典:HuggingFace
こちらも上記の参考サイトの情報を引用する。詳細は上記サイトを参照。1でComfy UIを配置したフォルダの下にcomfyuiフォルダがあるので、その下のmodelsフォルダから先に下の3つのファイルを置く。自分はflux2ディレクトリは作らずそのまま置いた。
flux2_dev_fp8mixed.safetensors (33.0GB)
→ models\diffusion_models\flux2\mistral_3_small_flux2_fp8.safetensors (16.7GB)
→ models\text_encoders\flux2\flux2-vae.safetensors (320MB)
→ models\vae\flux2\
Comfy UIを起動する。1でファイルを置いたフォルダに run_nvidia_gpu.bat があるのでダブルクリックする。コマンドプロンプトのウインドウが開いてしばらくしたらWEBブラウザにComfy UIが表示される。
Comfy UIのワークフローを上記サイトからダウンロードし、Comfy UIに読み込ませる。
今回のものはこちら。
このワークフローは3で書く各ファイルをflux2フォルダの下に置く前提になっている。このため配置場所を変えた自分の場合は、読み込ませた後に編集して保存している。
編集後の画面はこちら。


FLUX.2 dev Comfy UI 生成前
左下に英語でプロンプトを入力する。この辺りはFlux.1と同じくComfyUIによる。
右上の「実行する」ボタンをクリックすると画像生成が始まる。自分の環境では1024×1024のサイズに対して、おおよそ1枚4分で生成された。この時間は自分のPCでのFlux.1と同じだ。


FLUX.2 dev 生成 コンソール出力


FLUX.2 dev Comfy UI 生成後
生成中のPCのリソース消費はメインメモリが顕著だ。初夏に64GBに増設したが、ほとんどを使いつくしている。ちなみに数はDeskMini X600のCPUで動かしたときのもの。


FLUX.2 dev 生成 リソース状況
試しに以下のものを作ってみた。
An anime-style close-up of a teenage girl wearing a school uniform, standing under cherry blossom tree. The petals drift softly around her, and she gazes up at the sky with a look of determination.


FLUX.2 dev 生成画像
A young Japanese woman is a modern business suit, holding a panel with a confident smile. She stands in a sleek office environment with large windows, showcasing a city skyline in the background.


FLUX.2 dev 生成画像
FLUX.2 devも何とか動いたが、一度に作ることができる画像は5枚が限界みたい。(1024×1024サイズの場合)FLUX.1では10枚作れた。「実行する」ボタンの右の数字を増やすことで一度に生成する枚数を増やすことが可能だが、やはりメモリを大量消費しているのだろうか。
あと、FLUX.1では同じプロンプトに対してかなり異なる画像を何枚も生成してくれたのだが、FLUX.2では似たような画像になっている。もちろんちょっとは違うのだが、背景が少しだけとか、表情がちょっと違うとかそういうレベルだ。ノイズシードを変えればいろいろ変わるのだが、そうすると大量生産に向かない作り方になる。
大量に作って気に入った画像を選ぶってやり方の方がいいもんなぁ。FLUX.2はそういう使い方ではないのかな。
記事に書いていない情報を動画にしているのでこちらもどうぞ。
動画ではDeskMini X600でも動かしているがうまくいってない。AMDのグラボ対応したComfy UIが出たらしいので、そのうち試すか。
PR