スポンサーリンク
DALLE-3に似たOSS、OPEN DALLEがリリースされている。PCにインストールしてSDXLとの使い勝手の差を確認した。
画像生成AIについてのまとめはこちら。
OPEN DALLEはプロンプトを忠実に表現する目的で開発されている。その表現度はSDXL以上と誇らしげに書かれている。
DALLE-3との関係はよくわからないが、家庭のPCでこういう絵を作り出すことができるというのは驚きだ。
以前のCALM2と似ているので参考に。
すでにインストールしている場合は省略できる。
Pythonのインストール方法は、上述のCALM2の記事を参照。
どこでもいいのだが、仮想環境はいくつもつくると思うので、今回はこうした。
まずコマンドプロンプトを開く。
C:\にPython フォルダを作成する。
c:
cd \
mkdir python
cd python
以下のコマンドで仮想環境を作る。
python3 -m venv opendalle
「opendalle」の個所はどういう名前でも構わない。
仮想環境ができたので、有効にする。
cd opendalle\Scripts
activate
プロンプトに(opendalle)と仮想環境の名称が先頭につく。
pipコマンドを使ってpythonのライブラリをダウンロードする。
pip install install diffusers accelerate
これだけでは実行時にエラーになったのでさらに以下のものを追加した。
pip install transformers
pip install torch torchvision -f https://download.pytorch.org/whl/torch_stable.html
Gitからダウンロードするには、Git For Windowsをダウンロード、インストールするとよい。WEBブラウザから開いて、ダウンロードしてインストールする。
ダウンロード、インストールは、上述のCALM2の記事を参照。
インストールして起動すると、このようなウインドウが開く。赤線の「Clone Existing Repositry」をクリックし、以下のように入力する。
これでc:\opendalleがgitのレポジトリになる。
注意点はc:\opendalleはあらかじめフォルダを作らないこと。
CALM2やMagicAnimateのような、アプリを起動したらWEBが表示されてここで操作できるというUIは用意されていない。
先の公式ページにあるのは簡単なプログラムだ。
from diffusers import AutoPipelineForText2Image
import torchpipeline = AutoPipelineForText2Image.from_pretrained(‘dataautogpt3/OpenDalleV1.1’, torch_dtype=torch.float16).to(‘cuda’)
image = pipeline(‘black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed’).images[0]
これをtest.pyというファイル名にして、コマンドプロンプトで以下のように実行すればエラーなく終了するのだが、なにも表示しないしファイルもつくられない。
はて?
そこでちょっと改造した。
※プログラムの引用表示が完成していないので、コピーしにくくて申し訳ないです。
from diffusers import AutoPipelineForText2Image
import torch
from PIL import Image
import datetime## 好きなように変更
prompt = ‘Manga from the early 1990s, characterized by its surreal aesthetic. The artwork is depicted in matte colors and created using a digital medium. Notable illustrators include Junji Ito, Yoshiyuki Sadamoto, and Rumiko Takahashi.’
nega_prompt = ”
Loop = 20##変更終了
pipeline = AutoPipelineForText2Image.from_pretrained(‘dataautogpt3/OpenDalle’, torch_dtype=torch.float16).to(‘cuda’)
for loop in range(Loop) :
image = pipeline(prompt, negative_prompt = nega_prompt).images[0] image.show()dt_now = datetime.datetime.now()
month = “00”+str(dt_now.month)
day = “00” + str(dt_now.day)
hour = “00” + str(dt_now.hour)
min = “00” + str(dt_now.minute)
sec = “00” + str(dt_now.second)
filename = str(dt_now.year)+month[-2:] + day[-2:] + hour[-2:] + min[-2:] + sec[-2:]image.save(filename + “.png”)
先ほどと同じくPythonで実行すると、指定したプロンプトに従って20個画像を作ってくれる。
その際のGPUの負荷、メモリは下図のとおり。RTX3060でこの程度。
できた画像は例えばこれ。(クリックで画像を拡大表示)
実行中の様子を動画にまとめたのでご参考に。
Stable Diffusion XLで画像生成を最初に試したが、なかなか思った通りの画像にならず困った。
FOOCUSを入れたら少しマシになった。でもMicrosoftが提供するImage Creatorの出来にはかなわない。
OPEN DALLEが改良されて、データをもっとローカルで保持できるようになればより精度の高い生成画像をPCでも作れるようになるのだろう。
また、SDXLのWEBUIのようなWEBインタフェースがないとつらい。早く有志が作ってくれるといいのだが。
PR