Microsoft Public Affiliate Program (JP)(マイクロソフトアフィリエイトプログラム）

amazonセール

本ページはプロモーションが含まれています。

おしらせ

【OPENDALLE】OSSの静止画生成AIを試してみた

最終更新：2024年1月7日
投稿：2024年1月16日

DALLE-3に似たOSS、OPEN DALLEがリリースされている。PCにインストールしてSDXLとの使い勝手の差を確認した。
画像生成AIについてのまとめはこちら。

IrvineのもっとPC自作日記

2023.10.22

https://irvinejp.net/pcdiy/ai/

ChatGPTの登場でAIが身近になった。画像生成AIも身近になり、自作PCでいろいろ試している。

連載記事はこちら

開催中のセール、キャンペーン情報

OPEN DALLEとは

OPEN DALLEはプロンプトを忠実に表現する目的で開発されている。その表現度はSDXL以上と誇らしげに書かれている。
DALLE-3との関係はよくわからないが、家庭のPCでこういう絵を作り出すことができるというのは驚きだ。

OPEN DALLE 画像生成AI 出典：公式ページ

インストール準備

以前のCALM2と似ているので参考に。

IrvineのもっとPC自作日記

2023.12.02

【LLM】サイバーエージェントのCALM2を試してみた (3)Windowsでやってみた

https://irvinejp.net/pcdiy/cyberagent_caml2_tried3/

サイバーエージェントが商用利用可能なLLM（大規模言語モデル）を公開したので早速試してみた。今回は自作PCのホストOSであるWindows11に作ってみた。やっと試すことができた。テキスト生成AIについてのまとめはこちら。Windowsで作る前回はHyper-V上のVMでやってみたが、Hyper-VではホストOSが持つGPUをパススルーすることができないと判明。（補足：サーバOSなら可能らしい）できないとわかったので、最後の手段であるWindowsでやってみる。Windowsに環境を作るのはPythonの環境の競合が気になって避けたかったのだが杞憂だった。仮...

１　Pythonをインストール

すでにインストールしている場合は省略できる。
Pythonのインストール方法は、上述のCALM2の記事を参照。

２　Pythonの仮想環境を作る

どこでもいいのだが、仮想環境はいくつもつくると思うので、今回はこうした。
まずコマンドプロンプトを開く。

C:\にPython フォルダを作成する。

c:
cd \
mkdir python
cd python

以下のコマンドで仮想環境を作る。

python3 -m venv opendalle

「opendalle」の個所はどういう名前でも構わない。

仮想環境ができたので、有効にする。

cd opendalle\Scripts
activate

プロンプトに(opendalle)と仮想環境の名称が先頭につく。

３　pythonライブラリの準備

pipコマンドを使ってpythonのライブラリをダウンロードする。

pip install install diffusers accelerate

これだけでは実行時にエラーになったのでさらに以下のものを追加した。

pip install transformers
pip install torch torchvision -f https://download.pytorch.org/whl/torch_stable.html

4　Gitからダウンロード

Gitからダウンロードするには、Git For Windowsをダウンロード、インストールするとよい。WEBブラウザから開いて、ダウンロードしてインストールする。
ダウンロード、インストールは、上述のCALM2の記事を参照。

インストールして起動すると、このようなウインドウが開く。赤線の「Clone Existing Repositry」をクリックし、以下のように入力する。

OPEN DALLE 画像生成AI git

Source Location　 https://huggingface.co/dataautogpt3/OpenDalleV1.1/
Target Directory　c:\opendalle

これでc:\opendalleがgitのレポジトリになる。
注意点はc:\opendalleはあらかじめフォルダを作らないこと。

起動する

CALM2やMagicAnimateのような、アプリを起動したらWEBが表示されてここで操作できるというUIは用意されていない。
先の公式ページにあるのは簡単なプログラムだ。

from diffusers import AutoPipelineForText2Image
import torch

pipeline = AutoPipelineForText2Image.from_pretrained(‘dataautogpt3/OpenDalleV1.1’, torch_dtype=torch.float16).to(‘cuda’)
image = pipeline(‘black fluffy gorgeous dangerous cat animal creature, large orange eyes, big fluffy ears, piercing gaze, full moon, dark ambiance, best quality, extremely detailed’).images[0]

これをtest.pyというファイル名にして、コマンドプロンプトで以下のように実行すればエラーなく終了するのだが、なにも表示しないしファイルもつくられない。
はて？

そこでちょっと改造した。

プロンプトを変数に設定
ネガティブプロンプトの設定を可能に
20回生成するように変数を設定
生成した画像を表示するとともに、年月日時分秒でファイルに保管

※プログラムの引用表示が完成していないので、コピーしにくくて申し訳ないです。

from diffusers import AutoPipelineForText2Image
import torch
from PIL import Image
import datetime

## 好きなように変更
prompt = ‘Manga from the early 1990s, characterized by its surreal aesthetic. The artwork is depicted in matte colors and created using a digital medium. Notable illustrators include Junji Ito, Yoshiyuki Sadamoto, and Rumiko Takahashi.’
nega_prompt = ”
Loop = 20

##変更終了

pipeline = AutoPipelineForText2Image.from_pretrained(‘dataautogpt3/OpenDalle’, torch_dtype=torch.float16).to(‘cuda’)

for loop in range(Loop) :
image = pipeline(prompt, negative_prompt = nega_prompt).images[0] image.show()

dt_now = datetime.datetime.now()
month = “00”+str(dt_now.month)
day = “00” + str(dt_now.day)
hour = “00” + str(dt_now.hour)
min = “00” + str(dt_now.minute)
sec = “00” + str(dt_now.second)
filename = str(dt_now.year)+month[-2:] + day[-2:] + hour[-2:] + min[-2:] + sec[-2:]
image.save(filename + “.png”)

先ほどと同じくPythonで実行すると、指定したプロンプトに従って20個画像を作ってくれる。
その際のGPUの負荷、メモリは下図のとおり。RTX3060でこの程度。

OPEN DALLE 画像生成AI 生成中の性能

できた画像は例えばこれ。（クリックで画像を拡大表示）

OPEN DALLE 画像生成AI

実行中の様子を動画にまとめたのでご参考に。

まとめ

Stable Diffusion XLで画像生成を最初に試したが、なかなか思った通りの画像にならず困った。
FOOCUSを入れたら少しマシになった。でもMicrosoftが提供するImage Creatorの出来にはかなわない。

OPEN DALLEが改良されて、データをもっとローカルで保持できるようになればより精度の高い生成画像をPCでも作れるようになるのだろう。
また、SDXLのWEBUIのようなWEBインタフェースがないとつらい。早く有志が作ってくれるといいのだが。

(Visited 131 times, 1 visits today)

DALLE-3

Irvine

OPEN DALLE

著者プロフィール

irvine

　ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
　仕事でUS,UK,SGなどの国とかかわる。
　自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
　新しい機器、サービスに興味あり。年数回のレビュー（自腹購入、ご依頼）と発表されて興味があるものの新製品机上レビューをやっている。
　2022年はJAPANNEXT様のアンバサダーを務めました。