スポンサーリンク
画像生成AIの火付け役になったStable Diffusion の派生ソフトウェアの、アニメ調の静止画を作成するAimagine XLを以前レビューしたが、バージョンアップした4.0が出ている。
何が違うのかは結局わからなかったが、3.0と同じようなクオリティのアニメ調の画像の生成が可能だ。
画像生成AIについてのまとめはこちら。
Animagine XL 4.0は静止画を生成するAIブームの火付けになったStable Diffusionをベースに、アニメ調の静止画を生成するAIだ。
昨年は3.0がリリースされており、こちらでも試している。
動画生成AIほどのリソースを要求しないので、PCにRTX3060を載せたシステムで十分使い物になる。しかも写真画質よりも早くできるのでその点もいい。
プロンプトでいろいろな画像ができるが、このAnimagine XL 4.0の特徴は、3.0同様に作品のキャラ名や時代を指定することでそのキャラに似た人物像を描いたり、時代に合わせた作風にできる。
作成された画像と、実行中の様子を動画にまとめたのでご参考に。
いつもと同じくpython環境を作ってパッケージをインストールする。
すでにインストールしている場合は省略できる。
Pythonのインストールは、マイクロソフトストアからできる。
最近は2TBのSSDをFドライブとしているのでここに今回も作る。
f:
cd python
python3 -m venv animagxl4
「animaginexl4」の個所はどういう名前でも構わない。
仮想環境ができたので、有効にする。
cd animaginexl4\Scripts
activate
プロンプトに(animaginexl4)と仮想環境の名称が先頭につく。
pipコマンドを使ってpythonのライブラリをダウンロードする。今回は以下のものをインストールしている。
pip install torch==2.3.1 --index-url https://download.pytorch.org/whl/cu121
pip install diffusers transformers accelerate safetensors "numpy<2" --upgrade
ポイントはpytorchのインストール後にそれに関係するパッケージをインストールしている点だ。逆にやるとGPUを無視してCPU版のpytorchをインストールしてしまう。
もしもそうなった場合は以下のようにして入れ替える。
pip uninstall torch
pip cache purge
pip install torch==2.3.1 --index-url https://download.pytorch.org/whl/cu121
では使ってみよう。
掲載されていたサンプルプログラムを実行したら、推しの子、っぽい絵ができた。
サンプルはHuggingFaceにある。
Aimagine XL4.0 アニメ調静止画像生成 HuggingFace
できたサンプルはこちら。
Aimagine XL4.0 推しの子調
先ほどのHuggingFaceに書かれているが、year指定でその年代の画風に調整できる。3.0でもあった機能だが、いくつかの年を指定した程度だった。今回は同じプロンプトで複数個の年を指定して、その違いを見てみよう。
題材はフリーレンとした。プロンプトは以下の通り。(ネガティブプロンプトは省略)
1girl,frieren, solo, upper body, v, smile, looking at viewer, outdoors, night, oldest, masterpiece, high score, great score, absurdres, year XXXX
最後のXXXXに西暦年を指定する。今回は1980年~2025年を複数個指定してみた。
この絵から言えるのは、Aimagine XL 4.0はフリーレンの絵を学習しているということだ。プロンプトの言葉でオリジナルに近い絵ができている。
もちろん細かいところは異なるのだが、多くの人が髪の色、ツインテールからフリーレンであると認識するだろう。
学習させればこのように似たイメージの絵をいくつも作り出すことが可能だ。昨今のAIをめぐるクリエータの懸念の声を考えると、AIに容易にマネされてしまうとクリエータが得られるべき収入を得られなくなるので問題になるだろう。
それはさておき、年代指定による画風の変化は確かにあるのだが、その年の流行なんだっけ?と思えてしまう。
例えば2025年なら背景がキラキラしている。1980年代は割と地味だ。
一方で2005年は鼻が描かれてない。そういうところが何らかの流行を取り入れているのかなぁ。よくわからない。
それから、動画には「らんま1/2」のらんまで作成した画像も掲載しているので興味がある方は見てほしい。こちらは学習されてないようなので誰?という絵ができている。
Stable Diffusionの派生として作られており、プログラムなのか学習データなのかは不明だがアニメ調に特化しているこのソフトウェア。
非常に面白いものだが、著作権についてグレーさを感じる。写真でもUSでは俳優が合成されることに抗議して学習させないように求めたりしているが、アニメ調では写真よりもオリジナルに近い画像が作られてしまう。
便利なツールである反面、クリエータの権利保護を考えると難しい使い方になると思えた。
PR