スポンサーリンク
自作PCのJisaku8にはNVidiaのRTX3060を載せている。これはゲーム用ではなくAI用途だ。
夏に作ってから画像生成、テキスト生成を試してきたが、今回は音声合成のAIを試してみた。VALL-E Xだ。
生成AIについてのまとめはこちら。
マイクロソフトが公開している、テキストから音声合成をするAIだ。セールスポイントはたった3秒の元データで英語、日本語、中国語でテキストから音声合成ができるそうだ。
それはすごい。
先日あった総理大臣のフェイク動画もこういうAIで作っているのだろうか。
ではインストールしてみよう。今回はWindowsにPythonnの仮想環境を作ってインストールする。
前提としてNVidianのCUDA Toolkitをインストールしておく。
すでにインストールしている場合は省略できる。
マイクロソフトストアを起動してPythonを検索する。ここからインストールする。
どこでもいいのだが、仮想環境はいくつもつくると思うので、今回はこうした。
まずコマンドプロンプトを開く。
C:\にPython フォルダを作成する。
c:
cd \
mkdir python
cd python
以下のコマンドで仮想環境を作る。
python -m venv vall
仮想環境ができたので、有効にする。
cd vall\Scripts
activate
プロンプトに(vall)と仮想環境の名称が先頭につく。
Gitからダウンロードするには、Git For Windowsをダウンロード、インストールするとよい。
インストールして起動するとこのようなウインドウが開く。赤線の「Clone Existing Repositry」をクリックし、以下のように入力する。
上がgit上の置き場所で、VALL-E Xの場合は上記のように記述する。
下はローカルPCのどこに展開するかで、どこでもいいがここではこのようにした。
実行するとしばらく時間をかけてダウンロードが終わる。
Pytorchをインストールする。これはCAML2の時と同じだ。
cd \vall
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
最後にVall-E Xをインストールする。
pip install -r requirements.txt
では起動してみよう。
下記コマンドで起動する。
python launch-ui.py
しばらくするとWEBブラウザにGUIが開く。
GUIは4つモードがある。
最初のものが3秒間の録音で自由に音声合成できるようになる、という録音のページ。
ここも試したいのだが、後回しにして、セットされている声でまずはTTS、音声合成をしてみよう。
最後のInfer long textをクリックする。
この図に書いた番号順に設定していく。
声を変えて同じテキストを読ませてみた。
テキストはこのページの出だし。赤線の部分だ。
ちなみにテキスト中の Prime dayをなぜか「プライムデー」とは言わず、「ピーアールアイエムイー」と話している。
プリセット名 | 声の特徴 | 補足 |
---|---|---|
amused | 男性 | |
cafe | 女性、声優っぽい | |
emo_amused | 男性、年齢が高め | |
emo_anger | 男性 | |
neutral | 男性、外人っぽい | |
sleepiness | 眠そうなゆっくり女性の声 | |
vctk_4 | 男性、外人っぽい |
また別バージョンで女性の声。yaesakuraだ。
ちなみに音声合成ファイルの作成中はCPU、メモリ、GPUがかなり高負荷だ。
起動時に表示される英語を日本語にしてみた。
Just a few years ago, there were no legions of deep learning scientists developing intelligent products and services at major companies and startups. When we entered the field, machine learning did not command headlines in daily newspapers. Our parents had no idea what machine learning was, let alone why we might prefer it to a career in medicine or law. Machine learning was a blue skies academic discipline whose industrial significance was limited to a narrow set of real-world applications, including speech recognition and computer vision. Moreover, many of these applications required so much domain knowledge that they were often regarded as entirely separate areas for which machine learning was one small component. At that time, neural networks—the predecessors of the deep learning methods that we focus on in this book—were generally regarded as outmoded.
音声ファイル作成にかかった時間はRyzen5700X/RTX3060の自作PCで英語指定で3分。日本語を指定したら10.5分だ。もっとスペックのよいPCならより早くできそうだ。
ただし言語変換ができているのかというとそうでもなさそうだ。英語はいいのだが、日本語を指定したほうは何を言っているのかさっぱりわからない。翻訳はできないのかな。
言語 | 声の特徴 | 補足 |
---|---|---|
英語 | ||
日本語に変換 |
手軽なTTSソフトウェアとしては合格点だ。
YouTubeなどで自分の声は使いたくない場合にぴったりだ。
生成AIによくあるように著作権の問題を調べておかないといけないな。
次回は自分の声を録音してどんなことができるか試したい。
PR