本ページはプロモーションが含まれています。

おしらせ

【生成AI】音声合成をするVALL-E Xを試してみた (1)インストールとTTS

最終更新：2024年3月26日
投稿：2023年11月29日

自作PCのJisaku8にはNVidiaのRTX3060を載せている。これはゲーム用ではなくAI用途だ。
夏に作ってから画像生成、テキスト生成を試してきたが、今回は音声合成のAIを試してみた。VALL-E Xだ。
生成AIについてのまとめはこちら。

IrvineのもっとPC自作日記

2023.10.22

https://irvinejp.net/pcdiy/ai/

ChatGPTの登場でAIが身近になった。画像生成AIも身近になり、自作PCでいろいろ試している。

連載記事はこちら

開催中のセール、キャンペーン情報

VALL-E Xとは

マイクロソフトが公開している、テキストから音声合成をするAIだ。セールスポイントはたった3秒の元データで英語、日本語、中国語でテキストから音声合成ができるそうだ。
それはすごい。

VALL-E X WEB　出典：マイクロソフト

先日あった総理大臣のフェイク動画もこういうAIで作っているのだろうか。

インストール

ではインストールしてみよう。今回はWindowsにPythonnの仮想環境を作ってインストールする。
前提としてNVidianのCUDA Toolkitをインストールしておく。

１　Pythonをインストール

すでにインストールしている場合は省略できる。
マイクロソフトストアを起動してPythonを検索する。ここからインストールする。

２　Pythonの仮想環境を作る

どこでもいいのだが、仮想環境はいくつもつくると思うので、今回はこうした。
まずコマンドプロンプトを開く。

C:\にPython フォルダを作成する。

c:
cd \
mkdir python
cd python

以下のコマンドで仮想環境を作る。

python -m venv vall

仮想環境ができたので、有効にする。

cd vall\Scripts
activate

プロンプトに(vall)と仮想環境の名称が先頭につく。

３　Gitからダウンロード

Gitからダウンロードするには、Git For Windowsをダウンロード、インストールするとよい。

Git for Windows

ダウンロード

インストールして起動するとこのようなウインドウが開く。赤線の「Clone Existing Repositry」をクリックし、以下のように入力する。

Git for Windows

Source Location　　https://github.com/Plachtaa/VALL-E-X.git
Target Directory　c:\vall

上がgit上の置き場所で、VALL-E Xの場合は上記のように記述する。
下はローカルPCのどこに展開するかで、どこでもいいがここではこのようにした。

実行するとしばらく時間をかけてダウンロードが終わる。

４　Pythonのパッケージをインストール

Pytorchをインストールする。これはCAML2の時と同じだ。

cd \vall
pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu118

最後にVall-E Xをインストールする。

pip install -r requirements.txt

VALL-E Xの起動

では起動してみよう。
下記コマンドで起動する。

python launch-ui.py

しばらくするとWEBブラウザにGUIが開く。

VALL-E X GUI

GUIは４つモードがある。

Infer from audio
Make prompt
Infor from prompt
Infer long text

最初のものが3秒間の録音で自由に音声合成できるようになる、という録音のページ。
ここも試したいのだが、後回しにして、セットされている声でまずはTTS、音声合成をしてみよう。
最後のInfer long textをクリックする。

VALL-E X GUI

この図に書いた番号順に設定していく。

タブを指定する
Textに話したい文章を貼り付ける
言語は日本語
Voice presetには既存の声を選択する
Generate！ボタンをクリックして音声を生成
三角ボタンをクリックして再生

再生してみた

声を変えて同じテキストを読ませてみた。
テキストはこのページの出だし。赤線の部分だ。

音声合成した元ネタ

ちなみにテキスト中の Prime dayをなぜか「プライムデー」とは言わず、「ピーアールアイエムイー」と話している。

プリセット名	声の特徴	補足
amused	男性
cafe	女性、声優っぽい
emo_amused	男性、年齢が高め
emo_anger	男性
neutral	男性、外人っぽい
sleepiness	眠そうなゆっくり女性の声
vctk_4	男性、外人っぽい

また別バージョンで女性の声。yaesakuraだ。

ちなみに音声合成ファイルの作成中はCPU、メモリ、GPUがかなり高負荷だ。

VALL-E X リソース状況

サンプルの翻訳

起動時に表示される英語を日本語にしてみた。

Just a few years ago, there were no legions of deep learning scientists developing intelligent products and services at major companies and startups. When we entered the field, machine learning did not command headlines in daily newspapers. Our parents had no idea what machine learning was, let alone why we might prefer it to a career in medicine or law. Machine learning was a blue skies academic discipline whose industrial significance was limited to a narrow set of real-world applications, including speech recognition and computer vision. Moreover, many of these applications required so much domain knowledge that they were often regarded as entirely separate areas for which machine learning was one small component. At that time, neural networks—the predecessors of the deep learning methods that we focus on in this book—were generally regarded as outmoded.

音声ファイル作成にかかった時間はRyzen5700X/RTX3060の自作PCで英語指定で3分。日本語を指定したら10.5分だ。もっとスペックのよいPCならより早くできそうだ。
ただし言語変換ができているのかというとそうでもなさそうだ。英語はいいのだが、日本語を指定したほうは何を言っているのかさっぱりわからない。翻訳はできないのかな。

言語	声の特徴	補足
英語
日本語に変換

感想

手軽なTTSソフトウェアとしては合格点だ。
YouTubeなどで自分の声は使いたくない場合にぴったりだ。
生成AIによくあるように著作権の問題を調べておかないといけないな。

次回は自分の声を録音してどんなことができるか試したい。

(Visited 442 times, 1 visits today)

Irvine

PC自作

TTS

VALL-E X

マイクロソフト

音声合成

３秒の録音で可能

著者プロフィール

irvine

　ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
　仕事でUS,UK,SGなどの国とかかわる。
　自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
　新しい機器、サービスに興味あり。年数回のレビュー（自腹購入、ご依頼）と発表されて興味があるものの新製品机上レビューをやっている。
　2022年はJAPANNEXT様のアンバサダーを務めました。