【AT独占】mineo(マイネオ)
テレワークにおすすめのモバイルPC
本ページはプロモーションが含まれています。
  
 

【生成AI】音声合成をするVALL-E Xを試してみた (1)インストールとTTS

 

スポンサーリンク

 
【生成AI】音声合成をするVALL-E Xを試してみた  (1)インストールとTTS
 

自作PCのJisaku8にはNVidiaのRTX3060を載せている。これはゲーム用ではなくAI用途だ。
夏に作ってから画像生成、テキスト生成を試してきたが、今回は音声合成のAIを試してみた。VALL-E Xだ。
生成AIについてのまとめはこちら。

  
  

VALL-E Xとは

マイクロソフトが公開している、テキストから音声合成をするAIだ。セールスポイントはたった3秒の元データで英語、日本語、中国語でテキストから音声合成ができるそうだ。
それはすごい。

VALL-E X WEB

VALL-E X WEB 出典:マイクロソフト

先日あった総理大臣のフェイク動画もこういうAIで作っているのだろうか。

インストール

ではインストールしてみよう。今回はWindowsにPythonnの仮想環境を作ってインストールする。
前提としてNVidianのCUDA Toolkitをインストールしておく。

1 Pythonをインストール

すでにインストールしている場合は省略できる。
マイクロソフトストアを起動してPythonを検索する。ここからインストールする。

2 Pythonの仮想環境を作る

どこでもいいのだが、仮想環境はいくつもつくると思うので、今回はこうした。
まずコマンドプロンプトを開く。

C:\にPython フォルダを作成する。

c:
cd \
mkdir python
cd python

以下のコマンドで仮想環境を作る。

python -m venv vall

仮想環境ができたので、有効にする。

cd vall\Scripts
activate

プロンプトに(vall)と仮想環境の名称が先頭につく。

3 Gitからダウンロード

Gitからダウンロードするには、Git For Windowsをダウンロード、インストールするとよい。

インストールして起動するとこのようなウインドウが開く。赤線の「Clone Existing Repositry」をクリックし、以下のように入力する。

Git for Windows

Git for Windows

  • Source Location  https://github.com/Plachtaa/VALL-E-X.git
  • Target Directory c:\vall

上がgit上の置き場所で、VALL-E Xの場合は上記のように記述する。
下はローカルPCのどこに展開するかで、どこでもいいがここではこのようにした。

実行するとしばらく時間をかけてダウンロードが終わる。

4 Pythonのパッケージをインストール

Pytorchをインストールする。これはCAML2の時と同じだ。

cd \vall
pip install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu118

最後にVall-E Xをインストールする。

pip install -r requirements.txt

VALL-E Xの起動

では起動してみよう。
下記コマンドで起動する。

python launch-ui.py

しばらくするとWEBブラウザにGUIが開く。

VALL-E X GUI

VALL-E X GUI

GUIは4つモードがある。

  • Infer from audio
  • Make prompt
  • Infor from prompt
  • Infer long text

最初のものが3秒間の録音で自由に音声合成できるようになる、という録音のページ。
ここも試したいのだが、後回しにして、セットされている声でまずはTTS、音声合成をしてみよう。
最後のInfer long textをクリックする。

VALL-E X GUI

VALL-E X GUI

この図に書いた番号順に設定していく。

  1. タブを指定する
  2. Textに話したい文章を貼り付ける
  3. 言語は日本語
  4. Voice presetには既存の声を選択する
  5. Generate!ボタンをクリックして音声を生成
  6. 三角ボタンをクリックして再生

再生してみた

声を変えて同じテキストを読ませてみた。
テキストはこのページの出だし。赤線の部分だ。

音声合成した元ネタ

音声合成した元ネタ

ちなみにテキスト中の Prime dayをなぜか「プライムデー」とは言わず、「ピーアールアイエムイー」と話している。

プリセット名 声の特徴 補足
amused 男性
cafe 女性、声優っぽい
emo_amused 男性、年齢が高め
emo_anger 男性
neutral 男性、外人っぽい
sleepiness 眠そうなゆっくり女性の声
vctk_4 男性、外人っぽい

また別バージョンで女性の声。yaesakuraだ。

ちなみに音声合成ファイルの作成中はCPU、メモリ、GPUがかなり高負荷だ。

VALL-E X リソース状況

VALL-E X リソース状況

サンプルの翻訳

起動時に表示される英語を日本語にしてみた。

Just a few years ago, there were no legions of deep learning scientists developing intelligent products and services at major companies and startups. When we entered the field, machine learning did not command headlines in daily newspapers. Our parents had no idea what machine learning was, let alone why we might prefer it to a career in medicine or law. Machine learning was a blue skies academic discipline whose industrial significance was limited to a narrow set of real-world applications, including speech recognition and computer vision. Moreover, many of these applications required so much domain knowledge that they were often regarded as entirely separate areas for which machine learning was one small component. At that time, neural networks—the predecessors of the deep learning methods that we focus on in this book—were generally regarded as outmoded.

音声ファイル作成にかかった時間はRyzen5700X/RTX3060の自作PCで英語指定で3分。日本語を指定したら10.5分だ。もっとスペックのよいPCならより早くできそうだ。
ただし言語変換ができているのかというとそうでもなさそうだ。英語はいいのだが、日本語を指定したほうは何を言っているのかさっぱりわからない。翻訳はできないのかな。

言語 声の特徴 補足
英語
日本語に変換

感想

手軽なTTSソフトウェアとしては合格点だ。
YouTubeなどで自分の声は使いたくない場合にぴったりだ。
生成AIによくあるように著作権の問題を調べておかないといけないな。

次回は自分の声を録音してどんなことができるか試したい。

(Visited 442 times, 1 visits today)

PR

   
著者プロフィール
irvine
 ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
 仕事でUS,UK,SGなどの国とかかわる。
 自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
 新しい機器、サービスに興味あり。年数回のレビュー(自腹購入、ご依頼)と発表されて興味があるものの新製品机上レビューをやっている。
 2022年はJAPANNEXT様のアンバサダーを務めました。
 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です