くろぐ

動画のことをかく

【MYCOEIROINK】勢いで合成音声を8キャラクター作ってみた感想

【はじめに】

CoeFontだけでなく、TALQuやCOEIROINKなど
ここ2、3年で自分で合成音声を作成し、
配布したり、ほかの方に使用してもらえたりする状況になってきました。

UTAU化に挫折した経験のある私としては
「えっ、文章読み上げればできるんですか!?(要編集・学習)」
ということでCOEIROINK向けにいっぱい作った結果、
キャラクターとしては8人(個別に割り振るの面倒くさかったので名前は一緒)
現時点で12スタイルほどあります。
※なぜCOEIROINKを選択したのかは2022-10-13の記事参照

【8キャラクター作ってみた感想を簡潔に書くと】

・単純に多くて管理しきれない
・スタイル追加が五月雨式になる
・前録音したときのキャラの声が思い出せない

端的にいうと
_人人人人人人人人人_
> おすすめしない <
 ̄Y^Y^Y^Y^Y^Y^Y^Y^Y^ ̄

【詳しく書くと】

・単純に多くて管理しきれない

もともとキャラクターとしてのイメージがないところ、
今ようやくバストアップのイラストを追加していっている状態で
現在5/8が終わりました。

キャラ数として多いと1キャラクターに
かけられる時間が少なくなってしまうのでおすすめできません。

8人いるうちの何人か優先的にスタイルや立ち絵を追加するのも手ですが
合成音声「木下にび」の最終の利用用途を考えるとそれができないので
自分で首を絞めていくスタイルです。

・スタイル追加が五月雨式になる

スタイル追加をローテーションさせているので
1キャラクターあたりスタイル追加が
3か月程度かかっています。

1キャラクター向けに3スタイルほどまとめて追加しようとすると
ITAコーパス+MANAコーパスフル録音と、
GoogleColabでの学習をお金出して早めたとしても
頑張って1スタイル追加に1週間~2週間はかかるので、
後回しになったキャラクターのスタイル追加がえらく遅れるという。

「5スタイル新たに追加しました!」という告知もしにくいです。
なんせ別々のキャラクターだし……。

・前録音したときのキャラの声が思い出せない

どんな声も一定で出すことができればよいのですが、
プロでもないのでだいたい前回収録時の声が思い出せなかったり、
声が変わっていたりします。

そのためコーパス文を録音し、学習までまわしてみて
「通常バージョンと比べると声が違うやん」とやり直し、
ということを何回かすることになります。実際何回かしてます。

とくにITAコーパス+MANAコーパス全部収録後、
時間と場合によってはお金もかかるGoogleColab上での
学習をある程度進めた状態でこうなると泣くことになります。

声として安定感があるだけでなく、
キャラ毎に声の使い分けしているプロはすごいですわ。

【個人で管理できる限界だと思われるキャラクター数】

「とりあえずスタイルは後で追加するかも
 しれないけど作ってみよう、立ち絵も用意しておくかな」
であれば5キャラ

「気合を入れてキャラクターを作成した、
 これから順次スタイルを追加していく予定」
というのであれば3キャラクターぐらいが限界じゃないかなって気はします。

とはいえ「うちの合成音声8人いるんですよ~」といったら
だいたい初見の人は驚くので一発ネタとしては秀逸だと思います。
ずいぶん手間のかかる一発ネタですね。

【8人いる自合成音声 木下にびについて】

そんな自合成音声である木下にびですが、
「8人もいるとかどんな音声だよ」と興味がありましたら
下記のサイトからサンプル視聴できます。

sites.google.com

COEIROINKの製作者であるシロワニさんが
何故かWebサイト上にユーザー追加音源までまとめてくださっているため、
こちらでも視聴できます。

coeiroink.com

 

8キャラクターもいる一番の問題はシロワニさんの
リソースをくっていることな気がします。
ニコニコ大百科などでCOEIROINKの記事をたまに編集しているので許してほしい。

動画投稿しました COEIROINK向けの合成音声追加のお知らせです

COEIROINKで使える合成音声「木下にび」の新しい音源が増えたので告知動画出してきました。2022年のニコニコ動画投稿はこれで最後です。

【10月に投稿した告知動画以降に追加されたの】

  • 木下にび<プロトタイプ> のーまる改
  • 木下にび<女性01> のーまる改
  • 木下にび<裏声> のーまる
  • 木下にび<少年01> のーまる
  • 木下にび<曖昧> のーまる
  • 木下にび<少年02> のーまる

だいたいのキャラクターは1キャラクターに対して感情スタイルを増やす、声が違うなら別キャラクター(双子や兄弟など)を作成していくのが主ですが、私は名前つけるのが面倒くさいから男性だろうが中性だろうが女性だろうが無性だろうが全部木下にびで統一しています。

使う人が困惑するかもしれないけど自分以外たぶん使わないので無問題。キャラクターとして分けてはいますが、若干声がかぶっているのもありますね。652文を同じ声で読み上げるのが難しくてだんだん収録していくうちに声が変わるからです。

もし全種類使うのであれば同じ名前なのを有効活用してもらえると面白いかもしれませんね。違う世界線の同一人物とか、多重人格とか。

木下にびのラストに追加する声は決めているのですが、次に収録する予定の女性02の声が決まらないので追加音声は少し遅れると思います。

 

MYCOEIROINK配布兼忘備録用にWEBサイトも11月上旬から作りました。Googleサイト、広告も出ないしパパっと作るには便利ですね。

sites.google.com

動画投稿しました その2 <MMDとCOEIROINK>

台本ができたのが12日夕方⇒MMD廃の投稿期間が13日22時まで⇒
RTAやったら動画作れんじゃない!?ということで投稿しました。
COEIROINKなら突発的に声入り動画を作ろうと思ってできるんだ。

今回お借りした音声は

  • 【店員】つくよみちゃん さん(さんを付けていいのか迷いますが)
  • 【弁当】松嘩りすく さん
  • 【お客】おふとんP さん

です。客に当てる声を黒聡鵜月さんと迷ったのですが、
どちらかというと声質的にイメージが近かったのでおふとんPさんを選定しました。
主にあせりスタイルを使って若干気弱な感じを出しています。

COEIROINKの音源、男性キャラクターで10スタイル以上のキャラクターが
確認できるだけでも3人はいるの何気にすごいですよね。

松嘩りすく さんは絶叫を使うだけで笑ってしまうので卑怯だと思います。
話声スタイルがイケボなので決め台詞(?)もある弁当を担当してもらいました。

女性キャラクターはMYCOEIROINKと迷ったのですが、
スタイル数が「げんき」「おしとやか」「れいせい」の3つある
つくよみちゃんをお借りしました。
叫んでいる部分についてはげんき、
普通に呼びかけている部分はれいせいスタイルを利用しています。

今回初めてMMD動画にソフトウェアトークを利用するという試みをしましたが、
ドラマ系動画製作者にとってはスタイル数が足りないと
声の選定段階で候補から外れてしまうことも多いので
下記3スタイルはあると嬉しいかなというのが率直な感想であり、
個人的な発見だったなあと思います。

  • 普通の喋り
  • ある程度声をはりあげているスタイル(叫び/怒り)
  • 弱っている感じのスタイル(悲しい/あせり)

 

にびーず(私の声のMYCOEIROINK)も声の種類ではなくてスタイル増やすか……?
でも無秩序に声を増やしたい。

動画投稿しました その1 <COEIROINK / ユーザーモデル応援祭向け>

 

ユーザーモデル応援祭向けに、

作成したMYCOEIROINK 木下にび<裏声>の宣伝?も兼ねて動画投稿してみました。

 

内容としてはブログの前の記事に書いた

Google Colabratoryを使わずともMYCOEIROINKはできるのかチャレンジした」

内容となっています。サムネ・ガ・ネタバレ。

 

作成していて思ったことといえば、自合成音声使うときにお借りした立ち絵だと

過激なことを言いにくいので専用の立ち絵が欲しいなって思いました。

※今回、立ち絵として瑠璃蝶さん制作のものをお借りしました。
 ありがとうございます。

 

一応キャラクターデザインはあるにはあるのですが、

イラストが悲しいぐらい描けないんですよね。

(画力は下の画像参照)

 

依頼しようにも配布するとなると条件が条件なので有償でも頼みにくいので

私が絵をかけるようになるか、描いてくださる天使のような方が出てこないと

永遠に立ち絵が実装されないと思います。

そもそも立ち絵が実装されても使われるのかという話はここでは置いておきます。

 

ご自身で声収録して絵もご自身で描いている方すごいですよね。

 

 

木下にびの立ち絵ラフ

これはプロトタイプをイメージしたやつ

MYCOEIROINKを自PCでも生成できるか検証してみた

最近Google Colabratoryの無料制限がきつくなってきたので
タイトルの通りのことを試してみました。
なんちゃってコーダーしていた人が適当に動かした結果なので間違い等あるかも。

■結果

生成はできたが、ところどころ声がおかしくなって使い物にならない。
たぶんGPUの性能が足りないせいなので、
おとなしくGoogle Colabratoryを使った方がいい。
※VRAM12GB以上あることを前提にしているので。

有料版を利用をしたとしても、
他のGPUが使えるクラウドサービスと比較して
Google Colabratoryは結構安いはず。

■検証環境

OS:Windows11 Home
CPU:Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz
メモリ:16.0 GB
GPU:NVIDIA GeForce GTX 1650

Ubuntu on Windows : Ubuntu 20.04.5 LTS
Python3.8

※たぶんLinuxでもできると思う。
 MacNVIDIA製のGPUを搭載していないので厳しい

■必要な知識

Python・pip3
・Git(要GitHubアカウント)
Linuxコマンド

■参考にならない手順

※試行錯誤したらいつの間にかできていたので抜けがあるかもしれない。

1. LinuxWindowsサブシステムの有効化(していないのであれば)
2. WSL2をインストール(していないのであれば)

「wsl --list --verbose」でバージョン確認。
Version1の場合は2に切り替え。

3. Ubuntu上にNVIDIA ドライバーをインストール(していないのであれば)

このあたりの記事が参考になるかも。
WSL 2上のUbuntuNVIDIAGPUを有効にする方法
https://qiita.com/ryohassay/items/15fab8a72847be13d16d

Ubuntu上で「nvidia-smi」コマンドでDriver Version等が出るようになればOK。

4. Ubuntu上にPythonインストール(していないのであれば)

MYCOEIROINK生成コードでは3.7だが、3.8でも一応動作した。
とはいえバージョンは合わせておいたほうがよさげ。

5. MYCOEIROINK生成コードを頼りにPythonライブラリを落としてくる

MYCOEIROINK作成コード_ベータ版にあるソースコードを見て
必要なPythonライブラリを落としてくる。
「import ***」ってなっているやつをひたすらpip3 install

6.  MYCOEIROINK生成コードを頼りにGitからソースコードを落としてくる

https://github.com/shirowanisan/espnet.git
https://github.com/kaldi-asr/kaldi

この2つをGitHubからひっぱってきたうえで
事前学習モデルもしくは自身のモデルをフォルダに格納する

7. MYCOEIROINK生成コードのソースコードを参考にPythonソースコードを書く

Googleドライブのマウントや
音声数の確認といった部分は省いてもOK。
また、フォルダの構成が異なっているので変更が必要。

8. 録音音声ファイルの格納

今回は自分の音声で実施。

用意できないのであれば、
ITAコーパス音声を配布している方のをお借りするなど手がある。
※音声を借りた場合、生成したものは絶対配布しないこと

9. シェルの実行

モリーが足りないといわれたら
finetune.yaml」のbatch_bins・num_workersの数を小さくしてやる。

■注意

今回できるかどうか試してみしただけで、
推奨できる方法ではないので注意。

また、製作者であるシロワニさん氏からは
「COEIROINK提供の事前学習モデルもしくは
 自身で作成したモデル以外で学習したものをMYCOEIROINKとして配布は禁止」
とあるので、配布を前提に自PCで生成する際は注意。
※そもそも自PCで配布できるものを生成するのは難しそうな気はする

■所感や余談

・実行中はGPUの熱がやばくなる

GPUの動作状況

Google Colabratoryと同様の環境を用意しようとすると
 グラボだけでも30万はかかる。
 個人的にはがっつり使用するわけでなければお金払った方が良いと思う

動画投稿しました。ただしMMD動画ではないし合成音声化!?

■ 作ったきっかけ

先月にMMD動画を制作されている瀬戸さんとお話をする機会があり、

「合成音声自分で作成できるんですよ~!」という情報をいただいたので

面白そうだと思ってそれから合成音声用に録音してGoogle Colabぶん回して約一か月。

ようやくニコニコで配布動画を公開できました。

 

■ なぜCOEIROINKか

他にも合成音声を自分で作成できるものはあるのですが(TALQuなど)

・UIがVOICEVOXと同じで分かりやすかった

・「一時創作作品へ声提供に力を入れていきたい」ということだったので

 声の種類少しでも増えれば応援につながるかなと思って

・合成音声作成方法について動画解説があり、わかりやすかった

この3点でCOEIROINKの音源配布を決めました。

 

■製作途中に苦労したこと

ITAコーパス424文読み上げるのがしんどい!!!!!!!!!!!!!!!!!!!!!!!

と思ったら動画投稿前に10文からでも作成できるようになりましたと

案内があって笑いました。

今後手軽に作れるようになったのはとても良い改良だと思います。

 

■作ってみて

思ったより自分の声になってうわちゃー。

技術の進歩ってすごいですね。

 

■名前について

あまりにも自分の声すぎてハンドルネームと同じ名前で

合成音声を配布するのやだなあということで

ハンドルネームからすこしずらした感じになっております。

万木⇒木下

くろ⇒にび(色)

■ というわけで配布先 

COEIROINK音源 木下にび <プロトタイプ版>

COEIROINK音源 木下にび <女性01>

https://sites.google.com/view/yurugi/

 

需要ガン無視の趣味で作ったものですが使ってもらえると嬉しいです。

ブロマガから記事をうつしました

ニコレポに表示されるということでニコニコのブロマガに動画関連の記事をおいていたのですがサービス終了するのではてなさんにお引越ししました。

最近動画もあまり投稿していないので、ブログの更新頻度は低いと思いますます。