くろぐ

動画のことをかく

【MYCOEIROINK】勢いで合成音声を8キャラクター作ってみた感想その2

【はじめに】

前回の記事では合成音声8キャラにわけると管理大変~💦
おすすめできない~💦って話をしました。
【MYCOEIROINK】勢いで合成音声を8キャラクター作ってみた感想

今回は録音のときの所感をかきます。

【声の使い分けについて】

声の使い分けができているかはわからないのですが
だいたい声の高低で3パターン、喉か鼻に力を入れる、ウィスパー風に喋らせるで
8パターン作っているので私レベルならそんなに難しくはないと思います。

もともと声活動を始めたジャンルが
一人で全キャラ演じるという今考えると狂気のジャンルで
中にはバケモノみたいに演じ分けする人とかいました。声帯複数飼ってるのか?

そこでつながった方たちに自作MMD動画にも出てもらっている方もいるのですが、
「この声しか出ない」っていう人がいなくて、
ちょっとした説明で演じ分けをしていただけるのでめちゃくちゃ依頼しやすいです。
食べ物を依頼しても戸惑うだけでちゃんと演じていただけるのでありがたいなと思います。
食べ物を役として依頼するな。


これが声を依頼した人みんな戸惑ったって
あとで聞いて申し訳ないなあと思った動画です。
ニコニコのトップにも晒されました。ニコニコ運営のチョイスがおかしいな?

【何が難しいか】

声の使い分け自体は難しくはないですが、
前回の記事で「前録音したときのキャラの声が思い出せない」
っていうのに加えてもう1点問題があります。

一人で演じるとして、だいたいメインのキャラクターでも
動画30分で台詞数50、しかも「あっ」とか「おい」とか短めの台詞もあるから
数の割にそこまで読む文字数少ないです。
私が投稿しているMMDのショートドラマでも
2分~5分程度で800文字~1500文字程度なので
多くてメインキャラで20台詞あればいいほう。

それに対して、今私が合成音声モデルを生成しているMYCOEIROINKは
ITAコーパス・MANAコーパスあわせて652文読む必要があります。
※10文からでも学習はできる。ただしフル録音時に比べて発音が不明瞭になる。
中には2~3行ぐらいになりそうな長文を途中で噛まずに読まないといけません。

40文~50文なら聞き直しもしやすいので、
声が違うなってファイルをいくつかリテイクするだけなのですが
652文もあれば100文あたりから声が維持できなくなります。
なんだったら最初と最後で声が違って笑えません。
後から652文全部確認はきついので、都度都度声が違ったらリテイクする方式を今はとってます。

COEIROINKさんは優秀なので、
多少の声の高低に違いがあっても合成音声モデル生成時に
ある程度の差は吸収はしてくれるのですが
それでも限度がありまして。

最初に作った音声を聞いていただけると
だいぶ破綻しているのがお分かりいただけると思います。

sites.google.com

 

当時はITAコーパス424文収録する必要があったんですが、
そこまで長時間録音したことがなかったので
少年声を出そうとしたら普通に最後あたりの台詞が
地声に近くなったという悲しい思い出があります。

こんにちはをちゃんと発音できないかわいそうな合成音声。
のーまる改である程度アクセント改良されたので
あいさつ文や疑問文が入っているMANAコーパスには感謝しています。

【合成音声と関係ない話】

今は非公開にしているので見られないのですが、
ニコニコ動画に投稿して今日で1●周年らしくて
月日が経つのがはやすぎてウソだろ……ってなってます。
うそだろ……