最近Google Colabratoryの無料制限がきつくなってきたので
タイトルの通りのことを試してみました。
なんちゃってコーダーしていた人が適当に動かした結果なので間違い等あるかも。
■結果
生成はできたが、ところどころ声がおかしくなって使い物にならない。
たぶんGPUの性能が足りないせいなので、
おとなしくGoogle Colabratoryを使った方がいい。
※VRAM12GB以上あることを前提にしているので。
有料版を利用をしたとしても、
他のGPUが使えるクラウドサービスと比較して
Google Colabratoryは結構安いはず。
■検証環境
OS:Windows11 Home
CPU:Intel(R) Core(TM) i7-9700 CPU @ 3.00GHz
メモリ:16.0 GB
GPU:NVIDIA GeForce GTX 1650
Ubuntu on Windows : Ubuntu 20.04.5 LTS
Python3.8
※たぶんLinuxでもできると思う。
MacはNVIDIA製のGPUを搭載していないので厳しい
■必要な知識
・Python・pip3
・Git(要GitHubアカウント)
・Linuxコマンド
■参考にならない手順
※試行錯誤したらいつの間にかできていたので抜けがあるかもしれない。
1. Linux用Windowsサブシステムの有効化(していないのであれば)
2. WSL2をインストール(していないのであれば)
「wsl --list --verbose」でバージョン確認。
Version1の場合は2に切り替え。
3. Ubuntu上にNVIDIA ドライバーをインストール(していないのであれば)
このあたりの記事が参考になるかも。
WSL 2上のUbuntuでNVIDIAのGPUを有効にする方法
https://qiita.com/ryohassay/items/15fab8a72847be13d16d
Ubuntu上で「nvidia-smi」コマンドでDriver Version等が出るようになればOK。
4. Ubuntu上にPythonインストール(していないのであれば)
MYCOEIROINK生成コードでは3.7だが、3.8でも一応動作した。
とはいえバージョンは合わせておいたほうがよさげ。
5. MYCOEIROINK生成コードを頼りにPythonライブラリを落としてくる
MYCOEIROINK作成コード_ベータ版にあるソースコードを見て
必要なPythonライブラリを落としてくる。
「import ***」ってなっているやつをひたすらpip3 install
6. MYCOEIROINK生成コードを頼りにGitからソースコードを落としてくる
「https://github.com/shirowanisan/espnet.git」
「https://github.com/kaldi-asr/kaldi」
この2つをGitHubからひっぱってきたうえで
事前学習モデルもしくは自身のモデルをフォルダに格納する
7. MYCOEIROINK生成コードのソースコードを参考にPythonでソースコードを書く
Googleドライブのマウントや
音声数の確認といった部分は省いてもOK。
また、フォルダの構成が異なっているので変更が必要。
8. 録音音声ファイルの格納
今回は自分の音声で実施。
用意できないのであれば、
ITAコーパス音声を配布している方のをお借りするなど手がある。
※音声を借りた場合、生成したものは絶対配布しないこと
9. シェルの実行
メモリーが足りないといわれたら
「finetune.yaml」のbatch_bins・num_workersの数を小さくしてやる。
■注意
今回できるかどうか試してみしただけで、
推奨できる方法ではないので注意。
また、製作者であるシロワニさん氏からは
「COEIROINK提供の事前学習モデルもしくは
自身で作成したモデル以外で学習したものをMYCOEIROINKとして配布は禁止」
とあるので、配布を前提に自PCで生成する際は注意。
※そもそも自PCで配布できるものを生成するのは難しそうな気はする
■所感や余談
・実行中はGPUの熱がやばくなる
・Google Colabratoryと同様の環境を用意しようとすると
グラボだけでも30万はかかる。
個人的にはがっつり使用するわけでなければお金払った方が良いと思う