こんばんは!
記事を書いている暇がなかなか無く、前回から間隔があいてしまいましてすみません。
あれから早速開発を進めていたのですが、先日ついにレプリボイス足立レイのライブラリ(音声合成ソフト)を製作するのに必要な音声の制作・提出が終わりました!
どんな事をしていたかというと、こんな感じです
作業生放送なのでとても長い(7時間)ですが、こんな感じの音声改良作業もやってました。記事を読みながら適当に流して頂ければ雰囲気は感じられると思います(ノ∀`)
普通、音声合成ソフトを作る場合、まずは声優さん等に依頼してスタジオで音声の収録を行う事になります。その時読み上げる文章が「音素バランス文」と呼ばれるものです。有名な所だとATR503文や、声優統計コーパスの音素バランス文等があります。東北ずん子さん運営のやっているITAコーパスも恐らくこれに類するものです。
なぜこれを収録するかというと「いろいろな音の組み合わせがバランスよく含まれているため、音声合成の素材元のデータベースとして優れているから」です。(データが充分ならば、音素バランス文である必要はないのですが)
レイの場合は声優さんがいないので、この文章をきれいにUTAU(歌声合成ソフト)を使って読み上げさせなければなりません。試作の段階では最大50文でしたが、これだと流石に少なすぎる(低クオリティになる、足りない音がある)ので、今回は130文の収録を目指しました。
既に試作した50文を改良しつつ、残り80、計130文の読み上げ文章を手作業で作り、加えて素材用として最適になるように細かい音の長さの調整やイントネーションの考慮もしながら作っていくので、この「読み上げ用楽譜ファイル作成」作業だけでも何百時間もかかってしまいました。
ちなみに30文は独自で考えた、珍し目の音素の重点強化用バランス文+αを製作しました。これがどのくらい効果があるのかは、まだ分かりません。
ただ今回、実は2か月ほど前に4回目の試作を行っていて、前回とは違うUTAUエンジンを使って試して比較したところ、新しいエンジン(moresampler)の方が良好な結果だったため、そちらで本番用音声を出力する事になったのですが、その際音声波形が安定しない、子音部が大きくなりすぎる、等の問題があったため、楽譜ファイルだけ揃えてもその部分の解決はできないという問題がありました。
これの解決には
①出力した音声を後から加工していい感じにする
②元々の出力音を改良(足立レイのUTAUライブラリを改良)する
の方法がありますが、①の方法は音声全体にいろいろな効果をかける事になるので不安定&130文全部詳細に手を入れるには修正箇所が多すぎる、という事で限界が見えました。
そこで根本的な解決方法として足立レイのUTAUライブラリ、その元音声のwavファイルの修正を全面的に行いました。その第一弾が冒頭の放送です。
実際には放送終了後、実際に本番用の楽譜データを使いながら出てきた波形を見て修正点を洗い出し、修正して再出力、というようなことを繰り返し、結局120文くらいまで進めるまで修正を繰り返して、moresamplerエンジンを使ってほとんど完璧にきれいな波形が最初から出て来るように仕上げました。
同じ楽譜ファイル(ust)で出した声ですが、一部アホみたいに大きかった子音部分が足立レイver3.0.0の方では小さくなっているのが見えると思います。
もちろん元の音声ファイルではこんな事にはなっていないのですが、元々人間の声ではないので人間を逸脱した音が含まれている場合があり、音声エンジンとの相性によって変になりやすい音があります。ただ単純に子音を小さくしただけだと聞き取りにくくなってしまうので、「その子音に必要な要素」を残しつつ波形と成分を編集、機械がうまく扱いやすいようなデータにしてやる、という事をしました。
これで全般的に音声が安定したので新エンジンを使っても大丈夫なデータが出力できるようになりました!
という事で作成した読み上げ文章の一部がこちらです!(↓ツイートのリンク)
https://twitter.com/missile_39/status/1399231598483017728
どうでしょうか。以前に比べてかなり自然なというか、聞きやすい感じになったのではないかと我ながら感じています。多分機械にとっても扱いやすくなった、はずです!
ただこれもエンジンは同じものの調声2パターン用意していて、そのうちの良い方が採用される予定です。ラベルデータ共通にできるという機械ならではの利点もあります。
音声データはすでにエーアイさんの方にお渡ししたので、あとはあのデータがうまくいってくれることを祈っています。( ˇωˇ人 )エーアイの技術者さんよろしくお願い致します<(_ _)>
が、まだいろいろやる事があるので今はそれをやっています。
今やっているのはレプリボイス(A.I.VOICE)用の口パクする立ち絵のデータの整理や、法人を作ったのでそのもろもろの手続き等や準備を進めています。
既にTwitterでは告知しましたが法人名は「合同会社メカニカルガール」です。主たる業務はエンターテイメント向けヒューマノイドロボットの開発と音声合成ソフトの開発・販売です。名前の通りメカニカルな声や体の女の子ロボット、音声を作っていこうと思っています。改めてよろしくお願い致します<(_ _)>
パッケージ絵の制作、パッケージ版のプレス依頼、リターンのグッズ製作や3Dモデルデータの整理制作も順次進めていきます。
ロボットの開発の方も進めないといけないし、あと博士課程卒業のため論文を書かないといけないのでやばいのですが/(^o^)\制作の方は概ねオンタイムで進んでいます。がんばります!
また、今回の改良で足立レイのUTAU音源が大幅にバージョンアップされたので、追ってこちらも公開予定です。お楽しみに!
それではまた!