糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されました

声優統計

声優統計コーパスのパラレルコーパスとして，東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました．
このたび，nico-opendata 音声読み上げデータセットが Dwango Media Village によって公開されました．
nico-opendata 音声読み上げデータセットは Dwango Media Village の男性研究員が声優統計コーパスのバランス文 100 文を読み上げた音声ファイルです．上記ページでは統計的声質変換に関するサーベイも記述されています．声質変換についてわかっていなかったので非常に参考になりました．
また，同研究員が音学シンポジウム2018で発表を行った「畳込みニューラルネットワークを用いた音響特徴量変換とスペクトログラム高精細化による声質変換」について，発表内容，ソースコード，および，統計的声質変換を実際に行ったデモ音声が公開されています．

せっかくなのでこれを機に様々な人々が思い思いの音声コーパスを公開する時代になると面白いと思います．