糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します

日本声優統計学会
サークル「日本声優統計学会」の最後の活動として,読んでくださった方々への恩返しの意味を込め, id:reposeid:MagnesiumRibbon で声優統計コーパスを上記ページにて公開しました.

概要

声優統計コーパス

  • diphone の出現頻度を考慮しながら独自に構築した音素バランス文
  • その音素バランス文をプロの女性声優 3 名が 3 パターンの感情表現(ニュートラル,喜び,怒り)で読み上げた総長約 2 時間,総ファイルサイズ 720 MB,計900個の音声ファイル

の 2 つで構成されています.
音素バランス文については表示 - 継承 4.0 国際 (CC BY-SA 4.0)で公開しています.
音声ファイルについては研究・分析目的でのみ無償で利用可能です.

音素バランス文

音素バランス文は日本語版 Wikipedia の本文データを元に構築しています.
詳細な手法は後ほど公開しますが,方針としては「声優統計 第九号」で発表した「二次配布可能な音素バランス文と声優統計音声コーパスの構築 (y_benjo, 2017)」と同じです.
すなわち,

  • 全本文データに対して MeCabNEologd を用いて読み推定を行う
  • 読み推定の結果から diphone を数え上げる
  • 頻出 diphone 上位 500 種が最低 N 回含まれるような M 本の文章を線形計画問題を解くことで抽出する
    • この時,MeCab による読み推定が失敗したり, NEologd のいくつかのエントリで読みが壊れている項目があったため,目視による検証,修正を実施

という手続きで構築しています.

音素バランス文では,ATR音素バランス503文が最も有名です.
当初はこちらの利用を検討しましたが,ライセンスを確認したところ503文を読み上げた音声ファイルの無料配布が困難であったため,独自に構築することになりました.

音声ファイル

「声優に読み上げてもらうのならばどういう音声がいいだろう」と検討した結果,「演技」に着目し,同一人物に同一文章を異なる感情表現で読み上げてもらう,ということに着地し,このようなファイルとなりました.
コーパスの無料公開という非常識なお願いに加えて無茶な台本に無茶な感情表現リクエストに応えてくださった声優 3 名様のご協力に感謝いたします.


最終号となった第九号の後書きに書いた

同人誌としての声優統計はこれでひとまず終了です.が,サークルとしてはやり残した事が一つあります.

が無事に終了しました.
この声優統計コーパス音声合成や話者推定,感情合成など,音声にまつわる研究や分析の手助けになれば幸いです.
また, google での検索結果に「引用元:N件」の表示がされておもしろくなって欲しいので,ご利用の際は bibtex ファイルを用いて引用していただけると嬉しい.