糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

「声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築」を書いた

声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築 (pdf, GitHub)
というわけで
プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞ネット弁慶
で公開した声優統計コーパスについて,その作り方,特に音素バランス文の選択について書いた.
やっていることは単純だけど細かい話などがあるので,音素バランス文や音声コーパスを作りたい人の手助けになればいいと思う.

今回はカバーすべきダイフォンの最低登場回数しか考慮していないが,分布そのものを近付ける必要があるのかないのか,理想的なダイフォンの分布があるのか,より読み上げに適した文章や単語を選ぶ必要があるのか,といった話はよくわかっていない.
きっと音声処理を行なう研究室や企業にさまざまなノウハウがあるのだと思う.