糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨

声優統計コーパスの音素バランス文,および音声データについて告知します.

告知

今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスvoiceactress100 (以降, voiceactress100 と呼びます) の使用を推奨します.

  1. 声優統計コーパスのバランス文と voiceactress100 は一部の単語が異なっており,完全な互換性がありません
    1. voiceactress100 は声優統計コーパスバランス文を音声処理の研究者が洗練したものです
    2. 声優統計コーパスの一部の読みはバランス文と一致していません.また,アクセントや句読点位置も統一されていません
  2. 上記の理由により,今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく voiceactress100 の使用を推奨します
    1. その際のイントネーションはプロ話者によって発話された JVS コーパスに従うことを推奨します
  3. 感情表現を活用したい場合,またはプロ話者かつ高サンプリングレートのデータを使用したい場合のみ声優統計コーパスの音声データを用いるのが良いと私たち (日本声優統計学会) は考えます

声優統計コーパスと JSUT/JVS コーパスの関係

1.-i. に関して,声優統計コーパスと JSUT/JVS コーパスの関係について補足します. 両者とも,条件付で自由に利用 (コピー・共有・編集) できるコーパスです.それぞれの関係は

  • Wikipedia : CC BY-SA ライセンスにもとづいて本文データを公開
  • 声優統計 : Wikipedia のライセンスを継承してバランス文を構築 (翻案・利用)
  • JSUT : 声優統計のライセンスを継承して翻案・利用
  • JVS : JSUTのライセンスを継承して翻案・利用

です.

声優統計コーパスにおける既知の誤り

1.-ii. について,現在判明している誤りです (ご指摘してくださったつくよみちゃん様,本当にありがとうございました).これらは全て私たちの力不足・確認不足によるものです.

  • 「いしつみ」を「いしづみ」と読み上げている音声がある
  • 「鎮痛薬」を「鎮痛剤」と読み上げている音声がある
  • 「酸素供給」を「酸素配給」と読み上げている音声がある
  • プロ野球球団の大洋ホエールズ」を「プロ野球球団・大洋ホエールズ」と読み上げている音声がある
  • 「漁獲」を「りょかく」と読み上げている音声がある
  • バファローズ」を「バッファローズ」と読み上げている音声がある
  • ヴュルテンベルク」を「ヴェルテンベルク」と読み上げている音声がある
  • 「謙吉」を「けんいち」と読み上げている音声がある
  • 「プルヴァマ」を「パルヴァマ」と読み上げている音声がある

なぜこの文章を書いたか

声優統計コーパスは名称や内容のキャッチーさから (ある程度権利が自由な) バランス文および音声データとして音声研究に詳しくない人にも認知が広がっています.この現状は公開当時想定していなかったことであり,非常に嬉しく思います.

しかしその結果,より適切に品質が管理された JSUT/JVS コーパスに人々が到達しにくくなっていると考えます.特に,音声コーパスを自ら収録する人が増えている現状においては,適切なコーパスへの誘導が重要だと考えました.

最後に,本文章における声優統計コーパスと JSUT/JVS コーパスの関係,および JVS コーパスの利用推奨は JSUT/JVS コーパスの作者である高道慎之介 助教に事前に確認を取り,合意を得ています.

補足