糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

アニメ監督|アニメ制作会社/アニメ作品/出演声優のデータにAuthor-Topic Modelを適用して何らかの関係があるか確かめる

概要

アニメ監督またはアニメ制作会社とアニメ作品,出演声優には何らかのトピック(作品ジャンル)の関係が存在するという仮定に基づきAuthor-Topic Modelを適用する.

アルゴリズム

Probabilistic Author-Topic Models for Information Discovery(KDD 2004)(pdf)
LDAでは文書 - 単語の関係だったけど,Author-Topic Modelでは文書の上に著者を考える.で,著者がトピックを選び,そのトピックに従って単語が選ばれるとする.

データ

しょぼいカレンダーをクロールし,2005年以降のアニメ,アニメ映画,OVAで試した.
アニメ監督,アニメ制作会社,声優はそれぞれ「、」で繋げて書かれている事があるのでセパレータとした.
クローラの実装はこれ(GitHub - ybenjo/crawl_syobocal: crawl syobocal(http://cal.syoboi.jp/)).

予想

トピックがアニメ作品におけるジャンル(コメディ,サスペンス,日常,ラブコメ,バトル)として生じるのではないか.すなわち,同じ監督でもジャンルによって選ばれる声優が異なった結果になると嬉しい.

実験

実装が間違っている可能性がある.
GitHub - ybenjo/LDA: Practice of LDA
パラメータはトピック数とし,2000回繰り返した.
論文上はあるトピックjにおける声優mが選ばれる確率と,あるアニメ監督におけるトピックの選ばれる確率が出る.今回は論文と同様にトピックjにおける声優の確率分布に加えて,そのトピックを選ぶ確率が高いアニメ監督/アニメ制作会社を上位10人抽出し出力した.

アニメ監督 - アニメ作品 - 声優

結果はここ
ぱっと見て解釈できそうなのは

2 花澤香菜 0.125421
2 豊崎愛生 0.0985489
2 竹達彩奈 0.0895915
2 伊藤かな恵 0.0842171
2 日笠陽子 0.0680939
2 寿美菜子 0.060928
2 早見沙織 0.0537621
2 矢作紗友里 0.0501791
2 佐藤聡美 0.0376388
2 梶裕貴 0.0376388

                  • -

2 山田尚子 0.311688
2 草川啓造 0.133531
2 高柳滋仁 0.111111
2 佐藤順一 0.10101
2 植田洋一 0.097561
2 金子ひらく 0.0952381
2 安田賢司 0.09375
2 久城りおん 0.091954
2 菱田マサカズ 0.0833333
2 菱田正和 0.0808081

からけいおん臭を感じるけれどもトップの花澤香菜とは.

アニメ制作会社 - アニメ作品 - 声優

結果はここ
ぱっと見て解釈できそうなのは

27 沢城みゆき 0.154489
27 堀江由衣 0.129342
27 桑谷夏子 0.0880303
27 真田アサミ 0.0574954
27 松岡由貴 0.0574954
27 神田朱未 0.0503107
27 悠木碧 0.0395337
27 清水愛 0.0377375
27 小清水亜美 0.032349
27 後藤沙緒里 0.032349

                  • -

27 SHAFT 0.147425
27 ノーマッド 0.108527
27 feel. 0.102837
27 スタジオコメット 0.0977011
27 GAINAX 0.0921986
27 Studio五組 0.0854701
27 AICPLUS+ 0.0842105
27 GANSIS 0.0689655
27 ガンジス 0.0676692
27 AICASTA 0.0625

所謂シャフト声優.

結論

よく考えたらアニメ監督及び制作会社に関する知識がなかった.ドメイン固有の知識はやはり重要だった.
識者の解説を待ちたい.