糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

アニメにおける共演関係を用いた声優のブレイク推定

概要

声優の共演関係から声優がいつブレイクしたかを年月の単位で推定した.
結果はここに.

データ

しょぼいカレンダーをクロールし,

  • アニメタイトル
  • 放映開始年月
  • 出演声優一覧

を取得した.
https://github.com/ybenjo/crawl_syobocal/blob/master/src/crawl.rb

どうやったか

  • 時間区切りごとに共演関係の重み付き無向グラフを構築する
    • 本来なら声優 <-> アニメの二部グラフでやるべきだけど面倒なのである声優ペアが同じアニメに出演していたらそのあいだにエッジを張る
  • そのグラフごとにPageRankを計算する
    • このPageRankは共演関係上の声優の「重要度」と考える
  • 声優ごとにPageRankの時系列データが得られるので外れ値検出を行う

出演作品数の時系列データを用いるより,他の共演者の情報を使う事ができる筈.

PageRank

おなじみのアレ.ノードに関するPageRank

PageRank

  • 多くの声優と共演している声優は値が高くなる
  • 値が高い声優と共演している声優も値が高くなる

という性質を持つ.
よって,「共演関係上の重要度が大きく変化した場合,ブレイクした」と今回は考える.
PageRankの結果はここに.

外れ値検出

では次に,大きく変化した部分を検出する.
時系列の外れ値検出を詳しく知らなかったので糞みたいにアドホックな方法を使う.
時系列データについて,ある期について期前までの値の増減分における標準偏差を考え,になったらそのタイミングがブレイクした時期とした.

結果とか

抜粋.全ての結果はここ
結果は score(t - 1) => score(t), sd: (標準偏差)

小倉唯
小倉唯 さんは 2011年7月頃にブレイクした…?
  0.31904836257507874 => 0.5172994008991687, sd: 0.010205036526519785
小倉唯 さんは 2012年4月頃にブレイクした…?
  0.6289186653911221 => 0.9240897570995351, sd: 0.048751574428851696

2011年7月には「神様のメモ帳」「ロウきゅーぶ!」「まよチキ!」に出演

石原夏織
石原夏織 さんは 2011年7月頃にブレイクした…?
  0.19685607529937887 => 0.2452054474357864, sd: 5.0205763240107615e-06
石原夏織 さんは 2012年1月頃にブレイクした…?
  0.2420150536493356 => 0.3855385788784783, sd: 0.016168394323618593

2011年7月には「まよチキ!」,2012年1月は「あの夏で待ってる」「輪廻のラグランジェ」に出演している.

Sphere
寿美菜子 さんは 2008年4月頃にブレイクした…?
  0.17919231607113814 => 0.34638395087786267, sd: 0.00021195243493415627
寿美菜子 さんは 2008年10月頃にブレイクした…?
  0.34609012914917725 => 0.5881644455373167, sd: 0.05019737169677097
寿美菜子 さんは 2009年4月頃にブレイクした…?
  0.5805943397040444 => 1.0091819898944157, sd: 0.06918670219464741
寿美菜子 さんは 2011年4月頃にブレイクした…?
  1.7800361852423503 => 2.1476001924720336, sd: 0.09041867203048644

豊崎愛生 さんは 2007年10月頃にブレイクした…?
  0.3186339597328377 => 0.5588713787457907, sd: 8.780500541094582e-06
豊崎愛生 さんは 2008年10月頃にブレイクした…?
  0.651885895825881 => 1.0092441730321795, sd: 0.06299746083831614
豊崎愛生 さんは 2009年7月頃にブレイクした…?
  1.4863820905346246 => 1.942259181108143, sd: 0.10561660455123581

戸松遥 さんは 2007年7月頃にブレイクした…?
  0.1920988981533469 => 0.2711809792069225, sd: 2.3415431366274886e-05
戸松遥 さんは 2008年4月頃にブレイクした…?
  0.26453552614177667 => 0.7645014490690402, sd: 0.022951269926083488
戸松遥 さんは 2008年10月頃にブレイクした…?
  0.763122554691979 => 1.6456683643484404, sd: 0.11808912813534074

高垣彩陽 さんは 2007年7月頃にブレイクした…?
  0.33658175505377064 => 0.6656478435400032, sd: 0.002430349504421806
高垣彩陽 さんは 2007年10月頃にブレイクした…?
  0.6654446058857163 => 1.112518966709664, sd: 0.10919919210844833

Sphereの3人,ブレイクした時期が2008年10月に重なっているのが面白い.

考察

  • ぱっと見た感じ,出演作品数で外れ値検出やるのと大差ないっぽい
    • 出演作品数では離散的すぎるけどPageRankによるScoreの方が細かく出てるから外れ値検出に向いているという言い訳を考えた
  • そもそも,真に求められているのは「t期までのデータからt - 1期までの間のいつブレイクしたか」を知るのではなく,「t期までのデータからt + n期のいつ頃ブレイクするか」の予測であるので今回の作業はあまり意味が無い
  • かなり直感と合わない
    • はい
  • 大物声優に引きづられやすい可能性がある

結論

「ブレイクした」の定義は何か?が全てだし,予測モデルを作るべきだった.