糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Just One More: Modeling Binge Watching Behavior (KDD2016) 読んだ

Just One More: Modeling Binge Watching Behavior
このタイトルを見るまで "binge-watching" という単語を知らなかった.ある番組などにハマってまとめて見てしまうことらしい.
論文では VOD (Video On Demand) サービス (特にこのサイトは定額見放題ではなく話数ごとに購入が必要なものである) について,ユーザのまとめ見のような行動をモデル化する.

定義

「セッション」とは,一本以上の動画を見ており,その操作の間隔が 1 時間未満であるものとする.
ここからは,1 つのセッションに何本の動画が視聴されているか,について調べていく.
読み飛ばしているのだと思うけど,セッションの定義はこれだけでは不十分であって,正確には「同一デバイスにおいて同一の番組シリーズを視聴しており,操作の間隔が1時間未満のものの集合」ではないだろうか (というのも,後段の分析においてセッションは同一番組を見続けることが仮定されているように思う).

データに対する観察

  • 1 セッションで視聴された本数をプロットするとヘビーテイルになる.また,大量に視聴が行われているセッションが存在している.

- すなわち,Binge Watching がデータに存在している

  • 曜日別の 1 セッションあたりの視聴本数を見ると週末にかけて伸びる傾向がある
  • 平日・週末ごとにセッションの開始時刻ごとの視聴本数を見ると週末の夜ほど視聴本数が多くなる
  • モバイル端末による1セッションあたりの平均視聴本数は 1.58 本であるのに対し,テレビでは 2.00 本である
  • それぞれの番組は 22 分と 44 分のものに分類される

- 44 分のものでは平均 1.79 本, 22 分のものでは平均 2.54 本視聴されている

  • 視聴行動は番組のジャンルによっても異なる

- コメディーは伸びる
- 同じコメディーでも「ビッグバン★セオリー」より「ママと恋に落ちるまで」の方が伸びる
- Table 1 に Walking Dead とか Breaking Bad とかタイトルが入ってるのが面白い

  • またこのデータにはあるドラマについて特定の話数(三話など)までしか配信していないためにユーザがそこまで見尽くしてしまう censoring (以降打ち切り) と呼ばれる現象が起こっている

- 全セッションのうち 20.9 % において打ち切りが起こっている
- censoring も当然番組ごとに起こりやすさが異なっている

手法

方針としてはポアソン分布を用いる.もっともシンプルなモデルはセッションにおける視聴本数をパラメータ[
tex:\lambda]を用いて

とする.
続いて打ち切りをモデル化する.をセッションで視聴可能な最大の動画数であり,セッションが打ち切られたことをとして表し,セッションが本あったとするとその確率は

となる.
続いてポアソン回帰に発展させる.つまり,ポアソン分布のパラメータを共変量を使って回帰する.今,セッションにおける次元の共変量を考え,とする.
更にユーザの多様性などを考慮するために単一のポアソン分布でなく個の混合ポアソン分布を導入して結果的に

とする.これが提案モデル.
あとはEMでパラメータであるを推定していく.

実験

「そのセッションで何本見るか」「次の話を見るか」の予測実験.
ポアソン分布のパラメータを回帰するための共変量には

  • 動画のタイトル
  • セッションの開始時間 (hour),曜日,
  • バイス

を 1-hot encoding したものを用いる.
精度が改善するのが確認できた.
ポアソン分布の混合数については 3個が良い.

Binge Watching に関するモデルから得られた考察

三つのポアソン分布のうち,一つはすごく短いセッション,一つは平均的なセッション,一つは非常に長いセッションを表現している.
あとはタイトル別,曜日別,デバイス別の視聴傾向の差が述べられている.