糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

SEXI2013 / WSDM2013 読み会を開催しました & Threading Machine Generated Email (WSDM 2013)読んだ

http://sexi2013.org/
WSDM2013 | Business, Technology, and Marketing
SEXI2013読み会 : ATND
というわけで, WSDM2013 のワークショップである SEXI2013, X-rated つまりはエロコンテンツのワークショップの予稿集と WSDM2013 の論文を読む会をやってきた.
会場を提供してくださった株式会社Gunosy様,参加 & 発表してくださった皆様ありがとうございました.

Threading Machine Generated Email (WSDM 2013) 読んだ

Threading machine generated email

webサービスから来るメールを自動的にまとめる論文を読んだ.
一番読んでいて分からなかったのは,テンプレートに入る変数部分のマッチングのあたりが例と論文の手法が合っていないのでは?という点.
質疑では

  • メールのテンプレートを抜いてくる部分が一番難しいのでは
  • ドメインのメールをまとめるだけの精度が欲しい
  • 異なるドメインだけど意味は同じメールがどれぐらい正解できたのかが知りたい

という感じだった.

Sex, Privacy and Ontologies (dichika)

  • サイト側ではなくユーザ側に属性データを持たせてあとはオントロジーで全部解決
  • カテゴリやタグの情報で絞込みができればエロ動画も見つけやすくなるはず
  • 「タグ/カテゴリごとに縛りがきついものとそうでないものがあるので混ぜて評価はまずいのでは(例: 肌の色だとかなり動画は絞られるが,巨乳だとまだまだ候補は多い,など)」というコメントあり

Exploring YouPorn Categories, Tags, and Nicknames for Pleasant Recommendations (john_a_dreams)

  • YouPorn のデータでレコメンデーション
  • http://blog.uni-mannheim.de/mschuhma/yp-corpus/
  • ユーザは動画にニックネーム(重複あり,その場限りの名前)でコメントを投稿することができる
  • そのニックネームにユーザの性的嗜好が現れるのではないか?という話(例えば「レズ大好き太郎」など)
  • 男性名/女性名/名詞のニックネームでそれぞれ好む動画傾向が変わる
  • あとはタグの組み合わせで好む好まないが現れる
  • 「これはすごい,なぜなら同じタグがついた動画でもニュアンスが違う事があって良い悪いが存在する.それがコメントされるニックネームという形で現れているのではないか」とコメントあり

Learning from the Internet Porn Industry: What Porn Sites May Tell Us about Pornography Location Behaviors (jkomiyama)

  • アダルト動画サイトがどういう風に進化しているか,という調査論文
  • アダルト動画サイトは階層構造が非常に浅くなっていて,目当ての動画を見つけやすいようにしている
  • アダルト動画サイトは大きなサムネイルでユーザに「うちにはこんなに動画があるんだからお前の好みもきっと見つかる」とアピールしている
  • SNS機能を持つアダルト動画サイトはあるが今後生き残るかは未知数
  • 「DMM動画のSNS機能は凄い,レビュワーのフォロー関係などが存在する」とコメントあり

Identifying VHS Recording Artifacts in the Age of Online Video Platforms (masa_kzm)

  • アップロードされた動画がVHSソースのものか判別する
  • 「VHSソースだと横にノイズが走るからそれを取り出せばいいんじゃないか」という提案のみが行われている
  • 「VHSかどうかの判別のために国を超えて研究者が共著に集まっている.なんだこのドリームチームは」というコメントあり.

Adult Query Classification for Web Search and Recommendation (sleepy_yoshi)

  • クエリがアダルトかそうでないかを判定する
    • ユーザごとにサジェストやコンテンツを切り替えるのに必要
  • SEXI2013読み会に参加して発表してきました - 睡眠不足?!
  • 「最初にサイトがアダルトかどうかの特徴量を作ってるところが一番のキモなのでは」というコメントあり
  • googleはアダルトらしきクエリはサジェスト候補に出てこない,アダルトらしきクエリが入力されても更にサジェストしない」というコメントを元に一斉に検索

Unsupervised Graph-based Topic Labelling using DBpedia, Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata (Quasi_quant2010)

Connecting Comments and Tags: Improved Modeling of Social Tagging Systems (ysekky)

  • Connecting Comments and Tags: Improved Modeling of Social Tagging Systems
  • ユーザ/画像/コメント/タグ/フォロー/画像コンテンツみたいな複数次元のデータをうまいこと処理する話
  • bayesian probabilistic matrix factorization とグラフィカルモデルが似ているが違いについて言及がなかったのが気になる
  • future work で core tensor がどうこうって出てたしやはり tensor 側に倒すのでは

Identifying Users’ Topical Tasks in Web Search (harapon)

  • Identifying users' topical tasks in web search
  • 検索クエリをタスクごとに分割しようという話
    • 連続したクエリでも途中でユーザの目的は違っているかもしれない
  • その際, MSR が作ってるオントロジー体系を使って意味を付与していく
  • 「比較実験で同じSVMで解き方を変えてるのを試す意味はあるのか」という質問あり
  • 「MSRの人がWWW2013でセッションごとにユーザの検索意図を推測する研究を発表していたので恐らくこれは社内で知らずに似たタスクを解いていたっぽい」というコメントあり

感想

  • 思った以上に質疑が盛り上がった
  • ドメイン知識の豊富さは重要
  • SEXI2014も開かれて欲しい
  • アダルトに関する行動,かなり不合理的だったり突発的だったりするので定式化が難しい,だからこそそこから得られる知見は重要だ,みたいな話をした