2013-01-01から1年間の記事一覧
二度ある事は三度ある.日本声優統計学会としての三度目のコミケ参加です. 内容 序文: 声優統計における言語情報と非言語情報 (@langstat) アニメ,声優,二次創作における百合ネットワークの考察 (@Med_KU),(@biochem_fan) 複数の声優によるセリフの音響…
Machine Learning Advent Calendar 2013 - Qiita Machine Learning Advent Calendarです. 本来ならば,以前少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good researc…
というわけで Gunosy 新オフィスで行われた RecSys 2013 (Hong Kong) – RecSys の論文読み会に参加した.発表者の皆様お疲れ様でした. 自分は Personalized next-song recommendation in online karaokes と Nonlinear latent factorization by embedding m…
冬のコミックマーケットに当選しました 二度あることは三度ある,ということで一日目(29日,日曜日)東タ27aに「日本声優統計学会」で当選しました. 新刊「声優統計第三号」と共に,既刊「声優統計第一号」「声優統計第二号」も少量ながら印刷します. 声優…
RecSys2013読み会 : ATND CIKMを読むかRecSysを読むかという話になりましたが,RecSysを読みます. 主催・会場はまたしてもGunosyです. まだタイトルしか見ていませんが,Nonlinear latent factorization by embedding multiple user interests か Personal…
Opportunity model for e-commerce recommendation 概要 正しい商品を正しいタイミングで推薦したい. ノートパソコンを買った人が替えのバッテリーを購入しやすいという傾向があったとしても,それはバッテリーが駄目になる頃(例えば二年後とか)だろう.そ…
ベンチマーク用に必要になった.手元のデータをRの実装で試そうにもメモリを20Gほど食うばかりで学習が終わらなかったので自分用にC++で書いた. 学習にはSGDを使っている.そこそこの時間で回るので今後も定期的に使いたい. 疑問としては,L1/L2正則化を全…
KDD 2013 の論文を互いに持ち寄って読む会をやった.日付を工夫しなかったせいでhttp://www.marine-e.net/sp/marikore2013/に行けなかったのが非常に悲しい.会場は前回と同じくGunosyのオフィスを貸していただいた.参加してくださった方々,オフィスを貸し…
A Biterm Topic Model for Short Texts(WWW 2013) 概要 LDAやPLSIは文書中の単語が少ない時にうまくいかない.なぜならば文書ごとにトピックの分布があって,それによって単語が生成されるという仮定があるからだ. 提案する Biterm Topic Model(BTM) ではト…
とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた―作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行本この商品を含むブログ (15件) を見る買いましょう.
結論から言うと,結構面倒なのでサンプリングで近似すれば良い.死ぬほど精度が必要とかで無い限り, 後述する Variational Approximation を使えば良さそう. 目的 GMMは正規分布の重み付き和で表現される確率分布.二つのGMMの類似度を測る必要が生じたの…
KDD2013読み会 : ATND データマイニングのトップカンファレンス,KDD 2013 の読み会を開催します. 場所はSEXI2013読み会に引き続き,Gunosyのオフィスを貸していただける事になりました. Ad Click Prediction: a View from the Trenches を読む予定.
新刊既刊合わせて冬コミの倍持ち込んだにもかかわらず,新刊「声優統計第二号」,及び既刊「声優統計第一号」,13:50頃に完売しました. 買ってくださった皆様ありがとうございました.また,ブースまで足を運んでいただいたにもかかわらず品切れでお渡しで…
日本声優統計学会としての二度目のコミケ参加です. 内容は次のようなものです. 序文 (@toddler2009) トピックモデルを用いたニコニコ動画コメントデータの声優トピック流行推移解析 (@Med_KU,@biochem_fan) 声優活動における「元アイドル」の影響予測 (@k…
http://sexi2013.org/ WSDM2013 | Business, Technology, and Marketing SEXI2013読み会 : ATND というわけで, WSDM2013 のワークショップである SEXI2013, X-rated つまりはエロコンテンツのワークショップの予稿集と WSDM2013 の論文を読む会をやってき…
SEXI2013読み会 : ATND WSDM2013で開催されたX-Rated,つまりはアダルト系コンテンツに関するワークショップである Workshop on Search and Exploration of X-Rated Information (SEXI 2013) の原稿集が公開されたので読み会します.
10日,東ノ46-bにて,新刊「声優統計 第二号」,及び冬コミで出した既刊「声優統計 第一号」を持ち込む予定です. タイトル一覧決定しました →夏のコミックマーケットC84 10日土曜日東ノ46-bで「声優統計 第二号」を出します - 糞ネット弁慶
概要 最近話題の Deep Learning,NIPS や ICML,CVPR といった世界の話だろうと思っていたら Kaggle で Deep learning が去年一件,今年に入って更に一件優勝していたのでまとめる. Kaggle Kaggle: Your Home for Data Science おなじみのデータマイニング…
概要 コンテンツ販売サービスの会員離脱予測 | CrowdSolving CrowdSolving第1回コンペに参加しました 5/43位 - 唯物是真 @Scaled_Wurm 日本版Kaggle: Your Home for Data ScienceのようなCrowdSolving | クラソル | データ分析・予測モデル作成のコンペサイ…
Learning to Rank for Spatiotemporal Search(pdf) 概要 foursquareによる論文.ユーザのGPS情報とPOI(なんらかの場所情報)を紐付ける. 位置情報と地名を結びつけるのは4sqやらinstagramやらPathで行われているけど,実際は結構複雑. 位置情報が不正確 GPS…
AJACS37 - MotDBでプレゼンする事になったので22日昼から作業した内容についてまとめる. 目的 イベントにおけるキャンセル者数を予測する. イベント主催者に取って最も問題になるのはキャンセルの発生である. 飲食が絡むイベントでは予約人数,料金に不整…
概要 論文(pdf) ネトゲにおける Gender Swapping ,いわゆるネカマに関する分析論文. これまでもネカマに関する研究は行われており,有用な知見が豊富にあるが,サンプリングバイアス,self-selection bias などが考えられる.また,これらの研究では実際の…
Cooperation and assortativity with dynamic partner updating | PNAS Cooperation and assortativity with dynamic partner updating Supporting Information 著者は六次の隔たりなどで有名なダンカン・ワッツ. 人との繋がりをネットワーク構造で表現して…
とりあえずタイトルだけ見て興味を持ったものを概要だけメモして後で二度読みしないで済むようにする. Mining the Web to Predict Future Eventsはあとでちゃんと読む. Characterizing and Curating Conversation Threads: Expansion, Focus, Volume, Re-e…
Titanic: Machine Learning from Disaster | Kaggle タイタニック号の乗客の名前,年齢,性別,チケット代,客室などの情報が与えられた上で,乗客の生死を予測するモデルを学習するコンペティション. タイタニック号の全乗客の生死リストなどはネットに数…
The long and the short of it 概要 頻出パターンマイニング,理想的には少なく冗長でないパターンが得られて欲しいけど実際は冗長なのでつらい.なので,頻出パターンそのものではなく,得られる頻出パターンの集合に対してMDL(minimum description length)…
The untold story of the clones 概要 (動画の内容による影響を除外して)動画の内容によらない特徴量(content-agnostic factors)で何が一番動画の人気に影響を与えるかを分析する. 結論としてrich gets richerであることが分かった. 何故この研究が新しい…