糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

メモ

300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました

タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…

MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない

タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…

ML Ops Study #2 参加した

ML Ops Study #2 - connpass 申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった. 機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc 機械学習プロジェクトを頑健にする…

golang で BPR な Factorization Machines を書いた

python で実装はしていたけれどもう少し速度が欲しかった. C++で書こうと思っていたけれど,周りから golang を薦められたので従った. 高速化のためにパラメータ更新は[1106.5730] HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient D…

自分で実装した Factorization Machines による Bayesian Personalized Ranking を用いた implicit feedback の推定はうまくいった

Factorization Machines で Bayesian Personalized Ranking を用いた implicit feedback の推定を行いたかったけどうまくいかなかった - 糞ネット弁慶 Matrix Factorization で Bayesian Personalized Ranking を用いた implicit feedback の推定はうまくい…

Matrix Factorization で Bayesian Personalized Ranking を用いた implicit feedback の推定はうまくいった

Factorization Machines で Bayesian Personalized Ranking を用いた implicit feedback の推定を行いたかったけどうまくいかなかった - 糞ネット弁慶の続き. 要約 Bayesian Personalized Ranking が諦められない pairwise な loss を考慮した Matrix Facto…

Factorization Machines で Bayesian Personalized Ranking を用いた implicit feedback の推定を行いたかったけどうまくいかなかった

何故上手くいかなかったのか,あとから再現できるよう忘れないために書く. 要約 回帰や分類ではなく, Bayesian Personalized Ranking にもとづく Factorization Machines を試したい 実装はibayer/fastFM を使い,データに MovieLens 100K を選び実験する…

「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いた

http://recruit.ai/event/datascience_update0210.html David M. Blei に Owen Zhang の話が聞けるということで行ってきた. 朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ…

Eventernoteのクローラー書いた

Eventernote (イベンターノート) Eventernote イベンターノート オタク活動管理に便利なEventernoteをクロールしたくてクローラ書いた.ソースはgistにあげた. Eventernote自体は@MagnesiumRibbonが前回の冬コミで出した声優統計第三号にて分析対象にしてい…

UCI Machine Learning Repository をマイニングする(Machine Learning Advent Calendar 12日目)

Machine Learning Advent Calendar 2013 - Qiita Machine Learning Advent Calendarです. 本来ならば,以前少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good researc…

多クラスのロジスティック回帰書いた

ベンチマーク用に必要になった.手元のデータをRの実装で試そうにもメモリを20Gほど食うばかりで学習が終わらなかったので自分用にC++で書いた. 学習にはSGDを使っている.そこそこの時間で回るので今後も定期的に使いたい. 疑問としては,L1/L2正則化を全…

とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた― がそろそろ発売になります

とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた―作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行本この商品を含むブログ (15件) を見る買いましょう.

2つの GMM(Gaussian Mixture Model) の類似度を KL Divergence で測る

結論から言うと,結構面倒なのでサンプリングで近似すれば良い.死ぬほど精度が必要とかで無い限り, 後述する Variational Approximation を使えば良さそう. 目的 GMMは正規分布の重み付き和で表現される確率分布.二つのGMMの類似度を測る必要が生じたの…

データマイニングコンペティションサイト Kaggle にも Deep Learning ブームがきてるかと思ったのでまとめる

概要 最近話題の Deep Learning,NIPS や ICML,CVPR といった世界の話だろうと思っていたら Kaggle で Deep learning が去年一件,今年に入って更に一件優勝していたのでまとめる. Kaggle Kaggle: Your Home for Data Science おなじみのデータマイニング…

ATNDのイベントにおけるキャンセル者数を予測する

AJACS37 - MotDBでプレゼンする事になったので22日昼から作業した内容についてまとめる. 目的 イベントにおけるキャンセル者数を予測する. イベント主催者に取って最も問題になるのはキャンセルの発生である. 飲食が絡むイベントでは予約人数,料金に不整…

Kaggle で Titanic: Machine Learning from Disaster やった

Titanic: Machine Learning from Disaster | Kaggle タイタニック号の乗客の名前,年齢,性別,チケット代,客室などの情報が与えられた上で,乗客の生死を予測するモデルを学習するコンペティション. タイタニック号の全乗客の生死リストなどはネットに数…

節操の無いクソイナゴ野郎なのでdeep learningで使われるautoencoder実装した

身内でdeep learningの勉強会をやったらできそうだったので実装した. 読んだのは大体ここらへん. NEURAL NETS FOR VISION(CVPR2012 tutorial) CS294A Lecture notes Sparse autoencoder ImageNet Classification with Deep Convolutional Neural Networks …

Ameblo/Livedoor/excite/yaplog のブログクローラ書いた

ブログ記事を収集する必要が生じてクローラ書いた. 最初は wget -a ./wget.log -w 30 -r -np -m -k -erobots=off -np blog_url とかやってたけど月別一覧やカテゴリ一覧,モバイル版URLを開こうとしてかなり重複してしまい一向に終わらないので,主要なブロ…

過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約)

データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ. 要約 あるコンペにて「勝った!!!!!!!!!…

アニメにおける共演関係を用いた声優のブレイク推定

概要 声優の共演関係から声優がいつブレイクしたかを年月の単位で推定した. 結果はここに. データ しょぼいカレンダーをクロールし, アニメタイトル 放映開始年月 出演声優一覧 を取得した. https://github.com/ybenjo/crawl_syobocal/blob/master/src/c…

声優がいつブレイクしたかを特定しようとしている

折角のゴールデンウィークなので,また,堀江由衣のライブに行って感動してしまったので声優統計に取り組んでいる. 参考 2010年 ブレイクした女性声優さん@はてな - エネルギー吸収と発散 声優統計hackathon!!! - 声優統計 かなり適当に計算したのでアル…

コピペ面白post転載ユーザを特定した

折角のゴールデンウィークなので,twitterで他の人の発言をそのままコピペしているユーザを少しずつ特定し始めている.

Rのhashライブラリで予約語をkeyにする時一点だけ気をつける事

CRAN - Package hash LL脳なので連想配列が使いたくなってしまいhashを導入したら比較的捗った. しかし,keyが存在しない状態でもhas.keyを使うとTRUEが返ってくる.2時間ぐらいはまった. > library(hash) > h <- hash() > h <hash> containing 0 key-value pair</hash>…

Rのmvpartパッケージのrpartで得られる決定木について分岐毎のGini Indexの増減を取得したい

CRAN - Package mvpart タイトルそのまま.決定木の分岐でGini Indexが増減するのでそれを取得して足しあわせて1つの木における特徴量でどれが有効に働いているかを調べたい. help読んだらimproveっぽいけどスケールが大きすぎるし,indexの説明は書かれて…

大規模データ処理勉強会 〜「大きな」データと対峙する(仮称)〜に参加してきた

クレジットカード現金化詐欺【業界人が教える口コミ情報】 【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut) スライド(pdf) SQL, NoSQL, アルゴリズムの話無し DBCLSの説…

Rubyで決定木とか使うならai4rがいいらしいけど苦しんだので別の方法を考える

Rubyで機械学習する必要が生じてai4rの導入を検討した. http://ai4r.rubyforge.org/ だいたいこんな感じで書ける.データはUCI Machine Learning Repository: Wine Data Set. # -*- coding: utf-8 -*- require "ai4r" # 学習 train_data = Ai4r::Data::Dat…

データいじるのが好きだったりデータサイエンティストになりたかったりする人は「ビューティフルデータ」を今すぐ注文しましょう

ビューティフルデータ (THEORY/IN/PRACTICE)作者: Toby Segaran,Jeff Hammerbacher,堀内孝彦,真鍋加奈子,苅谷潤,小俣仁美,篠崎誠出版社/メーカー: オライリージャパン発売日: 2011/02/28メディア: 大型本購入: 24人 クリック: 493回この商品を含むブログ (15…

Rユーザは「グラフィックスのためのRプログラミング―ggplot2入門」を今すぐ注文しましょう

グラフィックスのためのRプログラミング―ggplot2入門作者: H.ウィッカム,石田基広,石田和枝出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2011/07/18メディア: 単行本購入: 7人 クリック: 265回この商品を含むブログ (7件) を見る俺のようにggp…

RubyからGmailのSMTPサーバ使ってメール送るならpony使うほうが楽だった

Ruby + TMailでGmailのSMTPサーバを使ってメールを送信したいがCcがうまく処理されない→解決した - 糞ネット弁慶 前回はTMail+ruby1.8.9で送っていたが1.9環境でメールを送る必要性が生じた. しかしruby1.9においては"tmailscanner.so: undefined symbol: r…

Ruby + TMailでGmailのSMTPサーバを使ってメールを送信したいがCcがうまく処理されない→解決した

ある必要性からRubyでgmailのsmtpサーバからメールを送るこんなスクリプトを書いた. 参考にしたのはこちら→GMailのSMTPサーバーを使ってメールを送信するサンプル - うなの日記 # -*- coding: utf-8 -*- require "rubygems" require "tmail" require "tlsma…