メモ
タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…
タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…
ML Ops Study #2 - connpass 申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった. 機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc 機械学習プロジェクトを頑健にする…
python で実装はしていたけれどもう少し速度が欲しかった. C++で書こうと思っていたけれど,周りから golang を薦められたので従った. 高速化のためにパラメータ更新は[1106.5730] HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient D…
Factorization Machines で Bayesian Personalized Ranking を用いた implicit feedback の推定を行いたかったけどうまくいかなかった - 糞ネット弁慶 Matrix Factorization で Bayesian Personalized Ranking を用いた implicit feedback の推定はうまくい…
Factorization Machines で Bayesian Personalized Ranking を用いた implicit feedback の推定を行いたかったけどうまくいかなかった - 糞ネット弁慶の続き. 要約 Bayesian Personalized Ranking が諦められない pairwise な loss を考慮した Matrix Facto…
何故上手くいかなかったのか,あとから再現できるよう忘れないために書く. 要約 回帰や分類ではなく, Bayesian Personalized Ranking にもとづく Factorization Machines を試したい 実装はibayer/fastFM を使い,データに MovieLens 100K を選び実験する…
http://recruit.ai/event/datascience_update0210.html David M. Blei に Owen Zhang の話が聞けるということで行ってきた. 朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ…
Eventernote (イベンターノート) Eventernote イベンターノート オタク活動管理に便利なEventernoteをクロールしたくてクローラ書いた.ソースはgistにあげた. Eventernote自体は@MagnesiumRibbonが前回の冬コミで出した声優統計第三号にて分析対象にしてい…
Machine Learning Advent Calendar 2013 - Qiita Machine Learning Advent Calendarです. 本来ならば,以前少しでも研究に興味がある人,面白いテーマを探している人は「研究に必要なたったN個の事」とかいう記事を読まずに今すぐに"How to do good researc…
ベンチマーク用に必要になった.手元のデータをRの実装で試そうにもメモリを20Gほど食うばかりで学習が終わらなかったので自分用にC++で書いた. 学習にはSGDを使っている.そこそこの時間で回るので今後も定期的に使いたい. 疑問としては,L1/L2正則化を全…
とある弁当屋の統計技師(データサイエンティスト) ―データ分析のはじめかた―作者: 石田基広,りんと出版社/メーカー: 共立出版発売日: 2013/09/25メディア: 単行本この商品を含むブログ (15件) を見る買いましょう.
結論から言うと,結構面倒なのでサンプリングで近似すれば良い.死ぬほど精度が必要とかで無い限り, 後述する Variational Approximation を使えば良さそう. 目的 GMMは正規分布の重み付き和で表現される確率分布.二つのGMMの類似度を測る必要が生じたの…
概要 最近話題の Deep Learning,NIPS や ICML,CVPR といった世界の話だろうと思っていたら Kaggle で Deep learning が去年一件,今年に入って更に一件優勝していたのでまとめる. Kaggle Kaggle: Your Home for Data Science おなじみのデータマイニング…
AJACS37 - MotDBでプレゼンする事になったので22日昼から作業した内容についてまとめる. 目的 イベントにおけるキャンセル者数を予測する. イベント主催者に取って最も問題になるのはキャンセルの発生である. 飲食が絡むイベントでは予約人数,料金に不整…
Titanic: Machine Learning from Disaster | Kaggle タイタニック号の乗客の名前,年齢,性別,チケット代,客室などの情報が与えられた上で,乗客の生死を予測するモデルを学習するコンペティション. タイタニック号の全乗客の生死リストなどはネットに数…
身内でdeep learningの勉強会をやったらできそうだったので実装した. 読んだのは大体ここらへん. NEURAL NETS FOR VISION(CVPR2012 tutorial) CS294A Lecture notes Sparse autoencoder ImageNet Classification with Deep Convolutional Neural Networks …
ブログ記事を収集する必要が生じてクローラ書いた. 最初は wget -a ./wget.log -w 30 -r -np -m -k -erobots=off -np blog_url とかやってたけど月別一覧やカテゴリ一覧,モバイル版URLを開こうとしてかなり重複してしまい一向に終わらないので,主要なブロ…
データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ. 要約 あるコンペにて「勝った!!!!!!!!!…
概要 声優の共演関係から声優がいつブレイクしたかを年月の単位で推定した. 結果はここに. データ しょぼいカレンダーをクロールし, アニメタイトル 放映開始年月 出演声優一覧 を取得した. https://github.com/ybenjo/crawl_syobocal/blob/master/src/c…
折角のゴールデンウィークなので,また,堀江由衣のライブに行って感動してしまったので声優統計に取り組んでいる. 参考 2010年 ブレイクした女性声優さん@はてな - エネルギー吸収と発散 声優統計hackathon!!! - 声優統計 かなり適当に計算したのでアル…
折角のゴールデンウィークなので,twitterで他の人の発言をそのままコピペしているユーザを少しずつ特定し始めている.
CRAN - Package hash LL脳なので連想配列が使いたくなってしまいhashを導入したら比較的捗った. しかし,keyが存在しない状態でもhas.keyを使うとTRUEが返ってくる.2時間ぐらいはまった. > library(hash) > h <- hash() > h <hash> containing 0 key-value pair</hash>…
CRAN - Package mvpart タイトルそのまま.決定木の分岐でGini Indexが増減するのでそれを取得して足しあわせて1つの木における特徴量でどれが有効に働いているかを調べたい. help読んだらimproveっぽいけどスケールが大きすぎるし,indexの説明は書かれて…
クレジットカード現金化詐欺【業界人が教える口コミ情報】 【ユーザ】「ライフサイエンス分野の大規模データ・現場での課題とこれから」 (ライフサイエンス統合データベースセンター/DBCLS @iNut) スライド(pdf) SQL, NoSQL, アルゴリズムの話無し DBCLSの説…
Rubyで機械学習する必要が生じてai4rの導入を検討した. http://ai4r.rubyforge.org/ だいたいこんな感じで書ける.データはUCI Machine Learning Repository: Wine Data Set. # -*- coding: utf-8 -*- require "ai4r" # 学習 train_data = Ai4r::Data::Dat…
ビューティフルデータ (THEORY/IN/PRACTICE)作者: Toby Segaran,Jeff Hammerbacher,堀内孝彦,真鍋加奈子,苅谷潤,小俣仁美,篠崎誠出版社/メーカー: オライリージャパン発売日: 2011/02/28メディア: 大型本購入: 24人 クリック: 493回この商品を含むブログ (15…
グラフィックスのためのRプログラミング―ggplot2入門作者: H.ウィッカム,石田基広,石田和枝出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2011/07/18メディア: 単行本購入: 7人 クリック: 265回この商品を含むブログ (7件) を見る俺のようにggp…
Ruby + TMailでGmailのSMTPサーバを使ってメールを送信したいがCcがうまく処理されない→解決した - 糞ネット弁慶 前回はTMail+ruby1.8.9で送っていたが1.9環境でメールを送る必要性が生じた. しかしruby1.9においては"tmailscanner.so: undefined symbol: r…
ある必要性からRubyでgmailのsmtpサーバからメールを送るこんなスクリプトを書いた. 参考にしたのはこちら→GMailのSMTPサーバーを使ってメールを送信するサンプル - うなの日記 # -*- coding: utf-8 -*- require "rubygems" require "tmail" require "tlsma…