糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 読んだ

www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワ…

300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました

タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…

MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない

タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…

Predicting Audio Advertisement Quality (WSDM 2018) 読んだ

[1802.03319] Predicting Audio Advertisement QualitySpotify や Pandora などの音楽配信サービスにおいて挿入される音声のみの広告の品質を機械学習で推定する. 方針としては,音声から handcrafted な特徴量を抽出し,代理タスクを解く. 論文の著者は P…

Applying Deep Learning To Airbnb Search (preprint) 読んだ

[1810.09591] Applying Deep Learning To Airbnb SearchAirbnb における Search に Deep Learning を導入した話.「機械学習のシステムが既にあってそこにニューラルネットワークを導入したい人」に向けて書かれている. 論文調ではないのでまとめも箇条書き…

IBIS 2018 行った

IBIS2018 | 第21回情報論的学習理論ワークショップ, 2018.11.4〜7, 札幌(かでる2.7・北大) 先月にアンダーライブツアー北海道シリーズで行ったばかり.札幌がちょうどいい気温だった.チュートリアルの日は特に晴れていて,北大内にあるセイコーマート2階…

IRGAN (SIGIR 2017)→GraphGAN (AAAI 2018)→CFGAN (CIKM 2018) を読んで GAN による購買予測/協調フィルタリングを学ぶ

CFGAN (CIKM 2018) を読もうと思ったら「そもそも発想としては IRGAN (SIGIR 2017) と GraphGAN (AAAI 2018) が先にあって……」と触れられていたので順に読むことにする. そもそもタイムラインで「CFGAN がはじめて商品推薦に GAN を使っていてすごい」とい…

Graph Convolutional Neural Networks for Web-Scale Recommender Systems (KDD 2018) 読んだ

KDD 2018 | Graph Convolutional Neural Networks for Web-Scale Recommender Systems 著者に Jure Keskovec がいる. Pinterest における推薦にて node の embedding を graph convolution で学習する推薦手法 PinSage を提案している.タイトルだけ読むと…

Sequences of Sets (KDD 2018) 読んだ

KDD 2018 | Sequences of Sets 好きな研究者が何人かいて,タイトルで気になった論文の著者がその人だとちょっとうれしくなる.Cornell University の Jon M. Kleinberg や Google の Ravi Kumar , Stanford の Jure Leskovec は気になって定期的に著者のペ…

Learning and Transferring IDs Representation in E-commerce (KDD 2018) 読んだ

KDD 2018 | Learning and Transferring IDs Representation in E-commerce EC サイトにおける商品 (item) の埋め込み (embedding) を学習する.その際,商品につけられたメタデータをまとめて学習する. 基本方針 ユーザの商品閲覧行動にもとづいて skip-gra…

Trajectory-driven Influential Billboard Placement (KDD 2018) 読んだ

KDD 2018 | Trajectory-driven Influential Billboard Placement街頭広告をどのように選ぶかに取り組む。 問題設定としては 緯度経度で構成される軌跡 (trajectory) の集合 緯度軽度とコストで構成される街頭広告 (billboard) の集合 総予算 が与えられ、 軌…

Customized Regression Model for Airbnb Dynamic Pricing (KDD 2018) 読んだ

KDD 2018 | Customized Regression Model for Airbnb Dynamic Pricing民泊サービス Airbnb において, host (部屋を提供する人,ホスト) に対して「この値段で部屋を貸すと良い」と価格を提案する機能を実装するための技術. 予約 (booking) が入るかどうか…

声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されました

声優統計コーパスのパラレルコーパスとして,東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました. このたび,nico-opendata 音声読み上げデータセットが Dwango Media Village によって公開され…

Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time (WebConf 2018) 読んだ

[1711.07601] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time Pinterest における推薦の論文.Jure Leskovec が last author に入っているのでとりあえず読む. WWW が WebConf に名前が変わったのが悲しい. 概要 …

JSAI 2018 / 2018年度 人工知能学会全国大会(第32回) 行った

はじめて桜島を見た.「農業とAI」セッションはモチベーションが面白い. [2G3-OS-10c-01] 動画像からの豚体の頭部方向識別に用いる特徴量 JSAI2018/Features values for recognition of swine's head direction from video. 豚の病気検知のために水を…

ML Ops Study #2 参加した

ML Ops Study #2 - connpass 申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった. 機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc 機械学習プロジェクトを頑健にする…

声優統計コーパスの利用事例暫定まとめ

日本声優統計学会 にて声優統計コーパスを公開してほぼ一年.個人団体を問わず問い合わせのメールを頂いている.しかしよく考えたら Google Analytics の設定をまともに書いていなかったせいでどれぐらいダウンロードされたのか全く計測できていない.せめて…

Dynamic Word Embeddings for Evolving Semantic Discovery (WSDM 2018) 読んだ

概要 [1703.00607] Dynamic Word Embeddings for Evolving Semantic Discovery word embedding の時系列変化が見たい(これどこかの論文でも見た気がする). 例えば, apple という単語は昔は果物が連想されるだけだったが,今ではテクノロジー企業も連想され…

Neural Factorization Machines for Sparse Predictive Analytics (SIGIR 2017) 読んだ & Chainer で実装した

[1708.05027] Neural Factorization Machines for Sparse Predictive Analyticsみんなが好きな Factorization Machines (FM) とニューラルネットワークを組み合わせて Neural Factorization Machines (NFM) を提案する. FM とその派生手法がいくら変数間の…

冬のコミックマーケット2日目,30日東 F-55b にて「声優統計5, 6, 7, 8号」の在庫を頒布します

終わったはずの声優統計.しかし5号から8号までの前回の冬コミ在庫が若干部屋に残っていました.正直保存状態は悪いです. @MagnesiumRibbonが30日東 F-55b Rei'n forcement にて松嵜麗さんの本を出す予定(松嵜麗さんのファンブックを出したいです - Rei'n f…

NIMA: Neural Image Assessment (Arxiv) または『Googleが作った画像評価モデル』の元論文を読んだ

[1709.05424] NIMA: Neural Image AssessmentGoogle、任意の画像が技術的に審美的に美しいかを評価し1-10(10が最高得点)で採点するCNNベースの画像評価モデル「NIMA」を提案した論文を発表 | Seamless Google AI Blog: Introducing NIMA: Neural Image Ass…

Deep Text Classification Can be Fooled (Preprint) 読んだ

Deep Text Classification Can be Fooled 入力を少し変化させるだけで機械学習によるモデルの推定結果を変えてしまう技術は Adversarial example と呼ばれている. よく見るのは画像を用いた例だけど,それが文書分類でもできないかと思い探したところ,まず…

IBIS 2017 行った

IBIS2017 | 第20回情報論的学習理論ワークショップ, 2017.11.8〜11, 東京大学 本郷キャンパス 聞いたポスターについてメモ.人があまりに多くて,予定していた半分も聞くことができなかった. D1-22 : 機械学習モデルの列挙 著者らによるスライド 機械学習モ…

Neural Collaborative Filtering (WWW 2017) 読んだ & Chainer で実装した

Neural Collaborative Filtering (pdf) 概要 タスクは user と item について評価しているか (1) していないか (0) の情報 (implicit feedback) から未知の user と item の評価を予測する,商品推薦において非常に古典的なもの. 一般的には協調フィルタリ…

Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media (ICWSM 2017) 読んだ

Face-to-BMI 顔写真から BMI (Body Mass Index) を推定する.データセットは progresspics - Show us your body transformations をクロールし,皆さんがアップロードしている before / after の写真 4206 枚を集めた. reddit にこんなデータがあるとは思わ…

golang で BPR な Factorization Machines を書いた

python で実装はしていたけれどもう少し速度が欲しかった. C++で書こうと思っていたけれど,周りから golang を薦められたので従った. 高速化のためにパラメータ更新は[1106.5730] HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient D…

「声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築」を書いた

声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築 (pdf, GitHub) というわけで プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞ネット弁慶 で公開した声優…

Field-aware Factorization Machines in a Real-world Online Advertising System (WWW 2017) 読んだ

[1701.04099] Field-aware Factorization Machines in a Real-world Online Advertising System Criteo で Field-aware Factorization Machines を活用している,という話.気になった点をメモしておく. 複数マシンでの推定 Iterative Parameter Mixing を…

Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data (WWW 2017) 読んだ

[1702.06270] Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data ユーザのプライバシーなどに考慮し,「誰がいつどこにいたか」という生の位置情報ではなく,「どの領域にいつ何人いたか」という集計情報の公開,共…

プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します

日本声優統計学会 サークル「日本声優統計学会」の最後の活動として,読んでくださった方々への恩返しの意味を込め, id:repose と id:MagnesiumRibbon で声優統計コーパスを上記ページにて公開しました. 概要 声優統計コーパスは diphone の出現頻度を考慮…