糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

ランダムな予測値における ROC-AUC は0.5,では nDCG は?

先に結論 nDCG@all はどんな予測値やモデルであっても 1.0 に近づくので注意したほうが良さそうです. 疑問 機械学習モデルにおける予測値の評価にはさまざまな指標が用いられます. RMSE prec / recall / f1-score negative log-likelihood 二値分類ではと…

尾花山ら「データ分析失敗事例集: 失敗から学び、成功を手にする」読んだ

データ分析失敗事例集: 失敗から学び、成功を手にする作者:尾花山 和哉,株式会社ホクソエム,伊藤 徹郎,江川 智啓,大城 信晃,川島 彩貴,輿石 拓真,新川 裕也,竹久 真也,丸山 哲太郎,簑田 高志共立出版Amazon 著者から恵贈いただきました. タイトルの通り,こ…

「評価指標入門〜データサイエンスとビジネスをつなぐ架け橋〜」読んだ

評価指標入門〜データサイエンスとビジネスをつなぐ架け橋作者:高柳 慎一,長田怜士技術評論社Amazon 関連記事 : 書籍「評価指標入門」の出版に寄せて 〜監修の想い(O・MO・I) - 株式会社ホクソエムのブログ 著者からいただきました. この本は大きく 予測…

「施策デザインのための機械学習入門 データ分析技術のビジネス活用における正しい考え方」 読んだ

施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方作者:齋藤 優太,安井 翔太技術評論社Amazon 著者よりご恵贈いただきました.いくつか読むべき本があったのですが,社内で読書会をするために優先して読みました.感想を…

A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys 2020) 読んだ

論文 Gunosy と理研AIPの論文. 企業が持つ implicit feedback のデータを公開するためには アクティブユーザ数や収益や平均クリック数といった business metric を隠したい 公平性を担保したい Population Bias を減らしたい という三つの気持ちがある. 今…

声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨

声優統計コーパスの音素バランス文,および音声データについて告知します. 告知 今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスの voiceactress100 (以降, voice…

声優統計コーパスを歌にした PJS: Phoneme-balanced Japanese Singing-voice corpus が公開されました

PJS: Phoneme-balanced Japanese Singing-voice corpus [2006.02959] PJS: phoneme-balanced Japanese singing voice corpus P J S: 音素バランスを考慮した日本語歌声コーパス from Shinnosuke Takamichi Junya Koguchi さんと東大高道慎之介助教によって…

握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけ…

声優統計コーパスのバランス文を修正しました & 引用されている論文を列挙しました

音素バランス文の読みの修正 対応が遅れてしまい申し訳ありません. GitHub の Issue でも指摘されていた (#6および#7) バランス文の読みを修正しました.該当箇所は 020,043,057,076,079,087 の読みと対応する音素です.変更差分はこの commit を参考…

Synthesizing Tabular Data using Generative Adversarial Networks (preprint) 読んだ

[1811.11264] Synthesizing Tabular Data using Generative Adversarial Networks] GAN を使って表形式のデータを生成する論文は既に読んだわけですが,その発展形. 著者らによる実装も公開されており(DAI-Lab/TGAN: Generative adversarial training for s…

Data Synthesis based on Generative Adversarial Networks (VLDB 2018) 読んだ

[1806.03384] Data Synthesis based on Generative Adversarial Networks 匿名化については micro aggregation (各行を集約することで架空の行を生成すること) や post-randomization (ノイズを載せる) などがあるわけですが, GAN でデータを生成すれば完全…

プロ話者 (声優・俳優など) 100 名から得られたコーパスである JVS (Japanese versatile speech) corpus が東大の高道助教によって公開されました

音声合成研究のために,コーパスをリリースしました.100名のプロ話者(声優・俳優)× 100発話(パラレル)を含んでいます.今すぐダウンロードできます!!https://t.co/FJXrl3owrX https://t.co/qGuUCSqIyA— Shinnosuke Takamichi (高道 慎之介) (@forthshin…

Comprehensive Audience Expansion based on End-to-End Neural Prediction (SIGIR eCOM 2019) 読んだ

Comprehensive Audience Expansion based on End-to-End Neural Prediction (pdf) もうひとつオーディエンス拡張の論文.特にモデルが目新しいわけでもなく,実験もよくわからない (Table 3 は何を行っているのか意味不明) だけど気になったところを書く. …

Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences (KDD 2019) 読んだ

Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences Pinterest におけるオーディエンス拡張を説明した論文.オーディエンス拡張の論文はあまり見かけないので良かった. オーディエンス拡張 (あるいは look-alike) は広告…

Personalized Purchase Prediction of Market Baskets with Wasserstein-Based Sequence Matching (KDD 2019) 読んだ

Personalized Purchase Prediction of Market Baskets with Wasserstein-Based Sequence Matching KDD 2019 の Accepted papers が出たのでひとまずタイトル一覧に目を通し, arXiv などに既にあるものから読んでいこうと思います.しかしあまりにも Graph C…

Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding (WSDM 2018) 読んだ

Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding (pdf) A Simple Convolutional Generative Network for Next Item Recommendation (WSDM 2019) を読もうとしたところ引用されていたのでまずはこちらから読む.WSDM 201…

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 読んだ

www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワ…

300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました

タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…

MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない

タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…

Predicting Audio Advertisement Quality (WSDM 2018) 読んだ

[1802.03319] Predicting Audio Advertisement QualitySpotify や Pandora などの音楽配信サービスにおいて挿入される音声のみの広告の品質を機械学習で推定する. 方針としては,音声から handcrafted な特徴量を抽出し,代理タスクを解く. 論文の著者は P…

Applying Deep Learning To Airbnb Search (preprint) 読んだ

[1810.09591] Applying Deep Learning To Airbnb SearchAirbnb における Search に Deep Learning を導入した話.「機械学習のシステムが既にあってそこにニューラルネットワークを導入したい人」に向けて書かれている. 論文調ではないのでまとめも箇条書き…

IRGAN (SIGIR 2017)→GraphGAN (AAAI 2018)→CFGAN (CIKM 2018) を読んで GAN による購買予測/協調フィルタリングを学ぶ

CFGAN (CIKM 2018) を読もうと思ったら「そもそも発想としては IRGAN (SIGIR 2017) と GraphGAN (AAAI 2018) が先にあって……」と触れられていたので順に読むことにする. そもそもタイムラインで「CFGAN がはじめて商品推薦に GAN を使っていてすごい」とい…

Graph Convolutional Neural Networks for Web-Scale Recommender Systems (KDD 2018) 読んだ

KDD 2018 | Graph Convolutional Neural Networks for Web-Scale Recommender Systems 著者に Jure Keskovec がいる. Pinterest における推薦にて node の embedding を graph convolution で学習する推薦手法 PinSage を提案している.タイトルだけ読むと…

Sequences of Sets (KDD 2018) 読んだ

KDD 2018 | Sequences of Sets 好きな研究者が何人かいて,タイトルで気になった論文の著者がその人だとちょっとうれしくなる.Cornell University の Jon M. Kleinberg や Google の Ravi Kumar , Stanford の Jure Leskovec は気になって定期的に著者のペ…

Learning and Transferring IDs Representation in E-commerce (KDD 2018) 読んだ

KDD 2018 | Learning and Transferring IDs Representation in E-commerce EC サイトにおける商品 (item) の埋め込み (embedding) を学習する.その際,商品につけられたメタデータをまとめて学習する. 基本方針 ユーザの商品閲覧行動にもとづいて skip-gra…

Trajectory-driven Influential Billboard Placement (KDD 2018) 読んだ

KDD 2018 | Trajectory-driven Influential Billboard Placement街頭広告をどのように選ぶかに取り組む。 問題設定としては 緯度経度で構成される軌跡 (trajectory) の集合 緯度軽度とコストで構成される街頭広告 (billboard) の集合 総予算 が与えられ、 軌…

Customized Regression Model for Airbnb Dynamic Pricing (KDD 2018) 読んだ

KDD 2018 | Customized Regression Model for Airbnb Dynamic Pricing民泊サービス Airbnb において, host (部屋を提供する人,ホスト) に対して「この値段で部屋を貸すと良い」と価格を提案する機能を実装するための技術. 予約 (booking) が入るかどうか…

声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されました

声優統計コーパスのパラレルコーパスとして,東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました. このたび,nico-opendata 音声読み上げデータセットが Dwango Media Village によって公開され…

Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time (WebConf 2018) 読んだ

[1711.07601] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time Pinterest における推薦の論文.Jure Leskovec が last author に入っているのでとりあえず読む. WWW が WebConf に名前が変わったのが悲しい. 概要 …

ML Ops Study #2 参加した

ML Ops Study #2 - connpass 申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった. 機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc 機械学習プロジェクトを頑健にする…