糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys 2020) 読んだ

論文 Gunosy と理研AIPの論文. 企業が持つ implicit feedback のデータを公開するためには アクティブユーザ数や収益や平均クリック数といった business metric を隠したい 公平性を担保したい Population Bias を減らしたい という三つの気持ちがある. 今…

声優統計コーパスに存在する誤りの告知と JVS コーパスの利用推奨

声優統計コーパスの音素バランス文,および音声データについて告知します. 告知 今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスの voiceactress100 (以降, voice…

声優統計コーパスを歌にした PJS: Phoneme-balanced Japanese Singing-voice corpus が公開されました

PJS: Phoneme-balanced Japanese Singing-voice corpus [2006.02959] PJS: phoneme-balanced Japanese singing voice corpus P J S: 音素バランスを考慮した日本語歌声コーパス from Shinnosuke Takamichi Junya Koguchi さんと東大高道慎之介助教によって…

握手会が延期になったので「効果検証入門」を読んで Python で (ほぼ) 実装した

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけ…

声優統計コーパスのバランス文を修正しました & 引用されている論文を列挙しました

音素バランス文の読みの修正 対応が遅れてしまい申し訳ありません. GitHub の Issue でも指摘されていた (#6および#7) バランス文の読みを修正しました.該当箇所は 020,043,057,076,079,087 の読みと対応する音素です.変更差分はこの commit を参考…

IBIS 2019 行った

第22回情報論的学習理論ワークショップ (IBIS 2019) | 第22回情報論的学習理論ワークショップ, 2019.11.20〜23, ウインクあいちに行った. 昨年の札幌に比べると名古屋は近い いつもの胃ではなく腸の具合が完全に悪くて半分ぐらいまともに発表を聞かずにトイ…

Synthesizing Tabular Data using Generative Adversarial Networks (preprint) 読んだ

[1811.11264] Synthesizing Tabular Data using Generative Adversarial Networks] GAN を使って表形式のデータを生成する論文は既に読んだわけですが,その発展形. 著者らによる実装も公開されており(DAI-Lab/TGAN: Generative adversarial training for s…

Data Synthesis based on Generative Adversarial Networks (VLDB 2018) 読んだ

[1806.03384] Data Synthesis based on Generative Adversarial Networks 匿名化については micro aggregation (各行を集約することで架空の行を生成すること) や post-randomization (ノイズを載せる) などがあるわけですが, GAN でデータを生成すれば完全…

プロ話者 (声優・俳優など) 100 名から得られたコーパスである JVS (Japanese versatile speech) corpus が東大の高道助教によって公開されました

音声合成研究のために,コーパスをリリースしました.100名のプロ話者(声優・俳優)× 100発話(パラレル)を含んでいます.今すぐダウンロードできます!!https://t.co/FJXrl3owrX https://t.co/qGuUCSqIyA— Shinnosuke Takamichi (高道 慎之介) (@forthshin…

Comprehensive Audience Expansion based on End-to-End Neural Prediction (SIGIR eCOM 2019) 読んだ

Comprehensive Audience Expansion based on End-to-End Neural Prediction (pdf) もうひとつオーディエンス拡張の論文.特にモデルが目新しいわけでもなく,実験もよくわからない (Table 3 は何を行っているのか意味不明) だけど気になったところを書く. …

Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences (KDD 2019) 読んだ

Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences Pinterest におけるオーディエンス拡張を説明した論文.オーディエンス拡張の論文はあまり見かけないので良かった. オーディエンス拡張 (あるいは look-alike) は広告…

Personalized Purchase Prediction of Market Baskets with Wasserstein-Based Sequence Matching (KDD 2019) 読んだ

Personalized Purchase Prediction of Market Baskets with Wasserstein-Based Sequence Matching KDD 2019 の Accepted papers が出たのでひとまずタイトル一覧に目を通し, arXiv などに既にあるものから読んでいこうと思います.しかしあまりにも Graph C…

Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding (WSDM 2018) 読んだ

Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding (pdf) A Simple Convolutional Generative Network for Next Item Recommendation (WSDM 2019) を読もうとしたところ引用されていたのでまずはこちらから読む.WSDM 201…

機械学習のための特徴量エンジニアリング ―その原理とPythonによる実践 (オライリー・ジャパン) 読んだ

www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワ…

300 万ノード 1 億エッジからなる日本語版 Wikipedia のリンク構造から学習した見出し語の node2vec (分散表現) を公開しました

タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…

MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない

タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…

Predicting Audio Advertisement Quality (WSDM 2018) 読んだ

[1802.03319] Predicting Audio Advertisement QualitySpotify や Pandora などの音楽配信サービスにおいて挿入される音声のみの広告の品質を機械学習で推定する. 方針としては,音声から handcrafted な特徴量を抽出し,代理タスクを解く. 論文の著者は P…

Applying Deep Learning To Airbnb Search (preprint) 読んだ

[1810.09591] Applying Deep Learning To Airbnb SearchAirbnb における Search に Deep Learning を導入した話.「機械学習のシステムが既にあってそこにニューラルネットワークを導入したい人」に向けて書かれている. 論文調ではないのでまとめも箇条書き…

IBIS 2018 行った

IBIS2018 | 第21回情報論的学習理論ワークショップ, 2018.11.4〜7, 札幌(かでる2.7・北大) 先月にアンダーライブツアー北海道シリーズで行ったばかり.札幌がちょうどいい気温だった.チュートリアルの日は特に晴れていて,北大内にあるセイコーマート2階…

IRGAN (SIGIR 2017)→GraphGAN (AAAI 2018)→CFGAN (CIKM 2018) を読んで GAN による購買予測/協調フィルタリングを学ぶ

CFGAN (CIKM 2018) を読もうと思ったら「そもそも発想としては IRGAN (SIGIR 2017) と GraphGAN (AAAI 2018) が先にあって……」と触れられていたので順に読むことにする. そもそもタイムラインで「CFGAN がはじめて商品推薦に GAN を使っていてすごい」とい…

Graph Convolutional Neural Networks for Web-Scale Recommender Systems (KDD 2018) 読んだ

KDD 2018 | Graph Convolutional Neural Networks for Web-Scale Recommender Systems 著者に Jure Keskovec がいる. Pinterest における推薦にて node の embedding を graph convolution で学習する推薦手法 PinSage を提案している.タイトルだけ読むと…

Sequences of Sets (KDD 2018) 読んだ

KDD 2018 | Sequences of Sets 好きな研究者が何人かいて,タイトルで気になった論文の著者がその人だとちょっとうれしくなる.Cornell University の Jon M. Kleinberg や Google の Ravi Kumar , Stanford の Jure Leskovec は気になって定期的に著者のペ…

Learning and Transferring IDs Representation in E-commerce (KDD 2018) 読んだ

KDD 2018 | Learning and Transferring IDs Representation in E-commerce EC サイトにおける商品 (item) の埋め込み (embedding) を学習する.その際,商品につけられたメタデータをまとめて学習する. 基本方針 ユーザの商品閲覧行動にもとづいて skip-gra…

Trajectory-driven Influential Billboard Placement (KDD 2018) 読んだ

KDD 2018 | Trajectory-driven Influential Billboard Placement街頭広告をどのように選ぶかに取り組む。 問題設定としては 緯度経度で構成される軌跡 (trajectory) の集合 緯度軽度とコストで構成される街頭広告 (billboard) の集合 総予算 が与えられ、 軌…

Customized Regression Model for Airbnb Dynamic Pricing (KDD 2018) 読んだ

KDD 2018 | Customized Regression Model for Airbnb Dynamic Pricing民泊サービス Airbnb において, host (部屋を提供する人,ホスト) に対して「この値段で部屋を貸すと良い」と価格を提案する機能を実装するための技術. 予約 (booking) が入るかどうか…

声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されました

声優統計コーパスのパラレルコーパスとして,東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました. このたび,nico-opendata 音声読み上げデータセットが Dwango Media Village によって公開され…

Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time (WebConf 2018) 読んだ

[1711.07601] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time Pinterest における推薦の論文.Jure Leskovec が last author に入っているのでとりあえず読む. WWW が WebConf に名前が変わったのが悲しい. 概要 …

JSAI 2018 / 2018年度 人工知能学会全国大会(第32回) 行った

はじめて桜島を見た.「農業とAI」セッションはモチベーションが面白い. [2G3-OS-10c-01] 動画像からの豚体の頭部方向識別に用いる特徴量 JSAI2018/Features values for recognition of swine's head direction from video. 豚の病気検知のために水を…

ML Ops Study #2 参加した

ML Ops Study #2 - connpass 申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった. 機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc 機械学習プロジェクトを頑健にする…

声優統計コーパスの利用事例暫定まとめ

日本声優統計学会 にて声優統計コーパスを公開してほぼ一年.個人団体を問わず問い合わせのメールを頂いている.しかしよく考えたら Google Analytics の設定をまともに書いていなかったせいでどれぐらいダウンロードされたのか全く計測できていない.せめて…