[2407.21553] CXSimulator: A User Behavior Simulation using LLM Embeddings for Web-Marketing Campaign Assessment 「ユーザの行動ログから何らかのモデルを構築し,ユーザの行動をシミュレートしたい」という気持ちはよくあることでしょう.たとえば,E…
先に結論 nDCG@all はどんな予測値やモデルであっても 1.0 に近づくので注意したほうが良さそうです. 疑問 機械学習モデルにおける予測値の評価にはさまざまな指標が用いられます. RMSE prec / recall / f1-score negative log-likelihood 二値分類ではと…
データ分析失敗事例集: 失敗から学び、成功を手にする作者:尾花山 和哉,株式会社ホクソエム,伊藤 徹郎,江川 智啓,大城 信晃,川島 彩貴,輿石 拓真,新川 裕也,竹久 真也,丸山 哲太郎,簑田 高志共立出版Amazon 著者から恵贈いただきました. タイトルの通り,こ…
評価指標入門〜データサイエンスとビジネスをつなぐ架け橋作者:高柳 慎一,長田怜士技術評論社Amazon 関連記事 : 書籍「評価指標入門」の出版に寄せて 〜監修の想い(O・MO・I) - 株式会社ホクソエムのブログ 著者からいただきました. この本は大きく 予測…
施策デザインのための機械学習入門〜データ分析技術のビジネス活用における正しい考え方作者:齋藤 優太,安井 翔太技術評論社Amazon 著者よりご恵贈いただきました.いくつか読むべき本があったのですが,社内で読書会をするために優先して読みました.感想を…
論文 Gunosy と理研AIPの論文. 企業が持つ implicit feedback のデータを公開するためには アクティブユーザ数や収益や平均クリック数といった business metric を隠したい 公平性を担保したい Population Bias を減らしたい という三つの気持ちがある. 今…
声優統計コーパスの音素バランス文,および音声データについて告知します. 告知 今後,音声を新規収録される場合には声優統計コーパス付属のバランス文ではなく,句読点情報が付与された JSUT コーパスまたは JVS コーパスの voiceactress100 (以降, voice…
PJS: Phoneme-balanced Japanese Singing-voice corpus [2006.02959] PJS: phoneme-balanced Japanese singing voice corpus P J S: 音素バランスを考慮した日本語歌声コーパス from Shinnosuke Takamichi Junya Koguchi さんと東大高道慎之介助教によって…
効果検証入門〜正しい比較のための因果推論/計量経済学の基礎作者:安井 翔太発売日: 2019/12/27メディア: Kindle版 ゴールデンウィークの握手会が延期になり気力が完全に尽きてしまい(そもそも2020年のほとんどのイベントが延期または中止になっているわけ…
音素バランス文の読みの修正 対応が遅れてしまい申し訳ありません. GitHub の Issue でも指摘されていた (#6および#7) バランス文の読みを修正しました.該当箇所は 020,043,057,076,079,087 の読みと対応する音素です.変更差分はこの commit を参考…
[1811.11264] Synthesizing Tabular Data using Generative Adversarial Networks] GAN を使って表形式のデータを生成する論文は既に読んだわけですが,その発展形. 著者らによる実装も公開されており(DAI-Lab/TGAN: Generative adversarial training for s…
[1806.03384] Data Synthesis based on Generative Adversarial Networks 匿名化については micro aggregation (各行を集約することで架空の行を生成すること) や post-randomization (ノイズを載せる) などがあるわけですが, GAN でデータを生成すれば完全…
音声合成研究のために,コーパスをリリースしました.100名のプロ話者(声優・俳優)× 100発話(パラレル)を含んでいます.今すぐダウンロードできます!!https://t.co/FJXrl3owrX https://t.co/qGuUCSqIyA— Shinnosuke Takamichi (高道 慎之介) (@forthshin…
Comprehensive Audience Expansion based on End-to-End Neural Prediction (pdf) もうひとつオーディエンス拡張の論文.特にモデルが目新しいわけでもなく,実験もよくわからない (Table 3 は何を行っているのか意味不明) だけど気になったところを書く. …
Finding Users Who Act Alike: Transfer Learning for Expanding Advertiser Audiences Pinterest におけるオーディエンス拡張を説明した論文.オーディエンス拡張の論文はあまり見かけないので良かった. オーディエンス拡張 (あるいは look-alike) は広告…
Personalized Purchase Prediction of Market Baskets with Wasserstein-Based Sequence Matching KDD 2019 の Accepted papers が出たのでひとまずタイトル一覧に目を通し, arXiv などに既にあるものから読んでいこうと思います.しかしあまりにも Graph C…
Personalized Top-N Sequential Recommendation via Convolutional Sequence Embedding (pdf) A Simple Convolutional Generative Network for Next Item Recommendation (WSDM 2019) を読もうとしたところ引用されていたのでまずはこちらから読む.WSDM 201…
www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワ…
タイトルの通りです.Wikipedia 本文を用いた埋め込みは 東北大乾研による日本語 Wikipedia エンティティベクトル BIZREACH によるHR領域向け単語ベクトル|株式会社ビズリーチ 朝日新聞による朝日新聞単語ベクトル BERT with SentencePiece を日本語 Wikipe…
タイトルそのままです. 機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります. ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属…
[1802.03319] Predicting Audio Advertisement QualitySpotify や Pandora などの音楽配信サービスにおいて挿入される音声のみの広告の品質を機械学習で推定する. 方針としては,音声から handcrafted な特徴量を抽出し,代理タスクを解く. 論文の著者は P…
[1810.09591] Applying Deep Learning To Airbnb SearchAirbnb における Search に Deep Learning を導入した話.「機械学習のシステムが既にあってそこにニューラルネットワークを導入したい人」に向けて書かれている. 論文調ではないのでまとめも箇条書き…
CFGAN (CIKM 2018) を読もうと思ったら「そもそも発想としては IRGAN (SIGIR 2017) と GraphGAN (AAAI 2018) が先にあって……」と触れられていたので順に読むことにする. そもそもタイムラインで「CFGAN がはじめて商品推薦に GAN を使っていてすごい」とい…
KDD 2018 | Graph Convolutional Neural Networks for Web-Scale Recommender Systems 著者に Jure Keskovec がいる. Pinterest における推薦にて node の embedding を graph convolution で学習する推薦手法 PinSage を提案している.タイトルだけ読むと…
KDD 2018 | Sequences of Sets 好きな研究者が何人かいて,タイトルで気になった論文の著者がその人だとちょっとうれしくなる.Cornell University の Jon M. Kleinberg や Google の Ravi Kumar , Stanford の Jure Leskovec は気になって定期的に著者のペ…
KDD 2018 | Learning and Transferring IDs Representation in E-commerce EC サイトにおける商品 (item) の埋め込み (embedding) を学習する.その際,商品につけられたメタデータをまとめて学習する. 基本方針 ユーザの商品閲覧行動にもとづいて skip-gra…
KDD 2018 | Trajectory-driven Influential Billboard Placement街頭広告をどのように選ぶかに取り組む。 問題設定としては 緯度経度で構成される軌跡 (trajectory) の集合 緯度軽度とコストで構成される街頭広告 (billboard) の集合 総予算 が与えられ、 軌…
KDD 2018 | Customized Regression Model for Airbnb Dynamic Pricing民泊サービス Airbnb において, host (部屋を提供する人,ホスト) に対して「この値段で部屋を貸すと良い」と価格を提案する機能を実装するための技術. 予約 (booking) が入るかどうか…
声優統計コーパスのパラレルコーパスとして,東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました. このたび,nico-opendata 音声読み上げデータセットが Dwango Media Village によって公開され…
[1711.07601] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time Pinterest における推薦の論文.Jure Leskovec が last author に入っているのでとりあえず読む. WWW が WebConf に名前が変わったのが悲しい. 概要 …