糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

Predicting Audio Advertisement Quality (WSDM 2018) 読んだ

[1802.03319] Predicting Audio Advertisement Quality

Spotify や Pandora などの音楽配信サービスにおいて挿入される音声のみの広告の品質を機械学習で推定する.
方針としては,音声から handcrafted な特徴量を抽出し,代理タスクを解く.
論文の著者は Pandora.

どうやって品質を定量化するか

一番いいのは被験者に聴き比べてもらうことですが現実的じゃないので代理のタスクを解く.
Web 広告の文脈では CTR (クリック率) を用いることが多いが,データを見ると音声広告経由でランディングページを開いたものの 90% が 5 秒以内に閉じている.バナーがクリックされた位置のほとんどが「閉じる」ボタンの近くであることも踏まえると,ほとんどが誤クリックであることが推測できる.
そこで,単純な CTR ではなく,ある一定の秒数以上ランディングページを開いていたクリックを表示数で割る Long Click Rate (LCR) を広告ごとに計算する.これがこの論文の新規性の一つ.

予備調査

ユーザがどのような音声広告を好ましいと思うのか調査を行う.5つのカテゴリごとに,LCR の分布の異なる分位点から広告ペアを選び,どちらが優れているか,またその理由は何かをユーザに尋ねるのを繰り返した結果, Audio Aethetic (直訳すると音楽の美しさですがこの指標の例が「BGMや話者の性別,会話,単一話者」などと書いてあってよくわからない) と Clarity of Message (内容が明確であること),Quality of Sound (BGMと声とのバランスが取れていること)が重要であるとわかった.

なのでここからはそういう特徴量を取ることにする.

特徴量

特徴量は大きく分けて三種類.それぞれの定義は詳細が書かれていないので参照されてる論文を読む必要がある.音声処理についての知識がないのでこれらの特徴量がそれぞれを表現していることがわからないままだった.
これらをすべて合わせると 2440 次元の特徴量ができあがる.

  • Timbre (音色)
    • TFD, MFCC, Delta-MFCC, MSP
  • Rhythm (リズム)
    • TEMPO, TG_LIN, TGR{B, T, H}, BPDIST{B, T, H}, Mellin
  • Harmony (ハーモニー)
    • SIHPCP, MODE, SICH/SICHC/SIKC

予測

タスクとしては広告が good か bad かの二値分類を解く.

モデル

ここからよくわからない記述が出てくる.ベースラインとしては logistic regression や random forest を用いる.
「多重共線性などがあるので PCA や Kernel PCA などの次元削減を行う」という記述があるがここが完全に意味不明.その後 PCA の文字列が出てくることもないし,その後の特徴量解釈が不可能になる.たとえば Figure 5 では L1 logistic regressio でどの特徴量が選ばれたかの議論をしているのでこれを行うためには次元削減をしてはいけない.また,そもそも当初のモチベーションは「handcrafted な特徴量を構築することで音声広告をどのように改善すればいいかを知ること」だったはずなので次元削減したらいくらモデルが interpretable でも意味がなくなる.
何のためにこの記述が存在しているのか全く理解できない.あとやたらと文字数が多い.

また,2440 次元を入力とする多層パーセプトロンだけでなく, Audio Spectrogram を入力とした CNN による推定モデルも提案している.しかし音声を入力とした識別問題に CNN を用いるモデルは Automatic tagging using deep convolutional neural networks (ISMIR 2016) で提案されており,そこまで違いがあるわけではないのでこれ自体に新規性があるとは思えない.
何のためにこの記述が存在しているのかわからない.あとやたらと文字数が多い.

目的変数である good or bad をどう決めるか

この部分がこの論文において一番問題だと考えている.
方針としては LCR を降順にソートし,ある閾値(たとえば top30 と lower 30)を設けて上位と下位をそれぞれ good と bad に割り振ることで目的変数を作る.
ではどうやって閾値を決めたかというと, chose the percentiles whith highest prediction accuracy と言っている.どういうことかというと,異なる閾値で実験を行い,どの値が「もっとも見た目の精度が高いか」で決めている.
そもそも閾値を変えながら精度を比較していることに何の意味もなく (top/lower が変わるのでサンプルサイズも変わる),どの閾値にすることで見栄えが良くなるかの違いでしかない.これで「提案手法は AUC が 0.79 だった」と言われても「それは最も見た目の精度が良くなる閾値を選んだからだろう」と興ざめしてしまった.
極端な話,どの特徴量がどのように good/bad に寄与しているかを知りたいだけならば閾値は決め打ちし, AUC の見た目の精度に言及せずに選択された特徴量についてのみ議論をすればいいはず.
このような方法で閾値を決める論文をはじめて見たので面食らってしまった.世界は広い.

タイトルで面白いと思い読んだけれど特徴量抽出部分で置き去りにされ,Section 5 で完全に意味がわからなくなった.