終わったはずの声優統計.しかし5号から8号までの前回の冬コミ在庫が若干部屋に残っていました.正直保存状態は悪いです.
@MagnesiumRibbonが30日東 F-55b Rei'n forcement にて松嵜麗さんの本を出す予定(松嵜麗さんのファンブックを出したいです - Rei'n forcement)ですが,そこで在庫の残りを頒布します.今度こそ終わりです.
各号の内容は日本声優統計学会をご確認ください.
NIMA: Neural Image Assessment (Arxiv) または『Googleが作った画像評価モデル』の元論文を読んだ
[1709.05424] NIMA: Neural Image Assessment
Google、任意の画像が技術的に審美的に美しいかを評価し1-10(10が最高得点)で採点するCNNベースの画像評価モデル「NIMA」を提案した論文を発表 | Seamless
Google AI Blog: Introducing NIMA: Neural Image Assessment
「写真を評価する人工知能」と話題になっていて,そんな研究いくらでもあるだろうと思ったので元論文を読んだ.
例えば似た話にニコニコ静画(イラスト)に投稿された175万枚の画像を用いて、閲覧数とお気に入り数を予測する回帰の問題としてchainerを用いて学習させた話とかある.
概要
画像を評価するニューラルネットを提案する.
前述の記事では「技術面と審美面」となっているけれど記事だけじゃ何が書いてあるのかまったく意味不明であり,画像処理にも詳しくないので intro を少し真面目に読む.
まず技術面 (technical quality) というのは技術というより品質の評価.画像がどの程度劣化しているかというのを評価するタスク.劣化前の画像がある場合と無い場合があって,劣化前の画像があるのなら PSNR や SSIM といった指標を用いることで劣化度合いが計算できる.が,劣化前画像が無いことが多いので「元の画像からどれだけ劣化したか」を予測する必要がある.
次に審美面 (aesthetic quality) はそのまま人間による評価.美しいか,独創的か,など.
両タスクにおいて用いる学習用データには,人手での評価が行われている.評価は 1 から 10 の 10 段階のように,段階で評価が行われているものとする.
既存手法では,評価の平均値に対する回帰や,高評価/低評価の分類を行なうものが多いため,評価の分布の情報を活かすことができていない.そのため,モデルによる評価が人間の評価と相関がそこまで高くなかった (言及している既存研究 ([1606.01621] Photo Aesthetics Ranking Network with Attributes and Content Adaptation) を見てもそこまで低くは見えないけれど).
NIMA では人間の評価により近付けるため,評価の分布そのものをヒストグラムとして扱って予測する.これにより, technical および aesthetic 両方において人間の評価と非常に相関が高い出力を得ることができた.
データセット
画像の美しさの評価はAVA: A large-scale database for aesthetic visual analysis - IEEE Conference Publicationを用いる.このデータセットでは画像ごとに 10 段階の評価が行われている.
画像の品質に関する評価はNikolay Ponomarenko homepage - TID2013を用いる.こちらも 10 段階の評価が行われている.評価データの作り方はちょっと工夫がされているので原文参照.
手法
画像から特徴量を抽出するネットワークは VGG16 や Inception-v2 といった既存のものを用いる.その上で,最終層を取り除き, full connected -> softmax で N 段階評価の N 個の多項分布を出力する.イメージとしては,各評価値 (bucket) に落ちる確率,と論文では表現されている.
しかしこの確率をただ学習する (例えば損失関数を cross entropy にする) のでは,評価値ごとの順序性が考慮されない.
「ならば回帰で解けばいいじゃないか」と思われるかもしれないが,しかし,分類ベースで解く方がいいと過去の研究でも言われている.
NIMA では損失関数を Earth Mover's Distance (EMD) にすることで順序付きの分類を適切に解く.
Deep Text Classification Can be Fooled (Preprint) 読んだ
Deep Text Classification Can be Fooled
入力を少し変化させるだけで機械学習によるモデルの推定結果を変えてしまう技術は Adversarial example と呼ばれている.
よく見るのは画像を用いた例だけど,それが文書分類でもできないかと思い探したところ,まずこれがでてきたので読む.
画像一般についてはこちらが詳しい.これを読むまで Deep Learning 特有の問題と思っていたが,実際はそうではないらしい.
はじめてのAdversarial Example
前提
文書 を入力として,その文書のクラス を推定するモデル があるとする.
そこで, に手を加えた によってモデルの出力を任意のクラス に誤分類 させたい.
画像と違うのは,入力が文書であるため,人間の目で見ても不自然でないように変更しなければならないということ.
手法
基本的には Explaining and Harnessing Adversarial Examples (FGSM) で提案されているように,コスト関数の勾配を用いる.
分類モデル は Character-level Convolutional Networks for Text Classification で提案されている Character-level CNN.
文書の変更は挿入,修正,削除の3つの方法を適用する.それぞれ説明する.
挿入
各学習データ と目的のクラス および損失関数 に対して,勾配 を計算することで,各次元,つまりは各単語に対して勾配が得られる.
各学習データにおいてこの勾配が大きい単語上位100件を得,それを全学習データで数え上げることで, Hot Training Phrases (HTPs) を得る.
あとは HTP を挿入していくだけで誤分類できる.例えば Company 99.7% と予測していた文書に historic という単語を加えるだけで Building 88.6% と誤分類させることに成功している.
挿入位置も重要で,適当なところに入れると出力が変化しない.元クラスに強く寄与している,つまり が大きい単語の近くに挿入することで適切に誤分類できる.
複数の単語を挿入しなければいけない場合は HTP が含まれた文章を新たに追加する.もしちょうどいいものがなければ,読み手にばれにくい嘘の文章を追加する.
修正
修正といっても削除に近い.
元クラスに寄与している語を を使って探す.これを Hot Sample Phrase (HSP) と呼ぶ.
HSP に対して,元クラスへの損失関数 を増加させつつ,目的のクラスへの損失関数 を減少させるような修正を行なう.
単語の修正とは一体何かというと,
という二種類を行なう.
例えば comedy film property が HSP (Film, 99.9%) だった場合,flim と typo することで Company 99.0% にできる例が示されている.
削除
HSP が高い単語を削除するが,無闇に削除すると人間にばれる.よって形容詞と副詞を削除する.
論文中では seven-part British terevision series という HSP に対して British を削除することで Film 95.5% を 60.5% まで低下させている.
組み合わせる
これら三つを組み合わせることで飛躍的にうまくいく.
実験
例が作れたかどうかだけではなく,人間に読ませる実験も行っている.
変更を加えた文章も人間は適切に分類しており,うまく のみを騙せていることがわかった.
また,「人為的に変更した箇所と思われる部分を指摘せよ」という指示も出したが,精度 5.0%, 再現率 2.0% だったのでかなりばれにくいことがわかった.
シンプルだけどとてもおもしろかった.日本語でやるとすると見た目が似た漢字などが使えるのかもしれない.
日本語の多クラス分類データセットがあればすぐにでも実験できそう.
また, Adversarial example 自体は CNN 固有の問題でないので, GBDT などでも再現できるのではないだろうか.
(追記) 寝て起きて気づいたけれど,「挿入位置にセンシティブである」ということから bag-of-words で表現するモデルでは正しく動作しない気がしてきた.
Neural Collaborative Filtering (WWW 2017) 読んだ & Chainer で実装した
Neural Collaborative Filtering (pdf)
概要
タスクは user と item について評価しているか (1) していないか (0) の情報 (implicit feedback) から未知の user と item の評価を予測する,商品推薦において非常に古典的なもの.
一般的には協調フィルタリングや行列分解を行なうが,この論文では Neural Collaborative Filtering (NCF) を提案している.
手法
人の user と 個の item について,評価/購入しているかしていないかのデータ が与えられているとする.
NCF ではこの を行列分解と多層パーセプトロンの二つを同時に推定することで学習する.
行列分解
入力である の行列を となるように 次元の行列 に分解する.
NCF
行列分解と多層パーセプトロンとを同時に学習する.わかりやすく各処理での次元数を書く.
Chainer による実装
はじめてまともに Chainer を書いた.簡単でいい.
とりあえずは二層で,宣言時にユーザ数,アイテム数,行列分解の次元数,ニューラルネットの層の数を指定する.
学習時には user と item ,それらを one-hot encoding したベクトル user_vec/item_vec ,およびラベルを与える.
movielens で実験したところ,素の行列分解よりは精度が高そうな感じがした. ensemble に近い内容だからではないのという気持ちも少しある.
import numpy as np import chainer from chainer import functions as F from chainer import links as L from chainer import Variable class NCF(chainer.Chain): def __init__(self, n_user, n_item, n_mf_dim, n_dim_1, n_dim_2): self.n_user = n_user self.n_item = n_item self.n_mf_dim = n_mf_dim self.n_dim_1 = n_dim_1 self.n_dim_2 = n_dim_2 self._layers = { 'MFQ': L.EmbedID(self.n_user, self.n_mf_dim), 'MFP': L.EmbedID(self.n_item, self.n_mf_dim), 'l1': L.Linear(self.n_user + self.n_item, self.n_dim_1), 'l2': L.Linear(self.n_dim_1, self.n_dim_2), 'l_out': L.Linear(self.n_dim_2 + self.n_mf_dim, 1) } super(NCF, self).__init__(**self._layers) for param in self.params(): param.data[...] = np.random.uniform(-0.1, 0.1, param.data.shape) def predict(self, u, i, user_vec, item_vec): # train neural net input_vec = F.concat((user_vec, item_vec), axis = 1) h = F.relu(self.l1(input_vec)) h = F.relu(self.l2(h)) # matrix factorization mf_p_u = self.MFQ(u) mf_q_i = self.MFP(i) # concat matrix factorization h = F.concat((h, mf_p_u * mf_q_i), axis = 1) h = self.l_out(h) return F.sigmoid(h) def __call__(self, u, i, user_vec, item_vec, y): pred = self.predict(u, i, user_vec, item_vec) loss = F.sigmoid_cross_entropy(pred, y.reshape(len(y), 1)) chainer.report({'loss': loss}, self) return loss
Face-to-BMI: Using Computer Vision to Infer Body Mass Index on Social Media (ICWSM 2017) 読んだ
Face-to-BMI
顔写真から BMI (Body Mass Index) を推定する.
データセットは progresspics - Show us your body transformations をクロールし,皆さんがアップロードしている before / after の写真 4206 枚を集めた. reddit にこんなデータがあるとは思わなかった.
手法は VGG-Net と VGG-Face それぞれで特徴量抽出し,Support Vector Regression で回帰.
実験結果を見るかぎり,女性より男性の方が推定しやすいのは面白い.
「声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築」を書いた
声優統計コーパス : 二次配布可能な音素バランス文とその読み上げ音声の構築 (pdf, GitHub)
というわけで
プロの女性声優 3 名が 3 パターンの感情表現で読み上げた音声 2 時間分 を「声優統計コーパス」として無料公開します - 糞ネット弁慶
で公開した声優統計コーパスについて,その作り方,特に音素バランス文の選択について書いた.
やっていることは単純だけど細かい話などがあるので,音素バランス文や音声コーパスを作りたい人の手助けになればいいと思う.
今回はカバーすべきダイフォンの最低登場回数しか考慮していないが,分布そのものを近付ける必要があるのかないのか,理想的なダイフォンの分布があるのか,より読み上げに適した文章や単語を選ぶ必要があるのか,といった話はよくわかっていない.
きっと音声処理を行なう研究室や企業にさまざまなノウハウがあるのだと思う.