糞糞糞ネット弁慶

読んだ論文についてメモを書きます．趣味の話は http://repose.hatenablog.com

HTML要素に着目した違法・有害サイト検出手法の提案と評価読んだメモ

メモ論文

HTML要素に着目した違法・有害サイト検出手法の提案と評価(pdf)
背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch

HTMLタグ内の記述に着目し、ウェブサイトの背景色が例えばピンクであることや、画像リンクが多用されていること、フレームが多用されていること、ポップアップなどブラウザーに特定の動作をさせるスクリプトが用いられているといった外形的特徴を捉えることで有害サイトを検出する。
背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watch Watch

この記事で触れられていたのはこの論文であるとある方から教わったので読んだ．

目的

違法・有害サイトを検出したい．
Black/While list形式だとコストがかかる，同一ドメインにコンテンツが混在するためめんどくさい，新規サイトが判定できない．
目視確認の後削除するわけだが，ある程度判定しておけばコストも下がる．

特徴

HTML要素のみで判定を行う．優れいているのは2点．

ページの内容全てを特徴ベクトルにして学習させる場合，形態素解析のコストがかかって遅い
- HTML要素抜き出しなら高速
キーワードベースの判別器と組み合わせることが可能．
- HTML要素のみで判定させ，曖昧なものをキーワードベースで判定するなど

手法

Webサイトから本文テキストを取り除いたHTML要素を抽出
\t , . / ! " = % & { } [ ] _ などをデリミタにしてbag-of-words化
AICを使って有害サイトに表れやすい文字列を抽出
SVMで学習

結果

26単語でSVMを学習させるとprec 90.3%, recall 50%という結果．
キーワードベースと組み合わせると prec 78.1%, recall 70%．

はてなブックマーク - 背景色などの外形的特徴から有害サイトを高速検出、KDDI研究所が技術開発 -INTERNET Watchでのツッコミには全て論文中で答えてる感じだった．プレスリリースだけでは無く論文を読むことが大事．新聞社やメディア，果ては企業のプレスリリースは元論文へのリンクをなるべく貼っていただきたい．