糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

MovieLens dataset や ImageNet や CaboCha 付属モデルファイルはそのままでは商用利用できない

タイトルそのままです.
機械学習領域において有名なデータはよくライセンスを確認してみるとそのままでは商用利用ができないことがしばしばあります.
ブログや Qiita に書いたり,大学研究者であれば問題になりにくいとは思いますが,なんらかの企業に所属して研究開発やシステム開発を行っている場合には注意が必要になることがあるかもしれません*1
色々あってライセンスについて少し調べたのと,ウェブ上での言及を見かけなかったのでここにメモを残します.

MovieLens dataset

MovieLens | GroupLens
MovieLens dataset (以降 MovieLens) は GroupLens によって収集・公開されている映画の評価データです.
このデータはそこそこの量があること,映画という馴染みの深い題材であることから,協調フィルタリングや行列分解を用いた推薦問題を解く際のサンプルデータとして有名です.
MovieLens のライセンスには

The user may not use this information for any commercial or revenue-bearing purposes without first obtaining permission from a faculty member of the GroupLens Research Project at the University of Minnesota.

とあり,許可を取らなければ商用利用できないことがわかります.

ImageNet

ImageNet
ImageNet は画像とタグの集合のペアが大量に入ったデータです.深層学習による画像分類を行う上で定番のデータではないでしょうか.
ライセンスを確認してみると

Researcher shall use the Database only for non-commercial research and educational purposes.

とあります. MovieLens と違って交渉の余地が無さそうです.

CaboCha

CaoboCha: Yet Another Japanese Dependency Structure Analyzer
CaboCha は taku910 氏によって開発・公開がされている係り受け解析を行うためのソフトウェアです.
CaboCha にはモデルファイル (CaboCha が用いている機械学習モデルのパラメータ) が付属されていますが,これは通称毎日新聞コーパスという有償の言語資源を用いて学習が行われています.
そのため,

そのため配布しているモデルをそのままの形で使うことは, 研究目的, 個人利用に限られます. 誤解ないように言っておくと, これは, CaboCha の利用が研究目的に限定されていることを意味しません。 ご自身で用意なさったコーパスを基に, 独自にモデルを学習, 作成した場合は研究目的以外の利用が可能です。

と明記されています.

CaboCha を用いた商用システム開発,たとえば企業のチャットボットが内部で係り受け解析を行うには付属のモデルファイルをそのまま使うことができません.みずから言語資源(日本語文章と,それらに対応する形態素や構文情報など)を整え,モデルを学習する必要があります.自然言語処理には詳しくないのですが京都大学テキストコーパスに類するものを再生産する必要がありそうです.なかなかハードルが高い.

Yelp Dataset

Yelp Captcha
Yelp はレストランや美容院など,さまざまな店舗を対象にしたレビューサイトです.
Yelp dataset では POI (Point Of Interest) へのチェックインやレビュー情報などが含まれています.
こちらも

4. Restrictions You agree that you will not, and will not encourage, assist, or enable others to:
  B. use the Data in connection with any commercial purpose;

とあり,商用目的での利用が不可能です.

そもそもデータの商用利用とはなにか

法律の専門家ではないので何が商用利用で何がそうでないのかがわかっていません.たとえば

  • ImageNet の画像を加工して商用サイトの素材に用いる
    • これはさすがに商用利用に該当しそう
  • 書籍に商用利用不可のデータの一部を掲載する
  • 書籍に商用利用不可のデータを分析した結果を掲載する
  • 書籍に CaboCha 付属のモデルファイルで係り受け解析した結果を掲載する
    • これもさすがに商用利用に該当しそう
  • アドセンスアフィリエイトを備えたブログにおいて商用利用不可のデータを分析した結果を掲載する
    • 商用利用に該当しそうな気がしますがどうでしょう
    • ちなみにこのブログのアマゾンアソシエイトは hatena-blog-22 なのでこれまで一円も儲かったことがない
  • 企業研究者が ImageNet の画像を使って機械学習モデルを構築する
    • これは研究活動として認められるのか
    • しかし企業研究者は研究を行うことで企業から給与を得ているので商用利用ではないのか
    • ImageNet の non-commercial research とはなにか
  • 企業研究者が ImageNet を使って機械学習モデルを構築し,自社の商用システムにデプロイする
    • これはさすがに商用利用に該当しそう
  • 大学研究者が ImageNet を使って機械学習モデルを構築し,そのパラメータを公開している場合に,企業研究者がそのパラメータを商用システムに利用する

という話がよくわかっていない.
ソフトウェアのライセンスだと研究者であろうが企業に所属している時点で「商用利用」として扱われている印象があります*3.また,フォントのライセンスであればモリサワのように商業利用の例について明記されていることが多いのでないでしょうか (参考 : 商業利用について | フォント製品 | 製品/ソリューション | 株式会社モリサワ).

弁護士による 進化する機械学習パラダイス ~改正著作権法が日本のAI開発をさらに加速する~ | STORIA法律事務所改正著作権法が日本のAI開発を加速するワケ 弁護士が解説 (1/7) - ITmedia NEWS といった記事もありますが,焦点は著作権法であり,商用利用不可としたデータについての利用についての言及はありません.

また,話は少し変わりますが,以前の言語処理学会におけるデータセット著作権チュートリアルにて「元の内容が復元できない(たとえば形態素解析済みのもの)であれば著作物に該当しないから公開して構わない」といった話があった,と聞いた記憶があります*4.このあたりもどこかに資料がまとまっていたりしないでしょうか.

わからないことだらけなので有識者の見解が欲しいですし,なんらかの判例があるならば参考にしたいです.

「調べてみました!……いかがでしたか?結論はよくわかりませんでした!」という最悪な大量生成ブログと同じ終わり方になりました.

*1:他の企業がどのように対処しているのかわからないので非常に遠回しな言い方になってしまいました.

*2:Amazon で「集合知プログラミング」を開いたら「お客様は、2008/12/5にこの商品を注文しました。」と出て懐かしい気持ちになりました.10年以上こういうことをやっている.

*3:印象でありソースがあるわけではありません.また,現業においてそのようなソフトウェアと関わりが薄いという理由もあります.

*4:又聞きです.