人工知能の著作権

2019-11-14 - By Mats (admin)

今回はDeep Learningと著作権の話です。

Protect your Deep Neural Network by Embedding Watermarks! (KamWoh Ng)

巷で「人工知能」と呼ばれることが多いDeep Learningですが、これには明確な社会の合意が形成されていない著作権問題がいくつか存在してきました。

1. ２つの問題

人工知能の著作権問題では下記の２つが話題として頻出します。前者は「人工知能側が著作権侵害をしないか」という観点、後者は「人工知能側が著作権侵害をされないか」という観点の問題です。

A. 著作権物を学習したDeep Learningモデルは、それらの著作権侵害に当たるのか？

あたらない。これに関しては下記に示す2019年1月1日に改正され発行された「著作権法４７条の７」により、人工知能の学習という「情報解析」において著作権のある画像や文章を用いることは著作権侵害ではないとの社会的合意が得られるに至りました。

第四十七条の七　著作物は、電子計算機による情報解析（多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。）を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案（これにより創作した二次的著作物の記録を含む。）を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

B. 生成されたDeep Learningモデル自体の著作権を保護する適切な方法は？

2019年11月時点でここが目下の問題です。一般的なソフトウェアの場合は「コードのヘッダー部分に著作権表記を行う」であったり、「システム全体に対してライセンス管理のためのロックをかける」のようなアプローチで無許可二次使用を妨げる施策を施せるのですが、「Deep Learningモデルにはコメント欄を書く場所はない」うえに「他人が使用しているモデルが、自身が生成したモデルであると外から判断することが困難」という理由によりこのような施策を施しにくいです。

Deep Learningモデルの学習（トレーニング：入力と出力の関係が適切になるようにトレーニングデータを繰り返し与える）には高額な機材と時間と工夫が必要です。そうやって育てたモデルを他人様にホイホイと無許可二次使用されていては会社であれば経営が成り立ちません。

2. アプローチ（ホワイトボックス・ブラックボックス）

上記で述べた「B. 生成されたDeep Learningモデル自体の著作権を保護する適切な方法は？」につき、まずは安易にモデルのデジタルデータをコピーさせないことが肝要ですが、実際にはgitHubなどを通じて公開されることがよくあります。そのような「他人が取得しうるモデル」の著作権保護について現在の論調は下記の通りです。

2.1. ホワイトボックス・アプローチ

他人が無許可二次使用しているのではないかと疑われるDeep Learningモデル自体をデータとして取得できるケースを「ホワイトボックス」と呼びます。箱の中身が見られる状況です。そのケースではホワイトボックス・アプローチという、主に「モデルの構造やハイパーパラメータを自身が著作権を持つモデルと比較する」ことで著作権侵害の有無を評価します。

2.2. ブラックボックス・アプローチ

他人が無許可二次使用しているのではないかと疑われるDeep Learningモデル自体をデータとして取得できないケースを「ブラックボックス」と呼びます。箱の中身が見られない状況です。ウェブサービスとして入力に対して出力だけを返すような使用のされ方をしているとこのケースに相当します。

画像や文章であれば目視確認して「これは私の創作物だ！」と判断しやすいのですが、Deep Learningモデルについては同様に判断することが困難です。そこで、このブログの先頭にも引用したような「Watermark（電子透かし）」をDeep Learningモデルに埋め込むという発想が我々専門家の間で散見されます。

難しい話をシンプルにすると、入力（文章や画像など）に対して出力（Classifierと呼ばれる分類器の場合は「これはパンダの画像です」のような情報）を与えるのがDeep Learningモデルなわけですが、このモデルに対して特定の入力にだけ自身の創作物であると判断するに値する「特殊な出力」を与えるように学習するアプローチです。「Watermark（電子透かし）」です。

例えば、入力された画像に映る動物の種類を出力するモデルがあるとします。イヌやネコや様々な動物を正確に判断しますが、パンダが写った画像を与えた時だけは「コアラ」と答えるような、わざと特徴的に間違うようにモデルをトレーニングしておくのです。この方式であれば、ブラックボックスであっても入力と出力の関係から二次利用の判断ができます。

弊社では画像の著作権侵害や肖像権侵害の被害を少なくするため、「JPEGcrypto（ジェイペグクリプト）」というウェブサービスを世界に向けて提供しています。人工知能分野でも今後にますますこの著作権問題が深刻にならないよう、貢献していきます。