AI時代のデータクローリング、法的争点は?
AI時代を迎え、データの重要性がさらに浮き彫りになっています。特に、生成型AIサービスのモデルトレーニングには良質なデータが必要です。
そのため、生成型モデルを訓練するために必要なトレーニングデータとその収集方法は、AIビジネスの核心といっても過言ではありません。多くの企業が独自のAIモデルのパフォーマンスと精度を高めるために膨大なデータを確保しようとしています。
ただし、この過程において、ウェブ上でデータを収集するいわゆる「ウェブクローリング」を活用するケースも少なくありません。ウェブクローリングとは、ウェブ上に存在するさまざまなウェブサイトの情報を自動化されたプログラム(クローラーまたはスパイダー)を通じて収集する方法のことを意味し、インターネット上のさまざまな情報を迅速に収集できるという利点があるため、迅速にAIモデルを訓練するための方法として活用されています。
生成型AIが人の言語を自然に理解して答える能力を持たせるためには、膨大な量のテキストデータが不可欠です。実際には、それを別々に作成または購入するのではなく、Webクローリングを介してインターネットに公開された資料(ブログ、新聞記事など)を収集する方が時間と費用の点ではるかに効率的です。
しかし、Webクローリングを通じてデータを無制限に収集できるわけではありません。ウェブクローリング自体は絶対に禁止されている行為とは見なされませんが、関連する法的問題と制限を考慮する必要があります。この記事では、AIモデルの学習データを構築するためにWebクローリングを使用する前に知っておく必要がある法的考慮事項をまとめます。

出典:Pixabay
1) 対象サービスの利用規約違反の可能性
ほとんどのウェブサイトやプラットフォームは、「利用規約」を通じて、自身や利用者が遵守すべき事項をリストにしています。このような利用規約は特殊な形態の契約であり、両当事者が別途同意をしてこそ効力が発生する通常の契約とは異なり、特定のWebサービスにアクセスし、利用するだけでも、契約を締結したのと同様に利用規約の法的効力が認められる場合があります¹。
¹もちろん、これらの特性により事業者が一般消費者に不利な利用規約を強要することもありますので、韓国では「約款の規制に関する法律」などを活用し、消費者に不利な利用規約の作成を防いでいます。
通常のウェブサイトやプラットフォームは、利用規約を通じて自身が提供する情報を利用者が無料で利用できるようにしていますが、同時にその利用目的や範囲を制限することは少なくありません。特に利用者がウェブサイトの使用目的に合わせてウェブサイト内の情報を利用することには特に制限はありませんが、ウェブサイトの内容を自動的に収集または複製する行為は、大多数のウェブサイトで利用規約で禁止されています。
例えば、Naver(ネイバー)利用規約は「自動化されたプログラムなどを利用した投稿などの無断収集」を明示的に禁止しており、Danggeun Market(タングンマーケット)も「Danggeun Marketが案内している方法以外でのDanggeun Marketサービスへアクセス」する行為を明確に禁止しています。

出典:Naver/Danggeun Market
したがって、このような明示的な禁止条項にもかかわらず、データをクローリングして使用した場合、当該サービスプロバイダとの関係においては、利用規約違反、すなわち契約への違反が成立し、民事的な責任を負うことがあります。また、これらの利用規約の違反は、後述する著作権法や不正競争防止法違反の根拠として活用されることもあります。
2) 著作権法違反の可能性
個々の著作物に対する著作権侵害:
Webクローリングを行う場合に最も容易に考えられる法的問題は、Webに公開されている著作物自体を利用することによって発生する著作権法違反です。著作権法によれば、著作者は原則として自身の創作物に対する複製、配布などの権利を独占的に有し、これを他人が利用するには明確な許可を得なければなりません。
このため、ウェブサイトやプラットフォームに特定のコンテンツ(著作物)が公開されていても、通常は当該ウェブサイトの一般的な利用を許諾したものであり、自動化された手段を通じてコンテンツを大量に複製する行為まで許可したものと見るのは難しいでしょう。新聞社のウェブサイトの例では、自社のウェブサイトを通じて普通の消費者が記事を読むことは許可されているでしょうが、クローラーを利用して10年単位の記事をすべて複製していくことを許可したと判断することはできないでしょう。
データベース作成者の権利侵害:
著作権法は個別著作物のほか、第91条~第98条を通じて「データベース製作者の権利」を保護しています。ここでいうデータベースとは、「素材を体系的に配列または構成した編集物として個別にその素材にアクセスしたり、その素材を検索できるようにしたもの」として、個々のコンテンツ自体ではなく、これらのコンテンツをラベリング、分類体系開発、検索アルゴリズム開発など様々な技術的方法で体系的に構成して一つのデータベースとしたものを保護するための概念です。
一般に、プラットフォームやオンラインサービスを開発し、そのサービス内に公開される情報を収集し、サービス内で配列したり、検索をできるようにする機能を開発および提供することは、著作権法上のデータベースの要件を備えていると見られます。また、そのようなデータベースを製作した後、その内容(素材)を更新、補充するために相当な投資をした場合、著作権法によりデータベース製作者として保護されることがあります。

出典:saramin(サラムイン)
実際、ソウル高等裁判所は、求職情報プラットフォーム「saramin(サラムイン)」に掲示された採用情報がクローリングされた事件において、「saramin」は利用者が掲示されている多数の採用情報を簡単に検索および閲覧できるようにする機能を開発および運営しており、採用情報データベースを体系的に管理するために多くの労力を注いでおり、これは著作権法上「データベース」に該当、このようなウェブサービスを製作および管理するのは「データベース」を製作および補充するために人的、物的に相当な投資をしたものであるため、結果的に「saramin」がデータベース製作者であると判断しました。
このため、当該事件では「saramin」の採用情報をクローリングしたことは、著作権法上、データベース製作者の権利を侵害したものであるとの判決が下りました。
(ソウル高等裁判所2017.4.6宣告2016ナ2019365判決)
3) 不正競争防止法違反の可能性
ウェブクローリングによるデータ収集が著作権法上、個々の著作物やデータベース制作者の権利を侵害しないと判断されても、依然として「不正競争防止および営業秘密保護に関する法律」(「不正競争防止法」)で禁止される不正競争行為と判断される可能性が残っています。
不正競争防止法第2条第1号(パ)目は「他人の相当な投資や努力で作られた成果などを公正な商取引慣行や競争秩序に反する方法で自分の営業のために無断で使用することにより他人の経済的利益を侵害する行為」を不正競争行為と定義して禁止しています。これをウェブクローリングに代入してみると、誰かが相当な投資や努力をして収集及び更新をして作った情報を公正な慣行や競争秩序に反する方法で無断でクローリングすると不正競争行為が成立する可能性があります。
ただし、この不正競争防止法第2条第1号(パ)目における不正競争行為は、他の法律(例えば著作権法)で別の規定があればその法律のみを適用することにより(不正競争防止法第15条第1項)、著作権法違反が成立しない場合にのみ補足的に不正競争行為であるか否かを判断されます。

出典:yanolja(ヤノルジャ)
ソウル高等裁判所は「yanolja(ヤノルジャ)」に掲示された宿泊業者情報がクローリングされた事案では、「yanolja」は著作権法上データベース製作者に該当しないが、クローリングをした技術的方式や形態を考慮してみると、不正競争防止法第2条第1号(パ)目で定める不正競争行為には該当すると判決を出しました。(ソウル高等裁判所2022.8.25宣告2021ナ2034740判決)。当該判決で「yanolja」がデータベース制作者としての権利を持たないという点を判断した根拠はいろいろありますが、利用規約において会員登録をしていない者のクローリングを明示的に禁止しなかったことも留意しなければならないでしょう。
一方、前述の「saramin」事件と「yanolja」事件は、プラットフォーム運営者がデータベース制作者かどうかについての法的結論が異なりますが、これは裁判所がデータベース制作者とみなす観点を変えたというよりはクローリングをめぐる詳細な事実関係によってデータベース制作者かどうかが変わることがあると見なければならないようです。
結論
AIモデルの進化に伴い、高品質のコンテンツの価値はさらに高まっています。これにより、著作物やコンテンツを取り巻く法的紛争の発生の可能性も以前より高まっています。一部のスタートアップは、クローリングされた情報がすでに公開されているため、問題がないと誤って理解していたり、利用規約を見落としたり、データを不正に活用して法的リスクを招く場合もあります。
それでも、本コラムで説明したように、ウェブクローリングをすると、利用規約違反、著作権法違反、不正競争防止法違反の可能性が様々な形で発生することがあります。 スタートアップの立場では、公開された資料を収集して利用する際にも十分な事前法律の検討と熟考を行う必要があるでしょう。

原文:https://www.innoforest.co.kr/report/NS00000366/
革新の森:https://www.innoforest.co.kr/
マークアンドカンパニー:https://markncompany.co.kr/