OpenAIなどのAI学習元アーカイブを構築してきた非営利団体「Common Crawl」の実態、有料ページを含む数十億のウェブページを2013年以来スクレイピングし続けている

📆 11/5/2025 6:31 AM

United States News News

United States Latest News,United States Headlines

📆 11/5/2025 6:31 AM
📰 gigazine

⏱ Reading Time:
68 sec. here
3 min. at publisher
📊 Quality Score:
News: 31%
Publisher: 51%

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデル(LLM)の訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。

非営利団体Common Crawlは、10年以上にわたりインターネットの広範なアーカイブを構築してきました。このペタバイト規模のデータベースは研究用に無料で公開されていますが、近年、OpenAI、Google、Meta、AmazonといったAI企業が大規模言語モデルの訓練に利用していることが物議を醸していると、アメリカの月刊雑誌・The Atlanticが指摘しています。The Atlanticの調査によると、Common CrawlはAI企業に対し、主要なニュースサイトのペイウォールの内側にある記事への「裏口」を提供していると指摘されています。Common Crawlは「自由に利用可能なコンテンツ」のみを収集し「ペイウォールの背後には行かない」と明記していますが、実際にはペイウォールで閲覧できなくなっているはずの有料記事の内容も取得しています。多くのペイウォールは「ブラウザが記事の全文を読み込んだ後、『ユーザーが購読者か否かを確認するコード』を実行し、購読者でない場合は記事を非表示する」という仕組みで動作しているのですが、Common Crawlのスクレイパーは「ユーザーが購読者か否かを確認するコード」を実行せずにペイウォール内の記事全文を取得しているとのこと。2023年7月、The New York TimesはCommon Crawlに対し、過去に収集されたコンテンツの削除を要請しました。Common Crawlはこれに応じたかのように見えましたが、The Atlanticがアーカイブを調査したところ、多くの記事が依然として存在していることが判明しました。デンマーク権利同盟や他のパブリッシャーも同様の経験をしており、Common Crawl側は「50％完了」「80％完了」といった説明をしていますが、技術的な調査では、アーカイブのコンテンツファイルが少なくとも2016年以降変更された形跡がなく、過去9年間コンテンツが削除されていない可能性が示唆されています。一方でスクレンタ氏は、AIはインターネット上のあらゆるものに無料でアクセスできるべきだとし、「ロボットも人間だ」とThe Atlanticに語りました。また、コンテンツ削除を要求するパブリッシャーに対し「インターネットにコンテンツを置くべきではなかった」とも発言しています。 Common Crawlは近年、AI産業との関係を深めています。2023年にはOpenAIから25万ドル、Anthropicから25万ドルの寄付を受け、NVIDIAのAI訓練データセットをホストするなど、データ配布にも協力しています。スクレンタ氏は、パブリッシャーによる削除要求が「オープンウェブを殺す」と主張していますが、The Atlanticはむしろ、生成AI企業による搾取的なスクレイピングこそがパブリッシャーにペイウォールの強化を促し、オープン性を損なっていると反論しています。スクレンタ氏はCommon Crawlのアーカイブを「文明の記録」として人類滅亡後に備え月に送りたいと語る一方で、The Atlanticを含む特定のジャーナリズムの価値を軽視する発言をしているとThe Atlanticは批判しました。.

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

楽天、2万超のAIツールを生み出した秘訣：全社AI活用の未来図楽天グループが、約3万人の社員が日々活用する社内向けAI「Rakuten AI for Rakutenians」の成功事例を公開。非エンジニアを含む社員自らが開発した2万以上のAIツール、AI-nization推進の背景、そして全社でのAIフル活用による未来ビジョンを解説。Sansan主催のイベントでの講演内容を基に、実践的なAI活用のヒントを探る。
Read more »

OpenAI「Sora 2」の著作権軽視に出版社など共同声明 (2025年11月4日)講談社、小学館、KADOKAWAなどの出版17社と、日本漫画家協会、日本動画協会は10月31日、「生...
Read more »

アイレット、AI 統合ソリューション群「gaipack」に16個目のサービス「AI セキュリティコンサルティング」を追加アイレット、AI 統合ソリューション群「gaipack」に16個目のサービス「AI セキュリティコンサルティング」を追加アイレット株式会社のプレスリリース
Read more »

個人投資家に感じる「自由」について考えた。ハフポスト日本版「Next-Gen Money ミライ投資クラブ」を始めます。1983年生まれ。2005年に慶應大学総合政策学部を卒業後、同年4月に毎日新聞社に入社。東日本大震災の被災地となった福島では、避難者の心と身体の健康の課題などを担当、2013...
Read more »

4℃、NAVYNAVY、SEKAIAが語る“AI組織化”の最前線。Maison AI、初の交流イベント「Maison AI MeetUp 2025 Winter」を開催4℃、NAVYNAVY、SEKAIAが語る“AI組織化”の最前線。Maison AI、初の交流イベント「Maison AI MeetUp 2025 Winter」を開催株式会社AuthenticAIのプレスリリース
Read more »

AIブームで大人気の「.ai」ドメイン、とある小島のドメインだった。リンク集が話題に【やじうまWatch】 (2025年11月5日)AIブーム以前に存在した「.ai」ドメインのサイトを集めたリンク集が注目を集めている。「.ai」は...
Read more »