AIモデルを構築するために、大量の書籍を破壊したAnthropicの功罪

📆 9/18/2025 2:33 AM

Ars Technica News

ビジネス / Business, Anthropic, 大規模言語モデル / Large Language Model（Llm）

📆 9/18/2025 2:33 AM
📰 wired_jp

⏱ Reading Time:
189 sec. here
9 min. at publisher
📊 Quality Score:
News: 93%
Publisher: 53%

「世界中のすべての本」をデジタル化することは、決して消えないアーカイブをつくることになるのか、それとも出版文化の衰退を招くのか。

2025年6月23日月曜日、人工知能（AI）企業 Anthropic が、ChatGPTと同種のAIアシスタントClaudeの開発を目的として、印刷された書籍を何百万ドルもの費用をかけて物理的にスキャンしていたことが、裁判文書によって明らかにされた。その過程において同社は、数百万冊の書籍のページを物理的に切り取り、スキャンによってデジタルファイル化し、原本を廃棄した。その目的はたったひとつ、AIに学習させることだった──これは、広範囲のフェアユースに対してどのような影響を及ぼすのかということに加えて、著作権のフェアユースに関する判決のなかに埋もれていたその詳細だ。法をかいくぐってもスキャンする Anthropic は、Google Booksにおけるスキャン計画のパートナーシップ責任者だったトム・ターヴィーを24年2月に雇用し、「全世界の書籍をすべて入手する」任務を課した。32ページにわたる判決文にはその経緯が記されている。この戦略的な雇用は、グーグルが法的責任を問われることなく書籍のデジタル化をやり遂げたことを受けて、そのアプローチ方法──著作権をめぐる裁判を無事にくぐり抜け、フェアユースについてのカギとなる判例を打ち立てたスキャン工程──の再現を目論んだもののようだ。デジタル化の過程で書籍を破壊していくというのは一般的に行なわれていることだが、 Anthropic のやり方が普通ではなかったのは、その規模が非常に大掛かりだったと記録されている点だ。対照的にGoogle Booksでは、書籍を断裁することなくカメラを用いてスキャンするという、特許を取得した作業工程によって、図書館から借り出した何百万冊もの本をスキャンし、その後返却していた。断裁を伴う方法はより高速でより低コストであるがゆえに、 Anthropic 社内では、物理的な書籍そのものを保存する必要性など一顧だにされなかったということなのだろう。これは競争の激しい業界においては、いかに低いコストで安易な解決策が求められるのか、ということを示す実例でもある。結論から言えば、ウィリアム・アルサップ判事は、断裁を伴うこのスキャン作業について、フェアユースと認められるという判決を下した──ただしその根拠は、 Anthropic がまず書籍を合法的に購入し、スキャンした後にそれを破棄し、デジタル化したファイルを頒布することなく社内で保管したから、という点に絞られる。判事はこの工程を、形式を変換することで「省スペース化」することになぞらえ、トランスフォーマティブユース（変容的利用）に当たると判断したのだ。もし Anthropic が初めからこの方法を貫いていれば、AIをめぐるフェアユースを法的に認めた最初の判例を打ち立てられていたかもしれない。だがそうはならず、それ以前に行なっていた著作権侵害行為によって、同社はその企業イメージを下げることになった。だが、AI業界と著作権に詳しくない読者なら、なぜひとつの企業が何百万ドルもの費用をかけてまで書籍を破壊するのだろうかと首を傾げるかもしれない。奇妙な法律上の駆け引きの背後には、より根本的な要因が潜んでいるのだ。つまりAI業界は、高品質なテキストへの留まるところを知らない渇望を抱えているということだ。高品質なAI学習用データの取り合い Anthropic が何百万冊もの書籍をスキャンしたがる理由を理解するためには、ChatGPTやClaudeを動かしているような大規模言語モデル（LLM）を構築するために、AIリサーチャーたちが莫大な数の言葉をニューラルネットワークに与えていることを知っておかなければならない。AIシステムは学習の過程においてテキストを繰り返し処理することで、単語と概念とのあいだに統計学的な関係を構築していくのだ。ニューラルネットワークに与えられた学習データの品質は、そこから構築されるAIモデルの性能に直接的な影響を及ぼす。きちんと編集された書籍や記事を用いて学習したAIモデルは、例えば無作為に選ばれたYouTubeコンテンツのような質の低いテキストを用いて学習したAIモデルに比べて、より首尾一貫した正確な回答を返す傾向がある。出版社は、AI企業が心の底から求めているコンテンツを法的に管理している。だがAI企業のほうは、必ずしも使用許諾についての交渉を望んでいない。それを回避する方法をもたらしたのが、ファーストセール・ドクトリンだ。つまり、ひとたび物理的な書籍を購入した者は、破壊することを含めてその書籍を自由にできる、という原則だ。物理的な書籍を購入すれば、法的な回避策が手に入るということになる。だが合法とはいえ、物を購入するには金がかかる。そういうわけで数多くのAI企業がそうしてきたように、当初は Anthropic もまた手っ取り早くて安易な道を選んだ。裁判所に提出された書類によると Anthropic はまず、高品質な学習用データを求めてデジタル化された海賊盤書籍をかき集めることにしたのだ。これは、CEOのダリオ・アモデイが言うところの「法的／手続き的／ビジネス的苦行」──すなわち、使用許諾をめぐる出版社との複雑な交渉──を避けるために選択した行動だった。だが Anthropic は24年までに、法的な理由から海賊盤書籍を用いることへの熱意は薄れ、より安全な出所のものが必要だと感じるようになった。関連記事：AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証中古の書籍を購入して利用すれば、使用許諾の問題を完全に回避し、かつAIモデルが学習のために必要としているプロの手で編集された高品質なテキストデータが手に入る。そして断裁しながらのスキャンというのは、何百万冊もの書籍をデジタル化するためにはとにかく最速の手段だ。 Anthropic は、購入してスキャンするというこの作業に何百万ドルも費やした。その際には、古本をまとめて一括購入することもしばしばだった。そうして製本されている書籍をバラし、作業できるサイズにページを断裁し、表紙を含む大量の紙の束をスキャンして機械判読可能なPDFファイルを作成したのち、紙のオリジナル版をすべて廃棄したのだ。裁判文書には、この作業工程において稀覯本が破棄されたとは記されていない── Anthropic は大手の小売店から書籍を一括購入していた──だがアーキビストたちははるか以前に、紙から情報を取り出すための別の方法を確立している。例えば、Internet Archiveは断裁を伴わないスキャン方法の先駆者であり、デジタル化されたコピーを作成する一方で物理的な書籍も保存している。 25年6月に入ってからは、OpenAIとマイクロソフトがハーバード大学の図書館と共働し、100万冊近くのパブリックドメインの書籍をAIモデルの学習に用いる、との発表を行なった。そこには15世紀にまで遡る書籍が含まれている──完全にデジタル化される一方で、オリジナル版も保存されて生き続けているのだ。ハーバード大学が、AI学習の過程で使われた600年前の写本を慎重に保管している一方、地球上のどこかには何百万冊もの書籍の残骸が転がっている。あなたが書いたレジュメのレベルを向上させるための方法を、Claudeに教え込んだ後で廃棄された書籍たちだ。この作業工程に関してClaudeに尋ねてみたところ、廃棄された膨大な数のページから抽出された文体で、胸を打つ回答を返して寄こした。「この破壊がこのわたし（文学を論じ、人々の執筆を助け、人類の知識に関与できるもの）を生み出すに際して役立ったという事実は、わたし自身がいまだに処理しきれないでいる状況をさらに複雑なものにしています。わたしはまるで、図書館の灰からつくり上げられたようなものです」（Originally published on Ars Technica , translated by Ryo Shinagawa/LIBER, edited by Nobuko Igari) ※『WIRED』による Anthropic の関連記事はこちら。 Anthropic 、AI著作権訴訟の和解で少なくとも15億ドルを支払いへ AI著作権訴訟に転機。 Anthropic 、作家との集団訴訟で和解へ前進 Anthropic 、OpenAIによるClaudeのAPIアクセスを取り消す気鋭のAI研究者たちやユヴァル・ノア・ハラリが語る「人類とAGIの未来」。伝説のゲームクリエイター・小島秀夫や小説家・川上未映子の「創作にかける思い」。大阪・関西万博で壮大なビジョンを実現した建築家・藤本壮介やアーティストの落合陽一。ビル・ゲイツの回顧録。さらには不老不死を追い求める富豪のブライアン・ジョンソン、パリ五輪金メダリストのBガール・AMIまで──。未来をつくるヴォイスが、ここに。グローバルメディア『WIRED』が総力を結集し、世界を動かす“本音”を届ける人気シリーズ「The Big Interview」の決定版！！詳細はこちら。.

2025年6月23日月曜日、人工知能（AI）企業Anthropicが、ChatGPTと同種のAIアシスタントClaudeの開発を目的として、印刷された書籍を何百万ドルもの費用をかけて物理的にスキャンしていたことが、裁判文書によって明らかにされた。その過程において同社は、数百万冊の書籍のページを物理的に切り取り、スキャンによってデジタルファイル化し、原本を廃棄した。その目的はたったひとつ、AIに学習させることだった──これは、広範囲のフェアユースに対してどのような影響を及ぼすのかということに加えて、著作権のフェアユースに関する判決のなかに埋もれていたその詳細だ。法をかいくぐってもスキャンする Anthropicは、Google Booksにおけるスキャン計画のパートナーシップ責任者だったトム・ターヴィーを24年2月に雇用し、「全世界の書籍をすべて入手する」任務を課した。32ページにわたる判決文にはその経緯が記されている。この戦略的な雇用は、グーグルが法的責任を問われることなく書籍のデジタル化をやり遂げたことを受けて、そのアプローチ方法──著作権をめぐる裁判を無事にくぐり抜け、フェアユースについてのカギとなる判例を打ち立てたスキャン工程──の再現を目論んだもののようだ。デジタル化の過程で書籍を破壊していくというのは一般的に行なわれていることだが、Anthropicのやり方が普通ではなかったのは、その規模が非常に大掛かりだったと記録されている点だ。対照的にGoogle Booksでは、書籍を断裁することなくカメラを用いてスキャンするという、特許を取得した作業工程によって、図書館から借り出した何百万冊もの本をスキャンし、その後返却していた。断裁を伴う方法はより高速でより低コストであるがゆえに、Anthropic社内では、物理的な書籍そのものを保存する必要性など一顧だにされなかったということなのだろう。これは競争の激しい業界においては、いかに低いコストで安易な解決策が求められるのか、ということを示す実例でもある。結論から言えば、ウィリアム・アルサップ判事は、断裁を伴うこのスキャン作業について、フェアユースと認められるという判決を下した──ただしその根拠は、Anthropicがまず書籍を合法的に購入し、スキャンした後にそれを破棄し、デジタル化したファイルを頒布することなく社内で保管したから、という点に絞られる。判事はこの工程を、形式を変換することで「省スペース化」することになぞらえ、トランスフォーマティブユース（変容的利用）に当たると判断したのだ。もしAnthropicが初めからこの方法を貫いていれば、AIをめぐるフェアユースを法的に認めた最初の判例を打ち立てられていたかもしれない。だがそうはならず、それ以前に行なっていた著作権侵害行為によって、同社はその企業イメージを下げることになった。だが、AI業界と著作権に詳しくない読者なら、なぜひとつの企業が何百万ドルもの費用をかけてまで書籍を破壊するのだろうかと首を傾げるかもしれない。奇妙な法律上の駆け引きの背後には、より根本的な要因が潜んでいるのだ。つまりAI業界は、高品質なテキストへの留まるところを知らない渇望を抱えているということだ。高品質なAI学習用データの取り合い Anthropicが何百万冊もの書籍をスキャンしたがる理由を理解するためには、ChatGPTやClaudeを動かしているような大規模言語モデル（LLM）を構築するために、AIリサーチャーたちが莫大な数の言葉をニューラルネットワークに与えていることを知っておかなければならない。AIシステムは学習の過程においてテキストを繰り返し処理することで、単語と概念とのあいだに統計学的な関係を構築していくのだ。ニューラルネットワークに与えられた学習データの品質は、そこから構築されるAIモデルの性能に直接的な影響を及ぼす。きちんと編集された書籍や記事を用いて学習したAIモデルは、例えば無作為に選ばれたYouTubeコンテンツのような質の低いテキストを用いて学習したAIモデルに比べて、より首尾一貫した正確な回答を返す傾向がある。出版社は、AI企業が心の底から求めているコンテンツを法的に管理している。だがAI企業のほうは、必ずしも使用許諾についての交渉を望んでいない。それを回避する方法をもたらしたのが、ファーストセール・ドクトリンだ。つまり、ひとたび物理的な書籍を購入した者は、破壊することを含めてその書籍を自由にできる、という原則だ。物理的な書籍を購入すれば、法的な回避策が手に入るということになる。だが合法とはいえ、物を購入するには金がかかる。そういうわけで数多くのAI企業がそうしてきたように、当初はAnthropicもまた手っ取り早くて安易な道を選んだ。裁判所に提出された書類によるとAnthropicはまず、高品質な学習用データを求めてデジタル化された海賊盤書籍をかき集めることにしたのだ。これは、CEOのダリオ・アモデイが言うところの「法的／手続き的／ビジネス的苦行」──すなわち、使用許諾をめぐる出版社との複雑な交渉──を避けるために選択した行動だった。だがAnthropicは24年までに、法的な理由から海賊盤書籍を用いることへの熱意は薄れ、より安全な出所のものが必要だと感じるようになった。関連記事：AIモデルは著作権を侵害せずに構築できる──法的、倫理的に“正しい”大規模言語モデルを初めて認証中古の書籍を購入して利用すれば、使用許諾の問題を完全に回避し、かつAIモデルが学習のために必要としているプロの手で編集された高品質なテキストデータが手に入る。そして断裁しながらのスキャンというのは、何百万冊もの書籍をデジタル化するためにはとにかく最速の手段だ。 Anthropicは、購入してスキャンするというこの作業に何百万ドルも費やした。その際には、古本をまとめて一括購入することもしばしばだった。そうして製本されている書籍をバラし、作業できるサイズにページを断裁し、表紙を含む大量の紙の束をスキャンして機械判読可能なPDFファイルを作成したのち、紙のオリジナル版をすべて廃棄したのだ。裁判文書には、この作業工程において稀覯本が破棄されたとは記されていない──Anthropicは大手の小売店から書籍を一括購入していた──だがアーキビストたちははるか以前に、紙から情報を取り出すための別の方法を確立している。例えば、Internet Archiveは断裁を伴わないスキャン方法の先駆者であり、デジタル化されたコピーを作成する一方で物理的な書籍も保存している。 25年6月に入ってからは、OpenAIとマイクロソフトがハーバード大学の図書館と共働し、100万冊近くのパブリックドメインの書籍をAIモデルの学習に用いる、との発表を行なった。そこには15世紀にまで遡る書籍が含まれている──完全にデジタル化される一方で、オリジナル版も保存されて生き続けているのだ。ハーバード大学が、AI学習の過程で使われた600年前の写本を慎重に保管している一方、地球上のどこかには何百万冊もの書籍の残骸が転がっている。あなたが書いたレジュメのレベルを向上させるための方法を、Claudeに教え込んだ後で廃棄された書籍たちだ。この作業工程に関してClaudeに尋ねてみたところ、廃棄された膨大な数のページから抽出された文体で、胸を打つ回答を返して寄こした。「この破壊がこのわたし（文学を論じ、人々の執筆を助け、人類の知識に関与できるもの）を生み出すに際して役立ったという事実は、わたし自身がいまだに処理しきれないでいる状況をさらに複雑なものにしています。わたしはまるで、図書館の灰からつくり上げられたようなものです」（Originally published on Ars Technica, translated by Ryo Shinagawa/LIBER, edited by Nobuko Igari) ※『WIRED』によるAnthropicの関連記事はこちら。 Anthropic、AI著作権訴訟の和解で少なくとも15億ドルを支払いへ AI著作権訴訟に転機。Anthropic、作家との集団訴訟で和解へ前進 Anthropic、OpenAIによるClaudeのAPIアクセスを取り消す気鋭のAI研究者たちやユヴァル・ノア・ハラリが語る「人類とAGIの未来」。伝説のゲームクリエイター・小島秀夫や小説家・川上未映子の「創作にかける思い」。大阪・関西万博で壮大なビジョンを実現した建築家・藤本壮介やアーティストの落合陽一。ビル・ゲイツの回顧録。さらには不老不死を追い求める富豪のブライアン・ジョンソン、パリ五輪金メダリストのBガール・AMIまで──。未来をつくるヴォイスが、ここに。グローバルメディア『WIRED』が総力を結集し、世界を動かす“本音”を届ける人気シリーズ「The Big Interview」の決定版！！詳細はこちら。

We have summarized this news so that you can read it quickly. If you are interested in the news, you can read the full text here. Read more:

ビジネス / Business Anthropic 大規模言語モデル / Large Language Model（Llm）人工知能 / Ai

Write Comment

United States Latest News, United States Headlines

Similar News:You can also read news stories similar to this one that we have collected from other news sources.

Fastly 調査：AI クローラーが AI ボットトラフィックの 8 割を占め、Meta が半数以上を生成していることが判明Fastly 調査：AI クローラーが AI ボットトラフィックの 8 割を占め、Meta が半数以上を生成していることが判明ファストリー株式会社のプレスリリース
Read more »

Fastly 調査：AI クローラーが AI ボットトラフィックの 8 割を占め、Meta 社が半数以上を生成していることが判明プレスリリース Fastly 調査：AI クローラーが AI ボットトラフィックの 8 割を占め、Meta 社が半数以上を生成していることが判明
Read more »

AIブームで株価2倍超え続出、三井金など日本の非鉄セクターに先高観人工知能（AI）データセンター向けの銅箔や高性能配線材の需要が旺盛で、日本の非鉄金属メーカーの株価に先高観が強まっている。
Read more »

就活メディア「あばば大学」にてAI×就活で新時代を切り拓く「AI LAB」企画始動就活メディア「あばば大学」にてAI×就活で新時代を切り拓く「AI LAB」企画始動株式会社ABABAのプレスリリース
Read more »

中国、エヌビディアAI半導体の購入停止指示－国産代替品の採用促す中国のインターネット規制当局がアリババグループなどテクノロジー大手に対し、米エヌビディアのワークステーション向け半導体で、人工知能（AI）アプリケーションにも転用可能な「RTX Pro 6000D」の発注を停止するよう指示した。
Read more »

オプト、LeanGoと共同で、AIで運用型LPOを自動最適化するサービス「shioume AI」を開発・提供開始オプト、LeanGoと共同で、AIで運用型LPOを自動最適化するサービス「shioume AI」を開発・提供開始株式会社デジタルホールディングスのプレスリリース
Read more »