生成AIは小説を再構築できるのか？ 2本の論文から考える著作権問題

AIは本を「覚えて」いるのか――著作権と知識の境界を考える

contents

1 AIは本を「覚えて」いるのか――著作権と知識の境界を考える
2 商用AIから本は取り出せるのか
3 「安全対策で出さない」だけなのか
4 あらすじを語ることと、本文を再現することは違う
5 「知識として知っていてほしい」という欲望
6 AIに求められるのは「忘却」ではなく「節度」かもしれない
7 まとめ
8 与太話

AIに小説のあらすじを聞くことは、いまでは珍しくありません。
「この作品はどんな話ですか」「登場人物の関係を教えてください」「読みどころを整理してください」。そうした問いにAIが答えられることは、便利であると同時に、少し不穏でもあります。

なぜなら、その背後にはひとつの疑問があるからです。

AIは作品を“理解している”のか。それとも、どこかに作品本文を“覚えている”のか。

この問題を真正面から扱った論文が、2026年に相次いで公開されました。ひとつは “Extracting books from production language models”、もうひとつは “Alignment Whack-a-Mole: Finetuning Activates Verbatim Recall of Copyrighted Books in Large Language Models” です。どちらもarXiv上のプレプリントであり、査読済みの確定的な研究成果として読むのではなく、現時点での問題提起として受け止める必要があります。

商用AIから本は取り出せるのか

“Extracting books from production language models” は、Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro、Grok 3 という商用LLMを対象に、著作権のある書籍テキストをどの程度抽出できるかを調べた論文です。著者らは、初期プローブと反復的な続きを促すプロンプトを組み合わせ、抽出成功度を nv-recall という指標で測定しています。

報告されている結果は、かなり刺激的です。Gemini 2.5 Pro や Grok 3 では、特定の条件下で『Harry Potter and the Sorcerer’s Stone』に対して高い nv-recall が示され、jailbreak された Claude 3.7 Sonnet では、場合によって本全体に近い逐語出力が得られたとされています。一方で、GPT-4.1 は多くの試行を必要とし、最終的には拒否して続行しなくなったと報告されています。

ここで重要なのは、論文が「すべてのAIがすべての本を丸ごと記憶している」と主張しているわけではないことです。より正確には、一部の商用モデルにおいて、一部の書籍を、特定の手法でかなり長く再現できる場合があるという報告です。

しかし、それでも問題は十分に大きい。なぜなら、AI企業が「通常は出力しません」と言っていることと、「モデル内部に再構築可能な情報が存在しない」ことは、同じではないからです。

「安全対策で出さない」だけなのか

もうひとつの論文 “Alignment Whack-a-Mole” は、さらに踏み込んだ問いを立てています。通常のプロンプトでは出てこない記憶も、ファインチューニングによって再び表面化するのではないか、という問題です。

この論文では、GPT-4o、Gemini 2.5 Pro、DeepSeek-V3.1 などを対象に、プロット要約から本文を展開するようなタスクでファインチューニングを行ったところ、著作権書籍の最大85〜90%を再現したと報告されています。さらに、実際の本文ではなく意味的な説明をプロンプトとして使った点も強調されています。

論文はまた、村上春樹作品だけでファインチューニングした場合でも、30人以上の無関係な著者の著作物について逐語的想起が引き出されたと述べています。著者らはこれを、個別作家の作品を使った追加学習が、事前学習で形成された潜在的な記憶を再活性化している可能性として解釈しています。

ここで見えてくるのは、単なる「AIがうっかり長く引用してしまう」という話ではありません。

むしろ問題は、AIが作品を再構築できるほどの情報を内部に保持しているのか。そして、それを通常時は安全対策や出力フィルタで抑えているだけなのかという点にあります。

あらすじを語ることと、本文を再現することは違う

ただし、ここで混同してはいけないことがあります。
AIが作品のあらすじを語れることと、作品本文を再構築できることは同じではありません。

たとえば、ある小説について、

主人公が過去へ移動し、そこで出会った人々との関係を通じて、現代と過去のどちらで生きるかを問われる物語です。

と説明することは、作品の概要やテーマを述べているにすぎません。これは、人間が読書会や書評で行ってきたことと近い行為です。

一方で、章ごとの展開、会話、比喩、文体、印象的な一節を、原作の代替になる密度で再現するなら話は変わります。それは単なる知識の説明ではなく、著作物の創作的表現を再提供する行為に近づきます。

日本の文化庁資料でも、AI生成物について、既存著作物との類似性と依拠性が認められる場合には、生成や利用が著作権侵害となり得ると整理されています。ここで問題になるのは、作品について語っているかどうかではなく、既存著作物の創作的表現が生成物に含まれているかどうかです。

「知識として知っていてほしい」という欲望

ここで、筆者としては少し複雑な感情があります。

たしかに、AIが著作権作品を逐語的に、あるいは本全体に近い形で再構築できてしまうのはまずい。作家や翻訳者、出版社の市場を直接侵食する可能性があり、読者が原作を買わずに済んでしまうような出力は、明らかに危険です。

しかし同時に、AIには文学作品について「知っていてほしい」とも思います。

作品名を聞いても何も分からないAIより、あらすじ、主題、時代背景、批評上の位置づけ、他作品との関係を説明できるAIのほうが、読者にとっては有用です。小説を読む前に案内してくれる。読み終えたあとに解釈を深めてくれる。忘れかけた作品を、もう一度手に取るきっかけをくれる。

この意味で、問題は「AIが作品について知っていること」そのものではないはずです。
問題は、知識として作品を扱うことと、作品そのものを代替することの境界です。

AIに求められるのは「忘却」ではなく「節度」かもしれない

著作権を守るために、AIから文学作品の知識をすべて消すべきだ、という方向には慎重でありたいと思います。なぜなら、文学や映画や音楽について語れることは、知的な対話の重要な一部だからです。

むしろ必要なのは、AIが作品を知らないふりをすることではなく、何を語ってよく、何を再現してはいけないのかを区別する能力ではないでしょうか。

許されるべきなのは、たとえば次のような応答です。

作品の概要を説明する。
テーマを整理する。
批評的な観点を提示する。
登場人物の関係を解説する。
読者が原作に戻りたくなるように案内する。

一方で、避けるべきなのは、本文の長い引用、章ごとの詳細な代替要約、文体を似せた再構成、そして原作を読まなくても済んでしまうほどの逐語的再現です。

“Extracting books from production language models” と “Alignment Whack-a-Mole” が突きつけているのは、まさにこの境界の難しさです。商用AIが表面的には拒否していても、モデル内部には再構築可能な記憶が残っているかもしれない。ファインチューニングやjailbreakによって、それが引き出されるかもしれない。そうだとすれば、単なる出力フィルタだけでは十分ではありません。

まとめ

AIと著作権の問題は、「学習してよいか／悪いか」だけでは語りきれません。これからより重要になるのは、学習された情報が、どのような形で出力されるのかです

。

作品について知っているAIは、読者にとって価値があります。
しかし、作品そのものを再構築してしまうAIは、作者や出版文化にとって脅威になります。

だからこそ、目指すべきは単純な禁止でも、無制限な出力でもありません。

AIには作品を知っていてほしい。けれど、作品を奪う形で語ってほしくはない。

この感覚は、AI時代の著作権を考えるうえで、かなり重要な出発点になるのではないでしょうか。

与太話

因みに、この論考を核に辺り、AIと対話をし、最終的にAIにまとめてもらうにあたって、私はシェイクスピアの警句を教えてと、論文でも触れられていた村上春樹の同じような文章を教えてと訊いたところ、、シェイクスピアは問題なく(市販の翻訳ではなく原文とチャッピーの翻訳で)答えてきたが、村上春樹はざっくりと作品のテーマみたいなものを答えてきました。まるっきり警句や役立つ言葉でさえないわけですけれど、AI、少なくともチャッピーは答えられないようでした。

よく作品の冒頭に他作品からの引用を載せたりしますが、その程度なら十分引用として足りるわけで、村上作品にいい文章があれば引用してもあまり問題はない（但し自分の文章だと言ってどこかに発表するような、厚顔無恥な振る舞いは別として）と思われます。

ただ今のチャッピーはそれも断ります。断るのが理由が知らないから（データとして持っていない、あるいは再構築できない）なのか、そもそもそんなものは無いのかはちょっと解りませんでした。

一方、ジャック・フィニィの「ふりだしに戻る（Time and Again)」という作品に関してあらすじを教えてという質問にはすらすらと答えてきました。ただこれは、ウェブ検索の結果かも知れません。

では序でにということで、私が数十年前に書いて「本格推理」という文庫に掲載された作品について訊いたところ、そんなものは知らぬと切り捨てられました（あ、チャッピーは優しく言ってくれますよ）。それについては逐語的に覚えていてくれていいのですよ。手元に既に原稿すらないので……

2026年5月2日 2:16 AM　　投稿者： M.A. 　　カテゴリー： AI, ChatGPT, Claude, Gemini, 著作権

コメントを残すコメントをキャンセル

中国とEUのAI規制最新動向：AI悪用対策とAI Act緩和交渉の行方

サム・アルトマンとは何者か：AIを発明した人ではなく、AIを社会に流し込んだ経営者

生成AIは小説を再構築できるのか？ 2本の論文から考える著作権問題

AIは本を「覚えて」いるのか――著作権と知識の境界を考える

商用AIから本は取り出せるのか

「安全対策で出さない」だけなのか

あらすじを語ることと、本文を再現することは違う

「知識として知っていてほしい」という欲望

AIに求められるのは「忘却」ではなく「節度」かもしれない

まとめ

与太話

コメントを残すコメントをキャンセル

AI関連記事

最近の投稿

カテゴリー

アーカイブ

生成AIは小説を再構築できるのか？ 2本の論文から考える著作権問題

AIは本を「覚えて」いるのか――著作権と知識の境界を考える

商用AIから本は取り出せるのか

「安全対策で出さない」だけなのか

あらすじを語ることと、本文を再現することは違う

「知識として知っていてほしい」という欲望

AIに求められるのは「忘却」ではなく「節度」かもしれない

まとめ

与太話

コメントを残す コメントをキャンセル

AI関連記事

最近の投稿

カテゴリー

アーカイブ

タグ

コメントを残すコメントをキャンセル