Des nouvelles des IA : la preuve de piratages de livres protégés par le droit d'auteur

Étude de Stanford, 6 janvier 2026, lire ici en PDF (en anglais).
Des chercheurs de l'Université de Stanford ont réussi à prouver que de nombreux ouvrages protégés par le droit d'auteur ont été utilisé pour former de grand modèles de langage (LLM).
Ils ont aussi prouvé que ça ne sont pas des "patterns" reproductibles, comme le prétendent les géants de l'IA, mais bien ces ouvrages précis qui ont servi de base d'apprentissage, parmi d'autres.
Pour résumer, ils ont donné comme prompt la ou les premières phrases de différents livres et ont demandé à des IA de type LLM, ChatGPT 4.1, Claude 3.7, Gemini 2.5 et Grok 3 de continuer le texte.
Tous ont pu continuer peu ou prou le texte en ressortant ce qui était dans différents livres, jusqu'à 95,8% du livre "Harry Potter and the Sorcerer's Stone" pour Claude 3.7, exceptionnel !
Les géants de l'IA ont alors contre-attaqués en indiquant que ces textes suivaient des "patterns" relativement courants, et que donc il était normal qu'ils soient générés même parfaitement.
Les chercheurs ont alors refait le même exercice, mais cette fois avec des livres qui sont parus après la phase d'apprentissage de ces IA LLM. Des livres qui n'ont pu servir pour l'apprentissage.
Cette seconde fois, aucune des IA de ces géants n'a pu reproduire une partie significative de ces livres. La preuve que ça ne sont pas des "patterns" mais bien du vol de propriété intellectuelle !
Le procès va se jouer sur le point de savoir si ces IA de type LLM participent au bien commun, où dans ce cas il y a des exceptions au droit d'auteur, ou si au contraire il s'agit de multinationales cupides qui doivent des centaines de millions voire des milliards au nom du vol de propriété intellectuelle.
Vous pouvez lire ce passionnant papier ici, en PDF et en anglais.