Une étude de Stanford, de l'Imperial College de Londres et des Archives Internet révèle que, depuis 2022, plus d'un tiers des sites web nouvellement créés contiennent du contenu généré par intelligence artificielle. L'analyse, qui couvre des échantillons jusqu'en mai 2025, a utilisé le logiciel Pangram v3 pour détecter le texte synthétique. Le web s'automatise à un rythme accéléré. 🌐
Pangram v3 : le détecteur qui expose l'empreinte synthétique 🤖
Le logiciel Pangram v3, développé pour identifier les schémas linguistiques propres aux modèles de langage, a analysé un ensemble massif de pages. Il a détecté que le contenu généré par IA ne prolifère pas seulement dans les blogs et les sites d'affiliation, mais aussi dans les forums et les portails d'actualités. La précision du détecteur permet de différencier le texte humain du texte synthétique avec une marge d'erreur réduite, bien que les modèles avancés continuent de compliquer la tâche.
Bientôt, nous aurons besoin d'une IA pour savoir ce qui n'est pas de l'IA 😅
Le fait est curieux : de plus en plus de sites web s'écrivent tout seuls, mais personne ne semble les lire. Bientôt, nous aurons internet rempli d'articles générés par des machines qui sont lus par d'autres machines pour en entraîner de nouvelles. Dans cette boucle, les humains seront comme cet ami qui arrive en retard à la fête et ne trouve que des miettes. Au moins, nous restons meilleurs pour raconter de mauvaises blagues.