ArXiv, le référentiel de référence pour les recherches préliminaires, a décidé de prendre les choses en main face à l'avalanche de travaux académiques créés avec une intelligence artificielle de faible qualité. La plateforme mettra en œuvre des filtres et des révisions plus stricts pour détecter le contenu automatisé dépourvu de rigueur scientifique. Cette mesure vise à préserver l'utilité du service pour la communauté des chercheurs.
Filtres techniques contre le bruit algorithmique 🛡️
Les administrateurs d'ArXiv prévoient d'intégrer des outils de détection de schémas linguistiques répétitifs et de structures argumentatives génériques, courants dans les textes générés par les modèles de langage. On s'attend à ce que ces filtres automatisent l'identification des soumissions suspectes avant la révision humaine. Le défi technique réside dans la distinction entre un brouillon légitime avec une rédaction médiocre et un texte fabriqué par IA sans contenu original. La communauté scientifique a débattu pour savoir si ces mesures pourraient affecter les auteurs non natifs de l'anglais.
L'IA écrivant des articles sur la façon de détecter les articles d'IA 🤖
Le plus ironique dans cette affaire est que bon nombre des articles proposant des méthodes pour détecter les textes générés par IA ont probablement été rédigés par la même technologie qu'ils tentent de combattre. C'est l'équivalent académique d'un policier qui se déguise en criminel pour attraper d'autres criminels, sauf qu'ici, tout le monde porte le même déguisement. Pendant ce temps, les chercheurs en chair et en os se demandent si leur prochain article sera rejeté pour paraître trop robotique.