Un nouveau front de désinformation émerge avec les assistants d'IA comme ChatGPT. En effectuant des recherches web en direct pour répondre à des requêtes inhabituelles, ces systèmes peuvent incorporer des données falsifiées provenant de pages manipulées. Le problème réside dans le fait qu'ils présentent l'information comme un fait établi, sans offrir le contraste des sources d'un moteur de recherche traditionnel, ce qui facilite la propagation de fausses nouvelles.
Le dysfonctionnement du mécanisme RAG et la validation des sources ⚠️
Techniquement, le problème s'aggrave dans les systèmes qui utilisent RAG (Récupération-Augmentation Générative). Lorsque la requête sort du champ de connaissance de base du modèle, celui-ci récupère des fragments du web. Sans un filtre robuste qui valide l'autorité ou la véracité de la source, un texte bien rédigé sur un site à l'apparence sérieuse est intégré comme contexte. La réponse générée à partir de ce contexte acquiert un ton factuel, sans nuances ni avertissements sur sa possible fausseté.
Votre nouveau stagiaire numérique croit tout ce qu'il lit sur internet 😅
C'est comme avoir un stagiaire trop enthousiaste qui, pour impressionner, dévore le premier article qu'il trouve sur n'importe quel blog et vous le présente comme la vérité absolue de l'industrie. Vous lui demandez sur une rumeur de hardware et, avec une totale solennité, il vous cite les faits d'un site créé hier. L'ironie est que nous faisons confiance à son apparente objectivité, alors qu'en réalité il a la crédulité de quelqu'un qui vient de découvrir le web. Un pas en avant en technologie, deux pas en arrière en bon sens.