La vision initiale d'un réseau décentralisé et communautaire a évolué vers un modèle où l'utilisateur effectue des microtâches qui bénéficient à de grandes corporations. Des figures comme Luis von Ahn, avec des projets comme reCAPTCHA et Duolingo, ont été clés dans cette transition. Ils ont transformé des actions quotidiennes, comme vérifier que nous ne sommes pas des robots ou apprendre des langues, en mécanismes pour générer des données précieuses. Ce travail gratuit soutient maintenant le développement de l'intelligence artificielle et d'autres services commerciaux.
Le code derrière la capture de données : de l'interaction au dataset 🤖
Techniquement, ces systèmes se basent sur des designs ingénieux d'interaction homme-ordinateur (HCI) qui masquent la collecte de données. reCAPTCHA, par exemple, présente deux mots : un de contrôle connu par le système et un autre scanné d'un livre qui nécessite une numérisation. La vérification de l'utilisateur résout les deux. Duolingo structure ses leçons comme des exercices de traduction bidirectionnelle, où chaque réponse contribue à entraîner des modèles de langage. Ces données, anonymisées et agrégées, forment des datasets pour entraîner des algorithmes d'OCR ou de traduction automatique.
Bienvenue dans le domaine de travail le plus amusant du monde (ne paie pas) 🦉
Il est curieux de penser que notre temps libre est devenu la ligne de production la plus distribuée de la planète. Pendant que nous croyions télécharger un mème ou prouver notre humanité devant un champ de texte, en réalité nous pointions à l'usine de données. La prochaine fois que Duolingo vous rappellera avec un hibou pleurnichard de pratiquer l'espagnol, pensez que non seulement vous apprenez, mais que vous affinez le modèle d'IA qu'une entreprise louera ensuite. Au moins, nous n'avons pas à pointer avec une carte.