La visione iniziale di una rete decentralizzata e comunitaria è evoluta verso un modello in cui l'utente esegue microattività che beneficiano grandi corporazioni. Figure come Luis von Ahn, con progetti come reCAPTCHA e Duolingo, sono state chiave in questa transizione. Hanno trasformato azioni quotidiane, come verificare che non siamo robot o imparare lingue, in meccanismi per generare dati preziosi. Questo lavoro gratuito sostiene ora lo sviluppo dell'intelligenza artificiale e altri servizi commerciali.
Il codice dietro la cattura dei dati: dall'interazione al dataset 🤖
Tecnicamente, questi sistemi si basano su ingegnosi design di interazione umano-computer (HCI) che mascherano la raccolta di dati. reCAPTCHA, ad esempio, presenta due parole: una di controllo nota al sistema e un'altra scansionata da un libro che necessita di digitalizzazione. La verifica dell'utente risolve entrambe. Duolingo struttura le sue lezioni come esercizi di traduzione bidirezionale, dove ogni risposta contribuisce ad addestrare modelli di linguaggio. Questi dati, anonimizzati e aggregati, formano dataset per addestrare algoritmi di OCR o traduzione automatica.
Benvenuto nel campo di lavoro più divertente del mondo (non paga) 🦉
È curioso pensare che il nostro tempo libero si sia trasformato nella linea di produzione più distribuita del pianeta. Mentre credevamo di scaricare un meme o dimostrare la nostra umanità davanti a un campo di testo, in realtà stavamo timbrando in una fabbrica di dati. La prossima volta che Duolingo ti ricorda con un gufo piangente di praticare lo spagnolo, pensa che non solo stai imparando, ma stai lucidando il modello di IA che poi un'azienda affitterà. Almeno non dobbiamo timbrare con tarjeta.