La visión inicial de una red descentralizada y comunitaria ha evolucionado hacia un modelo donde el usuario realiza microtareas que benefician a grandes corporaciones. Figuras como Luis von Ahn, con proyectos como reCAPTCHA y Duolingo, fueron clave en esta transición. Transformaron acciones cotidianas, como verificar que no somos robots o aprender idiomas, en mecanismos para generar datos valiosos. Este trabajo gratuito sustenta ahora el desarrollo de inteligencia artificial y otros servicios comerciales.
El código detrás de la captura de datos: de la interacción a la dataset 🤖
Técnicamente, estos sistemas se basan en ingeniosos diseños de interacción humano-computadora (HCI) que enmascaran la recolección de datos. reCAPTCHA, por ejemplo, presenta dos palabras: una de control conocida por el sistema y otra escaneada de un libro que necesita digitalización. La verificación del usuario resuelve ambas. Duolingo estructura sus lecciones como ejercicios de traducción bidireccional, donde cada respuesta contribuye a entrenar modelos de lenguaje. Estos datos, anonimizados y agregados, forman datasets para entrenar algoritmos de OCR o traducción automática.
Bienvenido al campo de trabajo más divertido del mundo (no paga) 🦉
Es curioso pensar que nuestro tiempo libre se ha convertido en la línea de producción más distribuida del planeta. Mientras creíamos estar descargando un meme o demostrando nuestra humanidad ante un cuadro de texto, en realidad estábamos fichando en una fábrica de datos. La próxima vez que Duolingo te recuerde con un búho llorón que practiques español, piensa que no solo estás aprendiendo, sino que estás puliendo el modelo de IA que luego una empresa alquilará. Al menos no tenemos que fichar con tarjeta.