분산화되고 커뮤니티 기반 네트워크라는 초기 비전은 사용자가 대기업에 이익이 되는 미세 작업을 수행하는 모델로 진화했습니다. Luis von Ahn 같은 인물은 reCAPTCHA와 Duolingo 같은 프로젝트를 통해 이 전환의 핵심이 되었습니다. 그들은 로봇이 아니라는 확인이나 언어 학습 같은 일상적인 행동을 가치 있는 데이터를 생성하는 메커니즘으로 변환했습니다. 이 무료 노동은 이제 인공지능 개발과 다른 상업 서비스를 뒷받침합니다.
데이터 캡처 뒤의 코드: 상호작용에서 데이터셋까지 🤖
기술적으로, 이러한 시스템은 인간-컴퓨터 상호작용(HCI)의 독창적인 설계에 기반하며, 데이터 수집을 숨깁니다. 예를 들어 reCAPTCHA는 두 단어를 제시합니다: 시스템이 아는 제어 단어 하나와 디지털화가 필요한 책에서 스캔된 단어 하나입니다. 사용자의 검증이 둘 다 해결합니다. Duolingo는 양방향 번역 연습으로 수업을 구성하며, 각 응답이 언어 모델 훈련에 기여합니다. 이러한 데이터는 익명화되고 집계되어 OCR 또는 자동 번역 알고리즘을 훈련하는 데이터셋을 형성합니다.
세계에서 가장 재미있는 노동 현장(급여 없음)에 오신 것을 환영합니다 🦉
우리 여가 시간이 지구상에서 가장 분산된 생산 라인으로 변했다는 생각이 흥미롭습니다. 밈을 다운로드하거나 텍스트 상자 앞에서 우리의 인간성을 증명한다고 믿는 동안, 실제로는 데이터 공장에 출근하고 있었습니다. 다음에 Duolingo가 울부짖는 부엉이로 스페인어를 연습하라고 상기시킬 때, 단순히 배우는 것이 아니라 나중에 기업이 임대할 AI 모델을 다듬고 있다는 것을 생각해보세요. 적어도 카드로 출근 카드를 찍을 필요는 없습니다.