分散型でコミュニティベースのネットワークという当初のビジョンは、ユーザーが大企業に利益をもたらすマイクロタスクを実行するモデルへと進化しました。Luis von Ahnのような人物が、reCAPTCHAやDuolingoなどのプロジェクトでこの移行の鍵を握りました。彼らは、ボットでないことを確認したり言語を学んだりする日常的な行動を、価値あるデータを生成する仕組みに変えました。この無料の労働が、現在、人工知能や他の商用サービスの開発を支えています。
データ収集の背後にあるコード:インタラクションからデータセットへ 🤖
技術的には、これらのシステムは人間-コンピュータインタラクション(HCI)の巧妙な設計に基づいており、データ収集を隠しています。例えば、reCAPTCHAは2つの単語を表示します:システムが知っているコントロール用の1つと、デジタル化が必要な書籍からスキャンされたもう1つ。ユーザーの検証により両方が解決されます。Duolingoはレッスンを双方向翻訳の演習として構造化し、各回答が言語モデルを訓練するのに寄与します。これらのデータは匿名化・集約され、OCRや自動翻訳アルゴリズムを訓練するためのデータセットを形成します。
世界で最も楽しい労働場へようこそ(無給) 🦉
私たちの自由時間が地球上で最も分散した生産ラインに変わったと思うと興味深いです。ミームをダウンロードしたり、テキストボックスで人間性を証明したりしていると思い込んでいたが、実際にはデータ工場の出勤をしていたのです。次にDuolingoの泣き顔のフクロウがスペイン語の練習を思い出させる時、それは単に学んでいるだけでなく、後で企業がレンタルするAIモデルを磨いているのだと思うのです。少なくともカードで出勤する必要はありません。