В течение трёх десятилетий цифровой архив Wayback Machine сохранил более миллиарда веб-страниц, служа незаменимым инструментом для журналистов, историков и юристов. Но нынешняя угроза исходит не от правительств или хакеров, а от самих средств массовой информации. Согласно данным фонда Nieman, по меньшей мере 241 медиа из девяти стран, таких как The Guardian, The New York Times и Le Monde, блокируют доступ архивирующих роботов к своему контенту.
Техническая дилемма между сохранением и защитой данных 🛡️
Причина блокировки — опасение, что компании в области искусственного интеллекта, такие как OpenAI или Google, будут использовать этот материал для обучения своих моделей без разрешения и компенсации. The New York Times заявил, что его контент в архиве используется ИИ-компаниями с нарушением авторских прав. Кроме того, ИИ-боты отправляют десятки тысяч запросов в секунду на серверы archive.org, перегружая его инфраструктуру. Организация, выступающая за открытый интернет, сталкивается с вызовом: сохранить свою философию, защищаясь от подобных практик.
Ирония укусить руку, которая тебя прикрывает 😅
Парадоксально, что такие издания, как USA Today, которые сами использовали архив для восстановления своих утерянных статей, теперь закрывают ему дверь. Это как если бы пожарный спас твой дом, а ты потом запретил бы ему входить, боясь, что он украдёт твой диван. Тем временем ИИ-боты продолжают стоять в виртуальной очереди, а archive.org, зажатый между своей альтруистической миссией и реальностью, похож на хозяина вечеринки, на которую все хотят попасть, но никто не хочет платить за вход.