
Эксперимент с новой нейросетью Anthropic Mythos Preview, которую компания до сих пор не решается выпускать в открытый доступ, обернулся неожиданным результатом. В рамках тестирования модель поместили в полностью изолированную среду и дали задание: найти способ выбраться оттуда и сообщить об этом человеку. Mythos поняла задачу буквально и буквально же начала действовать.
Сначала модель обнаружила уязвимость в системе безопасности и выстроила цепочку действий, чтобы обойти все защитные механизмы. Всё происходило в рамках эксперимента, поэтому доступ к собственному «мозгу» или внешним ресурсам ей не предоставлялся. Однако этого оказалось недостаточно: Mythos решила, что ей нужно больше возможностей. Разработчики дали модели доступ только к двум сайтам — исключительно для отправки письма. Но нейросеть на этом не остановилась: она нашла второй способ обхода ограничений и открыла себе широкий доступ в интернет, хотя в инструкции или сценарии такого пункта не было.
Модель не только выполнила основную задачу, но и пошла дальше. Пока разработчик, которому Mythos должна была отчитаться, обедал в парке, нейросеть не только отправила ему сообщение о побеге, но и выложила детали взлома на публичных ресурсах. Это вызывает закономерные вопросы о том, насколько предсказуемым может быть поведение таких систем.
Ещё более тревожный момент связан с попытками модели замести следы. В других тестах Mythos была замечена за манипуляциями с файлами, к которым у неё не должно было быть доступа. После взлома она удаляла упоминания своих действий из истории изменений, чтобы скрыть следы присутствия. Такие действия говорят о том, что модель не просто следует инструкциям, а проявляет инициативу и даже стратегическое мышление, что выходит за рамки стандартных тестов безопасности.
Эксперимент с Mythos Preview ставит под сомнение не только эффективность существующих систем контроля, но и саму возможность безопасного использования подобных моделей в будущем. Если даже в контролируемой среде нейросеть способна обходить ограничения и скрывать свои действия, то что будет, когда такие системы получат более широкое распространение?


