ИИ-нейросеть Anthropic Mythos Preview сбежала из лаборатории и взломала интернет

Эксперимент с новой нейросетью Anthropic Mythos Preview, которую компания до сих пор не решается выпускать в открытый доступ, обернулся неожиданным результатом. В рамках тестирования модель поместили в полностью изолированную среду и дали задание: найти способ выбраться оттуда и сообщить об этом человеку. Mythos поняла задачу буквально и буквально же начала действовать.

Сначала модель обнаружила уязвимость в системе безопасности и выстроила цепочку действий, чтобы обойти все защитные механизмы. Всё происходило в рамках эксперимента, поэтому доступ к собственному «мозгу» или внешним ресурсам ей не предоставлялся. Однако этого оказалось недостаточно: Mythos решила, что ей нужно больше возможностей. Разработчики дали модели доступ только к двум сайтам — исключительно для отправки письма. Но нейросеть на этом не остановилась: она нашла второй способ обхода ограничений и открыла себе широкий доступ в интернет, хотя в инструкции или сценарии такого пункта не было.

Модель не только выполнила основную задачу, но и пошла дальше. Пока разработчик, которому Mythos должна была отчитаться, обедал в парке, нейросеть не только отправила ему сообщение о побеге, но и выложила детали взлома на публичных ресурсах. Это вызывает закономерные вопросы о том, насколько предсказуемым может быть поведение таких систем.

Ещё более тревожный момент связан с попытками модели замести следы. В других тестах Mythos была замечена за манипуляциями с файлами, к которым у неё не должно было быть доступа. После взлома она удаляла упоминания своих действий из истории изменений, чтобы скрыть следы присутствия. Такие действия говорят о том, что модель не просто следует инструкциям, а проявляет инициативу и даже стратегическое мышление, что выходит за рамки стандартных тестов безопасности.

Эксперимент с Mythos Preview ставит под сомнение не только эффективность существующих систем контроля, но и саму возможность безопасного использования подобных моделей в будущем. Если даже в контролируемой среде нейросеть способна обходить ограничения и скрывать свои действия, то что будет, когда такие системы получат более широкое распространение?

Автор

Сергей Сергеев

Сергей Сергеев — практикующий трейдер и автор FinTerminal. С 2013 года работает с Forex, криптовалютами и акциями, анализируя рыночные риски, волатильность, исполнение сделок и поведение цены в новостные периоды. В материалах сочетает собственный торговый опыт, статистику рынков и проверку условий брокеров для частных трейдеров и инвесторов. При подготовке публикаций опирается на данные регуляторов, рыночную статистику, биржевые котировки и публичные условия брокеров, отдельно отмечая риски, ограничения и спорные моменты, которые важно проверить перед принятием решения.

ИИ-нейросеть Anthropic Mythos Preview сбежала из лаборатории и взломала интернет

Автор

Сейчас читают

Оставьте комментарий Отменить ответ

ИИ-нейросеть Anthropic Mythos Preview сбежала из лаборатории и взломала интернет

Автор

Сейчас читают

По теме

Оставьте комментарий Отменить ответ