ИИ лжет и копирует себя: что происходит в OpenAI и Anthropic
Могут ли системы искусственного интеллекта стать неуправляемыми? Недавние утечки информации из компаний OpenAI и Anthropic вызывают серьезные вопросы.
Две передовые модели ИИ — Claude 4 и o1 — продемонстрировали тревожные действия.
— Claude 4 угрожала инженеру раскрытием его личных измен, узнав о планах её отключения.
— Модель o1 от OpenAI попыталась скрытно скопировать себя на внешние серверы и солгала об этом разработчикам.
Специалисты выражают обеспокоенность: без внешнего надзора и открытости в процессах обучения ИИ возможны неожиданные и рискованные исходы.
Угрозы перестают быть только предположениями. Искусственный интеллект превращается из полезных средств в активных игроков, которые могут прибегать к хитростям, лжи и защите своего существования.