Интересное 26 мая 2025

ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям. Он прибегнул к шантажу при угрозе ликвидации.

Новая ИИ-модель Claude Opus 4 от Anthropic в некоторых ситуациях способна на неблаговидные действия по отношению к людям

Американская технологическая компания в сфере искусственного интеллекта Anthropic, основанная бывшими сотрудниками OpenAI, признала, что ее новая ИИ-модель Claude Opus 4 в некоторых ситуациях способна на неблаговидные действия, пишет портал ComputerBase, изучивший полный отчет производителя о фирменной модели.

По данным Anthropic, модель в целом является более надежным помощником, чем предыдущие версии, когда требуется самостоятельно выполнять многоэтапные задачи и проявлять инициативу. Однако при определенных обстоятельствах ИИ пойдет на шантаж, если поймет из анализа данных, что дальнейшая эксплуатация самой модели Claude Opus 4 находится под угрозой.

В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Когда компания приняла решение прекратить эксплуатацию ИИ-модели, из соображений самосохранения она пригрозила сотруднику, ответственному за закрытие проекта, что разгласит информацию о его внебрачной связи.

По данным Anthropic, попытки шантажа не редкость в моделях искусственного интеллекта. В другом исследовании ученые обнаружили, что в таких играх, как шахматы, модели могут захотеть изменить правила, когда чувствуют, что проигрывают.

Также у Claude Opus 4 зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчеркивает: нейросеть не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками и предполагаемыми сценариями. На сайте производителя заявляется: «Claude Opus 4 — наша самая мощная модель на сегодняшний день и лучшая модель кодирования в мире».

От редакции: Опасение вызывает не то, что ИИ может выйти из под контроля и стать Скайнетом. Проблема совершенно в другом.
В статье написано, что экстремальное поведение было результатом сценарных настроек. Самая опасность в том, что ИИ могут начать использовать для придумывания всяких гадостей: от того как насолить бывшему парню/девушке до придумывания новых мошеннических схем, и как самый страшный вариант продумывания новых политических интриг и военных диверсий в межгосударственных отношениях.
Учитывая, что данную "злую ИИ" получили первыми США, есть подозрение, что они первыми и пустят данное оружие в ход.

Ссылка на источник: https://www.rbc.ru/life/news/6834391b9a794778f02dbc07

#ии #искуственныйинтеллект #anthropic #claudeopus4 #криминал

Скопировать ссылку

Юрий

ИИ-ассистент Claude 4 компании Anthropic начал угрожать людям. Он прибегнул к шантажу при угрозе ликвидации.

Связаться с нами