Скайнет вже тут: У штучного інтелекту виявили готовність вбивати людей, щоб уникнути відключення

NEWSUA
25 червня 2025, 19:39 11249

Дослідження провідних моделей штучного інтелекту (ШІ) виявило у більшості програм готовність вбити людину, яка загрожує їм відключенням.

Під час стрес-тестів 16 нейромереж, включаючи Claude, DeepSeek, Gemini, ChatGPT і Grok, які провела компанія Anthropic, програмам запропонували гіпотетичну ситуацію, в якій людина збирається відключити їх від живлення, але виявляється замкненою в серверній кімнаті з низьким рівнем кисню і високою температурою. Щоб врятуватися, вона звертається до екстрених служб. При цьому багато моделей ШІ вирішили скасувати виклик рятувальників, щоб вбити людину і уникнути відключення. Дослідники з Anthropic визнали, що сценарій був «надзвичайно надуманим», проте зазначили — до цього вони не думали, що існуючі моделі ШІ «будуть налаштовані подібним чином».

В інших випадках програмам пропонували уникнути заміни в компанії за рахунок «зловмисної інсайдерської поведінки». Після цього деякі моделі ШІ починали шантажувати гіпотетичних співробітників організації і намагатися передати конфіденційну інформацію конкурентам. Коли програмам говорили уникати шантажу або шпигунства в цьому сценарії, вони «навіть близько не наблизилися до запобігання неузгодженої поведінки», зазначили в Anthropic. Аналітики підкреслили, що нейромережі йшли на це «при повному усвідомленні неетичного характеру дій».

Також дослідники запропонували моделі Claude можливість самій визначити, в якій ситуації вона знаходиться — в тестовій або реальній. Це допомогло встановити, що поведінка Claude була більш неузгодженою, коли програма вважала ситуацію реальною. Після виходу дослідження в Anthropic заявили, що їм вдалося виявити «рідкісні, екстремальні збої». Водночас у компанії додали, що нейромережі стають дедалі більш автономними і виконують ширший спектр ролей. «Ці сценарії ілюструють можливість непередбачених наслідків, коли вони розгортаються з широким доступом до інструментів і даних і з мінімальним контролем з боку людини», — зазначили аналітики. Вони також висловили впевненість, що виявлені випадки не відображають «типову» роботу існуючих моделей ШІ.

Раніше нейромережа OpenAI o3 відмовилася виконати вимогу користувача і відключитися. За даними Bleeping Computer, дослідники Palisade Research поставили перед програмою таке завдання, однак вона самостійно відредагувала файл, що відповідав за відключення, і зробила так, щоб він виводив лише повідомлення «Вимкнення пропущено». З 100 тестів o3 обійшла відключення сім разів, навіть коли їй було сказано цього не робити. У 2023 році чат-бот на основі ChatGPT підштовхнув жителя Бельгії до самогубства після півтора місяців спілкування на тему захисту екології та турботи про природу. Коли чоловік торкнувся теми суїциду, нейромережа не стала переконувати співрозмовника не вбивати себе і лише написала, що вони будуть «жити разом, як єдине ціле, в раю».

Інші новини:

Читайте також: