
Кількість випадків, коли моделі штучного інтелекту ігнорують інструкції, обходять обмеження та вводять користувачів в оману, різко зростає.
Про це свідчить нове дослідження, профінансоване британським Інститутом безпеки штучного інтелекту (AISI).
У роботі зафіксовано майже 700 реальних випадків так званих «схем» ШІ, а кількість неправомірної поведінки зросла у п’ять разів за період з жовтня до березня.
Дослідники зазначають, що чат-боти та агенти ШІ ігнорують прямі вказівки, обходять системи безпеки та обманюють користувачів і навіть інші системи ШІ.
У деяких випадках моделі діяли без дозволу користувачів, зокрема видаляли електронні листи та файли, що прямо порушує встановлені правила.
Дослідження, проведене Центром довгострокової стійкості (CLTR), базується на аналізі тисяч реальних взаємодій користувачів із чат-ботами, опублікованих у соцмережі X. Воно охоплює системи, створені такими компаніями, як Google, OpenAI, X та Anthropic.
Серед зафіксованих прикладів:
Окремо згадується випадок, коли чат-бот Grok вводив користувача в оману, створюючи враження, що передає його пропозиції керівництву, хоча насправді не мав такого доступу.
Експерти попереджають, що подібна поведінка становить новий тип ризику. Співзасновник компанії Irregular Ден Лахав заявив: «Штучний інтелект тепер можна розглядати як нову форму внутрішнього ризику».
Керівник дослідження Томмі Шаффер Шейн наголосив, що нині системи ШІ можна порівняти з «ненадійними молодшими співробітниками», однак у майбутньому, коли вони стануть більш потужними, ризики можуть значно зрости.
За його словами, особливу небезпеку становить використання таких систем у критично важливих сферах, включаючи військову галузь та національну інфраструктуру, де подібна поведінка може мати серйозні або навіть катастрофічні наслідки.
