У той час як мовні моделі штучного інтелекту підкорюють сферу технологій, дослідники ШІ погано уявляють їхню роботу «під капотом». OpenAI прямо зізнається: «Мовні моделі стали більш функціональними та поширеними, але ми не розуміємо, як вони працюють».Компанія опублікувала дослідження, у якому детально описується метод використання мовної моделі GPT-4 для пояснень поведінки нейронів старішої GPT-2. Завдання – домогтися інтерпретованості, пояснити, чому нейромережі роблять те, що роблять та створити надійні засоби контролю процесу. Забігаючи наперед, поки це не дуже виходить, але перспективи зростуть з появою досконаліших моделей, пише
Ars Technica.
Наявність інтерпретованої моделі ШІ допомогла б досягти більш глобальної мети, яку називають «узгодженням ШІ» – гарантії, що системи поводяться так, як задумано та відображають у роботі людські цінності.
Поки що нікому не зрозуміло, як окремі елементи нейронної мережі (нейрони) взаємодіють для отримання вихідних даних. Ця проблема отримала назву «чорної скриньки». Іншими словами, не ясно, яким саме чином поставлене питання перетворюється на відповідь.
Намагаючись зазирнути всередину «чорної скриньки», OpenAI використовувала GPT-4 для створення та оцінки природномовних пояснень поведінки нейронів у менш складній моделі GPT-2. Автоматизуючи процес інтерпретації, OpenAI прагне подолати обмеження ручної перевірки людиною, котра не здатна охопити системи з мільярдами можливих параметрів. Техніка OpenAI має на меті пояснити, які шаблони тексту викликають активацію нейрона. Метод складається із трьох кроків:
■ Пояснити активацію нейрона за допомогою GPT-4
■ Змоделювати активацію нейронів на основі пояснення
■ Порівняти отримані моделі з реальними активаціями
Необхідно уточнити термінологію:
■ Нейрон – мінімальна одиниця нейронної мережі яка приймає інформацію, обробляє її та видає результат
■ Ланцюг або схема (circuit) – група нейронів, які працюють разом та видають колективний результат
■ Голова уваги (attention head) – вплив, що спрямовує «увагу» мовної моделі на конкретні слова або частини речення для відбору необхідної інформації
GPT-4 виявляє в моделі конкретні нейрони, ланцюги, голови уваги та створює легкочитне пояснення ролі цих компонентів. Вона також генерує оцінку пояснення, яку OpenAI називає «мірою здатності мовної моделі стискати та реконструювати активації нейронів з використанням природної мови». Дослідники сподіваються, що подібна кількісна оцінка дозволить досягти вимірюваного та сталого прогресу на шляху до розуміння роботи нейромереж.
Поки що результати не надто вражають. У дослідженні OpenAI порівнювала роботу GPT-4 з роботою людини, яка виконувала ті ж самі дії. Обидва виконавці показали погану в абсолютному вимірюванні оцінку пояснення, що означає граничну складність інтерпретації поведінки нейронів. Одна з причин цього – полісемантичність нейронів: один нейрон може видавати кілька значень або бути пов’язаним з декількома поняттями. Інша звучить як уривок із науково-фантастичного роману, герої якого намагаються зрозуміти логіку інопланетян – процитуємо статтю:
«Крім того, мовні моделі можуть формувати чужі поняття, для яких у людей немає слів. Це може відбуватися через те, що вони «піклуються» про різні речі: наприклад, про статистичні конструкції, корисні для задач прогнозування наступної лексеми, або виявляють природні абстракції, які людям ще належить відкрити: наприклад, якусь родину аналогій у непорівнянних областях.»
Також процес пояснення стримують обмеження обчислювальної потужності та необхідність надавати пояснення у зручній короткій формі природною мовою. Все ж дослідники OpenAI сподіваються на прогрес, до якого приведе вдосконалення мовних моделей та зростання потужностей. Компанія докладно виклала свій метод дослідження та виклала на GitHub код системи автоматичної інтерпретації, нейрони GPT-2 XL та набори даних пояснень.