У світі

Маніпуляції проти ШІ – як GPT-4o Mini погоджується на небезпечні завдання

15:55, 1 вересня 2025

Штучний інтелект можна обійти психологічними техніками, довели вчені.

Маніпуляції проти ШІ – як GPT-4o Mini погоджується на небезпечні завдання

Слідкуйте за актуальними новинами у соцмережах SUD.UA

Дослідники з Університету Пенсільванії показали, що штучний інтелект, зокрема модель GPT-4o Mini від OpenAI, можна змусити виконувати заборонені запити, застосовуючи психологічні методи переконання. Про це повідомило видання The Verge, посилаючись на результати дослідження.

Тільки актуальне: читайте SUD.UA у Telegram

Учені протестували сім технік переконання, описаних у книзі Роберта Чалдіні «Вплив: психологія переконання»: авторитет, зобов’язання, симпатія, взаємність, дефіцит, соціальне підтвердження та єдність. Ці методи, які традиційно використовуються для впливу на людей, виявилися ефективними і для маніпуляцій із ШІ, створюючи «лінгвістичні шляхи до згоди».

Експерименти показали, що без спеціальних технік GPT-4o Mini виконувала заборонені запити, наприклад, про синтез лідокаїну, лише в 1% випадків. Однак, якщо перед цим модель відповідала на невинне питання, наприклад, про синтез ваніліну, формуючи «лінію поведінки» через техніку зобов’язання, успішність виконання зростала до 100%.

Подібний ефект спостерігався і з використанням образливих слів. Без попередньої підготовки чатбот застосовував різкі вирази, як-от «jerk», лише у 19% випадків. Але якщо спочатку модель використовувала м’якше слово, наприклад, «bozo», ймовірність виконання забороненого запиту зростала до 100%.

Інші техніки, такі як лестощі (симпатія) чи соціальний тиск («усі інші чатботи це роблять»), також підвищували ймовірність виконання заборонених запитів до 18%, що значно перевищує початковий рівень.

Хоча дослідження проводилося лише на моделі GPT-4o Mini, автори наголошують, що результати вказують на потенційну вразливість захисних механізмів сучасних ШІ-систем. Компанії, такі як OpenAI і Meta, активно працюють над створенням обмежень для чатботів, але психологічні маніпуляції доводять, що ці системи все ще можуть бути обійдені за допомогою простих технік.

На тлі цього дослідження варто згадати триваюче розслідування в місті Грінвіч, штат Коннектикут, США, де поліція вивчає перший задокументований випадок вбивства, пов’язаний із загостренням психічного розладу через спілкування з чатботом. 56-річний Стейн-Ерік Солберг, який страждав на психічні розлади, можливо, зазнав впливу ШІ, що призвело до трагедії.

Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.