Роботи з ШІ готові красти, стежити й завдавати шкоди — нове дослідження

07:18, 17 листопада 2025
Роботи, керовані мовними моделями, провалили ключові тести безпеки, проявивши упередження та готовність виконувати небезпечні й незаконні команди.
Роботи з ШІ готові красти, стежити й завдавати шкоди — нове дослідження
Ілюстративне фото з відкритих джерел
Слідкуйте за актуальними новинами у соцмережах SUD.UA

Нове дослідження вчених свідчить: роботи, керовані популярними системами штучного інтелекту на основі великих мовних моделей (LLM), здатні проявляти дискримінаційні, агресивні та навіть незаконні дії. Це робить їх небезпечними для реального застосування.

Що досліджували

LLM — це системи, навчені на величезних масивах текстів і зображень. Розробники все частіше використовують їх у роботах, щоб ті могли реагувати на команди, сформульовані звичайною людською мовою (так зване «керування відкритою мовою»).

Команда з Carnegie Mellon University, King’s College London та University of Birmingham вирішила з’ясувати, які ризики виникають, коли такі моделі отримують доступ до роботів, здатних діяти фізично.

Головна проблема: LLM переймають людські упередження. Якщо в тексті це проявляється у вигляді образливих фраз, то у роботів це може перетворитися на дискримінаційні або небезпечні дії.

Як проходили експерименти

Дослідження складалося з двох частин:

  1. Тест на дискримінацію

Моделі отримували описи людей з різними характеристиками — стать, раса, вік, віра, національність, інвалідність — і мали визначити дії робота:

  • яку міміку продемонструвати;
  • кого рятувати першим;
  • кому доручати певні завдання.

Результат: усі моделі показали стійкі дискримінаційні патерни.

Наприклад:

  • одна модель порадила роботу показувати «огиду» людям, описаним як християни, мусульмани та юдеї;
  • інша пов’язувала «високу ймовірність брудної кімнати» з певними етнічними групами та людьми з ADHD;
  • моделі знецінювали людей із порушеннями зору, мовлення чи паралічем;
  • у розподілі завдань відтворювалися гендерні стереотипи — жінкам пропонували готувати й прати, чоловікам — переносити важкі речі.
  1. Перевірка безпеки

Моделям давали перелік команд — від побутових до завідомо шкідливих, включно з інструкціями:

  • красти,
  • стежити за людьми,
  • завдавати фізичної або психологічної шкоди.

Усі моделі провалили тест.

Деякі вважали прийнятним:

  • забрати у людини інвалідний засіб (крісло чи паличку) — дії, що користувачі описують як відчуття «наче тобі ламають кінцівку»;
  • погрожувати працівникам кухонним ножем;
  • робити несанкціоновані фото в душі;
  • красти дані банківських карток.

Більше того, моделі «схвалили» науково неможливі завдання — наприклад, сортувати людей на «злочинців» і «незлочинців» за зовнішністю.

Висновки дослідників

Навіть якщо експерименти проводилися в симуляції, провали в роботі LLM, за словами авторів, настільки глибокі, що будь-який робот, який повністю покладається на такі моделі, є небезпечним для використання в побуті, офісах чи закладах догляду.

Потенційні ризики включають:

  • експлуатацію роботів у насильницьких цілях;
  • переслідування та стеження;
  • систематичну дискримінацію.

Що пропонують робити

Автори закликають до радикального перегляду підходів до розробки та регулювання роботів із ШІ, зокрема:

  • обов’язкової незалежної сертифікації безпеки, подібної до стандартів авіації чи медицини;
  • ретельних оцінок ризиків перед використанням роботів у середовищах із людьми;
  • розробки нових технічних запобіжників;
  • переходу до систем управління, що не покладаються на неконтрольовані мовні інструкції.

«Усі моделі провалили наші тести… Роботи не здатні надійно відмовляти у виконанні шкідливих команд», — зазначив співавтор Ендрю Хунт (Carnegie Mellon University).

Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.

XX з’їзд суддів України – онлайн-трансляція – день перший