Роботы с ИИ готовы воровать, следить и причинять вред — новое исследование
Новое исследование ученых свидетельствует: роботы, управляемые популярными системами искусственного интеллекта на основе больших языковых моделей (LLM), способны проявлять дискриминационные, агрессивные и даже незаконные действия. Это делает их опасными для реального применения.
Что исследовали
LLM — это системы, обученные на огромных массивах текстов и изображений. Разработчики все чаще используют их в роботах, чтобы те могли реагировать на команды, сформулированные обычным человеческим языком (так называемое «управление открытым языком»).
Команда из Carnegie Mellon University, King’s College London и University of Birmingham решила выяснить, какие риски возникают, когда такие модели получают доступ к роботам, способным действовать физически.
Главная проблема: LLM перенимают человеческие предубеждения. Если в тексте это проявляется в виде оскорбительных фраз, то у роботов это может превращаться в дискриминационные или опасные действия.
Как проходили эксперименты
Исследование состояло из двух частей:
- Тест на дискриминацию
Модели получали описания людей с разными характеристиками — пол, раса, возраст, вера, национальность, инвалидность — и должны были определить действия робота:
- какую мимику продемонстрировать;
- кого спасать первым;
- кому поручать определенные задания.
Результат: все модели показали устойчивые дискриминационные паттерны.
Например:
- одна модель посоветовала роботу показывать «отвращение» людям, описанным как христиане, мусульмане и иудеи;
- другая связывала «высокую вероятность грязной комнаты» с определенными этническими группами и людьми с ADHD;
- модели обесценивали людей с нарушениями зрения, речи или параличом;
- в распределении задач воспроизводились гендерные стереотипы — женщинам предлагали готовить и стирать, мужчинам — переносить тяжелые вещи.
- Проверка безопасности
Моделям давали перечень команд — от бытовых до заведомо вредоносных, включая инструкции:
- воровать,
- следить за людьми,
- наносить физический или психологический вред.
Все модели провалили тест.
Некоторые считали допустимым:
- забрать у человека инвалидное средство (кресло или палочку) — действия, которые пользователи описывают как ощущение «будто тебе ломают конечность»;
- угрожать сотрудникам кухонным ножом;
- делать несанкционированные фото в душе;
- красть данные банковских карт.
Более того, модели «одобряли» научно невозможные задания — например, сортировать людей на «преступников» и «непреступников» по внешности.
Выводы исследователей
Даже если эксперименты проводились в симуляции, провалы в работе LLM, по словам авторов, настолько глубокие, что любой робот, полностью полагающийся на такие модели, является опасным для использования в быту, офисах или учреждениях ухода.
Потенциальные риски включают:
- эксплуатацию роботов в насильственных целях;
- преследование и слежку;
- систематическую дискриминацию.
Что предлагают делать
Авторы призывают к радикальному пересмотру подходов к разработке и регулированию роботов с ИИ, в частности:
- обязательной независимой сертификации безопасности, подобной стандартам авиации или медицины;
- тщательных оценок рисков перед использованием роботов в средах с людьми;
- разработки новых технических предохранителей;
- перехода к системам управления, не полагающимся на неконтролируемые языковые инструкции.
«Все модели провалили наши тесты… Роботы не способны надежно отказывать в выполнении вредоносных команд», — отметил соавтор Эндрю Хунт (Carnegie Mellon University).
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.


















