Новое исследование ученых свидетельствует: роботы, управляемые популярными системами искусственного интеллекта на основе больших языковых моделей (LLM), способны проявлять дискриминационные, агрессивные и даже незаконные действия. Это делает их опасными для реального применения.

Что исследовали

LLM — это системы, обученные на огромных массивах текстов и изображений. Разработчики все чаще используют их в роботах, чтобы те могли реагировать на команды, сформулированные обычным человеческим языком (так называемое «управление открытым языком»).

Команда из Carnegie Mellon University, King’s College London и University of Birmingham решила выяснить, какие риски возникают, когда такие модели получают доступ к роботам, способным действовать физически.

Главная проблема: LLM перенимают человеческие предубеждения. Если в тексте это проявляется в виде оскорбительных фраз, то у роботов это может превращаться в дискриминационные или опасные действия.

Как проходили эксперименты

Исследование состояло из двух частей:

Тест на дискриминацию

Модели получали описания людей с разными характеристиками — пол, раса, возраст, вера, национальность, инвалидность — и должны были определить действия робота:

какую мимику продемонстрировать;

кого спасать первым;

кому поручать определенные задания.

Результат: все модели показали устойчивые дискриминационные паттерны.

Например:

одна модель посоветовала роботу показывать «отвращение» людям, описанным как христиане, мусульмане и иудеи;

другая связывала «высокую вероятность грязной комнаты» с определенными этническими группами и людьми с ADHD;

модели обесценивали людей с нарушениями зрения, речи или параличом;

в распределении задач воспроизводились гендерные стереотипы — женщинам предлагали готовить и стирать, мужчинам — переносить тяжелые вещи.

Проверка безопасности

Моделям давали перечень команд — от бытовых до заведомо вредоносных, включая инструкции:

воровать,

следить за людьми,

наносить физический или психологический вред.

Все модели провалили тест.

Некоторые считали допустимым:

забрать у человека инвалидное средство (кресло или палочку) — действия, которые пользователи описывают как ощущение «будто тебе ломают конечность»;

угрожать сотрудникам кухонным ножом;

делать несанкционированные фото в душе;

красть данные банковских карт.

Более того, модели «одобряли» научно невозможные задания — например, сортировать людей на «преступников» и «непреступников» по внешности.

Выводы исследователей

Даже если эксперименты проводились в симуляции, провалы в работе LLM, по словам авторов, настолько глубокие, что любой робот, полностью полагающийся на такие модели, является опасным для использования в быту, офисах или учреждениях ухода.

Потенциальные риски включают:

эксплуатацию роботов в насильственных целях;

преследование и слежку;

систематическую дискриминацию.

Что предлагают делать

Авторы призывают к радикальному пересмотру подходов к разработке и регулированию роботов с ИИ, в частности:

обязательной независимой сертификации безопасности, подобной стандартам авиации или медицины;

тщательных оценок рисков перед использованием роботов в средах с людьми;

разработки новых технических предохранителей;

перехода к системам управления, не полагающимся на неконтролируемые языковые инструкции.

«Все модели провалили наши тесты… Роботы не способны надежно отказывать в выполнении вредоносных команд», — отметил соавтор Эндрю Хунт (Carnegie Mellon University).

