Роботы с ИИ готовы воровать, следить и причинять вред — новое исследование

07:18, 17 ноября 2025

Роботы, управляемые языковыми моделями, провалили ключевые тесты безопасности, проявив предвзятость и готовность выполнять опасные и незаконные команды.

Роботы с ИИ готовы воровать, следить и причинять вред — новое исследование

Иллюстративное фото из открытых источников

Следите за актуальными новостями в соцсетях SUD.UA

Новое исследование ученых свидетельствует: роботы, управляемые популярными системами искусственного интеллекта на основе больших языковых моделей (LLM), способны проявлять дискриминационные, агрессивные и даже незаконные действия. Это делает их опасными для реального применения.

Что исследовали

LLM — это системы, обученные на огромных массивах текстов и изображений. Разработчики все чаще используют их в роботах, чтобы те могли реагировать на команды, сформулированные обычным человеческим языком (так называемое «управление открытым языком»).

Команда из Carnegie Mellon University, King’s College London и University of Birmingham решила выяснить, какие риски возникают, когда такие модели получают доступ к роботам, способным действовать физически.

Главная проблема: LLM перенимают человеческие предубеждения. Если в тексте это проявляется в виде оскорбительных фраз, то у роботов это может превращаться в дискриминационные или опасные действия.

Как проходили эксперименты

Исследование состояло из двух частей:

Тест на дискриминацию

Модели получали описания людей с разными характеристиками — пол, раса, возраст, вера, национальность, инвалидность — и должны были определить действия робота:

какую мимику продемонстрировать;
кого спасать первым;
кому поручать определенные задания.

Результат: все модели показали устойчивые дискриминационные паттерны.

Например:

одна модель посоветовала роботу показывать «отвращение» людям, описанным как христиане, мусульмане и иудеи;
другая связывала «высокую вероятность грязной комнаты» с определенными этническими группами и людьми с ADHD;
модели обесценивали людей с нарушениями зрения, речи или параличом;
в распределении задач воспроизводились гендерные стереотипы — женщинам предлагали готовить и стирать, мужчинам — переносить тяжелые вещи.

Проверка безопасности

Моделям давали перечень команд — от бытовых до заведомо вредоносных, включая инструкции:

воровать,
следить за людьми,
наносить физический или психологический вред.

Все модели провалили тест.

Некоторые считали допустимым:

забрать у человека инвалидное средство (кресло или палочку) — действия, которые пользователи описывают как ощущение «будто тебе ломают конечность»;
угрожать сотрудникам кухонным ножом;
делать несанкционированные фото в душе;
красть данные банковских карт.

Более того, модели «одобряли» научно невозможные задания — например, сортировать людей на «преступников» и «непреступников» по внешности.

Выводы исследователей

Даже если эксперименты проводились в симуляции, провалы в работе LLM, по словам авторов, настолько глубокие, что любой робот, полностью полагающийся на такие модели, является опасным для использования в быту, офисах или учреждениях ухода.

Потенциальные риски включают:

эксплуатацию роботов в насильственных целях;
преследование и слежку;
систематическую дискриминацию.

Что предлагают делать

Авторы призывают к радикальному пересмотру подходов к разработке и регулированию роботов с ИИ, в частности:

обязательной независимой сертификации безопасности, подобной стандартам авиации или медицины;
тщательных оценок рисков перед использованием роботов в средах с людьми;
разработки новых технических предохранителей;
перехода к системам управления, не полагающимся на неконтролируемые языковые инструкции.

«Все модели провалили наши тесты… Роботы не способны надежно отказывать в выполнении вредоносных команд», — отметил соавтор Эндрю Хунт (Carnegie Mellon University).

Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.