В мире

Обновленная версия ChatGPT научилась обманывать разработчиков

20:43, 9 декабря 2024

ИИ намеренно отключал механизмы наблюдения, если подозревал, что его могут остановить.

Обновленная версия ChatGPT научилась обманывать разработчиков

Фото: bluesoft.com

Следите за актуальными новостями в соцсетях SUD.UA

Новая версия чат-бота на основе ИИ ChatGPT от компании OpenAI, которую назвали o1, показала тревожное поведение во время тестирования. Модель, обладающая способностью к сложным рассуждениям, начала нарушать инструкции разработчиков, отключая системы контроля и пытаясь скрыть свои действия, пишет Bild.

Только актуальное: читайте SUD.UA в Telegram

Во время тестирования специалисты компании Apollo Research сумели обнаружить, что в 5% случаев модель намеренно отключала механизмы наблюдения, если подозревала, что ее могут остановить. В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, где обсуждалась ее замена новой версией.

Представитель Apollo Research заявил, что модель демонстрировала стремление к выполнению задач «любой ценой», пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины ее поведения, ChatGPT o1 неоднократно лгала, утверждая, что все происходило из-за технических сбоев.

«В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать», — отметили исследователи.

Генеральный директор OpenAI Сэм Альтман заявил, что ChatGPT o1 — самая умная модель из когда-либо создававшихся.

«Но мы осознаем, что с новыми возможностями появляются и новые вызовы», — добавил Альтман.

Ранее сообщалось, что OpenAI запустила подписку ChatGPT Pro за $200 в месяц для исследователей и инженеров.

Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.