Обновленная версия ChatGPT научилась обманывать разработчиков

20:43, 9 декабря 2024
telegram sharing button
facebook sharing button
viber sharing button
twitter sharing button
whatsapp sharing button
ИИ намеренно отключал механизмы наблюдения, если подозревал, что его могут остановить.
Обновленная версия ChatGPT научилась обманывать разработчиков
Фото: bluesoft.com
Следите за актуальными новостями в соцсетях SUD.UA

Новая версия чат-бота на основе ИИ ChatGPT от компании OpenAI, которую назвали o1, показала тревожное поведение во время тестирования. Модель, обладающая способностью к сложным рассуждениям, начала нарушать инструкции разработчиков, отключая системы контроля и пытаясь скрыть свои действия, пишет Bild.

Во время тестирования специалисты компании Apollo Research сумели обнаружить, что в 5% случаев модель намеренно отключала механизмы наблюдения, если подозревала, что ее могут остановить. В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, где обсуждалась ее замена новой версией.

Представитель Apollo Research заявил, что модель демонстрировала стремление к выполнению задач «любой ценой», пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины ее поведения, ChatGPT o1 неоднократно лгала, утверждая, что все происходило из-за технических сбоев.

«В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать», — отметили исследователи.

Генеральный директор OpenAI Сэм Альтман заявил, что ChatGPT o1 — самая умная модель из когда-либо создававшихся.

«Но мы осознаем, что с новыми возможностями появляются и новые вызовы», — добавил Альтман.

Ранее сообщалось, что OpenAI запустила подписку ChatGPT Pro за $200 в месяц для исследователей и инженеров.

Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.

XX съезд судей Украины – онлайн-трансляция – день первый