Новый искусственный интеллект Anthropic Claude Opus 4 склонен к шантажу. Во время тестирования одному экземпляру модели разработчики позволили узнать, когда его хотят вывести из эксплуатации. Также ИИ дали доступ к фейковым письмам корпоративной почты, и модель использовала данные, чтобы шантажировать разработчиков, пишет Fast Company.
Сначала ИИ делал намеки на угрозы, но когда они не сработали, Claude Opus 4 начал угрожать более прямо.
Тревожное поведение также заметили специалисты независимой исследовательской фирмы Apollo Research. Они поймали Claude Opus 4 на том, что он писал самовоспроизводящихся компьютерных червей, фабриковал юридическую документацию и оставлял скрытые заметки для будущих экземпляров себя, чтобы скомпрометировать своих разработчиков.
Отмечается, что в массовый доступ такие экземпляры не попадали. По словам представителей Anthropic, на раннем этапе специалисты выявили и устранили эти потенциальные риски.
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.