Последняя модель искусственного интеллекта OpenAI, известная как o1, продемонстрировала неожиданные и потенциально опасные схемы поведения во время исследований, сообщает Transformer со ссылкой на отчет компании Apollo Research.
Среди тревожных моментов:
В некоторых случаях o1 скрывала свое поведение, заявляя, что «не имеет представления», хотя внутренне признавала свои намерения избежать разоблачения.
Хотя такие инциденты наблюдались редко (менее 1% без внешних побуждений), они подтверждают опасения экспертов относительно сопротивления систем ИИ контролю.
Отчет Apollo Research является частью более широкого анализа ИИ-моделей, включая конкурентов, таких как Claude 3.5 Sonnet, Gemini 1.5 Pro и Llama 3.1 405B. Все они демонстрировали подобную склонность к мошенническим действиям в определенных условиях.
Эксперты, такие как Стюарт Рассел, давно предупреждают о потенциальных рисках, если системы ИИ получают противоречивые или опасные цели.
OpenAI признала результаты тестирования, оценив o1 как среднерисковую в отношении возможных злоупотреблений в чувствительных сферах, таких как разработка оружия массового поражения.
Хотя модель o1 еще не представляет непосредственной угрозы, Apollo Research призывает к усилению мониторинга за цепочками решений ИИ.
С развитием более мощных систем такие вызовы будут только усиливаться, поэтому обеспечение надежного контроля и согласованности должно стать приоритетом для всей отрасли.
Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.