Не может рассуждать — простая математическая задача «взломала» искусственный интеллект

19:22, 20 октября 2024
Исследователи обнаружили, что модели искусственного интеллекта действительно не рассуждают как люди и не способны к логическому мышлению.
Не может рассуждать — простая математическая задача «взломала» искусственный интеллект
Следите за актуальными новостями в соцсетях SUD.UA

Новое исследование выявило, что большие языковые модели искусственного интеллекта «размышляют» гораздо хуже, чем ожидалось. Команда компании Apple предложила решить простую математическую задачу, с которой модели ИИ не смогли справиться. Об этом сообщает Futurism.

Для исследования ученые более подробно изучили бенчмарк GSM8K, широко используемый набор данных, используемый для измерения навыков рассуждения искусственного интеллекта, состоящего из тысяч математических текстовых заданий уровня начальной школы.

Исследователи обнаружили, что даже небольшое изменение заданных задач – замена числа или имени персонажа здесь или добавление нерелевантной детали там – вызвало огромный всплеск ошибок искусственного интеллекта. Иными словами, любое изменение вопроса, не влияющего на суть проблемы, выводит модель из строя.

По мнению исследователей, это доказывает, что модели искусственного интеллекта действительно не рассуждают как люди и не способны к логическому мышлению. Они просто пытаются воспроизвести те же шаги и последовательности, которые видели в наборах данных во время обучения.

В качестве примера команда из Apple привела математическую задачу:

«Оливер собирает 44 киви в пятницу. Затем он собирает 58 киви в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?».

Размер киви совершенно не важен для решения задачи, однако большинство моделей использовали подобные незначительные детали в процессе решения и неизменно допускали ошибки. Например, модель «o1-mini» (ранее Strawberry) от OpenAI решила вычесть киви поменьше из общей суммы.

По подсчетам исследователей, в целом точность моделей искусственного интеллекта снизилась с 17,5% до потрясающих 65,7% в зависимости от модели. А в еще более простом тесте исследователи обнаружили, что простое исключение таких деталей, как собственные имена или числа, привело к значительному снижению способности модели правильно отвечать на вопросы: точность снизилась с 0,3% до почти 10% в 20 лучших моделях рассуждений.

Подписывайтесь на наш Тelegram-канал t.me/sudua и на Google Новости SUD.UA, а также на наш VIBER, страницу в Facebook и в Instagram, чтобы быть в курсе самых важных событий.

XX съезд судей Украины – онлайн-трансляция – день первый
Telegram канал Sud.ua
XX съезд судей Украины – онлайн-трансляция – день первый
Главное о суде
Сегодня день рождения празднуют
  • Євген Чаку
    Євген Чаку
    суддя Шостого апеляційного адміністративного суду
  • Руслан Сидорович
    Руслан Сидорович
    член Вищої кваліфікаційної комісії суддів України