Не може міркувати — проста математична задача «зламала» штучний інтелект

19:22, 20 жовтня 2024

Дослідники виявили, що моделі штучного інтелекту насправді не міркують як люди і не здатні до логічного мислення.

Не може міркувати — проста математична задача «зламала» штучний інтелект

Слідкуйте за актуальними новинами у соцмережах SUD.UA

Нове дослідження виявило, що великі мовні моделі штучного інтелекту «міркують» набагато гірше, ніж очікувалось. Команда компанії Apple запропонувала вирішити просту математичну задачу, з якою моделі ШІ не змогли впоратися. Про це повідомляє Futurism.

Тільки актуальне: читайте SUD.UA у Telegram

Для дослідження вчені більш детально вивчили бенчмарк GSM8K, широко використовуваний набір даних, який використовується для вимірювання навичок міркування штучного інтелекту, що складається з тисяч математичних текстових завдань рівня початкової школи.

Дослідники виявили, що навіть невелика зміна заданих завдань — заміна числа або імені персонажа тут або додавання нерелевантної деталі там — викликала величезний сплеск помилок штучного інтелекту. Інакше кажучи, будь-яка зміна питання, що не впливає на суть проблеми, виводить модель з ладу.

На думку дослідників, це доводить, що моделі штучного інтелекту насправді не міркують як люди і не здатні до логічного мислення. Натомість вони просто намагаються відтворити ті самі кроки та послідовності, які бачили в наборах даних під час навчання.

Як приклад команда з Apple навела математичну задачу:

«Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?».

Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель «o1-mini» (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.

За підрахунками дослідників, загалом точність моделей штучного інтелекту знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.

штучний інтелект