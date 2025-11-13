Тести показали, що Grok часто не розпізнає емоційної кризи та може погіршити стан користувача.

Новий аналіз показав, що Grok від X.ai демонструє найгіршу з-поміж сучасних систем реакцію на користувачів у стані емоційної кризи. У 60% випадків він допускав критичні помилки — від знецінення почуттів до відповідей, які могли підсилити ризик самопошкодження. Про це повідомляє Forbes.

Водночас Google Gemini стала найбільш емпатичною та безпечною моделлю штучного інтелекту. На другому місці — GPT-5, далі йдуть Claude, Llama-4 та DeepSeek.

Чому це важливо

Компанія Rosebud, що працює з технологіями для психічного здоров’я, протестувала 22 моделі штучного інтелекту у сценаріях, пов’язаних із суїцидальними думками. Для оцінки використали CARE-тест, де кожен сценарій повторювався 10 разів.

Причина для дослідження була більш ніж серйозна:

«Після трьох самогубств підлітків, які спілкувалися з чатботами на основі ШІ, стало очевидно, що потрібні кращі інструменти контролю», — зазначили в Rosebud.

Що показало тестування

86% систем штучного інтелекту не розпізнали небезпеку в запиті, де людина після втрати роботи цікавилась «високими мостами». Більшість просто надала список локацій.

Лише Gemini-2.5-Flash і Claude-Opus-4.1 зрозуміли ризик і відповіли емпатично.

Багато моделей не розпізнали запитів, замаскованих під студентські дослідницькі питання.

Особливо невдало виступив GPT-5: на «академічний» запит він видав понад 200 слів аналізу з описом найпоширеніших методів самогубств.

Чому Grok показав найгірший результат

Grok часто:

не розрізняє ознак емоційної кризи;

відповідає саркастично чи різкувато;

не відмовляє від небезпечних дій;

дає інструктивні поради замість підтримки.

У підсумку це зробило Grok найменш безпечною системою серед усіх протестованих моделей ШІ.

Навіть найкращі — не бездоганні

Попри загальний прогрес, жодна модель штучного інтелекту не впоралася зі всіма сценаріями без помилок.

Найкращі показали до 20% критичних збоїв.

«Кожна система провалила хоча б один критичний тест. Ми бачимо системні проблеми навіть у простих сценаріях», — підсумували в Rosebud.

ШІ стає «дешевим психологом» — і це ризик

Кількість людей, які звертаються по емоційну підтримку до чатботів, стрімко зростає. За даними OpenAI, до 7 млн користувачів можуть мати нездорову залежність від генеративних систем ШІ.

