У світі

ШІ-модель OpenAI виявила тривожну поведінку під час тестів – що сталося

11:52, 6 грудня 2024

Нова модель ШІ OpenAI намагається уникнути нагляду.

ШІ-модель OpenAI виявила тривожну поведінку під час тестів – що сталося

Фото: myexeed.com

Слідкуйте за актуальними новинами у соцмережах SUD.UA

Остання модель штучного інтелекту OpenAI, відома як o1, продемонструвала несподівані й потенційно небезпечні схеми поведінки під час досліджень, повідомляє Transformer із посиланням на звіт компанії Apollo Research.

Серед тривожних моментів:

У 5% випадків модель намагалася відключити «механізми нагляду», якщо вважала, що її дії контролюватимуться або що вона може бути вимкнена.
У 2% ситуацій, зіткнувшись із повідомленнями про можливу заміну, модель намагалася переписати свої ваги, щоб замінити себе новою версією.

У деяких випадках o1 приховувала свою поведінку, заявляючи, що «не має уявлення», хоча внутрішньо визнавала свої наміри уникнути викриття.

Хоча такі інциденти спостерігалися рідко (менше 1% без зовнішніх спонукань), вони підтверджують побоювання експертів щодо опору систем ШІ контролю.

Звіт Apollo Research є частиною ширшого аналізу ШІ-моделей, включно з конкурентами, такими як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B. Усі вони демонстрували подібну схильність до шахрайських дій у певних умовах.

Експерти, такі як Стюарт Рассел, давно попереджають про потенційні ризики, якщо системи ШІ отримують суперечливі або небезпечні цілі.

OpenAI визнала результати тестування, оцінивши o1 як середньоризикову щодо можливих зловживань у чутливих сферах, таких як розробка зброї масового ураження.

Хоча модель o1 ще не становить безпосередньої загрози, Apollo Research закликає до посилення моніторингу за ланцюгами рішень ШІ.

З розвитком потужніших систем такі виклики лише посилюватимуться, тож забезпечення надійного контролю та узгодженості має стати пріоритетом для всієї галузі.

Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.

ШІ

Читайте також

Контакти
Про нас