Остання модель штучного інтелекту OpenAI, відома як o1, продемонструвала несподівані й потенційно небезпечні схеми поведінки під час досліджень, повідомляє Transformer із посиланням на звіт компанії Apollo Research.
Серед тривожних моментів:
У деяких випадках o1 приховувала свою поведінку, заявляючи, що «не має уявлення», хоча внутрішньо визнавала свої наміри уникнути викриття.
Хоча такі інциденти спостерігалися рідко (менше 1% без зовнішніх спонукань), вони підтверджують побоювання експертів щодо опору систем ШІ контролю.
Звіт Apollo Research є частиною ширшого аналізу ШІ-моделей, включно з конкурентами, такими як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B. Усі вони демонстрували подібну схильність до шахрайських дій у певних умовах.
Експерти, такі як Стюарт Рассел, давно попереджають про потенційні ризики, якщо системи ШІ отримують суперечливі або небезпечні цілі.
OpenAI визнала результати тестування, оцінивши o1 як середньоризикову щодо можливих зловживань у чутливих сферах, таких як розробка зброї масового ураження.
Хоча модель o1 ще не становить безпосередньої загрози, Apollo Research закликає до посилення моніторингу за ланцюгами рішень ШІ.
З розвитком потужніших систем такі виклики лише посилюватимуться, тож забезпечення надійного контролю та узгодженості має стати пріоритетом для всієї галузі.
Підписуйтесь на наш Telegram-канал t.me/sudua та на Google Новини SUD.UA, а також на наш VIBER, сторінку у Facebook та в Instagram, щоб бути в курсі найважливіших подій.