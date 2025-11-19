Cloudflare объяснила причины масштабного сбоя, из-за которого «легли» сайты по всему миру
Cloudflare опубликовала детальный разбор инцидента, который 18 ноября вызвал один из крупнейших сбоев в глобальной сети за последние шесть лет.
Сбой затронул работу глобальных платформ: ChatGPT, Spotify, X (Twitter), League of Legends, Roblox, PayPal, Canva, ряд медиа — включая «Судебно-юридическую газету».
В компании назвали этот сбой «самым серьезным с 2019 года».
Что произошло?
Первопричиной стала ошибка в работе системы Bot Management — ключевого инструмента, который анализирует трафик и отсекает вредоносные запросы. Из-за некорректного изменения в настройках запроса в базе данных ClickHouse система начала генерировать дубликаты данных. Конфигурационный файл для модели машинного обучения увеличился более чем вдвое и превысил допустимые лимиты памяти.
Это вызвало сбой в главной прокси-системе, которая маршрутизирует трафик. Клиенты, использовавшие показатели ботов в своих правилах, начали случайно блокировать легитимных пользователей — в то время как компании, которые этой функцией не пользовались, оставались онлайн.
Важно: в Cloudflare подчеркнули, что инцидент не был связан с DNS, кибератакой или новыми системами на основе генеративных технологий. Проблема возникла исключительно во внутренней логике обновления конфигураций Bot Management.
Как компания реагировала?
Сначала инженеры предположили, что по сети проходит масштабная DDoS-атака. Лишь после дальнейшей диагностики удалось выявить коренную причину и остановить распространение проблемного конфигурационного файла. После отката к предыдущей версии сеть постепенно восстановила работу — основной трафик нормализовался примерно в 14:30 UTC, а полное восстановление произошло в 17:06.
Что обещает Cloudflare?
Компания анонсировала четыре системных изменения, чтобы избежать подобных случаев:
- усилить проверку конфигурационных файлов по принципу обработки пользовательского ввода;
- расширить количество глобальных «kill switch» для критических функций;
- исключить ситуации, когда core dump или отчеты об ошибках могут перегружать систему;
- полностью пересмотреть режимы отказа в ключевых прокси-модулях.
Cloudflare извинилась перед клиентами, подчеркнув, что любой простой в ее инфраструктуре имеет глобальные последствия, ведь через ее сеть проходит около 20% всего интернета.
