Matthew Prince explicou que a interrupção da Cloudflare no dia 18 de novembro foi o “pior desde 2019” na empresa. Em causa está uma alteração de permissões numa base de dados
|
Na manhã de 18 de novembro de 2025, a Cloudflare teve uma interrupção de serviço. Durante três horas, cerca de 20% de todo o tráfego web global esteve inacessível e milhões de sites apresentaram erros 5xx. No blog da Cloudflare, Matthew Prince, CEO da Cloudflare, explicou o que levou a que “o pior outage da Cloudflare desde 2019” tivesse lugar: uma alteração de permissões numa base de dados ClickHouse que duplicou o tamanho de um ficheiro de configuração do sistema de Bot Management e um limite de memória pré-alocado que foi ultrapassado. Às 11h05 (hora de Portugal), a Cloudflare procedeu a uma alteração nos clusters ClickHouse para melhorar a gestão de permissões. O objetivo era fazer queries dsitrbuídas correrem sob contas de utilizador iniciais, em vez de uma conta de sistema partilhada, numa lógica de segurança através de granularidade. 15 minutos depois (11h20), o sistema de Bot Management, que gera um ficheiro de features usado por modelos de machine learning para classificar o tráfego automatizado, começa a produzir ficheiros corrompidos. A query que extrai metadados de colunas não filtra por nome de base de dados. Com as novas permissões, passou a ver não só as tabelas na base, mas também as tabelas subjacentes na base. O resultado foram linhas duplicas e o ficheiro de features passou de aproximadamente 60 entradas para mais de 200. Entre as 11h20 e as 14h30, o ficheiro era gerado de cinco em cinco minutos. Como o rollout das novas permissões era gradual, tanto era gerado um ficheiro bom como um mau. O proxy core, ao receber o ficheiro mau, excedia o limite de 200 features pré-alocadas em memória. Ao ver o comportamento intermitente, sistemas a recuperar e a falhar em ciclos, a Cloudflare suspeitou inicialmente de um ataque DDoS de huperescala. Por coincidência, a página de status da Cloudflare, armazenada fora da infraestrutura da empresa, caiu ao mesmo tempo. Às 14h30, e identificada a causa raiz do problema, a propagação do ficheiro mau é interrompida. Um ficheiro conhecido como bom é manualmente inserido na query de distribuição e o proxy core é reiniciado. Esta interrupção afetou vários serviços, nomeadamente o Core CDN e serviços de segurança, Workers KV, Cloudflare Access, Dashboard, Email Security e Turnstile. |