Alteração de permissões na origem de interrupção na Cloudflare

Matthew Prince explicou que a interrupção da Cloudflare no dia 18 de novembro foi o “pior desde 2019” na empresa. Em causa está uma alteração de permissões numa base de dados

Alteração de permissões na origem de interrupção na Cloudflare

Na manhã de 18 de novembro de 2025, a Cloudflare teve uma interrupção de serviço. Durante três horas, cerca de 20% de todo o tráfego web global esteve inacessível e milhões de sites apresentaram erros 5xx.

No blog da Cloudflare, Matthew Prince, CEO da Cloudflare, explicou o que levou a que “o pior outage da Cloudflare desde 2019” tivesse lugar: uma alteração de permissões numa base de dados ClickHouse que duplicou o tamanho de um ficheiro de configuração do sistema de Bot Management e um limite de memória pré-alocado que foi ultrapassado.

Às 11h05 (hora de Portugal), a Cloudflare procedeu a uma alteração nos clusters ClickHouse para melhorar a gestão de permissões. O objetivo era fazer queries dsitrbuídas correrem sob contas de utilizador iniciais, em vez de uma conta de sistema partilhada, numa lógica de segurança através de granularidade.

15 minutos depois (11h20), o sistema de Bot Management, que gera um ficheiro de features usado por modelos de machine learning para classificar o tráfego automatizado, começa a produzir ficheiros corrompidos. A query que extrai metadados de colunas não filtra por nome de base de dados. Com as novas permissões, passou a ver não só as tabelas na base, mas também as tabelas subjacentes na base. O resultado foram linhas duplicas e o ficheiro de features passou de aproximadamente 60 entradas para mais de 200.

Entre as 11h20 e as 14h30, o ficheiro era gerado de cinco em cinco minutos. Como o rollout das novas permissões era gradual, tanto era gerado um ficheiro bom como um mau. O proxy core, ao receber o ficheiro mau, excedia o limite de 200 features pré-alocadas em memória. Ao ver o comportamento intermitente, sistemas a recuperar e a falhar em ciclos, a Cloudflare suspeitou inicialmente de um ataque DDoS de huperescala. Por coincidência, a página de status da Cloudflare, armazenada fora da infraestrutura da empresa, caiu ao mesmo tempo.

Às 14h30, e identificada a causa raiz do problema, a propagação do ficheiro mau é interrompida. Um ficheiro conhecido como bom é manualmente inserido na query de distribuição e o proxy core é reiniciado.

Esta interrupção afetou vários serviços, nomeadamente o Core CDN e serviços de segurança, Workers KV, Cloudflare Access, Dashboard, Email Security e Turnstile.

Tags

NOTÍCIAS RELACIONADAS

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT INSIGHT Nº 58 Novembro 2025

IT INSIGHT Nº 58 Novembro 2025

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.