Anthropic denuncia destilação ilícita em larga escala no Claude

A Anthropic afirma ter detetado campanhas “à escala industrial” para extrair capacidades do modelo Claude através de destilação, uma técnica que usa as respostas de um modelo mais avançado para treinar um modelo menos capaz. Segundo a empresa, as operações terão sido conduzidas por três laboratórios - DeepSeek, Moonshot AI e MiniMax - que geraram mais de 16 milhões de trocas com o Claude usando cerca de 24 mil contas fraudulentas, em violação dos termos de serviço e de restrições regionais de acesso.

A Anthropic distingue a destilação legítima (usada para criar versões mais pequenas e baratas de modelos) da destilação ilícita, em que concorrentes procuram “copiar” capacidades diferenciadoras com menor custo e em menos tempo. A empresa alerta que campanhas deste tipo estão a aumentar em intensidade e sofisticação, defendendo que a resposta exige coordenação entre indústria, decisores políticos e a comunidade global de Inteligência Artificial.

A empresa sustenta que modelos obtidos por destilação ilícita podem não preservar salvaguardas de segurança presentes em sistemas de ponta, o que aumentaria riscos, incluindo uso malicioso em ciberataques e outras atividades de elevado impacto. A Anthropic liga ainda estas práticas ao debate sobre controlos de exportação, argumentando que a extração de capacidades pode reduzir vantagens competitivas pretendidas por essas medidas e que, por exigir escala, também depende de acesso a capacidade computacional avançada.

Segundo a Anthropic, os três casos seguiram um padrão comum: uso de contas falsas e serviços de proxy para obter acesso em volume, com prompts altamente repetitivos e focados em capacidades específicas, em vez de utilização “normal”. A atribuição terá sido feita com elevada confiança com base em correlação de endereços IP, metadados de pedidos e indicadores de infraestrutura, além de validação por parceiros do setor em alguns casos.

A empresa descreve alvos recorrentes: raciocínio com agência, uso de ferramentas e programação. No caso da DeepSeek, refere tráfego sincronizado entre contas e pedidos para gerar explicações passo a passo do raciocínio, com o objetivo de produzir dados de treino em escala. Para a Moonshot, aponta milhões de interações, incluindo tentativas de reconstruir “traços de raciocínio”. No caso da MiniMax, a Anthropic diz ter tido visibilidade do ataque ainda em curso e relata que, após o lançamento de um novo modelo, os operadores ajustaram o foco rapidamente para capturar capacidades dessa nova versão.

A Anthropic afirma não disponibilizar acesso comercial ao Claude na China e diz que parte das campanhas recorre a serviços de proxy que revendem acesso e operam redes extensas de contas (“hydra clusters”), substituindo contas bloqueadas e misturando tráfego de destilação com pedidos legítimos para dificultar a deteção.

Como resposta, a empresa refere investimento em: deteção com classificadores e “impressões digitais” comportamentais para identificar padrões de destilação; partilha de indicadores técnicos com outros laboratórios, fornecedores cloud e autoridades; reforço de controlos de acesso e verificação em vias frequentemente exploradas para criar contas; e contramedidas ao nível de produto, API e modelo para reduzir a utilidade das saídas para destilação ilícita, sem degradar a experiência de utilizadores legítimos.

A Anthropic conclui que nenhuma empresa conseguirá resolver o problema isoladamente e afirma publicar detalhes para tornar evidência e indicadores mais disponíveis para o ecossistema.