A Microsoft revelou o Maia 200, um novo acelerador de inteligência artificial desenvolvido de raiz para workloads de inferência, prometendo ganhos significativos de desempenho e eficiência de custos na geração de tokens para modelos de grande escala
|
A Microsoft anunciou o Maia 200, o seu mais recente acelerador de Inteligência Artificial (IA) para inferência, concebido para responder às exigências crescentes de execução eficiente de modelos avançados de IA. Produzido com tecnologia de três nanómetros da TSMC, o Maia 200 integra mais de 140 mil milhões de transístores e foi otimizado para operações de baixa precisão, essenciais nos modelos modernos. O novo acelerador suporta nativamente cálculos em FP8 e FP4, alcançando mais de 10 petaFLOPS em FP4 e mais de 5 petaFLOPS em FP8, dentro de um envelope térmico de 750 W. Segundo a Microsoft, o Maia 200 oferece cerca de 30% mais desempenho por dólar face à geração mais recente de hardware atualmente utilizada nos seus centros de dados, posicionando-se como o sistema de inferência mais eficiente alguma vez implementado pela empresa. Um dos principais diferenciais do Maia 200 é o seu subsistema de memória redesenhado, que combina 216 GB de HBM3e com uma largura de banda de 7 TB/s e 272 MB de SRAM on-chip. Esta arquitetura, aliada a motores dedicados de movimentação de dados, permite manter modelos de grande dimensão continuamente alimentados, aumentando a taxa de geração de tokens e a utilização efetiva do acelerador. O Maia 200 faz parte da infraestrutura heterogénea de IA da Microsoft e será utilizado para executar vários modelos, incluindo versões recentes do GPT-5.2 da OpenAI, suportando serviços como o Microsoft Foundry e o Microsoft 365 Copilot. A equipa de Superinteligência da Microsoft irá também recorrer ao novo acelerador para geração de dados sintéticos e aprendizagem por reforço, com o objetivo de melhorar modelos desenvolvidos internamente. Ao nível de sistema, o Maia 200 introduz uma arquitetura de interligação em dois níveis baseada em Ethernet padrão, com uma camada de transporte personalizada e uma NIC integrada. Cada acelerador disponibiliza 2,8 TB/s de largura de banda bidirecional dedicada para comunicação em cluster, permitindo operações coletivas previsíveis e eficientes em configurações com até 6.144 aceleradores. Os primeiros sistemas com Maia 200 já estão em operação no data center da região Central dos Estados Unidos, no Iowa, estando prevista a expansão para outras regiões, incluindo o oeste dos EUA. O acelerador está totalmente integrado no ecossistema Azure e será disponibilizado com um Maia SDK em pré-visualização, incluindo suporte para PyTorch, compilador Triton e bibliotecas de kernels otimizadas, facilitando a adaptação de modelos a diferentes aceleradores. Segundo a Microsoft, a abordagem integrada – do silício ao software e ao data center – permitiu reduzir drasticamente o tempo entre a chegada do primeiro chip e a sua entrada em produção, reforçando a aposta da empresa em melhorar de forma contínua o desempenho por watt e por dólar na execução de cargas de trabalho de IA à escala da cloud. |