Como a IA Generativa está a expor os limites da infraestrutura dos centros de dados

Como a IA Generativa está a expor os limites da infraestrutura dos centros de dados

A corrida para desenvolver e implementar IA generativa não está a abrandar, pelo contrário

Um estudo recente revela que o crescimento dos níveis de energia necessários para a alimentar duplica a cada 100 dias. O desenvolvimento de modelos de IA generativa é extremamente intensivo em termos energéticos, o que implica não só a uma necessidade exponencial de energia, como um aumento da densidade da computação necessária. De acordo com a Agência Internacional da Energia, os centros de dados já consomem até 2% da eletricidade a nível mundial, e este valor deverá aumentar. Com a IA generativa a exigir hardware cada vez mais “consumidor” de energia, há uma procura crescente de novas formas de lidar com o calor proveniente das unidades de processamento gráfico (GPU) que potenciam a revolução da IA generativa.

Cada pesquisa no ChatGPT consome quase dez vezes mais energia do que uma pesquisa no Google, segundo estimativas da Goldman Sachs. Isto está a aumentar as necessidades energéticas de todos os centros de dados e a exigir soluções novas em termos de utilização de energia, especificamente na forma como os centros de dados são arrefecidos. O arrefecimento a ar tradicional já não é suficiente e, numa era em que todos os líderes empresariais têm em mente a sustentabilidade, o facto de o arrefecimento líquido conseguir reduzir o consumo de energia até 40% torna-o uma forma fácil de reduzir as emissões de carbono.

Sede por poder

As unidades de processamento gráfico (GPU), que consomem muita energia e alimentam as plataformas de IA, consomem cinco a dez vezes mais energia do que as unidades de processamento central (CPU), por terem um maior número de transístores. Isto já está a ter impacto nos centros de dados. Existem também novas metodologias de conceção rentáveis que abarcam caraterísticas como o empilhamento de silício 3D, o que permite aos fabricantes de GPUs agrupar mais componentes num espaço mais pequeno. Este facto aumenta novamente a densidade de potência, o que significa que os centros de dados precisam de mais energia e geram mais calor.

Outra tendência paralela é uma queda constante da TCase (ou temperatura da caixa) nos chips mais recentes. A TCase é a temperatura máxima segura para a superfície de chips como as GPUs. É um limite definido pelo fabricante para garantir que o chip funciona sem problemas e não sobreaquece, nem necessita de limitação (throttling), o que afeta o desempenho. Nos chips mais recentes, o TCase está a descer de 90 a 100 graus Celsius para 70 ou 80 graus, ou mesmo menos. Isto está a impulsionar ainda mais a procura de novas formas de arrefecer as GPU.

Consequentemente, o arrefecimento a ar deixou de ser suficiente no que diz respeito à IA. Não se trata apenas da potência dos componentes, mas da densidade desses componentes no centro de dados. A menos que os servidores se tornem três vezes maiores do que eram antes, é necessária uma remoção eficiente do calor. Isso requer um tratamento especial e o arrefecimento líquido será essencial para apoiar a implementação generalizada da IA.

Popularidade crescente

O arrefecimento líquido está a ganhar popularidade. As instituições públicas de investigação foram dos primeiros utilizadores, porque normalmente exigem o que há de melhor e mais recente em tecnologia de centros de dados para impulsionar a computação de alto desempenho (HPC) e a IA. Além disso, tendem a ter menos receio quanto ao risco de adotar uma nova tecnologia antes de esta já estar estabelecida no mercado.

Já os clientes empresariais são mais reticentes ao risco. Precisam de ter a certeza de que o que implementam irá proporcionar um retorno imediato do investimento. Assistimos agora a um número crescente de instituições financeiras – frequentemente conservadoras devido a requisitos regulamentares – a adotar a tecnologia, juntamente com a indústria automóvel.

Estes últimos são grandes utilizadores de sistemas HPC para desenvolver novos automóveis e, atualmente, também os fornecedores de serviços de housing em centros de dados. A inteligência artificial generativa tem requisitos energéticos elevados que a maioria das empresas não consegue satisfazer nas suas próprias instalações, sendo assim necessário recorrer a um serviço de housing, a fornecedores de serviços capazes de disponibilizar esses recursos de computação. Esses fornecedores de serviços estão agora a migrar para novas arquiteturas de GPU e para refrigeração líquida. Ao implementar a refrigeração líquida, podem tornar as suas operações muito mais eficientes.

A diferença do arrefecimento líquido

O arrefecimento líquido proporciona resultados tanto em servidores individuais como num centro de dados maior, permitindo aos clientes poupar no investimento de refrigeradores. Ao fazer a transição de um servidor com ventoinhas para um servidor com arrefecimento líquido, as empresas podem efetuar reduções significativas no que diz respeito ao consumo de energia. Mas isto é apenas ao nível do dispositivo, pois o arrefecimento perimetral – a remoção do calor do centro de dados – requer mais energia para arrefecer e remover o calor. Isto pode significar que apenas dois terços da energia que o centro de dados está a utilizar se destinam à computação, a tarefa para a qual o centro de dados foi concebido. O resto é utilizado para manter o centro de dados fresco.

A Power Usage Effectiveness (PUE) é uma métrica utilizada para medir a eficiência dos centros de dados. Calcula-se dividindo a energia total necessária para operar o centro de dados, incluindo os sistemas de arrefecimento, pela energia consumida exclusivamente pelo equipamento de TI. Em centros de dados otimizados com refrigeração líquida, alguns conseguem atingir um PUE de 1,1 e, em alguns casos, até 1,04, o que significa que apenas uma quantidade mínima de energia adicional é utilizada. E isso antes mesmo de considerarmos a oportunidade de reaproveitar o calor do líquido ou da água quente que sai dos bastidores para fins úteis, como aquecer o edifício no inverno – algo que já vemos alguns clientes a fazer atualmente.

A densidade também é um fator muito importante. O arrefecimento líquido permite concentrar uma grande quantidade de equipamento numa elevada densidade de bastidores. Com arrefecimento líquido, é possível preencher esses bastidores utilizando menos espaço total no centro de dados, reduzindo a área ocupada, o que será essencial para a IA.

Rumo a um centro de dados mais limpo

As exigências energéticas da IA generativa não vão diminuir, e os sistemas de arrefecimento por líquido oferecem uma forma de fornecer a densidade energética que a IA exige. Permite às empresas reduzir a utilização de energia e aos centros de dados acomodar o número de GPUs necessárias para impulsionar a inovação do futuro. Quando se trata das enormes exigências energéticas da IA generativa, o arrefecimento a ar já não é suficiente.

Tags

RECOMENDADO PELOS LEITORES

REVISTA DIGITAL

IT INSIGHT Nº 53 Janeiro 2025

IT INSIGHT Nº 53 Janeiro 2025

NEWSLETTER

Receba todas as novidades na sua caixa de correio!

O nosso website usa cookies para garantir uma melhor experiência de utilização.