Gartner prevê queda de 90% nos custos de IA

O custo de execução de modelos de linguagem de grande escala (LLM) poderá cair mais de 90% até 2030, segundo previsões da Gartner, impulsionado por avanços tecnológicos e maior eficiência na infraestrutura.

De acordo com a consultora, a inferência de um modelo com um bilião de parâmetros será significativamente mais barata do que em 2025, resultado de melhorias em semicondutores, otimização de infraestruturas, evolução no design de modelos e maior utilização de hardware especializado para inferência.

A Gartner estima ainda que os LLM em 2030 sejam até cem vezes mais eficientes em termos de custo face aos primeiros modelos de dimensão semelhante desenvolvidos em 2022.

A análise considera diferentes cenários tecnológicos, incluindo ambientes com chips de última geração e outros baseados numa combinação de semicondutores disponíveis no mercado. Nestes últimos, os custos mantêm-se mais elevados devido a menor capacidade computacional.

Apesar da redução do custo por token a Gartner alerta que esta descida não será totalmente refletida nos preços para os clientes empresariais.

Além disso, a evolução para aplicações mais avançadas, nomeadamente modelos agentic, deverá aumentar significativamente o consumo de tokens. Estes sistemas podem exigir entre cinco a 30 vezes mais tokens por tarefa do que chatbots tradicionais, ao mesmo tempo que executam um maior número de operações.

Como resultado, a redução do custo unitário poderá ser ultrapassada pelo aumento da procura, levando a um crescimento global dos custos de inferência.

“Os responsáveis de produto não devem confundir a descida do custo dos tokens com a democratização da inteligência avançada”, alerta Will Sommer, Senior Director Analyst da Garnter. A consultora sublinha que, embora o custo da inteligência mais básica se aproxime de zero, os recursos necessários para suportar capacidades avançadas continuam limitados.

Neste contexto, o valor tenderá a concentrar-se em plataformas capazes de gerir diferentes tipos de modelos de forma eficiente. Tarefas rotineiras e de elevada frequência devem ser direcionadas para modelos mais pequenos e especializados, enquanto os modelos mais avançados e dispendiosos devem ser reservados para tarefas complexas e de maior valor.

A recomendação passa por uma abordagem híbrida e otimizada, capaz de equilibrar desempenho, custo e escalabilidade num cenário de crescente adoção de inteligência artificial.