A Gartner prevê uma queda superior a 90% no custo de inferência de modelos de inteligência artificial até 2030, mas alerta que a despesa total pode aumentar com maior procura
|
O custo de execução de modelos de linguagem de grande escala (LLM) poderá cair mais de 90% até 2030, segundo previsões da Gartner, impulsionado por avanços tecnológicos e maior eficiência na infraestrutura. De acordo com a consultora, a inferência de um modelo com um bilião de parâmetros será significativamente mais barata do que em 2025, resultado de melhorias em semicondutores, otimização de infraestruturas, evolução no design de modelos e maior utilização de hardware especializado para inferência. A Gartner estima ainda que os LLM em 2030 sejam até cem vezes mais eficientes em termos de custo face aos primeiros modelos de dimensão semelhante desenvolvidos em 2022. A análise considera diferentes cenários tecnológicos, incluindo ambientes com chips de última geração e outros baseados numa combinação de semicondutores disponíveis no mercado. Nestes últimos, os custos mantêm-se mais elevados devido a menor capacidade computacional. Apesar da redução do custo por token a Gartner alerta que esta descida não será totalmente refletida nos preços para os clientes empresariais. Além disso, a evolução para aplicações mais avançadas, nomeadamente modelos agentic, deverá aumentar significativamente o consumo de tokens. Estes sistemas podem exigir entre cinco a 30 vezes mais tokens por tarefa do que chatbots tradicionais, ao mesmo tempo que executam um maior número de operações. Como resultado, a redução do custo unitário poderá ser ultrapassada pelo aumento da procura, levando a um crescimento global dos custos de inferência. “Os responsáveis de produto não devem confundir a descida do custo dos tokens com a democratização da inteligência avançada”, alerta Will Sommer, Senior Director Analyst da Garnter. A consultora sublinha que, embora o custo da inteligência mais básica se aproxime de zero, os recursos necessários para suportar capacidades avançadas continuam limitados. Neste contexto, o valor tenderá a concentrar-se em plataformas capazes de gerir diferentes tipos de modelos de forma eficiente. Tarefas rotineiras e de elevada frequência devem ser direcionadas para modelos mais pequenos e especializados, enquanto os modelos mais avançados e dispendiosos devem ser reservados para tarefas complexas e de maior valor. A recomendação passa por uma abordagem híbrida e otimizada, capaz de equilibrar desempenho, custo e escalabilidade num cenário de crescente adoção de inteligência artificial. |