[ Insights · 10 de janeiro de 2026 ]
O custo invisível: LLM em escala vira contabilidade
Quando o produto cresce, o custo de inferência sai da planilha de tecnologia e entra na de margem. Estratégias para não morrer pelo token.

Três meses depois do lançamento, alguém na empresa pergunta: "por que estamos gastando R$ 80k/mês em OpenAI?". Esse é o momento da verdade.
Onde o dinheiro vaza
- Retry agressivo sem backoff
- Contexto crescente sem janela de sumarização
- Modelo errado para a tarefa
- Cache ausente em respostas determinísticas
- Embedding recalculado em cada query
Caixa de ferramentas
- Cache semântico (hit-rate típico 30-60%)
- Roteamento de modelo (pequeno → fronteira só se necessário)
- Prompt compression (LLMLingua reduz 50%+)
- Self-hosted para tarefas frequentes
- Budget por usuário com degradação graceful
Inferência sem orçamento é como AWS sem cost explorer. Só descobre quando dói.