← Voltar para Insights
[ Insights · 30 de abril de 2026 ]

Evals como software: o pipeline que ninguém constrói

Avaliar LLM é teste de software, não chat. Por que CI/CD para evals deveria ser padrão e não exceção.

Camila R.·9 min·
EvalsLLMsEngenharia
Capa: Evals como software: o pipeline que ninguém constrói

A maior diferença entre times que escalam IA e times que apresentam IA é uma só: o pipeline de evals.

O que falta

  • Eval suite versionada como código
  • Rodar evals em cada PR
  • Gates: PR não merga se pass-rate cai > 2%
  • Dashboard público para o time
  • Gold set com curadoria humana

Antipattern comum

"Vamos testar manualmente esse prompt." — palavras de quem nunca escalou.

Setup mínimo

# .github/workflows/evals.yml
on: [pull_request]
jobs:
  evals:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - run: npm run evals
      - run: node scripts/compare-baseline.js

Um eval rodando por 90 segundos em CI vale mais que 100 horas de "testar manualmente".