Seleção de Modelo
Escolher o modelo certo pode impactar significativamente o custo e a qualidade.Recomendações Baseadas em Tarefas
| Tarefa | Modelos Recomendados | Justificativa |
|---|---|---|
| Perguntas e respostas simples | gpt-5-mini, gemini-2.5-flash | Rápido, barato, suficiente |
| Raciocínio complexo | gpt-5.4, claude-opus-4-6, deepseek-r1 | Melhor lógica e planejamento |
| Programação | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | Otimizado para código |
| Escrita criativa | claude-sonnet-4-6, gpt-4o | Melhor qualidade de prosa |
| Visão/Imagens | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | Suporte nativo a visão |
| Contexto longo | gemini-2.5-pro, claude-sonnet-4-6 | Janelas de 1M+ token |
| Sensível a custo | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | Melhor custo-benefício |
Faixas de Custo
Otimização de Custos
1. Use Modelos Menores Primeiro
2. Defina max_tokens
Sempre defina um limite razoável de max_tokens:
3. Otimize os Prompts
4. Habilite o Cache
Aproveite o cache semântico:5. Faça Batch de Requisições Semelhantes
Otimização de Performance
1. Use Streaming para UX
Streaming melhora a performance percebida:2. Escolha Modelos Rápidos para Uso Interativo
| Caso de Uso | Recomendado | Latência |
|---|---|---|
| UI de chat | gpt-5-mini, gemini-2.5-flash | ~200ms para o primeiro token |
| Completar com Tab | claude-haiku-4-5 | ~150ms para o primeiro token |
| Processamento em segundo plano | gpt-4o, claude-sonnet-4-6 | ~500ms para o primeiro token |
3. Defina Timeouts
Confiabilidade
1. Implemente Retries
2. Trate Erros de Forma Elegante
3. Use Modelos de Fallback
Segurança
1. Proteja as API Keys
2. Valide a Entrada do Usuário
3. Defina Limites para API Keys
Crie API keys separadas com limites de gastos para:- Desenvolvimento/testes
- Produção
- Diferentes aplicações
Monitoramento
1. Acompanhe o Uso
Verifique seu dashboard regularmente para:- Uso de token por modelo
- Detalhamento de custos
- Taxas de acerto do cache
- Taxas de erro
2. Registre Métricas Importantes
3. Configure Alertas
Configure alertas de saldo baixo no seu dashboard para evitar interrupção do serviço.Checklist
Otimização de custos
Otimização de custos
- Usando o modelo apropriado para cada tarefa
- Definindo limites de max_tokens
- Prompts concisos
- Cache habilitado onde apropriado
- Batch de requisições semelhantes
Performance
Performance
- Streaming para UX interativa
- Modelos rápidos para uso em tempo real
- Timeouts configurados
Confiabilidade
Confiabilidade
- Lógica de retry implementada
- Tratamento de erros implementado
- Modelos de fallback configurados
Segurança
Segurança
- API keys em variáveis de ambiente
- Validação de entrada
- Chaves separadas para dev/prod
- Limites de gastos definidos