Visão Geral
A LemonData fornece um sistema de caching inteligente que pode reduzir significativamente seus custos de API e a latência de resposta. Nosso caching vai além da simples correspondência de requisições - ele entende o significado semântico dos seus prompts.Economia de Custos
Cache hits são faturados por uma fração do custo normal.
Respostas Mais Rápidas
Respostas em cache são retornadas instantaneamente, sem necessidade de inferência do modelo.
Sensível ao Contexto
A correspondência semântica encontra requisições semelhantes, mesmo com redações diferentes.
Controles de Privacidade
Controle total sobre o que é armazenado em cache e compartilhado.
Como Funciona
A LemonData utiliza um sistema de caching de duas camadas:Camada 1: Cache de Resposta (Correspondência Exata)
Para requisições determinísticas (temperature=0), armazenamos a resposta exata em cache:
- Correspondência: Modelo, mensagens e parâmetros idênticos
- Velocidade: Instantânea (microssegundos)
- Ideal para: Consultas idênticas repetidas
Camada 2: Cache Semântico (Correspondência por Similaridade)
Para todas as requisições, também verificamos a similaridade semântica usando um algoritmo de correspondência de dois estágios:- Estágio 1 (Apenas consulta): ≥95% de similaridade na consulta do usuário
- Estágio 2 (Contexto completo): ≥85% de similaridade incluindo o contexto da conversa
- Ideal para: Consultas estilo FAQ, perguntas comuns
Headers de Cache
Headers de Requisição
Controle o comportamento de caching por requisição:| Header | Valor | Efeito |
|---|---|---|
Cache-Control: no-cache | - | Pular cache, resposta nova |
Cache-Control: no-store | - | Não armazenar esta resposta em cache |
Headers de Resposta
Cada resposta inclui o status do cache:Verificando o Status do Cache
Faturamento de Cache
Cache hits são significativamente mais baratos do que requisições novas:| Tipo | Custo |
|---|---|
| Cache HIT | 80% de desconto |
| Cache MISS | Preço total |
Controles de Privacidade
Nível de Chave de API
Configure o comportamento de caching para cada chave de API em seu dashboard:| Modo | Descrição |
|---|---|
| Default | Cache ativado, pode ser compartilhado com requisições semelhantes |
| No Share | Cache ativado, mas as respostas são privadas para sua conta |
| Disabled | Nenhum caching |
Nível de Requisição
Sobrescrever por requisição:Feedback de Cache
Se você receber uma resposta em cache incorreta, poderá reportá-la:wrong_answer- Factualmente incorretooutdated- A informação está desatualizadairrelevant- Não corresponde à perguntaother- Outros problemas
Melhores Práticas
Use temperature=0 para consultas passíveis de cache
Use temperature=0 para consultas passíveis de cache
Configurações determinísticas maximizam as taxas de cache hit.
Padronize os formatos de prompt
Padronize os formatos de prompt
A formatação consistente melhora a correspondência semântica.
Use no-cache para consultas sensíveis ao tempo
Use no-cache para consultas sensíveis ao tempo
Eventos atuais e dados em tempo real devem pular o cache.
Monitore as taxas de cache hit
Monitore as taxas de cache hit
Verifique seu dashboard para estatísticas de cache e economia.
Quando NÃO usar Cache
Desative o caching para:- Informações em tempo real: Preços de ações, clima, notícias
- Conteúdo personalizado: Recomendações específicas do usuário
- Tarefas criativas: Quando a variedade é desejada
- Dados sensíveis: Informações confidenciais