Visão Geral
Além do cache semântico da plataforma da LemonData, muitos provedores de IA oferecem seu próprio recurso de cache de prompt. Este é um mecanismo de cache separado que opera no nível do provedor (Anthropic, OpenAI, DeepSeek, etc.).Dois Tipos de Cache
Estes são mutualmente exclusivos: se houver um hit no cache da plataforma, nenhuma chamada upstream é feita, portanto, o cache do provedor não se aplica.
| Tipo | Onde | Como Funciona | Custo |
|---|---|---|---|
| Cache da Plataforma | LemonData | Correspondência por similaridade semântica | 10% do preço normal |
| Cache do Provedor | Upstream (Anthropic/OpenAI/etc) | Correspondência exata de prefixo | Taxas de token com desconto |
Como Funciona o Cache de Prompt do Provedor
O cache de prompt do provedor armazena a representação processada do prefixo do seu prompt nos servidores do provedor. Quando você envia uma solicitação com o mesmo prefixo, o provedor pode pular o reprocessamento desses tokens.Principais Características
- Baseado em prefixo: Apenas o início do seu prompt pode ser armazenado em cache
- Correspondência exata: Requer tokens idênticos (não similaridade semântica)
- Tempo limitado: As entradas de cache expiram (geralmente entre 5 a 60 minutos)
- Automático: Nenhuma configuração especial é necessária
Provedores Suportados
| Provedor | Desconto de Leitura de Cache | Custo de Escrita de Cache | Tokens Mínimos |
|---|---|---|---|
| Anthropic | 90% de desconto | 25% de prêmio | 1024 |
| OpenAI | 50% de desconto | Igual à entrada | 1024 |
| DeepSeek | 90% de desconto | Igual à entrada | 64 |
| 75% de desconto | 25% de acréscimo | 32768 |
Os descontos são aplicados automaticamente. A LemonData repassa o preço de cache do provedor para você.
Identificando o Uso do Cache
Nos Logs de Uso
Seus logs de uso mostram o detalhamento detalhado dos tokens de cache:| Campo | Descrição |
|---|---|
cacheReadTokens | Tokens servidos pelo cache do provedor (com desconto) |
cacheWriteTokens | Tokens gravados no cache (para solicitações futuras) |
nonCachedPromptTokens | Tokens processados sem cache |
Nas Transações
As transações exibem um rótulo de Provider Cache quando o cache upstream foi utilizado:- Cache (azul céu): Hit de cache semântico da plataforma - desconto de 90%
- Provider Cache (azul-petróleo): Hit de cache de prompt upstream - taxas com desconto
Exemplo de Cálculo de Custo
Para uma solicitação com 10.000 tokens de entrada para o Claude (Anthropic): Sem cache:Melhores Práticas
Use prompts de sistema consistentes
Use prompts de sistema consistentes
Coloque seu prompt de sistema e contexto estático no início de suas mensagens. Isso maximiza o potencial de hit do cache.
Agrupe solicitações semelhantes
Agrupe solicitações semelhantes
Envie solicitações com o mesmo prefixo em intervalos próximos para se beneficiar do cache antes que ele expire.
Atenda aos requisitos mínimos de tokens
Atenda aos requisitos mínimos de tokens
Certifique-se de que seu prefixo passível de cache atenda ao mínimo do provedor (ex: 1024 tokens para Anthropic/OpenAI).
Monitore as métricas de cache
Monitore as métricas de cache
Verifique as estatísticas de uso no seu dashboard para ver as taxas de hit de cache e economia.
Cache da Plataforma vs Cache do Provedor
| Aspecto | Cache da Plataforma | Cache do Provedor |
|---|---|---|
| Correspondência | Similaridade semântica | Correspondência exata de prefixo |
| Custo | 10% do preço normal | Taxas com desconto |
| Latência | Instantânea (~1ms) | Reduzida (pula o processamento) |
| Controle | Configurações do dashboard | Automático |
| Escopo | Entre usuários (opcional) | Por chave de API |
Quando Cada Um se Aplica
Verificando o Status do Cache
Headers de Resposta
API de Uso
Consulte seus logs de uso para ver o detalhamento do cache:FAQ
Posso desativar o cache do provedor?
Posso desativar o cache do provedor?
O cache do provedor é automático e não pode ser desativado. No entanto, ele só traz benefícios (custos menores), portanto não há motivo para desativá-lo.
Por que minha solicitação não deu hit no cache do provedor?
Por que minha solicitação não deu hit no cache do provedor?
Motivos comuns:
- O prefixo mudou (mesmo que por um único token)
- O cache expirou (geralmente entre 5 a 60 minutos)
- Prefixo muito curto (abaixo do mínimo de tokens)
- Chave de API diferente utilizada
O BYOK suporta cache do provedor?
O BYOK suporta cache do provedor?
Sim! Ao usar suas próprias chaves de API (BYOK), o cache do provedor funciona da mesma maneira. O cache está vinculado à sua chave de API upstream.
Como maximizo a economia com cache?
Como maximizo a economia com cache?
- Use o cache semântico da plataforma para consultas semelhantes repetidas
- Estruture os prompts com conteúdo estático primeiro
- Mantenha os prompts de sistema consistentes entre as solicitações
- Envie solicitações relacionadas em sucessão rápida