Resumen
LemonData proporciona un sistema de caching inteligente que puede reducir significativamente sus costos de API y la latencia de respuesta. Nuestro caching va más allá de la simple coincidencia de solicitudes: entiende el significado semántico de sus prompts.Ahorro de Costos
Los aciertos de cache (cache hits) se facturan a una fracción del costo normal.
Respuestas más Rápidas
Las respuestas en cache se devuelven al instante, sin necesidad de inferencia del modelo.
Consciente del Contexto
La coincidencia semántica encuentra solicitudes similares incluso con una redacción diferente.
Controles de Privacidad
Control total sobre lo que se almacena en cache y se comparte.
Cómo Funciona
LemonData utiliza un sistema de caching de dos capas:Capa 1: Cache de Respuesta (Coincidencia Exacta)
Para solicitudes deterministas (temperature=0), almacenamos en cache la respuesta exacta:
- Coincidencia: Modelo, mensajes y parámetros idénticos
- Velocidad: Instantánea (microsegundos)
- Ideal para: Consultas idénticas repetidas
Capa 2: Cache Semántico (Coincidencia por Similitud)
Para todas las solicitudes, también verificamos la similitud semántica utilizando un algoritmo de coincidencia de dos etapas:- Etapa 1 (Solo consulta): ≥95% de similitud en la consulta del usuario
- Etapa 2 (Contexto completo): ≥85% de similitud incluyendo el contexto de la conversación
- Ideal para: Consultas tipo FAQ, preguntas comunes
Encabezados de Cache
Encabezados de Solicitud
Controle el comportamiento del caching por solicitud:| Encabezado | Valor | Efecto |
|---|---|---|
Cache-Control: no-cache | - | Omitir cache, respuesta fresca |
Cache-Control: no-store | - | No almacenar esta respuesta en cache |
Encabezados de Respuesta
Cada respuesta incluye el estado del cache:Comprobación del Estado del Cache
Facturación del Cache
Los aciertos de cache son significativamente más baratos que las solicitudes frescas:| Tipo | Costo |
|---|---|
| Cache HIT | 80% de descuento |
| Cache MISS | Precio completo |
Controles de Privacidad
Nivel de API Key
Configure el comportamiento del caching para cada API key en su dashboard:| Modo | Descripción |
|---|---|
| Default | Cache habilitado, puede compartirse con solicitudes similares |
| No Share | Cache habilitado, pero las respuestas son privadas para su cuenta |
| Disabled | Sin caching en absoluto |
Nivel de Solicitud
Anular por solicitud:Feedback del Cache
Si recibe una respuesta en cache incorrecta, puede reportarla:wrong_answer- Fácticamente incorrectooutdated- La información está desactualizadairrelevant- No coincide con la preguntaother- Otros problemas
Mejores Prácticas
Use temperature=0 para consultas cacheables
Use temperature=0 para consultas cacheables
Los ajustes deterministas maximizan las tasas de acierto de cache.
Estandarice los formatos de prompt
Estandarice los formatos de prompt
Un formato consistente mejora la coincidencia semántica.
Use no-cache para consultas sensibles al tiempo
Use no-cache para consultas sensibles al tiempo
Eventos actuales y datos en tiempo real deben omitir el cache.
Monitoree las tasas de acierto de cache
Monitoree las tasas de acierto de cache
Consulte su dashboard para ver estadísticas de cache y ahorros.
Cuándo NO usar cache
Deshabilite el caching para:- Información en tiempo real: Precios de acciones, clima, noticias
- Contenido personalizado: Recomendaciones específicas del usuario
- Tareas creativas: Cuando se desea variedad
- Datos sensibles: Información confidencial