Saltar al contenido principal

Resumen

LemonData proporciona un sistema de caching inteligente que puede reducir significativamente sus costos de API y la latencia de respuesta. Nuestro caching va más allá de la simple coincidencia de solicitudes: entiende el significado semántico de sus prompts.

Ahorro de Costos

Los aciertos de cache (cache hits) se facturan a una fracción del costo normal.

Respuestas más Rápidas

Las respuestas en cache se devuelven al instante, sin necesidad de inferencia del modelo.

Consciente del Contexto

La coincidencia semántica encuentra solicitudes similares incluso con una redacción diferente.

Controles de Privacidad

Control total sobre lo que se almacena en cache y se comparte.

Cómo Funciona

LemonData utiliza un sistema de caching de dos capas:

Capa 1: Cache de Respuesta (Coincidencia Exacta)

Para solicitudes deterministas (temperature=0), almacenamos en cache la respuesta exacta:
  • Coincidencia: Modelo, mensajes y parámetros idénticos
  • Velocidad: Instantánea (microsegundos)
  • Ideal para: Consultas idénticas repetidas

Capa 2: Cache Semántico (Coincidencia por Similitud)

Para todas las solicitudes, también verificamos la similitud semántica utilizando un algoritmo de coincidencia de dos etapas:
  • Etapa 1 (Solo consulta): ≥95% de similitud en la consulta del usuario
  • Etapa 2 (Contexto completo): ≥85% de similitud incluyendo el contexto de la conversación
  • Ideal para: Consultas tipo FAQ, preguntas comunes
User A: "What is the capital of France?"
User B: "Tell me the capital city of France"
→ Same cached response (high semantic similarity)

Encabezados de Cache

Encabezados de Solicitud

Controle el comportamiento del caching por solicitud:
# Skip cache lookup, always call the model
curl https://api.lemondata.cc/v1/chat/completions \
  -H "Authorization: Bearer sk-your-key" \
  -H "Cache-Control: no-cache" \
  -d '{"model": "gpt-4o", "messages": [...]}'
EncabezadoValorEfecto
Cache-Control: no-cache-Omitir cache, respuesta fresca
Cache-Control: no-store-No almacenar esta respuesta en cache

Encabezados de Respuesta

Cada respuesta incluye el estado del cache:
X-Cache: HIT           # Response served from cache
X-Cache: MISS          # Fresh response from model
X-Cache-Entry-Id: abc  # Cache entry ID (for feedback)

Comprobación del Estado del Cache

from openai import OpenAI

client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What is 2+2?"}]
)

# Check cache status from response headers
# (Available in raw HTTP response)
print(f"Cache: {response._raw_response.headers.get('X-Cache')}")

Facturación del Cache

Los aciertos de cache son significativamente más baratos que las solicitudes frescas:
TipoCosto
Cache HIT80% de descuento
Cache MISSPrecio completo
El descuento exacto se muestra en los registros de uso de su dashboard.

Controles de Privacidad

Nivel de API Key

Configure el comportamiento del caching para cada API key en su dashboard:
ModoDescripción
DefaultCache habilitado, puede compartirse con solicitudes similares
No ShareCache habilitado, pero las respuestas son privadas para su cuenta
DisabledSin caching en absoluto

Nivel de Solicitud

Anular por solicitud:
# Disable caching for this request
curl https://api.lemondata.cc/v1/chat/completions \
  -H "Cache-Control: no-store" \
  -d '...'

Feedback del Cache

Si recibe una respuesta en cache incorrecta, puede reportarla:
curl -X POST https://api.lemondata.cc/v1/cache/feedback \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "cache_entry_id": "abc123",
    "feedback_type": "wrong_answer",
    "description": "Response was outdated"
  }'
Tipos de feedback:
  • wrong_answer - Fácticamente incorrecto
  • outdated - La información está desactualizada
  • irrelevant - No coincide con la pregunta
  • other - Otros problemas
Cuando una entrada de cache recibe suficiente feedback negativo, se invalida automáticamente.

Mejores Prácticas

Los ajustes deterministas maximizan las tasas de acierto de cache.
Un formato consistente mejora la coincidencia semántica.
Eventos actuales y datos en tiempo real deben omitir el cache.
Consulte su dashboard para ver estadísticas de cache y ahorros.

Cuándo NO usar cache

Deshabilite el caching para:
  • Información en tiempo real: Precios de acciones, clima, noticias
  • Contenido personalizado: Recomendaciones específicas del usuario
  • Tareas creativas: Cuando se desea variedad
  • Datos sensibles: Información confidencial
# For time-sensitive queries
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What's the current stock price of AAPL?"}],
    extra_headers={"Cache-Control": "no-cache"}
)