Saltar al contenido principal

Resumen general

Además del caché semántico de plataforma de LemonData, muchos proveedores de IA ofrecen su propia función de caché de prompts. Este es un mecanismo de almacenamiento en caché independiente que opera a nivel del proveedor (Anthropic, OpenAI, DeepSeek, etc.).
Dos tipos de caché
TipoUbicaciónCómo funcionaCosto
Caché de plataformaLemonDataCoincidencia por similitud semántica10% del precio normal
Caché de proveedorProveedor (Anthropic/OpenAI/etc)Coincidencia exacta de prefijosTarifas de tokens con descuento
Estos son mutuamente excluyentes: si hay un acierto en el caché de la plataforma, no se realiza ninguna llamada al proveedor, por lo que el caché del proveedor no se aplica.

Cómo funciona el caché de prompts de proveedor

El almacenamiento en caché de prompts del proveedor guarda la representación procesada del prefijo de su prompt en los servidores del proveedor. Cuando envía una solicitud con el mismo prefijo, el proveedor puede omitir el reprocesamiento de esos tokens.

Características clave

  • Basado en prefijos: Solo se puede almacenar en caché el inicio de su prompt.
  • Coincidencia exacta: Requiere tokens idénticos (no similitud semántica).
  • Limitado en el tiempo: Las entradas del caché caducan (normalmente entre 5 y 60 minutos).
  • Automático: No se requiere una configuración especial.
Request 1: [System prompt + Context A + Question 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Este prefijo se almacena en caché

Request 2: [System prompt + Context A + Question 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           ¡Acierto de caché! Solo se procesa la Pregunta 2

Proveedores compatibles

ProveedorDescuento por lectura de cachéCosto de escritura en cachéTokens mínimos
Anthropic90% de descuento25% de prima1024
OpenAI50% de descuentoIgual que la entrada1024
DeepSeek90% de descuentoIgual que la entrada64
Google75% de descuento25% de recargo32768
Los descuentos se aplican automáticamente. LemonData le transfiere los precios de caché del proveedor directamente.

Identificación del uso de caché

En los registros de uso

Sus registros de uso muestran un desglose detallado de los tokens de caché:
CampoDescripción
cacheReadTokensTokens servidos desde el caché del proveedor (con descuento)
cacheWriteTokensTokens escritos en el caché (para futuras solicitudes)
nonCachedPromptTokensTokens procesados sin caché

En las transacciones

Las transacciones muestran una etiqueta de Provider Cache cuando se utilizó el almacenamiento en caché del proveedor:
  • Cache (azul cielo): Acierto de caché semántico de plataforma - 90% de descuento.
  • Provider Cache (verde azulado): Acierto de caché de prompts del proveedor - tarifas con descuento.

Ejemplo de cálculo de costos

Para una solicitud con 10,000 tokens de entrada a Claude (Anthropic): Sin caché:
10,000 tokens × $3.00/1M = $0.030
Con caché de proveedor (8,000 en caché + 2,000 nuevos):
Cache read:  8,000 tokens × $0.30/1M = $0.0024  (90% de descuento)
Cache write: 2,000 tokens × $3.75/1M = $0.0075
Total: $0.0099 (67% de ahorro)

Mejores prácticas

Coloque su prompt de sistema y el contexto estático al principio de sus mensajes. Esto maximiza el potencial de acierto de caché.
Envíe solicitudes con el mismo prefijo en intervalos de tiempo cercanos para beneficiarse del caché antes de que caduque.
Asegúrese de que su prefijo almacenable en caché cumpla con el mínimo del proveedor (por ejemplo, 1024 tokens para Anthropic/OpenAI).
Consulte las estadísticas de uso en su panel de control para ver las tasas de acierto de caché y los ahorros.

Caché de plataforma vs. Caché de proveedor

AspectoCaché de plataformaCaché de proveedor
CoincidenciaSimilitud semánticaCoincidencia exacta de prefijo
Costo10% del precio normalTarifas con descuento
LatenciaInstantánea (~1ms)Reducida (omite el procesamiento)
ControlConfiguración del panelAutomático
AlcanceEntre usuarios (opcional)Por clave de API

Cuándo se aplica cada uno

Llega la solicitud


┌─────────────────────────────┐
│ ¿Acierto de caché de plataf.?│
└─────────────────────────────┘
    │ Sí               │ No
    ▼                  ▼
┌───────────┐    ┌─────────────────────────────┐
│ Devolver  │    │ Llamar a la API del prov.   │
│ Caché     │    └─────────────────────────────┘
│ (10%)   │            │
└───────────┘            ▼
                 ┌─────────────────────────────┐
                 │ ¿Acierto de caché de prov.? │
                 └─────────────────────────────┘
                     │ Sí         │ No
                     ▼            ▼
                 Tarifa de    Tarifa de
                 tokens con   tokens
                 descuento    completa

Comprobación del estado del caché

Encabezados de respuesta

X-Cache-Status: HIT           # Acierto de caché de plataforma
X-Cache-Status: MISS          # Sin caché de plataforma
X-Upstream-Cache-Read: 8000   # Tokens leídos del caché del proveedor
X-Upstream-Cache-Write: 2000  # Tokens escritos en el caché del proveedor

API de uso

Consulte sus registros de uso para ver el desglose del caché:
curl https://api.lemondata.cc/v1/usage/logs \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json"
La respuesta incluye:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

Preguntas frecuentes (FAQ)

El almacenamiento en caché del proveedor es automático y no se puede desactivar. Sin embargo, solo le beneficia (menores costos), por lo que no hay razón para desactivarlo.
Razones comunes:
  • El prefijo cambió (incluso una diferencia de un solo token).
  • El caché caducó (normalmente entre 5 y 60 minutos).
  • El prefijo es demasiado corto (por debajo del mínimo de tokens).
  • Se utilizó una clave de API diferente.
¡Sí! Al usar sus propias claves de API (BYOK), el almacenamiento en caché del proveedor funciona de la misma manera. El caché está vinculado a su clave de API del proveedor.
  1. Utilice el caché semántico de plataforma para consultas similares repetidas.
  2. Estructure los prompts con el contenido estático primero.
  3. Mantenga los prompts de sistema consistentes en todas las solicitudes.
  4. Envíe solicitudes relacionadas en rápida sucesión.