Resumen general
Además del caché semántico de plataforma de LemonData, muchos proveedores de IA ofrecen su propia función de caché de prompts. Este es un mecanismo de almacenamiento en caché independiente que opera a nivel del proveedor (Anthropic, OpenAI, DeepSeek, etc.).Dos tipos de caché
Estos son mutuamente excluyentes: si hay un acierto en el caché de la plataforma, no se realiza ninguna llamada al proveedor, por lo que el caché del proveedor no se aplica.
| Tipo | Ubicación | Cómo funciona | Costo |
|---|---|---|---|
| Caché de plataforma | LemonData | Coincidencia por similitud semántica | 10% del precio normal |
| Caché de proveedor | Proveedor (Anthropic/OpenAI/etc) | Coincidencia exacta de prefijos | Tarifas de tokens con descuento |
Cómo funciona el caché de prompts de proveedor
El almacenamiento en caché de prompts del proveedor guarda la representación procesada del prefijo de su prompt en los servidores del proveedor. Cuando envía una solicitud con el mismo prefijo, el proveedor puede omitir el reprocesamiento de esos tokens.Características clave
- Basado en prefijos: Solo se puede almacenar en caché el inicio de su prompt.
- Coincidencia exacta: Requiere tokens idénticos (no similitud semántica).
- Limitado en el tiempo: Las entradas del caché caducan (normalmente entre 5 y 60 minutos).
- Automático: No se requiere una configuración especial.
Proveedores compatibles
| Proveedor | Descuento por lectura de caché | Costo de escritura en caché | Tokens mínimos |
|---|---|---|---|
| Anthropic | 90% de descuento | 25% de prima | 1024 |
| OpenAI | 50% de descuento | Igual que la entrada | 1024 |
| DeepSeek | 90% de descuento | Igual que la entrada | 64 |
| 75% de descuento | 25% de recargo | 32768 |
Los descuentos se aplican automáticamente. LemonData le transfiere los precios de caché del proveedor directamente.
Identificación del uso de caché
En los registros de uso
Sus registros de uso muestran un desglose detallado de los tokens de caché:| Campo | Descripción |
|---|---|
cacheReadTokens | Tokens servidos desde el caché del proveedor (con descuento) |
cacheWriteTokens | Tokens escritos en el caché (para futuras solicitudes) |
nonCachedPromptTokens | Tokens procesados sin caché |
En las transacciones
Las transacciones muestran una etiqueta de Provider Cache cuando se utilizó el almacenamiento en caché del proveedor:- Cache (azul cielo): Acierto de caché semántico de plataforma - 90% de descuento.
- Provider Cache (verde azulado): Acierto de caché de prompts del proveedor - tarifas con descuento.
Ejemplo de cálculo de costos
Para una solicitud con 10,000 tokens de entrada a Claude (Anthropic): Sin caché:Mejores prácticas
Utilice prompts de sistema consistentes
Utilice prompts de sistema consistentes
Coloque su prompt de sistema y el contexto estático al principio de sus mensajes. Esto maximiza el potencial de acierto de caché.
Agrupe solicitudes similares
Agrupe solicitudes similares
Envíe solicitudes con el mismo prefijo en intervalos de tiempo cercanos para beneficiarse del caché antes de que caduque.
Cumpla con los requisitos mínimos de tokens
Cumpla con los requisitos mínimos de tokens
Asegúrese de que su prefijo almacenable en caché cumpla con el mínimo del proveedor (por ejemplo, 1024 tokens para Anthropic/OpenAI).
Monitoree las métricas de caché
Monitoree las métricas de caché
Consulte las estadísticas de uso en su panel de control para ver las tasas de acierto de caché y los ahorros.
Caché de plataforma vs. Caché de proveedor
| Aspecto | Caché de plataforma | Caché de proveedor |
|---|---|---|
| Coincidencia | Similitud semántica | Coincidencia exacta de prefijo |
| Costo | 10% del precio normal | Tarifas con descuento |
| Latencia | Instantánea (~1ms) | Reducida (omite el procesamiento) |
| Control | Configuración del panel | Automático |
| Alcance | Entre usuarios (opcional) | Por clave de API |
Cuándo se aplica cada uno
Comprobación del estado del caché
Encabezados de respuesta
API de uso
Consulte sus registros de uso para ver el desglose del caché:Preguntas frecuentes (FAQ)
¿Puedo desactivar el almacenamiento en caché del proveedor?
¿Puedo desactivar el almacenamiento en caché del proveedor?
El almacenamiento en caché del proveedor es automático y no se puede desactivar. Sin embargo, solo le beneficia (menores costos), por lo que no hay razón para desactivarlo.
¿Por qué mi solicitud no tuvo un acierto en el caché del proveedor?
¿Por qué mi solicitud no tuvo un acierto en el caché del proveedor?
Razones comunes:
- El prefijo cambió (incluso una diferencia de un solo token).
- El caché caducó (normalmente entre 5 y 60 minutos).
- El prefijo es demasiado corto (por debajo del mínimo de tokens).
- Se utilizó una clave de API diferente.
¿BYOK admite el almacenamiento en caché del proveedor?
¿BYOK admite el almacenamiento en caché del proveedor?
¡Sí! Al usar sus propias claves de API (BYOK), el almacenamiento en caché del proveedor funciona de la misma manera. El caché está vinculado a su clave de API del proveedor.
¿Cómo maximizo los ahorros por caché?
¿Cómo maximizo los ahorros por caché?
- Utilice el caché semántico de plataforma para consultas similares repetidas.
- Estructure los prompts con el contenido estático primero.
- Mantenga los prompts de sistema consistentes en todas las solicitudes.
- Envíe solicitudes relacionadas en rápida sucesión.