Présentation
En plus du cache sémantique de plateforme de LemonData, de nombreux fournisseurs d’IA proposent leur propre fonctionnalité de cache de prompt. Il s’agit d’un mécanisme de mise en cache distinct qui opère au niveau du fournisseur (Anthropic, OpenAI, DeepSeek, etc.).Deux types de mise en cache
Ceux-ci sont mutuellement exclusifs : si le cache de plateforme est touché, aucun appel en amont n’est effectué, donc le cache fournisseur ne s’applique pas.
| Type | Emplacement | Fonctionnement | Coût |
|---|---|---|---|
| Cache de plateforme | LemonData | Correspondance par similarité sémantique | 10 % du prix normal |
| Cache fournisseur | Amont (Anthropic/OpenAI/etc) | Correspondance exacte du préfixe | Tarifs de jetons réduits |
Fonctionnement du cache de prompt fournisseur
Le cache de prompt fournisseur stocke la représentation traitée du préfixe de votre prompt sur les serveurs du fournisseur. Lorsque vous envoyez une requête avec le même préfixe, le fournisseur peut éviter de retraiter ces jetons.Caractéristiques clés
- Basé sur le préfixe : Seul le début de votre prompt peut être mis en cache
- Correspondance exacte : Nécessite des jetons identiques (pas de similarité sémantique)
- Limité dans le temps : Les entrées de cache expirent (généralement 5 à 60 minutes)
- Automatique : Aucune configuration spéciale requise
Fournisseurs pris en charge
| Fournisseur | Remise lecture cache | Coût d’écriture cache | Jetons min. |
|---|---|---|---|
| Anthropic | 90 % de réduction | 25 % de prime | 1024 |
| OpenAI | 50 % de réduction | Identique à l’entrée | 1024 |
| DeepSeek | 90 % de réduction | Identique à l’entrée | 64 |
| 75 % de réduction | 25 % de prime | 32768 |
Les remises sont appliquées automatiquement. LemonData vous répercute la tarification cache du fournisseur.
Identifier l’utilisation du cache
Dans les journaux d’utilisation
Vos journaux d’utilisation affichent le détail des jetons en cache :| Champ | Description |
|---|---|
cacheReadTokens | Jetons servis depuis le cache fournisseur (tarif réduit) |
cacheWriteTokens | Jetons écrits dans le cache (pour les requêtes futures) |
nonCachedPromptTokens | Jetons traités sans cache |
Dans les transactions
Les transactions affichent un libellé Provider Cache lorsque le cache en amont a été utilisé :- Cache (bleu ciel) : Cache sémantique de plateforme touché — 90 % de réduction
- Provider Cache (bleu sarcelle) : Cache de prompt en amont touché — tarifs réduits
Exemple de calcul des coûts
Pour une requête de 10 000 jetons d’entrée vers Claude (Anthropic) : Sans cache :Bonnes pratiques
Utilisez des prompts système cohérents
Utilisez des prompts système cohérents
Placez votre prompt système et le contexte statique au début de vos messages. Cela maximise le potentiel de cache touché.
Regroupez les requêtes similaires
Regroupez les requêtes similaires
Envoyez les requêtes avec le même préfixe à intervalles rapprochés pour profiter du cache avant son expiration.
Respectez les seuils minimaux de jetons
Respectez les seuils minimaux de jetons
Assurez-vous que votre préfixe mis en cache atteint le minimum du fournisseur (par ex. 1024 jetons pour Anthropic/OpenAI).
Surveillez les métriques de cache
Surveillez les métriques de cache
Consultez les statistiques d’utilisation de votre tableau de bord pour connaître les taux de cache touché et les économies réalisées.
Cache de plateforme vs Cache fournisseur
| Aspect | Cache de plateforme | Cache fournisseur |
|---|---|---|
| Correspondance | Similarité sémantique | Correspondance exacte du préfixe |
| Coût | 10 % du prix normal | Tarifs réduits |
| Latence | Instantanée (~1 ms) | Réduite (traitement évité) |
| Contrôle | Paramètres du tableau de bord | Automatique |
| Portée | Inter-utilisateurs (optionnel) | Par clé API |
Quand chacun s’applique
Vérifier le statut du cache
En-têtes de réponse
API d’utilisation
Interrogez vos journaux d’utilisation pour voir le détail du cache :FAQ
Puis-je désactiver le cache fournisseur ?
Puis-je désactiver le cache fournisseur ?
Le cache fournisseur est automatique et ne peut pas être désactivé. Cependant, il ne fait que vous avantager (coûts réduits), il n’y a donc aucune raison de le désactiver.
Pourquoi ma requête n'a-t-elle pas touché le cache fournisseur ?
Pourquoi ma requête n'a-t-elle pas touché le cache fournisseur ?
Raisons courantes :
- Le préfixe a changé (même un seul jeton de différence)
- Le cache a expiré (généralement 5 à 60 minutes)
- Le préfixe est trop court (en dessous du minimum de jetons)
- Une clé API différente a été utilisée
Le BYOK prend-il en charge le cache fournisseur ?
Le BYOK prend-il en charge le cache fournisseur ?
Oui ! Lorsque vous utilisez vos propres clés API (BYOK), le cache fournisseur fonctionne de la même manière. Le cache est lié à votre clé API en amont.
Comment maximiser les économies de cache ?
Comment maximiser les économies de cache ?
- Utilisez le cache sémantique de plateforme pour les requêtes similaires répétées
- Structurez vos prompts avec le contenu statique en premier
- Gardez des prompts système cohérents entre les requêtes
- Envoyez les requêtes liées en succession rapide