Aperçu
LemonData propose un système de mise en cache intelligente qui peut réduire considérablement vos coûts d’API et la latence des réponses. Notre mise en cache va au-delà de la simple correspondance de requêtes - elle comprend la signification sémantique de vos prompts.Économies de coûts
Les hits de cache sont facturés à une fraction du coût normal.
Réponses plus rapides
Les réponses mises en cache sont renvoyées instantanément, aucune inférence de modèle n’est nécessaire.
Sensible au contexte
La correspondance sémantique trouve des requêtes similaires même avec une formulation différente.
Contrôles de confidentialité
Contrôle total sur ce qui est mis en cache et partagé.
Fonctionnement
LemonData utilise un système de mise en cache à deux couches :Couche 1 : Cache de réponse (Correspondance exacte)
Pour les requêtes déterministes (temperature=0), nous mettons en cache la réponse exacte :
- Correspondance : Modèle, messages et paramètres identiques
- Vitesse : Instantanée (microsecondes)
- Idéal pour : Les requêtes identiques répétées
Couche 2 : Cache sémantique (Correspondance par similitude)
Pour toutes les requêtes, nous vérifions également la similitude sémantique à l’aide d’un algorithme de correspondance en deux étapes :- Étape 1 (Requête uniquement) : ≥95 % de similitude sur la requête utilisateur
- Étape 2 (Contexte complet) : ≥85 % de similitude incluant le contexte de la conversation
- Idéal pour : Les requêtes de type FAQ, les questions courantes
En-têtes de cache
En-têtes de requête
Contrôlez le comportement de mise en cache par requête :| En-tête | Valeur | Effet |
|---|---|---|
Cache-Control: no-cache | - | Ignorer le cache, réponse fraîche |
Cache-Control: no-store | - | Ne pas mettre cette réponse en cache |
En-têtes de réponse
Chaque réponse inclut un statut de cache :Vérification du statut du cache
Facturation du cache
Les hits de cache sont nettement moins chers que les requêtes fraîches :| Type | Coût |
|---|---|
| Cache HIT | -80 % |
| Cache MISS | Plein tarif |
Contrôles de confidentialité
Niveau Clé API
Configurez le comportement de mise en cache pour chaque clé API dans votre tableau de bord :| Mode | Description |
|---|---|
| Par défaut | Cache activé, peut être partagé avec des requêtes similaires |
| Pas de partage | Cache activé, mais les réponses sont privées pour votre compte |
| Désactivé | Aucune mise en cache |
Niveau Requête
Surcharger par requête :Feedback du cache
Si vous recevez une réponse mise en cache incorrecte, vous pouvez la signaler :wrong_answer- Factuellement incorrectoutdated- L’information est périméeirrelevant- Ne correspond pas à la questionother- Autres problèmes
Bonnes pratiques
Utilisez temperature=0 pour les requêtes pouvant être mises en cache
Utilisez temperature=0 pour les requêtes pouvant être mises en cache
Les paramètres déterministes maximisent les taux de hit de cache.
Standardisez les formats de prompt
Standardisez les formats de prompt
Un formatage cohérent améliore la correspondance sémantique.
Utilisez no-cache pour les requêtes sensibles au facteur temps
Utilisez no-cache pour les requêtes sensibles au facteur temps
Les événements actuels et les données en temps réel devraient ignorer le cache.
Surveillez les taux de hit de cache
Surveillez les taux de hit de cache
Consultez votre tableau de bord pour les statistiques de cache et les économies réalisées.
Quand NE PAS mettre en cache
Désactivez la mise en cache pour :- Informations en temps réel : Cours de la bourse, météo, actualités
- Contenu personnalisé : Recommandations spécifiques à l’utilisateur
- Tâches créatives : Lorsque la variété est souhaitée
- Données sensibles : Informations confidentielles