Übersicht
LemonData bietet ein intelligentes Caching-System, das Ihre API-Kosten und Antwortlatenz erheblich reduzieren kann. Unser Caching geht über einfaches Request-Matching hinaus – es versteht die semantische Bedeutung Ihrer Prompts.Kostenersparnis
Cache-Hits werden zu einem Bruchteil der normalen Kosten abgerechnet.
Schnellere Antworten
Gecachte Antworten werden sofort zurückgegeben, es ist keine Modell-Inferenz erforderlich.
Kontextbewusst
Semantisches Matching findet ähnliche Anfragen, selbst bei unterschiedlicher Formulierung.
Datenschutzkontrollen
Volle Kontrolle darüber, was gecacht und geteilt wird.
Funktionsweise
LemonData verwendet ein zweistufiges Caching-System:Ebene 1: Response-Cache (Exakte Übereinstimmung)
Für deterministische Anfragen (temperature=0) cachen wir die exakte Antwort:
- Übereinstimmung: Identisches Modell, Nachrichten und Parameter
- Geschwindigkeit: Sofort (Mikrosekunden)
- Ideal für: Wiederholte identische Abfragen
Ebene 2: Semantischer Cache (Ähnlichkeitsabgleich)
Für alle Anfragen prüfen wir zusätzlich die semantische Ähnlichkeit mithilfe eines zweistufigen Matching-Algorithmus:- Stufe 1 (Nur Query): ≥95% Ähnlichkeit bei der Benutzeranfrage
- Stufe 2 (Vollständiger Kontext): ≥85% Ähnlichkeit einschließlich des Konversationskontexts
- Ideal für: FAQ-ähnliche Abfragen, häufige Fragen
Cache-Header
Request-Header
Steuern Sie das Caching-Verhalten pro Anfrage:| Header | Wert | Effekt |
|---|---|---|
Cache-Control: no-cache | - | Cache überspringen, frische Antwort |
Cache-Control: no-store | - | Diese Antwort nicht cachen |
Response-Header
Jede Antwort enthält einen Cache-Status:Cache-Status überprüfen
Cache-Abrechnung
Cache-Hits sind deutlich günstiger als frische Anfragen:| Typ | Kosten |
|---|---|
| Cache HIT | 80% Rabatt |
| Cache MISS | Voller Preis |
Datenschutzkontrollen
API-Key-Ebene
Konfigurieren Sie das Caching-Verhalten für jeden API-Key in Ihrem Dashboard:| Modus | Beschreibung |
|---|---|
| Default | Cache aktiviert, kann mit ähnlichen Anfragen geteilt werden |
| No Share | Cache aktiviert, aber Antworten sind privat für Ihr Konto |
| Disabled | Keinerlei Caching |
Request-Ebene
Pro Anfrage überschreiben:Cache-Feedback
Wenn Sie eine fehlerhafte gecachte Antwort erhalten, können Sie dies melden:wrong_answer- Sachlich falschoutdated- Informationen sind veraltetirrelevant- Passt nicht zur Frageother- Andere Probleme
Best Practices
Verwenden Sie temperature=0 für cachbare Abfragen
Verwenden Sie temperature=0 für cachbare Abfragen
Deterministische Einstellungen maximieren die Cache-Hit-Raten.
Prompt-Formate standardisieren
Prompt-Formate standardisieren
Einheitliche Formatierung verbessert das semantische Matching.
Verwenden Sie no-cache für zeitkritische Abfragen
Verwenden Sie no-cache für zeitkritische Abfragen
Aktuelle Ereignisse und Echtzeitdaten sollten den Cache überspringen.
Cache-Hit-Raten überwachen
Cache-Hit-Raten überwachen
Überprüfen Sie Ihr Dashboard auf Cache-Statistiken und Einsparungen.
Wann Sie NICHT cachen sollten
Deaktivieren Sie das Caching für:- Echtzeit-Informationen: Aktienkurse, Wetter, Nachrichten
- Personalisierte Inhalte: Benutzerspezifische Empfehlungen
- Kreative Aufgaben: Wenn Abwechslung erwünscht ist
- Sensible Daten: Vertrauliche Informationen