Zum Hauptinhalt springen

Übersicht

LemonData bietet ein intelligentes Caching-System, das Ihre API-Kosten und Antwortlatenz erheblich reduzieren kann. Unser Caching geht über einfaches Request-Matching hinaus – es versteht die semantische Bedeutung Ihrer Prompts.

Kostenersparnis

Cache-Hits werden zu einem Bruchteil der normalen Kosten abgerechnet.

Schnellere Antworten

Gecachte Antworten werden sofort zurückgegeben, es ist keine Modell-Inferenz erforderlich.

Kontextbewusst

Semantisches Matching findet ähnliche Anfragen, selbst bei unterschiedlicher Formulierung.

Datenschutzkontrollen

Volle Kontrolle darüber, was gecacht und geteilt wird.

Funktionsweise

LemonData verwendet ein zweistufiges Caching-System:

Ebene 1: Response-Cache (Exakte Übereinstimmung)

Für deterministische Anfragen (temperature=0) cachen wir die exakte Antwort:
  • Übereinstimmung: Identisches Modell, Nachrichten und Parameter
  • Geschwindigkeit: Sofort (Mikrosekunden)
  • Ideal für: Wiederholte identische Abfragen

Ebene 2: Semantischer Cache (Ähnlichkeitsabgleich)

Für alle Anfragen prüfen wir zusätzlich die semantische Ähnlichkeit mithilfe eines zweistufigen Matching-Algorithmus:
  • Stufe 1 (Nur Query): ≥95% Ähnlichkeit bei der Benutzeranfrage
  • Stufe 2 (Vollständiger Kontext): ≥85% Ähnlichkeit einschließlich des Konversationskontexts
  • Ideal für: FAQ-ähnliche Abfragen, häufige Fragen
User A: "What is the capital of France?"
User B: "Tell me the capital city of France"
→ Same cached response (high semantic similarity)

Cache-Header

Request-Header

Steuern Sie das Caching-Verhalten pro Anfrage:
# Skip cache lookup, always call the model
curl https://api.lemondata.cc/v1/chat/completions \
  -H "Authorization: Bearer sk-your-key" \
  -H "Cache-Control: no-cache" \
  -d '{"model": "gpt-4o", "messages": [...]}'
HeaderWertEffekt
Cache-Control: no-cache-Cache überspringen, frische Antwort
Cache-Control: no-store-Diese Antwort nicht cachen

Response-Header

Jede Antwort enthält einen Cache-Status:
X-Cache: HIT           # Response served from cache
X-Cache: MISS          # Fresh response from model
X-Cache-Entry-Id: abc  # Cache entry ID (for feedback)

Cache-Status überprüfen

from openai import OpenAI

client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What is 2+2?"}]
)

# Check cache status from response headers
# (Available in raw HTTP response)
print(f"Cache: {response._raw_response.headers.get('X-Cache')}")

Cache-Abrechnung

Cache-Hits sind deutlich günstiger als frische Anfragen:
TypKosten
Cache HIT80% Rabatt
Cache MISSVoller Preis
Der genaue Rabatt wird in den Nutzungsprotokollen Ihres Dashboards angezeigt.

Datenschutzkontrollen

API-Key-Ebene

Konfigurieren Sie das Caching-Verhalten für jeden API-Key in Ihrem Dashboard:
ModusBeschreibung
DefaultCache aktiviert, kann mit ähnlichen Anfragen geteilt werden
No ShareCache aktiviert, aber Antworten sind privat für Ihr Konto
DisabledKeinerlei Caching

Request-Ebene

Pro Anfrage überschreiben:
# Disable caching for this request
curl https://api.lemondata.cc/v1/chat/completions \
  -H "Cache-Control: no-store" \
  -d '...'

Cache-Feedback

Wenn Sie eine fehlerhafte gecachte Antwort erhalten, können Sie dies melden:
curl -X POST https://api.lemondata.cc/v1/cache/feedback \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "cache_entry_id": "abc123",
    "feedback_type": "wrong_answer",
    "description": "Response was outdated"
  }'
Feedback-Typen:
  • wrong_answer - Sachlich falsch
  • outdated - Informationen sind veraltet
  • irrelevant - Passt nicht zur Frage
  • other - Andere Probleme
Wenn ein Cache-Eintrag genügend negatives Feedback erhält, wird er automatisch ungültig gemacht.

Best Practices

Deterministische Einstellungen maximieren die Cache-Hit-Raten.
Einheitliche Formatierung verbessert das semantische Matching.
Aktuelle Ereignisse und Echtzeitdaten sollten den Cache überspringen.
Überprüfen Sie Ihr Dashboard auf Cache-Statistiken und Einsparungen.

Wann Sie NICHT cachen sollten

Deaktivieren Sie das Caching für:
  • Echtzeit-Informationen: Aktienkurse, Wetter, Nachrichten
  • Personalisierte Inhalte: Benutzerspezifische Empfehlungen
  • Kreative Aufgaben: Wenn Abwechslung erwünscht ist
  • Sensible Daten: Vertrauliche Informationen
# For time-sensitive queries
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What's the current stock price of AAPL?"}],
    extra_headers={"Cache-Control": "no-cache"}
)