Zum Hauptinhalt springen

Übersicht

Zusätzlich zum semantischen Plattform-Cache von LemonData bieten viele AI-Provider ihre eigene Prompt-Caching-Funktion an. Dies ist ein separater Caching-Mechanismus, der auf Provider-Ebene (Anthropic, OpenAI, DeepSeek usw.) arbeitet.
Zwei Arten von Caching
TypOrtFunktionsweiseKosten
Plattform-CacheLemonDataSemantischer Ähnlichkeitsabgleich10 % des normalen Preises
Provider-CacheUpstream (Anthropic/OpenAI/etc)Exakter Präfix-AbgleichErmäßigte Token-Raten
Diese schließen sich gegenseitig aus: Wenn der Plattform-Cache trifft, erfolgt kein Upstream-Aufruf, sodass der Provider-Cache nicht angewendet wird.

Wie Provider-Prompt-Caching funktioniert

Provider-Prompt-Caching speichert die verarbeitete Darstellung Ihres Prompt-Präfixes auf den Servern des Providers. Wenn Sie eine Anfrage mit demselben Präfix senden, kann der Provider die erneute Verarbeitung dieser Token überspringen.

Hauptmerkmale

  • Präfix-basiert: Nur der Anfang Ihres Prompts kann zwischengespeichert werden
  • Exakte Übereinstimmung: Erfordert identische Token (keine semantische Ähnlichkeit)
  • Zeitlich begrenzt: Cache-Einträge laufen ab (normalerweise 5–60 Minuten)
  • Automatisch: Keine spezielle Konfiguration erforderlich
Anfrage 1: [System-Prompt + Kontext A + Frage 1]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Dieses Präfix wird zwischengespeichert

Anfrage 2: [System-Prompt + Kontext A + Frage 2]
           ^^^^^^^^^^^^^^^^^^^^^^^^
           Cache-Treffer! Nur Frage 2 wird verarbeitet

Unterstützte Provider

ProviderCache-Lese-RabattCache-Schreib-KostenMin. Token
Anthropic90 % Rabatt25 % Aufpreis1024
OpenAI50 % RabattGleich wie Input1024
DeepSeek90 % RabattGleich wie Input64
Google75 % Rabatt25 % Aufpreis32768
Rabatte werden automatisch angewendet. LemonData gibt die Cache-Preise des Providers direkt an Sie weiter.

Cache-Nutzung erkennen

In den Nutzungsprotokollen

Ihre Nutzungsprotokolle zeigen eine detaillierte Aufschlüsselung der Cache-Token:
FeldBeschreibung
cacheReadTokensToken aus dem Provider-Cache (ermäßigt)
cacheWriteTokensToken, die in den Cache geschrieben wurden (für zukünftige Anfragen)
nonCachedPromptTokensToken, die ohne Cache verarbeitet wurden

In Transaktionen

Transaktionen zeigen ein Provider Cache-Label an, wenn Upstream-Caching verwendet wurde:
  • Cache (himmelblau): Plattform-Semantic-Cache-Treffer – 90 % Rabatt
  • Provider Cache (blaugrün): Upstream-Prompt-Cache-Treffer – ermäßigte Raten

Kostenberechnungsbeispiel

Für eine Anfrage mit 10.000 Input-Token an Claude (Anthropic): Ohne Cache:
10.000 Token × $3,00/1M = $0,030
Mit Provider-Cache (8.000 gecacht + 2.000 neu):
Cache-Lesen:    8.000 Token × $0,30/1M = $0,0024  (90 % Rabatt)
Cache-Schreiben: 2.000 Token × $3,75/1M = $0,0075  (25 % Aufpreis)
Gesamt: $0,0099 (67 % Ersparnis)

Best Practices

Platzieren Sie Ihren System-Prompt und statischen Kontext am Anfang Ihrer Nachrichten. Dies maximiert die Cache-Trefferwahrscheinlichkeit.
Senden Sie Anfragen mit demselben Präfix zeitnah hintereinander, um vom Cache zu profitieren, bevor er abläuft.
Stellen Sie sicher, dass Ihr cachebarer Präfix die Mindestanforderung des Providers erfüllt (z. B. 1024 Token für Anthropic/OpenAI).
Überprüfen Sie die Nutzungsstatistiken in Ihrem Dashboard auf Cache-Trefferraten und Einsparungen.

Plattform-Cache vs. Provider-Cache

AspektPlattform-CacheProvider-Cache
AbgleichSemantische ÄhnlichkeitExakter Präfix-Abgleich
Kosten10 % des normalen PreisesErmäßigte Raten
LatenzSofort (~1 ms)Reduziert (Verarbeitung übersprungen)
SteuerungDashboard-EinstellungenAutomatisch
GeltungsbereichBenutzerübergreifend (optional)Pro API-Key

Wann welcher Cache greift

Anfrage eingehend


┌─────────────────────────┐
│ Plattform-Cache-Treffer?│
└─────────────────────────┘
    │ Ja                │ Nein
    ▼                   ▼
┌───────────┐    ┌─────────────────────────┐
│ Gecachte  │    │ Upstream-API aufrufen   │
│ Antwort   │    └─────────────────────────┘
│ (10 %)    │            │
└───────────┘            ▼
               ┌─────────────────────────┐
               │ Provider-Cache-Treffer? │
               └─────────────────────────┘
                   │ Ja          │ Nein
                   ▼             ▼
               Ermäßigte      Voller
               Token-Rate     Token-Preis

Cache-Status prüfen

Response-Header

X-Cache-Status: HIT           # Plattform-Cache-Treffer
X-Cache-Status: MISS          # Kein Plattform-Cache
X-Upstream-Cache-Read: 8000   # Provider-Cache gelesene Token
X-Upstream-Cache-Write: 2000  # Provider-Cache geschriebene Token

Usage-API

Fragen Sie Ihre Nutzungsprotokolle ab, um die Cache-Aufschlüsselung zu sehen:
curl https://api.lemondata.cc/v1/usage/logs \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json"
Die Antwort enthält:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

FAQ

Provider-Caching ist automatisch und kann nicht deaktiviert werden. Es bringt Ihnen jedoch nur Vorteile (niedrigere Kosten), sodass es keinen Grund gibt, es zu deaktivieren.
Häufige Gründe:
  • Präfix hat sich geändert (selbst ein Token Unterschied)
  • Cache abgelaufen (normalerweise 5–60 Minuten)
  • Präfix zu kurz (unter der Mindest-Token-Anzahl)
  • Anderer API-Key verwendet
Ja! Wenn Sie Ihre eigenen API-Keys verwenden (BYOK), funktioniert Provider-Caching genauso. Der Cache ist an Ihren Upstream-API-Key gebunden.
  1. Nutzen Sie den semantischen Plattform-Cache für wiederholte ähnliche Anfragen
  2. Strukturieren Sie Prompts mit statischem Inhalt am Anfang
  3. Halten Sie System-Prompts über Anfragen hinweg konsistent
  4. Senden Sie zusammenhängende Anfragen in schneller Folge