Übersicht
Zusätzlich zum semantischen Plattform-Cache von LemonData bieten viele AI-Provider ihre eigene Prompt-Caching-Funktion an. Dies ist ein separater Caching-Mechanismus, der auf Provider-Ebene (Anthropic, OpenAI, DeepSeek usw.) arbeitet.Zwei Arten von Caching
Diese schließen sich gegenseitig aus: Wenn der Plattform-Cache trifft, erfolgt kein Upstream-Aufruf, sodass der Provider-Cache nicht angewendet wird.
| Typ | Ort | Funktionsweise | Kosten |
|---|---|---|---|
| Plattform-Cache | LemonData | Semantischer Ähnlichkeitsabgleich | 10 % des normalen Preises |
| Provider-Cache | Upstream (Anthropic/OpenAI/etc) | Exakter Präfix-Abgleich | Ermäßigte Token-Raten |
Wie Provider-Prompt-Caching funktioniert
Provider-Prompt-Caching speichert die verarbeitete Darstellung Ihres Prompt-Präfixes auf den Servern des Providers. Wenn Sie eine Anfrage mit demselben Präfix senden, kann der Provider die erneute Verarbeitung dieser Token überspringen.Hauptmerkmale
- Präfix-basiert: Nur der Anfang Ihres Prompts kann zwischengespeichert werden
- Exakte Übereinstimmung: Erfordert identische Token (keine semantische Ähnlichkeit)
- Zeitlich begrenzt: Cache-Einträge laufen ab (normalerweise 5–60 Minuten)
- Automatisch: Keine spezielle Konfiguration erforderlich
Unterstützte Provider
| Provider | Cache-Lese-Rabatt | Cache-Schreib-Kosten | Min. Token |
|---|---|---|---|
| Anthropic | 90 % Rabatt | 25 % Aufpreis | 1024 |
| OpenAI | 50 % Rabatt | Gleich wie Input | 1024 |
| DeepSeek | 90 % Rabatt | Gleich wie Input | 64 |
| 75 % Rabatt | 25 % Aufpreis | 32768 |
Rabatte werden automatisch angewendet. LemonData gibt die Cache-Preise des Providers direkt an Sie weiter.
Cache-Nutzung erkennen
In den Nutzungsprotokollen
Ihre Nutzungsprotokolle zeigen eine detaillierte Aufschlüsselung der Cache-Token:| Feld | Beschreibung |
|---|---|
cacheReadTokens | Token aus dem Provider-Cache (ermäßigt) |
cacheWriteTokens | Token, die in den Cache geschrieben wurden (für zukünftige Anfragen) |
nonCachedPromptTokens | Token, die ohne Cache verarbeitet wurden |
In Transaktionen
Transaktionen zeigen ein Provider Cache-Label an, wenn Upstream-Caching verwendet wurde:- Cache (himmelblau): Plattform-Semantic-Cache-Treffer – 90 % Rabatt
- Provider Cache (blaugrün): Upstream-Prompt-Cache-Treffer – ermäßigte Raten
Kostenberechnungsbeispiel
Für eine Anfrage mit 10.000 Input-Token an Claude (Anthropic): Ohne Cache:Best Practices
Konsistente System-Prompts verwenden
Konsistente System-Prompts verwenden
Platzieren Sie Ihren System-Prompt und statischen Kontext am Anfang Ihrer Nachrichten. Dies maximiert die Cache-Trefferwahrscheinlichkeit.
Ähnliche Anfragen bündeln
Ähnliche Anfragen bündeln
Senden Sie Anfragen mit demselben Präfix zeitnah hintereinander, um vom Cache zu profitieren, bevor er abläuft.
Mindest-Token-Anforderungen einhalten
Mindest-Token-Anforderungen einhalten
Stellen Sie sicher, dass Ihr cachebarer Präfix die Mindestanforderung des Providers erfüllt (z. B. 1024 Token für Anthropic/OpenAI).
Cache-Metriken überwachen
Cache-Metriken überwachen
Überprüfen Sie die Nutzungsstatistiken in Ihrem Dashboard auf Cache-Trefferraten und Einsparungen.
Plattform-Cache vs. Provider-Cache
| Aspekt | Plattform-Cache | Provider-Cache |
|---|---|---|
| Abgleich | Semantische Ähnlichkeit | Exakter Präfix-Abgleich |
| Kosten | 10 % des normalen Preises | Ermäßigte Raten |
| Latenz | Sofort (~1 ms) | Reduziert (Verarbeitung übersprungen) |
| Steuerung | Dashboard-Einstellungen | Automatisch |
| Geltungsbereich | Benutzerübergreifend (optional) | Pro API-Key |
Wann welcher Cache greift
Cache-Status prüfen
Response-Header
Usage-API
Fragen Sie Ihre Nutzungsprotokolle ab, um die Cache-Aufschlüsselung zu sehen:FAQ
Kann ich Provider-Caching deaktivieren?
Kann ich Provider-Caching deaktivieren?
Provider-Caching ist automatisch und kann nicht deaktiviert werden. Es bringt Ihnen jedoch nur Vorteile (niedrigere Kosten), sodass es keinen Grund gibt, es zu deaktivieren.
Warum hat meine Anfrage den Provider-Cache nicht getroffen?
Warum hat meine Anfrage den Provider-Cache nicht getroffen?
Häufige Gründe:
- Präfix hat sich geändert (selbst ein Token Unterschied)
- Cache abgelaufen (normalerweise 5–60 Minuten)
- Präfix zu kurz (unter der Mindest-Token-Anzahl)
- Anderer API-Key verwendet
Unterstützt BYOK Provider-Caching?
Unterstützt BYOK Provider-Caching?
Ja! Wenn Sie Ihre eigenen API-Keys verwenden (BYOK), funktioniert Provider-Caching genauso. Der Cache ist an Ihren Upstream-API-Key gebunden.
Wie maximiere ich die Cache-Einsparungen?
Wie maximiere ich die Cache-Einsparungen?
- Nutzen Sie den semantischen Plattform-Cache für wiederholte ähnliche Anfragen
- Strukturieren Sie Prompts mit statischem Inhalt am Anfang
- Halten Sie System-Prompts über Anfragen hinweg konsistent
- Senden Sie zusammenhängende Anfragen in schneller Folge