Ana içeriğe atla

Genel Bakış

LemonData’nın platform semantik önbelleğine ek olarak, birçok AI sağlayıcısı kendi prompt önbelleğe alma özelliğini sunar. Bu, sağlayıcı seviyesinde (Anthropic, OpenAI, DeepSeek vb.) çalışan ayrı bir önbellekleme mekanizmasıdır.
İki Önbellek Türü
TürNeredeNasıl ÇalışırMaliyet
Platform ÖnbelleğiLemonDataSemantik benzerlik eşleşmesiNormal fiyatın %10’u
Sağlayıcı ÖnbelleğiÜst Kaynak (Anthropic/OpenAI/vb)Tam önek eşleşmesiİndirimli token ücretleri
Bunlar birbirini dışlar: Eğer platform önbelleği isabet ederse, üst kaynağa çağrı yapılmaz, bu nedenle sağlayıcı önbelleği uygulanmaz.

Sağlayıcı Prompt Önbelleği Nasıl Çalışır?

Sağlayıcı prompt önbelleğe alma, prompt önekinizin işlenmiş temsilini sağlayıcının sunucularında saklar. Aynı öneke sahip bir istek gönderdiğinizde, sağlayıcı bu tokenları yeniden işlemeyi atlayabilir.

Temel Özellikler

  • Önek tabanlı: Yalnızca promptunuzun başlangıcı önbelleğe alınabilir
  • Tam eşleşme: Semantik benzerlik değil, birebir aynı tokenları gerektirir
  • Zaman sınırlı: Önbellek girişlerinin süresi dolar (genellikle 5-60 dakika)
  • Otomatik: Özel bir yapılandırma gerektirmez
İstek 1: [Sistem promptu + Bağlam A + Soru 1]
         ^^^^^^^^^^^^^^^^^^^^^^^^
         Bu önek önbelleğe alınır

İstek 2: [Sistem promptu + Bağlam A + Soru 2]
         ^^^^^^^^^^^^^^^^^^^^^^^^
         Önbellek isabeti! Yalnızca Soru 2 işlenir

Desteklenen Sağlayıcılar

SağlayıcıÖnbellek Okuma İndirimiÖnbellek Yazma MaliyetiMin Token
Anthropic%90 indirim%25 prim1024
OpenAI%50 indirimGirdi ile aynı1024
DeepSeek%90 indirimGirdi ile aynı64
Google%75 indirim%25 ek ücret32768
İndirimler otomatik olarak uygulanır. LemonData, sağlayıcının önbellek fiyatlandırmasını size olduğu gibi yansıtır.

Önbellek Kullanımını Belirleme

Kullanım Günlüklerinde

Kullanım günlükleriniz detaylı önbellek token dökümünü gösterir:
AlanAçıklama
cacheReadTokensSağlayıcı önbelleğinden sunulan tokenlar (indirimli)
cacheWriteTokensÖnbelleğe yazılan tokenlar (gelecekteki istekler için)
nonCachedPromptTokensÖnbellek olmadan işlenen tokenlar

İşlemlerde

Üst kaynak önbelleği kullanıldığında işlemler bir Provider Cache etiketi gösterir:
  • Cache (gök mavisi): Platform semantik önbellek isabeti - %90 indirim
  • Provider Cache (turkuaz): Üst kaynak prompt önbellek isabeti - indirimli ücretler

Maliyet Hesaplama Örneği

Claude (Anthropic) için 10.000 girdi tokenı içeren bir istek için: Önbelleksiz:
10.000 token × $3.00/1M = $0.030
Sağlayıcı önbelleği ile (8.000 önbelleğe alınmış + 2.000 yeni):
Önbellek okuma: 8.000 token × $0.30/1M = $0.0024  (%90 indirim)
Önbellek yazma: 2.000 token × $3.75/1M = $0.0075
Toplam: $0.0099 (%67 tasarruf)

En İyi Uygulamalar

Sistem promptunuzu ve statik bağlamınızı mesajlarınızın başına yerleştirin. Bu, önbellek isabet potansiyelini maksimize eder.
Aynı öneke sahip istekleri, önbellek süresi dolmadan yararlanmak için birbirine yakın zamanlarda gönderin.
Önbelleğe alınabilir önekinizin sağlayıcının minimum sınırını (örneğin, Anthropic/OpenAI için 1024 token) karşıladığından emin olun.
Önbellek isabet oranları ve tasarruflar için panelinizdeki kullanım istatistiklerini kontrol edin.

Platform Önbelleği vs Sağlayıcı Önbelleği

ÖzellikPlatform ÖnbelleğiSağlayıcı Önbelleği
EşleşmeSemantik benzerlikTam önek eşleşmesi
MaliyetNormal fiyatın %10’uİndirimli ücretler
GecikmeAnlık (~1ms)Azaltılmış (işleme atlanır)
KontrolPanel ayarlarıOtomatik
KapsamKullanıcılar arası (isteğe bağlı)API anahtarı başına

Hangisinin Uygulanacağı Durumlar

İstek gelir


┌───────────────────────────┐
│ Platform Önbellek İsabeti? │
└───────────────────────────┘
    │ Evet             │ Hayır
    ▼                  ▼
┌──────────────┐    ┌───────────────────────────┐
│ Önbelleğe    │    │ Üst Kaynak API'sini Çağır │
│ Alınanı Dön  │    └───────────────────────────┘
│ (%10)        │               │
└──────────────┘               ▼
                    ┌────────────────────────────┐
                    │ Sağlayıcı Önbellek İsabeti? │
                    └────────────────────────────┘
                        │ Evet          │ Hayır
                        ▼               ▼
                    İndirimli        Tam Fiyat
                    Token Ücreti     Token Ücreti

Önbellek Durumunu Kontrol Etme

Yanıt Başlıkları

X-Cache-Status: HIT           # Platform önbellek isabeti
X-Cache-Status: MISS          # Platform önbelleği yok
X-Upstream-Cache-Read: 8000   # Sağlayıcı önbelleği okunan tokenlar
X-Upstream-Cache-Write: 2000  # Sağlayıcı önbelleği yazılan tokenlar

Kullanım API’si

Önbellek dökümünü görmek için kullanım günlüklerinizi sorgulayın:
curl https://api.lemondata.cc/v1/usage/logs \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json"
Yanıt şunları içerir:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

SSS

Sağlayıcı önbelleğe alma otomatiktir ve devre dışı bırakılamaz. Ancak, bu yalnızca size fayda sağlar (daha düşük maliyetler), bu nedenle devre dışı bırakmak için bir neden yoktur.
Yaygın nedenler:
  • Önek değişti (tek bir token farkı bile olsa)
  • Önbellek süresi doldu (genellikle 5-60 dakika)
  • Önek çok kısa (minimum token sınırının altında)
  • Farklı bir API anahtarı kullanıldı
Evet! Kendi API anahtarlarınızı (BYOK) kullanırken, sağlayıcı önbelleğe alma aynı şekilde çalışır. Önbellek, üst kaynak API anahtarınıza bağlıdır.
  1. Tekrarlanan benzer sorgular için platform semantik önbelleğini kullanın
  2. Promptları önce statik içerik gelecek şekilde yapılandırın
  3. İstekler arasında sistem promptlarını tutarlı tutun
  4. İlgili istekleri hızlı bir şekilde art arda gönderin