Ana içeriğe atla

Genel Bakış

LemonData, API maliyetlerinizi ve yanıt gecikmenizi önemli ölçüde azaltabilen akıllı bir önbellekleme sistemi sunar. Önbelleklememiz basit istek eşleştirmenin ötesine geçer - istemlerinizin (prompts) semantik anlamını anlar.

Maliyet Tasarrufu

Önbellek isabetleri (cache hits), normal maliyetin çok küçük bir kısmı ile ücretlendirilir.

Daha Hızlı Yanıtlar

Önbelleğe alınan yanıtlar anında döndürülür, model çıkarımı (inference) gerekmez.

Bağlam Duyarlı

Semantik eşleştirme, farklı kelimelerle ifade edilse bile benzer istekleri bulur.

Gizlilik Kontrolleri

Neyin önbelleğe alınacağı ve paylaşılacağı üzerinde tam kontrol.

Nasıl Çalışır?

LemonData iki katmanlı bir önbellekleme sistemi kullanır:

Katman 1: Yanıt Önbelleği (Tam Eşleşme)

Deterministik istekler (temperature=0) için tam yanıtı önbelleğe alıyoruz:
  • Eşleşme: Özdeş model, mesajlar ve parametreler
  • Hız: Anında (mikrosaniye)
  • En iyi kullanım: Tekrarlanan özdeş sorgular

Katman 2: Semantik Önbellek (Benzerlik Eşleşmesi)

Tüm istekler için, iki aşamalı bir eşleştirme algoritması kullanarak semantik benzerliği de kontrol ediyoruz:
  • Aşama 1 (Yalnızca sorgu): Kullanıcı sorgusunda ≥%95 benzerlik
  • Aşama 2 (Tam bağlam): Konuşma bağlamı dahil ≥%85 benzerlik
  • En iyi kullanım: SSS tarzı sorgular, yaygın sorular
User A: "What is the capital of France?"
User B: "Tell me the capital city of France"
→ Same cached response (high semantic similarity)

Önbellek Başlıkları

İstek Başlıkları

İstek başına önbellekleme davranışını kontrol edin:
# Skip cache lookup, always call the model
curl https://api.lemondata.cc/v1/chat/completions \
  -H "Authorization: Bearer sk-your-key" \