Genel Bakış
LemonData, API maliyetlerinizi ve yanıt gecikmenizi önemli ölçüde azaltabilen akıllı bir önbellekleme sistemi sunar. Önbelleklememiz basit istek eşleştirmenin ötesine geçer - istemlerinizin (prompts) semantik anlamını anlar.Maliyet Tasarrufu
Önbellek isabetleri (cache hits), normal maliyetin çok küçük bir kısmı ile ücretlendirilir.
Daha Hızlı Yanıtlar
Önbelleğe alınan yanıtlar anında döndürülür, model çıkarımı (inference) gerekmez.
Bağlam Duyarlı
Semantik eşleştirme, farklı kelimelerle ifade edilse bile benzer istekleri bulur.
Gizlilik Kontrolleri
Neyin önbelleğe alınacağı ve paylaşılacağı üzerinde tam kontrol.
Nasıl Çalışır?
LemonData iki katmanlı bir önbellekleme sistemi kullanır:Katman 1: Yanıt Önbelleği (Tam Eşleşme)
Deterministik istekler (temperature=0) için tam yanıtı önbelleğe alıyoruz:
- Eşleşme: Özdeş model, mesajlar ve parametreler
- Hız: Anında (mikrosaniye)
- En iyi kullanım: Tekrarlanan özdeş sorgular
Katman 2: Semantik Önbellek (Benzerlik Eşleşmesi)
Tüm istekler için, iki aşamalı bir eşleştirme algoritması kullanarak semantik benzerliği de kontrol ediyoruz:- Aşama 1 (Yalnızca sorgu): Kullanıcı sorgusunda ≥%95 benzerlik
- Aşama 2 (Tam bağlam): Konuşma bağlamı dahil ≥%85 benzerlik
- En iyi kullanım: SSS tarzı sorgular, yaygın sorular