Ringkasan
LemonData menyediakan sistem caching cerdas yang dapat secara signifikan mengurangi biaya API dan latensi respons Anda. Caching kami melampaui pencocokan permintaan sederhana - sistem ini memahami makna semantik dari prompt Anda.Penghematan Biaya
Cache hit ditagih dengan biaya yang jauh lebih rendah dari biaya normal.
Respons Lebih Cepat
Respons yang di-cache dikembalikan secara instan, tidak memerlukan inferensi model.
Sadar Konteks
Pencocokan semantik menemukan permintaan serupa bahkan dengan kata-kata yang berbeda.
Kontrol Privasi
Kontrol penuh atas apa yang di-cache dan dibagikan.
Cara Kerja
LemonData menggunakan sistem caching dua lapis:Lapisan 1: Response Cache (Pencocokan Persis)
Untuk permintaan deterministik (temperature=0), kami men-cache respons yang persis:
- Pencocokan: Model, pesan, dan parameter yang identik
- Kecepatan: Instan (mikrodetik)
- Terbaik untuk: Kueri identik yang berulang
Lapisan 2: Semantic Cache (Pencocokan Kemiripan)
Untuk semua permintaan, kami juga memeriksa kemiripan semantik menggunakan algoritma pencocokan dua tahap:- Tahap 1 (Hanya kueri): ≥95% kemiripan pada kueri pengguna
- Tahap 2 (Konteks penuh): ≥85% kemiripan termasuk konteks percakapan
- Terbaik untuk: Kueri gaya FAQ, pertanyaan umum
Header Cache
Header Permintaan
Kontrol perilaku caching per permintaan:| Header | Nilai | Efek |
|---|---|---|
Cache-Control: no-cache | - | Lewati cache, respons baru |
Cache-Control: no-store | - | Jangan cache respons ini |
Header Respons
Setiap respons menyertakan status cache:Memeriksa Status Cache
Penagihan Cache
Cache hit secara signifikan lebih murah daripada permintaan baru:| Tipe | Biaya |
|---|---|
| Cache HIT | Diskon 80% |
| Cache MISS | Harga penuh |
Kontrol Privasi
Tingkat API Key
Konfigurasikan perilaku caching untuk setiap API key di dasbor Anda:| Mode | Deskripsi |
|---|---|
| Default | Cache diaktifkan, dapat dibagikan dengan permintaan serupa |
| No Share | Cache diaktifkan, tetapi respons bersifat pribadi untuk akun Anda |
| Disabled | Tidak ada caching sama sekali |
Tingkat Permintaan
Timpa per permintaan:Umpan Balik Cache
Jika Anda menerima respons cache yang salah, Anda dapat melaporkannya:wrong_answer- Secara faktual salahoutdated- Informasi sudah usangirrelevant- Tidak cocok dengan pertanyaanother- Masalah lainnya
Praktik Terbaik
Gunakan temperature=0 untuk kueri yang dapat di-cache
Gunakan temperature=0 untuk kueri yang dapat di-cache
Pengaturan deterministik memaksimalkan tingkat cache hit.
Standarisasi format prompt
Standarisasi format prompt
Pemformatan yang konsisten meningkatkan pencocokan semantik.
Gunakan no-cache untuk kueri yang sensitif terhadap waktu
Gunakan no-cache untuk kueri yang sensitif terhadap waktu
Peristiwa terkini, data real-time harus melewati cache.
Pantau tingkat cache hit
Pantau tingkat cache hit
Periksa dasbor Anda untuk statistik cache dan penghematan.
Kapan TIDAK menggunakan Cache
Nonaktifkan caching untuk:- Informasi real-time: Harga saham, cuaca, berita
- Konten yang dipersonalisasi: Rekomendasi khusus pengguna
- Tugas kreatif: Saat variasi diinginkan
- Data sensitif: Informasi rahasia