Gambaran Umum
Selain platform semantic cache LemonData, banyak penyedia AI menawarkan fitur prompt caching mereka sendiri. Ini adalah mekanisme caching terpisah yang beroperasi pada tingkat penyedia (Anthropic, OpenAI, DeepSeek, dll.).Dua Jenis Caching
Ini bersifat mutually exclusive: jika platform cache hit, tidak ada panggilan upstream yang dilakukan, sehingga provider cache tidak berlaku.
| Jenis | Lokasi | Cara Kerja | Biaya |
|---|---|---|---|
| Platform Cache | LemonData | Pencocokan kemiripan semantik | 10% dari harga normal |
| Provider Cache | Upstream (Anthropic/OpenAI/dll) | Pencocokan awalan (prefix) yang tepat | Tarif token diskon |
Cara Kerja Provider Prompt Cache
Provider prompt caching menyimpan representasi terproses dari awalan (prefix) prompt Anda di server penyedia. Saat Anda mengirim permintaan dengan awalan yang sama, penyedia dapat melewati pemrosesan ulang token tersebut.Karakteristik Utama
- Berbasis awalan (prefix): Hanya bagian awal prompt Anda yang dapat di-cache
- Pencocokan tepat: Memerlukan token yang identik (bukan kemiripan semantik)
- Terbatas waktu: Entri cache kedaluwarsa (biasanya 5-60 menit)
- Otomatis: Tidak diperlukan konfigurasi khusus
Penyedia yang Didukung
| Penyedia | Diskon Baca Cache | Biaya Tulis Cache | Token Minimum |
|---|---|---|---|
| Anthropic | Diskon 90% | Premium 25% | 1024 |
| OpenAI | Diskon 50% | Sama dengan input | 1024 |
| DeepSeek | Diskon 90% | Sama dengan input | 64 |
| Diskon 75% | Premium 25% | 32768 |
Diskon diterapkan secara otomatis. LemonData meneruskan harga cache penyedia kepada Anda.
Mengidentifikasi Penggunaan Cache
Dalam Log Penggunaan
Log penggunaan Anda menunjukkan rincian token cache yang mendetail:| Bidang | Deskripsi |
|---|---|
cacheReadTokens | Token yang dilayani dari provider cache (didiskon) |
cacheWriteTokens | Token yang ditulis ke cache (untuk permintaan di masa mendatang) |
nonCachedPromptTokens | Token yang diproses tanpa cache |
Dalam Transaksi
Transaksi menunjukkan label Provider Cache saat caching upstream digunakan:- Cache (biru langit): Platform semantic cache hit - diskon 90%
- Provider Cache (teal): Upstream prompt cache hit - tarif diskon
Contoh Perhitungan Biaya
Untuk permintaan dengan 10.000 token input ke Claude (Anthropic): Tanpa cache:Praktik Terbaik
Gunakan system prompt yang konsisten
Gunakan system prompt yang konsisten
Tempatkan system prompt dan konteks statis Anda di awal pesan. Ini memaksimalkan potensi cache hit.
Kelompokkan permintaan serupa
Kelompokkan permintaan serupa
Kirim permintaan dengan awalan yang sama dalam waktu yang berdekatan untuk mendapatkan manfaat dari cache sebelum kedaluwarsa.
Penuhi persyaratan token minimum
Penuhi persyaratan token minimum
Pastikan awalan yang dapat di-cache memenuhi batas minimum penyedia (misalnya, 1024 token untuk Anthropic/OpenAI).
Pantau metrik cache
Pantau metrik cache
Periksa statistik penggunaan dasbor Anda untuk tingkat cache hit dan penghematan.
Platform Cache vs Provider Cache
| Aspek | Platform Cache | Provider Cache |
|---|---|---|
| Pencocokan | Kemiripan semantik | Pencocokan awalan tepat |
| Biaya | 10% dari harga normal | Tarif diskon |
| Latensi | Instan (~1ms) | Berkurang (melewati pemrosesan) |
| Kontrol | Pengaturan dasbor | Otomatis |
| Cakupan | Lintas pengguna (opsional) | Per-API-key |
Kapan Masing-masing Berlaku
Memeriksa Status Cache
Header Respons
API Penggunaan
Kueri log penggunaan Anda untuk melihat rincian cache:FAQ
Dapatkah saya menonaktifkan provider caching?
Dapatkah saya menonaktifkan provider caching?
Provider caching bersifat otomatis dan tidak dapat dinonaktifkan. Namun, hal ini hanya menguntungkan Anda (biaya lebih rendah), jadi tidak ada alasan untuk menonaktifkannya.
Mengapa permintaan saya tidak hit provider cache?
Mengapa permintaan saya tidak hit provider cache?
Alasan umum:
- Awalan berubah (bahkan perbedaan satu token)
- Cache kedaluwarsa (biasanya 5-60 menit)
- Awalan terlalu pendek (di bawah token minimum)
- Kunci API yang digunakan berbeda
Apakah BYOK mendukung provider caching?
Apakah BYOK mendukung provider caching?
Ya! Saat menggunakan kunci API Anda sendiri (BYOK), provider caching bekerja dengan cara yang sama. Cache terikat pada kunci API upstream Anda.
Bagaimana cara memaksimalkan penghematan cache?
Bagaimana cara memaksimalkan penghematan cache?
- Gunakan platform semantic cache untuk kueri serupa yang berulang
- Strukturkan prompt dengan konten statis terlebih dahulu
- Jaga agar system prompt tetap konsisten di seluruh permintaan
- Kirim permintaan terkait secara berurutan dengan cepat