概覽
除了 LemonData 的 平台語義快取 之外,許多 AI 供應商也提供自有的 Prompt 快取 功能。這是一種運作於供應商層級(Anthropic、OpenAI、DeepSeek 等)的獨立快取機制。兩種快取類型
這兩者是互斥的:如果平台快取命中,則不會發起上游呼叫,因此供應商快取不適用。
| 類型 | 位置 | 運作方式 | 成本 |
|---|---|---|---|
| 平台快取 | LemonData | 語義相似度比對 | 正常價格的 10% |
| 供應商快取 | 上游 (Anthropic/OpenAI/等) | 精確前綴比對 | Token 費率優惠 |
供應商 Prompt 快取如何運作
供應商 Prompt 快取會將您 Prompt 前綴的處理後表示形式儲存在供應商的伺服器上。當您發送具有相同前綴的請求時,供應商可以跳過對這些 Token 的重複處理。關鍵特性
- 基於前綴:僅能快取 Prompt 的開頭部分
- 精確比對:需要完全相同的 Token(非語義相似度)
- 時效限制:快取項目會過期(通常為 5-60 分鐘)
- 自動化:無需特殊配置
支援的供應商
| 供應商 | 快取讀取折扣 | 快取寫入成本 | 最小 Token 數 |
|---|---|---|---|
| Anthropic | 90% 折扣 | 25% 溢價 | 1024 |
| OpenAI | 50% 折扣 | 與輸入相同 | 1024 |
| DeepSeek | 90% 折扣 | 與輸入相同 | 64 |
| 75% 折扣 | 25% 溢價 | 32768 |
折扣會自動套用。LemonData 會將供應商的快取定價直接轉嫁給您。
識別快取使用情況
在用量日誌中
您的用量日誌會顯示詳細的快取 Token 明細:| 欄位 | 描述 |
|---|---|
cacheReadTokens | 從供應商快取提供的 Token(享有折扣) |
cacheWriteTokens | 寫入快取的 Token(供未來請求使用) |
nonCachedPromptTokens | 未經快取處理的 Token |
在交易紀錄中
當使用上游快取時,交易紀錄會顯示 Provider Cache 標籤:- Cache (天藍色):平台語義快取命中 - 90% 折扣
- Provider Cache (鴨綠色):上游 Prompt 快取命中 - 優惠費率
成本計算範例
對於向 Claude (Anthropic) 發送 10,000 個輸入 Token 的請求: 無快取:最佳實踐
使用一致的系統 Prompt
使用一致的系統 Prompt
將您的系統 Prompt 和靜態上下文放在訊息的開頭。這能最大化快取命中的可能性。
批次處理相似請求
批次處理相似請求
在短時間內發送具有相同前綴的請求,以便在快取過期前獲益。
符合最小 Token 要求
符合最小 Token 要求
確保您的可快取前綴符合供應商的最小值(例如 Anthropic/OpenAI 為 1024 個 Token)。
監控快取指標
監控快取指標
查看儀表板用量統計,瞭解快取命中率和節省金額。
平台快取 vs 供應商快取
| 面向 | 平台快取 | 供應商快取 |
|---|---|---|
| 比對方式 | 語義相似度 | 精確前綴比對 |
| 成本 | 正常價格的 10% | 優惠費率 |
| 延遲 | 即時 (~1ms) | 降低(跳過處理) |
| 控制 | 儀表板設定 | 自動 |
| 範圍 | 跨使用者(選填) | 每個 API 金鑰 |
何時適用
檢查快取狀態
回應標頭
用量 API
查詢您的用量日誌以查看快取明細:常見問題
我可以停用供應商快取嗎?
我可以停用供應商快取嗎?
供應商快取是自動的且無法停用。然而,它只會對您有利(降低成本),因此沒有理由停用它。
為什麼我的請求沒有命中供應商快取?
為什麼我的請求沒有命中供應商快取?
常見原因:
- 前綴已更改(即使只有一個 Token 的差異)
- 快取已過期(通常為 5-60 分鐘)
- 前綴太短(低於最小 Token 數)
- 使用了不同的 API 金鑰
BYOK 是否支援供應商快取?
BYOK 是否支援供應商快取?
是的!當使用您自己的 API 金鑰 (BYOK) 時,供應商快取的運作方式相同。快取會綁定到您的上游 API 金鑰。
如何最大化快取節省?
如何最大化快取節省?
- 對於重複的相似查詢使用平台語義快取
- 將靜態內容放在 Prompt 的最前面
- 在不同請求之間保持系統 Prompt 的一致性
- 快速連續發送相關請求