跳轉到主要內容

概覽

除了 LemonData 的 平台語義快取 之外,許多 AI 供應商也提供自有的 Prompt 快取 功能。這是一種運作於供應商層級(Anthropic、OpenAI、DeepSeek 等)的獨立快取機制。
兩種快取類型
類型位置運作方式成本
平台快取LemonData語義相似度比對正常價格的 10%
供應商快取上游 (Anthropic/OpenAI/等)精確前綴比對Token 費率優惠
這兩者是互斥的:如果平台快取命中,則不會發起上游呼叫,因此供應商快取不適用。

供應商 Prompt 快取如何運作

供應商 Prompt 快取會將您 Prompt 前綴的處理後表示形式儲存在供應商的伺服器上。當您發送具有相同前綴的請求時,供應商可以跳過對這些 Token 的重複處理。

關鍵特性

  • 基於前綴:僅能快取 Prompt 的開頭部分
  • 精確比對:需要完全相同的 Token(非語義相似度)
  • 時效限制:快取項目會過期(通常為 5-60 分鐘)
  • 自動化:無需特殊配置
請求 1: [系統提示詞 + 上下文 A + 問題 1]
         ^^^^^^^^^^^^^^^^^^^^^^^^
         此前綴被快取

請求 2: [系統提示詞 + 上下文 A + 問題 2]
         ^^^^^^^^^^^^^^^^^^^^^^^^
         快取命中!僅處理問題 2

支援的供應商

供應商快取讀取折扣快取寫入成本最小 Token 數
Anthropic90% 折扣25% 溢價1024
OpenAI50% 折扣與輸入相同1024
DeepSeek90% 折扣與輸入相同64
Google75% 折扣25% 溢價32768
折扣會自動套用。LemonData 會將供應商的快取定價直接轉嫁給您。

識別快取使用情況

在用量日誌中

您的用量日誌會顯示詳細的快取 Token 明細:
欄位描述
cacheReadTokens從供應商快取提供的 Token(享有折扣)
cacheWriteTokens寫入快取的 Token(供未來請求使用)
nonCachedPromptTokens未經快取處理的 Token

在交易紀錄中

當使用上游快取時,交易紀錄會顯示 Provider Cache 標籤:
  • Cache (天藍色):平台語義快取命中 - 90% 折扣
  • Provider Cache (鴨綠色):上游 Prompt 快取命中 - 優惠費率

成本計算範例

對於向 Claude (Anthropic) 發送 10,000 個輸入 Token 的請求: 無快取:
10,000 tokens × $3.00/1M = $0.030
使用供應商快取(8,000 個已快取 + 2,000 個新 Token):
快取讀取:  8,000 tokens × $0.30/1M = $0.0024  (90% 折扣)
快取寫入:  2,000 tokens × $3.75/1M = $0.0075  (25% 溢價)
總計: $0.0099 (節省 67%)

最佳實踐

將您的系統 Prompt 和靜態上下文放在訊息的開頭。這能最大化快取命中的可能性。
在短時間內發送具有相同前綴的請求,以便在快取過期前獲益。
確保您的可快取前綴符合供應商的最小值(例如 Anthropic/OpenAI 為 1024 個 Token)。
查看儀表板用量統計,瞭解快取命中率和節省金額。

平台快取 vs 供應商快取

面向平台快取供應商快取
比對方式語義相似度精確前綴比對
成本正常價格的 10%優惠費率
延遲即時 (~1ms)降低(跳過處理)
控制儀表板設定自動
範圍跨使用者(選填)每個 API 金鑰

何時適用

請求到達


┌─────────────────────┐
│ 平台快取命中?      │
└─────────────────────┘
    │ 是               │ 否
    ▼                  ▼
┌─────────┐    ┌─────────────────────┐
│ 回傳     │    │ 呼叫上游 API        │
│ 快取內容 │    └─────────────────────┘
│ (10%)   │            │
└─────────┘            ▼
               ┌─────────────────────┐
               │ 供應商快取命中?    │
               └─────────────────────┘
                   │ 是         │ 否
                   ▼            ▼
               優惠 Token    全額 Token
               費率          費率

檢查快取狀態

回應標頭

X-Cache-Status: HIT           # 平台快取命中
X-Cache-Status: MISS          # 無平台快取
X-Upstream-Cache-Read: 8000   # 供應商快取讀取 tokens
X-Upstream-Cache-Write: 2000  # 供應商快取寫入 tokens

用量 API

查詢您的用量日誌以查看快取明細:
curl https://api.lemondata.cc/v1/usage/logs \
  -H "Authorization: Bearer sk-your-key" \
  -H "Content-Type: application/json"
回應包含:
{
  "promptTokens": 10000,
  "cacheReadTokens": 8000,
  "cacheWriteTokens": 2000,
  "nonCachedPromptTokens": 0,
  "completionTokens": 500,
  "cost": 0.0099
}

常見問題

供應商快取是自動的且無法停用。然而,它只會對您有利(降低成本),因此沒有理由停用它。
常見原因:
  • 前綴已更改(即使只有一個 Token 的差異)
  • 快取已過期(通常為 5-60 分鐘)
  • 前綴太短(低於最小 Token 數)
  • 使用了不同的 API 金鑰
是的!當使用您自己的 API 金鑰 (BYOK) 時,供應商快取的運作方式相同。快取會綁定到您的上游 API 金鑰。
  1. 對於重複的相似查詢使用平台語義快取
  2. 將靜態內容放在 Prompt 的最前面
  3. 在不同請求之間保持系統 Prompt 的一致性
  4. 快速連續發送相關請求