概览
除了 LemonData 的 平台语义缓存 之外,许多 AI 供应商也提供自有的 Prompt 缓存 功能。这是一种运作于供应商级别(Anthropic、OpenAI、DeepSeek 等)的独立缓存机制。两种缓存类型
这两者是互斥的:如果平台缓存命中,则不会发起上游调用,因此供应商缓存不适用。
| 类型 | 位置 | 工作原理 | 成本 |
|---|---|---|---|
| 平台缓存 | LemonData | 语义相似度匹配 | 正常价格的 10% |
| 供应商缓存 | 上游 (Anthropic/OpenAI/等) | 精确前缀匹配 | 折扣 Token 费率 |
供应商 Prompt 缓存如何工作
供应商 Prompt 缓存会将您 Prompt 前缀的处理后表示形式存储在供应商的服务器上。当您发送具有相同前缀的请求时,供应商可以跳过对这些 Token 的重复处理。关键特性
- 基于前缀:仅能缓存 Prompt 的开头部分
- 精确匹配:需要完全相同的 Token(非语义相似度)
- 时效限制:缓存条目会过期(通常为 5-60 分钟)
- 自动化:无需特殊配置
支持的供应商
| 供应商 | 缓存读取折扣 | 缓存写入成本 | 最小 Token 数 |
|---|---|---|---|
| Anthropic | 90% 折扣 | 25% 溢价 | 1024 |
| OpenAI | 50% 折扣 | 与输入相同 | 1024 |
| DeepSeek | 90% 折扣 | 与输入相同 | 64 |
| 75% 折扣 | 25% 溢价 | 32768 |
折扣会自动应用。LemonData 会将供应商的缓存定价直接传递给您。
识别缓存使用情况
在用量日志中
您的用量日志会显示详细的缓存 Token 明细:| 字段 | 描述 |
|---|---|
cacheReadTokens | 从供应商缓存提供的 Token(享有折扣) |
cacheWriteTokens | 写入缓存的 Token(供未来请求使用) |
nonCachedPromptTokens | 未经缓存处理的 Token |
在交易记录中
当使用上游缓存时,交易记录会显示 Provider Cache 标签:- Cache (天蓝色):平台语义缓存命中 - 90% 折扣
- Provider Cache (青色):上游 Prompt 缓存命中 - 折扣费率
成本计算示例
对于向 Claude (Anthropic) 发送 10,000 个输入 Token 的请求: 无缓存:最佳实践
使用一致的系统提示词
使用一致的系统提示词
将您的系统提示词和静态上下文放在消息的开头。这能最大化缓存命中的可能性。
批量处理相似请求
批量处理相似请求
在短时间内发送具有相同前缀的请求,以便在缓存过期前获益。
满足最小 Token 要求
满足最小 Token 要求
确保您的可缓存前缀满足供应商的最小值(例如 Anthropic/OpenAI 为 1024 个 Token)。
监控缓存指标
监控缓存指标
查看仪表盘用量统计,了解缓存命中率和节省金额。
平台缓存 vs 供应商缓存
| 方面 | 平台缓存 | 供应商缓存 |
|---|---|---|
| 匹配方式 | 语义相似度 | 精确前缀匹配 |
| 成本 | 正常价格的 10% | 折扣费率 |
| 延迟 | 即时 (~1ms) | 降低(跳过处理) |
| 控制 | 仪表盘设置 | 自动 |
| 范围 | 跨用户(可选) | 每个 API 密钥 |
何时适用
检查缓存状态
响应头
用量 API
查询您的用量日志以查看缓存明细:常见问题
我可以禁用供应商缓存吗?
我可以禁用供应商缓存吗?
供应商缓存是自动的且无法禁用。然而,它只会对您有利(降低成本),因此没有理由禁用它。
为什么我的请求没有命中供应商缓存?
为什么我的请求没有命中供应商缓存?
常见原因:
- 前缀已更改(即使只有一个 Token 的差异)
- 缓存已过期(通常为 5-60 分钟)
- 前缀太短(低于最小 Token 数)
- 使用了不同的 API 密钥
BYOK 是否支持供应商缓存?
BYOK 是否支持供应商缓存?
是的!当使用您自己的 API 密钥 (BYOK) 时,供应商缓存的工作方式相同。缓存会绑定到您的上游 API 密钥。
如何最大化缓存节省?
如何最大化缓存节省?
- 对于重复的相似查询使用平台语义缓存
- 将静态内容放在 Prompt 的最前面
- 在不同请求之间保持系统提示词的一致性
- 快速连续发送相关请求