概览
LemonData 提供智能缓存系统,可显著降低您的 API 成本和响应延迟。我们的缓存不仅限于简单的请求匹配 —— 它还能理解 Prompt 的语义含义。节省成本
缓存命中仅按正常成本的一小部分计费。
更快的响应
缓存的响应会立即返回,无需模型推理。
上下文感知
语义匹配即使在措辞不同的情况下也能找到相似的请求。
隐私控制
完全控制缓存和共享的内容。
工作原理
LemonData 使用双层缓存系统:第一层:响应缓存(精确匹配)
对于确定性请求(temperature=0),我们会缓存精确的响应:
- 匹配:相同的模型、消息和参数
- 速度:瞬时(微秒级)
- 最适用于:重复的相同查询
第二层:语义缓存(相似度匹配)
对于所有请求,我们还会使用两阶段匹配算法检查语义相似度:- 第一阶段(仅查询):用户查询相似度 ≥95%
- 第二阶段(完整上下文):包含对话上下文的相似度 ≥85%
- 最适用于:常见问题解答(FAQ)类查询、常见问题
缓存控制
请求级控制
使用请求体中的cache_control 参数控制每个请求的缓存行为:
| 类型 | 效果 |
|---|---|
no_cache | 跳过缓存查找,始终获取新鲜响应 |
no_store | 不要将此响应存储在缓存中 |
response_only | 仅使用精确匹配缓存(跳过语义匹配) |
semantic_only | 仅使用语义缓存(跳过精确匹配) |
响应头
每个响应都包含缓存状态:检查缓存状态
缓存计费
缓存命中的费用显著低于新鲜请求:| 类型 | 费用 |
|---|---|
| 缓存命中 (HIT) | 1 折(优惠 90%) |
| 缓存未命中 (MISS) | 原价 |
隐私控制
组织 / 用户级别
在仪表板设置中配置缓存行为:| 模式 | 描述 |
|---|---|
| 共享 (Shared) | 启用缓存,响应可能会在用户之间共享(个人账户默认设置) |
| 隔离 (Isolated) | 启用缓存,但响应对您的组织私有(组织默认设置) |
| 禁用 (Disabled) | 完全不进行缓存 |
- 相似度阈值:调整语义匹配灵敏度(默认:92%)
- 自定义 TTL:覆盖缓存过期时间
- 排除的模型:禁用特定模型的缓存
请求级别
使用cache_control 参数覆盖单个请求:
缓存反馈
如果您收到错误的缓存响应,可以进行报告:wrong_answer- 事实错误outdated- 信息陈旧irrelevant- 与问题不符other- 其他问题
最佳实践
对可缓存的查询使用 temperature=0
对可缓存的查询使用 temperature=0
确定性设置可最大化缓存命中率。
标准化 Prompt 格式
标准化 Prompt 格式
一致的格式可以提高语义匹配效果。
对时间敏感的查询使用 no-cache
对时间敏感的查询使用 no-cache
时事、实时数据应跳过缓存。
监控缓存命中率
监控缓存命中率
在仪表板中查看缓存统计信息和节省情况。
何时不应使用缓存
在以下情况下禁用缓存:- 实时信息:股票价格、天气、新闻
- 个性化内容:针对特定用户的推荐
- 创意任务:当需要多样性时
- 敏感数据:机密信息