Documentation Index
Fetch the complete documentation index at: https://docs.lemondata.cc/llms.txt
Use this file to discover all available pages before exploring further.
概览
LemonData 提供智能缓存系统,可显著降低您的 API 成本和响应延迟。我们的缓存不仅限于简单的请求匹配 —— 它还能理解 Prompt 的语义含义。节省成本
缓存命中仅按正常成本的一小部分计费。
更快的响应
缓存的响应会立即返回,无需模型推理。
上下文感知
语义匹配即使在措辞不同的情况下也能找到相似的请求。
隐私控制
完全控制缓存和共享的内容。
工作原理
LemonData 使用双层缓存系统:第一层:响应缓存(精确匹配)
对于确定性请求(temperature=0),我们会缓存精确的响应:
- 匹配:相同的模型、消息和参数
- 速度:瞬时(微秒级)
- 最适用于:重复的相同查询
第二层:语义缓存(相似度匹配)
对于所有请求,我们还会使用两阶段匹配算法检查语义相似度:- 第一阶段(仅查询):用户查询相似度 ≥95%
- 第二阶段(完整上下文):包含对话上下文的相似度 ≥95%
- 最适用于:常见问题解答(FAQ)类查询、常见问题
缓存控制
请求级控制
使用请求体中的cache_control 参数控制每个请求的缓存行为:
| 类型 | 效果 |
|---|---|
no_cache | 跳过缓存查找,始终获取新鲜响应 |
no_store | 不要将此响应存储在缓存中 |
response_only | 仅使用精确匹配缓存(跳过语义匹配) |
semantic_only | 仅使用语义缓存(跳过精确匹配) |
响应头
每个响应都包含缓存状态:检查缓存状态
缓存计费
缓存命中的费用显著低于新鲜请求:| 类型 | 费用 |
|---|---|
| 缓存命中 (HIT) | 1 折(优惠 90%) |
| 缓存未命中 (MISS) | 原价 |
隐私控制
组织 / 用户级别
在仪表板设置中配置缓存行为:| 模式 | 描述 |
|---|---|
| 共享 (Shared) | 启用缓存,响应可能会在用户之间共享(个人账户默认设置) |
| 隔离 (Isolated) | 启用缓存,但响应对您的组织私有(组织默认设置) |
| 禁用 (Disabled) | 完全不进行缓存 |
- 相似度阈值:调整语义匹配灵敏度(默认:92%)
- 自定义 TTL:覆盖缓存过期时间
- 排除的模型:禁用特定模型的缓存
请求级别
使用cache_control 参数覆盖单个请求:
缓存反馈
如果您收到错误的缓存响应,可以进行报告:wrong_answer- 事实错误outdated- 信息陈旧irrelevant- 与问题不符other- 其他问题
最佳实践
对可缓存的查询使用 temperature=0
对可缓存的查询使用 temperature=0
确定性设置可最大化缓存命中率。
标准化 Prompt 格式
标准化 Prompt 格式
一致的格式可以提高语义匹配效果。
对时间敏感的查询使用 no-cache
对时间敏感的查询使用 no-cache
时事、实时数据应跳过缓存。
监控缓存命中率
监控缓存命中率
在仪表板中查看缓存统计信息和节省情况。
何时不应使用缓存
在以下情况下禁用缓存:- 实时信息:股票价格、天气、新闻
- 个性化内容:针对特定用户的推荐
- 创意任务:当需要多样性时
- 敏感数据:机密信息