模型选择
选择合适的模型会显著影响成本和质量。基于任务的推荐
| 任务 | 推荐模型 | 原因 |
|---|---|---|
| 简单问答 | gpt-5-mini, gemini-2.5-flash | 快速、便宜、足够好用 |
| 复杂推理 | gpt-5.4, claude-opus-4-6, deepseek-r1 | 更好的逻辑和规划能力 |
| 编程 | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | 针对代码进行了优化 |
| 创意写作 | claude-sonnet-4-6, gpt-4o | 更好的文风质量 |
| 视觉/图像 | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | 原生视觉支持 |
| 长上下文 | gemini-2.5-pro, claude-sonnet-4-6 | 1M+ token 窗口 |
| 成本敏感 | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | 性价比最佳 |
成本层级
成本优化
1. 优先使用更小的模型
2. 设置 max_tokens
始终设置合理的max_tokens 限制:
3. 优化 Prompt
4. 启用缓存
利用语义缓存:5. 批量处理相似请求
性能优化
1. 为 UX 使用流式输出
流式输出可以改善感知性能:2. 为交互式使用选择快速模型
| 使用场景 | 推荐 | 延迟 |
|---|---|---|
| Chat UI | gpt-5-mini, gemini-2.5-flash | ~200ms 首 token |
| Tab completion | claude-haiku-4-5 | ~150ms 首 token |
| 后台处理 | gpt-4o, claude-sonnet-4-6 | ~500ms 首 token |
3. 设置超时
可靠性
1. 实现重试机制
2. 优雅地处理错误
3. 使用回退模型
安全性
1. 保护 API Key
2. 验证用户输入
3. 设置 API Key 限额
为以下场景创建带有消费限额的独立 API Key:- 开发/测试
- 生产环境
- 不同应用程序
监控
1. 跟踪使用情况
定期检查你的仪表盘,关注:- 按模型统计的 token 使用量
- 成本明细
- 缓存命中率
- 错误率
2. 记录重要指标
3. 设置告警
在你的仪表盘中配置低余额告警,以避免服务中断。检查清单
成本优化
成本优化
- 为每项任务使用合适的模型
- 设置 max_tokens 限制
- Prompt 简洁
- 在适用场景启用缓存
- 批量处理相似请求
性能
性能
- 为交互式 UX 使用流式输出
- 为实时使用选择快速模型
- 已配置超时
可靠性
可靠性
- 已实现重试逻辑
- 已具备错误处理机制
- 已配置回退模型
安全性
安全性
- API Key 存储在环境变量中
- 输入验证
- 为 dev/prod 使用独立 Key
- 已设置消费限额