模型选择
选择合适的模型可以显著影响成本和质量。基于任务的建议
| 任务 | 推荐模型 | 推荐理由 |
|---|---|---|
| 简单问答 | gpt-4o-mini, gemini-2.5-flash | 快速、廉价、效果足够好 |
| 复杂推理 | o3, claude-opus-4-5, deepseek-r1 | 更强的逻辑和规划能力 |
| 编程 | claude-sonnet-4-5, gpt-4o, deepseek-v3.2 | 针对代码进行了优化 |
| 创意写作 | claude-sonnet-4-5, gpt-4o | 更好的文本质量 |
| 视觉/图像 | gpt-4o, claude-sonnet-4-5, gemini-2.5-flash | 原生视觉支持 |
| 长上下文 | gemini-2.5-pro, claude-sonnet-4-5 | 1M+ token 窗口 |
| 成本敏感 | gpt-4o-mini, gemini-2.5-flash, deepseek-v3.2 | 性价比最高 |
成本层级
成本优化
1. 优先使用小型模型
2. 设置 max_tokens
始终设置合理的max_tokens 限制:
3. 优化提示词 (Prompts)
4. 启用缓存
利用 语义缓存:5. 批量处理相似请求
性能优化
1. 使用流式传输 (Streaming) 提升用户体验
流式传输可以提高感知性能:2. 为交互式场景选择快速模型
| 使用场景 | 推荐模型 | 延迟 |
|---|---|---|
| 聊天界面 | gpt-4o-mini, gemini-2.5-flash | 首个 token 约 200ms |
| Tab 补全 | claude-haiku-4-5 | 首个 token 约 150ms |
| 后台处理 | gpt-4o, claude-sonnet-4-5 | 首个 token 约 500ms |
3. 设置超时时间
可靠性
1. 实现重试机制
2. 优雅地处理错误
3. 使用备用模型 (Fallback Models)
安全性
1. 保护 API Key
2. 验证用户输入
3. 设置 API Key 限制
为以下场景创建具有支出限制的独立 API Key:- 开发/测试
- 生产环境
- 不同的应用程序
监控
1. 追踪使用情况
定期检查您的仪表板以了解:- 各模型的 token 使用量
- 费用明细
- 缓存命中率
- 错误率
2. 记录重要指标
3. 设置警报
在仪表板中配置余额不足警报,以避免服务中断。检查清单
成本优化
成本优化
- 为每个任务使用合适的模型
- 设置 max_tokens 限制
- 提示词简洁明了
- 在适当的情况下启用缓存
- 批量处理相似请求
性能
性能
- 为交互式体验使用流式传输
- 为实时场景使用快速模型
- 已配置超时时间
可靠性
可靠性
- 已实现重试逻辑
- 错误处理已就绪
- 已配置备用模型
安全性
安全性
- API Key 存储在环境变量中
- 输入验证
- 开发/生产环境使用独立的 Key
- 已设置支出限制