模型選擇
選擇合適的模型會顯著影響成本與品質。基於任務的建議
| 任務 | 推薦模型 | 原因 |
|---|---|---|
| 簡單問答 | gpt-4o-mini, gemini-2.5-flash | 快速、便宜、足夠好用 |
| 複雜推理 | o3, claude-opus-4-5, deepseek-r1 | 更好的邏輯與規劃能力 |
| 程式編寫 | claude-sonnet-4-5, gpt-4o, deepseek-v3.2 | 針對程式碼優化 |
| 創意寫作 | claude-sonnet-4-5, gpt-4o | 更好的散文品質 |
| 視覺/圖像 | gpt-4o, claude-sonnet-4-5, gemini-2.5-flash | 原生視覺支援 |
| 長上下文 | gemini-2.5-pro, claude-sonnet-4-5 | 1M+ token 視窗 |
| 成本敏感 | gpt-4o-mini, gemini-2.5-flash, deepseek-v3.2 | 最佳性價比 |
成本分級
成本優化
1. 優先使用小型模型
2. 設定 max_tokens
務必設定合理的max_tokens 限制:
3. 優化 Prompt
4. 啟用快取
善用 語義快取:5. 批次處理相似請求
效能優化
1. 使用串流 (Streaming) 提升使用者體驗
串流可以提升感知的效能:2. 為互動式用途選擇快速模型
| 使用場景 | 推薦模型 | 延遲 |
|---|---|---|
| 聊天介面 | gpt-4o-mini, gemini-2.5-flash | 首個 token 約 200ms |
| 自動補全 | claude-haiku-4-5 | 首個 token 約 150ms |
| 背景處理 | gpt-4o, claude-sonnet-4-5 | 首個 token 約 500ms |
3. 設定逾時 (Timeouts)
可靠性
1. 實作重試機制
2. 優雅地處理錯誤
3. 使用備援模型 (Fallback Models)
安全性
1. 保護 API Key
2. 驗證使用者輸入
3. 設定 API Key 限制
為以下用途建立具備支出限制的獨立 API Key:- 開發/測試
- 正式環境
- 不同的應用程式
監控
1. 追蹤使用量
定期檢查您的控制面板以了解:- 各模型的 token 使用量
- 費用明細
- 快取命中率
- 錯誤率
2. 記錄重要指標
3. 設定警示
在控制面板中配置餘額不足警示,以避免服務中斷。檢查清單
成本優化
成本優化
- 為每項任務使用合適的模型
- 設定 max_tokens 限制
- Prompt 保持簡潔
- 在適當的地方啟用快取
- 批次處理相似請求
效能
效能
- 為互動式體驗使用串流
- 為即時用途使用快速模型
- 已配置逾時設定
可靠性
可靠性
- 已實作重試邏輯
- 錯誤處理已就緒
- 已配置備援模型
安全性
安全性
- API Key 儲存於環境變數中
- 輸入驗證
- 開發/正式環境使用獨立金鑰
- 已設定支出限制