模型選擇
選擇合適的模型會大幅影響成本與品質。依任務類型的建議
| 任務 | 建議模型 | 原因 |
|---|---|---|
| 簡單問答 | gpt-5-mini, gemini-2.5-flash | 快速、便宜、已足夠應付需求 |
| 複雜推理 | gpt-5.4, claude-opus-4-6, deepseek-r1 | 邏輯與規劃能力更佳 |
| 程式撰寫 | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | 針對程式碼進行最佳化 |
| 創意寫作 | claude-sonnet-4-6, gpt-4o | 文字表達品質更佳 |
| 視覺/影像 | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | 原生支援視覺能力 |
| 長上下文 | gemini-2.5-pro, claude-sonnet-4-6 | 1M+ token 視窗 |
| 成本敏感 | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | 最佳性價比 |
成本層級
成本最佳化
1. 優先使用較小型的模型
2. 設定 max_tokens
請務必設定合理的max_tokens 上限:
3. 最佳化 Prompt
4. 啟用快取
善用語意快取:5. 批次處理相似請求
效能最佳化
1. 為 UX 使用串流回應
串流回應可改善使用者感受到的效能:2. 互動式使用情境選擇快速模型
| 使用情境 | 建議 | 延遲 |
|---|---|---|
| 聊天 UI | gpt-5-mini, gemini-2.5-flash | ~200ms 首個 token |
| Tab 補全 | claude-haiku-4-5 | ~150ms 首個 token |
| 背景處理 | gpt-4o, claude-sonnet-4-6 | ~500ms 首個 token |
3. 設定逾時
可靠性
1. 實作重試機制
2. 妥善處理錯誤
3. 使用備援模型
安全性
1. 保護 API Keys
2. 驗證使用者輸入
3. 設定 API Key 限制
為以下用途建立具備支出上限的獨立 API keys:- 開發/測試
- 正式環境
- 不同應用程式
監控
1. 追蹤使用量
請定期檢查您的 dashboard,以掌握:- 各模型的 token 使用量
- 成本明細
- 快取命中率
- 錯誤率
2. 記錄重要指標
3. 設定警示
在您的 dashboard 中設定低餘額警示,以避免服務中斷。檢查清單
成本最佳化
成本最佳化
- 為每項任務使用適當的模型
- 設定 max_tokens 上限
- Prompt 保持精簡
- 在適當情況下啟用快取
- 批次處理相似請求
效能
效能
- 為互動式 UX 使用串流回應
- 即時使用情境採用快速模型
- 已設定逾時
可靠性
可靠性
- 已實作重試邏輯
- 已建立錯誤處理機制
- 已設定備援模型
安全性
安全性
- API keys 存放於環境變數中
- 輸入驗證
- 為 dev/prod 使用獨立 keys
- 已設定支出上限