Lựa chọn model
Việc chọn đúng model có thể ảnh hưởng đáng kể đến chi phí và chất lượng.Khuyến nghị theo tác vụ
| Tác vụ | Model khuyến nghị | Lý do |
|---|---|---|
| Hỏi & đáp đơn giản | gpt-5-mini, gemini-2.5-flash | Nhanh, rẻ, đủ tốt |
| Suy luận phức tạp | gpt-5.4, claude-opus-4-6, deepseek-r1 | Logic và lập kế hoạch tốt hơn |
| Lập trình | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | Được tối ưu cho code |
| Viết sáng tạo | claude-sonnet-4-6, gpt-4o | Chất lượng văn phong tốt hơn |
| Thị giác/Hình ảnh | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | Hỗ trợ thị giác gốc |
| Ngữ cảnh dài | gemini-2.5-pro, claude-sonnet-4-6 | Cửa sổ token 1M+ |
| Nhạy cảm về chi phí | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | Giá trị tốt nhất |
Các mức chi phí
Tối ưu chi phí
1. Ưu tiên sử dụng model nhỏ hơn trước
2. Thiết lập max_tokens
Luôn đặt giới hạn max_tokens hợp lý:
3. Tối ưu prompt
4. Bật caching
Tận dụng semantic caching:5. Gộp các request tương tự theo lô
Tối ưu hiệu năng
1. Sử dụng streaming cho UX
Streaming cải thiện hiệu năng được cảm nhận:2. Chọn model nhanh cho các trường hợp sử dụng tương tác
| Trường hợp sử dụng | Khuyến nghị | Độ trễ |
|---|---|---|
| Chat UI | gpt-5-mini, gemini-2.5-flash | ~200ms token đầu tiên |
| Hoàn thành tab | claude-haiku-4-5 | ~150ms token đầu tiên |
| Xử lý nền | gpt-4o, claude-sonnet-4-6 | ~500ms token đầu tiên |
3. Thiết lập timeout
Độ tin cậy
1. Triển khai retry
2. Xử lý lỗi một cách phù hợp
3. Sử dụng model dự phòng
Bảo mật
1. Bảo vệ API key
2. Xác thực dữ liệu đầu vào của người dùng
3. Thiết lập giới hạn cho API key
Tạo các API key riêng biệt với giới hạn chi tiêu cho:- Phát triển/kiểm thử
- Production
- Các ứng dụng khác nhau
Giám sát
1. Theo dõi mức sử dụng
Kiểm tra dashboard của bạn thường xuyên để theo dõi:- Mức sử dụng token theo model
- Phân tích chi phí
- Tỷ lệ cache hit
- Tỷ lệ lỗi
2. Ghi log các chỉ số quan trọng
3. Thiết lập cảnh báo
Cấu hình cảnh báo số dư thấp trong dashboard của bạn để tránh gián đoạn dịch vụ.Danh sách kiểm tra
Tối ưu chi phí
Tối ưu chi phí
- Sử dụng model phù hợp cho từng tác vụ
- Thiết lập giới hạn max_tokens
- Prompt ngắn gọn
- Bật caching ở những nơi phù hợp
- Gộp các request tương tự
Hiệu năng
Hiệu năng
- Streaming cho UX tương tác
- Model nhanh cho sử dụng thời gian thực
- Đã cấu hình timeout
Độ tin cậy
Độ tin cậy
- Đã triển khai logic retry
- Đã có xử lý lỗi
- Đã cấu hình model dự phòng
Bảo mật
Bảo mật
- API key trong biến môi trường
- Xác thực dữ liệu đầu vào
- Key riêng cho dev/prod
- Đã đặt giới hạn chi tiêu