Model Seçimi
Doğru modeli seçmek, maliyet ve kaliteyi önemli ölçüde etkileyebilir.Görev Bazlı Öneriler
| Görev | Önerilen Modeller | Gerekçe |
|---|---|---|
| Basit Soru-Cevap | gpt-5-mini, gemini-2.5-flash | Hızlı, ucuz, yeterince iyi |
| Karmaşık akıl yürütme | gpt-5.4, claude-opus-4-6, deepseek-r1 | Daha iyi mantık ve planlama |
| Kodlama | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | Kod için optimize edilmiş |
| Yaratıcı yazım | claude-sonnet-4-6, gpt-4o | Daha iyi düzyazı kalitesi |
| Görsel/Resimler | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | Yerel vision desteği |
| Uzun bağlam | gemini-2.5-pro, claude-sonnet-4-6 | 1M+ token pencereleri |
| Maliyete duyarlı | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | En iyi fiyat/performans |
Maliyet Katmanları
Maliyet Optimizasyonu
1. Önce Daha Küçük Modeller Kullanın
2. max_tokens Ayarlayın
Her zaman makul birmax_tokens sınırı belirleyin:
3. Prompt’ları Optimize Edin
4. Caching’i Etkinleştirin
semantic caching özelliğinden yararlanın:5. Benzer İstekleri Batch Edin
Performans Optimizasyonu
1. UX için Streaming Kullanın
Streaming, algılanan performansı artırır:2. Etkileşimli Kullanım için Hızlı Modeller Seçin
| Kullanım Durumu | Önerilen | Gecikme |
|---|---|---|
| Chat UI | gpt-5-mini, gemini-2.5-flash | ~200ms ilk token |
| Tab tamamlama | claude-haiku-4-5 | ~150ms ilk token |
| Arka plan işleme | gpt-4o, claude-sonnet-4-6 | ~500ms ilk token |
3. Timeout Değerleri Ayarlayın
Güvenilirlik
1. Retry Mekanizması Uygulayın
2. Hataları Zarif Şekilde Yönetin
3. Fallback Modeller Kullanın
Güvenlik
1. API Key’leri Koruyun
2. Kullanıcı Girdisini Doğrulayın
3. API Key Limitleri Belirleyin
Şunlar için harcama limitlerine sahip ayrı API key’leri oluşturun:- Geliştirme/test
- Production
- Farklı uygulamalar
İzleme
1. Kullanımı Takip Edin
Aşağıdakiler için dashboard’unuzu düzenli olarak kontrol edin:- Modele göre token kullanımı
- Maliyet dağılımı
- Cache hit oranları
- Hata oranları
2. Önemli Metrikleri Loglayın
3. Uyarıları Ayarlayın
Hizmet kesintisini önlemek için dashboard’unuzda düşük bakiye uyarılarını yapılandırın.Kontrol Listesi
Maliyet optimizasyonu
Maliyet optimizasyonu
- Her görev için uygun model kullanımı
- max_tokens limitleri belirlenmiş
- Prompt’lar kısa ve öz
- Uygun yerlerde caching etkin
- Benzer istekler batch ediliyor
Performans
Performans
- Etkileşimli UX için streaming
- Gerçek zamanlı kullanım için hızlı modeller
- Timeout’lar yapılandırılmış
Güvenilirlik
Güvenilirlik
- Retry mantığı uygulanmış
- Hata yönetimi mevcut
- Fallback modeller yapılandırılmış
Güvenlik
Güvenlik
- API key’leri environment variable içinde
- Girdi doğrulama
- Geliştirme/production için ayrı key’ler
- Harcama limitleri belirlenmiş