Model Seçimi
Doğru modeli seçmek, maliyet ve kaliteyi önemli ölçüde etkileyebilir.Görev Bazlı Öneriler
| Görev | Önerilen Modeller | Gerekçe |
|---|---|---|
| Basit Soru-Cevap | gpt-4o-mini, gemini-2.5-flash | Hızlı, ucuz, yeterince iyi |
| Karmaşık akıl yürütme | o3, claude-opus-4-5, deepseek-r1 | Daha iyi mantık ve planlama |
| Kodlama | claude-sonnet-4-5, gpt-4o, deepseek-v3.2 | Kod için optimize edilmiş |
| Yaratıcı yazım | claude-sonnet-4-5, gpt-4o | Daha iyi düzyazı kalitesi |
| Görüntü/Resim | gpt-4o, claude-sonnet-4-5, gemini-2.5-flash | Yerel görüntü desteği |
| Uzun bağlam | gemini-2.5-pro, claude-sonnet-4-5 | 1M+ token penceresi |
| Maliyet duyarlı | gpt-4o-mini, gemini-2.5-flash, deepseek-v3.2 | En iyi değer |
Maliyet Kademeleri
Maliyet Optimizasyonu
1. Önce Daha Küçük Modelleri Kullanın
2. max_tokens Değerini Ayarlayın
Her zaman makul birmax_tokens sınırı belirleyin:
3. Prompt’ları Optimize Edin
4. Önbelleğe Almayı Etkinleştirin
Anlamsal önbelleğe alma özelliğinden yararlanın:5. Benzer İstekleri Gruplandırın (Batch)
Performans Optimizasyonu
1. Kullanıcı Deneyimi (UX) için Streaming Kullanın
Streaming (akış), algılanan performansı artırır:2. Etkileşimli Kullanım için Hızlı Modeller Seçin
| Kullanım Durumu | Önerilen | Gecikme |
|---|---|---|
| Sohbet Arayüzü | gpt-4o-mini, gemini-2.5-flash | ~200ms ilk token |
| Sekme tamamlama | claude-haiku-4-5 | ~150ms ilk token |
| Arka plan işleme | gpt-4o, claude-sonnet-4-5 | ~500ms ilk token |
3. Zaman Aşımlarını (Timeout) Ayarlayın
Güvenilirlik
1. Yeniden Denemeleri (Retry) Uygulayın
2. Hataları Düzgün Bir Şekilde Yönetin
3. Yedek (Fallback) Modeller Kullanın
Güvenlik
1. API Anahtarlarını Koruyun
2. Kullanıcı Girişini Doğrulayın
3. API Anahtarı Sınırlarını Belirleyin
Aşağıdakiler için harcama limitli ayrı API anahtarları oluşturun:- Geliştirme/test
- Üretim (Production)
- Farklı uygulamalar
İzleme
1. Kullanımı Takip Edin
Panelinizi aşağıdakiler için düzenli olarak kontrol edin:- Modele göre token kullanımı
- Maliyet dökümü
- Önbellek isabet oranları
- Hata oranları
2. Önemli Metrikleri Günlüğe Kaydedin (Log)
3. Uyarılar Oluşturun
Hizmet kesintisini önlemek için panelinizde düşük bakiye uyarıları yapılandırın.Kontrol Listesi
Maliyet optimizasyonu
Maliyet optimizasyonu
- Her görev için uygun modelin kullanılması
- max_tokens sınırlarının belirlenmesi
- Prompt’ların kısa ve öz olması
- Uygun yerlerde önbelleğe almanın etkinleştirilmesi
- Benzer isteklerin gruplandırılması
Performans
Performans
- Etkileşimli UX için streaming kullanımı
- Gerçek zamanlı kullanım için hızlı modeller
- Zaman aşımlarının yapılandırılması
Güvenilirlik
Güvenilirlik
- Yeniden deneme mantığının uygulanması
- Hata yönetiminin hazır olması
- Yedek modellerin yapılandırılması
Güvenlik
Güvenlik
- API anahtarlarının ortam değişkenlerinde tutulması
- Giriş doğrulaması
- Geliştirme/üretim için ayrı anahtarlar
- Harcama limitlerinin belirlenmesi