En İyi Uygulamalar

Model Seçimi

Doğru modeli seçmek, maliyet ve kaliteyi önemli ölçüde etkileyebilir.

Görev Bazlı Öneriler

Görev	Önerilen Modeller	Gerekçe
Basit Soru-Cevap	`gpt-5-mini`, `gemini-2.5-flash`	Hızlı, ucuz, yeterince iyi
Karmaşık akıl yürütme	`gpt-5.4`, `claude-opus-4-6`, `deepseek-r1`	Daha iyi mantık ve planlama
Kodlama	`claude-sonnet-4-6`, `gpt-4o`, `deepseek-v3.2`	Kod için optimize edilmiş
Yaratıcı yazım	`claude-sonnet-4-6`, `gpt-4o`	Daha iyi düzyazı kalitesi
Görsel/Resimler	`gpt-4o`, `claude-sonnet-4-6`, `gemini-2.5-flash`	Yerel vision desteği
Uzun bağlam	`gemini-2.5-pro`, `claude-sonnet-4-6`	1M+ token pencereleri
Maliyete duyarlı	`gpt-5-mini`, `gemini-2.5-flash`, `deepseek-v3.2`	En iyi fiyat/performans

Maliyet Katmanları

$$$$ Premium: gpt-5.4, claude-opus-4-6
$$$  Standard: claude-sonnet-4-6, gpt-4o
$$   Budget:   gpt-5-mini, gemini-2.5-flash
$    Economy:  deepseek-v3.2, deepseek-r1

Maliyet Optimizasyonu

1. Önce Daha Küçük Modeller Kullanın

def smart_query(question: str, complexity: str = "auto"):
    """Use cheaper models for simple tasks."""

    if complexity == "simple":
        model = "gpt-5-mini"
    elif complexity == "complex":
        model = "gpt-4o"
    else:
        # Start cheap, escalate if needed
        model = "gpt-5-mini"

    response = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": question}]
    )
    return response

2. max_tokens Ayarlayın

Her zaman makul bir max_tokens sınırı belirleyin:

# ❌ Bad: No limit, could generate thousands of tokens
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}]
)

# ✅ Good: Limit response length
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Summarize this article"}],
    max_tokens=500  # Reasonable limit for a summary
)

3. Prompt’ları Optimize Edin

# ❌ Verbose prompt (more input tokens)
prompt = """
I would like you to please help me by analyzing the following text
and providing a comprehensive summary of the main points. Please be
thorough but also concise in your response. The text is as follows:
{text}
"""

# ✅ Concise prompt (fewer tokens)
prompt = "Summarize the key points:\n{text}"

4. Caching’i Etkinleştirin

semantic caching özelliğinden yararlanın:

# For repeated similar queries, caching provides major savings
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "What is machine learning?"}],
    temperature=0  # Deterministic = better cache hits
)

5. Benzer İstekleri Batch Edin

# ❌ Many small requests
for question in questions:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}]
    )

# ✅ Fewer larger requests
combined_prompt = "\n".join([f"{i+1}. {q}" for i, q in enumerate(questions)])
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": f"Answer each question:\n{combined_prompt}"}]
)

Performans Optimizasyonu

1. UX için Streaming Kullanın

Streaming, algılanan performansı artırır:

stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Write a long essay"}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

2. Etkileşimli Kullanım için Hızlı Modeller Seçin

Kullanım Durumu	Önerilen	Gecikme
Chat UI	`gpt-5-mini`, `gemini-2.5-flash`	~200ms ilk token
Tab tamamlama	`claude-haiku-4-5`	~150ms ilk token
Arka plan işleme	`gpt-4o`, `claude-sonnet-4-6`	~500ms ilk token

3. Timeout Değerleri Ayarlayın

client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.lemondata.cc/v1",
    timeout=60.0  # 60 second timeout
)

Güvenilirlik

1. Retry Mekanizması Uygulayın

import time
from openai import RateLimitError, APIError

def chat_with_retry(messages, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model="gpt-4o",
                messages=messages
            )
        except RateLimitError:
            wait = 2 ** attempt
            print(f"Rate limited, waiting {wait}s...")
            time.sleep(wait)
        except APIError as e:
            if attempt == max_retries - 1:
                raise
            time.sleep(1)
    raise Exception("Max retries exceeded")

2. Hataları Zarif Şekilde Yönetin

from openai import APIError, AuthenticationError, RateLimitError

try:
    response = client.chat.completions.create(...)
except AuthenticationError:
    # Check API key
    notify_admin("Invalid API key")
except RateLimitError:
    # Queue for later or use backup
    add_to_queue(request)
except APIError as e:
    if e.status_code == 402:
        notify_admin("Balance low")
    elif e.status_code >= 500:
        # Server error, retry later
        schedule_retry(request)

3. Fallback Modeller Kullanın

FALLBACK_CHAIN = ["gpt-4o", "claude-sonnet-4-6", "gemini-2.5-flash"]

def chat_with_fallback(messages):
    for model in FALLBACK_CHAIN:
        try:
            return client.chat.completions.create(
                model=model,
                messages=messages
            )
        except APIError:
            continue
    raise Exception("All models failed")

Güvenlik

1. API Key’leri Koruyun

# ❌ Never hardcode keys
client = OpenAI(api_key="sk-abc123...")

# ✅ Use environment variables
import os
client = OpenAI(api_key=os.environ["LEMONDATA_API_KEY"])

2. Kullanıcı Girdisini Doğrulayın

def validate_message(content: str) -> bool:
    """Validate user input before sending to API."""
    if len(content) > 100000:
        raise ValueError("Message too long")
    # Add other validation as needed
    return True

3. API Key Limitleri Belirleyin

Şunlar için harcama limitlerine sahip ayrı API key’leri oluşturun:

Geliştirme/test
Production
Farklı uygulamalar

İzleme

1. Kullanımı Takip Edin

Aşağıdakiler için dashboard’unuzu düzenli olarak kontrol edin:

Modele göre token kullanımı
Maliyet dağılımı
Cache hit oranları
Hata oranları

2. Önemli Metrikleri Loglayın

import logging

response = client.chat.completions.create(...)

logging.info({
    "model": response.model,
    "prompt_tokens": response.usage.prompt_tokens,
    "completion_tokens": response.usage.completion_tokens,
    "total_tokens": response.usage.total_tokens,
})

3. Uyarıları Ayarlayın

Hizmet kesintisini önlemek için dashboard’unuzda düşük bakiye uyarılarını yapılandırın.

Kontrol Listesi

Maliyet optimizasyonu

Her görev için uygun model kullanımı
max_tokens limitleri belirlenmiş
Prompt’lar kısa ve öz
Uygun yerlerde caching etkin
Benzer istekler batch ediliyor

Performans

Etkileşimli UX için streaming
Gerçek zamanlı kullanım için hızlı modeller
Timeout’lar yapılandırılmış

Güvenilirlik

Retry mantığı uygulanmış
Hata yönetimi mevcut
Fallback modeller yapılandırılmış

Güvenlik

API key’leri environment variable içinde
Girdi doğrulama
Geliştirme/production için ayrı key’ler
Harcama limitleri belirlenmiş

Faturalandırma ve Fiyatlandırma Video oluşturma

Başlarken

Temel kılavuzlar

Kodlama Ajanları

En İyi Uygulamalar

Model Seçimi

Görev Bazlı Öneriler

Maliyet Katmanları

Maliyet Optimizasyonu

1. Önce Daha Küçük Modeller Kullanın

2. max_tokens Ayarlayın

3. Prompt’ları Optimize Edin

4. Caching’i Etkinleştirin

5. Benzer İstekleri Batch Edin

Performans Optimizasyonu

1. UX için Streaming Kullanın

2. Etkileşimli Kullanım için Hızlı Modeller Seçin

3. Timeout Değerleri Ayarlayın

Güvenilirlik

1. Retry Mekanizması Uygulayın

2. Hataları Zarif Şekilde Yönetin

3. Fallback Modeller Kullanın

Güvenlik

1. API Key’leri Koruyun

2. Kullanıcı Girdisini Doğrulayın

3. API Key Limitleri Belirleyin

İzleme

1. Kullanımı Takip Edin

2. Önemli Metrikleri Loglayın

3. Uyarıları Ayarlayın

Kontrol Listesi

Başlarken

Temel kılavuzlar

Kodlama Ajanları

​Model Seçimi

​Görev Bazlı Öneriler

​Maliyet Katmanları

​Maliyet Optimizasyonu

​1. Önce Daha Küçük Modeller Kullanın

​2. max_tokens Ayarlayın

​3. Prompt’ları Optimize Edin

​4. Caching’i Etkinleştirin

​5. Benzer İstekleri Batch Edin

​Performans Optimizasyonu

​1. UX için Streaming Kullanın

​2. Etkileşimli Kullanım için Hızlı Modeller Seçin

​3. Timeout Değerleri Ayarlayın

​Güvenilirlik

​1. Retry Mekanizması Uygulayın

​2. Hataları Zarif Şekilde Yönetin

​3. Fallback Modeller Kullanın

​Güvenlik

​1. API Key’leri Koruyun

​2. Kullanıcı Girdisini Doğrulayın

​3. API Key Limitleri Belirleyin

​İzleme

​1. Kullanımı Takip Edin

​2. Önemli Metrikleri Loglayın

​3. Uyarıları Ayarlayın

​Kontrol Listesi

Model Seçimi

Görev Bazlı Öneriler

Maliyet Katmanları

Maliyet Optimizasyonu

1. Önce Daha Küçük Modeller Kullanın

2. max_tokens Ayarlayın

3. Prompt’ları Optimize Edin

4. Caching’i Etkinleştirin

5. Benzer İstekleri Batch Edin

Performans Optimizasyonu

1. UX için Streaming Kullanın

2. Etkileşimli Kullanım için Hızlı Modeller Seçin

3. Timeout Değerleri Ayarlayın

Güvenilirlik

1. Retry Mekanizması Uygulayın

2. Hataları Zarif Şekilde Yönetin

3. Fallback Modeller Kullanın

Güvenlik

1. API Key’leri Koruyun

2. Kullanıcı Girdisini Doğrulayın

3. API Key Limitleri Belirleyin

İzleme

1. Kullanımı Takip Edin

2. Önemli Metrikleri Loglayın

3. Uyarıları Ayarlayın

Kontrol Listesi