モデル選択
適切なモデルを選択することで、コストと品質に大きな影響を与えることができます。タスク別の推奨
| タスク | 推奨モデル | 理由 |
|---|---|---|
| シンプルな Q&A | gpt-5-mini, gemini-2.5-flash | 高速、低コスト、十分な性能 |
| 複雑な推論 | gpt-5.4, claude-opus-4-6, deepseek-r1 | より優れたロジックと計画能力 |
| コーディング | claude-sonnet-4-6, gpt-4o, deepseek-v3.2 | コード向けに最適化 |
| クリエイティブライティング | claude-sonnet-4-6, gpt-4o | より高品質な文章生成 |
| Vision/画像 | gpt-4o, claude-sonnet-4-6, gemini-2.5-flash | ネイティブな vision サポート |
| 長いコンテキスト | gemini-2.5-pro, claude-sonnet-4-6 | 1M+ token ウィンドウ |
| コスト重視 | gpt-5-mini, gemini-2.5-flash, deepseek-v3.2 | 最も高いコストパフォーマンス |
コスト階層
コスト最適化
1. まず小さいモデルを使う
2. max_tokens を設定する
常に妥当なmax_tokens 制限を設定してください。
3. プロンプトを最適化する
4. キャッシュを有効にする
semantic caching を活用してください。5. 類似リクエストをバッチ化する
パフォーマンス最適化
1. UX のためにストリーミングを使う
ストリーミングにより、体感上のパフォーマンスが向上します。2. インタラクティブ用途には高速なモデルを選ぶ
| ユースケース | 推奨 | レイテンシ |
|---|---|---|
| Chat UI | gpt-5-mini, gemini-2.5-flash | 初回 token まで約 200ms |
| Tab completion | claude-haiku-4-5 | 初回 token まで約 150ms |
| バックグラウンド処理 | gpt-4o, claude-sonnet-4-6 | 初回 token まで約 500ms |
3. タイムアウトを設定する
信頼性
1. リトライを実装する
2. エラーを適切に処理する
3. フォールバックモデルを使う
セキュリティ
1. API キーを保護する
2. ユーザー入力を検証する
3. API キーの制限を設定する
支出上限付きの個別の API キーを以下の用途ごとに作成してください。- 開発/テスト
- 本番環境
- 異なるアプリケーション
モニタリング
1. 使用状況を追跡する
以下について、ダッシュボードを定期的に確認してください。- モデル別の token 使用量
- コストの内訳
- キャッシュヒット率
- エラー率
2. 重要なメトリクスをログに記録する
3. アラートを設定する
サービス中断を避けるために、ダッシュボードで残高不足アラートを設定してください。チェックリスト
コスト最適化
コスト最適化
- 各タスクに適したモデルを使用している
- max_tokens 制限を設定している
- プロンプトが簡潔である
- 適切な箇所でキャッシュを有効にしている
- 類似リクエストをバッチ化している
パフォーマンス
パフォーマンス
- インタラクティブな UX のためにストリーミングを使用している
- リアルタイム用途に高速なモデルを使用している
- タイムアウトを設定している
信頼性
信頼性
- リトライロジックを実装している
- エラーハンドリングを実装している
- フォールバックモデルを設定している
セキュリティ
セキュリティ
- API キーを環境変数で管理している
- 入力検証を行っている
- 開発/本番でキーを分けている
- 支出上限を設定している