モデルの選択
適切なモデルを選択することは、コストと品質に大きな影響を与えます。タスク別の推奨事項
| タスク | 推奨モデル | 理由 |
|---|---|---|
| シンプルな Q&A | gpt-4o-mini, gemini-2.5-flash | 高速、低コスト、十分な品質 |
| 複雑な推論 | o3, claude-opus-4-5, deepseek-r1 | より優れた論理と計画 |
| コーディング | claude-sonnet-4-5, gpt-4o, deepseek-v3.2 | コードに最適化 |
| クリエイティブライティング | claude-sonnet-4-5, gpt-4o | より優れた文章品質 |
| ビジョン/画像 | gpt-4o, claude-sonnet-4-5, gemini-2.5-flash | ネイティブのビジョンサポート |
| 長いコンテキスト | gemini-2.5-pro, claude-sonnet-4-5 | 100万以上のトークンウィンドウ |
| コスト重視 | gpt-4o-mini, gemini-2.5-flash, deepseek-v3.2 | 最高のコスパ |
コスト階層
コストの最適化
1. 最初に小規模なモデルを使用する
2. max_tokens を設定する
常に適切なmax_tokens 制限を設定してください:
3. プロンプトを最適化する
4. キャッシュを有効にする
セマンティックキャッシュを活用してください:5. 同様のリクエストをバッチ処理する
パフォーマンスの最適化
1. UX のためにストリーミングを使用する
ストリーミングは体感パフォーマンスを向上させます:2. インタラクティブな用途には高速なモデルを選択する
| ユースケース | 推奨 | レイテンシ |
|---|---|---|
| チャット UI | gpt-4o-mini, gemini-2.5-flash | 最初のトークンまで約200ms |
| タブ補完 | claude-haiku-4-5 | 最初のトークンまで約150ms |
| バックグラウンド処理 | gpt-4o, claude-sonnet-4-5 | 最初のトークンまで約500ms |
3. タイムアウトを設定する
信頼性
1. リトライを実装する
2. エラーを適切に処理する
3. フォールバックモデルを使用する
セキュリティ
1. API キーを保護する
2. ユーザー入力を検証する
3. API キーの制限を設定する
以下の用途ごとに、支出制限を設定した個別の API キーを作成してください:- 開発/テスト
- 本番
- 異なるアプリケーション
モニタリング
1. 使用状況を追跡する
ダッシュボードを定期的にチェックして、以下を確認してください:- モデル別のトークン使用量
- コストの内訳
- キャッシュヒット率
- エラー率
2. 重要なメトリクスをログに記録する
3. アラートを設定する
サービスの停止を避けるために、ダッシュボードで残高不足のアラートを設定してください。チェックリスト
コストの最適化
コストの最適化
- 各タスクに適切なモデルを使用している
- max_tokens 制限を設定している
- プロンプトが簡潔である
- 適切な場所でキャッシュが有効になっている
- 同様のリクエストをバッチ処理している
パフォーマンス
パフォーマンス
- インタラクティブな UX のためのストリーミング
- リアルタイム用途の高速モデル
- タイムアウトが設定されている
信頼性
信頼性
- リトライロジックが実装されている
- エラー処理が整っている
- フォールバックモデルが設定されている
セキュリティ
セキュリティ
- API キーが環境変数にある
- 入力検証
- 開発/本番用の個別のキー
- 支出制限が設定されている