概要
ストリーミングを使用すると、生成中の部分的な出力を受け取ることができ、体感レイテンシとユーザー体験が向上します。 新しい OpenAI-style の統合では、まず Responses streaming を優先してください。フレームワークが依然として Chat Completions streaming を使用している場合でも、LemonData はその互換パスをサポートしています。推奨: Responses Streaming
Chat Completions ストリーミング
フレームワークが依然として/v1/chat/completions からの SSE チャンクを想定している場合でも、これも動作します。
ストリーム終了条件
一般的な完了条件:- Responses API ストリームでは
response.completed - Chat Completions ストリームでは
finish_reason: "stop" - token 制限に達した場合は
finish_reason: "length" - モデルがツールを使用したい場合の tool/function call イベント
Web アプリのパターン
ベストプラクティス
新規構築では Responses streaming を優先する
新規構築では Responses streaming を優先する
SDK またはアプリがすでに
/v1/responses をサポートしている場合は、それを使用してください。/v1/chat/completions のストリーミングは、互換性を重視した統合向けに維持してください。出力を段階的に flush する
出力を段階的に flush する
完全な応答を待つのではなく、到着した delta チャンクを UI またはターミナルに追加してください。
切断と再試行を処理する
切断と再試行を処理する
ネットワーク切断や上流側の切断は通常の障害モードとして扱い、長時間実行されるセッションでは慎重に再接続してください。