概覽
串流可讓您在輸出生成的同時接收部分內容,從而改善感知延遲與使用者體驗。 對於新的 OpenAI 風格整合,建議優先使用 Responses streaming。如果您的框架仍在使用 Chat Completions streaming,LemonData 也支援該相容路徑。建議:Responses Streaming
Chat Completions Streaming
如果您的框架仍預期從/v1/chat/completions 接收 SSE 區塊,這同樣可行:
串流結束條件
典型的完成條件:- Responses API streams 的
response.completed - Chat Completions streams 的
finish_reason: "stop" - 當達到 token 限制時的
finish_reason: "length" - 當模型想要使用工具時的 tool/function call 事件
Web App 模式
最佳實務
新建專案優先使用 Responses streaming
新建專案優先使用 Responses streaming
如果您的 SDK 或應用程式已支援,請使用
/v1/responses。將 /v1/chat/completions streaming 保留給以相容性為導向的整合。逐步刷新輸出
逐步刷新輸出
在 delta 區塊到達時立即將其附加到 UI 或終端機,而不是等待完整回應。
處理中斷連線與重試
處理中斷連線與重試
將網路中斷與上游連線中斷視為正常的失敗模式,並在長時間執行的工作階段中謹慎地重新連線。