概述
流式传输让你能够在输出生成过程中接收部分结果,从而改善感知延迟和用户体验。 对于新的 OpenAI 风格集成,优先选择Responses 流式传输。如果你的框架仍在使用 Chat Completions 流式传输,LemonData 也支持该兼容路径。推荐:Responses 流式传输
Chat Completions 流式传输
如果你的框架仍然需要来自/v1/chat/completions 的 SSE 分块,这同样可行:
流结束条件
典型的完成条件:- Responses API 流使用
response.completed - Chat Completions 流使用
finish_reason: "stop" - 当达到 token 限制时使用
finish_reason: "length" - 当模型希望使用工具时,会出现 tool/function call 事件
Web 应用模式
最佳实践
新构建项目优先使用 Responses 流式传输
新构建项目优先使用 Responses 流式传输
如果你的 SDK 或应用已经支持
/v1/responses,请使用它。将 /v1/chat/completions 流式传输保留给出于兼容性需求的集成。增量刷新输出
增量刷新输出
在 delta 分块到达时将其追加到 UI 或终端,而不是等待完整响应返回后再处理。
处理断连与重试
处理断连与重试
将网络中断和上游断连视为正常故障模式,并在长时间运行的会话中谨慎地重新连接。