Visão geral
Streaming permite que você receba saída parcial à medida que ela é gerada, o que melhora a latência percebida e a experiência do usuário. Para novas integrações no estilo OpenAI, prefira primeiro Responses streaming. Se o seu framework ainda usa streaming de Chat Completions, a LemonData também oferece suporte a esse caminho de compatibilidade.Recomendado: Responses Streaming
Streaming de Chat Completions
Se o seu framework ainda espera chunks SSE de/v1/chat/completions, isso também funciona:
Condições de término do stream
Condições típicas de conclusão:response.completedpara streams da Responses APIfinish_reason: "stop"para streams de Chat Completionsfinish_reason: "length"quando um limite de token é atingido- eventos de chamada de tool/function quando o modelo deseja usar tools
Padrão para aplicação web
Boas práticas
Prefira Responses streaming em novas implementações
Prefira Responses streaming em novas implementações
Use
/v1/responses se o seu SDK ou app já oferecer suporte a ele. Mantenha o streaming de /v1/chat/completions para integrações orientadas por compatibilidade.Descarregue a saída incrementalmente
Descarregue a saída incrementalmente
Acrescente chunks delta à UI ou ao terminal à medida que eles chegarem, em vez de esperar pela resposta completa.
Trate desconexões e novas tentativas
Trate desconexões e novas tentativas
Considere quedas de rede e desconexões upstream como modos normais de falha e reconecte com cuidado em sessões de longa duração.