Überblick
Mit Streaming können Sie Teilausgaben empfangen, während sie generiert werden, was die wahrgenommene Latenz und die Benutzererfahrung verbessert. Für neue OpenAI-ähnliche Integrationen sollten Sie zuerst Responses streaming bevorzugen. Falls Ihr Framework weiterhin Chat Completions streaming verwendet, unterstützt LemonData auch diesen Kompatibilitätspfad.Empfohlen: Responses Streaming
Chat Completions Streaming
Falls Ihr Framework weiterhin SSE-Chunks von/v1/chat/completions erwartet, funktioniert auch das:
Bedingungen für das Stream-Ende
Typische Abschlussbedingungen:response.completedfür Responses API-Streamsfinish_reason: "stop"für Chat Completions-Streamsfinish_reason: "length"wenn ein token-Limit erreicht wird- Tool-/Function-Call-Ereignisse, wenn das Modell Tools verwenden möchte
Web-App-Muster
Best Practices
Responses streaming für neue Implementierungen bevorzugen
Responses streaming für neue Implementierungen bevorzugen
Verwenden Sie
/v1/responses, wenn Ihr SDK oder Ihre App dies bereits unterstützt. Behalten Sie /v1/chat/completions streaming für integrationsgetriebene Kompatibilität bei.Ausgabe inkrementell ausgeben
Ausgabe inkrementell ausgeben
Hängen Sie Delta-Chunks an die UI oder das Terminal an, sobald sie eintreffen, anstatt auf die vollständige Antwort zu warten.
Verbindungsabbrüche und Wiederholungen behandeln
Verbindungsabbrüche und Wiederholungen behandeln
Behandeln Sie Netzwerkabbrüche und Upstream-Verbindungsabbrüche als normale Fehlermodi und stellen Sie bei lang laufenden Sitzungen die Verbindung sorgfältig erneut her.