Vue d’ensemble
Le streaming vous permet de recevoir une sortie partielle au fur et à mesure de sa génération, ce qui améliore la latence perçue et l’expérience utilisateur. Pour les nouvelles intégrations de style OpenAI, privilégiez d’abord le streaming Responses. Si votre framework utilise encore le streaming Chat Completions, LemonData prend également en charge cette voie de compatibilité.Recommandé : streaming Responses
Streaming Chat Completions
Si votre framework attend encore des chunks SSE provenant de/v1/chat/completions, cela fonctionne également :
Conditions de fin du stream
Conditions de fin typiques :response.completedpour les streams de l’API Responsesfinish_reason: "stop"pour les streams Chat Completionsfinish_reason: "length"lorsqu’une limite de token est atteinte- événements d’appel d’outil/de fonction lorsque le modèle souhaite utiliser des outils
Modèle pour application web
Bonnes pratiques
Privilégier le streaming Responses pour les nouvelles implémentations
Privilégier le streaming Responses pour les nouvelles implémentations
Utilisez
/v1/responses si votre SDK ou votre application le prend déjà en charge. Réservez le streaming /v1/chat/completions aux intégrations motivées par la compatibilité.Vider la sortie progressivement
Vider la sortie progressivement
Ajoutez les chunks delta à l’interface utilisateur ou au terminal au fur et à mesure de leur arrivée plutôt que d’attendre la réponse complète.
Gérer les déconnexions et les nouvelles tentatives
Gérer les déconnexions et les nouvelles tentatives
Considérez les coupures réseau et les déconnexions en amont comme des modes de défaillance normaux et reconnectez-vous avec précaution pour les sessions de longue durée.