Tổng quan
Streaming cho phép bạn nhận đầu ra từng phần ngay khi nó được tạo ra, giúp cải thiện độ trễ cảm nhận và trải nghiệm người dùng. Đối với các tích hợp kiểu OpenAI mới, hãy ưu tiên Responses streaming trước. Nếu framework của bạn vẫn sử dụng Chat Completions streaming, LemonData cũng hỗ trợ lộ trình tương thích đó.Khuyến nghị: Responses Streaming
Chat Completions Streaming
Nếu framework của bạn vẫn yêu cầu các chunk SSE từ/v1/chat/completions, cách này cũng hoạt động:
Điều kiện kết thúc stream
Các điều kiện hoàn tất điển hình:response.completedcho các stream của Responses APIfinish_reason: "stop"cho các stream Chat Completionsfinish_reason: "length"khi chạm đến giới hạn token- các sự kiện gọi tool/function khi model muốn sử dụng tools
Mẫu cho ứng dụng web
Thực tiễn tốt nhất
Ưu tiên Responses streaming cho các bản dựng mới
Ưu tiên Responses streaming cho các bản dựng mới
Sử dụng
/v1/responses nếu SDK hoặc ứng dụng của bạn đã hỗ trợ. Giữ lại streaming /v1/chat/completions cho các tích hợp cần tương thích.Flush đầu ra tăng dần
Flush đầu ra tăng dần
Nối các chunk delta vào UI hoặc terminal ngay khi chúng đến thay vì chờ toàn bộ phản hồi hoàn tất.
Xử lý ngắt kết nối và thử lại
Xử lý ngắt kết nối và thử lại
Xem việc rớt mạng và ngắt kết nối từ upstream là các chế độ lỗi bình thường, và kết nối lại một cách cẩn thận cho các phiên chạy dài.