Ringkasan
Streaming memungkinkan Anda menerima output parsial saat output tersebut dihasilkan, yang meningkatkan latensi yang dirasakan dan pengalaman pengguna. Untuk integrasi baru bergaya OpenAI, utamakan Responses streaming terlebih dahulu. Jika framework Anda masih menggunakan Chat Completions streaming, LemonData juga mendukung jalur kompatibilitas tersebut.Direkomendasikan: Responses Streaming
Streaming Chat Completions
Jika framework Anda masih mengharapkan chunk SSE dari/v1/chat/completions, itu juga berfungsi:
Kondisi Akhir Stream
Kondisi penyelesaian yang umum:response.completeduntuk stream Responses APIfinish_reason: "stop"untuk stream Chat Completionsfinish_reason: "length"saat batas token tercapai- event pemanggilan tool/function saat model ingin menggunakan tool
Pola Aplikasi Web
Praktik Terbaik
Utamakan Responses streaming untuk build baru
Utamakan Responses streaming untuk build baru
Gunakan
/v1/responses jika SDK atau aplikasi Anda sudah mendukungnya. Pertahankan streaming /v1/chat/completions untuk integrasi yang didorong oleh kebutuhan kompatibilitas.Flush output secara bertahap
Flush output secara bertahap
Tambahkan chunk delta ke UI atau terminal saat chunk tersebut tiba alih-alih menunggu respons penuh.
Tangani pemutusan koneksi dan percobaan ulang
Tangani pemutusan koneksi dan percobaan ulang
Perlakukan gangguan jaringan dan pemutusan koneksi upstream sebagai mode kegagalan yang normal, dan lakukan koneksi ulang dengan hati-hati untuk sesi yang berjalan lama.