Request Body
Una lista de mensajes que componen la conversación.Cada objeto de mensaje contiene:
role(string):system,useroassistantcontent(string | array): El contenido del mensaje
content es un array, LemonData admite bloques multimodales estructurados para modelos compatibles:- text:
{ "type": "text", "text": "..." } - image:
{ "type": "image_url", "image_url": { "url": "https://..." } } - video:
{ "type": "video_url", "video_url": { "url": "https://..." } } - audio:
{ "type": "audio_url", "audio_url": { "url": "https://..." } }
https. LemonData traducirá estos bloques de medios al formato de solicitud específico del proveedor requerido por el modelo físico enrutado.Temperatura de muestreo entre 0 y 2. Valores más altos hacen la salida más aleatoria.
Número máximo de tokens a generar.
Si es true, se enviarán deltas parciales del mensaje como eventos SSE.
Opciones para streaming. Establezca
include_usage: true para recibir el uso de tokens en fragmentos de la transmisión.Parámetro de muestreo Nucleus. Recomendamos alterar esto o la temperatura, no ambos.
Número entre -2.0 y 2.0. Los valores positivos penalizan tokens repetidos.
Número entre -2.0 y 2.0. Los valores positivos penalizan tokens que ya están en el texto.
Hasta 4 secuencias donde la API dejará de generar tokens.
Una lista de herramientas que el modelo puede invocar (llamado de funciones).
Controla cómo el modelo usa las herramientas. Opciones:
auto, none, required, o un objeto de herramienta específico.Indica si se habilitan llamadas a funciones en paralelo. Establézcalo en false para llamar a las funciones de forma secuencial.
Tokens máximos para la completación. Alternativa a
max_tokens, útil para familias de modelos más nuevas con capacidad de razonamiento.Esfuerzo de razonamiento para modelos con capacidad de razonamiento. Opciones:
low, medium, high.Semilla aleatoria para muestreo determinista.
Número de completaciones a generar (1-128).
Si se deben retornar las probabilidades logarítmicas.
Número de probabilidades logarítmicas superiores a retornar (0-20). Requiere
logprobs: true.Parámetro de muestreo Top-K (para modelos Anthropic/Gemini).
Especificación del formato de respuesta. Use
{"type": "json_object"} para modo JSON. Considere {"type": "json_schema", "json_schema": {...}} como una ruta de mejores esfuerzos que depende del modelo seleccionado y del comportamiento de enrutamiento.Modifica la probabilidad de aparición de tokens especificados. Mapee IDs de tokens (como strings) a valores de sesgo de -100 a 100.
Un identificador único que representa a su usuario final para la monitorización de abuso.
Opciones de control de caché de LemonData.
type(string): Estrategia de caché -default,no_cache,no_store,response_only,semantic_onlymax_age(integer): TTL de caché en segundos (máx. 86400)
Response
Identificador único para la completación.
Siempre
chat.completion.Marca de tiempo Unix de cuando se creó la completación.
El modelo usado para la completación.
Lista de opciones de completación.Cada opción contiene:
index(integer): Índice de la opciónmessage(object): El mensaje generadofinish_reason(string): Por qué el modelo se detuvo (stop,length,tool_calls)
Estadísticas de uso de tokens.
prompt_tokens(integer): Tokens en el promptcompletion_tokens(integer): Tokens en la completacióntotal_tokens(integer): Tokens totales utilizados