Request Body
ID do modelo a ser usado. Veja Models para as opções disponíveis.
Uma lista de mensagens que compõem a conversa. Cada objeto de mensagem contém:
role (string): system, user, ou assistant
content (string | array): O conteúdo da mensagem
Temperatura de amostragem entre 0 e 2. Valores mais altos tornam a saída mais aleatória.
Número máximo de tokens a serem gerados.
Se verdadeiro, deltas parciais de mensagens serão enviados como eventos SSE.
Opções para streaming. Defina include_usage: true para receber o uso de tokens em partes (chunks) do stream.
Parâmetro de amostragem de núcleo (nucleus sampling). Recomendamos alterar este ou a temperatura, mas não ambos.
Número entre -2.0 e 2.0. Valores positivos penalizam tokens repetidos.
Número entre -2.0 e 2.0. Valores positivos penalizam tokens que já aparecem no texto.
Até 4 sequências onde a API interromperá a geração de tokens.
Uma lista de ferramentas que o modelo pode chamar (chamada de função).
Controla como o modelo utiliza as ferramentas. Opções: auto, none, required, ou um objeto de ferramenta específico.
Se deve habilitar chamadas de função paralelas. Defina como falso para chamar funções sequencialmente.
Máximo de tokens para a conclusão. Alternativa ao max_tokens, preferido para modelos mais recentes como o1/o3.
Esforço de raciocínio para modelos o1/o3. Opções: low, medium, high.
Semente aleatória para amostragem determinística.
Número de conclusões a serem geradas (1-128).
Se deve retornar probabilidades de log (log probabilities).
Número de probabilidades de log principais a serem retornadas (0-20). Requer logprobs: true.
Parâmetro de amostragem Top-K (para modelos Anthropic/Gemini).
Especificação do formato de resposta. Use {"type": "json_object"} para o modo JSON, ou {"type": "json_schema", "json_schema": {...}} para saídas estruturadas.
Modifica a probabilidade de tokens específicos aparecerem. Mapeia IDs de tokens (como strings) para valores de viés de -100 a 100.
Um identificador único que representa seu usuário final para monitoramento de abusos.
Opções de controle de cache da LemonData.
type (string): Estratégia de cache - default, no_cache, no_store, response_only, semantic_only
max_age (integer): TTL do cache em segundos (máximo 86400)
Resposta
Identificador único para a conclusão.
Timestamp Unix de quando a conclusão foi criada.
O modelo usado para a conclusão.
Lista de opções de conclusão. Cada opção contém:
index (integer): Índice da opção
message (object): A mensagem gerada
finish_reason (string): O motivo pelo qual o modelo parou (stop, length, tool_calls)
Estatísticas de uso de tokens.
prompt_tokens (integer): Tokens no prompt
completion_tokens (integer): Tokens na conclusão
total_tokens (integer): Total de tokens usados
cURL
Python
JavaScript
Go
PHP
curl -X POST "https://api.lemondata.cc/v1/chat/completions" \
-H "Authorization: Bearer sk-your-api-key" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-4o",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Hello!"}
],
"temperature": 0.7,
"max_tokens": 1000
}'
{
"id" : "chatcmpl-abc123" ,
"object" : "chat.completion" ,
"created" : 1706000000 ,
"model" : "gpt-4o" ,
"choices" : [
{
"index" : 0 ,
"message" : {
"role" : "assistant" ,
"content" : "Hello! How can I help you today?"
},
"finish_reason" : "stop"
}
],
"usage" : {
"prompt_tokens" : 20 ,
"completion_tokens" : 9 ,
"total_tokens" : 29
}
}