Request Body
Une liste de messages constituant la conversation.Chaque objet message contient :
role(string) :system,user, ouassistantcontent(string | array) : Le contenu du message
content est un tableau, LemonData prend en charge des blocs multimodaux structurés pour les modèles compatibles :- text:
{ "type": "text", "text": "..." } - image:
{ "type": "image_url", "image_url": { "url": "https://..." } } - video:
{ "type": "video_url", "video_url": { "url": "https://..." } } - audio:
{ "type": "audio_url", "audio_url": { "url": "https://..." } }
https. LemonData traduira ces blocs médias dans la forme de requête spécifique au fournisseur requise par le modèle physique routé.Température d’échantillonnage entre 0 et 2. Des valeurs plus élevées rendent la sortie plus aléatoire.
Nombre maximal de tokens à générer.
Si true, des deltas de message partiels seront envoyés comme événements SSE.
Options pour le streaming. Définissez
include_usage: true pour recevoir l’utilisation des tokens dans les fragments de stream.Paramètre de sampling nucleus. Nous recommandons de modifier celui-ci ou la température, pas les deux.
Nombre entre -2.0 et 2.0. Les valeurs positives pénalisent les tokens répétés.
Nombre entre -2.0 et 2.0. Les valeurs positives pénalisent les tokens déjà présents dans le texte.
Jusqu’à 4 séquences où l’API arrêtera de générer des tokens.
Une liste d’outils que le modèle peut appeler (appel de fonctions).
Contrôle la manière dont le modèle utilise les outils. Options :
auto, none, required, ou un objet outil spécifique.Permet d’activer l’appel de fonctions en parallèle. Définir sur false pour appeler les fonctions séquentiellement.
Nombre maximal de tokens pour la complétion. Alternative à
max_tokens, utile pour les familles de modèles plus récentes activées pour le raisonnement.Effort de raisonnement pour les modèles activés pour le raisonnement. Options :
low, medium, high.Seed aléatoire pour un échantillonnage déterministe.
Nombre de complétions à générer (1-128).
Indique s’il faut retourner les log-probabilités.
Nombre de log-probabilités les plus élevées à retourner (0-20). Nécessite
logprobs: true.Paramètre Top-K sampling (pour les modèles Anthropic/Gemini).
Spécification du format de réponse. Utiliser
{"type": "json_object"} pour le mode JSON. Considérez {"type": "json_schema", "json_schema": {...}} comme une approche best-effort qui dépend du modèle sélectionné et du comportement routé.Modifier la probabilité d’apparition de tokens spécifiés. Mappez les IDs de tokens (comme des chaînes) à des valeurs de biais entre -100 et 100.
Identifiant unique représentant votre utilisateur final pour la surveillance des abus.
Options de contrôle du cache LemonData.
type(string) : Stratégie de cache -default,no_cache,no_store,response_only,semantic_onlymax_age(integer) : TTL du cache en secondes (max 86400)
Response
Identifiant unique de la complétion.
Toujours
chat.completion.Timestamp Unix du moment où la complétion a été créée.
Le modèle utilisé pour la complétion.
Liste des choix de complétion.Chaque choix contient :
index(integer) : Index du choixmessage(object) : Le message généréfinish_reason(string) : Pourquoi le modèle s’est arrêté (stop,length,tool_calls)
Statistiques d’utilisation des tokens.
prompt_tokens(integer) : Tokens dans le promptcompletion_tokens(integer) : Tokens dans la complétiontotal_tokens(integer) : Total des tokens utilisés