Anfragekörper
Eine Liste von Nachrichten, die die Konversation bilden.Jedes Nachrichtenobjekt enthält:
role(string):system,user, orassistantcontent(string | array): Der Nachrichteninhalt
content ein Array ist, unterstützt LemonData strukturierte multimodale Blöcke für kompatible Modelle:- text:
{ "type": "text", "text": "..." } - image:
{ "type": "image_url", "image_url": { "url": "https://..." } } - video:
{ "type": "video_url", "video_url": { "url": "https://..." } } - audio:
{ "type": "audio_url", "audio_url": { "url": "https://..." } }
https-URLs. LemonData übersetzt diese Medienblöcke in die anbieter-spezifische Anforderungsform, die vom gerouteten physischen Modell benötigt wird.Sampling-Temperatur zwischen 0 und 2. Höhere Werte machen die Ausgabe zufälliger.
Maximale Anzahl an zu generierenden Tokens.
Wenn true, werden partielle Nachrichtendeltas als SSE-Ereignisse gesendet.
Optionen fürs Streaming. Setzen Sie
include_usage: true, um Token-Nutzungsdaten in Stream-Chunks zu erhalten.Nucleus-Sampling-Parameter. Wir empfehlen, entweder diesen oder die Temperatur zu verändern, aber nicht beide.
Zahl zwischen -2.0 und 2.0. Positive Werte bestrafen wiederholte Tokens.
Zahl zwischen -2.0 und 2.0. Positive Werte bestrafen Tokens, die bereits im Text vorhanden sind.
Bis zu 4 Sequenzen, bei denen die API das Generieren von Tokens stoppt.
Eine Liste von Tools, die das Modell aufrufen kann (Funktionsaufrufe).
Steuert, wie das Modell Tools verwendet. Optionen:
auto, none, required, oder ein spezifisches Tool-Objekt.Ob parallele Funktionsaufrufe aktiviert werden sollen. Auf false setzen, um Funktionen nacheinander aufzurufen.
Maximale Tokens für die Vervollständigung. Alternative zu
max_tokens, nützlich für neuere modellfamilien mit Reasoning-Unterstützung.Reasoning-Aufwand für reasoning-fähige Modelle. Optionen:
low, medium, high.Zufallsseed für deterministisches Sampling.
Anzahl der zu erzeugenden Vervollständigungen (1-128).
Ob Log-Wahrscheinlichkeiten zurückgegeben werden sollen.
Anzahl der obersten Log-Wahrscheinlichkeiten, die zurückgegeben werden sollen (0-20). Erfordert
logprobs: true.Top-K Sampling-Parameter (für Anthropic/Gemini-Modelle).
Spezifikation des Antwortformats. Verwenden Sie
{"type": "json_object"} für den JSON-Modus. Behandeln Sie {"type": "json_schema", "json_schema": {...}} als eine Best-Effort-Option, die vom ausgewählten Modell und dem gerouteten Verhalten abhängt.Anpassung der Wahrscheinlichkeit, dass bestimmte Tokens erscheinen. Mappen Sie Token-IDs (als Strings) auf Bias-Werte von -100 bis 100.
Ein eindeutiger Bezeichner, der Ihren Endbenutzer für Missbrauchsüberwachung repräsentiert.
LemonData Cache-Control-Optionen.
type(string): Cache-Strategie -default,no_cache,no_store,response_only,semantic_onlymax_age(integer): Cache-TTL in Sekunden (max. 86400)
Antwort
Eindeutiger Bezeichner für die Vervollständigung.
Immer
chat.completion.Unix-Zeitstempel, wann die Vervollständigung erstellt wurde.
Das für die Vervollständigung verwendete Modell.
Liste der Vervollständigungsoptionen.Jede Auswahl enthält:
index(integer): Index der Auswahlmessage(object): Die generierte Nachrichtfinish_reason(string): Weshalb das Modell gestoppt hat (stop,length,tool_calls)
Statistiken zur Token-Nutzung.
prompt_tokens(integer): Tokens im Promptcompletion_tokens(integer): Tokens in der Vervollständigungtotal_tokens(integer): Insgesamt verwendete Tokens