リクエストボディ
会話を構成するメッセージの一覧。各メッセージオブジェクトは次を含みます:
role(string):system,user, またはassistantcontent(string | array): メッセージの内容
content が配列の場合、LemonData は互換モデル向けに構造化されたマルチモーダルブロックをサポートします:- text:
{ "type": "text", "text": "..." } - image:
{ "type": "image_url", "image_url": { "url": "https://..." } } - video:
{ "type": "video_url", "video_url": { "url": "https://..." } } - audio:
{ "type": "audio_url", "audio_url": { "url": "https://..." } }
https URL を優先してください。LemonData はこれらのメディアブロックを、ルーティングされた物理モデルが要求するプロバイダ固有のリクエスト形式に変換します。0〜2 の間のサンプリング温度。値が高いほど出力はよりランダムになります。
生成する最大トークン数。
true の場合、部分的なメッセージ差分が SSE イベントとして送信されます。
ストリーミングのオプション。
include_usage: true を設定するとストリームチャンクでトークン使用量を受け取れます。Nucleus sampling のパラメータ。temperature または top_p のどちらかを変更することを推奨します(両方は推奨されません)。
-2.0 から 2.0 の値。正の値は繰り返しトークンにペナルティを与えます。
-2.0 から 2.0 の値。正の値は既にテキスト内に存在するトークンにペナルティを与えます。
API がトークン生成を停止する最大 4 つのシーケンス。
モデルが呼び出す可能性のあるツールの一覧(関数呼び出し)。
モデルがツールをどのように使用するかを制御します。オプション:
auto, none, required, または特定のツールオブジェクト。並列での関数呼び出しを有効にするかどうか。false にすると関数を順次呼び出します。
補完に使用される最大トークン数。
max_tokens の代替で、新しい推論対応モデルファミリーに有用です。推論対応モデル向けの推論努力レベル。オプション:
low, medium, high。決定論的サンプリングのためのランダムシード。
生成する補完の数 (1-128)。
ログ確率を返すかどうか。
返す上位ログ確率の数 (0-20)。
logprobs: true が必要です。Top-K サンプリングのパラメータ(Anthropic/Gemini モデル向け)。
レスポンス形式の仕様。JSON モードには
{"type": "json_object"} を使用してください。{"type": "json_schema", "json_schema": {...}} は選択されたモデルとルーティングされた動作に依存するベストエフォートのパスとして扱われます。指定したトークンが出現する可能性を変更します。トークンID(文字列)を -100 から 100 のバイアス値にマップしてください。
悪用監視のためにエンドユーザーを一意に識別する識別子。
LemonData のキャッシュ制御オプション。
type(string): キャッシュ戦略 -default,no_cache,no_store,response_only,semantic_onlymax_age(integer): キャッシュのTTL(秒、最大 86400)
レスポンス
補完の一意の識別子。
常に
chat.completion。補完が作成された Unix タイムスタンプ。
補完に使用されたモデル。
補完の選択肢の一覧。各選択肢は次を含みます:
index(integer): 選択肢のインデックスmessage(object): 生成されたメッセージfinish_reason(string): モデルが停止した理由(stop,length,tool_calls)
トークン使用状況の統計。
prompt_tokens(integer): プロンプト内のトークン数completion_tokens(integer): 補完内のトークン数total_tokens(integer): 使用された合計トークン数