请求体
构成对话的消息列表。每个消息对象包含:
role(string):system、user或assistantcontent(string | array): 消息内容
介于 0 到 2 之间的采样温度。较高的值会使输出更具随机性。
生成的最大 token 数量。
如果为 true,部分消息增量将作为 SSE 事件发送。
流式传输选项。设置
include_usage: true 以在流数据块中接收 token 使用情况。核采样参数。我们建议修改此参数或
temperature,但不要同时修改两者。介于 -2.0 到 2.0 之间的数值。正值会惩罚重复的 token。
介于 -2.0 到 2.0 之间的数值。正值会惩罚文本中已出现的 token。
API 将停止生成 token 的最多 4 个序列。
模型可能调用的工具列表(function calling)。
控制模型如何使用工具。选项:
auto、none、required 或特定的工具对象。是否启用并行函数调用。设置为 false 以按顺序调用函数。
补全的最大 token 数量。
max_tokens 的替代方案,更适用于 o1/o3 等较新模型值。o1/o3 模型的推理力度。选项:low、medium、high。用于确定性采样的随机种子。
生成的补全数量 (1-128)。
是否返回对数概率。
返回的前几个对数概率的数量 (0-20)。需要设置
logprobs: true。Top-K 采样参数(适用于 Anthropic/Gemini 模型)。
响应格式规范。使用
{"type": "json_object"} 开启 JSON 模式,或使用 {"type": "json_schema", "json_schema": {...}} 获取结构化输出。修改指定 token 出现的可能性。将 token ID(作为字符串)映射到 -100 到 100 之间的偏置值。
代表终端用户的唯一标识符,用于滥用监控。
LemonData 缓存控制选项。
type(string): 缓存策略 -default、no_cache、no_store、response_only、semantic_onlymax_age(integer): 缓存 TTL(以秒为单位,最大 86400)
响应
补全的唯一标识符。
始终为
chat.completion。补全创建时的 Unix 时间戳。
用于补全的模型。
补全选项列表。每个选项包含:
index(integer): 选项的索引message(object): 生成的消息finish_reason(string): 模型停止的原因 (stop、length、tool_calls)
Token 使用情况统计。
prompt_tokens(integer): 提示词中的 token 数量completion_tokens(integer): 补全中的 token 数量total_tokens(integer): 使用的总 token 数量