请求体
要转录的音频文件。支持的格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。
要使用的模型。目前仅支持
whisper-1。音频的语言,采用 ISO-639-1 格式(例如:
en、zh、ja)。可选文本,用于引导模型的风格或续接上一段内容。
输出格式:
json、text、srt、verbose_json、vtt。采样温度(0 到 1)。
时间戳粒度:
word 和/或 segment。需要 verbose_json。响应
转录后的文本。
verbose_json:
始终为
transcribe。检测到的语言。
音频时长,单位为秒。
带时间戳的转录片段。
词级时间戳(如已请求)。