概述
将任何受支持语言的音频翻译为英文文本。与转录不同,此端点无论输入语言是什么,始终输出英文文本。请求体
要翻译的音频文件。支持的格式:
flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。最大文件大小为 25 MB。要使用的模型。当前仅支持
whisper-1。用于引导模型风格或续写上一段内容的可选文本。应使用英文。
输出格式。可选值:
json、text、srt、verbose_json、vtt。采样温度,取值范围在 0 到 1 之间。较高的值(如 0.8)会产生更随机的输出,而较低的值(如 0.2)会使输出更集中且更具确定性。
响应
英文翻译文本。
verbose_json 格式,响应还包括:
输入音频检测出的语言。
输入音频的时长,单位为秒。
带时间戳的翻译文本分段。
翻译与转录
| 功能 | 翻译 | 转录 |
|---|---|---|
| 输出语言 | 始终为英文 | 与输入相同 |
| 使用场景 | 将外语音频转换为英文 | 保留原始语言 |
| language 参数 | 不适用 | 可选提示 |
翻译端点会自动检测源语言并将其翻译为英文。转录中的
language 参数会被忽略。