概覽
將任何支援語言的音訊翻譯為英文文字。不同於轉錄,無論輸入語言為何,此端點一律輸出英文文字。請求本文
要翻譯的音訊檔案。支援的格式:
flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。檔案大小上限為 25 MB。要使用的模型。目前僅支援
whisper-1。用於引導模型風格或延續前一段內容的選用文字。應以英文撰寫。
輸出格式。可選項目:
json、text、srt、verbose_json、vtt。取樣溫度,介於 0 到 1 之間。較高的值(如 0.8)會產生更隨機的輸出,而較低的值(如 0.2)會使輸出更集中且更具確定性。
回應
英文翻譯文字。
verbose_json 格式,回應還包括:
輸入音訊所偵測到的語言。
輸入音訊的長度(秒)。
帶有時間戳記的翻譯文字分段。
翻譯與轉錄的差異
| 功能 | 翻譯 | 轉錄 |
|---|---|---|
| 輸出語言 | 一律為英文 | 與輸入相同 |
| 使用情境 | 將外語音訊轉為英文 | 保留原始語言 |
| 語言參數 | 不適用 | 可選提示 |
翻譯端點會自動偵測來源語言並翻譯為英文。來自轉錄的
language 參數會被忽略。