請求主體
要轉錄的音訊檔案。支援格式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。
要使用的模型。目前僅支援
whisper-1。音訊的語言,採用 ISO-639-1 格式(例如:
en、zh、ja)。可選文字,用於引導模型的風格或延續前一段內容。
輸出格式:
json、text、srt、verbose_json、vtt。取樣溫度(0 到 1)。
時間戳記粒度:
word 和/或 segment。需要 verbose_json。回應
轉錄後的文字。
verbose_json:
一律為
transcribe。偵測到的語言。
音訊時長(秒)。
含時間戳記的轉錄片段。
詞級時間戳記(若有請求)。