將任何支援語言的音訊翻譯為英文文本。與逐字稿(transcription)不同,無論輸入語言為何,此端點始終輸出英文文本。
請求主體
要翻譯的音訊檔案。支援的格式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。檔案大小上限為 25 MB。
選填文本,用於引導模型的風格或延續先前的片段。應使用英文。
輸出格式。選項:json, text, srt, verbose_json, vtt。
取樣溫度,介於 0 與 1 之間。較高的值(如 0.8)會產生更隨機的輸出,而較低的值(如 0.2)則會使輸出更集中且具確定性。
對於 verbose_json 格式,回應還包含:
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
-H "Authorization: Bearer sk-your-api-key" \
-F "file=@german_audio.mp3" \
-F "model=whisper-1"
{
"text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}
翻譯 vs 逐字稿
| 特性 | 翻譯 | 逐字稿 |
|---|
| 輸出語言 | 始終為英文 | 與輸入相同 |
| 使用場景 | 將外語音訊轉換為英文 | 保留原始語言 |
| 語言參數 | 不適用 | 選填提示 |
翻譯端點會自動偵測來源語言並翻譯為英文。逐字稿中的 language 參數將被忽略。