跳轉到主要內容
POST
/
v1
/
audio
/
translations
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

概覽

將任何支援語言的音訊翻譯為英文文本。與逐字稿(transcription)不同,無論輸入語言為何,此端點始終輸出英文文本。

請求主體

file
file
必填
要翻譯的音訊檔案。支援的格式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。檔案大小上限為 25 MB。
model
string
預設值:"whisper-1"
要使用的模型。目前僅支援 whisper-1
prompt
string
選填文本,用於引導模型的風格或延續先前的片段。應使用英文。
response_format
string
預設值:"json"
輸出格式。選項:json, text, srt, verbose_json, vtt
temperature
number
取樣溫度,介於 0 與 1 之間。較高的值(如 0.8)會產生更隨機的輸出,而較低的值(如 0.2)則會使輸出更集中且具確定性。

回應

text
string
翻譯後的英文文本。
對於 verbose_json 格式,回應還包含:
language
string
偵測到的輸入音訊語言。
duration
number
輸入音訊的時長(以秒為單位)。
segments
array
帶有時間戳記的翻譯文本片段。
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

翻譯 vs 逐字稿

特性翻譯逐字稿
輸出語言始終為英文與輸入相同
使用場景將外語音訊轉換為英文保留原始語言
語言參數不適用選填提示
翻譯端點會自動偵測來源語言並翻譯為英文。逐字稿中的 language 參數將被忽略。