建立轉錄

curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"

{
  "text": "Hello, this is a test of the transcription API."
}

請求主體

file

必填

要轉錄的音訊檔案。支援格式：flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。

model

string

預設值:"whisper-1"

要使用的模型。目前僅支援 whisper-1。

language

string

音訊的語言，採用 ISO-639-1 格式（例如：en、zh、ja）。

prompt

string

可選文字，用於引導模型的風格或延續前一段內容。

response_format

string

預設值:"json"

輸出格式：json、text、srt、verbose_json、vtt。

temperature

number

預設值:"0"

取樣溫度（0 到 1）。

timestamp_granularities

array

時間戳記粒度：word 和／或 segment。需要 verbose_json。

回應

text

string

轉錄後的文字。

對於 verbose_json：

task

string

一律為 transcribe。

language

string

偵測到的語言。

duration

number

音訊時長（秒）。

segments

array

含時間戳記的轉錄片段。

words

array

詞級時間戳記（若有請求）。

curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"

{
  "text": "Hello, this is a test of the transcription API."
}

翻譯

若要將音訊翻譯為英文，請使用 translations endpoint：

response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)

建立語音建立翻譯

核心

文字

檔案與批次

圖像與媒體

非同步任務

Gemini 原生

管理

請求主體

回應

翻譯

核心

文字

檔案與批次

圖像與媒體

非同步任務

Gemini 原生

管理

​請求主體

​回應

​翻譯

請求主體

回應

翻譯