リクエストボディ
文字起こしする音声ファイル。サポートされている形式:flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。
使用するモデル。現在は whisper-1 のみがサポートされています。
ISO-639-1 形式の音声の言語(例:en, zh, ja)。
モデルのスタイルをガイドしたり、前のセグメントを継続したりするためのオプションのテキスト。
出力形式:json, text, srt, verbose_json, vtt。
タイムスタンプの粒度:word または segment、あるいはその両方。verbose_json が必要です。
レスポンス
verbose_json の場合:
単語レベルのタイムスタンプ(リクエストされた場合)。
curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
-H "Authorization: Bearer sk-your-api-key" \
-F file="@audio.mp3" \
-F model="whisper-1" \
-F language="en"
{
"text": "Hello, this is a test of the transcription API."
}
音声を英語に翻訳するには、translations エンドポイントを使用します:
response = client.audio.translations.create(
model="whisper-1",
file=audio_file
)