メインコンテンツへスキップ
POST
/
v1
/
audio
/
translations
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

概要

サポートされている任意の言語のオーディオを英語のテキストに翻訳します。文字起こし(transcription)とは異なり、このエンドポイントは入力言語に関係なく、常に英語のテキストを出力します。

リクエストボディ

file
file
必須
翻訳するオーディオファイル。サポートされている形式:flacmp3mp4mpegmpgam4aoggwavwebm。最大ファイルサイズは 25 MB です。
model
string
デフォルト:"whisper-1"
使用するモデル。現在、whisper-1 のみがサポートされています。
prompt
string
モデルのスタイルをガイドしたり、前のセグメントを継続したりするためのオプションのテキスト。英語である必要があります。
response_format
string
デフォルト:"json"
出力の形式。オプション:jsontextsrtverbose_jsonvtt
temperature
number
サンプリング温度。0 から 1 の間です。0.8 のような高い値はよりランダムな出力を生成し、0.2 のような低い値は出力をより集中させ、決定論的にします。

レスポンス

text
string
翻訳された英語のテキスト。
verbose_json 形式の場合、レスポンスには以下も含まれます:
language
string
検出された入力オーディオの言語。
duration
number
入力オーディオの長さ(秒単位)。
segments
array
タイムスタンプ付きの翻訳テキストのセグメント。
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

翻訳 vs 文字起こし

機能翻訳文字起こし
出力言語常に英語入力と同じ
ユースケース外国語のオーディオを英語に変換元の言語を保持
言語パラメータ該当なしオプションのヒント
翻訳エンドポイントはソース言語を自動的に検出し、英語に翻訳します。文字起こしの language パラメータは無視されます。