サポートされている任意の言語のオーディオを英語のテキストに翻訳します。文字起こし(transcription)とは異なり、このエンドポイントは入力言語に関係なく、常に英語のテキストを出力します。
リクエストボディ
翻訳するオーディオファイル。サポートされている形式:flac、mp3、mp4、mpeg、mpga、m4a、ogg、wav、webm。最大ファイルサイズは 25 MB です。
使用するモデル。現在、whisper-1 のみがサポートされています。
モデルのスタイルをガイドしたり、前のセグメントを継続したりするためのオプションのテキスト。英語である必要があります。
出力の形式。オプション:json、text、srt、verbose_json、vtt。
サンプリング温度。0 から 1 の間です。0.8 のような高い値はよりランダムな出力を生成し、0.2 のような低い値は出力をより集中させ、決定論的にします。
レスポンス
verbose_json 形式の場合、レスポンスには以下も含まれます:
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
-H "Authorization: Bearer sk-your-api-key" \
-F "file=@german_audio.mp3" \
-F "model=whisper-1"
{
"text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}
翻訳 vs 文字起こし
| 機能 | 翻訳 | 文字起こし |
|---|
| 出力言語 | 常に英語 | 入力と同じ |
| ユースケース | 外国語のオーディオを英語に変換 | 元の言語を保持 |
| 言語パラメータ | 該当なし | オプションのヒント |
翻訳エンドポイントはソース言語を自動的に検出し、英語に翻訳します。文字起こしの language パラメータは無視されます。