メインコンテンツへスキップ

概要

サポートされている任意の言語の音声を英語テキストに翻訳します。文字起こしとは異なり、この endpoint は入力言語に関係なく常に英語テキストを出力します。

リクエストボディ

file
file
必須
翻訳する音声ファイル。サポートされている形式: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。最大ファイルサイズは 25 MB です。
model
string
デフォルト:"whisper-1"
使用する model。現在は whisper-1 のみサポートされています。
prompt
string
model のスタイルを誘導したり、前のセグメントの続きを生成したりするための任意のテキストです。英語である必要があります。
response_format
string
デフォルト:"json"
出力の形式。オプション: json, text, srt, verbose_json, vtt
temperature
number
0 から 1 の間の sampling temperature。0.8 のような高い値ではよりランダムな出力が生成され、0.2 のような低い値ではより集中的で決定論的な出力になります。

レスポンス

text
string
英語に翻訳されたテキスト。
verbose_json 形式では、レスポンスには以下も含まれます:
language
string
入力音声の検出された言語。
duration
number
入力音声の長さ(秒)。
segments
array
タイムスタンプ付きの翻訳済みテキストのセグメント。
curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"
{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

翻訳と文字起こしの違い

機能翻訳文字起こし
出力言語常に英語入力と同じ
ユースケース外国語の音声を英語に変換元の言語を保持
language parameter該当なし任意のヒント
翻訳 endpoint はソース言語を自動的に検出し、英語に翻訳します。文字起こしの language parameter は無視されます。