概要
サポートされている任意の言語の音声を英語テキストに翻訳します。文字起こしとは異なり、この endpoint は入力言語に関係なく常に英語テキストを出力します。リクエストボディ
翻訳する音声ファイル。サポートされている形式:
flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。最大ファイルサイズは 25 MB です。使用する model。現在は
whisper-1 のみサポートされています。model のスタイルを誘導したり、前のセグメントの続きを生成したりするための任意のテキストです。英語である必要があります。
出力の形式。オプション:
json, text, srt, verbose_json, vtt。0 から 1 の間の sampling temperature。0.8 のような高い値ではよりランダムな出力が生成され、0.2 のような低い値ではより集中的で決定論的な出力になります。
レスポンス
英語に翻訳されたテキスト。
verbose_json 形式では、レスポンスには以下も含まれます:
入力音声の検出された言語。
入力音声の長さ(秒)。
タイムスタンプ付きの翻訳済みテキストのセグメント。
翻訳と文字起こしの違い
| 機能 | 翻訳 | 文字起こし |
|---|---|---|
| 出力言語 | 常に英語 | 入力と同じ |
| ユースケース | 外国語の音声を英語に変換 | 元の言語を保持 |
| language parameter | 該当なし | 任意のヒント |
翻訳 endpoint はソース言語を自動的に検出し、英語に翻訳します。文字起こしの
language parameter は無視されます。