翻訳を作成

curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"

{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

概要

サポートされている任意の言語の音声を英語テキストに翻訳します。文字起こしとは異なり、この endpoint は入力言語に関係なく常に英語テキストを出力します。

リクエストボディ

file

必須

翻訳する音声ファイル。サポートされている形式: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。最大ファイルサイズは 25 MB です。

model

string

デフォルト:"whisper-1"

使用する model。現在は whisper-1 のみサポートされています。

prompt

string

model のスタイルを誘導したり、前のセグメントの続きを生成したりするための任意のテキストです。英語である必要があります。

response_format

string

デフォルト:"json"

出力の形式。オプション: json, text, srt, verbose_json, vtt。

temperature

number

0 から 1 の間の sampling temperature。0.8 のような高い値ではよりランダムな出力が生成され、0.2 のような低い値ではより集中的で決定論的な出力になります。

レスポンス

text

string

英語に翻訳されたテキスト。

verbose_json 形式では、レスポンスには以下も含まれます:

language

string

入力音声の検出された言語。

duration

number

入力音声の長さ（秒）。

segments

array

タイムスタンプ付きの翻訳済みテキストのセグメント。

curl -X POST "https://api.lemondata.cc/v1/audio/translations" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F "file=@german_audio.mp3" \
  -F "model=whisper-1"

{
  "text": "Hello, my name is Wolfgang and I come from Germany. Where are you from?"
}

翻訳と文字起こしの違い

機能	翻訳	文字起こし
出力言語	常に英語	入力と同じ
ユースケース	外国語の音声を英語に変換	元の言語を保持
language parameter	該当なし	任意のヒント

翻訳 endpoint はソース言語を自動的に検出し、英語に翻訳します。文字起こしの language parameter は無視されます。

文字起こしを作成音楽の作成

コア

テキスト

ファイルとバッチ

画像とメディア

非同期ジョブ

Gemini ネイティブ

管理

概要

リクエストボディ

レスポンス

翻訳と文字起こしの違い

コア

テキスト

ファイルとバッチ

画像とメディア

非同期ジョブ

Gemini ネイティブ

管理

​概要

​リクエストボディ

​レスポンス

​翻訳と文字起こしの違い

概要

リクエストボディ

レスポンス

翻訳と文字起こしの違い