メインコンテンツへスキップ

リクエストボディ

file
file
必須
文字起こしする音声ファイル。対応形式: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm。
model
string
デフォルト:"whisper-1"
使用するモデル。現在は whisper-1 のみサポートされています。
language
string
ISO-639-1 形式の音声言語(例: en, zh, ja)。
prompt
string
モデルのスタイルを誘導したり、前のセグメントの続きを生成したりするための任意のテキスト。
response_format
string
デフォルト:"json"
出力形式: json, text, srt, verbose_json, vtt
temperature
number
デフォルト:"0"
サンプリング温度(0 から 1)。
timestamp_granularities
array
タイムスタンプの粒度: word および/または segmentverbose_json が必要です。

レスポンス

text
string
文字起こしされたテキスト。
verbose_json の場合:
task
string
常に transcribe
language
string
検出された言語。
duration
number
音声の長さ(秒)。
segments
array
タイムスタンプ付きの文字起こしセグメント。
words
array
単語レベルのタイムスタンプ(要求された場合)。
curl -X POST "https://api.lemondata.cc/v1/audio/transcriptions" \
  -H "Authorization: Bearer sk-your-api-key" \
  -F file="@audio.mp3" \
  -F model="whisper-1" \
  -F language="en"
{
  "text": "Hello, this is a test of the transcription API."
}

翻訳

音声を英語に翻訳するには、translations endpoint を使用します:
response = client.audio.translations.create(
    model="whisper-1",
    file=audio_file
)