Request Body
Audiodatei zur Transkription. Unterstützte Formate: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Zu verwendendes Modell. Derzeit wird nur
whisper-1 unterstützt.Sprache des Audios im ISO-639-1-Format (z. B.
en, zh, ja).Optionaler Text, um den Stil des Modells zu steuern oder ein vorheriges Segment fortzusetzen.
Ausgabeformat:
json, text, srt, verbose_json, vtt.Sampling-Temperatur (0 bis 1).
Granularität der Zeitstempel:
word und/oder segment. Erfordert verbose_json.Response
Der transkribierte Text.
verbose_json:
Immer
transcribe.Erkannte Sprache.
Audiodauer in Sekunden.
Transkriptionssegmente mit Zeitstempeln.
Zeitstempel auf Wortebene (falls angefordert).