Corps de la requête
Fichier audio à transcrire. Formats pris en charge : flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
Modèle à utiliser. Actuellement, seul
whisper-1 est pris en charge.Langue de l’audio au format ISO-639-1 (par ex.,
en, zh, ja).Texte facultatif pour guider le style du modèle ou poursuivre un segment précédent.
Format de sortie :
json, text, srt, verbose_json, vtt.Température d’échantillonnage (de 0 à 1).
Granularité des horodatages :
word et/ou segment. Nécessite verbose_json.Réponse
Le texte transcrit.
verbose_json :
Toujours
transcribe.Langue détectée.
Durée de l’audio en secondes.
Segments de transcription avec horodatages.
Horodatages au niveau des mots (si demandés).