요청 본문
전사할 오디오 파일입니다. 지원 형식: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
사용할 모델입니다. 현재는
whisper-1만 지원됩니다.ISO-639-1 형식의 오디오 언어입니다(예:
en, zh, ja).모델의 스타일을 유도하거나 이전 세그먼트를 이어가기 위한 선택적 텍스트입니다.
출력 형식:
json, text, srt, verbose_json, vtt.샘플링 temperature(0~1).
타임스탬프 세분성:
word 및/또는 segment. verbose_json이 필요합니다.응답
전사된 텍스트입니다.
verbose_json의 경우:
항상
transcribe입니다.감지된 언어입니다.
초 단위 오디오 길이입니다.
타임스탬프가 포함된 전사 세그먼트입니다.
단어 수준 타임스탬프입니다(요청한 경우).