GPT‑4o Transcribe Diarize
GPT‑4o Transcribe Diarize는 음성인식 뿐만 아니라 ‘화자 식별(발화 구간별 스피커 라벨링)’ 기능까지 갖춘 새로운 ASR(자동음성인식) 모델이다.
Hun Jang Nov 23, 2025
주요 특징
- “diarized_json” 형식의 응답을 제공하며, 각 발화(segment)에 대해 스피커(label) · 시작/끝 시간 정보가 포함된다. (OpenAI Community)
- 이 모델은 OpenAI의 Audio API에서 제공되며, 음성 파일을 업로드해 ‘model = gpt‑4o‑transcribe‑diarize’로 지정하면 해당 기능이 활성화된다. (OpenAI Platform)
- 커뮤니티 공지에 따르면 2025년 10월 18일경부터 일반 제공이 시작되었으며, 공식 문서상에서도 모델명이 명시되어 있다. (OpenAI Community)
주의사항 및 팁
- 스피커 이름을 미리 알려주는 ‘known_speaker_names’ 또는 참조 오디오 ‘known_speaker_references’를 제공하면 정확도가 올라간다. 이름을 제공하지 않으면 기본 라벨 “A:”, “B:” 식으로 표기된다. (ndurner.github.io)
- 긴 오디오 파일은 chunking_strategy(예: “auto”)를 이용해 분할 처리해야 한다는 지적이 있다. (OpenAI Community)