pulse.huny.dev

HunyDev
GPT‑4o Transcribe Diarize

GPT‑4o Transcribe Diarize

GPT‑4o Transcribe Diarize는 음성인식 뿐만 아니라 ‘화자 식별(발화 구간별 스피커 라벨링)’ 기능까지 갖춘 새로운 ASR(자동음성인식) 모델이다.

Hun Jang
Hun Jang Nov 23, 2025

주요 특징

  • “diarized_json” 형식의 응답을 제공하며, 각 발화(segment)에 대해 스피커(label) · 시작/끝 시간 정보가 포함된다. (OpenAI Community)
  • 이 모델은 OpenAI의 Audio API에서 제공되며, 음성 파일을 업로드해 ‘model = gpt‑4o‑transcribe‑diarize’로 지정하면 해당 기능이 활성화된다. (OpenAI Platform)
  • 커뮤니티 공지에 따르면 2025년 10월 18일경부터 일반 제공이 시작되었으며, 공식 문서상에서도 모델명이 명시되어 있다. (OpenAI Community)

주의사항 및 팁

  • 스피커 이름을 미리 알려주는 ‘known_speaker_names’ 또는 참조 오디오 ‘known_speaker_references’를 제공하면 정확도가 올라간다. 이름을 제공하지 않으면 기본 라벨 “A:”, “B:” 식으로 표기된다. (ndurner.github.io)
  • 긴 오디오 파일은 chunking_strategy(예: “auto”)를 이용해 분할 처리해야 한다는 지적이 있다. (OpenAI Community)

You might also like

BlogPro logo
Made with BlogPro