Speaker Diarization with GPT-4o: 화자 분리 전사 파이프라인 구축하기
gpt-4o-transcribe-diarize로 화자 분리 전사 + 화자별 하이라이트/노트 자동 생성입니다. 회의·인터뷰·팟캐스트처럼 여러 사람이 말하는 오디오를 넣으면, 누가 무엇을 말했는지 분리해서 텍스트로 만들고, 각 화자별 핵심 요약/액션 아이템까지 뽑아냅니다.
Hun Jang Nov 24, 2025
화자 분리에서 요약까지 한 번에
gpt-4o-transcribe-diarize로 화자 분리 전사 + 화자별 하이라이트/노트 자동 생성입니다. 회의·인터뷰·팟캐스트처럼 여러 사람이 말하는 오디오를 넣으면, 누가 무엇을 말했는지 분리해서 텍스트로 만들고, 각 화자별 핵심 요약/액션 아이템까지 뽑아냅니다.
왜 좋나
- 화자 단위 구조화: “MC/게스트/PM/엔지니어”별로 요약, Q&A 목록, 결정사항, 할 일 자동 정리.
- 긴 오디오도 빠르게 훑기: 타임스탬프 + 한줄 요약으로 훑고 필요한 구간만 재생.
- 아카이브 품질↑: 시리즈성 인터뷰/팟캐스트에선 화자별 recurring theme 추적 가능.
출력 예시(권장 스키마)
구현 스텝(요약)
- 업로드/인덱싱
- 오디오/비디오 → 오디오 추출(필요 시
ffmpeg -i input.mp4 -vn -ac 1 -ar 16k audio.wav).
- 긴 파일은 15~30분 단위로 청크 분할(타임스탬프 유지).
- 전사 + 화자 분리
gpt-4o-transcribe-diarize로 요청(언어 힌트 제공 추천:language: "ko"등).
- 응답의
segments에 화자 ID와 타임스탬프 포함.
- 화자별 요약 파이프라인
- 같은 화자만 모아 부분 요약 → 전역 컨텍스트로 최종 요약.
- 프롬프트에 “핵심 주장/수치/결정/할 일”을 명시해 이벤트성 정보를 우선 추출.
- 산출물
- Markdown 리포트(블로그/Notion용)
- JSON(검색·재가공용)
- SRT/VTT(타임드 캡션/하이라이트 점프)
최소 예시(의사 코드)
프롬프트 팁(붙여넣어 쓰기)
- 화자 요약 프롬프트
- “당신은 전문 속기사 겸 PM입니다. 주어진 화자 발화를 읽고 아래 JSON 키로만 출력:
summary(3~5문장),highlights(항목 3~7개, 타임스탬프 포함),action_items(명령형).- 수치/결정/약속/날짜는 원문 그대로 유지.”
- 정합성 체크
- “겹치는 내용은 병합, 중복 액션은 제거. 타임스탬프는 mm:ss로.”
네이밍 아이디어(기능명)
- Talk→Script 시리즈:
Talk→Script DiarizeTalk→Script HighlightsTalk→Script Board(화자별 칸반)
- 대안:
- “Voice Ledger”, “Speaker Notes AI”, “DiaScribe”, “CastMapper”
바로 쓰는 산출물 템플릿
- Markdown
- SRT 하이라이트(점프용)