pulse.huny.dev

HunyDev
Speaker Diarization with GPT-4o: 화자 분리 전사 파이프라인 구축하기

Speaker Diarization with GPT-4o: 화자 분리 전사 파이프라인 구축하기

gpt-4o-transcribe-diarize로 화자 분리 전사 + 화자별 하이라이트/노트 자동 생성입니다. 회의·인터뷰·팟캐스트처럼 여러 사람이 말하는 오디오를 넣으면, 누가 무엇을 말했는지 분리해서 텍스트로 만들고, 각 화자별 핵심 요약/액션 아이템까지 뽑아냅니다.

Hun Jang
Hun Jang Nov 24, 2025

화자 분리에서 요약까지 한 번에

gpt-4o-transcribe-diarize로 화자 분리 전사 + 화자별 하이라이트/노트 자동 생성입니다. 회의·인터뷰·팟캐스트처럼 여러 사람이 말하는 오디오를 넣으면, 누가 무엇을 말했는지 분리해서 텍스트로 만들고, 각 화자별 핵심 요약/액션 아이템까지 뽑아냅니다.

왜 좋나

  • 화자 단위 구조화: “MC/게스트/PM/엔지니어”별로 요약, Q&A 목록, 결정사항, 할 일 자동 정리.
  • 긴 오디오도 빠르게 훑기: 타임스탬프 + 한줄 요약으로 훑고 필요한 구간만 재생.
  • 아카이브 품질↑: 시리즈성 인터뷰/팟캐스트에선 화자별 recurring theme 추적 가능.

출력 예시(권장 스키마)

구현 스텝(요약)

  1. 업로드/인덱싱
  • 오디오/비디오 → 오디오 추출(필요 시 ffmpeg -i input.mp4 -vn -ac 1 -ar 16k audio.wav).
  • 긴 파일은 15~30분 단위로 청크 분할(타임스탬프 유지).
  1. 전사 + 화자 분리
  • gpt-4o-transcribe-diarize로 요청(언어 힌트 제공 추천: language: "ko" 등).
  • 응답의 segments에 화자 ID와 타임스탬프 포함.
  1. 화자별 요약 파이프라인
  • 같은 화자만 모아 부분 요약 → 전역 컨텍스트로 최종 요약.
  • 프롬프트에 “핵심 주장/수치/결정/할 일”을 명시해 이벤트성 정보를 우선 추출.
  1. 산출물
  • Markdown 리포트(블로그/Notion용)
  • JSON(검색·재가공용)
  • SRT/VTT(타임드 캡션/하이라이트 점프)

최소 예시(의사 코드)

프롬프트 팁(붙여넣어 쓰기)

  • 화자 요약 프롬프트
    • “당신은 전문 속기사 겸 PM입니다. 주어진 화자 발화를 읽고 아래 JSON 키로만 출력:
      • summary(3~5문장), highlights(항목 3~7개, 타임스탬프 포함), action_items(명령형).
      • 수치/결정/약속/날짜는 원문 그대로 유지.”
  • 정합성 체크
    • “겹치는 내용은 병합, 중복 액션은 제거. 타임스탬프는 mm:ss로.”

네이밍 아이디어(기능명)

  • Talk→Script 시리즈:
    • Talk→Script Diarize
    • Talk→Script Highlights
    • Talk→Script Board(화자별 칸반)
  • 대안:
    • “Voice Ledger”, “Speaker Notes AI”, “DiaScribe”, “CastMapper”

바로 쓰는 산출물 템플릿

  • Markdown
  • SRT 하이라이트(점프용)

You might also like

BlogPro logo
Made with BlogPro