OpenAI 음성 AI 트리플 출시 — Realtime-2가 96.6% 찍었다

카테고리 없음

OpenAI 음성 AI 트리플 출시 — Realtime-2가 96.6% 찍었다

sombaragi 2026. 5. 11. 08:00

🤖 AI 뉴스

GPT-Realtime-2·Realtime-Translate·Realtime-Whisper 세 모델이 한번에 실시간 음성 API에 들어왔다. GPT-5급 추론, 70개 언어 통역, 스트리밍 음성 인식이 동시에 풀린 의미를 정리한다.

OpenAI가 5월 7일 Realtime API에 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper 세 모델을 동시 투입했습니다. 핵심은 음성 모델에 처음으로 GPT-5급 추론이 결합돼 Big Bench Audio 벤치마크가 81.4%에서 96.6%로 15.2포인트 뛰어올랐다는 것이고, 한 번의 발표로 음성 대화·실시간 통역·스트리밍 받아쓰기까지 한 번에 갱신됐다는 점입니다.

왜 이번 발표가 음성 AI 분기점인가

기존 음성 AI는 텍스트 LLM과 음성 인식·합성을 외부에서 묶어 쓰는 파이프라인 방식이 대부분이었습니다. 이번 Realtime-2는 음성 입출력 자체에 GPT-5 계열 추론 엔진을 통합한 첫 모델입니다. 같은 발표에서 통역 전용·받아쓰기 전용 모델을 별도로 분리해 비용·지연시간 트레이드오프를 사용자가 골라 쓰도록 만든 점도 새롭습니다.

한눈에 보는 트리플 출시

GPT-Realtime-2 — Big Bench Audio 81.4 → 96.6%, Audio MultiChallenge 34.7 → 48.5%
GPT-Realtime-Translate — 70개 이상 입력 언어, 13개 출력 언어 실시간 통역
GPT-Realtime-Whisper — 스트리밍 STT, 발화 즉시 텍스트 출력
평균 첫 음성 응답 지연 1.12초(최소 추론) ~ 2.33초(고추론)

GPT-Realtime-2 — 음성에 GPT-5 추론을 박았다

Realtime-2의 핵심은 모델 카드에 명시된 "GPT-5-class reasoning" 표현입니다. 음성 입력을 그대로 받아 추론 단계를 거친 뒤 음성으로 답하는 구조라, 기술 트러블슈팅·일정 조정 같은 다단계 작업을 음성만으로 진행할 수 있습니다. 벤치마크상으로는 Big Bench Audio가 96.6%로 사실상 천장에 도달했고, 더 까다로운 Audio MultiChallenge에서도 13.8포인트가 올랐습니다.

Big Bench Audio

81.4% → 96.6%. 음성 대화 종합 능력 표준 벤치마크. 사실상 상한.

Audio MultiChallenge

34.7% → 48.5%. 다단계 추론·도구 호출 포함 어려운 음성 과제.

최소 추론 지연

1.12초. 첫 음성 토큰까지의 평균 시간. 인간 턴테이킹 가능 범위.

고추론 지연

2.33초. 복잡한 추론 모드. 컴플라이언스·진단 영역에 사용.

GPT-Realtime-Translate — 70 → 13 언어 실시간 통역

Translate 전용 모델은 70개 이상 입력 언어를 자동 감지해 13개 출력 언어 — 영어·스페인어·포르투갈어·프랑스어·일본어·러시아어·중국어·독일어·한국어·힌디어·인도네시아어·베트남어·이탈리아어 — 로 동시 통역합니다. 음성 대 음성 + 텍스트 트랜스크립트를 함께 반환해 회의·콜센터·라이브 방송에서 한 모델로 다국어 자막과 통역 음성을 모두 뽑을 수 있습니다.

가격은 분당 0.034달러로, 콜당 평균 5분짜리 다국어 고객 응대를 가정하면 통역 비용이 0.17달러 수준입니다. Deutsche Telekom이 첫 도입 사례로 공개됐는데, 고객이 원하는 언어로 말하면 상담사 측 한국어·독일어·영어 같은 13개 언어 중 하나로 즉시 변환되는 구조입니다.

GPT-Realtime-Whisper — 스트리밍 받아쓰기의 새 디폴트

Whisper는 OpenAI가 2022년 처음 공개한 비실시간 음성 인식 모델 이름이지만, 이번 Realtime-Whisper는 발화하는 동안 텍스트가 화면에 흘러 나오는 스트리밍 STT입니다. 분당 약 0.017달러로 Realtime-2보다 훨씬 저렴해, 회의 자막·라이브 캡션·음성 메모 트랜스크립션처럼 추론이 필요 없는 받아쓰기 워크로드의 새 디폴트가 될 가능성이 큽니다.

가격·지연시간 — 콜센터 단가 다시 쓴다

신규 가격표

GPT-Realtime-2 입력: 100만 오디오 토큰당 $32, 캐시 입력은 $0.40
GPT-Realtime-2 출력: 100만 오디오 토큰당 $64
GPT-Realtime-Translate: 분당 $0.034 (사실상 통역 정액제)
GPT-Realtime-Whisper: 분당 약 $0.017 (받아쓰기 최저가)

캐시 입력 가격이 $0.40로 거의 80배 저렴하다는 점이 실전 설계의 포인트입니다. 시스템 프롬프트와 회사 지침처럼 콜마다 동일한 입력은 캐시로 고정하면, 평균 5~10분 통화에서 콜당 0.5~1달러 수준 운영이 가능해집니다. 인간 상담사 인건비와 비교하면 음성 AI가 처음으로 단가 측면에서 의미 있는 영역에 들어왔다는 평가가 나옵니다.

개인적으로 가장 인상 깊은 건 세 모델이 "기능별로 분리된" 점이다. 한 모델이 모든 음성 작업을 다 처리하면 단가는 낮아도 추론 마진이 커진다. OpenAI는 추론·통역·받아쓰기를 가격대별로 갈라 SDK 수준에서 라우팅하도록 만들었다. 이는 Sakana KAME가 음성 AI에 LLM 오라클을 비동기로 주입했던 설계와 결이 같다 — 음성 파이프라인은 이제 모놀리식이 아니라 마이크로 서비스 조합으로 가는 중이다.

자주 묻는 질문

Q. 한국어는 입력·출력 모두 지원되나?

네. Translate의 13개 출력 언어 명단에 한국어가 포함됩니다. 70개 이상 입력 언어이므로 한국어 → 영어·일본어·중국어 통역이 모두 가능합니다.

Q. Realtime-2와 Translate를 동시에 쓸 수 있나?

두 모델이 같은 Realtime API에 들어 있으므로 세션 안에서 라우팅을 갈아끼울 수 있습니다. 일반 대화는 Realtime-2, 외국어 화자가 합류하면 Translate로 전환하는 식이 가능합니다.

Q. 기존 Realtime-1.5 사용자는 어떻게 되나?

Realtime-1.5는 당분간 유지되지만, 신규 Realtime-2가 동일 가격대에서 1.5배 이상 향상된 벤치마크를 보여 사실상 디폴트가 교체됩니다. 마이그레이션 가이드는 OpenAI 쿡북에 공개됐습니다.

Q. 한국 콜센터에 바로 적용 가능한가?

기술적으로는 가능하지만, 개인정보 보호법 상 통화 녹취가 미국 OpenAI 서버를 경유하는 점은 별도 검토가 필요합니다. Azure OpenAI 한국 리전 지원이 발표되면 컴플라이언스 부담이 크게 줄어듭니다.

sombaragi