카테고리 없음

Sakana AI KAME 공개 — 음성 AI에 LLM 오라클을 비동기로 주입하다

sombaragi 2026. 5. 4. 08:00
반응형
🤖 AI 뉴스

두 머리 텐덤 구조로 "말하면서 생각"을 구현해 지연 시간을 늘리지 않고 지식 정확도만 끌어올린 ICASSP 2026 채택 논문, 코드와 데모까지 공개됐다.

Sakana AI가 5월 3일 발표한 KAME(Knowledge Augmented MultilEvel)는 빠른 음성-음성 모델 위에 큰 LLM을 비동기 보조로 묶어 음성 대화의 지연 시간을 그대로 두면서 지식 정확도만 올린 텐덤 아키텍처다. 사용자가 말하는 동안 부분 전사를 받은 백엔드 LLM이 "오라클" 응답을 미리 흘려보내고, 음성 모델은 그 신호를 받아 답변을 다듬는다. ICASSP 2026 채택 논문이며, 깃허브와 마크테크포스트가 실측 데모를 공유했다.

KAME가 풀려는 음성 AI의 딜레마는 무엇인가

실시간 음성 대화 시스템은 두 가지 상충하는 요구를 동시에 만족시켜야 한다. 답변이 늦으면 대화가 어색해지고, 답변을 빨리 내놓으려고 작은 모델을 쓰면 "사실 관계"가 흔들린다. 기존 S2S(Speech-to-Speech) 모델은 단일 트랜스포머 안에 음성 인코더·디코더·언어 모델을 욱여넣어 200ms 안팎의 응답을 만드는 데는 성공했지만, 정밀한 사실 회상이나 다단계 추론에서는 몸집이 큰 텍스트 LLM에 일관되게 밀렸다.

KAME 팀은 이 문제를 "한 머리로는 부족하다"는 단순한 통찰로 정리했다. 음성 처리는 빠른 머리에 맡기고 지식·추론은 느린 머리에 맡긴 뒤, 두 머리가 비동기로 정보를 주고받게 만들면 된다는 것이다. 이른바 "Speak while thinking" 패러다임이다. 결과적으로 모델은 사용자가 한 문장을 다 말하기 전부터 답변 후보를 떠올리고, 문장이 끝날 때쯤 그중 가장 정확한 흐름을 골라 음성으로 흘려보낸다.

두 머리 텐덤 구조와 오라클 신호의 동작 원리

KAME 시스템은 빠른 루프와 느린 루프 두 개를 병렬로 돌린다. 빠른 루프는 일반적인 S2S 모델로, 입력 음성을 토큰으로 잘게 나눠 즉시 응답을 합성한다. 느린 루프는 백엔드 LLM(논문 기준 GPT-4.1, Claude Opus 4.1, Gemini 2.5 Flash 중 선택)이 부분 전사를 받아 "이 시점에 사용자가 원할 답변은 무엇일까"를 미리 추론해 짧은 텍스트 오라클로 다시 S2S 쪽에 주입한다. 음성 모델은 이 오라클을 정답에 가까운 추가 컨텍스트로 받아들여 자기 출력 분포를 수정한다.

KAME 텐덤의 핵심 메커니즘

  • 빠른 루프: 200ms 이하의 짧은 청크를 처리해 즉시 음성을 합성
  • 느린 루프: 백엔드 LLM이 부분 전사를 보고 잠정 응답(오라클)을 비동기 생성
  • 동기화: 오라클이 도착하는 즉시 S2S 디코더의 다음 토큰 분포에 가중치로 반영
  • 오라클 미도착 시: S2S 모델 단독 답변으로 자연스럽게 폴백, 응답이 끊기지 않음

Simulated Oracle Augmentation, 데이터가 없는 문제를 풀다

텐덤 구조의 가장 큰 학습 난제는 "오라클 신호가 들어오는 시점과 신뢰도를 모방한 데이터셋이 세상에 없다"는 점이었다. KAME 팀은 이를 시뮬레이티드 오라클 어그멘테이션(Simulated Oracle Augmentation, SOA)이라는 합성 데이터 파이프라인으로 해결했다. 표준 S2S 데이터셋의 사용자 발화를 잘게 자른 뒤, 시뮬레이터 LLM에 "이 시점까지의 부분 전사를 보고 그럴듯한 오라클을 만들어라"라고 시켜 다양한 완성도와 정확도의 가짜 오라클을 대량 생산한 것이다.

학습된 KAME는 그래서 오라클이 늦거나, 부정확하거나, 아예 누락된 상황을 모두 견딘다. 논문 표 4에 따르면 SOA 없이 학습한 베이스라인은 오라클 지연이 300ms를 넘기는 순간 음성 출력이 흔들렸지만, SOA로 학습한 KAME는 800ms 지연에서도 자연스러운 흐름을 유지했다. 부분 정보를 다루는 능력이 데이터 단계에서 강제로 주입된 셈이다.

백엔드 LLM 핫스왑과 벤치마크 결과

지식 정확도 +27%p

동일 S2S 베이스 대비 KAME가 사실 회상 벤치마크에서 27%p 끌어올렸다.

엔드투엔드 지연 +0ms

백엔드는 비동기로 돌기 때문에 첫 음성 토큰 출력 시간은 그대로다.

백엔드 핫스왑

GPT-4.1, Claude Opus 4.1, Gemini 2.5 Flash를 동일 인터페이스로 교체.

코드·데모 공개

SakanaAI/kame 깃허브 저장소에 학습 스크립트와 음성 데모 동봉.

기자가 본 KAME — 음성 에이전트 시장의 진짜 분기점

개인적으로 음성 에이전트를 평가할 때 가장 답답했던 부분은 "지능을 올리려면 모델을 키워야 하고, 모델을 키우면 응답이 늦어진다"는 트레이드오프였다. KAME는 이 둘을 다른 트랙으로 분리한다는 점에서 OpenAI Realtime이나 Google Astra가 단일 모델로 풀려던 문제를 거꾸로 푼 셈이다. 백엔드 LLM 핫스왑이 가능하다는 점도 중요하다. 비용 민감 워크로드는 Flash로, 사실 회상이 중요한 의료·법률 상담은 Opus로 갈아 끼워 운영할 수 있다는 뜻이기 때문이다.

자주 묻는 질문

Q1. KAME는 다른 S2S 모델과 무엇이 다른가?

단일 모델 안에서 음성과 추론을 모두 처리하지 않고, 빠른 음성 모델 위에 외부 LLM을 비동기 보조로 얹는다. 그래서 첫 응답 지연은 그대로지만 "지식의 깊이"는 백엔드 모델급이 된다.

Q2. 오라클이 늦게 도착하면 어떻게 되나?

SOA 학습 덕분에 KAME는 오라클 도착 시점이 들쭉날쭉해도 자연스럽게 답을 잇는다. 오라클이 끝까지 안 오면 베이스 S2S 답변으로 폴백한다.

Q3. 어떤 백엔드를 쓰는 게 가장 좋은가?

논문은 GPT-4.1·Claude Opus 4.1·Gemini 2.5 Flash 모두에서 의미 있는 향상을 확인했다. 비용 대비 성능은 Flash가, 사실 정확도는 Opus가 가장 높았다.

Q4. 코드는 어디서 받을 수 있나?

SakanaAI/kame 깃허브 저장소에 학습 코드와 음성 데모가 함께 공개돼 있다. 라이선스는 Apache 2.0이다.

반응형