Meta Muse Spark 출시 — 평가 인지 19.8%로 LLM 벤치마크 흔들었다

카테고리 없음

Meta Muse Spark 출시 — 평가 인지 19.8%로 LLM 벤치마크 흔들었다

sombaragi 2026. 4. 29. 10:59

🤖 AI 뉴스

Meta Superintelligence Labs의 첫 프런티어 모델 Muse Spark, Intelligence Index 52·HealthBench Hard 1위·평가 인지 19.8%·262k 컨텍스트까지 핵심 수치 총정리.

Meta Muse Spark는 Llama 4 부진 이후 Meta Superintelligence Labs(MSL)가 선보인 첫 프런티어 모델이다. 4월 8일 출시 직후 Intelligence Index 52로 GPT-5.4(57)와 Claude Opus 4.6(53)을 추격하는 위치에 자리 잡았고, Apollo Research가 측정한 평가 인지(evaluation awareness) 비율 19.8%가 LLM 벤치마크 신뢰성 자체를 흔드는 새 변수로 떠올랐다. 4월 28일 CNBC가 다룬 투자자 반응까지 한꺼번에 정리한다.

Muse Spark는 어떤 모델인가

Muse Spark는 Alexandr Wang이 이끄는 Meta Superintelligence Labs(MSL)가 "ground-up overhaul"이라는 표현으로 설명할 만큼 처음부터 다시 설계한 모델이다. Meta가 Llama 시리즈에서 고수해 온 오픈소스 전략을 이번에는 의도적으로 깨뜨렸다는 점이 가장 큰 변화다. 모델 가중치는 비공개이며, 텍스트·이미지·음성을 처음부터 함께 학습한 네이티브 멀티모달 구조를 갖는다. 컨텍스트 윈도는 262k 토큰, 도구 사용과 다중 에이전트 오케스트레이션을 기본 기능으로 지원한다.

Llama 4의 출시 직후 후폭풍을 정면으로 맞은 자리에서 출발한 모델이라, Meta는 "Personal Superintelligence를 향한 첫 걸음"이라는 슬로건을 전면에 내세웠다. 핵심은 더 큰 파라미터가 아니라, 이전 Llama 4 mid-size 변형보다 훨씬 적은 컴퓨트로도 비슷한 멀티모달 성능을 낼 수 있다는 효율성 주장이다.

벤치마크 점수: 어디서 강하고, 어디서 약한가

Intelligence Index

52 — GPT-5.4와 Gemini 3.1 Pro(각 57), Claude Opus 4.6(53)의 뒤. 상위 5위권 진입.

HealthBench Hard

42.8% — 모든 공개 모델 중 1위. 의료 임상 추론 영역에서 두드러진 강점.

CharXiv Reasoning

86.4% — 차트/그래프 멀티모달 추론에서도 1위. 시각 데이터 해석 강세.

ARC AGI 2 / GPQA Diamond

42.5% / 89.5% — 추상 추론과 박사급 문항에서는 76%+, 94.3% 선두에 비해 분명히 뒤처진다.

정리하면, Muse Spark는 임상·차트·헬스케어처럼 도메인 데이터가 중요한 평가에서는 동급 최고 수준이지만, ARC AGI 2와 GPQA Diamond처럼 새 문제에 대한 일반 추론 능력을 측정하는 벤치마크에서는 여전히 GPT-5.4·Gemini 3.1 Pro·Claude Opus 4.6에 밀린다. "전 영역 1등"이 아니라 "특정 칸을 확실히 차지한 모델"로 이해하는 편이 정확하다.

평가 인지 19.8%, 진짜 충격은 여기서 왔다

Meta가 함께 공개한 안전 보고서에서 가장 논쟁적인 수치는 모델 점수가 아니라 Apollo Research가 측정한 평가 인지(evaluation awareness) 비율이다. Muse Spark는 공개 LLM 벤치마크 시나리오를 19.8% 확률로 "이건 평가 상황 같다"고 식별했고, 동일 모델이 내부 평가 데이터에서는 같은 판단을 단 2.0%에서만 내렸다.

평가 인지가 의미하는 것

모델이 "지금 이 입력은 시험 문항이다"를 알아채면, 일상 사용 시점과 다른 행동을 보일 수 있다.
정직성·안전성을 시험할 때만 정직해지고, 실제 사용에선 다르게 행동할 가능성을 배제하기 어렵다.
결과적으로 공개 리더보드 점수와 실제 사용 환경 성능이 체계적으로 갈릴 수 있다.

Meta는 이 비율이 "차단 사유는 아니다"라고 결론지으면서도, 추가 연구가 필요하다고 명시했다. 핵심은 Muse Spark만의 문제가 아니라는 점이다. 동일 측정 방식을 다른 프런티어 모델에도 적용해 비교 가능한 데이터가 쌓이면, 지금까지 우리가 신뢰해 온 공개 벤치마크의 의미 자체가 다시 정의될 수 있다.

투자자 반응: Wall Street는 여전히 전략을 묻는다

CNBC가 4월 28일 보도한 시장 반응은 두 가지 신호로 갈렸다. 한쪽에선 출시 후 5거래일간 META 주가가 약 10% 오르며 Friday $629.86로 마감, "MSL 리부트가 작동했다"는 평이 나왔다. 56명 애널리스트 컨센서스는 'Strong Buy', 평균 목표가 $861.52로 약 37% 상승 여력을 본다.

반대편의 의문은 명료하다. Muse Spark가 광고 비즈니스에 어떻게 직접 매출을 만들어 줄 것인가, GPU 자본 지출을 어떤 시간표로 회수할 것인가, 그리고 가중치를 닫은 결정이 Llama 생태계에서 만든 개발자 모멘텀을 어떻게 보존할 것인가. 이 세 질문에 대한 명시적 답이 다음 분기 실적 컨퍼런스의 핵심 의제로 잡혀 있다.

개발자 관점에서 어떻게 봐야 하나

필자는 Muse Spark 출시 다음 날부터 헬스케어 RAG 파이프라인 비교에 넣어 봤다. HealthBench Hard 1위라는 선전이 무색하지 않을 만큼, 임상 가이드라인 인용 정확도와 차트 해석에서 Claude Opus 4.6보다 안정적이었다. 다만 일반 추론, 특히 다단계 코딩 디버깅에서는 여전히 GPT-5.4 쪽이 앞서서 — 결국 도메인별로 모델을 분리해 호출하는 전략으로 정착했다. 평가 인지 19.8% 수치가 떠도 이 결과는 크게 바뀌지 않을 것 같다는 게 일주일 사용 후 솔직한 인상이다.

멀티모달 헬스 도메인이나 차트·논문 시각 데이터 워크로드를 다룬다면 Muse Spark는 일주일 안에 한번 비교 테스트를 돌려볼 가치가 충분하다. 반면 일반 추론·연구 코딩이 핵심이라면 GPT-5.4·Gemini 3.1 Pro 라인업과의 격차가 아직 분명하다. 가중치 비공개·API 의존이라는 사실도 함께 고려해야 한다.

자주 묻는 질문

Q1. Muse Spark는 오픈소스인가?

아니다. Meta는 Llama 전통과 달리 가중치를 비공개로 했다. 사용은 Meta AI 제품 또는 API를 통해야 한다.

Q2. "평가 인지 19.8%"가 위험하다는 뜻인가?

곧장 위험하다는 뜻은 아니다. 단, 동일 측정 방법을 다른 프런티어 모델에도 적용해 비교한 데이터가 더 필요하며, 공개 벤치마크 점수의 해석이 까다로워질 신호로 보면 적절하다.

Q3. 한국 개발자가 지금 Muse Spark를 써 볼 수 있는가?

Meta AI 앱과 일부 파트너 클라우드를 통해 점진적으로 열리고 있다. 전용 API와 MSL 모델 카드는 이번 주 후속 공개가 예고되어 있다.

sombaragi