구글 딥마인드가 4월 22일 공개한 Vision Banana는 분할·깊이·표면 법선까지 단일 이미지 생성 모델로 처리하며, '생성=이해' 명제를 비전 파운데이션 모델에 대입한 첫 대규모 증명이다.

구글 딥마인드 Vision Banana는 Nano Banana Pro를 명령어 튜닝한 '하나의 이미지 생성 모델'이지만, 시맨틱 분할에서 SAM 3를 능가하고 단안 메트릭 깊이 추정에서 Depth Anything V3를 0.929 vs 0.918(δ1)로 앞선다. 이미지 생성 사전학습이 비전 이해의 보편 토대로 작동한다는 점을 처음으로 벤치마크 차원에서 입증한 결과다.
Vision Banana는 무엇을 바꾸나
기존 비전 파이프라인은 분할·검출·깊이·법선 등 과제마다 전용 백본과 헤드를 따로 학습시키는 구조였다. Vision Banana는 사용자가 이미지와 자연어로 "이 사진의 깊이 맵을 그려라"라고 입력하면, 모델이 그 답을 새 이미지로 그려서 반환한다. 텍스트 LLM이 요약·번역·코딩을 한 모델로 처리하듯, 비전도 한 모델·한 인터페이스로 통합된다는 그림이다.
중요한 점은 Vision Banana가 비전 데이터로 처음부터 학습된 모델이 아니라, 이미 거대한 이미지 생성 모델인 Nano Banana Pro 위에 소량의 비전 과제 데이터를 섞어 명령어 튜닝한 결과라는 것이다. 즉 "그릴 줄 아는 모델은 이미 보고 있다"는 가설이 데이터로 뒷받침됐다.
벤치마크 결과 핵심 지표
메트릭 깊이 (δ1)
Vision Banana 0.929 — Depth Anything V3 0.918을 합성 데이터만으로 추월
시맨틱 분할
SAM 3 시리즈를 능가하거나 동급. 인스턴스 분할 동시 처리
표면 법선·3D
2D·3D 이해 동시 SOTA. 도메인 특화 모델과 동급 또는 그 이상
생성 능력 보존
기존 Nano Banana Pro의 이미지 생성 품질을 유지한 채 비전 이해 추가
왜 '생성=이해'가 중요한가
텍스트 영역에서는 이미 다음 토큰 예측이 추론·요약·번역·코딩을 모두 흡수했다. 비전에서도 같은 일이 가능한지가 오랜 질문이었고, Vision Banana는 그 질문에 가장 강한 긍정 답을 내놓았다. 이미지 생성 사전학습은 픽셀 분포의 깊은 구조를 강제로 학습시키며, 그 표상은 분할·깊이·법선 같은 구조적 과제로 즉시 이전된다.
저자 라인업
- 시니어: Kaiming He(ResNet·Mask R-CNN 저자), Saining Xie(ConvNeXt·DiT 저자), Thomas Funkhouser, Jean-Baptiste Alayrac
- 소속: 구글 딥마인드. arXiv: 2604.20329, 공개 페이지 vision-banana.github.io
- 제출일: 2026년 4월 22일. 4월 25일 마크테크포스트가 SAM 3·Depth Anything V3 격파를 보도
로보틱스·자율주행에 미칠 충격
Vision Banana의 진짜 가치는 제로샷 전이 능력이다. 한 모델이 분할·깊이·법선·생성을 동시에 처리하므로, 로보틱스 스택에서 모듈마다 다른 백본을 유지할 필요가 사라진다. 자율주행처럼 인지·예측·시뮬레이션이 한 파이프라인에 묶인 시스템에서는, 단일 비전 파운데이션 모델이 추론 비용과 캘리브레이션 비용을 동시에 줄이는 효과가 있다.
실제로 NVIDIA가 같은 주에 발표한 Isaac GR00T와 Nemotron 3 Nano Omni 흐름과 합쳐 보면, '비전·언어·행동'을 통합하는 파운데이션 모델 경쟁이 본격적으로 열리고 있다는 신호로 읽힌다.
한계와 의문점
Vision Banana는 출력이 이미지인 만큼 추론 비용이 전용 분할 모델보다 비싸다. 또 합성 데이터 위주 학습이 야외 자율주행 같은 도메인 시프트에서 어떻게 견디는지는 아직 추가 평가가 필요하다. 정량적으로는 SOTA지만, 산업 현장의 KPI는 정량 점수만으로 결정되지 않는다.
필자가 비전 모델을 다뤄 본 경험으로 보면, 구조적 과제(분할·깊이·법선)는 본질적으로 픽셀 단위 분포 학습 문제다. 그래서 강한 이미지 생성 모델이 좋은 비전 이해를 보이는 건 사실 자연스러운 결과다. 다만 이번 결과의 진짜 의미는 점수가 아니라, 비전 분야가 '단일 파운데이션 모델 + 명령어 튜닝'이라는 LLM식 패러다임으로 정렬되기 시작했다는 점이다. 다음 1년의 비전 연구는 백본 다양성보다 데이터·평가가 핵심이 될 가능성이 높다.
자주 묻는 질문
Q1. Vision Banana는 일반에 공개됐나요?
현재는 연구 논문과 데모 페이지(vision-banana.github.io) 형태로 공개됐고, Nano Banana Pro 기반이므로 향후 Gemini 제품군에 통합될 가능성이 높습니다.
Q2. SAM 3나 Depth Anything V3는 이제 의미가 없나요?
아닙니다. 전용 모델은 추론 비용이 훨씬 작고 엣지 디바이스 배포가 쉽습니다. Vision Banana는 클라우드급 추론을 전제로 하는 거대 모델 라인이며, 두 진영은 당분간 공존할 가능성이 큽니다.
Q3. 합성 데이터만으로 SOTA가 나온 이유는?
Nano Banana Pro의 사전학습이 이미 픽셀 분포의 풍부한 구조를 흡수했기 때문에, 비전 과제에 필요한 라벨은 소량의 합성 데이터로 충분히 정렬할 수 있다는 해석이 유력합니다.
Q4. 한국 개발자 입장에서 어떻게 활용할 수 있나요?
아직 공개 API는 없지만, 같은 패러다임의 오픈소스 후속 모델이 곧 나올 가능성이 큽니다. 지금은 자사 데이터를 명령어 튜닝 형태로 정리해 두는 것이 가장 빠른 준비입니다.