카테고리 없음

Moonshot FlashKDA 공개 — Kimi 어텐션 2.22배 가속

sombaragi 2026. 5. 3. 08:00
반응형
🤖 AI 뉴스

flash-linear-attention 드롭인 백엔드, NVIDIA H20에서 1.72~2.22× prefill 속도, KV 캐시 75% 감축까지 — Kimi Linear의 핵심 커널이 MIT 라이선스로 풀렸다.

Moonshot AI가 2026년 4월 30일 GitHub에 FlashKDA를 오픈소스로 공개했다. Kimi Delta Attention(KDA) 커널의 CUTLASS 기반 고성능 구현체로, NVIDIA H20에서 prefill 속도가 기존 flash-linear-attention 대비 1.72~2.22배 빠르다. 단일 커널 릴리스이지만, Kimi Linear와 K2.6에서 1M 토큰 컨텍스트를 풀어낸 비밀이 정확히 이 안에 있다.

FlashKDA가 뭐길래 갑자기 풀렸나

FlashKDA는 Kimi Delta Attention의 forward·backward 커널을 NVIDIA Hopper 세대(SM90+)에 맞춰 재작성한 라이브러리다. 한 줄 요약은 단순하다 — flash-linear-attention(FLA) 백엔드를 그대로 두고, KDA 호출만 FlashKDA로 갈아끼우면 prefill이 2배 빨라진다. 드롭인 호환을 명시한 이유는 분명하다. 이미 FLA 위에 Kimi Linear, MiniMax M-1, Qwen3-Next 같은 하이브리드 모델들이 존재한다.

Moonshot은 4월 20일 Kimi K2.6 풀 모델을 공개했다. 1T 파라미터 MoE로 12시간 자율 코딩, 300개 서브에이전트 스웜, 4,000단계 협업이 가능하다는 발표 직후의 후속 릴리스다. 모델보다 커널이 늦게 나오는 건 흔한데, 이번엔 의미가 다르다. 1M 컨텍스트와 디코딩 처리량 6배는 KDA 자체가 아니라 KDA를 빠르게 돌리는 커널이 있어야 가능하다는 사실을 인정한 셈이다.

KDA는 어떻게 KV 캐시를 75% 줄였나

KIMI DELTA ATTENTION 핵심 아이디어

  • Gated DeltaNet에 채널별(channel-wise) 미세 게이팅을 추가
  • 선형 어텐션 — RNN 형태의 유한 상태 메모리를 더 효율적으로 사용
  • Kimi Linear는 KDA 3개당 MLA(Multi-Head Latent Attention) 1개의 3:1 비율
  • 긴 문맥에서 KV 캐시 사용량을 최대 75%까지 감소
  • 1M 토큰 컨텍스트에서 풀 어텐션 대비 디코딩 처리량 6배

선형 어텐션(linear attention) 자체는 새 개념이 아니다. 2020년 전후 Performer, Linformer 같은 모델이 시도했고, 길이가 늘어나도 메모리·연산이 선형이라는 매력에도 불구하고 표현력 손실이 컸다. KDA가 다른 점은 선형 어텐션과 풀 어텐션을 같은 모델 안에서 혼합한다는 점이다. KDA 3개로 긴 거리 의존을 싸게 처리하고, MLA 1개로 정확도 손실을 메운다.

FlashKDA의 H20 벤치마크 — 왜 1.72~2.22배인가

Prefill 가속

FLA 베이스라인 대비 H20 GPU에서 1.72×~2.22× 빠르다. 시퀀스가 길수록 효율 차이가 벌어진다.

Variable-Length Batching

길이가 제각각인 요청을 패딩 없이 한 배치에 묶는다. 추론 서버 효율이 직격으로 좋아진다.

SM90+ 타깃

CUTLASS의 Hopper 텐서코어와 TMA(Tensor Memory Accelerator)를 적극 활용. CUDA 12.9 이상, PyTorch 2.4 이상 필요.

Head Dim 128 고정

현재 K=V=128만 지원. Kimi Linear와 K2.6의 표준 차원과 동일해 즉시 사용 가능하지만, 다른 모델은 추가 작업 필요.

2.22배 prefill 가속의 가치는 단순한 수치 이상이다. 100만 토큰 컨텍스트를 일으키는 데 걸리는 시간이 절반 가까이 줄어든다. 동일한 GPU 자원으로 두 배 많은 사용자를 처리할 수 있다는 의미다. 모델을 더 키우는 대신 커널을 다듬는 길이 점점 더 비용 효율적이라는 신호다.

왜 H20인가 — 미국 수출 통제와 중국 추론 시장

H20은 NVIDIA가 미국 수출 통제를 우회해 중국 시장에 공급한 H100의 다운그레이드 버전이다. FP8 텐서 연산 능력은 H100 대비 약 50% 수준이지만, 메모리 대역폭은 거의 그대로다. 어텐션 커널은 메모리 바운드(memory-bound)인 경우가 많아 H20에서도 충분히 의미 있는 성능이 나온다.

Moonshot이 H20을 1차 타깃으로 명시한 건 의도적 선택이다. 중국 클라우드와 추론 사업자들이 가장 많이 보유한 칩이고, FlashKDA가 거기에서 잘 돌면 Kimi K2.6의 채택 속도가 크게 빨라진다. NVIDIA H100·H200·B200에서도 작동하지만, 벤치마크 그래프는 H20이 메인이다.

개발자 입장에서 가장 반가운 건 "드롭인 백엔드"라는 단어다. 코드를 다시 짤 필요 없이 import 한 줄을 갈아끼우면 H20에서 prefill이 2배 빨라진다. KDA를 쓰는 모든 모델이 즉시 혜택을 본다. 어텐션 알고리즘 경쟁이 끝나간다는 말은 너무 일렀다 — 이젠 같은 알고리즘을 누가 더 빠르게 굽히느냐의 싸움이다.

flash-attention 시대에서 flash-linear-attention 시대로

2022년 Tri Dao의 FlashAttention은 풀 어텐션을 GPU 친화적으로 다시 짜며 LLM 추론 효율의 표준이 됐다. FlashKDA는 그 다음 장이다. 표준 트랜스포머 한 종류가 아니라 선형·하이브리드·델타·게이트드까지 다양해진 어텐션을 같은 라이브러리에서 다룬다. flash-linear-attention 프로젝트가 자리잡자, 그 안의 핵심 노드 하나(KDA)를 위한 최적화 커널이 따로 출시된 셈이다.

결과적으로 추론 스택이 두꺼워진다. 모델 파일 위에 어텐션 라이브러리, 그 위에 커널 백엔드. Kimi K2.6을 자기 데이터센터에서 돌리려면 이제 PyTorch + FLA + FlashKDA 조합을 맞춰야 한다. 의존성 관리는 복잡해졌지만, 같은 GPU에서 두 배 많은 사용자를 받을 수 있다면 운영자 입장에서는 무조건 남는 장사다.

자주 묻는 질문 (FAQ)

Q. FlashKDA를 쓰려면 모델을 다시 학습해야 하나요?

아닙니다. KDA 어텐션 메커니즘을 이미 사용하는 모델(Kimi Linear, K2.6 등)은 추론 시 백엔드만 바꾸면 됩니다. flash-linear-attention 백엔드 옵션을 FlashKDA로 지정하면 끝입니다.

Q. H100이나 B200에서도 같은 가속을 보나요?

SM90+ 타깃이라 H100, H20, H200, B200까지 모두 작동합니다. 다만 공식 벤치마크는 H20 기준입니다. H100은 텐서코어 능력이 더 좋아 절대 속도는 빠르지만 상대 가속률은 H20과 다를 수 있습니다.

Q. KDA 외 다른 어텐션도 가속해 주나요?

현재는 KDA forward·backward 커널만 다룹니다. Gated DeltaNet, GLA(Gated Linear Attention) 같은 형제 메커니즘은 flash-linear-attention 본 라이브러리 쪽에서 별도로 관리됩니다.

Q. 라이선스와 상용 사용은?

MIT 라이선스로 공개돼 상업적 사용에 제한이 없습니다. 다만 함께 쓸 모델(Kimi K2.6 등)의 라이선스는 별도이므로 그쪽도 확인해야 합니다.

반응형