KV캐시란 무엇인가 | AI 메모리가 폭증하는 진짜 이유

“왜 AI는 메모리를 그렇게 많이 먹어요?”
이 질문에 한 단어로 답한다면 바로 KV캐시(Key-Value Cache)입니다. 요즘 SK하이닉스·삼성전자의 HBM 가격이 천정부지로 치솟는 이유, 그리고 HBF라는 새로운 메모리가 등장한 이유 모두 이 KV캐시 한 단어로 설명됩니다.

오늘은 KV캐시가 정확히 뭔지, 왜 용량이 폭증하는지, 그리고 그 안에 ‘액티브’와 ‘슬립’이 따로 있는 이유까지 쉽게 풀어드릴게요.

📋 이 글에서 다루는 내용

  • KV캐시가 뭐길래 — 도서관 메모지 비유
  • 왜 용량이 폭증할까 (컨텍스트 길이의 비밀)
  • 액티브 KV캐시 vs 슬립 KV캐시
  • HBM·HBF가 이 문제를 어떻게 푸는가
  • FAQ

1. KV캐시가 뭐길래 — 도서관 메모지 비유

여러분이 도서관에서 어려운 보고서를 쓴다고 상상해보세요. 책을 한 권 읽을 때마다 ‘이 책 47쪽에 핵심 통계 있음’, ‘저 책 122쪽에 반대 의견 있음’ 같은 메모지(포스트잇)를 책 사이사이에 끼워두죠. 나중에 글을 쓸 때 그 메모지만 보면 어떤 책 어디로 가야 할지 바로 알 수 있어요.

AI에게도 똑같은 메모지가 있습니다. 어텐션 알고리즘이 작동하면서 “지금까지 본 단어 하나하나에 대해, ‘나중에 다시 참고할 정보(Key)’와 ‘실제 내용(Value)’을 짝지어 저장”합니다. 이 짝꿍 메모지 묶음을 KV캐시(Key-Value Cache)라고 불러요.

💡 핵심 한 줄: KV캐시는 AI가 지금까지 본 모든 단어에 대해 “이건 중요해, 이건 이런 의미야”라고 적어둔 메모지 묶음입니다. 다음 단어를 만들 때마다 이 메모지를 통째로 다시 훑어요.

2. 왜 용량이 폭증할까 — 컨텍스트 길이의 비밀

문제는 메모지 양이 대화가 길어질수록 기하급수적으로 늘어난다는 점입니다. 단어 1개당 메모지 1개라고 가정하면:

  • 짧은 질문 (100단어): 메모지 100장 — 핸드폰 메모장 수준
  • 긴 보고서 분석 (10,000단어): 메모지 10,000장 — 책상 한 칸
  • 책 한 권 통째 분석 (100,000단어): 메모지 100,000장 — 캐비넷 한 개
  • 1M 토큰 컨텍스트(요즘 최신 모델): 메모지 1,000,000장 — 창고 한 동

그리고 메모지 1장당 차지하는 메모리도 모델이 커질수록 늘어납니다. 결과적으로 최신 대형 모델 한 세션이 수십~수백 GB의 KV캐시를 차지하는 일이 흔해졌어요. 이걸 GPU 옆 메모리에 다 담아야 답을 줄 수 있으니, 메모리 가격이 천정부지로 오르는 거죠.


2. 액티브 KV캐시 vs 슬립 KV캐시

그런데 흥미로운 사실이 하나 있어요. 모든 메모지를 매 순간 다 쓰는 건 아니라는 점입니다.

구분언제 쓰나필요한 메모리
액티브 KV캐시지금 당장 답을 만들고 있는 중초고속 메모리 (HBM)
슬립 KV캐시이전 대화·이전 문서, 곧 다시 쓸 수도 있음대용량 메모리 (HBF, 낸드)

식당으로 치면 액티브는 ‘지금 주방 화구 위에 올라간 재료’, 슬립은 ‘곧 쓸 거라 냉장고에 넣어둔 재료’예요. 둘 다 필요하지만 보관 장소가 다른 거죠.


3. HBM·HBF가 이 문제를 어떻게 푸는가

여기서 한국 메모리 양사의 전략이 등장합니다.

  • HBM: 액티브 KV캐시 담당 — 빠르지만 용량 적음
  • HBF: 슬립 KV캐시 담당 — 좀 느려도 용량 10배 이상

둘을 GPU 입장에서 ‘한 덩어리 메모리’처럼 보이게 만들면, AI 회사들은 소프트웨어를 거의 안 바꾸고도 메모리 용량을 폭증시킬 수 있어요. 그래서 엔비디아·구글·AMD가 이 조합에서 빠져나오기 어렵다는 분석이 나오는 거고요. 이 큰 그림은 HBF 가두리 전략 글에서 자세히 다뤘습니다.


자주 묻는 질문 (FAQ)

Q. KV캐시는 왜 압축이 어려운가요?

압축(퀀타이제이션) 자체는 가능하지만, 답변 품질이 떨어지는 트레이드오프가 있습니다. 구글이 압축 기술에 큰 투자를 하는 이유도 그 한계를 늦추기 위함이에요. 다만 압축만으로는 컨텍스트 길이 증가 속도를 따라잡지 못한다는 게 업계 컨센서스입니다.

Q. SRAM으로 KV캐시를 다 처리하면 안 되나요?

SRAM은 빠르지만 칩 면적의 70%를 차지할 정도로 밀도가 낮고 비쌉니다. Groq 사례처럼 특정 워크로드에는 유효하지만, 일반 LLM 추론용으로는 비용이 비현실적이에요.


※ 본 글은 공개된 학술·산업 자료를 바탕으로 정리한 정보성 콘텐츠입니다.

댓글 남기기