ChatGPT가 어떻게 그렇게 자연스러운 문장을 쓸까요? 정답은 한 단어, 어텐션(Attention)입니다. 2017년 구글이 발표한 논문 ‘Attention Is All You Need’ 이후 모든 LLM의 심장이 된 알고리즘이죠.
오늘은 어텐션이 어떻게 작동하는지, 왜 이게 메모리 폭증의 원흉인지, 그리고 제프리 힌튼의 백프로퍼게이션과 무엇이 다른지를 풀어드릴게요.
📋 이 글에서 다루는 내용
- 어텐션이란 무엇인가 — 형광펜 비유
- Query·Key·Value 3총사
- 백프로퍼게이션과의 차이
- 왜 어텐션이 메모리 폭증을 일으키는가
- FAQ
1. 어텐션이란 무엇인가 — 형광펜 비유
여러분이 시험 전날 교과서를 읽는다고 생각해보세요. 모든 문장을 똑같이 외우진 않죠. 중요한 부분에 형광펜으로 표시하고, 나중에 시험 칠 때 형광펜 부분 위주로 떠올립니다.
AI도 마찬가지예요. 문장에서 단어를 하나씩 만들 때, ‘지금 이 단어를 만들려면 앞에 봤던 단어 중 어디에 더 주목해야 할까?’를 매번 계산합니다. 이 ‘주목하기’ 계산이 바로 어텐션입니다.
2. Query·Key·Value 3총사
어텐션을 한 번 계산할 때마다 등장하는 세 친구가 있어요.
- Query(질문): “지금 내가 만들려는 단어가 알고 싶은 게 뭐지?”
- Key(열쇠): “이 단어가 어떤 종류의 정보인지 알려주는 표지판”
- Value(값): “이 단어의 실제 의미 데이터”
도서관에서 책을 찾는 과정과 똑같아요. 내가 가진 질문(Query)을 들고, 책 표지(Key)를 훑어보고, 가장 잘 맞는 책 내용(Value)을 꺼내옵니다. 이 ‘Key-Value’ 짝꿍이 바로 KV캐시에 저장되는 정보예요.
3. 백프로퍼게이션과의 차이
제프리 힌튼 교수가 노벨상을 받은 백프로퍼게이션(Backpropagation)은 ‘AI가 어떻게 똑똑해지는가’를 다룹니다. 모델이 답을 틀리면 그 오차를 거꾸로 흘려보내며 가중치를 조정하는 학습 방법이죠.
| 구분 | 백프로퍼게이션 | 어텐션 |
|---|---|---|
| 역할 | 학습(Training) | 추론(Inference) 핵심 |
| 주연 하드웨어 | GPU | 메모리(HBM·HBF) |
| 전성기 | ~2020년대 초 | 현재진행형 |
예전엔 학습이 더 중요했지만, ChatGPT 시대 이후엔 이미 학습된 모델로 답을 내는 추론이 훨씬 더 큰 시장이 됐어요. 그래서 ‘GPU 시대’에서 ‘메모리 시대‘로 패러다임이 옮겨간 겁니다.
4. 왜 어텐션이 메모리 폭증을 일으키는가
어텐션은 문장이 길어질수록 계산량이 제곱(N²)으로 늘어납니다. 단어 10개면 100번, 100개면 10,000번, 1,000개면 1,000,000번을 계산해야 하죠.
그리고 그 결과(KV)를 전부 메모리에 저장해두고 다음 단어 만들 때마다 다시 봐야 합니다. 그래서 어텐션 = 메모리 폭식 알고리즘이라고 불려요. 이걸 풀려고 등장한 것이 HBF 같은 대용량 메모리이고, Groq의 SRAM 칩 같은 대안도 시도되고 있어요.
자주 묻는 질문 (FAQ)
Q. 어텐션 외 다른 알고리즘은 없나요?
Mamba·RWKV·State Space Model 같은 시도가 있지만, 아직 GPT 계열 트랜스포머의 품질을 뛰어넘지는 못했어요. 산업은 당분간 어텐션 중심으로 갈 가능성이 높습니다.
Q. 어텐션을 압축할 수 있나요?
Flash Attention, Multi-Query Attention 등 최적화 기법이 계속 나옵니다. 다만 압축의 한계가 메모리 수요 증가 속도보다 느려서, 메모리 그 자체를 키우는 게 더 현실적인 답이라는 게 김정호 교수의 주장입니다.
📚 함께 읽으면 좋은 글
※ 본 글은 공개된 논문·강연 자료를 바탕으로 정리한 정보성 콘텐츠입니다.
