어텐션 알고리즘 뜻 쉽게 이해하기 | AI가 메모리를 갈망하는 이유

ChatGPT가 어떻게 그렇게 자연스러운 문장을 쓸까요? 정답은 한 단어, 어텐션(Attention)입니다. 2017년 구글이 발표한 논문 ‘Attention Is All You Need’ 이후 모든 LLM의 심장이 된 알고리즘이죠.

오늘은 어텐션이 어떻게 작동하는지, 왜 이게 메모리 폭증의 원흉인지, 그리고 제프리 힌튼의 백프로퍼게이션과 무엇이 다른지를 풀어드릴게요.

📋 이 글에서 다루는 내용

1. 어텐션이란 무엇인가 — 형광펜 비유

여러분이 시험 전날 교과서를 읽는다고 생각해보세요. 모든 문장을 똑같이 외우진 않죠. 중요한 부분에 형광펜으로 표시하고, 나중에 시험 칠 때 형광펜 부분 위주로 떠올립니다.

AI도 마찬가지예요. 문장에서 단어를 하나씩 만들 때, ‘지금 이 단어를 만들려면 앞에 봤던 단어 중 어디에 더 주목해야 할까?’를 매번 계산합니다. 이 ‘주목하기’ 계산이 바로 어텐션입니다.

💡 예시: “그 고양이가 빨간 공을 굴렸다. 그 공은 어디로 갔을까?” 라는 문장에서 AI가 ‘공’이라는 단어의 다음을 예측할 때, 어텐션은 앞쪽 ‘빨간 공’에 가장 높은 가중치를 줍니다. 그래야 같은 공을 가리킨다는 걸 알 수 있으니까요.

어텐션을 한 번 계산할 때마다 등장하는 세 친구가 있어요.

도서관에서 책을 찾는 과정과 똑같아요. 내가 가진 질문(Query)을 들고, 책 표지(Key)를 훑어보고, 가장 잘 맞는 책 내용(Value)을 꺼내옵니다. 이 ‘Key-Value’ 짝꿍이 바로 KV캐시에 저장되는 정보예요.

제프리 힌튼 교수가 노벨상을 받은 백프로퍼게이션(Backpropagation)은 ‘AI가 어떻게 똑똑해지는가’를 다룹니다. 모델이 답을 틀리면 그 오차를 거꾸로 흘려보내며 가중치를 조정하는 학습 방법이죠.

예전엔 학습이 더 중요했지만, ChatGPT 시대 이후엔 이미 학습된 모델로 답을 내는 추론이 훨씬 더 큰 시장이 됐어요. 그래서 ‘GPU 시대’에서 ‘메모리 시대‘로 패러다임이 옮겨간 겁니다.

어텐션은 문장이 길어질수록 계산량이 제곱(N²)으로 늘어납니다. 단어 10개면 100번, 100개면 10,000번, 1,000개면 1,000,000번을 계산해야 하죠.

그리고 그 결과(KV)를 전부 메모리에 저장해두고 다음 단어 만들 때마다 다시 봐야 합니다. 그래서 어텐션 = 메모리 폭식 알고리즘이라고 불려요. 이걸 풀려고 등장한 것이 HBF 같은 대용량 메모리이고, Groq의 SRAM 칩 같은 대안도 시도되고 있어요.

Q. 어텐션 외 다른 알고리즘은 없나요?

Mamba·RWKV·State Space Model 같은 시도가 있지만, 아직 GPT 계열 트랜스포머의 품질을 뛰어넘지는 못했어요. 산업은 당분간 어텐션 중심으로 갈 가능성이 높습니다.

Q. 어텐션을 압축할 수 있나요?

Flash Attention, Multi-Query Attention 등 최적화 기법이 계속 나옵니다. 다만 압축의 한계가 메모리 수요 증가 속도보다 느려서, 메모리 그 자체를 키우는 게 더 현실적인 답이라는 게 김정호 교수의 주장입니다.

📚 함께 읽으면 좋은 글

※ 본 글은 공개된 논문·강연 자료를 바탕으로 정리한 정보성 콘텐츠입니다.