어텐션 2

[AI와의 대화 - 1]초대형 언어 모델의 긴 문맥 처리 능력: Claude 3.5 Sonnet의 200K 토큰 처리 메커니즘 분석

안녕하세요,  이번 시리즈의 글들은 LLM의 동작들에 대해 궁금한 점들을 LLM들과 문답으로 풀어가는 과정을 기록하고자 합니다. 비록 완전히 정확하지는 않겠지만 일반인들이 이해하는 수준에서는 도움이 되지 않을까 생각합니다. 되도록 hallucination이 발생하지 않도록 주의를 기울여 작성해보겠습니다.  transformer가 무엇인지 궁금해서 알아보던 과정에 아래와 같은 궁금한 점이 생겼습니다. 최신 초대형 언어 모델인 Claude 3.5 Sonnet은 어떻게 200,000 토큰이라는 방대한 컨텍스트 윈도우를 효율적으로 처리할 수 있을까? 특히 기존 Transformer 아키텍처의 제한사항을 어떻게 극복하였나? 또한 추가적으로 이어서 생기는 저의 궁금함들은 다음과 같습니다.  계산 효율성"200K ×..

AI의 의학도전 (14): ChatGPT는 어떻게 문장을 이해하는가? - Attention 메커니즘의 비밀

Attention 알고리즘을 단계별로 쉽게 개념적으로 알아보겠습니다:기본 개념Attention은 입력 시퀀스의 각 요소들 간의 관련성을 계산하는 메커니즘입니다"모든 입력을 고려하되, 중요한 것에 더 주목한다"는 개념입니다주요 구성 요소Query (Q): 현재 처리 중인 위치의 벡터Key (K): 다른 위치들의 벡터Value (V): 실제 정보를 담고 있는 벡터작동 과정 a. 각 입력 단어를 벡터로 변환 b. Query와 Key 사이의 유사도 점수 계산 c. Softmax 함수로 점수를 확률로 변환 d. 확률을 Value에 곱하여 가중치 적용 e. 가중치가 적용된 Value들을 합산수식으로 표현 Attention(Q, K, V) = softmax(QK^T/√d_k)Vd_k: 스케일링 팩터(Key의 차원)√..