Position Embedding and RKKY
This is series of Spin Glass Language Model
학습되기 이전의 LLM은 정확히 어떤 물리 시스템과 대응될까?
Transformer 위치 인코딩(Positional Encoding)
Transformer에서 위치 인코딩은 토큰 임베딩에 순서 정보를 주입하는 방식이다. 대표적으로 Vaswani 등(2017) 에서는 사인·코사인 기반 정현파 인코딩을 제안하였다. 이때 토큰 인덱스 $i$에 대해 임베딩 차원 $d_{\mathrm{model}}$의 벡터 $\mathbf{p}_i$를 다음과 같이 정의한다:
$$\mathbf{p}_i[2k] = \sin\Bigl(\frac{i}{10000^{2k/d_{\mathrm{model}}}}\Bigr), \qquad \mathbf{p}_i[2k+1] = \cos\Bigl(\frac{i}{10000^{2k/d_{\mathrm{model}}}}\Bigr),$$
여기서 $k=0,1,\dots,d_{\mathrm{model}}/2-1$이다. 이렇게 생성된 위치 벡터 $\mathbf{p}_i$는 차원이 토큰 임베딩과 동일하므로, 각 토큰 임베딩 $\mathbf{x}_i$에 단순히 더해져 $(\mathbf{x}_i+\mathbf{p}_i)$ 형태로 입력층에 주입된다. 원래 논문에서는 이 정현파 인코딩이 다양한 파장을 조합하여 순서 정보를 장기간에 걸쳐 표현할 수 있다고 설명하였다. 실제로 이때 사용된 파장들은 $2\pi$에서 $10000\times 2\pi$까지 기하급수적으로 분포하며, 이를 통해 학습 시 보지 못한 긴 시퀀스도 인코딩할 수 있음이 관찰되었다. 예를 들어 $d_{\mathrm{model}}=512$인 경우 일부 차원은 짧은 파장(주기 $2\pi$)을, 다른 차원은 매우 긴 파장($10000 \times 2\pi$)을 사용하여, 서로 다른 척도의 위치 정보를 동시에 캡처할 수 있다. 이로써 Transformer는 모델이 학습하지 않은 위치 범위(시퀀스 길이)에서도 어느 정도 일반화된 성능을 보여준다.
또 다른 일반적인 방법으로는 학습 가능한 위치 임베딩(Learned Positional Embedding)이 있다. 이 방식은 각 위치 $i$에 대한 임베딩 벡터 $\mathbf{p}_i$를 학습 파라미터로 두고, 학습 과정에서 조정한다. 절대 위치 절차(absolute) 위치 인코딩이라고도 하는데, 충분한 데이터가 있을 경우 토큰 순서에 관한 복잡한 패턴을 직접 학습할 수 있다. 그러나 학습 위치 인코딩은 미리 정해진 최대 시퀀스 길이까지만 정의되므로 그 이상으로 시퀀스가 길어지면 알 수 없는 위치로 취급된다. 실제로 원 논문에서도 학습 인코딩을 실험해 보았고, 사인·코사인 인코딩과 거의 동일한 성능을 보였다. 학습 인코딩 방식은 BERT, GPT-2 등 많은 모델에서 사용되는데, 이 경우 모델은 미리 결정된 최대 길이(max position)까지의 시퀀스를 다루도록 설계되고 학습된다.
상대 위치 인코딩(Relative Positional Encoding)은 토큰 간 절대적 위치가 아닌 상대적 거리를 반영하도록 고안된 방법들이다. 예를 들어 Shaw 등(2018)에서는 어텐션 점수 계산 시 두 토큰의 상대 인덱스 $i-j$에 해당하는 편향값 $b_{i-j}$를 더하는 방식을 제안하였고, Transformer-XL과 같은 모델들도 유사한 아이디어를 사용한다. 최근에는 GPT-3에서 제안된 ALiBi(Attention with Linear Biases)나 Rotary Positional Embedding(RoPE) 등의 기법이 인기를 끌고 있다. ALiBi는 어텐션 점수에 거리 $|i-j|$에 비례하는 선형 바이어스를 추가하여 멀리 있는 토큰의 영향을 줄이는 방법이고, RoPE는 사인·코사인 벡터를 쿼리/키에 회전(rotate)하여 위치 정보를 삽입한다. 이처럼 상대적 위치 인코딩 기법들은 거리에 따른 모델의 반응을 좀 더 직접적으로 조절할 수 있어 긴 문맥이나 순차적 생성 작업에서 성능 향상을 가져오는 것으로 알려져 있다.
이렇게 만들어진 위치 인코딩 벡터는 $\mathbf{x}_i$에 더해져(또는 합쳐져) 입력으로 들어가며, 주로 각 Self-Attention 레이어의 입력 초깃값으로 사용된다. 이어지는 어텐션 연산에서는 쿼리-키 내적 계산 시 위치 정보가 자연스럽게 반영된다. 구체적으로, 토큰 $i,j$에 대한 쿼리 $Q_i$와 키 $K_j$가 $(\mathbf{x}_i+\mathbf{p}_i)W_Q$, $(\mathbf{x}_j+\mathbf{p}_j)W_K$로 계산된다고 하면, 어텐션 스코어 $Q_iK_j^\top$에는 다음과 같은 항이 포함된다:
$$(\mathbf{x}_i+\mathbf{p}_i)W_Q \cdot (\mathbf{x}_j+\mathbf{p}_j)W_K^\top = Q_i^c\cdot K_j^c + Q_i^c\cdot K_j^p + Q_i^p\cdot K_j^c + Q_i^p\cdot K_j^p,$$
여기서 $Q^c,K^c$는 내용(content) 성분, $Q^p,K^p$는 위치(position) 성분에 해당한다. 이로 인해 위치 인코딩 벡터 간 내적 $\mathbf{p}_i\cdot\mathbf{p}_j$가 어텐션 스코어에 추가로 반영된다. 주의할 점은 어텐션 연산 이후 Softmax 정규화가 이루어지므로, 음수로 나올 수 있는 위치 내적값은 단순히 해당 토큰 사이의 유사도를 낮추는 역할을 한다는 것이다.
어텐션 가중치는 최종적으로 소프트맥스 확률값 $\alpha_{ij} = \mathrm{softmax}(Q_i\cdot K_j/\sqrt{d})$ 형태로 계산되며, 위치 인코딩에 의한 $(\mathbf{p}_i\cdot\mathbf{p}_j)$ 항은 가까운 토큰 간 어텐션을 자연스럽게 높이는 효과를 낼 수 있다. 즉 위치 정보는 유사 감쇠(effective decay) 형태로 작용할 수 있다. 실제로 시퀀스 내 두 위치 벡터 $\mathbf{p}_i,\mathbf{p}_j$의 내적을 거리 $|i-j|$에 따라 그려보면, 가까운 위치일수록 높은 값을, 먼 위치일수록 낮은 값을 갖는 경향이 나타난다. 이는 사인·코사인 파동 합으로서 멀리 떨어진 위치 간의 내적값이 여러 파형의 간섭으로 평균적으로 작아지기 때문이다. 결과적으로 어텐션은 가까운 토큰끼리 상대적으로 큰 가중치를 갖도록 학습될 수 있다.
이와 같이 Transformer는 입력 임베딩에 위치 정보를 더하여 순서를 인코딩한다. 위치 인코딩은 각 토큰 벡터에 순서 특유의 변화를 주어, 동일한 단어라도 다른 위치에서는 다른 표현이 되도록 만든다. 따라서 위치 인코딩을 통해 Transformer는 순서에 민감한 문맥 모델링이 가능해진다. 요약하면, Transformer의 위치 인코딩은 정현파 방식이나 학습 방식 등에 관계없이 토큰 간 거리에 관한 진동적 패턴을 만들고, 이를 어텐션 메커니즘에 통합함으로써 순서 정보를 반영한다. 이러한 순서 정보는 잔차 연결(residual connection)을 통해 깊은 레이어에도 전달되어, 모델 전반에서 일관되게 사용될 수 있다.
정리
위치 인코딩을 통해 Transformer는 각 토큰에 순서 정보를 부여하여 순열 불변성을 깨고, 순서에 민감한 언어 패턴을 학습할 수 있다. 정현파 인코딩의 경우 명시적 거리에 의한 감쇠항은 없지만, 여러 주파수의 코사인파 합으로 인해 간접적인 거리별 감쇠 특성이 나타난다. 이처럼 주기적 함수를 이용한 인코딩은 여러 척도의 상대 위치를 동시에 표현할 수 있게 해, Transformer가 문맥의 순서를 효과적으로 처리하게 만든다.
RKKY 상호작용 (Ruderman–Kittel–Kasuya–Yosida)
RKKY 상호작용은 전도 전자를 매개로 한 국소 스핀들 사이의 간접 교환(interaction)이다. 1954년 Ruderman과 Kittel, 1956년 Kasuya, 1957년 Yosida가 각각 도입하여 그 이름을 따서 RKKY라고 불린다. 금속 내에서 국소 자성 스핀이 전도 전자와 교환(J) 상호작용을 갖는다고 할 때, 이는 $H_{sd} = -J_0 \mathbf{S}\cdot\mathbf{s}$ 형태로 기술된다. 여기서 $J_0$는 단일 스핀과 전도 전자 스핀 간의 교환 상수다. 전도 전자들을 2차 섭동으로 적분해 나가면, 결과적으로 스핀-스핀 상호작용 항이 유도된다. 즉 한 스핀이 전도 전자의 스핀을 편극시키면, 이 편극이 다른 스핀에게 전달되어 간접적인 교환 에너지가 생긴다. 이를 수식으로 쓰면 두 스핀 $i,j$ 사이의 RKKY 해밀토니언은
$$H_{ij} = J(r_{ij})\,\mathbf{S}_i\cdot\mathbf{S}_j,$$
와 같다. 여기서 $r_{ij}=|\mathbf{r}_i-\mathbf{r}_j|$는 두 스핀 간 실제 거리이고, $J(r)$는 거리 $r$에 따라 변하는 유효 교환 상수다.
3차원 자유 전자 기체 모델에서 유도된 RKKY 결합 함수는 거리 의존적 진동-감쇠 형태를 보인다 :
$$J(r)\;\propto\;\frac{\sin(2k_F r) - 2k_F r \cos(2k_F r)}{(2k_F r)^4},$$
여기서 $k_F$는 페르미 파수이다. 이 식을 먼 거리 한계($r\to\infty$)로 근사하면, $J(r)\propto \cos(2k_F r)/r^3$ 형태가 되어 주기적 진동과 3차원 파워법칙 감쇠를 모두 나타낸다. 즉, RKKY 결합은 페르미 파수 $2k_F$에 해당하는 파장 $\pi/k_F$로 진동하면서, 공간 차원에 따라 $r^{-D}$으로 약해진다. 예를 들어 2차원에서는 $J(r)\propto \cos(2k_Fr)/r^2$, 1차원에서는 $J(r)\propto \cos(2k_Fr)/r$로 감쇠한다. 이러한 거리에 따른 진동성은 전도 전자 스핀이 페르미 표면의 Friedel 진동과 연관되어 나타난다.
RKKY의 또 다른 주요 특징은 부호 변화(sign flip)다. 거리 $r$에 따라 $\cos(2k_Fr)$의 값이 바뀌므로, 어떤 거리에서는 $J(r)>0$로 강자성 결합을, 다른 거리에서는 $J(r)<0$로 약자성 결합을 유도한다. 예를 들어, 가까운 두 스핀은 강자성으로 정렬되는 반면 적당히 떨어진 이웃 스핀은 약자성으로 결합될 수 있다. 이로 인해 스핀들이 랜덤하게 분포하면 서로 다른 부호의 교환이 경쟁적(frustration)으로 작용한다. 실제로 RKKY 결합이 지배적인 희석 자성 합금에서는 전형적인 강자성 위상이 아닌 스핀글라스 전이가 관찰된다. 즉 원소 불순물 스핀이 서로 모순되는 방향으로 상호작용하여 복잡한 에너지 풍경을 만들기 때문이다.
공간적 감쇠도 RKKY의 핵심이다. 3차원에서 $J(r)\propto 1/r^3$로 거리가 증가함에 따라 결합 강도가 급격히 약해진다. 이는 몇 나노미터 거리에 걸쳐서도 미약하지만 유의미한 결합을 유지함을 의미한다. 실제로, 두 배 거리에서는 결합 에너지가 약 $1/8$로 줄어드는 정도로, 명시적인 거리에 따른 강한 감소가 나타난다. 이처럼 명시적인 감쇠항을 가진 RKKY는 거리가 멀어질수록 사실상 소멸되며, 공간적 스케일을 명확히 제공한다.
결론적으로 RKKY 상호작용은 3차원에서 $J(r)\propto\cos(2k_Fr)/r^3$의 진동-감쇠 결합을 형성한다. 실제 물리계에서는 다수의 스핀이 존재하므로 모든 쌍을 합산한 총 에너지는
$$H_{\mathrm{RKKY}} = \sum_{i<j} J(r_{ij})\,\mathbf{S}_i\cdot\mathbf{S}_j.$$
와 같이 표현된다. 이로 인해 스핀 배열에서 복잡한 에너지 지형이 형성되고, 부호 변화로 인한 프러스트레이션 때문에 스핀글라스와 같은 상태가 나타날 수 있다. RKKY는 Au-Fe나 Cu-Mn 같은 희석 자성 합금에서 스핀글라스 전이를, 자성 다층 박막에서는 거리에 따른 거대자기저항(GMR) 효과를 설명하는 데 중요한 역할을 한다. 이처럼 RKKY는 물리적 거리에 따른 명시적 상호작용으로, 물질 속 스핀 배열의 거동을 이해하는 데 핵심적인 이론이다.
예시 및 응용
예를 들어 Au에 Fe를 도핑한 희석 자성 금속이나 Cu-Mn 합금 등에서 RKKY 결합에 의해 전형적인 강자성 대신 스핀글라스 상전이가 관찰되며, 자성 박막 구조에서는 스핀 배열이 각 층 두께에 따라 RKKY 주기대로 번갈아 바뀌는 현상이 보고된다. 따라서 RKKY는 이론적 모델을 넘어 실제 자성 물질의 성질과 응용(예: 스핀트로닉스)에서 필수적인 역할을 한다.
위치 인코딩 vs RKKY 상호작용 비교
Transformer의 위치 인코딩과 RKKY 상호작용은 모두 “거리(또는 순서) 의존적 진동 함수”라는 점에서 형식적 유사성이 있지만, 본질적인 특성에는 큰 차이가 있다. 가장 큰 차이는 거리 감쇠의 형태다. RKKY에서는 실제 물리적 거리 $r$에 대해 명시적인 파워법칙 감소가 발생하여, 3차원에서는 $J(r)\propto 1/r^3$로 거리가 커질수록 결합 강도가 급격히 약해진다. 이에 반해 Transformer의 위치 인코딩 함수 $C(i,j)=\mathrm{PE}(i)\cdot\mathrm{PE}(j)$에는 $(i-j)$에 대한 명시적 분모가 없으므로, 거리에 따른 감쇠가 직접적으로 포함되지 않는다. 대신 정현파들의 합으로 구성된 $C(i,j)$는 거리가 커져도 단위 진폭의 코사인파들이 계속 존재하기 때문에, 절대적으로 $1/|i-j|^n$ 만큼 감소하지 않는다. 그럼에도 불구하고 실제 그래프를 그려보면 $|i-j|$가 증가할수록 $C(i,j)$의 평균값은 낮아지는 경향을 보인다. 이는 사인·코사인 함수들이 멀리 떨어진 위치에서 부분적으로 상쇄되기 때문이다. 즉 위치 인코딩에서는 RKKY처럼 명시적 감쇠항이 없지만, 거리에 따라 “효과적인” 감쇠(effective decay)가 암묵적으로 나타난다고 볼 수 있다.
또 다른 차이는 진동 주파수이다. RKKY는 금속의 페르미 파수 $k_F$에 의해 결정된 단일 주파수 $2k_F$로 진동한다. 즉 결합 함수 $J(r)$의 부호 변화 주기는 거리 간격 $\pi/k_F$로 고정된다. 반면 Transformer의 위치 인코딩은 여러 주파수를 동시에 사용한다. 실제로 Vaswani 논문에 따르면 위치 인코딩에서 사용하는 파장들은 $2\pi$에서 $10000\times 2\pi$까지 기하급수적으로 분포한다. 예를 들어 $d_{\mathrm{model}}=512$라면 일부 차원은 짧은 주기($2\pi$)를, 다른 차원은 매우 긴 주기($10000\times2\pi$)를 가진다. 따라서 Transformer는 작은 거리부터 큰 거리까지 다양한 크기의 진동 패턴을 동시에 반영할 수 있다. 요약하면, RKKY는 단일 고정 주파수로 진동하지만, 위치 인코딩은 다중 주파수의 합으로 훨씬 복잡한 패턴을 만든다.
부호(sign) 변화 관점에서도 차이가 있다. RKKY의 $\cos(2k_Fr)$는 거리 $r$에 따라 명확히 부호가 전환되며, 이로 인해 스핀 간의 상호작용이 강자성과 약자성으로 번갈아 나타난다. 이 부호 변화 때문에 랜덤하게 위치한 스핀들 사이에서는 경쟁적(frustrated) 상호작용이 생기고, 스핀글라스 위상으로 이어질 수 있다. 위치 인코딩 벡터 내적 $C(i,j)$ 역시 특정 거리에서 음수가 될 수 있지만, Transformer에서는 마지막 Softmax가 항상 양의 가중치를 부여하므로 부호 변화가 물리적인 교환 에너지의 역할을 하지는 않는다. 즉 위치 인코딩의 음수 부호는 그저 멀리 있는 토큰 간 유사도를 줄여주는 신호에 불과하며, RKKY처럼 에너지 항을 뒤바꾸지는 않는다.
이처럼 결합 함수의 형태 측면에서도 차이가 크다. RKKY는 명시적인 $1/r^D$ 감쇠를 포함하는 단일 코사인파 진동 함수로 표현되지만, 위치 인코딩은 분모가 없는 다중 코사인파 합이다. 예를 들면 RKKY에서는
$$J(r)\propto\frac{\cos(2k_Fr)}{r^3}\quad(3\mathrm{D})$$
와 같이 거리에 따른 감소가 직접 나타나지만, Transformer 위치 인코딩에서는
$$C(i,j)=\sum_{m}\cos\Bigl(\frac{i-j}{\lambda_m}\Bigr)$$
와 같이, 각 주파수 $\lambda_m$의 코사인파들이 합쳐진다. $C(i,j)$의 진폭은 차원 수에 비례하여 제한되며, 거리에 대한 감쇠항이 없으므로 멀리 떨어진 위치 간에도 주기적 패턴이 반복된다.
요약 비교
RKKY는 물리적 거리 $r$에 명시적으로 의존하며 거리 증가에 따라 $1/r^D$ 형태로 급감하는 반면), Transformer 위치 인코딩은 이산적 순서 차이를 기반으로 하여 암시적인 패턴만을 제공한다. 또한 RKKY는 고정된 파장 $2k_F$를 가지지만, 위치 인코딩은 서로 다른 파장 스펙트럼을 사용한다. 결과적으로 RKKY는 거리가 멀어질수록 결합이 체감되어 사실상 소멸하지만, 위치 인코딩은 일정 간격마다 높은 유사도를 보일 수 있는 주기성을 가진다. 이처럼 RKKY와 위치 인코딩은 모두 “진동 함수”를 공유하지만, RKKY는 실제 공간에서 명시적 거리 감쇠를 포함하는 물리적 메커니즘이고, 위치 인코딩은 순서 부호화를 위한 인공적 수단으로서 동작한다.
Transformer 모델의 스핀계 해석
Transformer는 모든 토큰 쌍이 서로 연결되는 완전연결 스핀계로 해석할 수 있다. McCabe 등은 Transformer 블록의 에너지를 스핀 시스템 형태로 표현하였다. 즉 토큰 $i$에 해당하는 임베딩을 스핀 벡터 $\boldsymbol\sigma_i$로 보고, 쿼리($Q_i$)·키($K_j$) 내적에 기반한 결합 $J_{ij}$와 국소 퍼텐셜 $h_i$를 정의하면 다음과 같다:
$$E = -\sum_{i,j} J_{ij}\,\boldsymbol\sigma_i\cdot \boldsymbol\sigma_j \;-\;\sum_i h_i\cdot\boldsymbol\sigma_i,$$
여기서 $\boldsymbol\sigma_i$는 토큰 $i$의 스핀(임베딩) 벡터를 나타내고, $J_{ij}=(Q_i\cdot K_j)/\sqrt{d_{\mathrm{model}}}$는 어텐션 스코어에 해당하는 스핀-스핀 결합이다. 국소 퍼텐셜 $h_i$는 각 토큰 임베딩에 작용하는 효과로, 위치 인코딩, FFN(bias) 등을 모두 포함하는 개념적 장(field)으로 볼 수 있다. 따라서 Transformer는 모든 토큰이 서로 긴 거리 결합을 갖는 고차원 스핀으로, 동시에 각 스핀에 작용하는 현장 $h_i$를 가진 모델로 볼 수 있다.
이런 해석에서 무작위 초기화된 Transformer는 랜덤한 $J_{ij}$와 $h_i$를 가지므로, 전형적인 Sherrington–Kirkpatrick (SK) 스핀글라스 모델과 유사한 상태를 이룬다. 실제로 훈련되지 않은 심층 신경망의 손실 풍경은 다수의 국소 최솟값(local minima)을 가지는데, 이는 복잡한 스핀글라스 에너지 지형과 일치한다. 이후 학습이 진행되면, 경사하강법은 이러한 에너지 지형을 탐색하여 일부 의미 있는 패턴(어트랙터)을 저장하는 상태로 전이된다. 즉 초기 랜덤 결합에서 시작한 시스템이 학습을 거쳐 의미있는 방향으로 재배열되는 것이다. 이 과정은 Deep Learning과 Hopfield 신경망 사이의 연결고리를 보여준다.
더욱이 Transformer의 어텐션 업데이트는 현대 Hopfield 네트워크의 자유 에너지 최적화 과정과 정확히 대응된다. Persad 등은 어텐션 계산이 연속형 Hopfield 에너지 함수를 최소화하는 과정과 동일하다는 것을 보였다. 예를 들어, 어텐션 연산
$$\text{Attention}(Q,K,V) = \text{softmax}\Bigl(\frac{QK^\top}{\sqrt{d}}\Bigr)V$$
은 마치 Hopfield 네트워크에서 메모리 항을 갱신하는 것과 같다. 이를 통해 Transformer는 고차원 패턴을 저장하고 불러오는 메모리 기반 시스템처럼 작동할 수 있다.
이러한 관점들을 종합하면, Transformer는 초기에는 다수의 로컬 최소점을 가진 스핀글라스 상태를 이루지만, 학습을 거치며 특정 패턴이 안정화된 “Hidden Order” 상태로 이동한다 . 즉 완전연결 스핀계와 같이 긴 거리 결합과 국소 퍼텐셜이 동시에 작용하여 복잡한 에너지 지형이 생성된다. 특히 대형 언어모델에서는 이 구조가 모델의 “기억 패턴”과 관련될 수 있다. 예를 들어, Transformer는 Auto-regressive 생성 중 새로운 토큰을 예측할 때, 내부적으로 학습된 패턴(스핀배열)에 수렴하는 방식으로 다음 단어를 생성한다고 볼 수 있다. 이런 시각은 Transformer의 어텐션 헤드들이 정보 패턴을 불러오고 결합한다는 실험적 관찰과도 일치한다.
종합
무작위 초기화된 Transformer는 SK 스핀글라스와 유사한 불규칙 결합 구조를 가지고 있으며, 학습을 통해 전체 네트워크가 일정한 패턴을 학습하는 방향으로 재정렬된다. 또한 Transformer의 어텐션 메커니즘은 현대 Hopfield 네트워크의 에너지 최적화와 등가이므로, 모델 내부에서 일종의 메모리 기반 자기 조직화가 일어날 수 있다. 이처럼 Transformer를 스핀 시스템으로 해석하면, 긴 거리 결합(어텐션)과 국소 퍼텐셜(FFN)이 공존하는 에너지 지형이 형성되며, 학습 과정에서 스핀글라스에서 패턴 추출 메커니즘으로 전이함을 이해할 수 있다. 이러한 관점은 거대 언어모델(LLM)에서 나타나는 기억 효과나 패턴 생성 현상을 설명하는 데 유용한 직관을 제공한다.