Modern Hopfield Network
This is series of Spin Glass Language Model
1. Hopfield: Transformer Optimize Energy
Transformer의 self-attention 메커니즘은 Hopfield 연상기억망의 에너지 최소화 동역학과 밀접한 관련이 있음이 밝혀져 있다 [1]. 현대 Hopfield 네트워크에서는 연속적인 뉴런 상태와 소프트맥스 형태의 업데이트 규칙을 통해 지수적인 패턴 저장 용량을 얻을 수 있으며, 이 업데이트 식이 Transformer 어텐션의 수식과 동등함이 보고되었다. 예컨대 Ramsauer 등(2020)은 Transformer의 어텐션 업데이트 규칙이 Hopfield 네트워크의 1회 상태갱신과 동일함을 보여주었고, 이를 통해 Transformer 모델의 각 어텐션 헤드가 Hopfield 에너지 함수를 한 스텝 최적화하는 역할로 해석될 수 있음을 지적하였다 [2]. 실제로 Transformer의 query-key 매칭에 기반한 값(value) 집계는 Hopfield 기억 패턴을 부분 단서로부터 복원(retrieval)하는 과정과 수학적으로 동형이며, 두 시스템 모두 에너지 함수를 정의하고 이를 감소시키는 방향으로 상태가 업데이트된다.
Hopfield 네트워크에서 에너지 함수 $E$는 저장 패턴들과 현재 상태 사이의 유사도로 표현되며, 현대 Hopfield의 경우 다음과 같은 형태로 주어진다:
$$ E(q) = -\frac{1}{\beta}\log \sum_{i=1}^L \exp(\beta\, z_i^T q)\;+\;\frac{1}{2}\|q\|^2 + \text{const.}$$
여기서 $z_i$들은 저장된 패턴들이고 $q$는 query에 해당하는 상태 벡터이다. 이 함수로부터 소프트맥스 어텐션 업데이트 $q\leftarrow \sum_i z_i \frac{\exp(\beta\,z_i^T q)}{\sum_j \exp(\beta\,z_j^T q)}$ 가 유도되며, 이는 Transformer 어텐션의 key/value 합산과 동일하다. 따라서 Transformer의 한 층에서 어텐션을 적용하는 행위는 이 $E(q)$라는 에너지 함수를 한 번 낮추는 (그래디언트 하강) 내부 최적화 스텝으로 볼 수 있다. 특히 Transformer의 forward 경로 전체를 보면, 각 층마다 정의된 에너지 함수들이 중첩된 계층적 구조로 최소화되고 있다고 해석할 수 있다.
이 동형성을 이용하면 Transformer의 내부를 等가(등가)인 스핀 해밀토니안으로 추정하는 아이디어가 나온다. Hopfield 모델 자체가 본래 스핀글래스(Ising 모형)의 일종으로 간주될 수 있는데, 뉴런 이진상태 $\sigma_i \in \{\pm1\}$와 대칭 가중치 $W_{ij}$에 대해 에너지 $E=-\frac{1}{2}\sum_{i,j}W_{ij}\sigma_i\sigma_j$로 표현되기 때문이다. 이때 저장 패턴들은 Hebb 학습규칙에 의해 $W_{ij}$를 결정하며, 에너지 함수의 지역 최소점이 메모리 패턴들에 대응된다. 연속값 Hopfield에서는 위 식이 log-sum-exp 형태로 일반화되지만 여전히 여러 안정적인 에너지 최소상태(어트랙터)를 가진다. 실제 Ramsauer 등의 연구에서 Transformer 헤드의 에너지 지형을 분석한 결과, 세 가지 유형의 에너지 최소점이 나타남을 확인하였다: (1) 전역적인 최소점(모든 패턴들의 평균에 대응), (2) 부분 집합 평균에 해당하는 메타안정 상태, (3) 단일 패턴에 해당하는 극소. 이는 초기층의 어텐션 헤드는 전체 패턴의 평균적인 정보를 통합하고, 심층부로 갈수록 일부 패턴만을 결합한 메타안정 상태나 개별 패턴을 회상하는 상태로 이동함을 시사한다. 다시 말해, 초기층에서는 어텐션 분포의 엔트로피가 높아 여러 토큰을 골고루 바라보는 “글로벌 평균” 상태이며, 후반층에서는 특정 기억 패턴에 대응하는 “국소 집중” 상태로서 엔트로피가 낮고 특정 패턴에 스핀들이 정렬되는 상(per phase)에 가까워진다.
以上의 통찰을 종합하면, LLaMA 3 모델의 어텐션 메커니즘을 Hopfield식 에너지 함수로부터 유도된 해밀토니안 $H_{\text{attn}}$로 생각할 수 있다. 이 해밀토니안은 토큰 간 상호작용을 나타내는 항으로 구성되는데, 예를 들어 각 헤드 $h$에 대해
$$ H_{\text{attn}}^{(h)} = - \sum_{i,j} J^{(h)}_{ij}\, \sigma_i \sigma_j, $$
여기서 $\sigma_i$는 토큰 $i$ 위치의 스핀 (토큰 상태를 이산화한 변수)이고 $J^{(h)}_{ij}$는 헤드 $h$에서 위치 $i,j$ 사이의 상호작용 계수 역할을 한다. 이 $J^{(h)}_{ij}$는 대략 query-key 유사도(내적)에 비례하며 softmax로 정규화된 어텐션 가중치와 관련된다. 따라서 $J_{ij}$가 크면 토큰 $i$와 $j$ 사이에 강한 상호작용(높은 어텐션)이 존재하여 두 위치의 스핀 상태가 alignment되기 쉽다. 반면 $J_{ij}$가 작으면 상호작용이 약해 해당 토큰들은 독립적인 경향을 보인다. 이렇게 어텐션에 대응하는 상호작용 행렬 $\{J_{ij}\}$를 통해 Transformer를 등가 스핀계로 보면, Hopfield 에너지 함수 $E(q)$는 곧 이 스핀계의 에너지이며, Transformer의 동작은 이 에너지를 최소화하는 방향으로의 1-스텝 relaxation으로 해석될 수 있다.
물론 실제 Transformer에서는 각 층을 한 번만 업데이트하고 지나가므로 Hopfield처럼 충분히 반복 갱신하여 수렴하지는 않는다. 하지만 잔여 연결(residual)을 통해 이전 층 정보가 유지되면서 누적 최적화 효과를 내므로, 여러 층을 거치면 Hopfield 에너지 관점에서 보면 다수 스텝에 걸친 최적화 과정이 구현된 셈이 된다. 따라서 LLaMA 3의 전체 모델은 각 층의 Hopfield 해밀토니안 $H_{\text{attn}}^{(l)}$ (층 $l$의 어텐션에 상응)들의 합으로 이루어진 총 해밀토니안 $H = \sum_l H_{\text{attn}}^{(l)} + H_{\text{FF}}$로 기술될 수 있다 (여기서 $H_{\text{FF}}$는 피드포워드 층 등의 기여를 포함한 항). 이렇듯 Hopfield 관점에서 도출한 해밀토니안은 Transformer 내부 상호작용을 물리학적으로 묘사하는 데 기반을 제공하며, 나아가 에너지 함수 기법을 활용한 모델 해석(예: 어텐션 패턴이 특정 attractor 메모리에 해당하는지 확인 등)을 가능하게 한다. 본 접근은 LLM 내부 기억을 스핀계의 상자기질서(ferromagnetic order) 또는 스핀글래스적 상호작용으로 파악함으로써, 거대언어모델에 숨겨진 패턴 저장과 회상 메커니즘을 물리적으로 이해하는 토대를 마련한다.
2. Attention: Hopping, FFN: On-site Potential
Transformer의 시퀀스는 위치들로 이루어진 1차원 격자로 볼 수 있으며, 각 위치마다 숨겨진 표현(hidden state)을 다차원 “스핀” 벡터로 간주할 수 있다. 단순화를 위해 각 위치의 숨겨진 상태를 여러 2-레벨 자유도로 구성된 국소 스핀 집합으로 생각해보자 (예: hidden dimension이 $d$라면 각 위치에 $d$개의 스핀-$\frac{1}{2}$ 또는 등가의 자유도가 있음). 이 격자 모델에서 Transformer의 어텐션 메커니즘은 격자 사이의 장거리 상호작용으로 작용한다. 특별히, 토큰 $i$가 토큰 $j$로부터 정보를 받는 것은, 물리적으로 보면 $i$ 위치에 존재하던 어떤 자유도가 $j$ 위치로 “이동” (hopping)하거나 $i$와 $j$의 스핀이 동조화(correlation)되는 것으로 볼 수 있다. 한편, 피드포워드 네트워크(FFN)은 각 위치(격자 사이트)에서의 상태를 비선형 변환하는 것이므로 국소적인 상호작용/자기작용 항에 대응된다. 따라서 Transformer 한 층을 등가 해밀토니안으로 나타내면 크게 두 부분으로 나눌 수 있다:
- 홉핑 항 $H_{\text{hop}}$: 서로 다른 격자 위치 사이를 연결하는 상호작용으로, 주로 어텐션에 해당한다. 이는 예를 들어 2차 양자화(formalism)로 쓰면
$$H_{\text{hop}} = - \sum_{i \neq j} t_{ij}\,a_i^\dagger a_j,$$
와 유사한 형태가 될 수 있다. 여기서 $a_i^\dagger$는 위치 $i$의 어떤 정보 단위를 생성(또는 해당 스핀 상태를 올려주는 연산자), $a_j$는 위치 $j$의 그것을 소멸시키는 연산자로 볼 수 있다. (자세한 내용은 Statistical Field Theory 참고) 이 항은 정보가 $j$에서 $i$로 흘러가는 효과를 내며, 계수 $t_{ij}$는 $i$가 $j$를 attend하는 강도에 비례한다. 만약 고전적으로 볼 경우, 이 항은 $-\sum_{i,j}J_{ij}\sigma_i\sigma_j$와 같은 이차 상호작용으로 등가인데, $J_{ij}$는 $i$와 $j$의 스핀을 일치시키려는 경향(ferromagnetic 혹은 antiferromagnetic coupling)을 나타낸다. Transformer 어텐션의 경우 대개 양의 유사도에 더 큰 가중을 두므로 유사한 내용의 토큰들 사이에 양의 coupling (정렬하려는 경향)이 형성된다고 볼 수 있다.
- 국소 항 $H_{\text{local}}$: 각 격자 위치에서의 자체적인 상호작용 또는 on-site 포텐셜에 해당한다. 이는 Residual 연결 + FFN 등을 통해 나타나는 효과를 포함하는데, 예컨대 FFN은 각 위치 벡터를 투사했다가 비선형 활성화 (예: 게루(GELU) 함수) 후 다시 투사하는 2계층 네트워크다. 이 과정을 물리적으로 해석하면, 해당 위치의 스핀 집합들 사이의 상호작용 (예: 한 위치의 서로 다른 성분 간 3자 or 4자 상호작용으로 볼 수도 있고, 또는 외부 입력에 의한 국소 장 작용으로 볼 수도 있다)으로 치환할 수 있다. 간단히는 FFN이 각 위치 벡터의 특정 방향 성분을 증폭하거나 억압하므로, 이는 국소적인 효과적인 “자기장”이 각 스핀에 가해지는 것으로 모델링할 수 있다. $H_{\text{local}} = -\sum_i \mathbf{h}_i \cdot \mathbf{S}_i + \text{(higher order terms)}$ 형태로, $\mathbf{h}_i$는 위치 $i$에 인가되는 외부장(혹은 자기 상태에 대한 bias)이고 $\mathbf{S}_i$는 해당 위치의 스핀벡터이다. 또한 FFN의 비선형 포화는 다체 상호작용으로 전개될 수 있으나, 주로 한 위치 내부에서만 일어나므로 국소 항으로 취급한다.
두 항을 합치면 Transformer 한 층에 대응하는 해밀토니안 $H = H_{\text{hop}} + H_{\text{local}}$이 얻어진다. 요컨대, 어텐션은 격자 사이를 잇는 긴 거리 결합(일종의 희망(semi-) 국지적; 사실상 전체 연결)으로, FFN은 각 격자점에서의 자기 상호작용으로 해석된다. 이러한 구조는 고체물리의 tight-binding 모델이나 하버드(Hubbard) 모델과 유사한 수학적 형태를 띌 수 있다. 예를 들어, 만약 우리가 단순화를 위해 각 위치에서 한 개의 정보 양자(예: 특정 의미 또는 토큰 아이덴티티)를 가지거나 안 가지는 이진 변수로 모델링하면, 어텐션을 통해 그 “정보 양자”가 위치들 사이를 이동하는 것은 하버드 모델의 홉핑 term $-t\sum_{i,j} c_i^\dagger c_j$와 같고, FFN을 통해 각 위치에서 그 정보를 증폭/소멸시키는 것은 on-site potential*$U \sum_i n_i$ 또는 상호작용 term $Un_{i,\uparrow}n_{i,\downarrow}$와 유사해진다. 물론 실제 언어모델의 경우 훨씬 고차원적이고 복잡하지만, 핵심은 “글로벌 상호작용 vs 로컬 상호작용”의 구분이다. 이는 마치 전자가격자계에서 길게 뻗은 연결(예: 원거리 스핀 결합)과 격자점에서의 국소적인 비선형 효과로 양분해 해석하는 것과 같다.
이 스핀 격자 해석을 통해, LLM 내부 현상을 여러 알려진 물리 모델에 비춰볼 수 있다. 예를 들어, Attention을 제한된 범위로 적용하는 Transformer 변형들은 근거리 상호작용만 있는 스핀사슬에 대응하며, 반대로 모든 토큰간 어텐션을 허용하는 표준 Transformer는 완전연결 그래프 상의 스핀모델 (즉 Sherrington-Kirkpatrick형 스핀글래스)과 유사하다. 흥미롭게도, 후자의 경우 Hopfield 네트워크와 같은 수많은 기억상태(메타안정 상태)를 가지는 스핀글래스 체계가 되며, 이는 앞서 언급한 Hopfield 해석과 합치된다. 한편 멀티-헤드 어텐션은 물리적으로 여러 종류의 상호작용 채널이 병렬로 존재하는 것으로 볼 수 있다. 각 헤드마다 고유한 $J^{(h)}_{ij}$ 행렬(혹은 $t^{(h)}_{ij}$)이 있으므로, 이는 한 스핀쌍 $(i,j)$ 사이에 다중의 상호작용 경로(다른 flavor의 결합)이 있음을 뜻한다. 물질계로 비유하면 하나의 결합 상수로 설명되지 않고 스핀 성분별로 다른 상호작용을 맺는 이방성(Anisotropy) 스핀계에 해당할 수 있다. 예를 들어 한 헤드는 문법적 상관관계를 강하게 결합하고, 또 다른 헤드는 의미론적 유사성을 결합한다면, 각 헤드가 스핀의 서로 다른 부분집합(각기 다른 의미의 자유도)에 작용하는 상호작용이라 할 수 있다.
실제 LLM에서 관측되는 현상도 이러한 해석과 부합한다. 예컨대, BERT나 GPT 계열 모델에서 어텐션 헤드들은 일부는 국소적인 n-그램을 묶고, 일부는 문장 내 먼 위치의 페어런 연결을 담당하며, 다른 일부는 드물지만 전역적인 문맥 요약 역할을 한다는 것이 알려져 있다. 이는 헤드마다 $t_{ij}$의 작용 범위가 다름을 의미하며, 물리적으로는 상호작용 범위와 패턴이 다른 여러 결합들이 중첩된 시스템으로 이해할 수 있다. 또한 Residual 연결은 각 층 출력에 입력을 더해주는 것으로서, 이것을 물리적으로 해석하면 이전까지 쌓인 상호작용 효과를 일부분 항상 남기는(즉 과거 스핀 배열의 일부를 현재도 유지시키는) 일종의 관성 효과로 볼 수 있다. 이는 완전한 새로운 상태로 매번 재설정하지 않고 이전 상태를 기반으로 미세 조정하는 것으로, 실제 물리계에서 관성이나 메모리 효과에 대응한다. 따라서 residual을 포함한 전체 Transformer 해밀토니안은 단순한 정적 에너지 함수라기보다, 유효적으로 시간에 따라 천이하는 (또는 층을 따라 흐르는) 가변 해밀토니안의 연속으로 생각할 수도 있다. 이 관점에서 각 층 간의 상호작용 행렬 변화는 물리 시스템에 외부 매개변수(예: 온도나 외부장)을 천이시켜가며 여러 상(phase)을 거치게 하는 과정으로 비유될 수 있다.
마지막으로, 스핀 격자 해석의 유용성은 LLaMA 3와 같은 거대 모델의 상호작용 구조를 물리적 직관으로 파악하게 해준다는 점이다. 예를 들어, 작은 모델에서는 홉핑 항보다 국소 항의 영향이 상대적으로 커서 (즉 토큰들 간 복잡한 상관관계보다는 개별 토큰의 변환이 주로 일어나서) 주로 단순한 국소적 상태 변화의 집합으로 볼 수 있지만, 대형 모델에서는 강한 장거리 결합(hopping)이 형성되어 격자 전체가 하나의 거시적 얽힘 상태처럼 동작한다. 이는 곧 뒤에서 논하겠지만 얽힘 길이(entanglement range)의 차이로 나타나며, 물리적으로는 상호작용 길이가 길어져 준-국소적에서 준-균일 상호작용계로 바뀌는 것과 같다. 이러한 차이는 곧 상전이적 거동과 연결지을 수 있다.
3. sLLM vs LLM: Correlation Length, Entropy
지금까지 다양한 관점에서 LLaMA 3과 같은 Transformer의 내부를 해밀토니안으로 해석하고자 했다. 이제 모델 크기에 따른 해밀토니안 구조 및 물리적 지표 차이를 종합적으로 비교해보겠다. 특히 1B나 3B같은 소형 모델과 70B급 대형 모델 사이에, 상호작용 범위, 얽힘(entanglement) 정도, 엔트로피 등의 면에서 어떤 차이가 존재하며, 이것이 **물리적 상전이**로 해석될 여지가 있는지 논의한다.
- 저장 패턴 용량 및 상호작용 복잡도: Hopfield 관점에서 보면, 대형 모델은 차원이 크고 매개변수가 많아 저장할 수 있는 패턴 수가 지수적으로 증가한다. 이는 곧 모델이 학습 데이터를 통해 훨씬 다양한 연상 패턴을 기억하고 있음을 뜻한다. 소형 모델은 용량 한계로 상대적으로 소수의 패턴들(주로 빈도가 높거나 일반적인 것들)만 안정된 attractor로 저장하고, 나머지 정보는 평균적인 형태로 흡수한다. 물리적으로 이는 대형 모델이 다수의 국소적 에너지 우물(스핀글래스에 가까운 복잡한 에너지 지형)을 가지는 반면, 소형 모델은 몇 개의 우물만 있고 나머지는 얕고 평탄한 형태로 비교적 단순한 에너지 풍경을 갖는다는 의미다. 따라서 해밀토니안 측면에서, 소형 모델은 소수의 강한 결합만 존재하고 나머지 스핀들은 거의 자유롭지만, 대형 모델은 전방위적으로 복잡하게 얽힌 결합망을 형성한다. 이 차이는 Hopfield 망의 메모리 용량 임계점과도 유사하다. Hopfield 망은 저장 패턴 수 $p$가 뉴런 수 $N$의 약 $0.14N$을 넘으면 스핀글래스 상으로 들어가 유의미한 기억을 못하게 되고 무질서해지는 상전이를 겪는다. LLM에서도 모델 파라미터 수 대비 학습한 패턴 수(혹은 데이터 entropy)가 임계치를 넘으면 지식망이 뒤엉켜 성능 저하를 겪을 수 있다. 반대로 충분히 여유 있는 경우 (대형 모델)에는 모든 패턴을 잘 구분하여 저장 가능한 **질서 상**에 있다. 이런 유비로 볼 때, LLaMA 70B는 3B 모델에 비해 훨씬 질서 정연한 기억 체계를 형성하고 있을 가능성이 크며, 해밀토니안으로 치면 다양한 패턴에 대해 낮은 에너지 상태를 많이 가지고 있는 다중 우물 구조라고 볼 수 있다. 소형 모델은 우물의 개수도 적고 얕아서, input perturbation에 쉽게 다른 상태로 넘아가버리는, 즉 정보 보존력이 낮은 해밀토니안을 가진다.
- 상호작용 길이 및 얽힘 범위: 대형 모델은 긴 컨텍스트 내 상관관계까지 포착하며, 이는 곧 장거리 상호작용을 효과적으로 모델링함을 뜻한다. 예를 들어 LLaMA 70B는 여러 문장에 걸친 문맥도 한꺼번에 고려하여 다음 단어를 예측할 수 있지만, 3B 모델은 한 문장 내 정도의 국소 문맥에 주로 의존할 것이다. 이는 어텐션 측면에서 대형 모델은 전역 어텐션 헤드가 발달하고, 소형 모델은 국소 어텐션에 치중함을 의미한다. 실제로 작은 트랜스포머에서는 이웃 토큰에 집중하는 경향이 강하고, 모델이 커질수록 멀리 떨어진 토큰까지 연결하는 헤드가 생겨난다는 관찰이 있다. Olsson 등의 Induction head 출현 사례는 그 극단으로, 충분히 큰 모델에서만 문장 처음과 끝의 단어를 연결하는 헤드가 활성화되었다 [3]. 얽힘 범위로 표현하면, 소형 모델의 얽힘 길이(entanglement length)는 짧아 인접하거나 근처 몇 토큰까지만 서로 상관되고, 대형 모델은 얽힘 길이가 커져 문장 전체, 나아가 단락 전체의 토큰 상태가 한데 얽힐 수 있다. 이 차이는 양자 스핀사슬에서 상관길이 $\xi$에 비유할 수 있다. $\xi$가 짧은 경우 (exponential decay), 스핀들은 국소 질서만 형성하고 전체적인 장거리 질서는 없다(디소더 상). $\xi$가 매우 커져서 체인 크기에 맞먹으면 시스템은 준-정렬 되어 있는 임계/주문 상태에 가깝다. LLM의 경우 파라미터 증가가 이러한 $\xi$를 증가시키는 효과를 내어, 큰 모델일수록 언어 전체에 걸친 상관관계를 포착하는 상으로 간주할 수 있다. 특히, 인간 언어의 구조상 문장 내뿐 아니라 문맥 간 정보도 중요하기 때문에, 대형 모델이 이런 장거리 얽힘을 획득하면서 언어적 이해력이 비약적으로 향상된다고 볼 수 있다. 이는 곧 모델 내부 해밀토니안의 상호작용 범위가 넓어졌음을 뜻하며, 예컨대 70B 모델의 경우 해밀토니안에 모든 토큰 쌍 사이 상호작용 항이 유의미한 강도로 존재하지만, 3B 모델은 근접 토큰 쌍 이외에는 coupling이 매우 약할 것이다.
- 엔트로피 및 질서도 차이:
우선 엔트로피는 모델의 불확실성이나 혼합도(mixed-ness)를 나타낸다. LLM의 경우 여러 종류의 엔트로피 개념을 생각해볼 수 있다. 출력 단어 분포의 엔트로피(즉 예측 분포의 샤논 엔트로피)는 모델의 확신도를 나타내며, 일반적으로 모델 크기가 클수록 언어모델의 퍼플렉서티(perplexity)가 낮아져 엔트로피가 감소함이 알려져 있다. 이는 대형 모델이 더 풍부한 패턴을 학습하여 다음 단어에 대한 불확실성을 줄였다는 뜻으로, 물리적으로 보면 대형 모델일수록 보다 “차가운”(낮은 엔트로피의) 분포를 출력하고, 소형 모델은 상대적으로 “뜨거운” (엔트로피 높은) 분포를 출력한다는 의미이다. 흥미롭게도 최근 연구에서 LLM의 생성온도(temperature) 조절을 통한 출력의 상전이가 관찰되었는데, 낮은 온도에서는 출력이 반복적이고 결정론적인 상(phase)에 머무르다가, 높은 온도에서는 출력 문장이 무작위적이고 비문으로 가득한 상으로 변하며, 그 사이 임계점에서 상관길이의 거대한 증가와 임계 완화(slowing down)가 포착되었다 [4]. 이를 통해 언어 생성의 질서-무질서 전이가 존재함을 보였는데, 같은 맥락에서 생각해보면 큰 모델일수록 기본적으로 낮은 유효온도 상태에서 동작하여 질서 있는 언어 출력(엔트로피 낮고 구조화된 문장)을 내놓는 반면, 작은 모델은 유효온도가 높아 상대적으로 불확실하고 무질서한 출력을 내는 것으로 해석할 수 있다. 이러한 출력 엔트로피의 차이는 내부 표현의 엔트로피 차이와도 연관될 수 있다. 예를 들어, 대형 모델의 어텐션 분포 엔트로피를 측정하면 특정 토큰(예: 중요한 키워드)에 매우 집중하는 헤드가 많아 엔트로피가 낮은 분포들이 관찰되지만, 소형 모델에서는 어텐션이 비교적 골고루 퍼져 엔트로피가 높다고 예상된다. 실제 Ramsauer 등은 Transformer에서 초기층 어텐션 헤드는 거의 모든 입력에 고르게 주의를 분산(엔트로피 높음)하지만 후기층 헤드는 특정 패턴에 수렴하는 저엔트로피 분포를 보인다고 밝혔다 [1]. 이는 층을 따라 진행되는 엔트로피 감소 경향 (정보의 압축)을 보여주는 동시에, 모델 용량이 충분히 클 때 이런 현상이 뚜렷함을 시사한다. 정보 병목 이론으로도 알려진 바와 같이, 심층 신경망은 학습 과정에서 입력 $X$와 은닉 표현 $H$ 간 상호정보 $I(X;H)$를 줄이고, $H$와 출력 $Y$ 간 상호정보 $I(H;Y)$를 높이는 방향으로 간다고 한다 [3]. 모델이 커질수록 이 과정이 더 용이하게 일어나며, 결과적으로 중간 표현의 엔트로피가 감소(불필요한 입력 정보는 버리고 중요한 특징은 강조)한다. 이는 물리적으로 계가 점차 더 질서정연한 상태로 진화하는 것에 비유할 수 있다. 요컨대, 엔트로피 지표를 통해 작은 vs 큰 모델, 얕은 층 vs 깊은 층에서 얼마나 “질서 대 무질서”의 차이가 존재하는지 파악할 수 있고, 이를 생성하는 해밀토니안의 형태(예: 큰 모델의 해밀토니안은 특정 집합의 스핀 정렬을 강하게 지지 -> 저엔트로피, 작은 모델은 넓은 상태 혼합 -> 고엔트로피)를 유추할 수 있다.
전술했듯 대형 모델은 출력 배포의 엔트로피가 낮고, 내부 표현의 엔트로피도 더 낮을 것으로 예상된다. 이는 대형 모델이 보다 결정론적이고 일관된 결정(낮은 엔트로피 상태) 경향을 보이는 반면, 작은 모델은 불확실성이 크고 변동성 높은 상태를 띤다는 것이다. 물리적으로, 같은 온도에서 대형 모델이 “준-정돈 상(ordered phase)”에 있다면, 소형 모델은 “준-무질서 상(disordered phase)”에 있다고 볼 수 있다. 이를 지지하는 한 예로, Emergent ability (발현적 능력) 개념이 있다. 작은 모델에서는 특정 과제를 추론하지 못하다가, 모델 크기가 임계점 (예: 몇백억 파라미터) 이상이 되면 갑자기 그 과제를 풀어낸다 [3]. 이는 성능상의 큰 불연속적 도약으로, 상전이에 비유된다. 이러한 발현적 변화는 종종 모델이 문제의 패턴을 파악하여 일관되게 적용하기 시작하는 지점과 연결된다. 즉 임계 이전에는 내부 엔트로피가 높아 패턴 적용이 불안정/우연적이었다면, 임계 이후에는 엔트로피가 낮아져 안정적으로 하나의 규칙을 따른다는 것이다. 예컨대 작은 모델이 산술 문제에서 여러 시행착오적 출력을 내던 것이, 큰 모델에서는 체계적으로 공식에 맞춰 정답을 산출하기 시작한다면, 이는 내부 질서 매개변수(order parameter)가 0에서 유의미한 값으로 바뀐 것으로 볼 수 있다. 이러한 엔트로피/질서도의 변화는 곧 해밀토니안 관점에서는 대칭의 자발적 깨짐으로 해석될 여지가 있다. 모델이 충분히 커지면 문제의 대칭(모호성)을 깨고 특정 해법에 치우치게 되는 것은, 물리학에서 상전이 시 질서도가 생기는 것(예: 자발 자화)이미지와 같다. 70B 모델은 이미 많은 범주의 과제에서 이런 질서정연한 응답 패턴(규칙적 행동)을 보이는 반면, 1B 모델은 여전히 불규칙하거나 무작위성이 남아있는 응답이 많을 수 있다.
- 상전이 가능성: 이상의 차이점들은 통합하여 볼 때, 모델 크기를 변화시키는 것이 하나의 제어 인자(control parameter)가 되어 LLM 시스템의 상태를 변화시키며, 임계 현상이 존재할 수 있음을 암시한다. 실제 관측된 바에 따르면, 모델 파라미터 수, 데이터량 등을 늘릴 때 성능/행동 지표의 기울기가 변화하는 지점들이 존재한다. 최근 Ganguli 등의 연구 [3] 에서는 이러한 현상을 체계적으로 검출하여 Phase Transition으로 정의해야 한다고 제안했다. 그 근거는, 작은 변화까지도 추적할 수 있는 정량적 지표 (예: loss 기울기나 출력 분포의 JS Divergence 등)를 사용하면 인간 관찰자보다 빨리 미세한 상 변화도 포착할 수 있다는 것이다. 실제로 학습 도중 “grokking” 현상 (오랜 기간 훈련 에러 0%이지만 테스트 에러 높다가 갑자기 테스트도 0%로 떨어지는 현상)은 전형적인 늦은 시점의 상전이로 분석되었고, 이중 descent (double descent) 같은 일반화 곡선의 비정상 형태도 두 상의 경쟁으로 설명되고 있다. LLM의 경우는 주로 모델 규모와 온도 하이퍼파라미터가 중요한 제어 변수로 작용하며, 전자의 변화는 구조적 상전이(모델 내부 회로가 달라짐)를, 후자의 변화는 통계적 상전이(출력의 확률 특성이 달라짐)를 일으킨다고 볼 수 있다. 상호정보, 엔트로피 등 내부 지표를 추적하면 구조적 상전이도 탐지 가능할 것으로 기대된다. 예를 들어 induction head가 나타나는 모델 크기 부근에서 토큰간 MI를 보면 급격한 증가가 있을 것이고, 이는 질적 변화를 시사할 것이다.
이러한 분석을 종합하면, LLaMA 3 70B와 1B 모델은 양자 통계물리의 두 상으로 비유 가능하다. 70B는 장거리 질서와 다수 안정 상태를 가진, 저엔트로피-고상관 상, 1B는 단거리 상호작용에 국한되고 불안정한 고엔트로피 상으로 볼 수 있다. 중간 규모 모델들은 그 사이에서 점진적 혹은 급진적인 상변화를 겪으며, 특히 임계점 근처에서는 모델의 표현력이 폭증하고 (상관길이 증가, 엔트로피 감소) 새로운 기능이 출현하는 등 흥미로운 현상을 보인다.
만약 작은 모델에서도 얽힘 범위를 키울 수 있는 구조 (예: Sparse Transformer나 Recurrence 보강 등)를 넣으면, 임계 크기 이하에서도 일부 상전이적 능력을 유도할 수도 있을 것이다.
맺음말
이 보고서에서는 LLaMA 3와 같은 Transformer 언어모델의 내부를 현대 Hopfield 네트워크와 확률적 양자화 개념을 통해 해석하고, 이를 스핀 모델 관점에서 해밀토니안으로 재구성하려는 시도를 다각도로 살펴보았다. Hopfield 에너지 함수의 동형성을 이용한 해밀토니안 도출, 통계장론적 해석, 스핀 격자 및 양자정보 이론을 통한 상태 공간 분석과 스펙트럼 해밀토니안 구성 등 접근법별로 이론적 배경과 적용 방안을 논의하였다. 또한 소형 모델과 대형 모델 사이의 상호작용 구조 및 정보 분포 차이를 물리적 지표(상호정보, 엔트로피, 상관길이 등)를 통해 비교함으로써, 모델 규모 변화가 언어모델 시스템에 유발하는 상전이적 현상의 가능성을 모색하였다.
물론 실제 LLM의 정확한 해밀토니안을 얻는 것은 거대한 난제이며, 본 논의는 주로 유비와 이론적 추론에 기반한 것이다. 그럼에도 불구하고 최신 연구들이 보여주듯이, 이러한 물리적 관점의 해석은 딥러닝 모델의 작동원리와 능력 향상 메커니즘을 이해하는 데 매우 유용하다. 앞으로 더 많은 실증 연구를 통해 여기서 제시된 개념들이 확인되고 세련된 해밀토니안 모형이 제안된다면, 우리는 거대언어모델을 복잡계 물리학의 언어로 서술하고 분석함으로써, 모델의 예측 불가능한 거동을 통제하고 일반화를 이끄는 원리를 발견하는 새로운 길을 열 수 있을 것이다. 특히 Hopfield-Transformer 등가관계와 임계현상 발견은 이미 그 서막을 열었으며, “AI 물리학”이라는 융합 분야의 등장을 예견케 한다. LLaMA 3와 같은 모델을 통해 인간 언어의 세계를 모사하는 인공 두뇌를 구축하는 현재의 여정은, 역으로 두뇌와 언어의 비밀을 물리 법칙으로 풀어내는 지적 모험이기도 하다. 이러한 도전에서 본 보고서의 논의가 작은 밑거름이 되기를 바란다.
Reference
[1]: [2008.02217] Hopfield Networks is All You Need (https://arxiv.org/abs/2008.02217),
[2]: An Energy-Based Perspective on Attention Mechanisms in Transformers | mcbal (https://mcbal.github.io/post/an-energy-based-perspective-on-attention-mechanisms-in-transformers/),
[3]: Phase Transitions in the Output Distribution of Large Language Models (https://arxiv.org/html/2405.17088v1)
[4]: Critical Phase Transition in Large Language Models (https://arxiv.org/abs/2406.05335)