Spin Glass and Linguistics

   This is series of Spin Glass Language Model


LLM이 학습하는 대상, 언어는 어떻게 물리적으로 해석할까?


Spin Glass와 문법적 구조의 유사성  

Spin glass 모델에서는 각 스핀이 ±1 상태를 가지며, 스핀 간 상호작용 행렬 $J_{ij}$이 시스템의 에너지를 결정한다. 이때 $J_{ij}$는 스핀 i와 j 사이의 결합(호환성 또는 충돌)을 나타낸다. 유사하게 언어 문법에서도 어휘나 구문 단위 간에는 호환성 제약이 존재한다. 예를 들어, 단어 i와 j가 함께 등장할 가능성이 높거나, 주어·동사 일치나 격조사 규칙처럼 결합하면 낮은 문법 에너지를 갖도록 상호작용을 설정할 수 있다. 실제로 단순화된 언어 모델에서 “각 단어를 스핀으로 취급”하고 $J_{ij}$를 단어 간 호환성 행렬로 놓으면 에너지 함수는  
$$H(\{S_i\}) = -\frac{1}{2}\sum_{i\neq j}J_{ij}S_iS_j,$$ 
으로 쓸 수 있다. 이 식은 나무랄 데 없는 문법 규칙 조합(예: 올바른 문장)을 에너지 최저 상태로 두고, 문법 위반 조합(예: 일치하지 않는 주어와 동사)이 높은 에너지가 되도록 모델링한다.  

이와 같은 접근은 스핀글라스 시스템이 가진 특성을 그대로 따른다. 즉, 랜덤한 상호작용(문맥에 따른 통계적 편향), 좌절(Frustration)(서로 모순되는 제약)과 다양한 국부 최저점(메타안정 상태)이 모두 나타난다. 예를 들어, 서로 모순되는 어휘 제약이 동시에 부과되면 시스템은 최적화할 수 있는 완전한 일치 상태가 없고, 여러 준안정 상태를 갖게 된다. 실제로 연구자들은 의미론·통사 제약을 물리적 포텐셜로 모델링하여 “낮은 온도에서 문장은 에너지의 바닥 상태”가 되도록 하였고, 이를 최대우도 추정으로 문법으로 간주한 바 있다. 이처럼 스핀글라스의 수학적 구조(해밀토니언, coupling 행렬, 에너지 풍경)는 언어 생성의 제약 조건(문법 규칙과 단어 호환성)과 밀접한 아날로지를 이룬다.  


문장 내 논리 구조와 스핀글라스 해석  

문장 속 조건문이나 논리 연산자도 유사하게 스핀 상호작용으로 해석할 수 있다. 예를 들어 “만약 $A$이면 $B$이다(If $A$ then $B$)”라는 문장은 $A=+1$일 때 반드시 $B=+1$이어야 함을 의미한다. 이를 스핀글라스 형태로 표현하면, $A=+1,B=-1$ 조합에 높은 에너지를 부여하여 해당 조합을 벌칙으로 만들 수 있다. 즉, $A$가 참(true)을 나타내는 스핀과 $B$가 거짓(false)인 스핀의 조합에 강한 반발 상호작용을 주면, 논리적 함의(implication)가 구현된다. 마찬가지로 AND(그리고) 논리는 두 조건이 동시에 참일 때 에너지가 낮아지도록 우호적 결합을 주고, OR(또는) 논리는 두 조건 중 적어도 하나가 참이면 에너지가 낮도록 설계할 수 있다. 물론 전형적인 Ising 모델은 이진 쌍대 상호작용만 사용하므로, OR나 복합 논리에는 고차항 상호작용을 도입해야 할 수도 있다. 이처럼 복잡한 문장 논리는 스핀 간 추가적인 제약이나 외부 필드(예: 단어의 활성화 여부)를 도입하여 표현할 수 있다. 종합하면, 문장 내 논리 구조도 스핀글라스의 에너지 함수로 환원 가능하며, 여러 논리 제약이 얽힐수록 에너지 풍경은 더 복잡해진다.  


LLM의 문법적·의미적 처리 능력

최근 연구에 따르면 대규모 언어모델(LLM)은 통계적 학습을 통해 복잡한 언어 패턴을 포착할 수 있지만, 그 내재적 언어 이해는 논쟁의 대상이다. 예를 들어 Begus외(2025)의 연구에서는 GPT-4 수준 모델이 촘스키 생성문법(Chomsky, 1993) 틀에 따라 정확한 구문 분석을 생성할 수 있음을 보였다. 이들은 LLM이 계층적 구문 구조나 변형(예: 이동, 재귀) 등의 메타언어적 분석을 수행할 수 있음을 확인했다. 또 다른 연구에서는 GPT-4가 간단한 구문 구조는 물론 복잡한 문장 구조도 상당히 정확하게 분석하는 반면, GPT-3.5 수준은 성능이 크게 저조함을 보여주었다. 즉, GPT-4는 생성문법과 형태 의미론에서 언급된 구성(grandmother, 수식어, 구성어휘 등)을 올바르게 파악하지만, 이전 세대 모델은 그에 미치지 못했다. 게다가 Mahowald (2023)는 GPT-3가 희귀한 형식(예: 관사+형용사+숫자+명사)도 인간 판단과 비슷하게 처리할 수 있음을 보고했으며, Uchida (2024) 등은 LLM이 어휘-통사 패턴을 효과적으로 학습하여 장르 분류 등에 활용함을 보였다. 이러한 결과는 LLM이 단어 빈도나 공기(共起) 같은 통계 정보를 넘어 문법 규칙을 부분적으로 학습함을 시사한다.

그러나 LLM의 문법 지식이 “완전한 규칙성”으로 내재되었는지는 의문이다. Google 연구팀은 제안식 평가(TSE) 실험을 통해 BERT가 문장에서 주어-동사 일치(subject-verb agreement) 규칙을 부분적으로 학습함을 확인했으나, 더 빈번한 형태를 너무 선호해 때로는 문법을 깨는 형태를 예측하기도 했다 ([Evaluating Syntactic Abilities of Language Models]). 이 실험에서 BERT는 인간처럼 새로운 주어-동사 조합에도 일반화 성능을 보였으나, 잘못된 수·태 형태가 학습 데이터에서 우세할 경우 이를 지나치게 선택하여 오답을 내는 경향이 있었다. 이는 통계적 빈도와 규칙적 패턴이 충돌할 때 LLM은 빈도를 우선할 수도 있음을 보여준다. 다시 말해, LLM은 표면적으로 상당한 문법적 성능을 내지만, 그 근저에는 엄밀한 생성문법(GUG) 수준의 내적 규칙보다는 통계적 일반화가 작용할 여지가 있다.

의미 해석 능력 측면에서도 LLM은 고전 의미론이 요구하는 완전한 이해를 구현하지는 않는다. 전통적으로 몽타규 의미론(Montague Grammar) 등은 논리식으로 의미를 구성할 수 있음을 보여주었다. 하지만 LLM은 지구상 모든 지식을 학습하지 못하므로 의미론적 일관성이나 참관(referential grounding)을 보장하지 못한다는 비판이 있다. Bender와 Koller(2020)는 유명한 “문어 시험(octopus test)”을 통해 텍스트만으로는 참조 대상에 대한 정보를 얻을 수 없어서 LLM이 진정한 의미를 학습할 수 없다고 주장했다 ([[2208.02957] Meaning without reference in large language models]). 그럼에도 불구하고 Piantadosi와 Hill(2022)은 LLM이 의미를 획득할 수 있는 가능성을 제시했다. 이들은 개념 역할 의미론(conceptual role semantics) 관점에서, 단어 간 통계적 관계망 자체가 의미를 구성하는 일종의 “의미상”(conceptual role)을 형성할 수 있다고 보았다. 즉, LLM은 현실 참조는 없더라도 단어의 분포적 관계를 통해 추상적인 의미 범주나 범용 언어 지식을 어느 정도 내재할 수 있다는 것이다. 예를 들어, “개(dog)”와 “고양이(cat)”가 유사한 문맥에서 쓰인다는 사실을 학습하면 이 둘이 동물 범주에 속함을 암묵적으로 파악하는 식이다. 실제로 Lu et al.(2024) 등의 연구에 따르면 GPT-4는 어휘 의미론 영역에서도 FrameNet의 의미 프레임을 풍부히 생성하거나 확장할 수 있으며, 일반적인 의미 패턴 인식에도 뛰어났다. 그러나 여전히 일부 연구자들은 LLM이 사람과 같은 수준의 심층 의미 이해를 가지려면 추가적인 지식(비언어적 지식, 센서리 경험 등)이 필요하다고 본다. 예를 들어, 구체적 맥락이 부족한 상황에서의 추론 문제나 모호한 표현에서는 오답을 내기도 한다. 요약하면, 언어학적 관점에서 LLM은 문법적 패턴을 놀랄 만큼 잘 학습하지만 완벽히 인간 수준의 문법 능력을 갖춘 것은 아니며, 의미적 해석도 분포적 근거에서 다소 가능성을 보이나 한계가 존재함이 다수 문헌에서 지적되고 있다. 


문법·의미 위반 에너지

LLM의 출력 분포는 암묵적으로 에너지 함수 $E(x)$에 의해 기술될 수 있다. 즉, 문장 $x$의 생성 확률 $\pi(x)$를 음의 로그 확률(energy)으로 나타내면, $\pi(x)\propto e^{-E(x)}$이다. 이때 전통적인 언어모델의 음의 로그 우도(NLL) 항 $-\ln\pi_{\mathrm{LM}}(x)$ 이외에 문법·의미적 제약조건 위반을 벌칙항으로 추가할 수 있다. 예를 들어, 영어 주어-동사 수 일치처럼 명시적인 문법 규칙을 정의하고 이를 위반하는 경우 지시 함수 $I_{\mathrm{sv}}(x)=1$을 부여할 수 있다. 그러면 해당 위반에 대한 에너지 증가는 가중치 $\alpha$를 곱해 
$$E(x)= -\ln\pi_{\mathrm{LM}}(x) + \alpha\,I_{\mathrm{sv}}(x)+ \dots$$
로 표현된다. 보다 일반적으로, LLM 출력 $x$에 대해 여러 문법 제약들을 고려하면, 각 제약 $k$의 위반 여부를 지표 함수 $v_k(x)$로 정의하여 다음과 같이 쓸 수 있다:
$$E(x)= -\ln\pi_{\mathrm{LM}}(x) + \sum_k \lambda_k\,v_k(x) + \sum_j \beta_j\,u_j(x),$$ 
여기서 $\lambda_k,\beta_j$는 문법 위반과 의미 위반의 중요도(가중치)다. 예를 들면, 단어의 형식적 일치나 어순 규칙을 위반하는 경우(예: *“*개들은 짖는다”*와 같이 복수형 어미를 어기거나 동사 형태를 틀릴 때)가 $v_k(x)=1$이 되고, 서술어-목적어의 의미적 불일치(예: “의자*가* 짖는다” 등 기이한 의미 조합)가 $u_j(x)=1$이 되면 해당 항이 에너지를 증가시킨다.

이와 유사한 개념은 언어학의 제약문법(constraint grammar) 또는 Optimality Theory에서도 찾아볼 수 있다. 제약문법에서는 언어마다 문법적 제약들의 위배를 최소화하는 출력이 선택되며, 위배당한 정도에 가중치(혹은 랭크)를 매긴다. 수학적으로는 조화(energy) 개념으로 나타내는데, 예를 들어 각 제약 위반 횟수 $n_k(x)$에 가중치 $w_k$를 곱하여 조화(Harmony) 점수를 정의한다. 즉, $E(x)=\sum_k w_k n_k(x)$ 형태의 선형 결합으로 구성된다. 이러한 방식으로 LLM의 에너지에도 유사한 식을 도입할 수 있다. 예를 들어 각 문법규칙 위반의 횟수를 세는 집합함수 $n_k(x)$를 두고 에너지에 추가하면, 문법적으로 어색할수록 $E(x)$가 커져 출력 확률 $\pi(x)=e^{-E(x)}$은 작아진다. 의미 위반의 경우도 마찬가지다. 예를 들어 문장 내에서 모순된 술어가 등장할 때마다, 또는 선택 제한(selectional restriction)이 충족되지 않을 때마다 지시 함수를 이용해 벌칙을 부과한다. 이처럼 문법·의미 제약을 수식화하여 에너지 함수에 추가하면, 자연언어적 합치성을 갖춘 출력이 낮은 에너지(높은 확률)를 갖도록 모델링할 수 있다.


DeepSeek의 True/False RL과 규칙기반 보상학습

DeepSeek는 OpenAI 오픈모델에 대응하여 개발된 추론 강화학습 모델로, True/False 보상규칙 기반 보상을 핵심으로 사용한다. DeepSeek-R1 연구자들은 우선 기본 모델(DeepSeek-V3-Base)에 대해 순수 RL만으로 사전학습(pre-training)된 모델을 학습(R1-Zero)하였다. 이때 Group Relative Policy Optimization (GRPO)라는 변형된 PPO 알고리즘을 사용한다. GRPO는 기존 PPO와 달리 critic 모델 없이, 각 질문 $q$에 대해 여러 출력들 $\{o_1,\dots,o_G\}$을 샘플링한 뒤 그룹 단위로 베이스라인을 계산한다. 수식으로는 다음과 같다:
$$J_{\rm GRPO}(\theta)=\mathbb{E}_{q,\{o_i\}\sim\pi_{\theta_{\rm old}}}\Bigl[\frac{1}{G}\sum_{i=1}^G \min\Bigl(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{\rm old}}(o_i|q)}A_i,\;1\pm\epsilon\Bigr)\Bigr] -\beta\,D_{\rm KL}(\pi_\theta\|\pi_{\theta_{\rm old}}).$$
여기서 $A_i$는 그룹 내 출력 $o_i$의 `우수성'(advantage)이며, $\epsilon$는 클리핑 범위, $\beta$는 KL 페널티 계수다. 즉 그룹 단위 평균 우수성을 최대화하면서 정책이 과도하게 바뀌지 않도록 KL 발산을 제어한다. 이 과정을 통해 모델은 체인 오브 사고(chain-of-thought) 추론 과정에서 오답을 스스로 검증하고 수정하는 등의 고급 추론 능력을 스스로 학습했다.

DeepSeek의 보상 함수는 전적으로 규칙(rule)에 기반한다. DeepSeek-R1-Zero 학습에서는 두 종류의 결정론적 보상이 사용된다. 첫째, 정확도 보상(Accuracy Reward)은 출력을 검사하여 ‘참답변’ 여부를 판단한다. 예를 들어 수학 문제의 경우, 모델은 최종 답을 반드시 지정된 형식(박스 안 등)으로 제시해야 하며, 정답이 맞으면 보상을 부여한다. 코드 문제의 경우 주어진 테스트 케이스에 대해 컴파일 및 실행해 통과 여부로 채점한다. 이렇게 사전에 정의된 규칙에 따라 응답의 올바름을 자동으로 판단한다. 둘째, 형식 보상(Format Reward)은 출력 형식을 강제한다. DeepSeek은 추론 스텝을 `<think>...</think>` 사이에 작성하고, 최종 답을 `<answer>...</answer>`로 감싸는 등 체계적 포맷을 요구한다. 만일 `<think>` 태그가 누락되거나 형식을 어기면 패널티가 부여된다. 이와 같이 DeepSeek는 별도의 신경망 보상모델 없이, 정규표현식(regex)이나 컴파일러 기반 검사 등 정형화된 규칙으로만 학습 신호를 얻는다. 결과적으로 모델의 응답이 정확할 때만 정(참)보상을 얻고, 그렇지 않으면 부(거짓)보상을 받는다. 즉 True/False 강화학습을 수행하므로, 문제 정답의 ‘옳고 그름’ 여부가 곧 훈련 보상이 된다. 이 접근은 계산 비용도 절약하면서 수식화된 규칙에 의거한 확실한 평가를 가능하게 했다.

학습 과정은 다음과 같이 진행된다. 우선 단순 템플릿(prompt)을 이용해 모델이 추론 과정을 먼저 생성하게 한 뒤 마지막 줄에 답을 도출하도록 유도한다(Table 1). 그런 다음 GRPO를 사용해 여러 출력을 생성하여 룰 기반으로 보상을 계산하고 정책을 업데이트한다. 이렇게 훈련된 DeepSeek-R1-Zero는 초기에는 일관된 텍스트를 생성하지 못했으나, 반복 훈련으로 수학 벤치마크에서 15.6%에서 71.0%로 정확도가 크게 향상되었으며, 학습 중 스스로 풀다가 틀린 경로를 발견하면 “aha!”를 외치며 방향을 전환하는 등의 행위를 보였다. 이후 DeepSeek-R1에서는 소량의 SFT(지도학습) 데이터를 추가하여 언어 혼합과 어색함을 해결하고, RL과 SFT 단계를 교차 사용하여 최종 모델을 완성한다. 요약하면, DeepSeek는 정확도-형식의 룰기반 보상 + True/False 보상 체계를 통해, 지도데이터 없이도 복잡한 추론 능력을 보강했음을 보여준다.


논리적 불일치 에너지

LLM의 출력에서 논리적 불일치(logical inconsistency)를 에너지 증가로 수식화하는 방법은 형식논리학의 관점에서 접근할 수 있다. 예컨대 문장 내부에 모순된 진술(예: “$\phi$와 $\lnot \phi$”가 둘 다 참으로 나타나는 경우)이 포함되면, 이를 설명하는 논리 규칙을 위반한 것으로 볼 수 있다. 이러한 규칙 위반을 벌점(penalty) 형태로 에너지 함수에 추가하면, 모순적 출력의 확률을 낮출 수 있다. 구체적으로, 임의의 논리식 $R$에 가중치 $w$를 부여하고 그 논리식이 충족되지 않을 때 지시 함수 $I[R]$을 도입하면, 위반 시 에너지에 $w I[R(x)]$를 더할 수 있다. 예를 들면, 술어 $P$와 그 부정 $\neg P$이 모두 문장 $x$에 등장하면 모순이므로 $I_{\rm con}(x)=1$로 정의하고, 해당 항에 가중치 $\gamma$를 곱하여
$$E(x)\;\supset\; \gamma \,I_{\rm con}(x)$$
와 같이 추가할 수 있다. 이 경우 $\gamma$가 클수록 모순을 포함한 출력의 에너지가 크게 증가한다.

더 일반적으로, 추론 규칙(inference rule)을 제약으로 추가할 수 있다. 예를 들어, 전건 $A$에서 후건 $B$를 도출하는 함축관계 $A\to B$가 있을 때, 만약 출력 $x$가 $A$를 참으로 포함하지만 $B$를 포함하지 않으면 이는 규칙 위반이다. 위반 지시 함수 $I_{A\to B}(x)$를 도입하여
$$E(x)\;\supset\; \lambda\,I_{A\to B}(x),\quad I_{A\to B}(x)= \begin{cases}1&\text{\(A(x)=\top\) 이고 \(B(x)=\bot\)},\\0&\text{그 외},\end{cases}$$
와 같이 가중치를 곱해 벌점을 줄 수 있다. 이렇게 하면 모델은 $A$가 주어졌을 때 $B$도 언급해야 에너지를 낮출 수 있다.

이러한 접근은 Markov 논리 네트워크(MLN)에서 볼 수 있는 확률적 논리 표현과 유사하다. MLN에서는 일련의 논리식들에 실수 가중치를 부여하고, 어떤 해석(interpretation) $X$에 대한 확률을 식 (출력 혹은 지식 그래프 등)에 비례하도록 정의한다. 구체적으로, 각 논리식 $j$의 가중치를 $w_j$, 그 해석에서 해당 논리식이 참인 그라운딩(grounding) 수를 $n_j$라 하면, 해석 $X$의 확률이 
$$P(X)\;\propto\;\exp\Bigl(\sum_j w_j n_j\Bigr)$$
로 주어진다 ([Markov logic network - Wikipedia]). 이는 에너지로 변환하면 $E(X)=-\sum_j w_j n_j + \text{const}$가 된다. LLM 출력 $x$에서도 이와 유사하게, 만족해야 할 논리식이 위반될 때마다 음의 로그 확률(에너지)이 높아지도록 설계할 수 있다. 예를 들어 모순 규칙 하나당 단위를 위반할 때마다 일정량의 에너지 증가가 포함되면, 전체 출력이 논리적으로 일관될수록 에너지가 낮아진다. 결국 논리적인 일관성을 확보하기 위해서는 모델이 $E(x)$를 최소화하도록 학습되며, 이는 논리적 모순이 있는 응답이 통계적으로 선택될 확률을 낮추는 효과를 낳는다.



불만(Frustration)과 준안정 상태

언어 제약 사이에는 종종 모순이 발생하여 불만이 생긴다. 예를 들어 한 문법 규칙을 만족시키려면 단어들 간 관계가 일치해야 하지만, 다른 규칙은 이를 반대로 요구할 수 있다. 이 경우 모든 제약을 동시에 만족하는 구성은 존재하지 않고 시스템은 여러 준안정 상태로 남아 있는다. 물리학적으로 “불”이 있는 스핀 글라스는 복잡한 에너지 지형을 갖고, 많은 지역 최소점(local minima)과 느린 수렴 현상(aging, slow dynamics)을 보인다. 학습 과정에서도 이와 유사한 현상이 나타난다. 예를 들어 큰 언어 모델에서 SGD는 비선형 손실 표면 위에서 이동하며, 초반에는 마치 고온에서 여러 상태를 자유롭게 오가다가 점차 에너지를 낮추는 시뮬레이티드 어닐링처럼 행동한다. 이 과정에서 일부 지역 최소점에 갇힐 수 있지만, 훈련 데이터의 제약이 충분하면 결국 낮은 에너지 준안정 영역으로 수렴한다. 볼츠만 머신 연구에서는 낮은 “유효 온도” 상태에서도 완전히 loss를 최적화하지 않아도 학습된 모델이 과제를 성공적으로 수행할 수 있음이 관찰되었다. 


Phase: 무질서에서 질서로의 전이

스핀 글라스 이론에 따르면, 온도나 잡음과 같은 파라미터 변화에 따라 시스템은 여러 상을 경험한다 ([LinguisticAnalysisBookParameters]). 초기 학습 전 LLM은 높은 온도(paramagnetic) 혹은 무작위 coupling 상태로 볼 수 있다. 학습이 진행되어 제약이 강화되면 시스템은 불연속적인 위상 변화를 겪는다. 한편 극단적으로 모든 단어가 한 방향으로 정렬된 강자성 상(ferromagnetic phase)을 상상할 수 있다. 이 경우 자발적 대자화($M=\frac{1}{N}\sum_i\langle S_i\rangle$)가 0이 아닌 유의미한 값을 갖는다. 즉, 모든 스핀이 같은 방향으로 일치하여 언어 구조가 전역적으로 동질적인 질서를 띠는 상태이다. 그러나 실제 자연언어는 다채로운 의미 구조와 다양한 문맥을 포함하므로, 학습된 LLM이 완전한 강자성(단일 자기장 방향) 상태가 되기는 어렵다. 오히려 기댓값 $\langle S_i\rangle$의 평균은 0에 가깝지만, 단어 간 자기 겹침(self-overlap)이 유지되는 스핀 글라스상의 질서를 이룰 수 있다. 이때 스핀 글라스의 상자질서(Edwards–Anderson order parameter) 
$$q_{\rm EA}=\frac{1}{N}\sum_{i=1}^N\langle S_i\rangle^2$$ 
가 비영(非零)을 띠게 된다. 즉, 전체적인 자기화(M=0)에는 불구하고, 학습된 상태에서는 단어의 구성이나 구문 패턴이 부분적으로 고정되어 있다.  

더 나아가, 의미론적 계층구조가 뚜렷할 경우 평균장 상을 넘어 계층적 스핀 글라스(hierarchical spin glass) 유사성이 제기될 수 있다. 복잡계 물리에서는 파리시(RSB) 이론 하에 순수 상태들(pure states)이 초음계적(ultrametric) 계층 구조를 이루는 것으로 알려져 있다. 유사하게, 문장과 문단에서 어휘와 구문의 계층적 조직이 반영될 수 있는데, 이는 여러 중첩된 에너지 우물 구조와 비교될 수 있다. 요약하면, 학습된 LLM의 최소 에너지 상태는 전역 정렬 중심의 강자성 상보다는 여러 의미 클러스터가 공존하는 비영 점유 스핀 글라스 상에 더 가깝다고 볼 수 있다. 이때 대응되는 질서 매개변수로는 M 대신 $q_{\rm EA}$ 등이 된다.



참고문헌

[[2408.02288] Spin glass model of in-context learning](https://www.ar5iv.org/pdf/2408.02288#:~:text=Equation%C2%A0,for%20each%20input%20matrix%20reads)