Critical ReviewLinguistics & NLP
Can We Read a Transformer's Mind? Linguistic Interpretability in LLMs
Do LLMs actually learn grammar, or do they approximate it? The growing field of linguistic interpretability uses probing classifiers, minimal pairs, and causal analysis to examine what transformers encode about syntax. The findings are both encouraging and cautionary.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
When a large language model correctly handles subject-verb agreement across intervening noun phrases, is it applying something like a grammatical rule, or performing a sophisticated pattern match? This question has become one of the more actively researched areas at the intersection of NLP and linguistics. If transformers genuinely internalize syntactic representations, this has implications for both linguistic theory (what can be learned from distributional data?) and practical NLP (can we make models more reliable by understanding their internal representations?).
The Research Landscape: A Rapidly Growing Field
The scope of this literature is now substantial. Graichen, de-Dios-Flores, and Boleda (2026) present the most comprehensive survey to date: a systematic review of 337 articles evaluating the syntactic abilities of Transformer-based language models, reporting on over 1,015 model results across a range of syntactic phenomena and interpretability methods. Their analysis reveals a field that is methodologically diverse but converging on some findings.
Lรณpez-Otal, Gracia, and Bernad (2025) provide a complementary systematic review, focusing specifically on the linguistic interpretability of transformer architectures. They organize methods into three families that have become standard in the field:
Probing classifiers: Train lightweight models on a network's internal representations to test whether specific linguistic properties (part of speech, dependency relations, semantic roles) are linearly decodable. If a simple classifier can extract syntactic information from a hidden layer, that information is represented there in some accessible form.
Behavioral testing: Present models with carefully constructed minimal pairs and measure whether the model assigns higher probability to the grammatical variant. This treats the model as a subject in a linguistic experiment.
Causal/interventional methods: Actively modify internal representations and measure downstream effects. Rather than asking what information is present, these methods ask what information is used.
The Probing Debate
He, Chen, and Nie (2024) introduce an approach they call "decoding probing," inspired by cognitive neuroscience methods. Using the BLiMP benchmark of minimal pairs, they probe internal linguistic characteristics layer by layer, treating the language model as analogous to a brain and its representations as "neural activations."
Their key insight is methodological: rather than training probes on arbitrary linguistic annotations, they use minimal pairs to create a more naturalistic probing setup. The model's internal states are evaluated based on whether they distinguish grammatical from ungrammatical sentences at each layer. This approach reveals a consistent pattern across models: sensitivity to syntactic distinctions emerges in middle layers and peaks before declining in later layers, suggesting that syntactic processing occurs in intermediate representations rather than at the input or output level.
A Challenge to the Probing Paradigm
Agarwal and Manning (2025), with 5 citations, raise a significant challenge. Their paper title captures the argument: "Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations." The finding is that there is a weaker-than-expected correlation between a model's probing results (how much syntactic information is linearly decodable from its representations) and its behavioral performance (how well it handles syntactic phenomena in practice).
This suggests that probing may overestimate what models "know" about syntax. A model might encode syntactic information in its representationsโin the sense that a probe can extract itโwithout actually using that information for syntactic processing. The analogy to neuroscience is apt: the fact that syntactic information can be decoded from brain activity does not necessarily mean the brain uses that information for syntactic processing in the way we might assume.
The practical implication is that probing results should be interpreted with caution. Finding syntactic structure in a model's representations is necessary but not sufficient evidence that the model processes syntax in a linguistically meaningful way.
Multi-Word Verb Representations
Kissane and Krauss (2025), with 5 citations, examine a specific linguistic phenomenon: verb-particle combinations (like "look up," "turn down," "break out"). These multi-word verbs are linguistically interesting because their meaning is often non-compositional (the meaning of "look up" is not predictable from "look" + "up"), and their syntactic behavior is complex (the particle can appear in different positions depending on the object).
Their probing study on BERT reveals that lower layers encode primarily lexical properties of verbs and particles, while upper layers encode the syntactic relationships between them. Interestingly, the representations of idiomatic multi-word verbs (where the meaning is non-compositional) show different layer-wise patterns from compositional onesโsuggesting that models develop distinct representational strategies for different types of verb-particle combinations.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Syntactic information is encoded in transformer hidden layers | Multiple probing studies across model architectures | โ
Supported โ consistently replicated |
| Syntactic sensitivity peaks in middle layers | He et al.'s layer-by-layer minimal pairs probing | โ
Supported |
| Probing results predict behavioral syntactic performance | Agarwal et al.'s correlation analysis | โ Refuted โ correlation is weaker than expected |
| Models distinguish compositional from idiomatic multi-word verbs | Kissane et al.'s BERT probing study | โ
Supported โ different layer-wise activation patterns |
The Interpretation Gap
What emerges from these papers is a nuanced picture. Syntactic information is clearly present in transformer representationsโthis is now well-established. But the relationship between having this information and using it is less clear. As Agarwal et al. demonstrate, representational capacity and functional use can come apart. This distinction matters both theoretically (for understanding what models learn about language) and practically (for building more robust NLP systems).
Graichen et al.'s comprehensive review adds a further dimension: the field shows "a healthy variety of methods" but also considerable fragmentation. Different studies use different models, different probing methods, and different definitions of "syntactic knowledge," making cross-study comparison difficult.
Open Questions and Future Directions
From representation to mechanism: The field needs to move beyond asking "is syntactic information present?" to asking "how is it used in processing?" Causal/interventional methods are promising but still methodologically challenging.Cross-linguistic coverage: The vast majority of interpretability studies use English. Extending to morphologically rich languages could reveal whether transformers develop fundamentally different representational strategies.Scale effects: Do larger models develop qualitatively different representations, or merely sharper versions of the same patterns? Early evidence suggests both.Relationship to human processing: The layer-wise emergence of syntactic sensitivity in transformers bears suggestive parallels to staged processing in the human brain. How seriously should we take these parallels?Evaluation methodology: The field needs standardized evaluation protocols. Graichen et al.'s review of 337 papers reveals significant methodological heterogeneity that limits generalizability.What This Means for Your Research
For NLP researchers, Agarwal et al.'s finding is practically important: probing is a useful diagnostic, but it should not be equated with functional understanding. If you want to know whether a model reliably processes syntax, behavioral testing is a more direct measure.
For theoretical linguists, the interpretability literature offers a new kind of evidence about what is learnable from distributional data. The consistent finding that syntactic information emerges in intermediate layers is compatible with the view that syntax occupies a middle level of linguistic representationโmore abstract than surface form, less abstract than meaning.
Explore related research through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ํน์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
ํธ๋์คํฌ๋จธ์ ๋ง์์ ์ฝ์ ์ ์๋๊ฐ? LLM์ ์ธ์ดํ์ ํด์ ๊ฐ๋ฅ์ฑ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ๊ฐ์
ํ๋ ๋ช
์ฌ๊ตฌ๋ฅผ ๊ฐ๋ก์ง๋ฌ ์ฃผ์ด-๋์ฌ ์ผ์น๋ฅผ ์ฌ๋ฐ๋ฅด๊ฒ ์ฒ๋ฆฌํ ๋, ์ด๊ฒ์ ๋ฌธ๋ฒ ๊ท์น๊ณผ ์ ์ฌํ ๋ฌด์ธ๊ฐ๋ฅผ ์ ์ฉํ๋ ๊ฒ์ธ๊ฐ, ์๋๋ฉด ์ ๊ตํ ํจํด ๋งค์นญ์ ์ํํ๋ ๊ฒ์ธ๊ฐ? ์ด ์ง๋ฌธ์ NLP์ ์ธ์ดํ์ ๊ต์ฐจ์ ์์ ๊ฐ์ฅ ํ๋ฐํ๊ฒ ์ฐ๊ตฌ๋๋ ๋ถ์ผ ์ค ํ๋๊ฐ ๋์๋ค. ํธ๋์คํฌ๋จธ๊ฐ ์ง์ ์ผ๋ก ํต์ฌ์ ํ์์ ๋ด๋ฉดํํ๋ค๋ฉด, ์ด๋ ์ธ์ด ์ด๋ก (๋ถํฌ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฌด์์ ํ์ตํ ์ ์๋๊ฐ?)๊ณผ ์ค์ฉ์ NLP(๋ด๋ถ ํ์์ ์ดํดํจ์ผ๋ก์จ ๋ชจ๋ธ์ ๋ ์ ๋ขฐํ ์ ์๊ฒ ๋ง๋ค ์ ์๋๊ฐ?) ๋ชจ๋์ ์์ฌ์ ์ ๊ฐ์ง๋ค.
์ฐ๊ตฌ ์งํ: ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๋ ๋ถ์ผ
์ด ๋ถ์ผ์ ๋ฌธํ ๋ฒ์๋ ์ด์ ์๋นํ ๋ฐฉ๋ํ๋ค. Graichen, de-Dios-Flores, Boleda(2026)๋ ํ์ฌ๊น์ง ๊ฐ์ฅ ํฌ๊ด์ ์ธ ์๋ฒ ์ด๋ฅผ ์ ์ํ๋ค: ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ํต์ฌ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ 337ํธ์ ๋
ผ๋ฌธ์ ๋ํ ์ฒด๊ณ์ ๋ฆฌ๋ทฐ๋ก, ๋ค์ํ ํต์ฌ์ ํ์๊ณผ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐฉ๋ฒ์ ๊ฑธ์ณ 1,015๊ฐ ์ด์์ ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ฅผ ๋ณด๊ณ ํ๋ค. ๊ทธ๋ค์ ๋ถ์์ ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ๋ค์ํ์ง๋ง ์ผ๋ถ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ์๋ ดํ๊ณ ์๋ ๋ถ์ผ๋ฅผ ๋๋ฌ๋ธ๋ค.
Lรณpez-Otal, Gracia, Bernad(2025)๋ ํธ๋์คํฌ๋จธ ์ํคํ
์ฒ์ ์ธ์ดํ์ ํด์ ๊ฐ๋ฅ์ฑ์ ํนํ ์ด์ ์ ๋ง์ถ ๋ณด์์ ์ธ ์ฒด๊ณ์ ๋ฆฌ๋ทฐ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ค์ ํด๋น ๋ถ์ผ์์ ํ์ค์ด ๋ ์ธ ๊ฐ์ง ๋ฐฉ๋ฒ๋ก ๊ณ์ด๋ก ๋ฐฉ๋ฒ๋ค์ ์ ๋ฆฌํ๋ค:
ํ๋ก๋น ๋ถ๋ฅ๊ธฐ(Probing classifiers): ๋คํธ์ํฌ์ ๋ด๋ถ ํ์์ ๊ฒฝ๋ ๋ชจ๋ธ์ ํ๋ จ์์ผ ํน์ ์ธ์ด์ ์์ฑ(ํ์ฌ, ์์กด ๊ด๊ณ, ์๋ฏธ์ญ)์ด ์ ํ์ ์ผ๋ก ๋์ฝ๋ฉ ๊ฐ๋ฅํ์ง ๊ฒ์ฆํ๋ค. ๋จ์ํ ๋ถ๋ฅ๊ธฐ๊ฐ ์๋ ์ธต์ผ๋ก๋ถํฐ ํต์ฌ ์ ๋ณด๋ฅผ ์ถ์ถํ ์ ์๋ค๋ฉด, ๊ทธ ์ ๋ณด๋ ์ ๊ทผ ๊ฐ๋ฅํ ํํ๋ก ํด๋น ์์น์ ํ์๋์ด ์๋ ๊ฒ์ด๋ค.
ํ๋ ๊ฒ์ฆ(Behavioral testing): ์ ์คํ๊ฒ ๊ตฌ์ฑ๋ ์ต์ ๋๋ฆฝ์์ ๋ชจ๋ธ์ ์ ์ํ๊ณ , ๋ชจ๋ธ์ด ๋ฌธ๋ฒ์ ๋ณ์ดํ์ ๋ ๋์ ํ๋ฅ ์ ํ ๋นํ๋์ง ์ธก์ ํ๋ค. ์ด๋ ๋ชจ๋ธ์ ์ธ์ด ์คํ์ ํผํ์๋ก ์ทจ๊ธํ๋ ๋ฐฉ์์ด๋ค.
์ธ๊ณผ์ /๊ฐ์
์ ๋ฐฉ๋ฒ(Causal/interventional methods): ๋ด๋ถ ํ์์ ๋ฅ๋์ ์ผ๋ก ์์ ํ๊ณ ํ๋ฅ ํจ๊ณผ๋ฅผ ์ธก์ ํ๋ค. ์ด๋ค ์ ๋ณด๊ฐ ์กด์ฌํ๋์ง ๋ฌป๋ ๋์ , ์ด๋ค ์ ๋ณด๊ฐ ์ฌ์ฉ๋๋์ง ๋ฌป๋๋ค.
ํ๋ก๋น ๋
ผ์
He, Chen, Nie(2024)๋ ์ธ์ง์ ๊ฒฝ๊ณผํ ๋ฐฉ๋ฒ์์ ์๊ฐ์ ๋ฐ์ "๋์ฝ๋ฉ ํ๋ก๋น(decoding probing)"์ด๋ผ ๋ถ๋ฅด๋ ์ ๊ทผ๋ฒ์ ์๊ฐํ๋ค. ์ต์ ๋๋ฆฝ์์ BLiMP ๋ฒค์น๋งํฌ๋ฅผ ํ์ฉํ์ฌ, ์ธ์ด ๋ชจ๋ธ์ ๋์, ๊ทธ ํ์์ "์ ๊ฒฝ ํ์ฑํ"์ ์ ๋นํจ์ผ๋ก์จ ์ธต๋ณ๋ก ๋ด๋ถ ์ธ์ด์ ํน์ฑ์ ํ๋ก๋นํ๋ค.
์ด๋ค์ ํต์ฌ ํต์ฐฐ์ ๋ฐฉ๋ฒ๋ก ์ ์ธ ๊ฒ์ด๋ค: ์์์ ์ธ ์ธ์ด ์ฃผ์์ ํ๋ก๋ธ๋ฅผ ํ๋ จ์ํค๋ ๋์ , ์ต์ ๋๋ฆฝ์์ ์ฌ์ฉํ์ฌ ๋ณด๋ค ์์ฐ์ค๋ฌ์ด ํ๋ก๋น ํ๊ฒฝ์ ๊ตฌ์ฑํ๋ค. ๋ชจ๋ธ์ ๋ด๋ถ ์ํ๋ ๊ฐ ์ธต์์ ๋ฌธ๋ฒ์ ๋ฌธ์ฅ๊ณผ ๋น๋ฌธ๋ฒ์ ๋ฌธ์ฅ์ ๊ตฌ๋ณํ๋์ง ์ฌ๋ถ์ ๋ฐ๋ผ ํ๊ฐ๋๋ค. ์ด ์ ๊ทผ๋ฒ์ ๋ชจ๋ธ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๊ด๋ ํจํด์ ๋๋ฌ๋ธ๋ค: ํต์ฌ์ ๊ตฌ๋ณ์ ๋ํ ๋ฏผ๊ฐ์ฑ์ ์ค๊ฐ ์ธต์์ ๋ํ๋ ์ดํ ์ธต์์ ๊ฐ์ํ๊ธฐ ์ ์ ์ ์ ๋ฌํ๋ฉฐ, ์ด๋ ํต์ฌ ์ฒ๋ฆฌ๊ฐ ์
๋ ฅ ๋๋ ์ถ๋ ฅ ์์ค์ด ์๋ ์ค๊ฐ ํ์์์ ์ผ์ด๋จ์ ์์ฌํ๋ค.
ํ๋ก๋น ํจ๋ฌ๋ค์์ ๋ํ ๋์
Agarwal๊ณผ Manning(2025)์ 5ํ ์ธ์ฉ์ผ๋ก ์ค์ํ ๋์ ์ ์ ๊ธฐํ๋ค. ๋
ผ๋ฌธ ์ ๋ชฉ์ด ๊ทธ ๋
ผ์ง๋ฅผ ์ ํฌ์ฐฉํ๋ค: "ํต์ฌ๋ฅผ ์ํ ํ๋ก๋น์ ๋ชฉํ ํต์ฌ ํ๊ฐ์์์ ์ฑ๋ฅ์ ์ค๋ช
ํ์ง ๋ชปํ๋ค(Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations)." ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ๋ชจ๋ธ์ ํ๋ก๋น ๊ฒฐ๊ณผ(ํ์์ผ๋ก๋ถํฐ ์ ํ์ ์ผ๋ก ๋์ฝ๋ฉ ๊ฐ๋ฅํ ํต์ฌ ์ ๋ณด์ ์)์ ํ๋ ์ฑ๋ฅ(์ค์ ๋ก ํต์ฌ์ ํ์์ ์ผ๋ง๋ ์ ์ฒ๋ฆฌํ๋์ง) ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์์๋ณด๋ค ์ฝํ๋ค๋ ๊ฒ์ด๋ค.
์ด๋ ํ๋ก๋น(probing)์ด ๋ชจ๋ธ์ด ํต์ฌ๋ก ์ ๋ํด "์๊ณ ์๋" ๊ฒ์ ๊ณผ๋ํ๊ฐํ ์ ์์์ ์์ฌํ๋ค. ๋ชจ๋ธ์ ์์ ์ ํํ(representations)์ ํต์ฌ์ ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ ์ ์๋คโํ๋ก๋ธ(probe)๊ฐ ์ด๋ฅผ ์ถ์ถํ ์ ์๋ค๋ ์๋ฏธ์์โ๊ทธ๋ฌ๋ ์ค์ ๋ก๋ ํต์ฌ์ ์ฒ๋ฆฌ์ ๊ทธ ์ ๋ณด๋ฅผ ์ฌ์ฉํ์ง ์์ ์ ์๋ค. ์ ๊ฒฝ๊ณผํ๊ณผ์ ์ ๋น(analogy)๋ ์ ์ ํ๋ค: ๋ ํ๋์์ ํต์ฌ์ ์ ๋ณด๊ฐ ๋์ฝ๋ฉ๋ ์ ์๋ค๋ ์ฌ์ค์ด, ๋๊ฐ ์ฐ๋ฆฌ๊ฐ ๊ฐ์ ํ๋ ๋ฐฉ์์ผ๋ก ํต์ฌ์ ์ฒ๋ฆฌ์ ๊ทธ ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋ฐ๋์ ์๋ฏธํ์ง๋ ์๋๋ค.
์ค์ ์ ์ธ ํจ์๋ ํ๋ก๋น ๊ฒฐ๊ณผ๋ฅผ ์ ์คํ๊ฒ ํด์ํด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ ํํ์์ ํต์ฌ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ฒ์ ํ์์กฐ๊ฑด์ด์ง๋ง, ๋ชจ๋ธ์ด ์ธ์ดํ์ ์ผ๋ก ์๋ฏธ ์๋ ๋ฐฉ์์ผ๋ก ํต์ฌ๋ก ์ ์ฒ๋ฆฌํ๋ค๋ ์ถฉ๋ถํ ์ฆ๊ฑฐ๋ ์๋๋ค.
๋ค์ค ์ดํ ๋์ฌ ํํ
Kissane and Krauss (2025)๋ 5ํ ์ธ์ฉ์ผ๋ก, ํน์ ์ธ์ด์ ํ์์ธ ๋์ฌ-๋ถ๋ณํ์ฌ ๊ฒฐํฉ(verb-particle combinations, ์: "look up," "turn down," "break out")์ ์ฐ๊ตฌํ๋ค. ์ด๋ฌํ ๋ค์ค ์ดํ ๋์ฌ(multi-word verbs)๋ ์ธ์ดํ์ ์ผ๋ก ํฅ๋ฏธ๋ก์ด๋ฐ, ๊ทธ ์๋ฏธ๊ฐ ํํ ๋นํฉ์ฑ์ (non-compositional)์ด๊ณ ("look up"์ ์๋ฏธ๋ "look"๊ณผ "up"์ผ๋ก๋ถํฐ ์์ธก ๋ถ๊ฐ๋ฅํ๋ค), ํต์ฌ์ ํ๋์ด ๋ณต์กํ๊ธฐ ๋๋ฌธ์ด๋ค(๋ถ๋ณํ์ฌ๋ ๋ชฉ์ ์ด์ ๋ฐ๋ผ ๋ค๋ฅธ ์์น์ ๋ํ๋ ์ ์๋ค).
BERT์ ๋ํ ๊ทธ๋ค์ ํ๋ก๋น ์ฐ๊ตฌ๋ ํ์ ๋ ์ด์ด๊ฐ ์ฃผ๋ก ๋์ฌ์ ๋ถ๋ณํ์ฌ์ ์ดํ์ ํน์ฑ์ ์ธ์ฝ๋ฉํ๋ ๋ฐ๋ฉด, ์์ ๋ ์ด์ด๋ ๊ทธ๋ค ์ฌ์ด์ ํต์ฌ์ ๊ด๊ณ๋ฅผ ์ธ์ฝ๋ฉํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ํฅ๋ฏธ๋กญ๊ฒ๋, ๊ด์ฉ์ ๋ค์ค ์ดํ ๋์ฌ(์๋ฏธ๊ฐ ๋นํฉ์ฑ์ ์ธ ๊ฒฝ์ฐ)์ ํํ์ ํฉ์ฑ์ ํํ๊ณผ ๋ ์ด์ด๋ณ๋ก ๋ค๋ฅธ ํจํด์ ๋ณด์ธ๋คโ์ด๋ ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ์ ํ์ ๋์ฌ-๋ถ๋ณํ์ฌ ๊ฒฐํฉ์ ๋ํด ๊ตฌ๋ณ๋ ํํ ์ ๋ต์ ๋ฐ๋ฌ์ํด์ ์์ฌํ๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ์ฆ๊ฑฐ
<
| ์ฃผ์ฅ | ์ฆ๊ฑฐ | ํ๊ฒฐ |
|---|
| ํต์ฌ์ ์ ๋ณด๊ฐ ํธ๋์คํฌ๋จธ(transformer) ์๋ ๋ ์ด์ด์ ์ธ์ฝ๋ฉ๋๋ค | ์ฌ๋ฌ ๋ชจ๋ธ ์ํคํ
์ฒ์ ๊ฑธ์น ๋ค์์ ํ๋ก๋น ์ฐ๊ตฌ | โ
์ง์ง๋จ โ ์ผ๊ด๋๊ฒ ์ฌํ๋จ |
| ํต์ฌ์ ๋ฏผ๊ฐ๋๋ ์ค๊ฐ ๋ ์ด์ด์์ ์ ์ ์ ๋ฌํ๋ค | He et al.์ ๋ ์ด์ด๋ณ ์ต์ ์(minimal pairs) ํ๋ก๋น | โ
์ง์ง๋จ |
| ํ๋ก๋น ๊ฒฐ๊ณผ๊ฐ ํ๋์ ํต์ฌ ์ํ์ ์์ธกํ๋ค | Agarwal et al.์ ์๊ด๊ด๊ณ ๋ถ์ | โ ๋ฐ๋ฐ๋จ โ ์๊ด๊ด๊ณ๊ฐ ์์๋ณด๋ค ์ฝํจ |
| ๋ชจ๋ธ์ด ํฉ์ฑ์ ๋ค์ค ์ดํ ๋์ฌ์ ๊ด์ฉ์ ๋ค์ค ์ดํ ๋์ฌ๋ฅผ ๊ตฌ๋ณํ๋ค | Kissane et al.์ BERT ํ๋ก๋น ์ฐ๊ตฌ | โ
์ง์ง๋จ โ ๋ ์ด์ด๋ณ ํ์ฑํ ํจํด์ด ์์ดํจ |
ํด์์ ๊ฐ๊ทน
์ด ๋
ผ๋ฌธ๋ค๋ก๋ถํฐ ๋๋ฌ๋๋ ๊ฒ์ ๋ฏธ๋ฌํ ๊ทธ๋ฆผ์ด๋ค. ํต์ฌ์ ์ ๋ณด๊ฐ ํธ๋์คํฌ๋จธ ํํ์ ๋ช
ํํ ์กด์ฌํ๋ค๋ ๊ฒ์ ์ด์ ์ ํ๋ฆฝ๋์ด ์๋ค. ๊ทธ๋ฌ๋ ์ด ์ ๋ณด๋ฅผ ๋ณด์ ํ๋ ๊ฒ๊ณผ ์ฌ์ฉํ๋ ๊ฒ ์ฌ์ด์ ๊ด๊ณ๋ ๋ ๋ช
ํํ๋ค. Agarwal et al.์ด ๋ณด์ฌ์ฃผ๋ฏ, ํํ์ ์ฉ๋(representational capacity)๊ณผ ๊ธฐ๋ฅ์ ์ฌ์ฉ์ ๋ถ๋ฆฌ๋ ์ ์๋ค. ์ด ๊ตฌ๋ถ์ ์ด๋ก ์ ์ผ๋ก(๋ชจ๋ธ์ด ์ธ์ด์ ๋ํด ๋ฌด์์ ํ์ตํ๋์ง ์ดํดํ๊ธฐ ์ํด)์ ์ค์ ์ ์ผ๋ก(๋ ๊ฐ๊ฑดํ NLP ์์คํ
๊ตฌ์ถ์ ์ํด) ๋ชจ๋ ์ค์ํ๋ค.
Graichen et al.์ ํฌ๊ด์ ๋ฆฌ๋ทฐ๋ ํ ๊ฐ์ง ์ฐจ์์ ๋ํ๋ค: ์ด ๋ถ์ผ๋ "๊ฑด์ ํ ๋ฐฉ๋ฒ๋ก ์ ๋ค์์ฑ"์ ๋ณด์ด์ง๋ง ์๋นํ ๋ถ์ฐํ๋ ๋ํ๋๋ค. ์๋ก ๋ค๋ฅธ ์ฐ๊ตฌ๋ค์ด ๋ค๋ฅธ ๋ชจ๋ธ, ๋ค๋ฅธ ํ๋ก๋น ๋ฐฉ๋ฒ, ๊ทธ๋ฆฌ๊ณ "ํต์ฌ์ ์ง์"์ ๋ํ ๋ค๋ฅธ ์ ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ๊ตฌ ๊ฐ ๋น๊ต๋ฅผ ์ด๋ ต๊ฒ ๋ง๋ ๋ค.
๋ฏธํด๊ฒฐ ๋ฌธ์ ๋ฐ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
ํํ์์ ๋ฉ์ปค๋์ฆ์ผ๋ก: ์ด ๋ถ์ผ๋ "ํต์ฌ์ ์ ๋ณด๊ฐ ์กด์ฌํ๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ๋์ด "์ฒ๋ฆฌ ๊ณผ์ ์์ ์ด๋ป๊ฒ ์ฌ์ฉ๋๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ผ๋ก ๋์๊ฐ์ผ ํ๋ค. ์ธ๊ณผ์ /๊ฐ์
์ (causal/interventional) ๋ฐฉ๋ฒ์ ์ ๋งํ์ง๋ง ๋ฐฉ๋ฒ๋ก ์ ์ผ๋ก ์ฌ์ ํ ๋์ ์ ์ด๋ค.๊ต์ฐจ์ธ์ด์ ์ ์ฉ ๋ฒ์: ํด์ ๊ฐ๋ฅ์ฑ(interpretability) ์ฐ๊ตฌ์ ๋๋ค์๋ ์์ด๋ฅผ ์ฌ์ฉํ๋ค. ํํ๋ก ์ ์ผ๋ก ํ๋ถํ ์ธ์ด๋ก ํ์ฅํ๋ฉด ํธ๋์คํฌ๋จธ๊ฐ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅธ ํํ ์ ๋ต์ ๋ฐ๋ฌ์ํค๋์ง ์ฌ๋ถ๋ฅผ ๋ฐํ ์ ์์ ๊ฒ์ด๋ค.๊ท๋ชจ ํจ๊ณผ: ๋ ํฐ ๋ชจ๋ธ์ ์ง์ ์ผ๋ก ๋ค๋ฅธ ํํ์ ๋ฐ๋ฌ์ํค๋๊ฐ, ์๋๋ฉด ๋จ์ํ ๋์ผํ ํจํด์ ๋ ์ ๋ช
ํ ๋ฒ์ ์ ๋ฐ๋ฌ์ํค๋๊ฐ? ์ด๊ธฐ ์ฆ๊ฑฐ๋ ์์ชฝ ๋ชจ๋๋ฅผ ์์ฌํ๋ค.
์ธ๊ฐ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ์ ๊ด๊ณ: ํธ๋์คํฌ๋จธ์์ ๋ํ๋๋ ํต์ฌ์ ๋ฏผ๊ฐ์ฑ์ ์ธต๋ณ ์ถํ์ ์ธ๊ฐ ๋์ ๋จ๊ณ์ ์ฒ๋ฆฌ ๋ฐฉ์๊ณผ ์์ฌ์ ์ธ ์ ์ฌ์ฑ์ ๋ณด์ธ๋ค. ์ด๋ฌํ ์ ์ฌ์ฑ์ ์ผ๋ง๋ ์ง์งํ๊ฒ ๋ฐ์๋ค์ฌ์ผ ํ๋๊ฐ?ํ๊ฐ ๋ฐฉ๋ฒ๋ก : ์ด ๋ถ์ผ์๋ ํ์คํ๋ ํ๊ฐ ํ๋กํ ์ฝ์ด ํ์ํ๋ค. Graichen et al.์ 337ํธ ๋
ผ๋ฌธ ๊ฒํ ๋ ์ผ๋ฐํ ๊ฐ๋ฅ์ฑ์ ์ ํํ๋ ์๋นํ ๋ฐฉ๋ฒ๋ก ์ ์ด์ง์ฑ์ ๋๋ฌ๋ธ๋ค.์ฐ๊ตฌ์ ๋ํ ์์ฌ์
NLP ์ฐ๊ตฌ์๋ค์๊ฒ Agarwal et al.์ ๋ฐ๊ฒฌ์ ์ค์ง์ ์ผ๋ก ์ค์ํ๋ค: ํ๋ก๋น(probing)์ ์ ์ฉํ ์ง๋จ ๋๊ตฌ์ด์ง๋ง, ๊ธฐ๋ฅ์ ์ดํด์ ๋์ผ์ํด์๋ ์ ๋๋ค. ๋ชจ๋ธ์ด ํต์ฌ๋ก ์ ์์ ์ ์ผ๋ก ์ฒ๋ฆฌํ๋์ง ์๊ณ ์ถ๋ค๋ฉด, ํ๋ ํ
์คํธ๊ฐ ๋ณด๋ค ์ง์ ์ ์ธ ์ธก์ ๋ฐฉ๋ฒ์ด๋ค.
์ด๋ก ์ธ์ดํ์๋ค์๊ฒ ํด์ ๊ฐ๋ฅ์ฑ ๋ฌธํ์ ๋ถํฌ ๋ฐ์ดํฐ๋ก๋ถํฐ ๋ฌด์์ด ํ์ต ๊ฐ๋ฅํ์ง์ ๊ดํ ์๋ก์ด ์ข
๋ฅ์ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ๋ค. ํต์ฌ์ ์ ๋ณด๊ฐ ์ค๊ฐ ์ธต์์ ์ถํํ๋ค๋ ์ผ๊ด๋ ๋ฐ๊ฒฌ์, ํต์ฌ๋ก ์ด ํ์ธต ํ์๋ณด๋ค๋ ์ถ์์ ์ด๊ณ ์๋ฏธ๋ณด๋ค๋ ๋ ์ถ์์ ์ธ ์ธ์ด ํ์์ ์ค๊ฐ ์์ค์ ์ฐจ์งํ๋ค๋ ๊ด์ ๊ณผ ์๋ฆฝ ๊ฐ๋ฅํ๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (6)
[1] Lรณpez-Otal, M., Gracia, J., & Bernad, J. (2025). Linguistic Interpretability of Transformer-based Language Models: a systematic review. arXiv:2504.08001.
[2] He, L., Chen, P., & Nie, E. (2024). Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models Using Minimal Pairs. arXiv:2403.17299.
[3] Graichen, N., de-Dios-Flores, I., & Boleda, G. (2026). The Grammar of Transformers: A Systematic Review of Interpretability Research on Syntactic Knowledge in Language Models. arXiv:2601.19926.
[4] Agarwal, A., Jian, J., & Manning, C.D. (2025). Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations. arXiv:2506.16678.
[5] Kissane, H., Schilling, A., & Krauss, P. (2025). Probing Internal Representations of Multi-Word Verbs in Large Language Models. arXiv:2502.04789.
Agarwal et al. (2025). Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations.