Deep DiveAI & Machine Learning
Circuit Tracing: Anthropic Makes LLM Thinking Visible
Anthropic's circuit tracing produces computational graphs showing how language models transform inputs into outputs. The method reveals multi-hop reasoning pathways, poetry pre-selection mechanisms, and medical diagnosis representations inside Claude 3.5 Haiku โ a concrete step toward making black-box models legible.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Large language models produce text that is often impressive and occasionally wrong, but in both cases the process that produced the output remains opaque. We observe the input and the output; the computation in between is a black box of billions of parameters interacting across dozens of layers. Anthropic's circuit tracing work attempts to open that box โ not metaphorically, but literally, by producing computational graphs that trace how specific inputs are transformed, step by step, into specific outputs. The results do not explain everything. But they reveal enough to challenge the assumption that understanding these models is a lost cause.
The Research Landscape
The Problem: Polysemanticity and Superposition
Before circuit tracing makes sense, the obstacle it overcomes needs to be clear. Individual neurons in a language model do not represent clean concepts. A single neuron might activate for French text, discussions of cooking, and the color blue โ a phenomenon called polysemanticity. The model superimposes multiple concepts onto each neuron because it has more concepts than neurons, making it nearly impossible to trace information flow by following individual neurons. Previous interpretability work used sparse autoencoders to decompose activations into interpretable "features." Circuit tracing builds on this foundation but goes further.
The Method: Attribution Graphs via Cross-Layer Transcoders
Ameisen, Lindsey, Pearce, Gurnee, and collaborators at Anthropic introduce attribution graphs โ directed graphs where nodes represent active features, token embeddings, reconstruction errors, and output logits, while edges represent linear effects between nodes. The key methodological innovation is the use of a cross-layer transcoder โ a replacement component that substitutes for parts of the model's multi-layer perceptrons.
The cross-layer transcoder addresses polysemanticity by mapping neuron activations across layers into a more interpretable feature space. Rather than asking "what does neuron 47 in layer 12 mean?", the method asks "what interpretable features are active at this point in the computation, and how do they influence downstream features?"
The resulting attribution graph traces the chain of intermediate steps that the model uses to transform a specific input prompt into an output response. Crucially, these graphs are prompt-specific โ they show how the model processes this particular input, not how the model works in general. This is both a strength (concrete, verifiable) and a limitation (does not yield universal rules).
What the Graphs Reveal
The applied results are where circuit tracing becomes concrete. The researchers apply the method to Claude 3.5 Haiku and discover several distinct computational patterns:
Multi-hop reasoning pathways: When the model answers a question requiring multi-step inference โ for example, "What country is the capital of France in?" requires knowing that Paris is the capital of France and that Paris is in France โ the attribution graph shows distinct features activating in sequence: a "Paris-is-capital" feature feeds into a "France" feature, which feeds into the output. The hops are visible as distinct paths in the graph.
Poetry pre-selection: When generating rhyming text, the model does not simply produce words left-to-right and hope they rhyme. The attribution graph shows that features corresponding to rhyming words activate before the model has reached the position where the rhyming word will be produced. The model pre-selects the endpoint and works backward โ a form of planning that was theorized but not previously observed at this level of detail.
Medical diagnosis representations: When the model processes a clinical vignette, the attribution graph shows features that correspond to symptoms, differential diagnoses, and ruling-out logic. These features interact in patterns that resemble (but are not identical to) the clinical reasoning taught in medical schools. The model has learned something like a diagnostic process from its training data.
Anthropic has released the attribution graph tools and applied them to open-source models including Gemma-2 and Llama-3.2. This is a deliberate choice to make the method reproducible and to invite external verification. The open-sourcing matters for the field: interpretability claims are only as credible as the community's ability to replicate them.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Attribution graphs reveal interpretable computational structure in LLMs | Demonstrated on Claude 3.5 Haiku with specific examples | โ
Supported โ examples are concrete and verifiable |
| Multi-hop reasoning follows distinct sequential feature activation | Attribution graph visualization of multi-hop queries | โ
Supported โ visible in published graphs |
| Poetry generation involves pre-selection of rhyming endpoints | Feature activation timing analysis | โ
Supported โ novel finding with clear mechanism |
| The method generalizes to open-source models (Gemma-2, Llama-3.2) | Tools released and applied to these models | โ
Supported โ code available |
| Circuit tracing provides a complete account of model behavior | Not claimed; acknowledged as partial | โ ๏ธ Explicitly acknowledged as incomplete |
What Circuit Tracing Does Not Do
The method has clear limitations that the authors acknowledge. Attribution graphs are local โ they explain one computation on one input, not the model's general behavior. The cross-layer transcoder is an approximation; it may miss interactions that do not decompose cleanly into linear effects. And interpretability of individual features still relies on human judgment โ a feature labeled "Paris-is-capital" is labeled by researchers who inspected what activates it, and that labeling process is subjective.
There is also a selection effect in the published examples. The multi-hop reasoning and poetry cases are where the method works well. The publication does not quantify how often attribution graphs produce unintelligible or misleading results.
Open Questions and Future Directions
Scaling to larger models: Claude 3.5 Haiku is Anthropic's lightweight model. Can circuit tracing handle larger models where active features per prompt are far more numerous?From description to intervention: Attribution graphs describe what the model does. Can they guide targeted edits โ suppressing a specific reasoning pathway or strengthening a desired one?Automated interpretation: Currently, human researchers label features and interpret graphs. Can this process be automated, perhaps by using another LLM to annotate features?Safety applications: If circuit tracing can reveal deceptive reasoning, it could become a safety tool. But adversarial robustness of the interpretability method itself has not been tested.What This Means for Your Research
If you work on model interpretability, circuit tracing represents a methodological advance worth engaging with. The open-sourced tools on Gemma-2 and Llama-3.2 provide a concrete starting point for replication and extension.
If you work on AI safety, the gap between "we can sometimes see what the model is doing" and "we can reliably detect dangerous behavior" remains large. Circuit tracing is a step, not a solution โ but it is a concrete step with open-source tools you can start using today.
Explore related interpretability and safety research through ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ฆฌ๋ทฐ์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
Circuit Tracing: Anthropic์ด LLM์ ์ฌ๊ณ ๊ณผ์ ์ ๊ฐ์ํํ๋ค
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์ข
์ข
์ธ์์ ์ด๋ฉด์๋ ๋๋ก๋ ์ค๋ฅ๊ฐ ์๋ ํ
์คํธ๋ฅผ ์์ฑํ์ง๋ง, ๋ ๊ฒฝ์ฐ ๋ชจ๋ ์ถ๋ ฅ๋ฌผ์ ๋ง๋ค์ด๋ธ ๊ณผ์ ์ ๋ถํฌ๋ช
ํ ์ฑ๋ก ๋จ์ ์๋ค. ์ฐ๋ฆฌ๋ ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ๊ด์ฐฐํ ์ ์์ ๋ฟ, ๊ทธ ์ฌ์ด์ ์ฐ์ฐ์ ์์ญ ๊ฐ์ ๋ ์ด์ด์ ๊ฑธ์ณ ์์ญ์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๊ฐ ์ํธ์์ฉํ๋ ๋ธ๋๋ฐ์ค์ด๋ค. Anthropic์ circuit tracing ์ฐ๊ตฌ๋ ๊ทธ ๋ฐ์ค๋ฅผ ์ฌ๋ ์๋์ด๋ค โ ์์ ์ ์ผ๋ก๊ฐ ์๋๋ผ, ํน์ ์
๋ ฅ์ด ๋จ๊ณ๋ณ๋ก ํน์ ์ถ๋ ฅ์ผ๋ก ๋ณํ๋๋ ๊ณผ์ ์ ์ถ์ ํ๋ ๊ณ์ฐ ๊ทธ๋ํ๋ฅผ ์์ฑํจ์ผ๋ก์จ ๋ง ๊ทธ๋๋ก ์คํํ๋ค. ์ด ๊ฒฐ๊ณผ๋ฌผ์ด ๋ชจ๋ ๊ฒ์ ์ค๋ช
ํ์ง๋ ์๋๋ค. ๊ทธ๋ฌ๋ ์ด ๋ชจ๋ธ๋ค์ ์ดํดํ๋ ๊ฒ์ด ๋ถ๊ฐ๋ฅํ๋ค๋ ๊ฐ์ ์ ์๋ฌธ์ ์ ๊ธฐํ๊ธฐ์ ์ถฉ๋ถํ ๊ฒ๋ค์ ๋๋ฌ๋ธ๋ค.
์ฐ๊ตฌ ๋ฐฐ๊ฒฝ
๋ฌธ์ : Polysemanticity์ Superposition
Circuit tracing๋ฅผ ์ดํดํ๊ธฐ ์ ์, ๊ทธ๊ฒ์ด ๊ทน๋ณตํ๋ ค๋ ์ฅ์ ๋ฌผ์ ๋ช
ํํ ํ ํ์๊ฐ ์๋ค. ์ธ์ด ๋ชจ๋ธ์ ๊ฐ๋ณ ๋ด๋ฐ์ ๋ช
ํํ ๊ฐ๋
์ ํ์ํ์ง ์๋๋ค. ํ๋์ ๋ด๋ฐ์ ํ๋์ค์ด ํ
์คํธ, ์๋ฆฌ์ ๊ดํ ๋
ผ์, ๊ทธ๋ฆฌ๊ณ ํ๋์์ ๋ํด ํ์ฑํ๋ ์ ์๋๋ฐ, ์ด๋ฅผ polysemanticity๋ผ๊ณ ํ๋ค. ๋ชจ๋ธ์ ๋ด๋ฐ๋ณด๋ค ๋ ๋ง์ ๊ฐ๋
์ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ ์ฌ๋ฌ ๊ฐ๋
์ ๊ฐ ๋ด๋ฐ์ ์ค์ฒฉ์ํค๋ฉฐ, ์ด๋ก ์ธํด ๊ฐ๋ณ ๋ด๋ฐ์ ๋ฐ๋ผ ์ ๋ณด ํ๋ฆ์ ์ถ์ ํ๋ ๊ฒ์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํด์ง๋ค. ์ด์ ์ ํด์ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ๋ค์ sparse autoencoder๋ฅผ ์ฌ์ฉํ์ฌ ํ์ฑํ๋ฅผ ํด์ ๊ฐ๋ฅํ "feature"๋ก ๋ถํดํ์๋ค. Circuit tracing์ ์ด ํ ๋ ์์ ๊ตฌ์ถ๋์ง๋ง ํ ๊ฑธ์ ๋ ๋์๊ฐ๋ค.
๋ฐฉ๋ฒ๋ก : Cross-Layer Transcoder๋ฅผ ํตํ Attribution Graph
Anthropic์ Ameisen, Lindsey, Pearce, Gurnee ๋ฐ ๊ณต๋ ์ฐ๊ตฌ์๋ค์ attribution graph๋ฅผ ๋์
ํ๋ค โ ๋
ธ๋๊ฐ ํ์ฑ feature, ํ ํฐ ์๋ฒ ๋ฉ, ์ฌ๊ตฌ์ฑ ์ค์ฐจ, ์ถ๋ ฅ ๋ก์ง์ ๋ํ๋ด๊ณ , ์ฃ์ง๊ฐ ๋
ธ๋ ๊ฐ์ ์ ํ ํจ๊ณผ๋ฅผ ๋ํ๋ด๋ ๋ฐฉํฅ ๊ทธ๋ํ์ด๋ค. ํต์ฌ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ํ์ ์ cross-layer transcoder์ ์ฌ์ฉ์ผ๋ก, ์ด๋ ๋ชจ๋ธ์ ๋ค์ธต ํผ์
ํธ๋ก (multi-layer perceptron) ์ผ๋ถ๋ฅผ ๋์ฒดํ๋ ๊ต์ฒด ๊ตฌ์ฑ ์์์ด๋ค.
Cross-layer transcoder๋ ์ฌ๋ฌ ๋ ์ด์ด์ ๊ฑธ์น ๋ด๋ฐ ํ์ฑํ๋ฅผ ๋ณด๋ค ํด์ ๊ฐ๋ฅํ feature ๊ณต๊ฐ์ผ๋ก ๋งคํํจ์ผ๋ก์จ polysemanticity ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค. "๋ ์ด์ด 12์ ๋ด๋ฐ 47์ ๋ฌด์์ ์๋ฏธํ๋๊ฐ?"๋ผ๊ณ ๋ฌป๋ ๋์ , ์ด ๋ฐฉ๋ฒ์ "์ฐ์ฐ์ ์ด ์์ ์์ ์ด๋ค ํด์ ๊ฐ๋ฅํ feature๊ฐ ํ์ฑํ๋์ด ์์ผ๋ฉฐ, ๊ทธ๊ฒ์ด ํ์ feature์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ?"๋ผ๊ณ ๋ฌป๋๋ค.
๊ฒฐ๊ณผ๋ก ๋์ถ๋ attribution graph๋ ๋ชจ๋ธ์ด ํน์ ์
๋ ฅ ํ๋กฌํํธ๋ฅผ ์ถ๋ ฅ ์๋ต์ผ๋ก ๋ณํํ๋ ๋ฐ ์ฌ์ฉํ๋ ์ค๊ฐ ๋จ๊ณ๋ค์ ์ฐ์๋ฅผ ์ถ์ ํ๋ค. ์ค์ํ ๊ฒ์, ์ด ๊ทธ๋ํ๋ค์ด ํ๋กฌํํธ๋ณ๋ก ํน์ ํ๋ค๋ ์ ์ด๋ค โ ์ด๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ผ๋ก ์ด๋ป๊ฒ ์๋ํ๋์ง๊ฐ ์๋๋ผ, ์ด ํน์ ์
๋ ฅ์ ๋ชจ๋ธ์ด ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. ์ด๋ ๊ฐ์ (๊ตฌ์ฒด์ ์ด๊ณ ๊ฒ์ฆ ๊ฐ๋ฅํ๋ค)์ธ ๋์์ ํ๊ณ(๋ณดํธ์ ์ธ ๊ท์น์ ๋์ถํ์ง ๋ชปํ๋ค)์ด๊ธฐ๋ ํ๋ค.
๊ทธ๋ํ๊ฐ ๋๋ฌ๋ด๋ ๊ฒ
์์ฉ ๊ฒฐ๊ณผ๋ circuit tracing์ด ๊ตฌ์ฒด์ ์ผ๋ก ์คํ๋๋ ์ง์ ์ด๋ค. ์ฐ๊ตฌ์๋ค์ Claude 3.5 Haiku์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํ์ฌ ๋ช ๊ฐ์ง ๋๋ ทํ ๊ณ์ฐ ํจํด์ ๋ฐ๊ฒฌํ๋ค:
Multi-hop ์ถ๋ก ๊ฒฝ๋ก: ๋ชจ๋ธ์ด ๋ค๋จ๊ณ ์ถ๋ก ์ ์๊ตฌํ๋ ์ง๋ฌธ์ ๋ตํ ๋ โ ์๋ฅผ ๋ค์ด, "ํ๋์ค์ ์๋๋ ์ด๋ ๋๋ผ์ ์๋๊ฐ?"๋ผ๋ ์ง๋ฌธ์ ํ๋ฆฌ๊ฐ ํ๋์ค์ ์๋์ด๊ณ ํ๋ฆฌ๊ฐ ํ๋์ค์ ์๋ค๋ ๊ฒ์ ์์์ผ ํ๋ค โ attribution graph๋ ์์๋๋ก ํ์ฑํ๋๋ ๋๋ ทํ feature๋ค์ ๋ณด์ฌ์ค๋ค: "ํ๋ฆฌ-๋-์๋์ด๋ค" feature๊ฐ "ํ๋์ค" feature๋ก ์ด์ด์ง๊ณ , ์ด๊ฒ์ด ์ถ๋ ฅ์ผ๋ก ์ด์ด์ง๋ค. ๊ฐ hop์ ๊ทธ๋ํ์์ ๋๋ ทํ ๊ฒฝ๋ก๋ก ๊ฐ์ํ๋๋ค.
์ ์ฐฝ์ ์์ ์ฌ์ ์ ํ: ์ด์จ์ด ์๋ ํ
์คํธ๋ฅผ ์์ฑํ ๋, ๋ชจ๋ธ์ ๋จ์ํ ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ๋จ์ด๋ฅผ ์์ฑํ๋ฉด์ ์ด์จ์ด ๋ง๊ธฐ๋ฅผ ๊ธฐ๋ํ์ง ์๋๋ค. Attribution graph๋ ์ด์จ์ ๋ง์ถ๋ ๋จ์ด์ ํด๋นํ๋ feature๋ค์ด ๋ชจ๋ธ์ด ํด๋น ์ด์จ ๋จ์ด๋ฅผ ์์ฑํ ์์น์ ๋๋ฌํ๊ธฐ ์ด์ ์ ํ์ฑํ๋๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ชจ๋ธ์ ์ข
์ฐฉ์ ์ ๋ฏธ๋ฆฌ ์ ํํ๊ณ ์ญ๋ฐฉํฅ์ผ๋ก ์์
ํ๋ค โ ์ด๋ก ์ ์ผ๋ก๋ ์ ์๋์์ง๋ง ์ด ์์ค์ ์ธ๋ถ ์ฌํญ์์ ์ด์ ์๋ ๊ด์ฐฐ๋์ง ์์๋ ์ผ์ข
์ ๊ณํ์ด๋ค.
์๋ฃ ์ง๋จ ํํ: ๋ชจ๋ธ์ด ์์ ์ฆ๋ก๋ฅผ ์ฒ๋ฆฌํ ๋, ๊ท์ธ ๊ทธ๋ํ๋ ์ฆ์, ๊ฐ๋ณ ์ง๋จ, ๋ฐฐ์ ๋
ผ๋ฆฌ์ ํด๋นํ๋ ํน์ง๋ค์ ๋ํ๋ธ๋ค. ์ด๋ฌํ ํน์ง๋ค์ ์๊ณผ๋ํ์์ ๊ฐ๋ฅด์น๋ ์์ ์ถ๋ก ๊ณผ ์ ์ฌํ์ง๋ง ๋์ผํ์ง๋ ์์ ํจํด์ผ๋ก ์ํธ์์ฉํ๋ค. ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ง๋จ ๊ณผ์ ๊ณผ ์ ์ฌํ ๋ฌด์ธ๊ฐ๋ฅผ ํ์ตํ ๊ฒ์ด๋ค.
์คํ์์ค ๋๊ตฌ
Anthropic์ ๊ท์ธ ๊ทธ๋ํ ๋๊ตฌ๋ฅผ ๊ณต๊ฐํ๊ณ Gemma-2 ๋ฐ Llama-3.2๋ฅผ ํฌํจํ ์คํ์์ค ๋ชจ๋ธ์ ์ ์ฉํ์๋ค. ์ด๋ ํด๋น ๋ฐฉ๋ฒ๋ก ์ ์ฌํ ๊ฐ๋ฅ์ฑ์ ํ๋ณดํ๊ณ ์ธ๋ถ ๊ฒ์ฆ์ ์ ๋ํ๊ธฐ ์ํ ์๋์ ์ธ ์ ํ์ด๋ค. ์คํ์์คํ๋ ์ด ๋ถ์ผ์ ์์ด ์ค์ํ ์๋ฏธ๋ฅผ ์ง๋๋ค. ํด์ ๊ฐ๋ฅ์ฑ์ ๊ดํ ์ฃผ์ฅ์ ์ปค๋ฎค๋ํฐ๊ฐ ์ด๋ฅผ ์ฌํํ ์ ์๋ ๋ฅ๋ ฅ๋งํผ๋ง ์ ๋ขฐ๋ฅผ ๊ฐ์ง ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
๋นํ์ ๋ถ์: ์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| ๊ท์ธ ๊ทธ๋ํ๋ LLM ๋ด์ ํด์ ๊ฐ๋ฅํ ๊ณ์ฐ ๊ตฌ์กฐ๋ฅผ ๋๋ฌ๋ธ๋ค | ๊ตฌ์ฒด์ ์ธ ์ฌ๋ก์ ํจ๊ป Claude 3.5 Haiku์์ ์ค์ฆ๋จ | โ
์ง์ง๋จ โ ์ฌ๋ก๊ฐ ๊ตฌ์ฒด์ ์ด๊ณ ๊ฒ์ฆ ๊ฐ๋ฅํจ |
| ๋ค์ค ํ ์ถ๋ก ์ ๋๋ ทํ ์์ฐจ์ ํน์ง ํ์ฑํ๋ฅผ ๋ฐ๋ฅธ๋ค | ๋ค์ค ํ ์ฟผ๋ฆฌ์ ๊ท์ธ ๊ทธ๋ํ ์๊ฐํ | โ
์ง์ง๋จ โ ๊ณต๊ฐ๋ ๊ทธ๋ํ์์ ํ์ธ ๊ฐ๋ฅํจ |
| ์ ์์ฑ์ ์ด์จ ๋ง๋ ์ข
๊ฒฐ๋ถ์ ์ฌ์ ์ ํ์ ์๋ฐํ๋ค | ํน์ง ํ์ฑํ ํ์ด๋ฐ ๋ถ์ | โ
์ง์ง๋จ โ ๋ช
ํํ ๋ฉ์ปค๋์ฆ์ ๊ฐ์ถ ์๋ก์ด ๋ฐ๊ฒฌ |
| ํด๋น ๋ฐฉ๋ฒ๋ก ์ ์คํ์์ค ๋ชจ๋ธ(Gemma-2, Llama-3.2)์๋ ์ผ๋ฐํ๋๋ค | ๋๊ตฌ๊ฐ ๊ณต๊ฐ๋์ด ํด๋น ๋ชจ๋ธ์ ์ ์ฉ๋จ | โ
์ง์ง๋จ โ ์ฝ๋ ์ด์ฉ ๊ฐ๋ฅ |
| ํ๋ก ์ถ์ ์ ๋ชจ๋ธ ํ๋์ ๋ํ ์์ ํ ์ค๋ช
์ ์ ๊ณตํ๋ค | ์ฃผ์ฅ๋ ๋ฐ ์์ผ๋ฉฐ, ๋ถ๋ถ์ ์์ ์ธ์ ํจ | โ ๏ธ ๋ถ์์ ํจ์ ๋ช
์์ ์ผ๋ก ์ธ์ ํจ |
ํ๋ก ์ถ์ ์ด ํ์ง ๋ชปํ๋ ๊ฒ
์ด ๋ฐฉ๋ฒ๋ก ์๋ ์ ์๋ค์ด ์ธ์ ํ๋ ๋ช
ํํ ํ๊ณ๊ฐ ์๋ค. ๊ท์ธ ๊ทธ๋ํ๋ ๊ตญ์์ ์ด๋ค. ์ฆ, ํ๋์ ์
๋ ฅ์ ๋ํ ํ๋์ ๊ณ์ฐ์ ์ค๋ช
ํ ๋ฟ, ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ ํ๋์ ์ค๋ช
ํ์ง๋ ์๋๋ค. ๊ต์ฐจ ์ธต ํธ๋์ค์ฝ๋๋ ๊ทผ์ฌ์น์ด๋ฏ๋ก, ์ ํ ํจ๊ณผ๋ก ๊น๋ํ๊ฒ ๋ถํด๋์ง ์๋ ์ํธ์์ฉ์ ๋์น ์ ์๋ค. ๋ํ ๊ฐ๋ณ ํน์ง์ ํด์ ๊ฐ๋ฅ์ฑ์ ์ฌ์ ํ ์ธ๊ฐ์ ํ๋จ์ ์์กดํ๋ค. "ํ๋ฆฌ๋ ์๋์ด๋ค(Paris-is-capital)"๋ก ๋ ์ด๋ธ์ด ๋ถ์ ํน์ง์ ํด๋น ํน์ง์ ํ์ฑํ์ํค๋ ๊ฒ์ ์กฐ์ฌํ ์ฐ๊ตฌ์๋ค์ด ๋ ์ด๋ธ์ ๋ถ์ธ ๊ฒ์ด๋ฉฐ, ์ด ๋ ์ด๋ธ๋ง ๊ณผ์ ์ ์ฃผ๊ด์ ์ด๋ค.
๋ํ ๊ณต๊ฐ๋ ์ฌ๋ก๋ค์๋ ์ ํ ํธํฅ์ด ์กด์ฌํ๋ค. ๋ค์ค ํ ์ถ๋ก ๊ณผ ์ ์์ฑ ์ฌ๋ก๋ ์ด ๋ฐฉ๋ฒ๋ก ์ด ์ ์๋ํ๋ ๊ฒฝ์ฐ์ด๋ค. ํด๋น ๋
ผ๋ฌธ์ ๊ท์ธ ๊ทธ๋ํ๊ฐ ์ผ๋ง๋ ์์ฃผ ์ดํดํ๊ธฐ ์ด๋ ต๊ฑฐ๋ ์คํด๋ฅผ ์ ๋ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋์ง์ ๋ํด์๋ ์์นํํ์ง ์๋๋ค.
๋ฏธํด๊ฒฐ ๊ณผ์ ๋ฐ ํฅํ ๋ฐฉํฅ
๋ ํฐ ๋ชจ๋ธ๋ก์ ํ์ฅ: Claude 3.5 Haiku๋ Anthropic์ ๊ฒฝ๋ ๋ชจ๋ธ์ด๋ค. ํ๋กฌํํธ๋น ํ์ฑํ ํน์ง ์๊ฐ ํจ์ฌ ๋ง์ ๋ ํฐ ๋ชจ๋ธ์์๋ ํ๋ก ์ถ์ ์ด ๊ฐ๋ฅํ ๊ฒ์ธ๊ฐ?๊ธฐ์ ์์ ๊ฐ์
์ผ๋ก: ๊ท์ธ ๊ทธ๋ํ๋ ๋ชจ๋ธ์ด ๋ฌด์์ ํ๋์ง ๊ธฐ์ ํ๋ค. ์ด๋ฅผ ํตํด ํน์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ต์ ํ๊ฑฐ๋ ์ํ๋ ๊ฒฝ๋ก๋ฅผ ๊ฐํํ๋ ๋ฑ์ ํ์ ํธ์ง์ ์๋ดํ ์ ์๋๊ฐ?์๋ํ๋ ํด์: ํ์ฌ ์ธ๊ฐ ์ฐ๊ตฌ์๋ค์ด ํน์ง์ ๋ ์ด๋ธ์ ๋ถ์ด๊ณ ๊ทธ๋ํ๋ฅผ ํด์ํ๋ค. ์๋ฅผ ๋ค์ด ๋ค๋ฅธ LLM์ ์ฌ์ฉํ์ฌ ํน์ง์ ์ฃผ์์ ๋ค๋ ๋ฐฉ์์ผ๋ก ์ด ๊ณผ์ ์ ์๋ํํ ์ ์๋๊ฐ?์์ ์ฑ ์์ฉ: ํ๋ก ์ถ์ ์ด ๊ธฐ๋ง์ ์ถ๋ก ์ ๋๋ฌ๋ผ ์ ์๋ค๋ฉด ์์ ์ฑ ๋๊ตฌ๊ฐ ๋ ์ ์๋ค. ๊ทธ๋ฌ๋ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐฉ๋ฒ๋ก ์์ฒด์ ์ ๋์ ๊ฒฌ๊ณ ์ฑ์ ์์ง ๊ฒ์ฆ๋์ง ์์๋ค.์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
๋ชจ๋ธ ํด์ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ๋ฅผ ์ํํ๋ค๋ฉด, ํ๋ก ์ถ์ ์ ์ ๊ทน์ ์ผ๋ก ๋ค๋ฃฐ ๋งํ ๋ฐฉ๋ฒ๋ก ์ ์ง์ ์ ๋ํ๋ธ๋ค. Gemma-2 ๋ฐ Llama-3.2์ ๋ํ ์คํ์์ค ๋๊ตฌ๋ ์ฌํ ๋ฐ ํ์ฅ์ ์ํ ๊ตฌ์ฒด์ ์ธ ์ถ๋ฐ์ ์ ์ ๊ณตํ๋ค.
AI ์์ ์ฑ ์ฐ๊ตฌ๋ฅผ ์ํํ๋ค๋ฉด, "๋ชจ๋ธ์ด ๋ฌด์์ ํ๋์ง ๋๋ก ํ์
ํ ์ ์๋ค"์ "์ํํ ํ๋์ ์ ๋ขฐํ ์ ์๊ฒ ํ์งํ ์ ์๋ค" ์ฌ์ด์ ๊ฐ๊ทน์ ์ฌ์ ํ ํฌ๋ค. ํ๋ก ์ถ์ ์ ํด๊ฒฐ์ฑ
์ด ์๋ ํ๋์ ๋ฐ๊ฑธ์์ด๋ค. ๊ทธ๋ฌ๋ ์ค๋ ๋น์ฅ ์ฌ์ฉ์ ์์ํ ์ ์๋ ์คํ์์ค ๋๊ตฌ๋ฅผ ๊ฐ์ถ ๊ตฌ์ฒด์ ์ธ ๋ฐ๊ฑธ์์ด๋ค.
ORAA ResearchBrain์ ํตํด ๊ด๋ จ ํด์ ๊ฐ๋ฅ์ฑ ๋ฐ ์์ ์ฑ ์ฐ๊ตฌ๋ฅผ ์ดํด๋ณด๋ผ.
References (1)
[1] Ameisen, E., Lindsey, J., Pearce, A., Gurnee, W. et al. (2025). Circuit Tracing: Revealing Computational Graphs in Language Models. Anthropic, transformer-circuits.pub. https://transformer-circuits.pub/2025/attribution-graphs/methods.html.