Trend AnalysisHistory & Area Studies
The Archival Turn in Digital Humanities: Computational Text Analysis Meets Historical Research
Digital humanities is moving beyond digitization toward computational analysis of historical sources at scale. Recent projects—from Egyptian literary magazines to CIA archives—demonstrate both the promise of computational text analysis and the interpretive challenges it raises.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
For most of its existence, digital humanities meant digitization—scanning manuscripts, building searchable databases, creating online catalogs. Important infrastructure work, but fundamentally about access. The current phase is different: computational methods are now being used not just to find documents but to analyze them—detecting patterns in language, discourse, and representation across corpora that no individual researcher could read in a lifetime. This shift from access to analysis raises new methodological questions and opens new research possibilities.
The Research Landscape
Amangazykyzy and Karlygash (2025), with 2 citations, examine how the integration of DH methods is changing the epistemological foundations of literary and historical studies. Their argument focuses on the concept of "distant reading" (Moretti's term for computational analysis of large textual corpora) and its tension with traditional close reading.
The core tension: distant reading reveals patterns that close reading cannot (distributional trends, genre evolution, thematic shifts across thousands of texts), but it does so by sacrificing the contextual sensitivity that close reading provides. A topic model can identify that "empire" and "trade" co-occur with increasing frequency in 19th-century British periodicals, but it cannot tell you what a specific author meant by "empire" in a specific essay.
Amangazykyzy et al. argue that this tension need not be a conflict. The productive approach is complementarity: use distant reading to identify patterns, then use close reading to interpret them. The computational analysis generates hypotheses; the humanistic analysis tests and contextualizes them. This is not revolutionary methodology—it is the standard scientific approach of pattern detection followed by interpretation. But it represents a shift for humanities disciplines that have traditionally relied on close reading alone.
Cultural Analytics in Practice
Mendoza (2025) surveys how DH methods are transforming the study of cultural production and reception more broadly. The paper identifies several areas where computational methods have provided insights that traditional methods could not:
- Genre evolution: Tracking how literary genres emerge, merge, and decline over time by analyzing large corpora of published texts.
- Reception patterns: Analyzing reader reviews, library circulation records, and citation patterns to understand how cultural works are received across different communities.
- Network analysis: Mapping relationships between cultural producers (authors, publishers, critics) to reveal the social structures of cultural production.
The paper also identifies persistent challenges: data bias (digitized collections overrepresent elite, Western, published culture), method transparency (many DH studies use computational tools without fully explaining their parameters and assumptions), and reproducibility (few DH studies provide code and data for replication).
A Case Study: Cultural Analytics of al-Risālah
Mohamed and Hassan (2025) provide a concrete example of what computational cultural analytics looks like in practice. Their study examines the representation of Jews in al-Risālah, a major Egyptian literary magazine published from 1933 to 1953. Using digital text analysis methods, they identify and interpret patterns of Jewish representation within the magazine's archive.
The computational analysis reveals that Jewish representation in al-Risālah was not uniformly negative or positive but varied significantly with political context—particularly the establishment of Israel in 1948, which correlates with a sharp shift in the magazine's discourse. This finding is not surprising to historians of the period, but the computational approach makes it possible to quantify the shift, identify its temporal boundaries, and distinguish between different types of discourse (cultural, political, religious) that changed at different rates.
The study integrates cultural analytics with postcolonial theory, demonstrating that computational methods can be combined with critical theoretical frameworks rather than replacing them.
AI-Assisted Archival Research
Černý, Avramov, and Mendoza (2025) push the boundary further with a multi-stage AI system for extracting information from large declassified archives. Their case study applies the system to the CIA's FOIA (Freedom of Information Act) collection related to the 1968 Prague Spring and Soviet invasion of Czechoslovakia.
The system uses agentic AI to process large volumes of unstructured archival documents—memos, cables, intelligence reports—extracting entities (people, places, organizations), relationships (who communicated with whom), and temporal sequences (what was known when). The results are then structured into a queryable knowledge graph.
The practical value is clear: the CIA's declassified collection contains thousands of documents that would take a human researcher months to process. The AI system can extract structured information in hours. But the researchers are careful to note the system's limitations: it extracts what is stated in the documents but cannot assess what is implied, omitted, or deliberately misleading—interpretive tasks that require historical expertise.
Critical Analysis: Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| Distant reading and close reading are complementary, not competing | Amangazykyzy et al.'s epistemological analysis | ✅ Supported — but practical integration remains challenging |
| DH methods reveal patterns invisible to traditional methods | Mohamed & Hassan's quantified discourse shift in al-Risālah | ✅ Supported — temporal and thematic patterns across large corpora |
| AI can accelerate archival research | Černý et al.'s FOIA processing system | ✅ Supported — for extraction tasks; interpretation remains human |
| Digitized archives are representative of cultural production | Mendoza's survey of data bias issues | ❌ Refuted — systematic biases toward elite, Western, published culture |
Open Questions and Future Directions
Multilingual and non-Latin archives: Most DH tools are designed for English and Latin-script languages. Extending them to Arabic, Chinese, Sanskrit, and other scripts with long written traditions is both technically challenging and culturally important.Interpretive authority: When a computational finding contradicts the established historiographical consensus, who adjudicates? The algorithm's pattern, or the historian's judgment?Data bias correction: If digitized archives are unrepresentative, can this bias be corrected computationally, or does it require new digitization initiatives?Reproducibility: DH research needs standardized reporting of computational parameters and access to underlying data and code.Ethics of archival AI: Some archived materials (personal letters, medical records, intelligence files) were produced with an expectation of limited readership. Does computational analysis at scale change the ethical calculus?What This Means for Your Research
For historians, computational text analysis is becoming a standard methodological component—not replacing close reading but complementing it. Learning basic DH methods (text mining, topic modeling, network analysis) is increasingly valuable.
For NLP researchers, historical corpora represent a challenging frontier: spelling variation, semantic shift, OCR errors, and non-standard formats push current models in productive ways.
Explore related work through ORAA ResearchBrain.
면책 조항: 이 게시물은 정보 제공을 목적으로 한 연구 동향 개요이다. 학술 연구에서 인용하기 전에 구체적인 연구 결과, 통계 및 주장은 원본 논문을 통해 반드시 확인해야 한다.
디지털 인문학의 아카이브적 전환: 전산 텍스트 분석과 역사 연구의 만남
디지털 인문학은 오랫동안 디지털화를 의미했다. 즉, 필사본 스캔, 검색 가능한 데이터베이스 구축, 온라인 카탈로그 제작이 그 핵심이었다. 이는 중요한 인프라 작업이었지만, 본질적으로는 접근성에 관한 것이었다. 현재의 국면은 다르다. 전산 방법론은 이제 단순히 문서를 찾는 데 그치지 않고 문서를 분석하는 데 활용되고 있다. 즉, 어떤 개별 연구자도 평생 읽을 수 없는 방대한 코퍼스에서 언어, 담론, 표상의 패턴을 탐지한다. 접근에서 분석으로의 이러한 전환은 새로운 방법론적 질문을 제기하고 새로운 연구 가능성을 열어준다.
연구 지형
인식론적 전환
Amangazykyzy와 Karlygash(2025)는 2회 인용으로, DH 방법론의 통합이 문학 및 역사 연구의 인식론적 토대를 어떻게 변화시키고 있는지를 검토한다. 이들의 논거는 "원거리 읽기(distant reading)"(대규모 텍스트 코퍼스의 전산 분석에 대한 Moretti의 용어) 개념과 전통적인 정밀 읽기(close reading) 간의 긴장에 초점을 맞춘다.
핵심적인 긴장은 다음과 같다. 원거리 읽기는 정밀 읽기가 포착할 수 없는 패턴(수천 개의 텍스트에 걸친 분포적 경향, 장르 변화, 주제적 이동)을 드러내지만, 이는 정밀 읽기가 제공하는 맥락적 민감성을 희생함으로써 가능하다. 토픽 모델은 "제국(empire)"과 "무역(trade)"이 19세기 영국 정기간행물에서 점점 더 높은 빈도로 공출현한다는 사실을 식별할 수 있지만, 특정 저자가 특정 에세이에서 "제국"이라는 단어로 무엇을 의미했는지는 말해주지 못한다.
Amangazykyzy 등은 이 긴장이 반드시 갈등일 필요는 없다고 주장한다. 생산적인 접근 방식은 상보성이다. 즉, 원거리 읽기로 패턴을 식별한 다음, 정밀 읽기로 그것을 해석하는 것이다. 전산 분석은 가설을 생성하고, 인문학적 분석은 이를 검증하고 맥락화한다. 이는 혁명적인 방법론이 아니라, 패턴 탐지 후 해석이라는 표준적인 과학적 접근 방식이다. 그러나 이는 전통적으로 정밀 읽기에만 의존해 온 인문학 분야에서는 하나의 전환을 의미한다.
실천으로서의 문화 분석학(Cultural Analytics)
Mendoza(2025)는 DH 방법론이 문화 생산과 수용 연구를 어떻게 더 광범위하게 변화시키고 있는지를 개관한다. 이 논문은 전산 방법론이 전통적인 방법으로는 얻을 수 없었던 통찰을 제공한 여러 영역을 확인한다.
- 장르 진화: 출판된 텍스트의 대규모 코퍼스를 분석하여 문학 장르가 어떻게 생성되고, 합쳐지고, 쇠퇴하는지를 추적한다.
- 수용 패턴: 독자 서평, 도서관 대출 기록, 인용 패턴을 분석하여 다양한 공동체에 걸쳐 문화적 저작물이 어떻게 수용되는지를 파악한다.
- 네트워크 분석: 문화 생산자(작가, 출판사, 비평가) 간의 관계를 매핑하여 문화 생산의 사회적 구조를 드러낸다.
이 논문은 또한 지속적인 과제들도 확인한다. 데이터 편향(디지털화된 컬렉션은 엘리트적이고 서구적이며 출판된 문화를 과대 대표한다), 방법론의 투명성(많은 DH 연구들이 전산 도구의 매개변수와 가정을 충분히 설명하지 않은 채 사용한다), 재현 가능성(복제를 위한 코드와 데이터를 제공하는 DH 연구는 거의 없다)이 그것이다.
사례 연구: al-Risālah의 문화 분석학
Mohamed와 Hassan(2025)은 전산 문화 분석학이 실제로 어떤 모습인지를 구체적인 사례를 통해 보여준다. 이들의 연구는 1933년부터 1953년까지 발행된 주요 이집트 문예지 al-Risālah에서의 유대인 표상을 검토한다. 디지털 텍스트 분석 방법을 활용하여, 이들은 해당 잡지의 아카이브에서 유대인 표상의 패턴을 식별하고 해석한다.
계산 분석 결과, al-Risālah에서 유대인의 표상은 일관되게 부정적이거나 긍정적이지 않았으며, 정치적 맥락—특히 1948년 이스라엘 건국—에 따라 크게 달라졌음이 드러났다. 이는 잡지 담론의 급격한 변화와 상관관계를 보인다. 이 발견이 해당 시기의 역사학자들에게 놀라운 것은 아니지만, 계산적 접근법을 통해 그 변화를 수치로 측정하고, 시간적 경계를 식별하며, 서로 다른 속도로 변화한 다양한 유형의 담론(문화적, 정치적, 종교적)을 구별하는 것이 가능해졌다.
이 연구는 문화 분석학과 탈식민주의 이론을 통합함으로써, 계산적 방법이 비판적 이론 틀을 대체하는 것이 아니라 이와 결합될 수 있음을 입증한다.
AI 보조 아카이브 연구
Černý, Avramov, Mendoza(2025)는 대규모 기밀 해제 아카이브에서 정보를 추출하기 위한 다단계 AI 시스템을 통해 그 경계를 더욱 확장한다. 이들의 사례 연구는 1968년 프라하의 봄과 소련의 체코슬로바키아 침공과 관련된 CIA의 FOIA(정보공개법) 컬렉션에 해당 시스템을 적용한다.
이 시스템은 에이전틱 AI(agentic AI)를 활용하여 메모, 전문(cables), 정보 보고서 등 비정형 아카이브 문서를 대량으로 처리하고, 개체(인물, 장소, 조직), 관계(누가 누구와 소통했는지), 시간적 순서(무엇이 언제 알려졌는지)를 추출한다. 추출된 결과물은 쿼리 가능한 지식 그래프로 구조화된다.
실용적 가치는 명확하다. CIA의 기밀 해제 컬렉션에는 인간 연구자가 처리하는 데 수개월이 걸릴 수천 건의 문서가 포함되어 있다. AI 시스템은 몇 시간 만에 구조화된 정보를 추출할 수 있다. 그러나 연구자들은 시스템의 한계를 명확히 지적한다. 이 시스템은 문서에 기술된 내용을 추출할 수 있지만, 함의된 내용, 누락된 내용, 의도적으로 오도하는 내용—역사적 전문성을 요구하는 해석적 과제—은 평가할 수 없다.
비판적 분석: 주장과 근거
<
| 주장 | 근거 | 판정 |
|---|
| 원거리 읽기와 근거리 읽기는 상호 보완적이며 경쟁적이지 않다 | Amangazykyzy 외의 인식론적 분석 | ✅ 지지됨 — 단, 실질적 통합은 여전히 도전적이다 |
| DH 방법론은 전통적 방법론으로는 포착할 수 없는 패턴을 드러낸다 | Mohamed & Hassan의 al-Risālah 담론 변화 수치화 | ✅ 지지됨 — 대규모 코퍼스에 걸친 시간적·주제적 패턴 |
| AI는 아카이브 연구를 가속화할 수 있다 | Černý 외의 FOIA 처리 시스템 | ✅ 지지됨 — 추출 과제에 한함; 해석은 여전히 인간의 영역 |
| 디지털화된 아카이브는 문화 생산물을 대표한다 | Mendoza의 데이터 편향 문제 조사 | ❌ 반박됨 — 엘리트, 서구, 출판 문화에 대한 체계적 편향 존재 |
미해결 과제와 향후 방향
다국어 및 비라틴 문자 아카이브: 대부분의 DH 도구는 영어 및 라틴 문자 언어를 위해 설계되어 있다. 이를 오랜 문자 전통을 가진 아랍어, 중국어, 산스크리트어 및 기타 문자로 확장하는 것은 기술적으로 도전적인 동시에 문화적으로도 중요한 과제이다.해석적 권위: 계산적 발견이 기존의 사학사적 합의와 상충될 때, 누가 이를 판단하는가? 알고리즘의 패턴인가, 아니면 역사학자의 판단인가?데이터 편향 교정: 디지털화된 아카이브가 비대표적이라면, 이 편향은 계산적으로 교정될 수 있는가, 아니면 새로운 디지털화 사업이 필요한가?재현 가능성: DH 연구는 계산 매개변수에 대한 표준화된 보고와 기반 데이터 및 코드에 대한 접근성을 필요로 한다.아카이브 AI의 윤리: 일부 아카이브 자료(개인 서신, 의료 기록, 정보 파일)는 제한된 독자를 전제로 생산되었다. 대규모의 계산적 분석은 윤리적 판단을 변화시키는가?연구에 대한 시사점
역사학자들에게 있어 전산 텍스트 분석은 표준적인 방법론적 구성 요소가 되어가고 있으며, 이는 정독(close reading)을 대체하는 것이 아니라 보완하는 것이다. 기본적인 DH 방법(텍스트 마이닝, 토픽 모델링, 네트워크 분석)을 학습하는 것은 점점 더 가치 있는 일이 되고 있다.
NLP 연구자들에게 역사 말뭉치(historical corpora)는 도전적인 개척 영역을 나타낸다. 철자 변이, 의미 변화(semantic shift), OCR 오류, 비표준 형식 등이 현재의 모델을 생산적인 방식으로 시험한다.
ORAA ResearchBrain을 통해 관련 연구를 탐색할 수 있다.
References (4)
[1] Amangazykyzy, M., Gilea, A., & Karlygash, A. (2025). Epistemological Transformation of the Paradigm of Literary Studies in the Context of the Integration of Digital Humanities Methods. Forum for Linguistic Studies, 7(4).
[2] Mendoza, G. (2025). How is Digital Humanities Transforming Our Understanding of Cultural Production and Reception?.
[3] Mohamed, E. & Hassan, S.F. (2025). Cultural Analytics and the Politics of Representation: Mapping the Jewish Presence in Egypt's al-Risālah (1933–1953). Digital Scholarship in the Humanities.
[4] Černý, J., Avramov, K., & Pendse, L.R. (2026). A multi-stage agentic AI system for extracting information from large digital archives. The Electronic Library.