Trend AnalysisHistory & Area Studies
Medieval Manuscript Digitization and AI Transcription: Unlocking Centuries of Hidden Text
Europe's libraries and archives hold millions of medieval and early modern manuscripts that have never been transcribed, much less analyzed. These documents, ranging from monastic chronicles and tax r...
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Why It Matters
Europe's libraries and archives hold millions of medieval and early modern manuscripts that have never been transcribed, much less analyzed. These documents, ranging from monastic chronicles and tax records to personal letters and scientific treatises, contain vast stores of untapped historical knowledge. For centuries, reading them required years of paleographic training: the ability to decipher handwriting styles that changed across periods, regions, and scribal schools.
Handwritten text recognition (HTR), powered by deep learning, is now making it possible to transcribe these manuscripts at industrial scale. Platforms like Transkribus and models like TrOCR are achieving accuracy rates above 95% on trained script types, transforming what was once a bottleneck measured in scholar-years into a process measured in GPU-hours. The implications are transformative: entire corpora that were accessible only to a handful of specialists are becoming searchable text databases.
Yet challenges remain. Damaged manuscripts, mixed scripts, marginalia, abbreviations, and non-standard orthography all push current models to their limits. The field is advancing rapidly, but the gap between what AI can transcribe and what historians need to understand remains significant.
The Science
Automated Medieval Transcription
Matos et al. (2025) developed iForal, a modular three-stage system for automated transcription of Portuguese medieval manuscripts. The pipeline uses YOLOv8 for layout detection, Mask R-CNN for text line segmentation, and CRNN-based engines (Kraken/Calamari) for character recognition. With 3 citations, the system achieves a best character error rate (CER) of 8.1%, demonstrating the feasibility of specialized HTR for historical scripts where general-purpose OCR is inapplicable due to the complexity of medieval handwriting.
Scale and Access
Matos et al. (2025), with 10 citations, surveyed the broader implications of HTR for information access, arguing that the technology is creating a paradigm shift comparable to the original digitization wave of the 2000s. They warn that uneven access to HTR tools and training data risks creating a "two-speed" digital humanities where well-resourced institutions race ahead while smaller archives fall further behind.
Nockels, Gooding, and Terras (2024) applied TrOCR, a transformer-based model, to historical handwritten text recognition, demonstrating state-of-the-art performance on archival documents. The study shows that pre-trained vision-language transformers can be fine-tuned with relatively small amounts of manually transcribed ground truth, dramatically reducing the startup cost for new manuscript collections.
Meoded (2025) experimented with HTR transcription of the Memoriali series, a collection of Bolognese notarial records spanning 1265-1452. Their innovation was to integrate named entity tagging directly into the transcription pipeline, producing not just text but structured metadata (persons, places, dates) ready for database import, bridging the gap between raw transcription and historical analysis.
HTR Technology Comparison
<
| Technology | Architecture | Strengths | Limitations | Training Data Need |
|---|
| Transkribus | CNN + LSTM | Mature platform, community models | Subscription cost, training overhead | Medium (50-100 pages) |
| TrOCR | Vision Transformer | Pre-trained, adaptable | Compute-intensive fine-tuning | Low (10-50 pages) |
| Kraken/eScriptorium | Open-source CNN | Free, customizable | Less polished UX | Medium |
| Google Cloud Vision | Commercial API | Easy integration | Poor on historical scripts | None (pre-trained) |
| Custom CNN+CTC | Task-specific | Maximum flexibility | Requires ML expertise | High (100+ pages) |
What To Watch
The convergence of HTR with large language models is the next frontier. Instead of recognizing characters independently, future systems will use LLM-powered language models to resolve ambiguities in damaged or poorly written text by predicting likely words from context, essentially reading as a trained paleographer does. Expect 2026 to bring the first large-scale "digital editions" produced primarily by AI, with human scholars shifting from transcribers to editors and validators. Multilingual and multi-script models that can handle code-switching between Latin, vernacular, and Greek within a single manuscript page are also on the horizon.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ, ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ๊ณผ ๋์กฐํ์ฌ ๊ฒ์ฆํด์ผ ํ๋ค.
์ ์ค์ํ๊ฐ
์ ๋ฝ์ ๋์๊ด๊ณผ ๊ธฐ๋ก๊ด์๋ ์ ์ฌ๋ ์ ์ด ์๋, ๋์ฑ์ด ๋ถ์๋ ์ ์ ๋์ฑ ์๋ ์๋ฐฑ๋ง ์ ์ ์ค์ธ ๋ฐ ๊ทผ์ธ ํ์ฌ๋ณธ์ด ๋ณด๊ด๋์ด ์๋ค. ์๋์ ์ฐ๋๊ธฐ์ ์ธ๊ธ ๊ธฐ๋ก์์ ๊ฐ์ธ ์ํ๊ณผ ๊ณผํ ๋
ผ๋ฌธ์ ์ด๋ฅด๊ธฐ๊น์ง ์ด ๋ฌธ์๋ค์๋ ํ์ฉ๋์ง ์์ ๋ฐฉ๋ํ ์ญ์ฌ์ ์ง์์ด ๋ด๊ฒจ ์๋ค. ์ ์ธ๊ธฐ ๋์ ์ด ๋ฌธ์๋ค์ ์ฝ๊ธฐ ์ํด์๋ ์๋
๊ฐ์ ๊ณ ๋ฌธ์ํ ํ๋ จ์ด ํ์ํ๋ค. ์ฆ, ์๋, ์ง์ญ, ํ๊ฒฝ์ฌ ํํ์ ๋ฐ๋ผ ๋ณํํ๋ ํ์ฒด ์์์ ํด๋
ํ๋ ๋ฅ๋ ฅ์ด ์๊ตฌ๋์๋ค.
๋ฅ๋ฌ๋ ๊ธฐ๋ฐ์ ํ๊ธฐ ํ
์คํธ ์ธ์(HTR)์ ์ด์ ์ด๋ฌํ ํ์ฌ๋ณธ์ ์ฐ์
์ ๊ท๋ชจ๋ก ์ ์ฌํ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ณ ์๋ค. Transkribus์ ๊ฐ์ ํ๋ซํผ๊ณผ TrOCR๊ณผ ๊ฐ์ ๋ชจ๋ธ์ ํ๋ จ๋ ํ์ฒด ์ ํ์์ 95% ์ด์์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ ์์ผ๋ฉฐ, ์ด๋ ๊ณผ๊ฑฐ ํ์์ ์๋
์น ์์
๋์ผ๋ก ์ธก์ ๋๋ ๋ณ๋ชฉ ํ์์ GPU ์ฌ์ฉ ์๊ฐ์ผ๋ก ์ธก์ ๋๋ ํ๋ก์ธ์ค๋ก ์ ํํ๊ณ ์๋ค. ๊ทธ ํจ์๋ ํ์ ์ ์ด๋ค. ์์์ ์ ๋ฌธ๊ฐ๋ง ์ ๊ทผํ ์ ์์๋ ์ ์ฒด ์ฝํผ์ค๊ฐ ๊ฒ์ ๊ฐ๋ฅํ ํ
์คํธ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ก ์ ํ๋๊ณ ์๋ค.
๊ทธ๋ฌ๋ ์ฌ์ ํ ๊ณผ์ ๊ฐ ๋จ์ ์๋ค. ํผ์๋ ํ์ฌ๋ณธ, ํผํฉ ํ์ฒด, ๋ฐฉ์ฃผ(marginalia), ์ฝ์ด, ๋นํ์ค ์ ์๋ฒ์ ๋ชจ๋ ํ์ฌ ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ์ํํ๋ค. ์ด ๋ถ์ผ๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ง๋ง, AI๊ฐ ์ ์ฌํ ์ ์๋ ๊ฒ๊ณผ ์ญ์ฌ๊ฐ๋ค์ด ์ดํดํด์ผ ํ๋ ๊ฒ ์ฌ์ด์ ๊ฐ๊ทน์ ์ฌ์ ํ ํฌ๋ค.
๊ณผํ์ ๋ด์ฉ
์ค์ธ ํ์ฌ๋ณธ ์๋ ์ ์ฌ
Matos et al. (2025)์ ํฌ๋ฅดํฌ๊ฐ ์ค์ธ ํ์ฌ๋ณธ์ ์๋ ์ ์ฌ๋ฅผ ์ํ ๋ชจ๋ํ 3๋จ๊ณ ์์คํ
์ธ iForal์ ๊ฐ๋ฐํ์๋ค. ์ด ํ์ดํ๋ผ์ธ์ ๋ ์ด์์ ๊ฐ์ง์ YOLOv8, ํ
์คํธ ์ค ๋ถํ ์ Mask R-CNN, ๋ฌธ์ ์ธ์์ CRNN ๊ธฐ๋ฐ ์์ง(Kraken/Calamari)์ ์ฌ์ฉํ๋ค. 3ํ ์ธ์ฉ๋ ์ด ์์คํ
์ ์ต์ ๋ฌธ์ ์ค๋ฅ์จ(CER) 8.1%๋ฅผ ๋ฌ์ฑํ๋ฉฐ, ์ค์ธ ํ๊ธฐ์ ๋ณต์ก์ฑ์ผ๋ก ์ธํด ๋ฒ์ฉ OCR์ ์ ์ฉํ ์ ์๋ ์ญ์ฌ์ ํ์ฒด์ ๋ํ ํนํ๋ HTR์ ์คํ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ์๋ค.
๊ท๋ชจ์ ์ ๊ทผ์ฑ
10ํ ์ธ์ฉ๋ Matos et al. (2025)์ ์ ๋ณด ์ ๊ทผ์ฑ์ ๋ํ HTR์ ๊ด๋ฒ์ํ ํจ์๋ฅผ ์กฐ์ฌํ์์ผ๋ฉฐ, ์ด ๊ธฐ์ ์ด 2000๋
๋์ ์ต์ด ๋์งํธํ ๋ฌผ๊ฒฐ์ ๋น๊ฒฌ๋๋ ํจ๋ฌ๋ค์ ์ ํ์ ์ผ์ผํค๊ณ ์๋ค๊ณ ์ฃผ์ฅํ์๋ค. ์ด๋ค์ HTR ๋๊ตฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ๋ํ ๋ถ๊ท ๋ฑํ ์ ๊ทผ์ด ์์์ด ํ๋ถํ ๊ธฐ๊ด์ ์์ ๋๊ฐ๊ณ ์๊ท๋ชจ ๊ธฐ๋ก๊ด์ ๋์ฑ ๋ค์ฒ์ง๋ "์ด์ค ์๋"์ ๋์งํธ ์ธ๋ฌธํ์ ๋ง๋ค ์ํ์ด ์๋ค๊ณ ๊ฒฝ๊ณ ํ์๋ค.
ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ HTR
Nockels, Gooding, Terras (2024)๋ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ TrOCR์ ์ญ์ฌ์ ํ๊ธฐ ํ
์คํธ ์ธ์์ ์ ์ฉํ์ฌ ๊ธฐ๋ก ๋ฌธ์์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ์์ฐํ์๋ค. ์ด ์ฐ๊ตฌ๋ ์ฌ์ ํ๋ จ๋ ๋น์ -์ธ์ด ํธ๋์คํฌ๋จธ๊ฐ ๋น๊ต์ ์๋์ ์๋ ์ ์ฌ ์ ๋ต ๋ฐ์ดํฐ๋ง์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋ ์ ์์์ ๋ณด์ฌ ์ฃผ๋ฉฐ, ์๋ก์ด ํ์ฌ๋ณธ ์ปฌ๋ ์
์ ์ด๊ธฐ ๊ตฌ์ถ ๋น์ฉ์ ํ๊ธฐ์ ์ผ๋ก ์ค์๋ค.
๋ฉํ๋ฐ์ดํฐ ํ๋ถ ์ ์ฌ
Meoded (2025)๋ 1265๋
๋ถํฐ 1452๋
๊น์ง์ ๋ณผ๋ก๋ ๊ณต์ฆ ๊ธฐ๋ก ์ปฌ๋ ์
์ธ Memoriali ์๋ฆฌ์ฆ์ HTR ์ ์ฌ๋ฅผ ์คํํ์๋ค. ์ด๋ค์ ํ์ ์ ๊ฐ์ฒด๋ช
ํ๊น
์ ์ ์ฌ ํ์ดํ๋ผ์ธ์ ์ง์ ํตํฉํ์ฌ ๋จ์ํ ํ
์คํธ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์
๋ ฅ์ ๋ฐ๋ก ํ์ฉ ๊ฐ๋ฅํ ๊ตฌ์กฐํ๋ ๋ฉํ๋ฐ์ดํฐ(์ธ๋ฌผ, ์ฅ์, ๋ ์ง)๋ฅผ ์์ฑํจ์ผ๋ก์จ, ์์ ์ ์ฌ์ ์ญ์ฌ ๋ถ์ ์ฌ์ด์ ๊ฐ๊ทน์ ์ขํ๋ค๋ ์ ์ด๋ค.
HTR ๊ธฐ์ ๋น๊ต
<
| ๊ธฐ์ | ์ํคํ
์ฒ | ๊ฐ์ | ํ๊ณ | ํ๋ จ ๋ฐ์ดํฐ ํ์๋ |
|---|
| Transkribus | CNN + LSTM | ์ฑ์ํ ํ๋ซํผ, ์ปค๋ฎค๋ํฐ ๋ชจ๋ธ | ๊ตฌ๋
๋น์ฉ, ํ๋ จ ๋ถ๋ด | ์ค๊ฐ (50-100ํ์ด์ง) |
| TrOCR | Vision Transformer | ์ฌ์ ํ๋ จ๋จ, ์ ์์ฑ ์ฐ์ | ๋ฏธ์ธ ์กฐ์ ์ ๋์ ์ฐ์ฐ ์๊ตฌ | ๋ฎ์ (10-50ํ์ด์ง) |
| Kraken/eScriptorium | ์คํ์์ค CNN | ๋ฌด๋ฃ, ์ปค์คํฐ๋ง์ด์ง ๊ฐ๋ฅ | ์ฌ์ฉ์ ๊ฒฝํ ๋ค์ ๋ฏธํก | ์ค๊ฐ |
| Google Cloud Vision | ์์
์ฉ API | ์ฌ์ด ํตํฉ | ์ญ์ฌ์ ํ์ฌ๋ณธ์ ์ทจ์ฝ | ์์ (์ฌ์ ํ์ต๋จ) |
| Custom CNN+CTC | ๊ณผ์ ํนํํ | ์ต๋ ์ ์ฐ์ฑ | ML ์ ๋ฌธ ์ง์ ํ์ | ๋์ (100ํ์ด์ง ์ด์) |
์ฃผ๋ชฉํ ๋ํฅ
HTR๊ณผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ตํฉ์ด ๋ค์ ํ๋ก ํฐ์ด์ด๋ค. ๋ฏธ๋์ ์์คํ
์ ๋ฌธ์๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก ์ธ์ํ๋ ๋ฐฉ์ ๋์ , LLM ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์์๋๊ฑฐ๋ ํ์ฒด๊ฐ ๋ถ๋ถ๋ช
ํ ํ
์คํธ์ ๋ชจํธ์ฑ์ ๋ฌธ๋งฅ์ผ๋ก๋ถํฐ ์ ๋ ฅํ ๋จ์ด๋ฅผ ์์ธกํจ์ผ๋ก์จ ํด์ํ ๊ฒ์ด๋ฉฐ, ์ด๋ ๋ณธ์ง์ ์ผ๋ก ํ๋ จ๋ ๊ณ ๋ฌธ์ํ์(paleographer)๊ฐ ์ฝ๋ ๋ฐฉ์๊ณผ ๋์ผํ๋ค. 2026๋
์๋ ์ฃผ๋ก AI๊ฐ ์์ฑํ ์ต์ด์ ๋๊ท๋ชจ "๋์งํธ ํธ์ง๋ณธ(digital editions)"์ด ๋ฑ์ฅํ๊ณ , ์ธ๋ฌธํ ์ฐ๊ตฌ์๋ค์ ์ ์ฌ์(transcriber)์์ ํธ์ง์ ๋ฐ ๊ฒ์ฆ์๋ก ์ญํ ์ด ์ ํ๋ ๊ฒ์ผ๋ก ์์๋๋ค. ๋จ์ผ ํ์ฌ๋ณธ ํ์ด์ง ๋ด์์ ๋ผํด์ด, ์๊ตญ์ด, ๊ทธ๋ฆฌ์ค์ด ๊ฐ์ ์ฝ๋ ์ ํ(code-switching)์ ์ฒ๋ฆฌํ ์ ์๋ ๋ค๊ตญ์ดยท๋ค๋ฌธ์ ๋ชจ๋ธ ๋ํ ๊ฐ์๊ถ์ ๋ค์ด์ค๊ณ ์๋ค.
References (4)
Matos, A., Almeida, P., Correia, P., & Pacheco, O. (2025). iForal: Automated Handwritten Text Transcription for Historical Medieval Manuscripts. Journal of Imaging, 11(2), 36.
Nockels, J., Gooding, P., & Terras, M. (2024). The implications of handwritten text recognition for accessing theย past at scale. Journal of Documentation, 80(7), 148-167.
Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models.
Loss, E., Guernaccini, F., & Carassai, M. (2025). From Manuscript to Metadata: experiments on Handwritten Text Recognition, Tagging and Importation for the Memoriali series (1265-1452). JLIS.it, 16(2), 59-85.