Trend AnalysisLinguistics & NLP
Corpus Linguistics and Big Data: Uncovering Language Patterns at Scale
Corpus linguistics has evolved from analyzing kilobytes of text to processing terabytes. New tools for annotation, visualization, and pattern discovery are transforming how we study language at scale.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Corpus linguistics, the empirical study of language through large collections of naturally occurring text, has been transformed by the big data revolution. Where early corpus linguists worked with carefully curated collections of a million words, today's researchers have access to web-scraped corpora containing billions of words, social media archives capturing language in real time, and digitized historical archives spanning centuries. This scale shift is not merely quantitative: it enables qualitative changes in what corpus linguistics can investigate. Patterns that are invisible in small samples, rare constructions, subtle frequency differences across registers, long-term diachronic trends, become visible at scale. But scale also introduces challenges: noise, representativeness, annotation quality, and the sheer computational demands of processing massive text collections.
Why It Matters
Language is the most pervasive form of human data. Every email, social media post, legal document, medical record, and literary work is a sample of language that encodes information about the communicator, the context, and the culture. Corpus linguistics provides the methods to extract this information systematically. In the era of big data, these methods are applied not only by linguists but by researchers in public health (tracking disease through language patterns), psychology (personality and mental health detection), education (curriculum design based on actual language use), and law (forensic stylistics and contract analysis).
For theoretical linguistics, big data corpora serve as reality checks. Linguistic theories often rely on introspective judgments about what is and is not grammatical. Corpus evidence reveals that actual language use frequently diverges from theoretical predictions: constructions deemed "ungrammatical" turn out to be common, and structures predicted to be frequent are rare. This tension between competence-based theory and performance-based evidence is productive, forcing both sides to sharpen their claims.
The Science
Mapping the Research Landscape
Yan and Liang (2025) use CiteSpace-based visual analytics to map current research hotspots and evolutionary trends in linguistics in the context of big data. Analyzing 363 high-quality publications from Web of Science spanning 2011 to 2024, they identify three dominant research clusters: (1) corpus-based studies of discourse and register variation, (2) computational approaches to syntactic and semantic analysis, and (3) applications of NLP to social and behavioral questions. The temporal analysis reveals a clear trend: research has shifted from using big data as a source of linguistic examples to developing computational methods that treat language data as a signal about non-linguistic phenomena (health, personality, social dynamics). This shift marks a maturation of corpus linguistics from a methodology within linguistics to a cross-disciplinary research paradigm.
Infrastructure for Exploring Annotated Corpora
Bonisch et al. (2025) address the infrastructure challenge with the Unified Corpus Explorer, a system for annotating, visualizing, and exploring large text corpora with heterogeneous annotation layers. The tool handles multiple types of annotation, morphological, syntactic, semantic, discourse-level, in a unified framework that works across disciplines including linguistics, digital humanities, biology, and legal science. The significance lies in interoperability: different research groups annotate corpora using different schemes, tools, and standards, making it difficult to combine or compare results. A unified exploration platform that can ingest diverse annotation formats and present them through dynamic visualizations lowers the barrier to corpus-based research and enables comparative analysis across corpora that were previously siloed.
Computational Linguistics for Personality Research
Ivashko et al. (2025) demonstrate the application of corpus-based computational methods to personality psychology, analyzing how textual data from the digital environment reveals individual differences in cognition, emotion, and behavior. Their review covers methods from simple word frequency analysis through complex syntactic pattern extraction to modern neural language model embeddings. The central finding is that automated analysis of natural language production can predict personality traits, detect psychological states, and identify cognitive styles with accuracy comparable to traditional psychometric instruments. For linguistics, this application illustrates how language patterns discovered through corpus methods carry information far beyond their linguistic content.
Corpus Methods in Language Pedagogy
Rehman et al. (2025) review the pedagogical applications of corpus linguistics in the Pakistani educational context, examining how corpus-based approaches can improve vocabulary development, grammatical proficiency, and pragmatic competence in language teaching. Their analysis reveals that data-driven learning (DDL), where students explore corpus concordances to discover grammatical patterns rather than learning rules deductively, produces measurable improvements in learning outcomes. The approach is particularly effective for teaching collocations, phrasal verbs, and genre-specific conventions, areas where intuitive judgments are unreliable and corpus evidence provides the authentic patterns that learners need to internalize.
Corpus Linguistics: Evolution of Scale and Method
<
| Era | Corpus Size | Primary Method | Key Insight |
|---|
| 1960s-1980s | ~1M words (Brown, LOB) | Frequency counts, concordancing | Actual usage differs from intuition |
| 1990s-2000s | 100M-1B words (BNC, COCA) | Statistical collocations, register analysis | Language variation is systematic |
| 2010s | Multi-billion words (web corpora) | Distributional semantics, topic models | Meaning emerges from usage patterns |
| 2020s | Terabytes (social media, archives) | Neural embeddings, big data analytics | Language as signal for non-linguistic phenomena |
What To Watch
The integration of corpus linguistics with large language models creates a powerful feedback loop: LLMs are trained on corpus data, and corpus methods can be used to analyze what LLMs have learned and where they deviate from human language patterns. The emergence of diachronic big data corpora (digitized historical texts spanning centuries) enables computational historical linguistics at a scale previously impossible. Multimodal corpora, incorporating speech, gesture, facial expression, and text, will extend corpus methods beyond written language to the full range of human communication. Perhaps most significantly, the democratization of corpus tools through cloud platforms and simplified interfaces is making corpus-based research accessible to researchers in fields far beyond linguistics, turning language analysis into a genuinely transdisciplinary method.
Discover related work using ORAA ResearchBrain.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต์ ๋ชฉ์ ์ผ๋ก ํ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ ์๋ฌผ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.
๋ง๋ญ์น ์ธ์ดํ๊ณผ ๋น
๋ฐ์ดํฐ: ๋๊ท๋ชจ ์ธ์ด ํจํด์ ํ๊ตฌ
๋ง๋ญ์น ์ธ์ดํ์ ์์ฐ ๋ฐ์ ํ
์คํธ์ ๋๊ท๋ชจ ์งํฉ์ ํตํด ์ธ์ด๋ฅผ ๊ฒฝํ์ ์ผ๋ก ์ฐ๊ตฌํ๋ ๋ถ์ผ๋ก, ๋น
๋ฐ์ดํฐ ํ๋ช
์ ์ํด ํฌ๊ฒ ๋ณ๋ชจํ์๋ค. ์ด๊ธฐ ๋ง๋ญ์น ์ธ์ดํ์๋ค์ด ์ ์คํ๊ฒ ์ ๋ณ๋ 100๋ง ๋จ์ด ๊ท๋ชจ์ ์๋ฃ๋ฅผ ๋ค๋ฃจ์๋ค๋ฉด, ์ค๋๋ ์ ์ฐ๊ตฌ์๋ค์ ์์ญ์ต ๋จ์ด๋ฅผ ํฌํจํ๋ ์น ์คํฌ๋ํ ๋ง๋ญ์น, ์ธ์ด๋ฅผ ์ค์๊ฐ์ผ๋ก ํฌ์ฐฉํ๋ ์์
๋ฏธ๋์ด ์์นด์ด๋ธ, ๊ทธ๋ฆฌ๊ณ ์ ์ธ๊ธฐ์ ๊ฑธ์น ๋์งํธํ๋ ์ญ์ฌ ์์นด์ด๋ธ๋ฅผ ํ์ฉํ ์ ์๋ค. ์ด๋ฌํ ๊ท๋ชจ์ ๋ณํ๋ ๋จ์ํ ์์ ์ธ ๊ฒ์ ๊ทธ์น์ง ์๋๋ค. ์ฆ, ๋ง๋ญ์น ์ธ์ดํ์ด ํ๊ตฌํ ์ ์๋ ๋์์ ์ง์ ๋ณํ๋ฅผ ๊ฐ์ ธ์จ๋ค. ์๊ท๋ชจ ํ๋ณธ์์๋ ๋ณด์ด์ง ์๋ ํจํด๋ค, ์ฆ ํฌ๊ทํ ๊ตฌ๋ฌธ, ๋ ์ง์คํฐ ๊ฐ์ ๋ฏธ๋ฌํ ๋น๋ ์ฐจ์ด, ์ฅ๊ธฐ์ ์ธ ํต์์ ๊ฒฝํฅ๋ค์ด ๋๊ท๋ชจ์์๋ ๊ฐ์ํ๋๋ค. ๊ทธ๋ฌ๋ ๊ท๋ชจ์ ํ๋๋ ๋
ธ์ด์ฆ, ๋ํ์ฑ, ์ฃผ์ ํ์ง, ๊ทธ๋ฆฌ๊ณ ๋ฐฉ๋ํ ํ
์คํธ ์งํฉ ์ฒ๋ฆฌ์ ๋ฐ๋ฅด๋ ๋ง๋ํ ๊ณ์ฐ์ ๋ถ๋ด์ด๋ผ๋ ๊ณผ์ ๋ํ ์๋ฐํ๋ค.
์ค์์ฑ
์ธ์ด๋ ์ธ๊ฐ ๋ฐ์ดํฐ ์ค ๊ฐ์ฅ ๋ณดํธ์ ์ธ ํํ์ด๋ค. ๋ชจ๋ ์ด๋ฉ์ผ, ์์
๋ฏธ๋์ด ๊ฒ์๋ฌผ, ๋ฒ๋ฅ ๋ฌธ์, ์๋ฃ ๊ธฐ๋ก, ๋ฌธํ ์ํ์ ์์ฌ์ํต์, ๋งฅ๋ฝ, ๋ฌธํ์ ๊ดํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ์ธ์ด ํ๋ณธ์ด๋ค. ๋ง๋ญ์น ์ธ์ดํ์ ์ด๋ฌํ ์ ๋ณด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ถ์ถํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ๋ค. ๋น
๋ฐ์ดํฐ ์๋์ ์ด ๋ฐฉ๋ฒ๋ก ์ ์ธ์ดํ์๋ฟ ์๋๋ผ ๊ณต์ค ๋ณด๊ฑด(์ธ์ด ํจํด์ ํตํ ์ง๋ณ ์ถ์ ), ์ฌ๋ฆฌํ(์ฑ๊ฒฉ ๋ฐ ์ ์ ๊ฑด๊ฐ ํ์ง), ๊ต์ก(์ค์ ์ธ์ด ์ฌ์ฉ์ ๊ธฐ๋ฐํ ๊ต์ก๊ณผ์ ์ค๊ณ), ๋ฒํ(๋ฒ์ธ์ดํ์ ๋ฌธ์ฒด ๋ถ์ ๋ฐ ๊ณ์ฝ ๋ถ์) ๋ฑ ๋ค์ํ ๋ถ์ผ์ ์ฐ๊ตฌ์๋ค์ ์ํด์๋ ํ์ฉ๋๋ค.
์ด๋ก ์ธ์ดํ์์ ๋น
๋ฐ์ดํฐ ๋ง๋ญ์น๋ ํ์ค ๊ฒ์ฆ์ ์ญํ ์ ํ๋ค. ์ธ์ด ์ด๋ก ์ ํํ ์ด๋ค ํํ์ด ๋ฌธ๋ฒ์ ์ธ์ง ์๋์ง์ ๋ํ ๋ด์ฑ์ ํ๋จ์ ์์กดํ๋ค. ๋ง๋ญ์น ์ฆ๊ฑฐ๋ ์ค์ ์ธ์ด ์ฌ์ฉ์ด ์ด๋ก ์ ์์ธก๊ณผ ์์ฃผ ๊ดด๋ฆฌ๋จ์ ๋๋ฌ๋ธ๋ค. ์ฆ, '๋น๋ฌธ๋ฒ์ '์ผ๋ก ๊ฐ์ฃผ๋ ๊ตฌ๋ฌธ์ด ์ค์ ๋ก๋ ๋น๋ฒํ๊ฒ ์ฐ์ด๊ณ , ๋น๋ฒํ ๊ฒ์ผ๋ก ์์ธก๋ ๊ตฌ์กฐ๊ฐ ๋๋ฌผ๊ฒ ๋ํ๋๋ ๊ฒฝ์ฐ๊ฐ ์๋ค. ์ญ๋ ๊ธฐ๋ฐ ์ด๋ก ๊ณผ ์ํ ๊ธฐ๋ฐ ์ฆ๊ฑฐ ์ฌ์ด์ ์ด๋ฌํ ๊ธด์ฅ์ ์์ฐ์ ์ผ๋ก ์์ฉํ์ฌ, ์์ธก ๋ชจ๋ ์์ ์ ์ฃผ์ฅ์ ๋์ฑ ์ ๊ตํ๊ฒ ๋ค๋ฌ๋๋ก ์ด๋๋ค.
์ฐ๊ตฌ ๋ด์ฉ
์ฐ๊ตฌ ์งํ์ ๋งคํ
Yan๊ณผ Liang(2025)์ CiteSpace ๊ธฐ๋ฐ ์๊ฐ์ ๋ถ์์ ํ์ฉํ์ฌ ๋น
๋ฐ์ดํฐ ๋งฅ๋ฝ์์ ์ธ์ดํ์ ํ์ฌ ์ฐ๊ตฌ ํซ์คํ๊ณผ ์งํ์ ๊ฒฝํฅ์ ๋งคํํ๋ค. ์ด๋ค์ 2011๋
๋ถํฐ 2024๋
๊น์ง Web of Science์ ์๋ก๋ 363ํธ์ ๊ณ ํ์ง ๋
ผ๋ฌธ์ ๋ถ์ํ์ฌ ์ธ ๊ฐ์ง ์ฃผ์ ์ฐ๊ตฌ ํด๋ฌ์คํฐ๋ฅผ ํ์ธํ์๋ค. (1) ๋ดํ ๋ฐ ๋ ์ง์คํฐ ๋ณ์ด์ ๋ง๋ญ์น ๊ธฐ๋ฐ ์ฐ๊ตฌ, (2) ํต์ฌ์ ยท์๋ฏธ์ ๋ถ์์ ๋ํ ๊ณ์ฐ์ ์ ๊ทผ, (3) ์ฌํ์ ยทํ๋์ ๋ฌธ์ ์ ๋ํ NLP ์์ฉ์ด๋ค. ์๊ณ์ด ๋ถ์์ ๋๋ ทํ ๊ฒฝํฅ์ ๋๋ฌ๋ธ๋ค. ์ฆ, ์ฐ๊ตฌ์ ํ๋ฆ์ด ๋น
๋ฐ์ดํฐ๋ฅผ ์ธ์ด์ ์ฌ๋ก์ ์ถ์ฒ๋ก ํ์ฉํ๋ ๋จ๊ณ์์, ์ธ์ด ๋ฐ์ดํฐ๋ฅผ ๋น์ธ์ด์ ํ์(๊ฑด๊ฐ, ์ฑ๊ฒฉ, ์ฌํ์ ์ญํ)์ ๊ดํ ์ ํธ๋ก ์ทจ๊ธํ๋ ๊ณ์ฐ์ ๋ฐฉ๋ฒ๋ก ์ ๊ฐ๋ฐํ๋ ๋จ๊ณ๋ก ์ด๋ํ์๋ค. ์ด๋ฌํ ์ ํ์ ๋ง๋ญ์น ์ธ์ดํ์ด ์ธ์ดํ ๋ด ํ๋์ ๋ฐฉ๋ฒ๋ก ์์ ํ์ ๊ฐ ์ฐ๊ตฌ ํจ๋ฌ๋ค์์ผ๋ก ์ฑ์ํ์์ ๋ํ๋ธ๋ค.
์ฃผ์ ๋ง๋ญ์น ํ์์ ์ํ ์ธํ๋ผ
์ฑ๊ฒฉ ์ฐ๊ตฌ๋ฅผ ์ํ ์ ์ฐ ์ธ์ดํ
Ivashko et al. (2025)์ ๋ง๋ญ์น ๊ธฐ๋ฐ ์ ์ฐ ๋ฐฉ๋ฒ๋ก ์ ์ฑ๊ฒฉ ์ฌ๋ฆฌํ์ ์ ์ฉํ ์ฌ๋ก๋ฅผ ์ ์ํ๋ฉฐ, ๋์งํธ ํ๊ฒฝ์ ํ
์คํธ ๋ฐ์ดํฐ๊ฐ ์ธ์ง, ์ ์, ํ๋์์์ ๊ฐ์ธ์ฐจ๋ฅผ ์ด๋ป๊ฒ ๋๋ฌ๋ด๋์ง ๋ถ์ํ๋ค. ์ด๋ค์ ๊ฒํ ๋ ๋จ์ ๋จ์ด ๋น๋ ๋ถ์๋ถํฐ ๋ณต์กํ ํต์ฌ ํจํด ์ถ์ถ, ํ๋ ์ ๊ฒฝ ์ธ์ด ๋ชจ๋ธ ์๋ฒ ๋ฉ์ ์ด๋ฅด๋ ๋ฐฉ๋ฒ๋ก ์ ๋ค๋ฃฌ๋ค. ํต์ฌ ๋ฐ๊ฒฌ์ ์์ฐ์ด ์ฐ์ถ์ ์๋ํ ๋ถ์์ด ์ฑ๊ฒฉ ํน์ง์ ์์ธกํ๊ณ , ์ฌ๋ฆฌ์ ์ํ๋ฅผ ๊ฐ์งํ๋ฉฐ, ์ ํต์ ์ธ ์ฌ๋ฆฌ์ธก์ ๋๊ตฌ์ ์ ์ฌํ ์ ํ๋๋ก ์ธ์ง ์คํ์ผ์ ์๋ณํ ์ ์๋ค๋ ๊ฒ์ด๋ค. ์ธ์ดํ์ ๊ด์ ์์ ์ด ์ ์ฉ ์ฌ๋ก๋ ๋ง๋ญ์น ๋ฐฉ๋ฒ๋ก ์ ํตํด ๋ฐ๊ฒฌ๋ ์ธ์ด ํจํด์ด ์ธ์ด์ ๋ด์ฉ์ ํจ์ฌ ๋์ด์๋ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์์ ๋ณด์ฌ์ค๋ค.
์ธ์ด ๊ต์กํ์์์ ๋ง๋ญ์น ๋ฐฉ๋ฒ๋ก
Rehman et al. (2025)์ ํํค์คํ ๊ต์ก ๋งฅ๋ฝ์์ ๋ง๋ญ์น ์ธ์ดํ์ ๊ต์กํ์ ์ ์ฉ์ ๊ฒํ ํ๋ฉฐ, ๋ง๋ญ์น ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์ด ์ธ์ด ๊ต์์์ ์ดํ ๋ฐ๋ฌ, ๋ฌธ๋ฒ ๋ฅ์๋, ํ์ฉ ๋ฅ๋ ฅ์ ์ด๋ป๊ฒ ํฅ์์ํฌ ์ ์๋์ง ์ดํด๋ณธ๋ค. ์ด๋ค์ ๋ถ์์ ํ์๋ค์ด ๊ท์น์ ์ฐ์ญ์ ์ผ๋ก ํ์ตํ๋ ๋์ ๋ง๋ญ์น ์ฉ๋ก ์์ธ์ ํ์ํ์ฌ ๋ฌธ๋ฒ ํจํด์ ์ค์ค๋ก ๋ฐ๊ฒฌํ๋ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ํ์ต(DDL)์ด ํ์ต ์ฑ๊ณผ์์ ์ธก์ ๊ฐ๋ฅํ ํฅ์์ ๋ณ๋๋ค๋ ๊ฒ์ ๋ฐํ๋ค. ์ด ์ ๊ทผ๋ฒ์ ํนํ ์ฐ์ด, ๊ตฌ๋์ฌ, ์ฅ๋ฅด๋ณ ๊ด์ต ๊ต์์ ํจ๊ณผ์ ์ธ๋ฐ, ์ด๋ ์ง๊ด์ ํ๋จ์ด ์ ๋ขฐํ๊ธฐ ์ด๋ ต๊ณ ํ์ต์๊ฐ ๋ด๋ฉดํํด์ผ ํ ์ค์ ํจํด์ ๋ง๋ญ์น ์ฆ๊ฑฐ๊ฐ ์ ๊ณตํ๋ ์์ญ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
Bonisch et al. (2025)์ Unified Corpus Explorer๋ฅผ ํตํด ์ธํ๋ผ ๊ณผ์ ๋ฅผ ๋ค๋ฃจ๋๋ฐ, ์ด ์์คํ
์ ์ด์ง์ ์ธ ์ฃผ์ ์ธต์๋ฅผ ๊ฐ๋ ๋๊ท๋ชจ ํ
์คํธ ๋ง๋ญ์น๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํ๊ณ , ์๊ฐํํ๋ฉฐ, ํ์ํ๊ธฐ ์ํ ๊ฒ์ด๋ค. ์ด ๋๊ตฌ๋ ํํ๋ก ์ , ํต์ฌ์ , ์๋ฏธ๋ก ์ , ๋ดํ ์์ค์ ์ฌ๋ฌ ์ ํ์ ์ฃผ์์ ์ธ์ดํ, ๋์งํธ ์ธ๋ฌธํ, ์๋ฌผํ, ๋ฒํ์ ํฌ๊ดํ๋ ํตํฉ ํ๋ ์์ํฌ ์์์ ์ฒ๋ฆฌํ๋ค. ๊ทธ ์ค์์ฑ์ ์ํธ์ด์ฉ์ฑ์ ์๋ค. ์๋ก ๋ค๋ฅธ ์ฐ๊ตฌ ์ง๋จ์ด ์์ดํ ์ฒด๊ณ, ๋๊ตฌ, ํ์ค์ ์ฌ์ฉํ์ฌ ๋ง๋ญ์น๋ฅผ ์ฃผ์ ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ๊ฑฐ๋ ๋น๊ตํ๊ธฐ ์ด๋ ต๋ค. ๋ค์ํ ์ฃผ์ ํ์์ ์์ฉํ๊ณ ๋์ ์๊ฐํ๋ฅผ ํตํด ์ด๋ฅผ ์ ์ํ ์ ์๋ ํตํฉ ํ์ ํ๋ซํผ์ ๋ง๋ญ์น ๊ธฐ๋ฐ ์ฐ๊ตฌ์ ์ง์
์ฅ๋ฒฝ์ ๋ฎ์ถ๊ณ , ์ด์ ์๋ ๊ณ ๋ฆฝ๋์ด ์๋ ๋ง๋ญ์น๋ค์ ๊ฑธ์น ๋น๊ต ๋ถ์์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
๋ง๋ญ์น ์ธ์ดํ: ๊ท๋ชจ์ ๋ฐฉ๋ฒ๋ก ์ ๋ฐ์
<
| ์๋ | ๋ง๋ญ์น ํฌ๊ธฐ | ์ฃผ์ ๋ฐฉ๋ฒ๋ก | ํต์ฌ ํต์ฐฐ |
|---|
| 1960s-1980s | ~1M ๋จ์ด (Brown, LOB) | ๋น๋ ๊ณ์ฐ, ์ฉ๋ก ์์ธ | ์ค์ ์ฌ์ฉ์ ์ง๊ด๊ณผ ๋ค๋ฅด๋ค |
| 1990s-2000s | 1์ต-10์ต ๋จ์ด (BNC, COCA) | ํต๊ณ์ ์ฐ์ด, ๋ ์ง์คํฐ ๋ถ์ | ์ธ์ด ๋ณ์ด๋ ์ฒด๊ณ์ ์ด๋ค |
| 2010s | ์์ญ์ต ๋จ์ด (์น ๋ง๋ญ์น) | ๋ถ์ฐ ์๋ฏธ๋ก , ํ ํฝ ๋ชจ๋ธ | ์๋ฏธ๋ ์ฌ์ฉ ํจํด์์ ์ถํํ๋ค |
| 2020s | ํ
๋ผ๋ฐ์ดํธ (์์
๋ฏธ๋์ด, ์์นด์ด๋ธ) | ์ ๊ฒฝ ์๋ฒ ๋ฉ, ๋น
๋ฐ์ดํฐ ๋ถ์ | ๋น์ธ์ด์ ํ์์ ์ํ ์ ํธ๋ก์์ ์ธ์ด |
์ฃผ๋ชฉํ ๋ํฅ
๋ง๋ญ์น ์ธ์ดํ(corpus linguistics)๊ณผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(large language model, LLM)์ ํตํฉ์ ๊ฐ๋ ฅํ ํผ๋๋ฐฑ ๋ฃจํ๋ฅผ ํ์ฑํ๋ค. ์ฆ, LLM์ ๋ง๋ญ์น ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋๋ฉฐ, ๋ง๋ญ์น ๋ฐฉ๋ฒ๋ก ์ LLM์ด ํ์ตํ ๋ด์ฉ๊ณผ ์ธ๊ฐ ์ธ์ด ํจํด์์ ๋ฒ์ด๋ ์ง์ ์ ๋ถ์ํ๋ ๋ฐ ํ์ฉ๋ ์ ์๋ค. ์ ์ธ๊ธฐ์ ๊ฑธ์น ๋์งํธํ๋ ์ญ์ฌ ํ
์คํธ๋ฅผ ํฌํจํ๋ ํต์์ (diachronic) ๋น
๋ฐ์ดํฐ ๋ง๋ญ์น์ ๋ฑ์ฅ์ ์ด์ ์๋ ๋ถ๊ฐ๋ฅํ๋ ๊ท๋ชจ์ ์ ์ฐ ์ญ์ฌ ์ธ์ดํ(computational historical linguistics)์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ์์ฑ, ์ ์ค์ฒ, ํ์ , ํ
์คํธ๋ฅผ ํตํฉํ ๋ฉํฐ๋ชจ๋ฌ ๋ง๋ญ์น(multimodal corpora)๋ ๋ง๋ญ์น ๋ฐฉ๋ฒ๋ก ์ ๋ฌธ์ด(written language)๋ฅผ ๋์ด ์ธ๊ฐ ์์ฌ์ํต์ ์ ์์ญ์ผ๋ก ํ์ฅํ ๊ฒ์ด๋ค. ์๋ง๋ ๊ฐ์ฅ ์ค์ํ ์ ์, ํด๋ผ์ฐ๋ ํ๋ซํผ๊ณผ ๋จ์ํ๋ ์ธํฐํ์ด์ค๋ฅผ ํตํ ๋ง๋ญ์น ๋๊ตฌ์ ๋์คํ๊ฐ ์ธ์ดํ์ ํจ์ฌ ๋์ด์ ๋ค์ํ ๋ถ์ผ์ ์ฐ๊ตฌ์๋ค์๊ฒ ๋ง๋ญ์น ๊ธฐ๋ฐ ์ฐ๊ตฌ๋ฅผ ์ ๊ทผ ๊ฐ๋ฅํ๊ฒ ๋ง๋ค๊ณ ์๋ค๋ ๊ฒ์ด๋ฉฐ, ์ด๋ก์จ ์ธ์ด ๋ถ์์ ์ง์ ํ ์ดํ์ ์ (transdisciplinary) ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์๋ฆฌ๋งค๊นํ๊ณ ์๋ค.
๊ด๋ จ ์ฐ๊ตฌ๋ ORAA ResearchBrain์ ํตํด ํ์ํ ์ ์๋ค.
References (4)
[1] Yan, R. & Liang, X. (2025). Current Hotspots of Linguistics Research under the Background of Big Data: Visual Analysis Based on CiteSpace. Proc. ACM.
[2] Bonisch, K., Abrami, G., & Mehler, A. (2025). Towards Unified, Dynamic and Annotation-based Visualisations and Exploration of Annotated Big Data Corpora with the Help of Unified Corpus Explorer. Proc. NAACL 2025.
[3] Ivashko, K.S., Izosimova, S.A., & Piguz, V.N. (2025). Computational linguistics in psychology: a key to understanding language and human behavior. Language and Text, 12(2).
[4] Rehman, U., Mahmood, A., & Khuram, M. (2025). Corpus Linguistics as a Tool for Improving Language Teaching Strategies. JALT.