Paper ReviewComputer SystemsMachine/Deep Learning
Talk to Your Database: Natural Language Queries Through Multi-Modal LLMs
SQL remains the gatekeeping language of enterprise dataโaccessible to database specialists but opaque to the business users who most need data-driven insights. Multi-modal LLMs that translate natural language questions (and even dashboard screenshots) into database queries promise to democratize data access.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
The gap between data and decision-makers is not technologicalโit is linguistic. Enterprise databases contain terabytes of structured information that could inform every business decision, from marketing spend allocation to supply chain optimization to customer churn prediction. But accessing this information requires SQLโa language that most decision-makers do not speak and have neither the time nor inclination to learn.
Natural language to SQL (NL-to-SQL) systems have been pursued for decades, with each generation of AI technology bringing incremental improvements. The LLM generation represents something qualitatively different: models that understand not just the syntax of natural language questions but their intentโdisambiguating vague questions, inferring implicit constraints, and generating SQL that reflects what the user means rather than merely what they said.
Zhang's system extends this capability to the multi-modal domain, accepting not only text questions but also references to charts, tables, and dashboard visualizations. When a user points at a spike in a revenue graph and asks "Why did this happen?", the system must understand both the visual reference (identifying the time period and metric from the chart) and the causal question (generating SQL that retrieves relevant explanatory data for that period).
Beyond Simple Translation
Early NL-to-SQL systems treated the problem as straightforward translation: parse the natural language question, map entities to table/column names, and generate SQL. This approach handles simple questions ("How many orders were placed last month?") but fails on the complex, ambiguous, contextual questions that real users ask:
- Ambiguous references: "Show me our best customers" requires understanding what "best" means in contextโhighest revenue? Most frequent purchases? Longest tenure?
- Implicit joins: "What products do our top customers buy?" requires joining customer, order, and product tables without the user specifying the join path
- Temporal context: "How did sales change after the price increase?" requires identifying when the price increase occurred (from the database) and comparing sales before and after
- Conversational context: "Now break that down by region" refers to the previous query resultโthe system must maintain conversational state
LLM-based approaches handle these challenges through the model's understanding of language semantics and its ability to reason about database schema in context. The schemaโtable names, column types, foreign key relationshipsโis provided as context, and the LLM generates SQL that reflects both the question's intent and the schema's structure.
ML-Enhanced Query Optimization
Wan's complementary work addresses a parallel challenge within database management systems: optimizing query execution using machine learning. The paper focuses on a core DBMS problemโtraditional query optimizers rely on plan enumeration and cost estimation to select the best query plan, but inaccurate cost prediction leads to selecting inefficient plans. Wan proposes a tree-structure-based query plan representation method combined with attention and ranking-based learning to improve cost estimation accuracy.
This work is independent of the NL-to-SQL translation stepโit operates at the DBMS level regardless of whether queries arrive via natural language, hand-written SQL, or any other source. Its relevance to the NL-to-SQL context is that any gains in query optimization directly improve the execution efficiency of queries, including those generated by NL-to-SQL systems. The two capabilitiesโtranslation and optimizationโare complementary layers in a complete data-access pipeline.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| LLMs improve NL-to-SQL accuracy over rule-based approaches | Consistent finding across multiple NL-to-SQL benchmarks | โ
Supported |
| Multi-modal input (text + visual) enables richer queries | Zhang demonstrates chart-referencing queries | โ
Demonstrated |
| NL-to-SQL is production-ready for all query types | Complex analytical queries with multiple joins remain challenging | โ ๏ธ Simple queries: yes; complex: improving |
| ML-based query plan optimization improves DBMS execution efficiency | Wan demonstrates ranking-learning-based plan selection improvement | โ
Supported |
| Non-technical users can effectively query databases through NL | Limited user study evidence; usability depends on system's ability to handle ambiguity | โ ๏ธ Promising, needs user validation |
Open Questions
Error communication: When the NL-to-SQL system generates incorrect SQL, how should it communicate the error to a non-technical user? Showing the SQL is unhelpful; showing wrong results without warning is dangerous.Schema complexity: Enterprise databases may have thousands of tables with cryptic column names (CUST_ACCT_STAT_CD). How do LLMs handle schemas where the column names provide little semantic information?Security and access control: NL-to-SQL must respect the user's data access permissions. A query that is syntactically correct but accesses data the user is not authorized to see must be blocked. How do we integrate row-level and column-level security into the generation pipeline?Confidence calibration: Can the system express confidence in its SQL generation? A user should know whether the system is confident it understood their question or is guessingโinformation that determines whether the result can be trusted without manual verification.Training data bias: NL-to-SQL models trained on benchmark datasets may not generalize to enterprise-specific terminology, table structures, and query patterns. How much enterprise-specific training is needed for production deployment?What This Means for Your Research
For database researchers, NL-to-SQL via LLMs shifts the research frontier from parsing techniques to intent understandingโensuring that generated SQL captures what users mean, not just what they say. The multi-modal extension (referencing visualizations, documents, and previous query results) opens a rich design space for conversational data analysis.
For enterprise data teams, NL-to-SQL is approaching the threshold where it can meaningfully expand data access beyond the SQL-literate minority. The practical advice: pilot with simple reporting queries where incorrect results are easily verified, and expand to complex analytics as the system demonstrates reliability.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๊ฒ์ฆํด์ผ ํ๋ค.
๋ฐ์ดํฐ๋ฒ ์ด์ค์ ๋ง์ ๊ฑธ๋ค: ๋ฉํฐ๋ชจ๋ฌ LLM์ ํตํ ์์ฐ์ด ์ฟผ๋ฆฌ
๋ฐ์ดํฐ์ ์์ฌ๊ฒฐ์ ์ ์ฌ์ด์ ๊ฐ๊ทน์ ๊ธฐ์ ์ ์ธ ๋ฌธ์ ๊ฐ ์๋๋ผ ์ธ์ด์ ์ธ ๋ฌธ์ ์ด๋ค. ๊ธฐ์
๋ฐ์ดํฐ๋ฒ ์ด์ค์๋ ๋ง์ผํ
์ง์ถ ๋ฐฐ๋ถ๋ถํฐ ๊ณต๊ธ๋ง ์ต์ ํ, ๊ณ ๊ฐ ์ดํ ์์ธก์ ์ด๋ฅด๊ธฐ๊น์ง ๋ชจ๋ ๋น์ฆ๋์ค ์์ฌ๊ฒฐ์ ์ ํ์ฉํ ์ ์๋ ํ
๋ผ๋ฐ์ดํธ ๊ท๋ชจ์ ๊ตฌ์กฐํ๋ ์ ๋ณด๊ฐ ๋ด๊ฒจ ์๋ค. ๊ทธ๋ฌ๋ ์ด ์ ๋ณด์ ์ ๊ทผํ๋ ค๋ฉด SQL์ด ํ์ํ๋ฐ, ๋๋ถ๋ถ์ ์์ฌ๊ฒฐ์ ์๋ SQL์ ๊ตฌ์ฌํ์ง ๋ชปํ๋ฉฐ ์ด๋ฅผ ๋ฐฐ์ธ ์๊ฐ์ด๋ ์์ง๋ ์๋ค.
์์ฐ์ด๋ฅผ SQL๋ก ๋ณํํ๋(NL-to-SQL) ์์คํ
์ ์์ญ ๋
์ ๊ฑธ์ณ ์ฐ๊ตฌ๋์ด ์์ผ๋ฉฐ, AI ๊ธฐ์ ์ ์ธ๋๋ง๋ค ์ ์ง์ ์ธ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ก๋ค. LLM ์ธ๋๋ ์ง์ ์ผ๋ก ๋ค๋ฅธ ๋ฌด์ธ๊ฐ๋ฅผ ์ ์ํ๋ค. ์ฆ, ์์ฐ์ด ์ง๋ฌธ์ ๊ตฌ๋ฌธ๋ฟ๋ง ์๋๋ผ ์๋๊น์ง ํ์
ํ๋ ๋ชจ๋ธ์ด ๋ฑ์ฅํ ๊ฒ์ด๋ค. ์ด ๋ชจ๋ธ์ ๋ชจํธํ ์ง๋ฌธ์ ๋ช
ํํ ํ๊ณ , ์๋ฌต์ ์ธ ์ ์ฝ ์กฐ๊ฑด์ ์ถ๋ก ํ๋ฉฐ, ์ฌ์ฉ์๊ฐ ๋งํ ๋ด์ฉ ๊ทธ๋๋ก๊ฐ ์๋๋ผ ์ฌ์ฉ์๊ฐ ์๋ฏธํ๋ ๋ฐ๋ฅผ ๋ฐ์ํ๋ SQL์ ์์ฑํ๋ค.
Zhang์ ์์คํ
์ ์ด ๊ธฐ๋ฅ์ ๋ฉํฐ๋ชจ๋ฌ ์์ญ์ผ๋ก ํ์ฅํ์ฌ ํ
์คํธ ์ง๋ฌธ๋ฟ๋ง ์๋๋ผ ์ฐจํธ, ํ, ๋์๋ณด๋ ์๊ฐํ์ ๋ํ ์ฐธ์กฐ๋ ์
๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ฌ์ฉ์๊ฐ ์์ต ๊ทธ๋ํ์ ๊ธ๋ฑ ๋ถ๋ถ์ ๊ฐ๋ฆฌํค๋ฉฐ "์ ์ด๋ฐ ์ผ์ด ์ผ์ด๋ฌ๋์?"๋ผ๊ณ ์ง๋ฌธํ ๋, ์์คํ
์ ์๊ฐ์ ์ฐธ์กฐ(์ฐจํธ์์ ๊ธฐ๊ฐ๊ณผ ์งํ๋ฅผ ์๋ณํ๋ ๊ฒ)์ ์ธ๊ณผ ๊ด๊ณ ์ง๋ฌธ(ํด๋น ๊ธฐ๊ฐ์ ๊ด๋ จ ์ค๋ช
๋ฐ์ดํฐ๋ฅผ ๊ฒ์ํ๋ SQL ์์ฑ) ๋ชจ๋๋ฅผ ์ดํดํด์ผ ํ๋ค.
๋จ์ ๋ฒ์ญ์ ๋์ด์
์ด๊ธฐ NL-to-SQL ์์คํ
์ ์ด ๋ฌธ์ ๋ฅผ ๋จ์ํ ๋ฒ์ญ์ผ๋ก ์ ๊ทผํ๋ค. ์ฆ, ์์ฐ์ด ์ง๋ฌธ์ ํ์ฑํ๊ณ , ๊ฐ์ฒด๋ฅผ ํ
์ด๋ธ/์ปฌ๋ผ ์ด๋ฆ์ ๋งคํํ ๋ค, SQL์ ์์ฑํ๋ ๋ฐฉ์์ด๋ค. ์ด ์ ๊ทผ ๋ฐฉ์์ ๋จ์ํ ์ง๋ฌธ("์ง๋๋ฌ์ ์ฃผ๋ฌธ์ด ๋ช ๊ฑด์ด๋ ์์๋์?")์๋ ์ ์ฉ ๊ฐ๋ฅํ์ง๋ง, ์ค์ ์ฌ์ฉ์๊ฐ ๋ฌป๋ ๋ณต์กํ๊ณ ๋ชจํธํ๋ฉฐ ๋งฅ๋ฝ์ ์์กดํ๋ ์ง๋ฌธ์๋ ์คํจํ๋ค.
- ๋ชจํธํ ์ฐธ์กฐ: "์ฐ๋ฆฌ์ ์ต์ฐ์ ๊ณ ๊ฐ์ ๋ณด์ฌ์ฃผ์ธ์"๋ ๋ฌธ๋งฅ์์ "์ต์ฐ์"๊ฐ ๋ฌด์์ ์๋ฏธํ๋์ง ์ดํดํด์ผ ํ๋ค. ๊ฐ์ฅ ๋์ ๋งค์ถ? ๊ฐ์ฅ ๋น๋ฒํ ๊ตฌ๋งค? ๊ฐ์ฅ ๊ธด ๊ฑฐ๋ ๊ธฐ๊ฐ?
- ์๋ฌต์ ์กฐ์ธ: "์ฐ๋ฆฌ์ ์ต์์ ๊ณ ๊ฐ๋ค์ ์ด๋ค ์ ํ์ ๊ตฌ๋งคํ๋์?"๋ ์ฌ์ฉ์๊ฐ ์กฐ์ธ ๊ฒฝ๋ก๋ฅผ ๋ช
์ํ์ง ์์๋ ๊ณ ๊ฐ, ์ฃผ๋ฌธ, ์ ํ ํ
์ด๋ธ์ ์กฐ์ธํด์ผ ํ๋ค.
- ์๊ฐ์ ๋งฅ๋ฝ: "๊ฐ๊ฒฉ ์ธ์ ์ดํ ๋งค์ถ์ ์ด๋ป๊ฒ ๋ณํ๋์?"๋ ๊ฐ๊ฒฉ ์ธ์์ด ์ธ์ ๋ฐ์ํ๋์ง(๋ฐ์ดํฐ๋ฒ ์ด์ค์์)๋ฅผ ํ์
ํ๊ณ ์ ํ ๋งค์ถ์ ๋น๊ตํด์ผ ํ๋ค.
- ๋ํ ๋งฅ๋ฝ: "์ด์ ๊ทธ๊ฒ์ ์ง์ญ๋ณ๋ก ๋ถ๋ฅํด ์ฃผ์ธ์"๋ ์ด์ ์ฟผ๋ฆฌ ๊ฒฐ๊ณผ๋ฅผ ์ฐธ์กฐํ๋ค. ์์คํ
์ ๋ํ ์ํ๋ฅผ ์ ์งํด์ผ ํ๋ค.
LLM ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ์ ์ธ์ด ์๋ฏธ ์ดํด์ ๋งฅ๋ฝ ์์์ ๋ฐ์ดํฐ๋ฒ ์ด์ค ์คํค๋ง๋ฅผ ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ ํตํด ์ด๋ฌํ ๊ณผ์ ๋ฅผ ์ฒ๋ฆฌํ๋ค. ์คํค๋ง(ํ
์ด๋ธ ์ด๋ฆ, ์ปฌ๋ผ ์ ํ, ์ธ๋ ํค ๊ด๊ณ)๋ ์ปจํ
์คํธ๋ก ์ ๊ณต๋๋ฉฐ, LLM์ ์ง๋ฌธ์ ์๋์ ์คํค๋ง ๊ตฌ์กฐ ๋ชจ๋๋ฅผ ๋ฐ์ํ๋ SQL์ ์์ฑํ๋ค.
ML ๊ธฐ๋ฐ ์ฟผ๋ฆฌ ์ต์ ํ
Wan์ ๋ณด์ ์ฐ๊ตฌ๋ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๊ด๋ฆฌ ์์คํ
๋ด์ ๋ณ๋ ฌ์ ์ธ ๊ณผ์ , ์ฆ ๋จธ์ ๋ฌ๋์ ํ์ฉํ ์ฟผ๋ฆฌ ์คํ ์ต์ ํ๋ฅผ ๋ค๋ฃฌ๋ค. ์ด ๋
ผ๋ฌธ์ DBMS์ ํต์ฌ ๋ฌธ์ ์ ์ด์ ์ ๋ง์ถ๋ค. ์ ํต์ ์ธ ์ฟผ๋ฆฌ ์ตํฐ๋ง์ด์ ๋ ์ต์ ์ ์ฟผ๋ฆฌ ๊ณํ์ ์ ํํ๊ธฐ ์ํด ๊ณํ ์ด๊ฑฐ์ ๋น์ฉ ์ถ์ ์ ์์กดํ์ง๋ง, ๋ถ์ ํํ ๋น์ฉ ์์ธก์ผ๋ก ์ธํด ๋นํจ์จ์ ์ธ ๊ณํ์ด ์ ํ๋๋ค. Wan์ ๋น์ฉ ์ถ์ ์ ํ๋๋ฅผ ํฅ์์ํค๊ธฐ ์ํด ์ดํ
์
(attention) ๋ฐ ๋ญํน ๊ธฐ๋ฐ ํ์ต๊ณผ ๊ฒฐํฉํ ํธ๋ฆฌ ๊ตฌ์กฐ ๊ธฐ๋ฐ์ ์ฟผ๋ฆฌ ๊ณํ ํํ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
์ด ์ฐ๊ตฌ๋ NL-to-SQL ๋ณํ ๋จ๊ณ์๋ ๋
๋ฆฝ์ ์ผ๋ก ์๋ํ๋ฉฐ, ์ฟผ๋ฆฌ๊ฐ ์์ฐ์ด, ์ง์ ์์ฑ๋ SQL, ๋๋ ๋ค๋ฅธ ์ด๋ค ์์ค๋ฅผ ํตํด ์ ์
๋๋์ง์ ๋ฌด๊ดํ๊ฒ DBMS ์์ค์์ ๋์ํ๋ค. NL-to-SQL ๋งฅ๋ฝ๊ณผ์ ๊ด๋ จ์ฑ์, ์ฟผ๋ฆฌ ์ต์ ํ์์ ์ป์ ์ฑ๊ณผ๊ฐ NL-to-SQL ์์คํ
์ ์ํด ์์ฑ๋ ์ฟผ๋ฆฌ๋ฅผ ํฌํจํ ๋ชจ๋ ์ฟผ๋ฆฌ์ ์คํ ํจ์จ์ฑ์ ์ง์ ์ ์ผ๋ก ํฅ์์ํจ๋ค๋ ์ ์ ์๋ค. ๋ณํ๊ณผ ์ต์ ํ๋ผ๋ ๋ ๊ฐ์ง ๊ธฐ๋ฅ์ ์์ ํ ๋ฐ์ดํฐ ์ ๊ทผ ํ์ดํ๋ผ์ธ์์ ์ํธ ๋ณด์์ ์ธ ๊ณ์ธต์ ์ด๋ฃฌ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| LLM์ ๊ท์น ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์ ๋๋น NL-to-SQL ์ ํ๋๋ฅผ ํฅ์์ํจ๋ค | ๋ค์์ NL-to-SQL ๋ฒค์น๋งํฌ์์ ์ผ๊ด๋๊ฒ ๋ํ๋๋ ๊ฒฐ๊ณผ | โ
์ง์ง๋จ |
| ๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ(ํ
์คํธ + ์๊ฐ ์๋ฃ)์ด ๋ ํ๋ถํ ์ฟผ๋ฆฌ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ค | Zhang์ด ์ฐจํธ ์ฐธ์กฐ ์ฟผ๋ฆฌ๋ฅผ ์์ฐํจ | โ
์
์ฆ๋จ |
| NL-to-SQL์ ๋ชจ๋ ์ฟผ๋ฆฌ ์ ํ์์ ํ๋ก๋์
์์ค์ผ๋ก ์ค๋น๋์ด ์๋ค | ๋ค์ค ์กฐ์ธ์ ํฌํจํ ๋ณต์กํ ๋ถ์ ์ฟผ๋ฆฌ๋ ์ฌ์ ํ ๋์ ์ ์ธ ๊ณผ์ ๋ก ๋จ์ ์์ | โ ๏ธ ๋จ์ ์ฟผ๋ฆฌ: ๊ฐ๋ฅ; ๋ณต์กํ ์ฟผ๋ฆฌ: ๊ฐ์ ์ค |
| ML ๊ธฐ๋ฐ ์ฟผ๋ฆฌ ํ๋ ์ต์ ํ๋ DBMS ์คํ ํจ์จ์ฑ์ ํฅ์์ํจ๋ค | Wan์ด ์์ ํ์ต ๊ธฐ๋ฐ ํ๋ ์ ํ ๊ฐ์ ์ ์์ฐํจ | โ
์ง์ง๋จ |
| ๋น๊ธฐ์ ์ ์ฌ์ฉ์๊ฐ NL์ ํตํด ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฟผ๋ฆฌํ ์ ์๋ค | ์ฌ์ฉ์ ์ฐ๊ตฌ ๊ทผ๊ฑฐ๊ฐ ์ ํ์ ์ด๋ฉฐ, ์ฌ์ฉ์ฑ์ ์์คํ
์ ๋ชจํธ์ฑ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง | โ ๏ธ ๊ฐ๋ฅ์ฑ ์์, ์ฌ์ฉ์ ๊ฒ์ฆ ํ์ |
๋ฏธํด๊ฒฐ ๊ณผ์
์ค๋ฅ ์ ๋ฌ: NL-to-SQL ์์คํ
์ด ์๋ชป๋ SQL์ ์์ฑํ์ ๋, ๋น๊ธฐ์ ์ ์ฌ์ฉ์์๊ฒ ์ค๋ฅ๋ฅผ ์ด๋ป๊ฒ ์ ๋ฌํด์ผ ํ๋๊ฐ? SQL์ ๊ทธ๋๋ก ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ๋์์ด ๋์ง ์์ผ๋ฉฐ, ๊ฒฝ๊ณ ์์ด ์๋ชป๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ํํ๋ค.์คํค๋ง ๋ณต์ก์ฑ: ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ๋ฒ ์ด์ค๋ CUST_ACCT_STAT_CD์ ๊ฐ์ด ๋ถ๋ช
ํํ ์ปฌ๋ผ๋ช
์ ๊ฐ์ง ์์ฒ ๊ฐ์ ํ
์ด๋ธ์ ํฌํจํ ์ ์๋ค. LLM์ ์ปฌ๋ผ๋ช
์ด ์๋ฏธ์ ์ ๋ณด๋ฅผ ๊ฑฐ์ ์ ๊ณตํ์ง ์๋ ์คํค๋ง๋ฅผ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๊ฐ?๋ณด์ ๋ฐ ์ ๊ทผ ์ ์ด: NL-to-SQL์ ์ฌ์ฉ์์ ๋ฐ์ดํฐ ์ ๊ทผ ๊ถํ์ ๋ฐ๋์ ์ค์ํด์ผ ํ๋ค. ๊ตฌ๋ฌธ์ ์ผ๋ก ์ฌ๋ฐ๋ฅด๋๋ผ๋ ์ฌ์ฉ์๊ฐ ์ ๊ทผ ๊ถํ์ด ์๋ ๋ฐ์ดํฐ์ ์ ๊ทผํ๋ ์ฟผ๋ฆฌ๋ ์ฐจ๋จ๋์ด์ผ ํ๋ค. ํ ์์ค ๋ฐ ์ด ์์ค ๋ณด์์ ์์ฑ ํ์ดํ๋ผ์ธ์ ์ด๋ป๊ฒ ํตํฉํ ๊ฒ์ธ๊ฐ?์ ๋ขฐ๋ ๋ณด์ : ์์คํ
์ด SQL ์์ฑ์ ๋ํ ์ ๋ขฐ๋๋ฅผ ํํํ ์ ์๋๊ฐ? ์ฌ์ฉ์๋ ์์คํ
์ด ์ง๋ฌธ์ ํ์คํ ์ดํดํ๋์ง, ์๋๋ฉด ์ถ์ธกํ๊ณ ์๋์ง ์์์ผ ํ๋ค. ์ด ์ ๋ณด๋ ์๋ ๊ฒ์ฆ ์์ด ๊ฒฐ๊ณผ๋ฅผ ์ ๋ขฐํ ์ ์๋์ง๋ฅผ ํ๋จํ๋ ๊ทผ๊ฑฐ๊ฐ ๋๋ค.ํ์ต ๋ฐ์ดํฐ ํธํฅ: ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ผ๋ก ํ์ต๋ NL-to-SQL ๋ชจ๋ธ์ ์ํฐํ๋ผ์ด์ฆ ๊ณ ์ ์ ์ฉ์ด, ํ
์ด๋ธ ๊ตฌ์กฐ, ์ฟผ๋ฆฌ ํจํด์ ์ผ๋ฐํ๋์ง ์์ ์ ์๋ค. ํ๋ก๋์
๋ฐฐํฌ๋ฅผ ์ํด์๋ ์ผ๋ง๋ ๋ง์ ์ํฐํ๋ผ์ด์ฆ ํนํ ํ์ต์ด ํ์ํ๊ฐ?์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
๋ฐ์ดํฐ๋ฒ ์ด์ค ์ฐ๊ตฌ์๋ค์๊ฒ ์์ด, LLM์ ํตํ NL-to-SQL์ ์ฐ๊ตฌ์ ์ต์ ์ ์ ํ์ฑ ๊ธฐ๋ฒ์์ ์๋ ์ดํด๋ก ์ ํ์ํจ๋ค. ์ฆ, ์์ฑ๋ SQL์ด ์ฌ์ฉ์๊ฐ ๋งํ๋ ๊ฒ๋ฟ๋ง ์๋๋ผ ์๋ฏธํ๋ ๊ฒ์ ์ ํํ ํฌ์ฐฉํ๋๋ก ๋ณด์ฅํ๋ ๊ฒ์ด ํต์ฌ ๊ณผ์ ๊ฐ ๋๋ค. ๋ฉํฐ๋ชจ๋ฌ ํ์ฅ(์๊ฐํ, ๋ฌธ์, ์ด์ ์ฟผ๋ฆฌ ๊ฒฐ๊ณผ ์ฐธ์กฐ)์ ๋ํํ ๋ฐ์ดํฐ ๋ถ์์ ์ํ ํ๋ถํ ์ค๊ณ ๊ณต๊ฐ์ ์ด์ด์ค๋ค.
์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ ํ์๊ฒ ์์ด, NL-to-SQL์ SQL์ ๋ฅ์ํ ์์๋ฅผ ๋์ด ๋ฐ์ดํฐ ์ ๊ทผ์ ์ค์ง์ ์ผ๋ก ํ์ฅํ ์ ์๋ ์๊ณ์ ์ ๊ทผ์ ํ๊ณ ์๋ค. ์ค์ฉ์ ์ธ ์กฐ์ธ์ ๋ค์๊ณผ ๊ฐ๋ค. ์๋ชป๋ ๊ฒฐ๊ณผ๋ฅผ ์ฝ๊ฒ ๊ฒ์ฆํ ์ ์๋ ๋จ์ํ ๋ฆฌํฌํ
์ฟผ๋ฆฌ๋ถํฐ ์๋ฒ ์ ์ฉํ๊ณ , ์์คํ
์ด ์์ ์ฑ์ ์
์ฆํจ์ ๋ฐ๋ผ ๋ณต์กํ ๋ถ์์ผ๋ก ํ์ฅํด ๋๊ฐ๋ ๊ฒ์ด ๋ฐ๋์งํ๋ค.
References (2)
[1] Zhang, X. (2025). An Intelligent Database Query and Management System Based on NLP and Multi-Modal Large Models. IEEE DSIS.
[2] Wan, S. (2025). Research on Improving the Performance of Query Optimization Framework Based on ML in DBMS. IEEE AIC.