Paper ReviewMathematics & StatisticsMachine/Deep Learning
Functional Data Analysis Meets LLMs: Treating Time Series as Mathematical Functions
Standard time series methods treat observations as discrete points. Functional data analysis treats them as samples from continuous curvesโunlocking mathematical tools from functional analysis (Hilbert spaces, basis expansions, functional PCA) that capture temporal structure more faithfully.
By Sean K.S. Shin
This blog summarizes research trends based on published paper abstracts. Specific numbers or findings may contain inaccuracies. For scholarly rigor, always consult the original papers cited in each post.
Time series data is traditionally analyzed as sequences of discrete observations: values at times tโ, tโ, ..., tโ. This discrete representation is convenient for computation but discards an important structure: the underlying process that generated the observations is continuous. A sensor reading at 10:00:01 is not independent of the reading at 10:00:02โthey are samples from a smooth underlying function that varies continuously in time.
Functional data analysis (FDA) embraces this continuity. Rather than treating observations as vectors of numbers, FDA treats each time series as a sample from a space of functionsโan element of an infinite-dimensional function space (typically a Hilbert space). This perspective unlocks mathematical toolsโfunctional principal component analysis, functional regression, reproducing kernel Hilbert spacesโthat capture temporal structure more faithfully than their finite-dimensional counterparts.
Sun et al.'s FDALLM+ demonstrates a novel integration: using FDA to preprocess time series data before feeding it to large language models for prediction. Ju & Lee evaluate FDA-based feature extraction for manufacturing quality prediction. Together, they illustrate how FDA bridges the gap between the rich mathematical theory of function spaces and the practical needs of modern prediction systems.
Why Functions, Not Vectors?
The functional perspective offers three advantages over the vector perspective:
Smoothness constraints: Real physical processes are typically smoothโtemperature doesn't jump discontinuously, network traffic doesn't teleport between values. FDA enforces smoothness through basis expansion (representing each curve as a weighted combination of smooth basis functions like B-splines or Fourier series), eliminating measurement noise while preserving genuine signal structure.
Phase variation: Two time series may represent the same underlying pattern shifted in timeโa daily traffic pattern that peaks at 9am in one city and 10am in another. Standard vector methods treat these as different signals; FDA's registration techniques align them, revealing the common pattern.
Dimension reduction: Functional PCA extracts the principal modes of variation in a collection of curvesโthe dominant shapes that explain most of the variability. For network traffic, these modes might represent daily patterns, weekly cycles, and anomalous events. Each curve is then represented by a small number of functional PC scores rather than hundreds of discrete time points.
Sun et al.'s FDALLM+ uses FDA preprocessing to transform raw network traffic time series into functional representations before feeding them to a large language model for prediction. The pipeline:
Basis expansion: Raw traffic data is represented as a weighted combination of B-spline basis functions, smoothing out measurement noise
Functional PCA: The dominant modes of traffic variation are extracted, compressing each time series into a compact set of scores
LLM prediction: The functional PC scores are tokenized and fed to an LLM that has been fine-tuned on traffic prediction tasks
Reconstruction: The LLM's predicted scores are mapped back to functional space and evaluated at desired time pointsThe FDA preprocessing addresses a limitation of LLMs for time series: LLMs operate on discrete tokens and do not naturally encode the continuous temporal structure of time series data. By first projecting into functional space, FDALLM+ provides the LLM with representations that already encode temporal smoothness, periodicity, and dominant variation patterns.
Manufacturing Quality: FDA for Sensor Data
Ju & Lee apply FDA to a different domain: semiconductor manufacturing, where sensor data from production equipment is used to predict wafer quality. Manufacturing sensor data is high-frequency, high-dimensional, and temporally structuredโcharacteristics that make it an ideal candidate for FDA.
Their comparison of FDA-based features versus summary statistics (mean, variance, skewness) for supervised learning shows that FDA featuresโfunctional PC scoresโcapture temporal patterns (waveform shapes, transient dynamics) that summary statistics miss. For quality prediction tasks where the temporal shape of sensor readings matters more than their average value, FDA features provide measurable improvement.
Claims and Evidence
<
| Claim | Evidence | Verdict |
|---|
| FDA captures temporal structure that discrete methods miss | Theoretical argument + empirical evidence from manufacturing | โ
Well-established |
| FDA preprocessing improves LLM time series prediction | FDALLM+ demonstrates on network traffic | โ
Supported |
| Functional PCA provides effective dimension reduction for curves | Core FDA result; widely validated | โ
Well-established |
| FDA features outperform summary statistics for quality prediction | Ju & Lee comparative evaluation on semiconductor data | โ
Supported |
| FDA is computationally tractable for large-scale time series | Basis expansion and FPCA are efficient; scaling to millions of curves requires care | โ ๏ธ Scalable with appropriate implementation |
Open Questions
Basis selection: The choice of basis functions (B-splines, Fourier, wavelets) affects the functional representation. How do we select the optimal basis for a given domain? Can the basis be learned from data?Irregular sampling: FDA assumes that curves are observed at regular intervals or can be smoothly interpolated. For irregularly sampled data (clinical measurements, event-driven sensors), how do we construct functional representations?Functional deep learning: Can neural network architectures be designed to operate directly on function-valued inputs, without first discretizing or projecting onto a finite basis? Functional neural networks are an emerging research direction.Multivariate functional data: Real systems produce multiple correlated time series (multivariate functions). How do we extend FDA to capture cross-function dependenciesโfor instance, the relationship between temperature and pressure curves in a manufacturing process?What This Means for Your Research
For statisticians, FDA provides a mathematically rigorous framework for time series analysis that respects the continuous nature of temporal data. The theory is mature; the applications are expanding rapidly as data collection becomes higher-frequency and more continuous.
For ML practitioners, FDA preprocessing (basis expansion + functional PCA) provides a principled alternative to ad hoc feature engineering for time series data. The FDALLM+ integration demonstrates that this preprocessing is compatible with modern deep learning architectures.
For domain scientists in manufacturing, telecommunications, and environmental monitoring, FDA offers interpretable features (principal modes of variation) that domain experts can inspect and relate to physical processesโa transparency advantage over black-box feature extraction.
๋ฉด์ฑ
์กฐํญ: ์ด ๊ฒ์๋ฌผ์ ์ ๋ณด ์ ๊ณต ๋ชฉ์ ์ ์ฐ๊ตฌ ๋ํฅ ๊ฐ์์ด๋ค. ํ์ ์ฐ๊ตฌ์์ ์ธ์ฉํ๊ธฐ ์ ์ ๊ตฌ์ฒด์ ์ธ ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ํต๊ณ ๋ฐ ์ฃผ์ฅ์ ์๋ณธ ๋
ผ๋ฌธ์ ํตํด ๋ฐ๋์ ํ์ธํด์ผ ํ๋ค.
ํจ์ํ ๋ฐ์ดํฐ ๋ถ์๊ณผ LLM์ ๋ง๋จ: ์๊ณ์ด์ ์ํ์ ํจ์๋ก ์ฒ๋ฆฌํ๊ธฐ
์๊ณ์ด ๋ฐ์ดํฐ๋ ์ ํต์ ์ผ๋ก ์ด์ฐ ๊ด์ธก๊ฐ์ ์ํ์ค, ์ฆ ์๊ฐ tโ, tโ, ..., tโ์์์ ๊ฐ๋ค๋ก ๋ถ์๋๋ค. ์ด๋ฌํ ์ด์ฐ ํํ์ ๊ณ์ฐ์ ํธ๋ฆฌํ์ง๋ง ์ค์ํ ๊ตฌ์กฐ๋ฅผ ๋ฒ๋ฆฐ๋ค๋ ๋ฌธ์ ๊ฐ ์๋ค. ๊ด์ธก๊ฐ์ ์์ฑํ ๊ธฐ์ ๊ณผ์ (underlying process)์ ์ฐ์์ ์ด๋ค. 10:00:01์ ์ผ์ ์ธก์ ๊ฐ์ 10:00:02์ ์ธก์ ๊ฐ๊ณผ ๋
๋ฆฝ์ ์ด์ง ์์ผ๋ฉฐ, ์ด๋ค์ ์๊ฐ์ ๋ฐ๋ผ ์ฐ์์ ์ผ๋ก ๋ณํํ๋ ๋งค๋๋ฌ์ด ๊ธฐ์ ํจ์๋ก๋ถํฐ ์ถ์ถ๋ ํ๋ณธ์ด๋ค.
ํจ์ํ ๋ฐ์ดํฐ ๋ถ์(Functional Data Analysis, FDA) ์ ์ด๋ฌํ ์ฐ์์ฑ์ ์์ฉํ๋ค. FDA๋ ๊ด์ธก๊ฐ์ ์ซ์ ๋ฒกํฐ๋ก ์ฒ๋ฆฌํ๋ ๋์ , ๊ฐ ์๊ณ์ด์ ํจ์ ๊ณต๊ฐ์ ํ๋ณธ, ์ฆ ๋ฌดํ ์ฐจ์ ํจ์ ๊ณต๊ฐ(์ผ๋ฐ์ ์ผ๋ก Hilbert ๊ณต๊ฐ)์ ์์๋ก ์ทจ๊ธํ๋ค. ์ด ๊ด์ ์ ํจ์ํ ์ฃผ์ฑ๋ถ ๋ถ์(functional principal component analysis), ํจ์ํ ํ๊ท(functional regression), ์ฌ์ ํต Hilbert ๊ณต๊ฐ(reproducing kernel Hilbert spaces) ๋ฑ์ ์ํ์ ๋๊ตฌ๋ฅผ ํ์ฉํ ์ ์๊ฒ ํ๋ฉฐ, ์ด๋ฌํ ๋๊ตฌ๋ค์ ์ ํ ์ฐจ์์ ๋์๋ฌผ๋ณด๋ค ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๋ ์ถฉ์คํ๊ฒ ํฌ์ฐฉํ๋ค.
Sun et al.์ FDALLM+๋ ์๋ก์ด ํตํฉ ๋ฐฉ์์ ์ ์ํ๋ค. FDA๋ฅผ ์ฌ์ฉํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ ํ ์์ธก์ ์ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(large language model, LLM)์ ์
๋ ฅํ๋ ๋ฐฉ์์ด๋ค. Ju & Lee๋ ์ ์กฐ ํ์ง ์์ธก์ ์ํ FDA ๊ธฐ๋ฐ ํน์ง ์ถ์ถ(feature extraction)์ ํ๊ฐํ๋ค. ์ด ๋ ์ฐ๊ตฌ๋ ํจ์ ๊ณต๊ฐ์ ํ๋ถํ ์ํ์ ์ด๋ก ๊ณผ ํ๋ ์์ธก ์์คํ
์ ์ค์ฉ์ ์๊ตฌ ์ฌ์ด์ ๊ฐ๊ทน์ FDA๊ฐ ์ด๋ป๊ฒ ๋ฉ์ฐ๋์ง๋ฅผ ์ ๋ณด์ฌ์ค๋ค.
์ ๋ฒกํฐ๊ฐ ์๋ ํจ์์ธ๊ฐ?
ํจ์์ ๊ด์ ์ ๋ฒกํฐ์ ๊ด์ ์ ๋นํด ์ธ ๊ฐ์ง ์ฅ์ ์ ์ ๊ณตํ๋ค.
ํํ์ฑ ์ ์ฝ(Smoothness constraints): ์ค์ ๋ฌผ๋ฆฌ์ ๊ณผ์ ์ ์ผ๋ฐ์ ์ผ๋ก ๋งค๋๋ฝ๋ค. ์จ๋๋ ๋ถ์ฐ์์ ์ผ๋ก ๊ธ๋ณํ์ง ์์ผ๋ฉฐ, ๋คํธ์ํฌ ํธ๋ํฝ์ ๊ฐ ์ฌ์ด๋ฅผ ์๊ฐ ์ด๋ํ์ง ์๋๋ค. FDA๋ ๊ธฐ์ ์ ๊ฐ(basis expansion), ์ฆ ๊ฐ ๊ณก์ ์ B-์คํ๋ผ์ธ(B-splines)์ด๋ ํธ๋ฆฌ์ ๊ธ์(Fourier series)์ ๊ฐ์ ๋งค๋๋ฌ์ด ๊ธฐ์ ํจ์๋ค์ ๊ฐ์ค ์กฐํฉ์ผ๋ก ํํํจ์ผ๋ก์จ ํํ์ฑ์ ๋ณด์ฅํ๊ณ , ์ธก์ ์ก์์ ์ ๊ฑฐํ๋ ๋์์ ์ค์ ์ ํธ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ค.
์์ ๋ณ๋(Phase variation): ๋ ์๊ณ์ด์ ์๊ฐ ์ด๋๋ง ๋ค๋ฅผ ๋ฟ ๋์ผํ ๊ธฐ์ ํจํด์ ๋ํ๋ผ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ํ ๋์์์๋ ์ค์ 9์์, ๋ค๋ฅธ ๋์์์๋ ์ค์ 10์์ ์ ์ ์ ๋ณด์ด๋ ์ผ์ผ ๊ตํต ํจํด์ด ๊ทธ ์์ด๋ค. ํ์ค ๋ฒกํฐ ๋ฐฉ๋ฒ์ ์ด๋ฅผ ์๋ก ๋ค๋ฅธ ์ ํธ๋ก ์ฒ๋ฆฌํ์ง๋ง, FDA์ ๋ฑ๋ก(registration) ๊ธฐ๋ฒ์ ์ด๋ฅผ ์ ๋ ฌํ์ฌ ๊ณตํต ํจํด์ ๋๋ฌ๋ธ๋ค.
์ฐจ์ ์ถ์(Dimension reduction): ํจ์ํ PCA๋ ๊ณก์ ์งํฉ์์ ์ฃผ์ ๋ณ๋ ๋ชจ๋(principal modes of variation), ์ฆ ๋๋ถ๋ถ์ ๋ณ๋์ฑ์ ์ค๋ช
ํ๋ ์ง๋ฐฐ์ ์ธ ํํ๋ฅผ ์ถ์ถํ๋ค. ๋คํธ์ํฌ ํธ๋ํฝ์ ๊ฒฝ์ฐ, ์ด๋ฌํ ๋ชจ๋๋ ์ผ๋ณ ํจํด, ์ฃผ๋ณ ์ฃผ๊ธฐ, ๊ทธ๋ฆฌ๊ณ ์ด์ ์ด๋ฒคํธ๋ฅผ ๋ํ๋ผ ์ ์๋ค. ์ด๋ก์จ ๊ฐ ๊ณก์ ์ ์๋ฐฑ ๊ฐ์ ์ด์ฐ ์์ ๋์ ์์์ ํจ์ํ PC ์ ์(functional PC scores)๋ก ํํ๋๋ค.
FDALLM+: LLM ์
๋ ฅ์ผ๋ก์์ ํจ์
Sun et al.์ FDALLM+๋ FDA ์ ์ฒ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์์ ๋คํธ์ํฌ ํธ๋ํฝ ์๊ณ์ด์ ํจ์ํ ํํ์ผ๋ก ๋ณํํ ํ, ์์ธก์ ์ํ LLM์ ์
๋ ฅํ๋ค. ์ฒ๋ฆฌ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ธฐ์ ์ ๊ฐ: ์์ ํธ๋ํฝ ๋ฐ์ดํฐ๋ฅผ B-์คํ๋ผ์ธ ๊ธฐ์ ํจ์๋ค์ ๊ฐ์ค ์กฐํฉ์ผ๋ก ํํํ์ฌ ์ธก์ ์ก์์ ํํํํ๋ค.
ํจ์ํ PCA: ํธ๋ํฝ ๋ณ๋์ ์ฃผ์ ๋ชจ๋๋ฅผ ์ถ์ถํ๊ณ , ๊ฐ ์๊ณ์ด์ ๊ฐ๊ฒฐํ ์ ์ ์งํฉ์ผ๋ก ์์ถํ๋ค.
LLM ์์ธก: ํจ์ํ PC ์ ์๋ฅผ ํ ํฐํํ์ฌ ํธ๋ํฝ ์์ธก ํ์คํฌ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ (fine-tuned)๋ LLM์ ์
๋ ฅํ๋ค.
์ฌ๊ตฌ์ฑ: LLM์ด ์์ธกํ ์ ์๋ฅผ ํจ์ ๊ณต๊ฐ์ผ๋ก ์ญ๋งคํํ๊ณ , ์ํ๋ ์์ ์์ ํ๊ฐํ๋ค.FDA ์ ์ฒ๋ฆฌ๋ ์๊ณ์ด์ ๋ํ LLM์ ํ๊ณ๋ฅผ ๋ณด์ํ๋ค. LLM์ ์ด์ฐ ํ ํฐ์ ๊ธฐ๋ฐ์ผ๋ก ๋์ํ๋ฉฐ, ์๊ณ์ด ๋ฐ์ดํฐ์ ์ฐ์์ ์ธ ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์ธ์ฝ๋ฉํ์ง ๋ชปํ๋ค. FDALLM+๋ ๋จผ์ ํจ์ ๊ณต๊ฐ์ผ๋ก ํฌ์ํจ์ผ๋ก์จ, ์๊ฐ์ ํํ์ฑ, ์ฃผ๊ธฐ์ฑ, ๊ทธ๋ฆฌ๊ณ ์ฃผ์ ๋ณ๋ ํจํด์ ์ด๋ฏธ ์ธ์ฝ๋ฉํ ํํ์ LLM์ ์ ๊ณตํ๋ค.
์ ์กฐ ํ์ง: ์ผ์ ๋ฐ์ดํฐ๋ฅผ ์ํ FDA
Ju & Lee๋ FDA๋ฅผ ๋ค๋ฅธ ๋๋ฉ์ธ์ธ ๋ฐ๋์ฒด ์ ์กฐ์ ์ ์ฉํ๋ค. ์ด ๋๋ฉ์ธ์์๋ ์์ฐ ์ฅ๋น์ ์ผ์ ๋ฐ์ดํฐ๋ฅผ ์จ์ดํผ ํ์ง ์์ธก์ ํ์ฉํ๋ค. ์ ์กฐ ์ผ์ ๋ฐ์ดํฐ๋ ๊ณ ์ฃผํ์, ๊ณ ์ฐจ์, ์๊ฐ ๊ตฌ์กฐ์ ํน์ฑ์ ์ง๋๋ฉฐ, ์ด๋ FDA์ ์ด์์ ์ธ ์ ์ฉ ๋์์ด ๋๋ค.
์ง๋ ํ์ต์์ FDA ๊ธฐ๋ฐ ํน์ฑ๊ณผ ์์ฝ ํต๊ณ๋(ํ๊ท , ๋ถ์ฐ, ์๋)์ ๋น๊ตํ ๊ฒฐ๊ณผ, FDA ํน์ฑ์ธ ํจ์ํ PC ์ ์๊ฐ ์์ฝ ํต๊ณ๋์ผ๋ก๋ ํฌ์ฐฉํ์ง ๋ชปํ๋ ์๊ฐ์ ํจํด(ํํ ํํ, ๊ณผ๋ ๋ํน์ฑ)์ ์ก์๋ธ๋ค๋ ๊ฒ์ด ๋๋ฌ๋๋ค. ์ผ์ ์ธก์ ๊ฐ์ ํ๊ท ๋ณด๋ค ์๊ฐ์ ํํ๊ฐ ๋ ์ค์ํ ํ์ง ์์ธก ๊ณผ์ ์์ FDA ํน์ฑ์ ์ธก์ ๊ฐ๋ฅํ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ๋ค.
์ฃผ์ฅ๊ณผ ๊ทผ๊ฑฐ
<
| ์ฃผ์ฅ | ๊ทผ๊ฑฐ | ํ์ |
|---|
| FDA๋ ์ด์ฐ์ ๋ฐฉ๋ฒ์ด ๋์น๋ ์๊ฐ์ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ๋ค | ์ด๋ก ์ ๋
ผ๊ฑฐ + ์ ์กฐ ๋ถ์ผ ์ค์ฆ ๊ทผ๊ฑฐ | โ
์ถฉ๋ถํ ํ๋ฆฝ๋จ |
| FDA ์ ์ฒ๋ฆฌ๋ LLM ์๊ณ์ด ์์ธก์ ๊ฐ์ ํ๋ค | FDALLM+๊ฐ ๋คํธ์ํฌ ํธ๋ํฝ์์ ์ค์ฆ | โ
์ง์ง๋จ |
| ํจ์ํ PCA๋ ๊ณก์ ์ ๋ํ ํจ๊ณผ์ ์ธ ์ฐจ์ ์ถ์๋ฅผ ์ ๊ณตํ๋ค | FDA์ ํต์ฌ ๊ฒฐ๊ณผ; ๊ด๋ฒ์ํ๊ฒ ๊ฒ์ฆ๋จ | โ
์ถฉ๋ถํ ํ๋ฆฝ๋จ |
| FDA ํน์ฑ์ด ํ์ง ์์ธก์์ ์์ฝ ํต๊ณ๋์ ๋ฅ๊ฐํ๋ค | Ju & Lee์ ๋ฐ๋์ฒด ๋ฐ์ดํฐ ๋น๊ต ํ๊ฐ | โ
์ง์ง๋จ |
| FDA๋ ๋๊ท๋ชจ ์๊ณ์ด์์ ๊ณ์ฐ์ ์ผ๋ก ์คํ ๊ฐ๋ฅํ๋ค | ๊ธฐ์ ์ ๊ฐ์ FPCA๋ ํจ์จ์ ์ด๋, ์๋ฐฑ๋ง ๊ฐ์ ๊ณก์ ์ผ๋ก ํ์ฅํ๋ ค๋ฉด ์ฃผ์๊ฐ ํ์ํจ | โ ๏ธ ์ ์ ํ ๊ตฌํ์ผ๋ก ํ์ฅ ๊ฐ๋ฅ |
๋ฏธํด๊ฒฐ ๋ฌธ์
๊ธฐ์ ์ ํ: ๊ธฐ์ ํจ์(B-์คํ๋ผ์ธ, ํธ๋ฆฌ์, ์จ์ด๋ธ๋ฆฟ)์ ์ ํ์ ํจ์ํ ํํ์ ์ํฅ์ ๋ฏธ์น๋ค. ํน์ ๋๋ฉ์ธ์ ์ต์ ์ธ ๊ธฐ์ ๋ฅผ ์ด๋ป๊ฒ ์ ํํ ๊ฒ์ธ๊ฐ? ๋ฐ์ดํฐ๋ก๋ถํฐ ๊ธฐ์ ๋ฅผ ํ์ตํ ์ ์๋๊ฐ?๋ถ๊ท์น ์ํ๋ง: FDA๋ ๊ณก์ ์ด ๊ท์น์ ์ธ ๊ฐ๊ฒฉ์ผ๋ก ๊ด์ธก๋๊ฑฐ๋ ๋งค๋๋ฝ๊ฒ ๋ณด๊ฐ๋ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ค. ๋ถ๊ท์นํ๊ฒ ์ํ๋ง๋ ๋ฐ์ดํฐ(์์ ์ธก์ ๊ฐ, ์ด๋ฒคํธ ๊ธฐ๋ฐ ์ผ์)์์๋ ํจ์ํ ํํ์ ์ด๋ป๊ฒ ๊ตฌ์ฑํ ๊ฒ์ธ๊ฐ?ํจ์ํ ๋ฅ๋ฌ๋: ์ ๊ฒฝ๋ง ์ํคํ
์ฒ๊ฐ ์ ํ ๊ธฐ์ ๋ก ์ด์ฐํํ๊ฑฐ๋ ํฌ์ํ์ง ์๊ณ ํจ์๊ฐ ์
๋ ฅ์ ์ง์ ์๋ํ๋๋ก ์ค๊ณ๋ ์ ์๋๊ฐ? ํจ์ํ ์ ๊ฒฝ๋ง์ ์ ํฅ ์ฐ๊ตฌ ๋ฐฉํฅ์ด๋ค.๋ค๋ณ๋ ํจ์ํ ๋ฐ์ดํฐ: ์ค์ ์์คํ
์ ์ฌ๋ฌ ๊ฐ์ ์๊ด๋ ์๊ณ์ด(๋ค๋ณ๋ ํจ์)์ ์์ฑํ๋ค. ํจ์ ๊ฐ ์์กด์ฑ, ์๋ฅผ ๋ค์ด ์ ์กฐ ๊ณต์ ์์ ์จ๋ ๊ณก์ ๊ณผ ์๋ ฅ ๊ณก์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๋๋ก FDA๋ฅผ ์ด๋ป๊ฒ ํ์ฅํ ๊ฒ์ธ๊ฐ?์ฐ๊ตฌ์ ์ฃผ๋ ์์ฌ์
ํต๊ณํ์์๊ฒ FDA๋ ์๊ฐ์ ๋ฐ์ดํฐ์ ์ฐ์์ ํน์ฑ์ ์กด์คํ๋ ์ํ์ ์ผ๋ก ์๋ฐํ ์๊ณ์ด ๋ถ์ ํ๋ ์์ํฌ๋ฅผ ์ ๊ณตํ๋ค. ์ด๋ก ์ ์ฑ์ํด ์์ผ๋ฉฐ, ๋ฐ์ดํฐ ์์ง์ด ๊ณ ์ฃผํ์ํยท์ฐ์ํ๋จ์ ๋ฐ๋ผ ์์ฉ์ ๋น ๋ฅด๊ฒ ํ์ฅ๋๊ณ ์๋ค.
ML ์ค๋ฌด์์๊ฒ FDA ์ ์ฒ๋ฆฌ(๊ธฐ์ ์ ๊ฐ + ํจ์ํ PCA)๋ ์๊ณ์ด ๋ฐ์ดํฐ์ ๋ํ ์๊ธฐ์๋ณ์ ํน์ฑ ๊ณตํ์ ์์น์ ๋์์ ์ ๊ณตํ๋ค. FDALLM+ ํตํฉ์ ์ด ์ ์ฒ๋ฆฌ๊ฐ ํ๋ ๋ฅ๋ฌ๋ ์ํคํ
์ฒ์ ํธํ๋จ์ ์ค์ฆํ๋ค.
์ ์กฐ, ํต์ , ํ๊ฒฝ ๋ชจ๋ํฐ๋ง ๋ถ์ผ์ ๋๋ฉ์ธ ๊ณผํ์์๊ฒ FDA๋ ํด์ ๊ฐ๋ฅํ ํน์ฑ(๋ณ๋์ ์ฃผ์ ๋ชจ๋)์ ์ ๊ณตํ์ฌ, ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๊ฐ ์ด๋ฅผ ๊ฒํ ํ๊ณ ๋ฌผ๋ฆฌ์ ๊ณผ์ ๊ณผ ์ฐ๊ฒฐํ ์ ์๊ฒ ํ๋ค. ์ด๋ ๋ธ๋๋ฐ์ค ํน์ฑ ์ถ์ถ์ ๋นํด ํฌ๋ช
์ฑ ๋ฉด์์ ์ฅ์ ์ด ๋๋ค.
References (2)
[1] Sun, Y., Wang, X., Cao, G. (2025). FDALLM+: A Functional Data Analysis-Driven Large-Language Model Framework for Network Traffic Prediction. IEEE Journal of IoT.
[2] Ju, Y. & Lee, Y. (2025). Performance Evaluation of Supervised Learning Model Based on Functional Data Analysis and Summary Statistics. IEEE TSM.