← Documents

수학과 통계의 관계

내가 생각하는 수학과 통계에 대한 생각을 풀어놓은 글이다. 2020년에 ppt에 정리함으로써 위의 관계에 대해 생각해보았다. 전부터 자신이 이해한 방식대로 수학에서 중요한 부분들을 서술해보고자 했는데, 이번 기회에 한 번 서술해 보고자 한다.

내 생각의 결론은 다음과 같다.

📌
\[ (\text{수학} - \text{Deterministic}) \; + \; \text{uncertainty} \;=\; (\text{통계} - \text{Stochastic}) \]

간단하게 uncertainty(불확실성)를 독립적으로 더했지만, 단순하게 표현하기 위함이다. 위와 같이 Linear 한 성질이 아니라 내재되어 있는 Non-linear 성질일지도 모른다. 그리고 난 수학을 통계에 포함된다고 보았고, 통계에서 Averaged 된 값을 가지고 Deterministic 하게 다루는 것이라 보았다.


1. 수학에서 문제를 푼다는 것은?

우리가 현실 또는 가상에서 접하는 문제(물리적 문제)를 수학적으로 정의된 실제 공간(Real space) 이든 가상 공간(Complex space) 이든 그 위에 점, 직선, 곡선, 평면, 곡면, 또는 부피 등의 조합으로 표현이 가능하며, 공간상 표현된 수식(물리적 문제)에 대해 연산을 통하여 조정하고 연산하여 원하는 값(의미적으로 원하는 현상)을 얻어내는 것을 의미한다.

즉, 우리가 원하는 어떤 현상 \(g(x,y,z,t)\) 를 또 다른 수학적 표현 \(f(x,y,z,t)\) 로 옮겨 다루는 것이 수학인 셈이다.

2. 현상의 분류 — Vector와 Scalar

일반적인 물리적, 인간적 현상은 힘, 속도 등과 같이 방향과 크기를 가지고 있는 현상을 Vector, 압력, 온도, 금액, 양 등과 같이 크기만을 가지고 있는 현상을 Scalar 라 한다. 그렇다면 이런 실제 문제를 어떻게 수학으로 가져올 것인가(How to take a real problem into math?) 가 출발점이 된다.

Vector 방향 + 크기 Scalar 크기만
방향성의 유무로 나뉘는 두 현상

3. 실험 데이터 기반의 수식 모델링 (귀납적 방법)

[실험 Data 기반의 수식 Modeling] – 귀납적 방법(inductive) 이다. 자연 현상들 사이에서는 ‘규칙’이라는 것이 존재하는데, 이 규칙의 신뢰도(그 규칙의 정밀도, 얼마나 잘 맞는 규칙인가, 밀접한 관계) 또한 존재한다. 이 ‘규칙’을 상관관계 라 하며, 규칙에 대한 신뢰도(밀접한 정도)를 상관관계의 계수 로 표현한다.

상관관계의 존재 이유는 곧 불확실성 이다. (사회가 설명하지 못하는 다른 변수들이 존재하여 수식에 반영하지 못하는 경우다.) 두 변수 \(A,B\) 의 상관관계는 보통 다음 선형식으로 나타낸다.

\[ B = wA + b \;\cdots\,(1) \qquad (\rho:\ \text{상관계수}) \]

위 [Figure 01] 의 (a), (b) 처럼 \(A\) 가 증가함에 \(B\) 가 증가하는 경향을 보인다(양의 상관관계). 즉 상관관계라는 것은 상관성에 의해 하나의 변수의 변화에 따라 다른 변수로 영향(변화)을 주는 경우 를 의미한다.

4. 상관관계 ≠ 인과관계

하지만, 두 변수 사이에는 원인과 결과에 대한 관계가 규명되어 있다고 말할 수 없다. 이 말은 무슨 말을 하고 하나? 두 가지로 나눠 보자.

① A가 B의 원인인지, B가 A의 원인인지 단정지을 수 없다 (Key word: 시간의 우선성)

우리가 알고 있는 사실은 단순히 \(A\) 와 \(B\) 가 같이 증가하는 경향(상관성)이 있다라는 것이지, \(A\) 가 증가해서 \(B\) 가 증가하는지 \(B\) 가 증가해서 \(A\) 가 증가하는지는 알 수 없다(시간의 우선성이 정해져 있지 않는 것).

② ‘A가 B의 직접적인 원인인가?’ or ‘B가 A의 직접적인 원인인가?’ (Key word: 직접적인 원인)

시간의 우선성이 정해져 \(A\) 에 의해 \(B\) 의 사건이 일어난다고 한다면, 과연 \(A\) 는 \(B\) 의 직접적인 원인이 될 것인가? \(A\) 라는 변수는 사실 \(C\) 라는 변수를 움직이게 되고, 실질적으로 \(C\) 가 \(B\) 라는 변수의 원인이 될 수 있지 않을까 하는 것이다.

상관관계 (간접 · 큰 불확실성) A C B Noise (uncertainty) ↑ 인과관계 (직접 · 작은 불확실성) A B Noise (uncertainty) ↓
같은 “A→B” 라도 숨은 변수 C가 끼면 불확실성이 커진다
🧭

결론: 상관관계와 인과관계는 다르다 (상관관계 안에 인과관계가 포함된다). 상관관계는 단순 통계적 분석 이고, 인과관계는 통계적 분석에서 과학적 분석과 해석으로 넘어간 경우 다.

5. 수학적으로 본 두 관계의 차이 = 분산

수학적으로 상관관계와 인과관계의 차이를 알아보고자 한다(여기에 통계적 개념이 같이 들어가게 된다). 다시 [Figure 01] 을 참고해 보도록 하자. (a)와 (b)의 차이는 무엇일까? 바로 상관관계식 \(B=wA+b\) 선 위에 실제 측정한 데이터들이 흩어져 있는 정도가 다르다(분산이 다르다) 는 것이다.

(a) 같은 \(A\) 값에서 분산이 크게 존재 → 여러 경우의 \(B\) → 상관관계
(b) 같은 \(A\) 값에서 분산이 작게 존재 → \(B\) 가 일정 → 인과관계

(a)의 경우 같은 \(A\) 값에서 분산이 크게 존재하여 상대적으로 여러 경우의 \(B\) 의 값이 존재한다(불확실성이 크다. 직접적인 원인이 아닌 경우 중간 단계의 불확실성이 첨가되어 분산이 더 커질 가능성이 존재한다). (b)의 경우 같은 \(A\) 값에서 분산이 작게 존재하여 상대적으로 \(B\) 의 값이 일정하다(직접적인 원인일 경우 중간 변수를 거치지 않고 바로 \(B\) 가 일어나기 때문에 불확실성이 적어 분산이 작아진다).

6. 신뢰 정도의 척도 — 상관계수

(a)의 경우 규칙에 대한 신뢰정도(일정정도)가 작고(같은 \(A\) 일 때 다양한 경우의 \(B\) 가 많이 존재하니까 → 상관계수 작다), (b)의 경우 규칙에 대한 신뢰정도가 높다(같은 \(A\) 일 때 거의 일정한 \(B\) 가 존재하니까 → 상관계수 크다). 이에 대한 신뢰정도(일정한 정도)를 나타내는 것은 ‘상관계수(Correlation coefficient)’ 라는 통계량으로 알아본다.

\[ \gamma_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y} = \frac{E\big[(X-\mu_X)(Y-\mu_Y)\big]}{\sigma_X \sigma_Y} \]

여기서는 \((X=A,\ Y=B)\) 로 간주한다. 위의 식에 대한 의미는 각 평균으로부터의 거리에 대해서 정도를 측정해 놓은 것 이다. 그리고 실제로 우리가 가지고 있는 것은 모집단이 아닌 표본 을 가지고 있으므로, DOF(자유도)에 의해 평균은 \(n\) 이 아닌 \(n-1\) 로 나눈다.

\[ \gamma_{X,Y} = \frac{\mathrm{Cov}(X,Y)}{S_X S_Y} = \frac{\sum (X-\bar X)(Y-\bar Y)}{(n-1)\,S_X S_Y} \;\cdots\,(3) \]
[Figure 02] \(\gamma_{X,Y}\) 값에 따른 데이터 분포 (좌 → 우: \(+0.9,\ +0.5,\ 0,\ -0.5,\ -0.9\))

즉 (a)의 상관계수 \(\rho_1\) 보다 (b)의 상관계수 \(\rho_2\) 가 크다 \((\rho_1 < \rho_2)\).

7. 수학과 통계학의 연결지점 — 평균(average)

위에서 내릴 결론은, 상관관계(관계의 여부)가 있어도 상관계수(관계의 일정도)에 따라 그 상관관계식에 대한 신뢰도는 달라진다는 것이다(실제로 그 상관관계식을 믿어야 할지에 대한 여부).

여기서 \(A, B\) 는 실제로는 확률변수(Random variable) 이다. 이는 본질적으로 분포를 갖는 Stochastic 한 문제 다. 그런데 Deterministic 한 상관관계식을 어떻게 세울까? 분포를 갖는다면 우리는 이 불확실성을 정량화시켜 판단하는 통계학이 들어갈 수밖에 없다. 그리고 우리는 보통 모수 통계학 을 기반으로 가정하는데, 모수-통계학에서는 모집단은 Gaussian distribution 을 갖는다고 가정을 한다.

그리고 하나의 Deterministic 한 상관관계식을 세우기 위해 ‘Least square method’ 를 이용하여 관계식 – (회귀식)을 세운다. 이때 오차에 대한 4가지 가정(가우스-마코프 가정) 이 따라온다.

\[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \qquad(\text{Linear curve fitting example}) \]
  1. 임의의 주어진 \(X_i\) 값에 대한 오차 \(\varepsilon_i\) 의 평균 \(E(\varepsilon_i)=0\) 이다.
  2. 모든 \(X_i\) 값에 대한 오차의 분산 \(\mathrm{Var}(\varepsilon_i)=\sigma^2\) 으로 일정하다 (등분산).
  3. 오차 \(\varepsilon_i\) 는 정규성 Normality 를 따른다.
  4. 각 오차들 간에는 독립적이다. \(\big(\varepsilon_i \overset{iid}{\sim} N(0,\sigma^2)\big)\)

이때 동시에 모집단의 상관관계식에서의 오차에 대한 가정들이 맞아야 상관관계식의 신뢰도가 보증된다.

8. 회귀식과 최소자승법

오차에 대한 4가지 가정 하에서, 모든 \(X_i\) 들마다에 대한 모든 \(Y_i\) 의 분포에서 대푯값(평균)이 이루는 값들을 선으로 이을 수 있는데, 이 직선이 회귀식이 된다. 동시에 모든 데이터들과 임의의 직선 사이의 거리의 합 \(\big(\sum d_i^2\big)\) 이 최소가 되는 값을 계산하여 직선식을 세운다(최소 자승법).

[Figure 03] 각 \(X_i\) 마다 \(Y_i\) 는 분포를 갖고, 그 대푯값(평균) 들을 이은 빨간 점선이 곧 회귀선이 된다
\[ \min \sum_i d_i^{\,2} = \min \sum_i \big(Y_i - \hat Y_i\big)^2 \]
최소자승법: 각 점과 직선 사이 거리(잔차) \(d_i\) 의 제곱합 \(\sum d_i^2\) 을 최소화

우리는 통계학(Stochastic)과 수학(Deterministic) 사이를 이어주는 개념으로써, 분포(Stochastic domain)에서 평균(Average)을 넘음으로써 그 평균값(하나의 대푯값)을 이용하여 수식을 만들고(직선, 곡선, 평면 등) 미분 방정식 등을 풀어낸다.

\[ B = A \quad\Longrightarrow\quad \bar B = \bar A \qquad(\bar A:\ \text{average of } A) \]

하나 이슈가 될 수 있는 것은 분포(Distribution)이다. 왜냐하면 \(y\) 값이라는 것이 어느 정도의 분포를 가지고 있는데, 이를 하나의 대푯값으로써 평균의 개념을 써서 Deterministic 한 변수로서 사용하기 때문이다.

9. 만약 4가지 가정이 맞지 않는다면?

만약 위의 4가지 가정들이 맞지 않고 단순히 최소 자승법을 한다면 어떻게 될까? 하나씩 보자.

4가지 가정이 깨진 경우 — 분포의 평균(빨간 점)이 회귀선(파란선)에서 벗어나거나 대표성을 잃는다
  • ① \(E(\varepsilon_i)\neq 0\) 이면 — 4가지 가정 하에서는 최소자승법으로 만든 회귀식과 분포의 평균이 일치하는데, 이 경우는 편향이 생겨 달라진다. 분포의 평균과 회귀곡선식(최소자승법으로 그려진)이 편향이 되어버려 정확한 평균값을 예측하기 힘들어진다.
  • ② \(\mathrm{Var}(\varepsilon_i)=\sigma^2 \neq C\) (등분산이 아니라면) — \(Y_i \sim N(\beta_0+\beta_1 X_i,\ \sigma^2)\) 에서 분산이 더 달라지므로 위와 같은 일정한 분산은 더 이상 성립하지 않을 것이다. 계산상 Distribution 형태가 분산에 따라 계속 달라지므로 힘들어진다.
  • ③ 정규성(Normality)을 따르지 않으면 — (1) 정규성이 보장되어 있지 않으면 분포에 대한 평균이 직선에서 벗어날 수도 있다(편향). (2) 평균이 직선 위에 있다 해도 분포상 양쪽으로 치우쳐 있는 분포라면 평균값에 대한 대표성이 사라진다.
  • ④ 각 오차가 독립적이지 않으면 — 서로 다른 \(X_i\) 에 대한 분포가 서로 영향을 주게 된다(\(N(Y_i\mid X_1),\ N(Y_i\mid X_2)\)). 독립적이지 않으면 상관관계를 추적하는 것도 힘들고 계산량도 많아진다.

→ 즉, 4가지 가정이 맞지 않을수록 최소자승법을 사용한 결과의 값들(상관관계식 위의 값)은 더 이상 분포상의 평균(기댓값)과 일치하지 않게 된다.

10. 모집단 vs 표본

여태까지는 모집단에 대해서 알아 보았다. 하지만, 실제로 우리는 모집단은 추정 할 수만 있을 뿐 알 수 없는 집단 이다. 그래서 표본을 뽑아서 모집단을 추정하는 것을 모수 통계학의 목표 로 두고 있다.

모집단 (Universe) Yₐ = β₀ + β₁Xₐ μ, σ² (모수) Sample Data 추정 ŷ = b₀ + b₁x 표본 회귀식
우리가 가진 데이터는 표본이며, 표본 Curve fitting ≠ 모집단 Curve fitting

우리가 보통 가지고 있는 데이터는 모두 표본의 데이터로 Curve fitting 을 하는 것이지 모집단의 데이터로 Curve fitting 하는 것이 아니다(표본: \(\hat y = b_0 + b_1 x_i\), 모집단: \(Y_i = \beta_0 + \beta_1 X_i\)). ① 이에 따라 가설검정을 하여 모수에 대한 신뢰구간까지 표기해 주어야 한다.

11. 잔차로 4가지 가정을 확인

② 그리고 모집단에서 상관관계식을 만들 때 사용되었던 오차에 대한 4가지 가정이 잔차에서도 성립하는지 확인해야 한다. 앞에서 (4가지 가정 하에) 모집단에서의 상관관계식의 특징은 ‘각 분포의 평균값 = 상관관계의 값’ 이었다. 우리는 확률적인 요소를 하나의 대푯값으로써 Deterministic 하게 사용하고 싶은 것이다.

그런데 오차에 대한 개념은 모집단의 상관관계식(모수)과 실제 값의 차이이기 때문에 우리는 알 수 없다. 이 때문에 우리가 가지고 있는 것은 표본이고, 실제로 측정 가능한 것은 잔차 이므로 잔차에 대한 평균을 구해 보는 것이다. 잔차는 오차에 대한 최상의 정보를 제공하고 있다. 데이터를 가지고 상관관계식을 세울 때 세부적으로 봐야 할 순서는 다음과 같다(무작정 Least square method 로 수식 세우고 끝내는 게 아니다).

  1. 상관관계가 존재하는지 확인한다.
  2. Least square method 를 사용하여 상관관계식을 얻는다.
  3. 표본에 대한 상관식이기에 모수 추정을 하여 신뢰구간을 표시해보자.
  4. 잔차에 대해 앞서 알아본 오차에 대한 4가지 가정이 잘 맞는지 확인해야 한다. (과연 평균을 통하여 Deterministic 하게 표현을 해도 유효한가? — 평균에 대한 신뢰도를 알아보기 위함)
  5. 각 \(X_i\) 값에 대한 \(Y_i\) 의 분산(표준편차)에 대해서도 확인해야 한다 (상관계수).

12. 정리 (Summary)

🧩

표본(Sample)에서, 평균(Average) 을 통해 Stochastic 을 Deterministic 으로 넘긴다.

\[ \underbrace{y = b_0 + b_1 x_i}_{\text{Stochastic}} \;\xrightarrow{\ \text{Average}\ }\; \underbrace{\bar y = b_0 + b_1 \bar x_i}_{\text{Deterministic}} \]

“\(y = f(x)\) Deterministic equation 이 Stochastic 의 \(Y=f(x)\) 식을 충분히 대표할 수 있을까?” 를 확인하려면:

  • Check A. 잔차에 대해 앞서 알아본 오차에 대한 4가지 가정이 잘 맞는지 확인 → 정확도
  • Check B. 각 \(X_i\) 값에 대한 \(Y_i\) 의 분산(표준편차)도 확인 (상관계수) → 정밀도
  • Check C. 표본에 대한 상관식이기에 모수 추정을 하여 신뢰구간을 표시

그렇게 모집단(Universe) \(Y_i=\beta_0+\beta_1 X_i\) 로 향한다. 이것이 곧 통계식에서 수학식으로 넘어가는 과정(불확실성을 처리하는 방법) 이다.


참고 ① Control factor

전체 분포 \(f(Y_i)\) 만 따져 보았을 때는 \(p_2\) 가 가장 커서 빨간 부분에서 많이 추출되어야 한다. 그런데 조건부 확률 — \(X_1\) 일 때, \(X_2\) 또는 \(X_3\) 일 때 \(f(Y_i\mid X_k)\) — 에 따라 많이 추출되는 부분이 달라진다. 즉, 조건부로 하나의 확률변수를 Control 함으로써 다른 확률변수의 분포를 다르게 Control 할 수 있음을 암시한다. 이것이 \(X\) 와 \(Y\) 사이의 상관관계 때문에 발생하는 현상이다(상관식을 보면 알 수 있다).

(좌) 전체 분포 \(f(Y_i)\) 와 조건 \(X_k\) 에 따른 조건부 분포  ·  (우) 조건부 분포들이 이루는 분포 surface 예시

참고 ② 과학적 사고의 수식 모델링 — 연역적 방법(deductive)

위가 귀납적 방법이었다면, [과학적 사고의 수식 Modeling] – 연역적 방법(deductive) 도 있다. 열역학, 유체역학, 고체역학, 동역학 등에서 과학적 현상을 기반으로(법칙 등을 믿고) 모델링하는 경우가 이에 해당된다. 모델링부터 Deterministic 하게 작동한다고 가정하기 때문에(일정 Error 를 믿고 시작한다), Homogeneous · 1-Dimensional · Isotropic 등의 가정이 이에 해당된다.

  • 열역학 — 하나의 System 을 보기 때문에 Control volume, System 단위 Equation 을 만드는 경우가 많다.
  • 고체역학 — Torsion, Tension, Compression, Bending 등 Differential(element) 단위에서 시작해서 전체로 합치는 경우가 많다 (Stress point 개념을 주로 쓰기 때문에).
  • 동역학 — Material 의 한 지점에 대한 응력을 계산하는 것이 아닌, (Kinetics & Kinematics) \(F=ma\) 를 기반으로 Motion 에 대해 알아보기 때문에 이 또한 System 단위로 보는 경우가 많다.
  • 유체역학 — Control volume, System 단위로 보는 경우(Reynolds Transport theorem)와 Differential(element) 단위로 보는 경우(Navier–Stokes equation)가 다 존재한다.

Motion 을 알아볼 때 기반이 되는 관계식은 \(F=ma\), Energy 에 대한 Equation 은 Energy conservation 이다(운동량 보존법칙, 열역학 제2법칙(엔트로피) 등도 존재). 위 두 식이 거의 관계식의 시작점이 된다. 시작점부터 Stochastic 한 수식에서 넘어온 Deterministic 한 수식을 사용하는 셈이다.

위의 경우는 불확실성 요소를 다루기 위한 하나의 방법을 제시한 것뿐이다. 위에서 통계학의 개념과 수학의 개념을 이은 방법은 적률법(Moment method) 이라는 전통통계학적인 방법으로 보여 준 것이다. 위의 전통적인 Moment method estimate 말고도 MLE(Maximum Likelihood Estimate) 또한 존재한다.

원본 PPT 슬라이드 보기 (2020년에 정리한 원본 15장)
slide slide slide slide slide slide slide slide slide slide slide slide slide slide slide