[ 데이터 분석 심화 ] - 통계학 기초 ( 5주차 )
데이터 분석의 핵심 도구인 상관계수에 대해 완벽하게 정리.
상관계수는 변수 간의 관계를 수치로 나타내어 데이터의 흐름을 파악하게 해주는 아주 유용한 지표.
1. 피어슨 상관계수 (Pearson Correlation)
"가장 대표적으로 쓰이는 선형 관계의 척도"
- 정의: 두 연속형 변수 사이의 선형(직선) 관계가 얼마나 강한지 측정
- 1: 완전한 양의 선형 관계 (한쪽이 늘면 다른 쪽도 일정하게 늘어남)
- -1: 완전한 음의 선형 관계 (한쪽이 늘면 다른 쪽은 일정하게 줄어듦)
- 0: 선형 관계가 전혀 없음
- 값의 범위: -1에서 1 사이의 값을 가진다.
- 언제 쓸까? 선형적인 관계가 예상될 때 사용하며, 대표적으로 공부 시간과 시험 점수의 관계 분석이 있다
- 주의사항: 비선형 관계(곡선 형태 등)에서는 적절한 결과를 얻을 수 없습니다.
2. 비모수 상관계수 (Non-parametric Correlation)
"데이터가 예쁘게 정규분포를 따르지 않을 때의 해결사"
데이터 분포에 대한 가정 없이, 변수들이 순서형 데이터이거나 정규분포가 아닐 때 사용.
가. 스피어만 상관계수 (Spearman Rank Correlation)
특징: 수치 자체가 아닌 순위(Rank) 간의 일관성을 측정.
- 민감도: 아래의 켄달 타우보다 데이터 내 편차나 에러에 더 민감하게 반응.
나. 켄달의 타우 (Kendall's Tau)
- 특징: 두 변수 간의 순위 일관성을 측정하며, 비선형 관계를 탐지하는 데 유용.
- 계산 방식: 일치 쌍(키도 크고 몸무게도 많이 나감)과 불일치 쌍(키는 큰데 몸무게는 적음)의 비율로 계산.
3. 상호정보 상관계수 (Mutual Information)
- 정의: 두 변수 간의 정보 의존성을 측정하여 강한 비선형 의존성을 찾아냄.
- 핵심 원리: 한 변수를 알게 됨으로써 다른 변수에 대한 불확실성이 얼마나 줄어드는지를 계산.
- 장점: 숫자뿐만 아니라 범주형 데이터('cat', 'dog' 등)에도 적용이 가능하다는 것이 큰 특징.
- 언제 쓸까? 관계가 매우 복잡하거나 선형성을 기대하기 어려운 데이터를 분석할 때 유용.
[ 데이터 분석 심화 ] - 통계학 기초 ( 라이브 세션 )
1. 확률분포 (Probability Distribution)
- 정의: 확률변수가 특정한 값을 가질 확률을 나타내는 함수.
- 정규분포 (Normal Distribution): 가장 대표적인 분포로, 좌우 대칭인 종 모양을 띰. 자연 현상이나 사회적 데이터의 많은 부분이 이 분포를 따른다
- 표준정규분포: 평균이 0이고 표준편차가 1인 정규분포를 의미.
2. 점추정과 구간추정
- 점추정 (Point Estimation): '평균은 70점일 것이다'처럼 하나의 값으로 모수를 추정하는 방식.
- 구간추정 (Interval Estimation): '평균은 65점에서 75점 사이에 있을 것이다'처럼 범위를 정해 추정하는 방식.
- 신뢰구간 (Confidence Interval): 구간추정 시 모수가 실제로 포함될 것으로 기대되는 범위. 보통 95% 또는 99% 신뢰수준을 많이 사용.
3. 가설검정 (Hypothesis Testing)
모집단에 대한 가설이 통계적으로 유의미한지 판단하는 과정
🧪 두 가지 가설
- 귀무가설 (H0): '차이가 없다' 또는 '효과가 없다'는 기본 가설. 우리가 기각하고 싶은 가설이기도 한다.
- 대립가설 (H1): '차이가 있다'는 가설로, 우리가 새롭게 증명하고자 하는 주장.
📉 유의수준과 p-value
- 유의수준 (alpha): 귀무가설이 맞는데도 실수로 기각할 확률의 최대 허용치 (보통 0.05로 설정).
- p < 0.05: 귀무가설을 기각 (통계적으로 유의미한 차이가 있음).
- p > 0.05: 귀무가설을 기각하지 못함 (차이가 있다고 보기 어려움).
- p-value (유의확률): 귀무가설이 맞다는 전제하에, 현재 데이터와 같은 결과가 나올 확률.
[ 데이터 분석 심화 ] - 머신러닝 ( 1-6 ~ 1-12 )
선형회귀의 기본 원리
변수 X(독립변수)와 Y(종속변수) 사이의 관계를 가장 잘 설명하는 하나의 직선을 찾는 것이 목표.
- 수식: Y = wX + b
- w (가중치, Weight): 직선의 기울기. X가 변할 때 Y가 얼마나 변하는지 결정.
- b(편향, Bias): Y축과 만나는 절편.
- 예시: 몸무게(X)를 알면 키(Y)를 예측하거나, 전체 식사 금액을 통해 팁을 예측하는 사례가 대표적.
2. 모델이 얼마나 정확할까? (평가 지표)
직선을 그렸다면, 이 직선이 실제 데이터와 얼마나 차이가 나는지 확인해야 한다
- MSE (Mean Squared Error): 실제값과 예측값의 차이(에러)를 제곱하여 평균을 낸 값. 이 값이 작을수록 모델의 성능이 좋다.
- RMSE: MSE에 루트를 씌워 실제 단위와 맞춘 지표.
- R^2 (결정계수): 모델이 데이터를 얼마나 잘 설명하는지 나타내는 비율. 1에 가까울수록 완벽한 모델이라고 평가.
3. 선형회귀의 4가지 필수 가정
데이터가 선형회귀 모델에 적합하려면 다음 조건들을 만족해야 분석 결과의 신뢰도가 높아짐.
- 선형성: X와 Y 사이에 직선적인 관계가 있어야 한다.
- 독립성: 독립변수들끼리 서로 너무 밀접한 관련이 없어야 한다.
- 등분산성: 오차의 분산이 모든 구간에서 일정해야 한다 (특정 패턴이 없어야 함).
- 정규성: 오차의 분포가 정규분포를 따라야 한다.
4. 한 단계 더 나아가기: 심화 회귀
단순한 직선으로 설명되지 않는 복잡한 데이터는 다음과 같은 방식으로 해결.
- 다중선형회귀: X변수가 여러 개인 경우 (예: 집값 예측 시 평수, 위치, 연식 등 고려).
- 다항회귀: 데이터가 곡선 형태일 때 X^2 등 변수를 변형하여 성능을 높임.
- 범주형 데이터 활용: '성별', '요일' 같은 숫자가 아닌 데이터는 원-핫 인코딩 등을 통해 수치화하여 모델에 입력.
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 30일차 ) (0) | 2026.04.17 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 29일차 ) (0) | 2026.04.16 |
| [내일배움캠프] QA/QC_5기 ( 27일차 ) (2) | 2026.04.14 |
| [내일배움캠프] QA/QC_5기 ( 26일차 ) (0) | 2026.04.13 |
| [내일배움캠프] QA/QC_5기 ( 25일차 ) (0) | 2026.04.10 |