내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 29일차 )

lshxkwh 2026. 4. 16. 20:36

[ 데이터 분석 심화 ] - 통계학 기초 & 머신러닝 실시간 세션 

 

[머신러닝 오프닝 3회] 선형 회귀(Linear Regression)와 비용 함수 완벽 이해


1. 선형 회귀(Linear Regression)란?

선형 회귀는 독립 변수 x와 종속 변수 y 사이의 선형 상관관계를 모델링하는 기법. 쉽게 말해, 데이터들을 가장 잘 설명하는 하나의 직선을 찾는 과정.

  • 가설(Hypothesis) 설정:
    • W: 가중치(Weight, 기울기)
    • b: 편향(Bias, 절편)
  • H(x) = Wx + b

2. 비용 함수(Cost Function)

우리가 찾은 직선이 실제 데이터와 얼마나 차이가 나는지 계산. 이때 사용하는 것이 바로 비용 함수(또는 손실 함수)

  • MSE (Mean Squared Error): 오차의 제곱을 평균 낸 값입니다.
  • 목표: 이 값이 최소(Minimum)가 되는 Wb를 찾는 것이 머신러닝 학습의 본질.

3. 최적의 값 찾기

비용 함수를 최소화하기 위해 언덕을 내려가듯 최적의 W를 찾아가는 알고리즘.

  • 핵심 원리: 현재 위치에서 미분(기울기 계산)을 통해 값이 작아지는 방향으로 W를 업데이트 함.
  • 학습률(Learning Rate, $\alpha$): 한 번에 얼마나 큰 보폭으로 내려갈지를 결정하는 중요한 하이퍼파라미터.

4. 요약 및 핵심 포인트

  1. 모델링: 데이터를 대표하는 직선 H(x) = Wx + b를 세운다.
  2. 평가: 비용 함수(MSE)를 통해 실제 값과 예측값의 차이를 구함.
  3. 최적화: 경사 하강법을 이용해 비용이 최소가 되는 Wb를 반복적으로 업데이트

 

공유해주신 노션 페이지의 제목인 **'통계학 기초 3'**의 핵심 내용을 바탕으로, 블로그에 바로 게시하기 좋은 깔끔하고 전문적인 요약 포스팅을 작성해 드립니다.


 

 

 

[통계학 기초 03] 확률 분포와 가설 검정의 이해


1. 확률 변수와 확률 분포 (Probability Distribution)

데이터가 어떤 형태로 퍼져 있는지를 이해하는 것은 통계 분석의 시작.

  • 이산 확률 분포: 주사위 눈처럼 값이 떨어져 있는 경우 (예: 이항 분포, 포아송 분포)
  • 연속 확률 분포: 키나 몸무게처럼 연속적인 값을 가지는 경우 (예: 정규 분포, t-분포)

핵심: 정규 분포 (Normal Distribution)

대부분의 자연 현상은 평균을 중심으로 좌우 대칭인 종 모양의 곡선을 그림. 이를 '정규 분포'라고 하며, 통계적 추론의 가장 기본.


2. 표본 분포와 중심한계정리 (Central Limit Theorem)

우리는 전체(모집단)를 다 조사할 수 없기에 일부(표본)를 뽑아 조사.

  • 중심한계정리: 모집단의 분포와 상관없이, 표본의 크기가 충분히 크다면 표본 평균들의 분포는 정규 분포에 가까워진다는 원리. 이 원리 덕분에 우리는 표본만으로도 모집단의 특성을 추론할 수 있다.

3. 가설 검정 (Hypothesis Testing): 데이터로 결론 내기

내가 세운 가설이 통계적으로 의미가 있는지 판단하는 과정입니다.

  • 귀무 가설(H0): 차이가 없다, 효과가 없다 (기존의 상태)
  • 대립 가설(H1): 차이가 있다, 효과가 있다 (내가 증명하고 싶은 것)
  • p-value (유의 확률): 귀무 가설이 맞다는 전제하에, 현재 데이터와 같은 결과가 나올 확률. 보통 이 값이 0.05(5%)보다 작으면 "통계적으로 유의미하다"고 판단하며 대립 가설을 채택.