내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 67일차 )

lshxkwh 2026. 6. 17. 19:57

오늘 학습한 핵심은 데이터의 흐름을 읽고 연속적인 숫자를 예측하는 회귀 분석(Regression)입니다. 단순한 직선 형태의 선형 회귀부터, 복잡한 데이터 패턴을 잡기 위한 다항 회귀, 그리고 모델의 과적합(Overfitting)을 방지하여 일반화 성능을 높이는 규제(Regularization) 기법과 평가 지표를 체계적으로 다루었습니다.

회귀 모델 핵심 유형 비교

구분 개념 장점 주의할 점
선형 회귀 독립변수와 종속변수 간의 직선 관계를 모델링 모델이 가볍고 해석이 매우 직관적임 데이터 자체의 비선형성을 반영하기 어려움
다항 회귀 독립변수의 고차항을 추가하여 곡선 형태의 관계 모델링 복잡한 데이터 패턴을 유연하게 학습 가능 차수가 높아질수록 과적합 위험이 커짐
릿지 (Ridge) L2 규제를 더해 가중치 크기를 전반적으로 줄임 변수 간 상관관계가 높을 때 안정적임 변수를 완전히 제거하지는 못함
라쏘 (Lasso) L1규제를 더해 불필요한 가중치를 0으로 만듦 중요한 변수만 선택하여 모델을 단순화함 상관관계가 높은 변수 중 하나만 임의 선택됨

1. 회귀 분석(Regression)의 기본 개념

회귀 분석이란?

  • 정의: 하나 이상의 독립변수와 종속변수 간의 관계를 추정하여, 연속형 종속변수를 예측하는 통계 및 머신러닝 기법입니다.
  • 예시: 공부 시간에 따른 시험 점수예측, 실내 온도에 따른 에어컨 전력 소비량 예측 등.

지도학습 내에서의 비교

  • 분류 (Classification): 결과값이 범주형(이산형) 데이터인 경우 (예: 합격/불합격, 스팸 메일 여부).
  • 회귀 (Regression): 결과값이 연속형(실수형) 데이터인 경우 (예: 주가, 매출액, 온도).

회귀 모델을 사용하는 이유

  1. 미래 값 예측: 과거의 데이터를 바탕으로 연속적인 실숫값을 예측합니다.
  2. 인과 관계 해석: 어떤 독립변수가 종속변수에 얼마나 큰 영향을 미치는지 통계적으로 분석합니다.
  3. 데이터 기반 의사결정: 트렌드를 파악하고 자원을 효율적으로 배분하는 기준을 제공합니다.

2. 선형 회귀 (Linear Regression)

개념 및 회귀식

독립변수와 종속변수가 직선적인 관계를 맺고 있다고 가정하는 모델입니다.

학습 과정

  1. 가중치 초기화: 회귀계수의 초기값을 임의로 설정합니다.
  2. 손실함수(Loss Function) 설정: 모델의 예측값과 실제값의 차이를 평가할 기준을 정합니다. (주로 MSE 활용)
  3. 최적화(Optimization): 최소자승법(OLS)이나 경사하강법(Gradient Descent)을 통해 손실을 최소화하는 방향으로 가중치를 업데이트합니다.
  4. 예측 수행: 최적의 가중치를 찾아낸 후 새로운 데이터가 입력되면 결과를 출력합니다.
  • 장점: 구현이 쉽고 속도가 빠르며, 회귀계수를 통해 변수의 영향력을 직관적으로 해석할 수 있습니다.
  • 단점: 실제 데이터가 복잡한 곡선 형태(비선형)일 경우 예측력이 크게 떨어집니다.

3. 다항 회귀 (Polynomial Regression)

개념 및 필요성

  • 데이터가 직선이 아닌 곡선 형태의 분포를 보일 때, 독립변수에 고차항을 포함시켜 학습하는 방식입니다.
  • 이를 통해 선형 회귀의 단순함을 극복하고 복잡한 관계를 표현할 수 있습니다.

주의점

  • 차수(Degree)를 너무 높이면 훈련 데이터에만 완벽하게 맞추어지는 과적합(Overfitting)이 발생하여, 새로운 데이터에 대한 예측력이 급격히 떨어집니다.

4. 회귀 모델 평가 지표

모델이 얼마나 잘 예측했는지 평가하기 위해 다음과 같은 지표를 활용합니다.

  • MSE (Mean Squared Error - 평균 제곱 오차)
    • 예측값과 실제값 오차의 제곱 평균입니다.
    • 오차가 커질수록 패널티가 크게 부여되는 특성이 있습니다.
  • MAE (Mean Absolute Error - 평균 절대 오차)
    • 예측값과 실제값 오차의 절대값 평균입니다.
    • 직관적이며 아웃라이어(이상치)의 영향에 비교적 강건합니다.
  • RMSE (Root Mean Squared Error - 평균 제곱근 오차)
    • MSE에 루트를 씌운 지표입니다.
    • 제곱으로 인해 왜곡된 단위를 실제 데이터의 단위와 맞춰주어 해석이 용이합니다.
  • R^2 (Coefficient of Determination - 결정 계수)
    • 모델이 데이터의 분산을 얼마나 설명하는지 나타내는 비율입니다.
    • 0과 1 사이의 값을 가지며, 1에 가까울수록 모델의 설명력이 높음을 의미합니다.

5. 과적합을 막는 규제 기법 (Regularization)

모델이 훈련 데이터에 과도하게 맞추어져 회귀계수가 비대해지는 것을 방지하기 위해 가중치에 패널티를 부여하는 방법입니다.

릿지 회귀 (Ridge Regression)

  • 특징: 가중치들의 제곱합(L2 규제)을 손실함수에 더합니다.
  • 효과: 가중치의 크기를 전체적으로 작게 줄여주어 모델의 변동성을 낮춥니다. 변수가 많고 서로 연관성이 높을 때 효과적입니다.

라쏘 회귀 (Lasso Regression)

  • 특징: 가중치들의 절대값 합(L1규제)을 손실함수에 더합니다.
  • 효과: 중요하지 않은 변수의 가중치를 완전히 0으로 만듭니다. 이를 통해 자동으로 변수 선택(Feature Selection)이 이루어져 모델이 간결해집니다.

전략적 제언 (Strategic Suggestions)

회귀 모델을 실무나 프로젝트에 적용할 때는 다음 단계를 고려하는 것이 좋습니다.

  1. 기본 모델 설정: 가장 먼저 단순 선형 회귀(Linear Regression)를 적용하여 데이터의 기본 베이스라인 성능을 확인하십시오.
  2. 잔차 분석 및 진단: 예측 결과의 오차 분포를 시각화하여 데이터가 선형성을 따르는지, 혹은 특정 비선형 패턴이나 이상치가 존재하는지 파악해야 합니다.
  3. 규제 모델 도입: 변수의 개수가 많거나 과적합 징후가 보인다면 바로 Ridge나 Lasso를 적용하여 모델의 가중치를 안정화하십시오. 특히 변수 해석이 중요하다면 Lasso를 통해 주요 변수를 솎아내는 것이 유리합니다.