내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 37일차 )

lshxkwh 2026. 4. 28. 16:34

[ ADsP  문제 풀이 및 복습 ]

Chapter 10 - 1 추정과 가설설정 

1) 추정이란?

  • 통계적 방법론을 통해서 알고자 하는 대상은 모집단의 확률 분포이다.
  • 모수 : 모집단의 확률분포의 특징을 표현한 값들 (평균 , 분산 , 표준편차 , 백분위수)
  1. 점추정
    • 모수가 특정한 값일 것이라고 추정하는 것
  2. 구간 추정
    • 일정한 크기의 신뢰수준으로 모수가 특정 구간안에 있을 것이다

2) 가설검정 이란?

  • 모집단에 대한 어떤 가설을 설정한 뒤 표본관찰을 통해 그 가설의 채택 여부를 결정

[통계학 기초] 추정과 가설검정 핵심 요약


1. 추정 (Estimation)

모집단 전체를 조사하는 전수조사는 현실적으로 불가능한 경우가 많으므로, 표본을 통해 모집단의 특징을 나타내는 모수(평균, 분산 등)를 추측하는 과정.

  • 점추정 (Point Estimation): 모수가 특정한 값일 것이라고 하나의 값으로 추정하는 방식입니다. 예를 들어 모평균을 추정하기 위해 표본평균을 사용합니다.
  • 구간추정 (Interval Estimation): 일정한 신뢰수준 하에서 모수가 특정한 구간 내에 있을 것이라고 선언하는 방식입니다. 보통 90%, 95%, 99%의 신뢰수준을 주로 사용합니다.
구분 점추정 구간추정
특징 하나의 참값 선택 신뢰수준 기반의 구간 설정
장점 계산이 간편하고 직관적임 모수를 포함할 가능성(신뢰도) 제시 가능

2. 가설검정 (Hypothesis Testing)

모집단에 대해 세운 가설이 타당한지 표본 데이터를 통해 판단하는 분석 방법.

  • 귀무가설 (H0): '차이가 없다, 동일하다'를 기본으로 하며, 연구자가 기각하고 싶은 가설입니다
  • 대립가설 (H1): 귀무가설이 틀렸을 때 채택되는 가설로, 연구자가 새롭게 증명하고자 하는 아이디어입니다.

가설검정의 오류

가설검정 시에는 두 가지 형태의 오류가 발생할 수 있으며, 이 둘은 서로 반비례(상충) 관계에 있습니다.

  • 제1종 오류 (alpha): 귀무가설이 사실인데도 이를 기각하는 오류입니다.
  • 제2종 오류 (beta): 귀무가설이 거짓인데도 이를 채택하는 오류입니다.

3. 주요 용어 및 판단 기준

  • 유의수준 ($\alpha$): 제1종 오류를 허용할 수 있는 최대 확률로, 보통 1%나 5%를 설정합니다.
  • 유의확률 (p-value): 귀무가설을 지지하는 정도를 나타내며, 이 값이 유의수준보다 작으면 귀무가설을 기각합니다.
  • 기각역: 검정통계량이 이 범위 안에 있으면 귀무가설을 기각하게 되는 영역입니다.

4. 모수적 검정 vs 비모수적 검정

자료의 특성과 모집단의 분포 가정 여부에 따라 검정 방법을 선택해야 합니다.

 
비교 항목 모수적 검정 비모수적 검정
가정 모집단 분포에 대한 가정 필요 분포에 대한 제약이 없음
표본 수 일반적으로 30개 이상 권장 30개 미만으로 적을 때 활용
척도 등간척도, 비율척도 명목척도, 서열척도
중심 지표 평균 중앙값
상관분석 피어슨 상관계수 스피어만 순위상관계수

 

 

[ 아티클 스터디 ]

주제 : 스마트하게 머닝러신 적요하는법 : AutoML이란?

https://yozm.wishket.com/magazine/detail/1267/

 

스마트하게 머신러닝 적용하는 법: 1AutoML이란? | 요즘IT

빅데이터를 활용하는 다양한 방법 중 단연코 가장 인기가 많은 것은 머신러닝입니다. 머신러닝은 빅데이터의 활용성을 비약적으로 발전하게 함과 동시에 AI의 근간이 되고 있습니다. 이에 따라

yozm.wishket.com

 

  • 요약 및 주요포인트 : AutoML은 데이터 전처리부터 모델 선택, 하이퍼파라미터 최적화에 이르는 머신러닝 파이프라인 전 과정을 자동화하는 기술. 과거에는 숙련된 데이터 사이언티스트가 수작업으로 진행하던 반복적이고 소모적인 과정을 알고리즘이 대신 수행함으로써, 인적 리소스의 한계를 극복하고 모델의 성능을 표준화한다.
    • 전문성 보완: 데이터 전문가 부족 문제를 해결하고 비전문가도 ML 모델을 구축할 수 있게 함.
    • 생산성 증대: 시행착오(Trial and Error) 시간을 단축하여 비즈니스 적용 속도 향상.
    • 상향 평준화: 인간의 편향을 제거하고 최적의 알고리즘 조합을 찾아내어 모델 품질 유지.
  • 핵심 개념 및 용어정리
    • 머신러닝 파이프라인 (ML Pipeline): 데이터 수집, 전처리, 학습, 평가, 배포로 이어지는 일련의 흐름. AutoML은 이 파이프라인의 연결 고리를 자동화한다
    • 특징 엔지니어링 (Feature Engineering): 로우 데이터를 모델 학습에 적합한 형태로 변환하는 과정. AutoML은 유의미한 변수를 스스로 생성하거나 선택.
    • 하이퍼파라미터 최적화 (HPO): 모델의 학습 방식을 결정하는 설정값(예: 학습률)을 최적으로 맞추는 과정.
    • NAS (Neural Architecture Search): 딥러닝에서 최적의 신경망 구조를 설계하는 기술로, AutoML의 고도화된 영역 중 하나.
    • 앙상블 (Ensemble): 여러 개의 모델을 결합해 예측 성능을 높이는 기법으로, 많은 AutoML 도구가 최종 단계에서 활용.