[ 데이터 분석 심화 ] - 통계학 기초 강의 ( 1 ~ 2 주차 )
Chapter 01 (1주차)
1. 데이터 분석에 있어 통계가 중요한 이유
- 데이터 기반의 의사결정을 내릴 수 있다.
- 통계가 중요한 이유
- 데이터를 분석하고 이를 바탕으로 결정을 내릴 수 있다.
- 실제로 통계가 사용되는 방법
- 설문조사 ( 불편사항 파악 및 개선 )
2. 기술통계와 추론통계
- 기술통계
- 데이터를 요약하고 설명하는 통계 방법
- 주로 평균 , 중앙값 , 분산 , 표준편차 등을 사용
잠깐 !!!!!!!!!!
여기서 평균(Mean) , 중앙값(Median) , 분산(Variance) , 표준편차(Standard Deviation)은 무엇일까?- 평균은 모든 데이터를 더한 후 데이터의 개수로 나누어 계산된다.
- 중앙값은 데이터 셋을 크기 순으로 정렬했을때 중앙에 위치한 값
- 분산은 데이터 값들이 평균으로 부터 얼마나 떨어져 있는지 나타내는 척도 [ ( 데이터 값 - 평균 )을 제곱한 후 모두 더해 데이터 개수로 나누는것 ]
분산 계산 예시
예를 들어, 네 명의 학생이 받은 시험 점수가 70, 80, 90, 100이라고 가정합시다.
이들의 평균은 (70 + 80 + 90 + 100) / 4 = 85입니다.
각각의 데이터 값에서 평균을 뺀 값을 제곱하면 다음과 같습니다:
(70 - 85)^2 = 225
(80 - 85)^2 = 25
(90 - 85)^2 = 25
(100 - 85)^2 = 225
이 값을 모두 더한 후 데이터의 개수로 나누면,
분산 = (225 + 25 + 25 + 225) / 4 = 125가 됩니다. - 표준편차는 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적척도로, 분산의 제곱근을 취하여 계산합니다.
표준편차 계산 예시
방금 전에 구한 분산 125를 루트를 씌워 약 11.8이 표준편차 이다.
- 추론통계 ( 신뢰구간 & 가설검정 )
- 신뢰구간
: 신뢰구간은 모집단의 평균이 특정 범위 내에 있을 것이라는 확률 - 가설검정
: 모집단에 대한 가설을 검증하기 위해 사용
- 귀무가설 , 가설검증 이 무엇이냐?
구분 귀무가설 (H0) 대립가설 (H1) 핵심 내용 차이가 없다, 효과가 없다 차이가 있다, 효과가 있다 연구자 입장 기각(거부)하고 싶은 가설 증명(채택)하고 싶은 가설
- 신뢰구간
3. 다양한 분석 방법
- 위치추정
- 데이터의 중심을 확인하는 방법


- np.mean(데이터) : numpy 라이브러리 평균 구하는 명령어
- np.median(데이터) : numpy 라이브러리 중앙값 구하는 명령어
2. 변이추정
- 데이터들이 서로 얼마나 다른지 확인하는 방법
잠깐!!!!!!!!!!!!
범위란 무엇일까?- 데이터 셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포
- np.var(데이터) : 분산을 구하는 명령어
- np.std(데이터) : 표준편차를 구하는 명령어
- np.max(데이터) - np.min(데이터) : 범위
- 데이터 셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 간단한 분포
3. 데이터 분포 탐색 ( 히스토 그램 , 박스플롯 )
![]() |
![]() |
4. 이진 데이터와 범주 데이터 탐색 ( 최빈값 , 파이그림 , 막대그래프 )
![]() |
5. 상관관계
- 상관관계는 두 변수의 관계를 측정하는 방법으로 -1 이나 1에 가까워질 수록 높은 상관관계를 가진다.

Chapter 02. ( 2주차 )
1. 시작하기 전에: 모집단 vs 표본
데이터 분석의 첫걸음은 분석 대상의 범위를 정하는 것입니다.
- 모집단(Population): 우리가 알고 싶은 전체 집단 (예: 우리나라 전체 성인)
- 표본(Sample): 시간과 비용의 한계로 모집단에서 추출한 일부 집단
우리는 보통 표본을 통해 모집단의 특성을 추측하는데, 이때 발생하는 차이를 표본오차라고 하며, 이를 보완하기 위해 신뢰구간이라는 개념을 사용한다.
2. 상황별로 골라 쓰는 주요 분포 7선
① 정규분포 (Normal Distribution)
통계에서 가장 대표적인 분포로, 평균을 중심으로 좌우가 대칭인 종 모양을 가진다. 사람의 키, 몸무게처럼 자연 현상에서 가장 흔하게 관찰됨
② 스튜던트 t-분포 (Student's t-Distribution)
모집단의 표준편차를 모르거나, 표본의 크기가 작을 때(보통 30개 미만) 정규분포 대신 사용. 정규분포보다 양 끝(꼬리)이 더 두꺼운 것이 특징
③ 긴 꼬리 분포 (Long Tail Distribution)
대부분의 데이터가 한쪽에 몰려 있고 반대쪽으로 긴 꼬리가 이어지는 비대칭 분포. 소득 분포나 웹사이트 방문자 수처럼 '상위 몇 개가 전체의 대부분을 차지하는' 경우에 나타남.
④ 카이제곱분포 (Chi-squared Distribution)
범주형 데이터의 독립성 검정이나 적합도 검정에 사용. 예를 들어, '성별'에 따라 '선호하는 후보'가 다른지 분석할 때 유용
⑤ 이항분포 (Binomial Distribution)
'성공/실패', '앞면/뒷면'처럼 결과가 딱 2개인 실험을 여러 번 반복했을 때의 분포입니다. 값이 뚝뚝 끊어지는 '이산형 분포'의 대표 주자
⑥ 푸아송 분포 (Poisson Distribution)
특정 시간이나 공간에서 희귀하게 발생하는 사건의 수를 모델링할 때 씀. (예: 한 시간 동안 콜센터에 걸려온 전화 수, 특정 도로의 교통사고 수)
⑦ 분포들 간의 관계
이 분포들은 서로 완전히 독립된 것이 아니다. 예를 들어, 이항분포나 푸아송 분포도 시행 횟수가 많아지거나 평균 발생률이 커지면 정규분포에 가까워지는 성질이 있음
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 28일차 ) (0) | 2026.04.15 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 27일차 ) (2) | 2026.04.14 |
| [내일배움캠프] QA/QC_5기 ( 25일차 ) (0) | 2026.04.10 |
| [내일배움캠프] QA/QC_5기 ( 24일차 ) (0) | 2026.04.09 |
| [내일배움캠프] QA/QC_5기 ( 23일차 ) (0) | 2026.04.08 |


