[ 데이터 분석 심화 ] - 통계적 기초 강의 ( 3 ~ 4 주차 )
Chapter 3. 통계적 가설검정
가설검정은 표본 데이터를 통해 모집단에 대한 결정을 내리는 과정이다. 핵심 용어들을 먼저 파악하는 것이 중요!!!!
1. 귀무가설(H0) vs 대립가설(H1)
- 귀무가설(Null Hypothesis): '차이가 없다', '효과가 없다'는 현 상태의 가설. 우리가 깨뜨리고 싶어 하는 가설이기도 하다.
- 대립가설(Alternative Hypothesis): '차이가 있다', '효과가 있다'처럼 연구자가 새롭게 입증하고 싶은 주장.
2. P-값(p-value)과 유의수준(alpha) 비교
가설을 채택할지 기각할지는 이 두 수치를 비교하여 결정
- P-값: 귀무가설이 참이라고 가정했을 때, 현재와 같은 데이터가 관찰될 확률
- 유의수준($\alpha$): 우리가 허용할 수 있는 최대 오류의 범위. (일반적으로 0.05를 사용)
- 판단 기준:
- p < alpha: 발생할 확률이 매우 희박하므로 귀무가설을 기각 (통계적으로 유의함)
3. 제 1종 오류 vs 제 2종 오류
가설검정 시에는 항상 틀릴 가능성이 존재.
- 제 1종 오류 (위양성): 실제로는 효과가 없는데(귀무가설 참), 효과가 있다고 잘못 판단하는 경우.
- 제 2종 오류 (위음성): 실제로는 효과가 있는데(대립가설 참), 효과가 없다고 잘못 판단하는 경우.
Chapter 4. 회귀 분석: 변수 간의 관계 예측하기
회귀 분석은 변수들 사이의 인과관계를 모델링하여 미래의 결과를 예측하는 기법
1. 단순선형회귀와 다중선형회귀
- 단순선형회귀: 독립 변수(X)가 1개일 때 종속 변수(Y)와의 직선 관계를 분석. (예: 광고비와 매출의 관계)
- 다중선형회귀: 여러 개의 독립 변수가 1개의 종속 변수에 미치는 영향을 분석. 이때 변수 간에 서로 너무 강하게 상관되어 발생하는 다중공선성 문제를 주의해야 하며, 이는 VIF(분산 팽창 계수)로 진단할 수 있다.
2. 데이터의 성격에 따른 회귀 방식
- 범주형 변수 처리: 성별이나 지역 같은 문자형 데이터는 회귀 식에 직접 넣을 수 없다. 따라서 원-핫 인코딩이나 더미 변수로 변환하는 과정이 반드시 필요.
- 다항 회귀 & 스플라인 회귀: 데이터가 직선이 아닌 곡선 형태를 띨 때 사용.
- 다항 회귀: 고차항을 추가하여 곡선을 만듬.
- 스플라인 회귀: 구간별로 서로 다른 회귀식을 적용하여 훨씬 유연하고 매끄러운 곡선 모델을 생성.
[데이터 분석 입문] 머신러닝의 정의와 첫걸음
1. 머신러닝이란 무엇일까?
머신러닝은 인간이 일일이 규칙을 정해주지 않아도, 기계가 데이터를 통해 스스로 패턴을 학습하고 의사결정을 내리게 하는 기술
- AI vs 머신러닝 vs 딥러닝
- AI: 인간의 지능을 흉내 내는 모든 시스템
- 머신러닝: 데이터를 기반으로 학습하는 알고리즘 (AI의 하위 집합)
- 딥러닝: 인공신경망을 이용해 복잡한 데이터를 처리하는 기술 (머신러닝의 하위 집합)
2. 머신러닝의 3가지 학습 방식
기계가 공부하는 방법은 크게 세 가지로 나뉜다.
- 지도 학습 (Supervised Learning): 문제(X)와 정답(Y)을 모두 주고 공부시키는 방식. (예: 개와 고양이 사진 분류)
- 비지도 학습 (Unsupervised Learning): 정답 없이 데이터만 보고 비슷한 것끼리 묶는 방식. (예: 고객 군집 분석)
- 강화 학습 (Reinforcement Learning): 행동에 따른 보상을 통해 최적의 방법을 찾아가는 방식. (예: 알파고)
3. 실습 환경 구축: VS Code & Jupyter Notebook
본격적인 분석을 위해 전문가들이 가장 많이 사용하는 도구인 Visual Studio Code(VS Code)를 세팅해야 함
- VS Code: MS에서 만든 코드 에디터로, 가볍고 강력한 확장 기능을 제공.
- Jupyter Notebook: 코드를 한 줄씩 실행하고 결과를 바로 확인할 수 있는 대화형 환경. 데이터 분석에 최적화되어 있다.
- 환경 설정 팁: 파이썬(Python) 설치 시, 다른 라이브러리들과의 호환성을 위해 너무 최신 버전보다는 3.9~3.11 버전을 사용하는 것이 안정적.
4. 패키지 관리의 핵심, pip
파이썬에서는 수많은 분석 도구(라이브러리)를 가져다 씁니다. 이때 사용하는 것이 pip 패키지 관리자이다.
- 설치: pip install pandas (데이터 분석 도구인 판다스 설치)
- 확인: pip list (현재 설치된 목록 확인)
- 삭제: pip uninstall [패키지명]
[ADsP ] 데이터 vs 정보, 그리고 데이터베이스 핵심 퀴즈 정리
1. 데이터와 정보, 무엇이 다른가?
많은 분이 혼용해서 쓰지만, 통계와 분석의 관점에서는 명확히 구분됨.
- 데이터(Data): 가공되지 않은 순수한 사실이나 수치 (예: 온도 30도, 습도 80%)
- 정보(Information): 데이터를 특정 목적에 맞게 가공하여 의미를 부여한 것 (예: "오늘은 불쾌지수가 높으니 실내 활동을 권장합니다.")
2. 데이터베이스(Database)의 4가지 핵심 특징
데이터베이스를 정의하는 4가지 논리적 특징은 시험에도 자주 출제되는 단골 소재.
- 실시간 접근성(Real-time Accessibility): 사용자의 질의(Query)에 대해 즉시 응답할 수 있어야 한다.
- 계속적인 변화(Continuous Evolution): 데이터의 삽입, 삭제, 수정을 통해 항상 최신 상태를 유지함.
- 동시 공유(Concurrent Sharing): 여러 사용자가 각기 다른 목적으로 동시에 데이터를 이용할 수 있다.
- 내용에 의한 참조(Content Reference): 저장된 주소나 위치가 아닌, 데이터의 값(Value)을 기준으로 검색.
3. 실력 점검! 복습 퀴즈 (Self-Test)
Q1. 데이터베이스의 특징 중 다음 설명에 해당하는 것은?
- ① 실시간 접근성
- ② 계속적인 변화
- ③ 내용에 의한 참조
- ④ 동시 공유성
- 정답: [ ③ ]
Q2. 데이터(Data)에 대한 설명으로 옳은 것을 모두 고르세요.
- A. 가공되지 않은 객관적 사실이다.
- B. 정보를 가공한 결과물이다.
- C. 숫자, 문자, 기호 등 다양한 형태로 존재한다.
- 정답: [ A, C ]
4. 실생활 속 데이터베이스 응용 사례
우리 주변에는 이미 다양한 데이터베이스 시스템이 운영되고 있다.
- 의료: 처방전달시스템, 전자의무기록(EMR), 영상처리시스템(PACS)
- 교통: 지능형교통시스템(ITS)을 통한 실시간 교통 정보 제공
- 지리: GIS(지리정보시스템)와 GPS를 결합한 위치 기반 서비스(LBS)
- 교육: 교육행정정보시스템(NEIS)을 통한 학생 및 행정 관리
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 29일차 ) (0) | 2026.04.16 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 28일차 ) (0) | 2026.04.15 |
| [내일배움캠프] QA/QC_5기 ( 26일차 ) (0) | 2026.04.13 |
| [내일배움캠프] QA/QC_5기 ( 25일차 ) (0) | 2026.04.10 |
| [내일배움캠프] QA/QC_5기 ( 24일차 ) (0) | 2026.04.09 |