내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 27일차 )

lshxkwh 2026. 4. 14. 19:22

[ 데이터 분석 심화 ] - 통계적 기초 강의 ( 3 ~ 4 주차 )

Chapter 3. 통계적 가설검정 

가설검정은 표본 데이터를 통해 모집단에 대한 결정을 내리는 과정이다. 핵심 용어들을 먼저 파악하는 것이 중요!!!!

1. 귀무가설(H0) vs 대립가설(H1)

  • 귀무가설(Null Hypothesis): '차이가 없다', '효과가 없다'는 현 상태의 가설. 우리가 깨뜨리고 싶어 하는 가설이기도 하다.
  • 대립가설(Alternative Hypothesis): '차이가 있다', '효과가 있다'처럼 연구자가 새롭게 입증하고 싶은 주장.

2. P-값(p-value)과 유의수준(alpha) 비교

가설을 채택할지 기각할지는 이 두 수치를 비교하여 결정

  • P-값: 귀무가설이 참이라고 가정했을 때, 현재와 같은 데이터가 관찰될 확률
  • 유의수준($\alpha$): 우리가 허용할 수 있는 최대 오류의 범위. (일반적으로 0.05를 사용)
  • 판단 기준:
    • p < alpha: 발생할 확률이 매우 희박하므로 귀무가설을 기각 (통계적으로 유의함)

3. 제 1종 오류 vs 제 2종 오류

가설검정 시에는 항상 틀릴 가능성이 존재.

  • 제 1종 오류 (위양성): 실제로는 효과가 없는데(귀무가설 참), 효과가 있다고 잘못 판단하는 경우.
  • 제 2종 오류 (위음성): 실제로는 효과가 있는데(대립가설 참), 효과가 없다고 잘못 판단하는 경우.

 

Chapter 4. 회귀 분석: 변수 간의 관계 예측하기

회귀 분석은 변수들 사이의 인과관계를 모델링하여 미래의 결과를 예측하는 기법

1. 단순선형회귀와 다중선형회귀

  • 단순선형회귀: 독립 변수(X)가 1개일 때 종속 변수(Y)와의 직선 관계를 분석. (예: 광고비와 매출의 관계)
  • 다중선형회귀: 여러 개의 독립 변수가 1개의 종속 변수에 미치는 영향을 분석. 이때 변수 간에 서로 너무 강하게 상관되어 발생하는 다중공선성 문제를 주의해야 하며, 이는 VIF(분산 팽창 계수)로 진단할 수 있다.

2. 데이터의 성격에 따른 회귀 방식

  • 범주형 변수 처리: 성별이나 지역 같은 문자형 데이터는 회귀 식에 직접 넣을 수 없다. 따라서 원-핫 인코딩이나 더미 변수로 변환하는 과정이 반드시 필요.
  • 다항 회귀 & 스플라인 회귀: 데이터가 직선이 아닌 곡선 형태를 띨 때 사용.
    • 다항 회귀: 고차항을 추가하여 곡선을 만듬.
    • 스플라인 회귀: 구간별로 서로 다른 회귀식을 적용하여 훨씬 유연하고 매끄러운 곡선 모델을 생성.

[데이터 분석 입문] 머신러닝의 정의와 첫걸음 


1. 머신러닝이란 무엇일까?

머신러닝은 인간이 일일이 규칙을 정해주지 않아도, 기계가 데이터를 통해 스스로 패턴을 학습하고 의사결정을 내리게 하는 기술

  • AI vs 머신러닝 vs 딥러닝
    • AI: 인간의 지능을 흉내 내는 모든 시스템
    • 머신러닝: 데이터를 기반으로 학습하는 알고리즘 (AI의 하위 집합)
    • 딥러닝: 인공신경망을 이용해 복잡한 데이터를 처리하는 기술 (머신러닝의 하위 집합)

2. 머신러닝의 3가지 학습 방식

기계가 공부하는 방법은 크게 세 가지로 나뉜다.

  • 지도 학습 (Supervised Learning): 문제(X)와 정답(Y)을 모두 주고 공부시키는 방식. (예: 개와 고양이 사진 분류)
  • 비지도 학습 (Unsupervised Learning): 정답 없이 데이터만 보고 비슷한 것끼리 묶는 방식. (예: 고객 군집 분석)
  • 강화 학습 (Reinforcement Learning): 행동에 따른 보상을 통해 최적의 방법을 찾아가는 방식. (예: 알파고)

3. 실습 환경 구축: VS Code & Jupyter Notebook

본격적인 분석을 위해 전문가들이 가장 많이 사용하는 도구인 Visual Studio Code(VS Code)를 세팅해야 함

  • VS Code: MS에서 만든 코드 에디터로, 가볍고 강력한 확장 기능을 제공.
  • Jupyter Notebook: 코드를 한 줄씩 실행하고 결과를 바로 확인할 수 있는 대화형 환경. 데이터 분석에 최적화되어 있다.
  • 환경 설정 팁: 파이썬(Python) 설치 시, 다른 라이브러리들과의 호환성을 위해 너무 최신 버전보다는 3.9~3.11 버전을 사용하는 것이 안정적.

4. 패키지 관리의 핵심, pip

파이썬에서는 수많은 분석 도구(라이브러리)를 가져다 씁니다. 이때 사용하는 것이 pip 패키지 관리자이다.

  • 설치: pip install pandas (데이터 분석 도구인 판다스 설치)
  • 확인: pip list (현재 설치된 목록 확인)
  • 삭제: pip uninstall [패키지명]

 

[ADsP ] 데이터 vs 정보, 그리고 데이터베이스 핵심 퀴즈 정리


1. 데이터와 정보, 무엇이 다른가?

많은 분이 혼용해서 쓰지만, 통계와 분석의 관점에서는 명확히 구분됨.

  • 데이터(Data): 가공되지 않은 순수한 사실이나 수치 (예: 온도 30도, 습도 80%)
  • 정보(Information): 데이터를 특정 목적에 맞게 가공하여 의미를 부여한 것 (예: "오늘은 불쾌지수가 높으니 실내 활동을 권장합니다.")

2. 데이터베이스(Database)의 4가지 핵심 특징

데이터베이스를 정의하는 4가지 논리적 특징은 시험에도 자주 출제되는 단골 소재.

  1. 실시간 접근성(Real-time Accessibility): 사용자의 질의(Query)에 대해 즉시 응답할 수 있어야 한다.
  2. 계속적인 변화(Continuous Evolution): 데이터의 삽입, 삭제, 수정을 통해 항상 최신 상태를 유지함.
  3. 동시 공유(Concurrent Sharing): 여러 사용자가 각기 다른 목적으로 동시에 데이터를 이용할 수 있다.
  4. 내용에 의한 참조(Content Reference): 저장된 주소나 위치가 아닌, 데이터의 값(Value)을 기준으로 검색.

3. 실력 점검! 복습 퀴즈 (Self-Test)

Q1. 데이터베이스의 특징 중 다음 설명에 해당하는 것은?

  • ① 실시간 접근성
  • ② 계속적인 변화
  • ③ 내용에 의한 참조
  • ④ 동시 공유성
  • 정답: [ ③ ]

Q2. 데이터(Data)에 대한 설명으로 옳은 것을 모두 고르세요.

  • A. 가공되지 않은 객관적 사실이다.
  • B. 정보를 가공한 결과물이다.
  • C. 숫자, 문자, 기호 등 다양한 형태로 존재한다.
  • 정답: [ A, C ] 

4. 실생활 속 데이터베이스 응용 사례

우리 주변에는 이미 다양한 데이터베이스 시스템이 운영되고 있다.

  • 의료: 처방전달시스템, 전자의무기록(EMR), 영상처리시스템(PACS)
  • 교통: 지능형교통시스템(ITS)을 통한 실시간 교통 정보 제공
  • 지리: GIS(지리정보시스템)와 GPS를 결합한 위치 기반 서비스(LBS)
  • 교육: 교육행정정보시스템(NEIS)을 통한 학생 및 행정 관리