내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 21일차 )

lshxkwh 2026. 4. 6. 20:43

[ 팀 프로젝트 ] - 데이터 시각화 

< 주제 > - [ 바이오 ] Smoker Status Prediction Dataset ( 시각화 )

 

  1. 개요
    1. 생체 신호데이터를 활용하여 흡연여부에 따른 건강상태를 분석하여라
      - 흡연자 Vs 비흡연자의 건강상태 차이를 비교하는 시각화 리포트를 만들자.
    2. 나는 이제부터 의료 데이터 분석가(Data Analyst)이다!
      - 주어진 데이터를 바탕으로 흡연여부에 따라 어떤 지표가 얼마나 다르게 나타나는지, 그 차이가 특정집단에서 더 커지는지 등을 시각화하자!

  2. 배경
    1. 흡연과 건강데이터의 시각화 중요성
      - 흡연의 건강 영향
      - 데이터 기반의 커뮤니케이션 필요
  3. 주제
    1. 생체 신호데이터를 활용한 흡연여부 비교 시각화 프로젝트
      - 흡연자 Vs 비흡연자의 건강 지표를 시각적으로 탐색
      - 흡연여부에 따라 달라지는 주요 건강 변수 분포 탐색

    2. 고려해야할 분석 요소들
      - EDA( 탐색적 데이터 분석 ) 및 통계분석 활용
      - 집단별 비교 시각화
      - 시각화 결과 정리 및 스토리텔링

[ STEP 01 ]  가설설정

  • 흡연여부는 헤모글로빈과 혈철크레아틴 수치와 유의미한 관계를 보일 것이다.
    • 흡연여부에 따른 헤모글로빈과 혈청 크레아틴의 평균, 중앙값, 사분위수 , Max/Min을 비교
    • 연령대별 교차 분석

[ STEP 02 ]  데이터 준비 및 전처리

데이터 처리 후 불러오기

 

[ STEP 03 ]  데이터 분석 및 시각화

  • 흡연 여부에 따른 헤모글로빈 수치 비교 ( 사람수 )

  • 흡연여부에 따른 혈철 크레아틴 수치 비교 ( 사람인 )

  • 혈청 크레아틴과 헤모글로빈의 상관관계 분석

우 상향 라인을 보아 양의 상관관계가 있음을 알 수 있다

 

 

  • 흡연여부에 따른 헤모글로빈 & 크레아틴 수치 밀도 비교 그래프

data = select_colunmns
- 데이터 프레임 지정

x = 'hemoglobin'
- 가로축에 놓을 수치형 데이터

hue = 'smoking'
- smoking의 값(0,1)에 따라 그래프를 색갈별로 분리해서 그리기

fill=True
- 그래프 곡선 아래 면적에 색을 채운다

common_norn=False
- 흡연자와 비흡연자의 비율이 많이 차이날 수 있으므로 False를 해줌으로써 전체 집단을 동일하게 1로 계산하여 전체적인 분포를 공정하게 비교할 수 있다