[ 팀 프로젝트 ] - 데이터 시각화
< 주제 > - [ 바이오 ] Smoker Status Prediction Dataset ( 시각화 )
- 개요
- 생체 신호데이터를 활용하여 흡연여부에 따른 건강상태를 분석하여라
- 흡연자 Vs 비흡연자의 건강상태 차이를 비교하는 시각화 리포트를 만들자. - 나는 이제부터 의료 데이터 분석가(Data Analyst)이다!
- 주어진 데이터를 바탕으로 흡연여부에 따라 어떤 지표가 얼마나 다르게 나타나는지, 그 차이가 특정집단에서 더 커지는지 등을 시각화하자!
- 생체 신호데이터를 활용하여 흡연여부에 따른 건강상태를 분석하여라
- 배경
- 흡연과 건강데이터의 시각화 중요성
- 흡연의 건강 영향
- 데이터 기반의 커뮤니케이션 필요
- 흡연과 건강데이터의 시각화 중요성
- 주제
- 생체 신호데이터를 활용한 흡연여부 비교 시각화 프로젝트
- 흡연자 Vs 비흡연자의 건강 지표를 시각적으로 탐색
- 흡연여부에 따라 달라지는 주요 건강 변수 분포 탐색 - 고려해야할 분석 요소들
- EDA( 탐색적 데이터 분석 ) 및 통계분석 활용
- 집단별 비교 시각화
- 시각화 결과 정리 및 스토리텔링
- 생체 신호데이터를 활용한 흡연여부 비교 시각화 프로젝트
[ STEP 01 ] 가설설정
- 흡연여부는 헤모글로빈과 혈철크레아틴 수치와 유의미한 관계를 보일 것이다.
- 흡연여부에 따른 헤모글로빈과 혈청 크레아틴의 평균, 중앙값, 사분위수 , Max/Min을 비교
- 연령대별 교차 분석
[ STEP 02 ] 데이터 준비 및 전처리


[ STEP 03 ] 데이터 분석 및 시각화
- 흡연 여부에 따른 헤모글로빈 수치 비교 ( 사람수 )


- 흡연여부에 따른 혈철 크레아틴 수치 비교 ( 사람인 )


- 혈청 크레아틴과 헤모글로빈의 상관관계 분석


우 상향 라인을 보아 양의 상관관계가 있음을 알 수 있다
- 흡연여부에 따른 헤모글로빈 & 크레아틴 수치 밀도 비교 그래프


data = select_colunmns
- 데이터 프레임 지정
x = 'hemoglobin'
- 가로축에 놓을 수치형 데이터
hue = 'smoking'
- smoking의 값(0,1)에 따라 그래프를 색갈별로 분리해서 그리기
fill=True
- 그래프 곡선 아래 면적에 색을 채운다
common_norn=False
- 흡연자와 비흡연자의 비율이 많이 차이날 수 있으므로 False를 해줌으로써 전체 집단을 동일하게 1로 계산하여 전체적인 분포를 공정하게 비교할 수 있다
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 23일차 ) (0) | 2026.04.08 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 22일차 ) (0) | 2026.04.07 |
| [내일배움캠프] QA/QC_5기 ( 20일차 ) (0) | 2026.04.03 |
| [내일배움캠프] QA/QC_5기 ( 19일차 ) (0) | 2026.04.02 |
| [내일배움캠프] QA/QC_5기 ( 18일차 ) (0) | 2026.04.01 |