내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 19일차 )

lshxkwh 2026. 4. 2. 20:03

[ 데이터 분석 팀 프로젝트 주제 선정 및 가이드 ] 

[바이오] Smoker Status Prediction Dataset(시각화) | Notion

 

[바이오] Smoker Status Prediction Dataset(시각화) | Notion

목차

www.notion.so

📌 프로젝트 핵심 질문 (Problem Statement)

"금연 정책의 당위성을 입증하기 위해 신체 전반의 생체 지표 분포 변화를 직관적으로 가시화하고, 데이터 기반의 통합 건강 위험 점수가 흡연의 유해성을 얼마나 명확한 ‘시각적 근거’로 증명해내는가?"

 

🚀 [데이터 분석] 흡연은 신체 데이터를 어떻게 바꾸는가? (Smoker Status Prediction)

1. 보이지 않는 위험의 가시화 (Visualization of Hidden Risks)

단순히 "수치가 높다"는 설명보다, 흡연자 그룹에서 데이터의 분산(Variance)이 커지며 신체 항상성이 무너지는 모습을 바이올린 플롯(Violin Plot)으로 시각화하여 금연의 필요성을 시각적으로 설득합니다.

2. 데이터 시프트(Data Shift)를 통한 경각심 제고

비흡연자 대비 흡연자의 건강 지표 곡선이 어느 방향으로 치우쳐 있는 그래프를 통해 보여줌으로써, "나도 모르는 사이 건강 위험군으로 이동하고 있다"는 메시지를 직관적으로 전달합니다.

3. 통합 점수를 통한 객관적 판별

혈액, 대사, 신체 지표를 통합한 **'건강 위험 점수'**를 산출하고, 이 점수가 실제 흡연 여부를 얼마나 정확하게 갈라내는지 ROC 커브히트맵으로 보여주어 분석의 신뢰도를 확보합니다.

 

 

 

데이터 분석 팀 과제 기획서

팀 과제 제목

  • 흡연/비흡연자 건강지표 비교 및 예측 모델링

팀 구성


  • 팀명 : 원할머니 보쌈
  • 김한이, 박기현, 박근우, 이성훈, 김초희

팀 과제 목표


  • 팀 과제를 통해 해결하려는 질문이나 목표를 명확히 기술하세요.
    • 파이썬 기반의 EDA 및 예측 모델링을 수행함으로써 데이터 간의 상관관계를 시각화하고, 이를 통해 데이터 기반의 선행 품질 관리 및 의사결정 역량을 확보하는 것을 목표로 한다.
  • 팀 과제의 주요 분석 내용 및 목표를 설정하세요.
    • 문제 정의 -> 가설 설정 -> 데이터 가공(전처리) -> 데이터 시각화 -> 논의 -> 결론 도출
      • 주요 분석 내용..
      • ▶ 종합 건강위험 점수 산출 및 검증
        정상군/위험군 비율 비교와 종합 건강위험 점수를 통해 집단 간 건강 상태 차이를 분석하고, 데이터2에 동일 지표를 적용하여 결과가 흡연과 실제로 연관된 특성인지 교차 검증한다.
      • ▶ 위험군 분류 변수 생성
        콜레스테롤·헤모글로빈은 고/중/저위험군으로, 신체 데이터는 BMI(저체중·정상·과체중)로 구간화하여 구간별 흡연자 비율 및 BMI-흡연 상관계수를 산출한다
      • ▶ EDA 및 주요 지표 도출
        비흡연자 vs 흡연자 간 건강검진 지표 전체를 비교하여 집단 간 차이가 큰 핵심 지표를 선별한다
      • 목표
        단순히 그래프를 만드는 데 그치지 않고, 왜 이 변수를 보고 어떤 해석을 했는지를 팀 차원에서 설명할 수 있는 분석 결과물을 만든다.
      • 흡연 여부와 신체 지표(BMI·연령·헤모글로빈·콜레스테롤)의 복합적인 관계 를 파악해, 흡연이 단독으로 건강에 영향을 미치는지 혹은 다른 요인과 결합할 때 더 위험해지는지를 규명한다.

문제 정의


  • 분석 및 시각화의 중점
    • 팀 과제에서 해결하려는 핵심 질문을 1~2문장으로 작성하세요:
      • 흡연 여부에 따라 생체 지표가 어떻게 달라지며, 이를 통합한 건강 위험 점수로 흡연의 영향을 정량적으로 입증할 수 있는가? 또한 이러한 차이를 시각화하여 금연 정책과 건강 캠페인의 필요성을 효과적으로 전달할 수 있는가?
  • 문제의 필요성 및 중요성
    • 팀 과제가 제공할 데이터 인사이트가 중요한 이유를 작성:

▶ 흡연은 건강에 부정적인 영향을 미치는 대표적인 생활습관 요인으로 알려져 있지만, 실제로 어떤 건강검진 지표에서 흡연자와 비흡연자 간 차이가 크게 나타나는지는 데이터 기반으로 확인할 필요가 있다.

▶ 특정 데이터에서 나타난 차이가 실제로 흡연과 관련된 특성인지 확인하기 위해서는, 도출된 결과를 다른 데이터에 다시 적용하여 검증하는 과정이 중요하다.

데이터 활용 계획


  • 데이터 출처
    • 본 팀 과제는 제공된 건강검진 기반의 생체 지표 데이터 CSV 파일을 활용하여 진행한다. 인체의 주요 품질 지표인 혈액성분 ( 콜레스테롤 , 헤모글로빈) , 신체기반 (BMI, 혈압) , 장기 기능(간 수치, 신장 수치) 등의 데이터를 바탕으로 흡연이라는 변수가 신체 시스템에 미치는 패턴을 탐색적으로 분석(EDA)한다.
    • 데이터 파일명 예시: train.dataset.csv, test.dataset.csv
    • 주요 변수 예시
      1. 인구학적 및 신체 데이터
        • age: 나이
        • height(cm): 키(cm)
        • weight(kg): 체중(kg)
        • waist(cm): 허리둘레(cm)
      2. 건강 검진 데이터
        • systolic: 수축기 혈압
        • relaxation: 이완기 혈압
        • fasting blood sugar: 공복 혈당
        • Cholesterol: 총 콜레스테롤
        • triglyceride: 중성 지방
        • HDL: HDL 콜레스테롤
        • LDL: LDL 콜레스테롤
        • hemoglobin: 헤모글로빈
        • serum creatinine: 혈청 크레아티닌
        • AST: AST (간 효소)
        • ALT: ALT (간 효소)
        • Gtp: γ-GTP (간 기능 지표)
      3. 흡연 데이터 (타겟 변수)
        • smoking: 흡연 여부 (1 = 흡연자, 0 = 비흡연자)
    • 제공된 데이터는 제조 데이터 탐색 → 전처리 → 시각화 → 해석을 수행하기 위한 분석용 데이터로 활용한다.
  • 데이터 전처리 계획
    • 데이터 구조 및 기초 점검 : head(), info(), describe() 등을 활용하여 24개의 컬럼의 데이터 타입(실수형, 정수형)을 확인하고 , 결측치 여부를 우선적으로 점검한다.
    • 신체 지표의 이상치/결측치 정제 : 시력(eyesight)의 '9.9'(측정불가)나 혈압, 콜레스테롤 수치 중 생리학적으로 불가능한 극단적 수치를 식별한다. 이러한 이상치는 분석 왜곡을 방지하기 위해 데이터를 분석에서 배제한다.
    • 분석 최적화 파생 변수(BMI) 생성: 가설 검증을 위해 weight(kg)와 height(cm) 데이터를 결합하여 BMI(체질량지수) 변수를 생성한다. 이를 통해 단순 체중보다 정밀한 신체 조건별 흡연율 상관관계를 분석할 준비를 한다.
    • 범주화(Binning)를 통한 데이터 재구성: 연속형 변수인 age는 10세 단위의 연령대로, 생성된 BMI는 저체중/정상/비만 등 표준 구간으로 그룹화하여 집단 간 비교 시각화가 용이하도록 재구성한다.
  • 시각화 계획
    • 막대그래프(Bar Chart) : BMI 구간 별 흡연자 비율 ( 막대 그래프 & 히트맵 )
    • 바이올릿 플롯 : 흡연 여부에 따른 총 콜레스테롤(Cholesterol) 분포의 밀도와 너비 비교
    • 박스 플롯 : 흡연 여부에 따른 헤모글로빈(hemoglobin) 수치의 중앙값과 사분위수 비교
    • 파이 차트 (Pie Chart): 전체 데이터 중 흡연자 vs 비흡연자의 비중을 확인하여 데이터의 불균형 여부를 파악함
    • ex) 주요 지표 정의
      • BMI (체질량지수): weight / (height/100)^2
      • 허리둘레 대비 신장 비율
      • 산소 운반 과부하도 : 헤모글로빈의 수치 변화 측정 
        • 라인별 생산량 합계
        • 라인별 불량 수 및 불량률
        • 일자별 생산량/불량 수 추이
        • 온도 분포 및 공정별 편차
    • 시각화는 단순한 그래프 작성이 아니라, 어떤 공정 또는 라인에서 품질 이슈 가능성이 높은지, 어떤 변수 간 관계를 우선적으로 볼 필요가 있는지를 해석하기 위한 도구로 활용한다.
    • EDA 결과를 설명할 수 있는 2~3개 이상의 핵심 시각화와 해석 문장 도출에 초점을 둔다. 

예상 결과물 및 기대 효과


  • 최종 결과물 주요 구성
    • 최종적으로 결과물 구성을 간략히 설명하세요.
      • 분석 목적 및 데이터 개요
      • 전처리 과정 요약
      • 핵심 시각화 결과 제시
      • 주요 인사이트 및 해석
      • 개선 방향 또는 추가 분석 제안
  • 기대 효과
    • 팀 과제 완료 후 얻게 될 데이터 인사이트와 활용 가능성을 제시하세요.
      • 데이터를 기반으로 흡연 여부와 건강 지표의 패턴을 파악함으로써 흡연 관련 건강 문제를 이해하고 예방하는 인사이트를 얻게 된다.
      • 데이터 시각화를 통해 금연 정책의 당위성과 건강 캠페인의 필요성을 설득력 있게 전달하는 역량을 함양할 수 있다.
      • 단순히 담배가 몸에 해롭다는 막연한 구호를 넘어 흡연이 신체 데이터를 통해 어떤 통계적 수치( 결과 ) 를 만드는지 눈으로 확인 하여 이를 통해 특정 수치가 높고 낮음을 떠나, 흡연이 신체에 미치는 영향을 데이터로 시각화 하여 금연 캠페인의 과학적 근거를 제시할 수 있다.

팀 과제 일정 계획


  • 데이터 분석 팀 과제
    • Day 1 : 데이터 이해 및 문제 정의
      • 데이터셋 구조, 주요 변수, 분석 범위 확인
      • 팀 과제 핵심 질문 설정
      • 공정별로 확인할 주요 품질 지표 선정
    • Day 2 : 데이터 전처리 계획 수립 및 기초 전처리
      • 결측치, 이상치, 데이터 타입 점검
      • 키. 체중, 시력 / 혈압, 혈당 / 콜레스테롤, 중성지방 / 헤모글로빈, 크레아타닌 / 간수치 각 파트 정해서 전처리
    • Day 3 : 탐색적 데이터 분석(EDA)
      • 기술통계 확인
      • 흡연 여부 별 콜레스테롤, 헤모글로빈, BMI 수치 비교
      • 주요 패턴 및 이상 징후 1차 도출
    • Day 4 : 시각화 및 인사이트 도출
      • 막대그래프, 선그래프, 박스플롯, 히트맵 등 핵심 시각화 수행
      • 시각화 결과를 바탕으로 주요 인사이트 정리
    • Day 5 : 결과 해석 및 추가 분석 보완
      • 팀 내 해석 내용 검토
      • 필요한 추가 전처리 또는 시각화 보완
      • 최종 핵심 메시지 정리
    • Day 6 : 발표 자료 작성 및 리허설
      • 분석 목적, 전처리 과정, 시각화 결과, 인사이트를 발표 자료로 정리
      • 발표 흐름 점검 및 리허설 진행
    • Day 7 : 최종 발표 및 피드백 정리
      • 최종 결과물 제출 및 발표
      • 피드백 반영 포인트와 후속 개선 방향 정리 </aside>

역할 분담


  • 각 팀원이 여러 역할을 겸할 수 있으며, 필요 시 역할 재분배가 가능합니다.
  • 팀 과제 간 팀 내 역할 분담 계획
    • 문제 정의 및 분석 기획 담당 : 김한이, 김초희,박근우
      • 분석 목표 설정, 핵심 질문 정리, 주요 변수 선정
    • 데이터 전처리 담당 : 이성훈, 김초희, 박기현
      • 결측치·이상치 처리, 데이터 타입 변환, 파생변수 생성
    • 탐색적 데이터 분석(EDA) 및 시각화 담당 : 박근우, 박기현, 김한이
      • 기술통계 확인, 그래프 작성, 패턴 탐색
    • 인사이트 정리 및 결과 해석 담당 : 박근우, 박기현, 이성훈
      • 시각화 결과 해석, 주요 인사이트 문장화, 포인트 정리
    • 발표 자료 작성 및 발표 및 녹화 담당 : 김한이, 박기현
      • 발표 자료 구성, 스토리라인 정리, 발표 및 질의응답 준비
    • 문서 정리 및 일정 관리 담당 : 김한이, 이성훈, 김초희
      • 진행 상황 점검, 역할 조율, 제출물 및 일정 관리

 

[ 튜터님 피드백 ]

- 분석 및 시각화 중점이 너무 가설을 보여준거 같다.

  •