문제 정의는 왜 어려울까?
데이터 분석 프로세스에서 문제 정의는 가장 첫 단계이자 이후 모든 단계의 전제조건입니다. 그런데 역설적으로, 문제 정의 단계는 가장 적은 데이터와 정보를 가지고 가장 중요한 결정을 내려야 하는 단계입니다.
| 문제 정의 | 매우 적음 | 매우 큼 — 이후 전체 방향 결정 |
| EDA / 전처리 | 데이터 확보 후 풍부 | 중간 |
| 모델링 | 풍부 | 중간 |
| 평가 | 풍부 | 작음 |
문제 정의가 어려운 4가지 이유
되돌릴 수 없는 결정
Target 변수, 문제 유형, 평가 지표는 모든 단계의 기준. 문제 정의가 잘못되면 처음부터 다시 시작해야 합니다.
언어의 불일치
"불량률이 높아요"는 현장 언어. 데이터는 수치화된 Target과 평가 지표가 필요합니다. 이 번역에 정답은 없습니다.
복합 문제로 제시됨
현실의 문제는 여러 소문제가 뒤엉킨 복합 문제입니다. 분해하지 않으면 시작 자체가 불가능합니다.
오류가 늦게 드러남
문제 정의가 잘못돼도 EDA·모델링은 정상으로 진행됩니다. 오류는 현장 배포 후에야 발견됩니다.
실제 사례로 보는 어려움
배터리 제조 QA: 잘못된 Target 변수 정의
불량 여부(정상/불량) 분류 모델로 98% 정확도 달성. 그러나 현장은 "며칠 만에 불량이 될지"가 필요했습니다. 결국 수명 예측(회귀) 문제로 전면 재정의 — EDA, 피처 엔지니어링, 모델 학습까지 전부 무효화.
"불량률이 높다"는 말의 3가지 해석
사출 성형 공정에서의 동일한 피드백이 (1) 외관 불량 분류 / (2) 공정 파라미터 이상 감지 / (3) 금형 수명 예측 으로 번역될 수 있습니다. 어떤 해석을 선택하느냐에 따라 데이터, 모델, 담당 부서까지 완전히 달라집니다.
전자부품 외관 검사: 정확도 99.2% 모델의 함정
실제 불량률이 0.5%라면 모두 "정상" 판정해도 99.5% 정확도. 모델은 불량을 하나도 잡아내지 못했지만, 오류는 현장 배포 후 불량품 출하로 발견됐습니다. Precision/Recall 또는 F1-Score를 지표로 선택했어야 했습니다.
왜 단계를 나누는 것이 해법인가
| 정보 비대칭 | 작은 단위로 나누면 각 단계에서 필요한 정보가 명확해짐 |
| 언어 번역 문제 | 비즈니스 관점 → ML 관점으로 단계를 나누어 번역 과정을 명시화 |
| 복합 문제 | 전체 → 하위 문제 1 → 하위 문제 2 순으로 분해해 독립 검증 |
| 지연된 피드백 | 각 단계마다 입력/출력과 성공 기준을 정의해 조기에 오류 발견 |
커피 내리기로 이해하는 단계 분해
바리스타에게 익숙한 커피 내리기 행위도 로봇에게는 수많은 독립 문제입니다. 이를 분해하면:
도구 선택
드리퍼와 컵의 크기·형태를 시각적으로 인식해 적합 여부 판단
재료 계량
스쿱의 부피와 원두 색상·질감을 시각적으로 판단해 측정
물 온도 조절
온도계 없이 기포 상태나 수증기 양으로 90~95°C 판단
드립 속도 제어
유량 센서 없이 물줄기 굵기와 속도를 시각적으로 조정
완료 판단
색상·추출량 기준으로 적절히 추출되었는지 감지 후 동작 중단
분해하면 각 단계별 분석 목표, 입력, 출력, 데이터 형태까지 설계할 수 있습니다.
나쁜 정의 vs 좋은 정의
좋은 문제 정의에는 타깃 변수 · 평가 지표 · 기준값 세 가지가 명시되어야 합니다.
"공정이 이상할 때 알려주는 AI를 만든다"
"웨이퍼 식각 공정에서 온도·압력·가스 유량 센서 데이터를 실시간 수집하여, 정상 패턴 대비 이상 점수가 임계값의 1.5배를 초과할 경우 경보 발송 + 기여도 상위 3개 센서 제공"
| 타깃 변수 | "이상"이 무엇인지 불명확 | 온도·압력·가스 유량 센서 이상 여부 |
| 평가 지표 | 없음 | F1-Score / Precision / Recall / 오경보율 |
| 기준값 | 없음 | 정상 패턴 대비 이상 점수 1.5배 초과 |
회귀 vs 분류, 어떻게 고를까
회귀 (Regression)
질문: "얼마나?"
출력: 연속적인 수치
예시: 배터리 잔여 수명 예측, 불량률 수치 예측
지표: RMSE, MAE, MAPE
분류 (Classification)
질문: "어느 쪽인가?"
출력: 이산적인 카테고리
예시: 불량/정상 판정, 불량 유형 분류
지표: 정확도, F1-Score, AUC
• "불량률이 몇 %인지 알고 싶다" → 회귀
• "이 제품을 출하해도 되는지 알고 싶다" → 분류
• 둘 다 필요하다면 → 회귀 → 분류 2단계 구조
문제 정의 체크리스트
비즈니스 관점
데이터·모델링 관점
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 67일차 ) (0) | 2026.06.17 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 66일차 ) (0) | 2026.06.16 |
| [내일배움캠프] QA/QC_5기 ( 64일차 ) (0) | 2026.06.10 |
| [내일배움캠프] QA/QC_5기 ( 63일차 ) (0) | 2026.06.09 |
| [내일배움캠프] QA/QC_5기 ( 62일차 ) (0) | 2026.06.08 |