[내일배움캠프] QA/QC_5기 ( 32일차 )

내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 32일차 )

lshxkwh 2026. 4. 21. 21:09

[ 머신러닝 심화 ] - 실시간 세션 2

clustering(클러스터링 , 군집화)란?
- 클러스터링은 답이 없어도 데이터 끼리의 거리를 측정해서 자동으로 그룹을 만드는 방법
  즉 , 서로 가까이 있는 비슷한 것들의 그룹(군집)을 이루는 작업 ( 비지도 학습의 한 종류 )
- 분석 기법에서 클러스터링이란 ????
  1. 분석 대상이 되는 데이터의 그룹을 만드는 방법론
    - intra-cluster(군집 내 거리) : 데이터들 끼리의 거리는 가까울 수록 좋음
    - initer-cluster(군집 간 거리) : 멀수록 좋음
    # 이때 거리를 어떤 것으로 정의 하느냐에 따라 클러스트링 이 다르게 형성
- 클러스트링이 필요한 이유
  1. 머신러닝 문제 해결 과정에서 학습데이터의 구조적 이해
    -> 크고 복잡한 데이터 셋을 소수의 균일한 범주로 단순화
  2. 새로운 데이터 붆류
    -> 정답이 없는경우 , 모르는 경우
  3. 이상 탐지
    -> 이미 보유 , 다른 데이터 셋
- 클러스터링 쉽게 이해하기!!

우리는 과일에 대한 데이터를 가지고 있다.

이 데이터 셋에는 사과, 딸기, 복숭아,오렌지의 색깔 정보와 크기가 들어있다.

이때 클러스터링을 사용하게 도면 이 데이터를 분석해 비슷한 크기와 색깔을 가진 과일들을 그룹화 할 수있다.

클러스트링은 데이터들 간의 유사성을 계산하여 이를 기준으로 클러스터를 형성한다. 이때 사과와 사과는 크기와 색깔이 비슷하므로 같은 클러스터로 묶일 것이고 복숭아와 오렌지는 다른 종류의 과일 이지만 크기와 색깔이 유사한 경우 , 비슷한 특징을 가진 다른 클러스터로 묶일 수 있을 것이다.

클러스터링을 통해 데이터를 그룹화 하면 비슷한 특성을 가진 데이터 들 끼리 묶어 패턴을 파악 하거나 유사한 데이터를 찾을 수 있습니다. 이를 통해 데이터를 잘 이해하고 분석 할 수 있게 된다.

2. 클러스터링 프로세스

문제정의 - 데이터 수집/전처리 - 알고리즘 선택 - 학습 &k 결정 - 평가 - 해석 & 활용

계층적 군집화(Hierarchical Clustering)

1. 덴드로그램
- 가장 비슷한거 2개를 묶고 또 비슷한 거 끼리 묶고 이 과정을 나무 처럼 기록

- 모든점이 하나가 될때 까지 반복하며 높이(거리 )기록

2. 통합 계층 & 분할 계층 군집화

아 남아서 공부할려했는데 zep이 못견디고 다운됬어요 아쉽게도 내일 마무리 공부를 할게요

'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글

[내일배움캠프] QA/QC_5기 ( 34일차 ) (0)	2026.04.23
[내일배움캠프] QA/QC_5기 ( 33일차 ) (0)	2026.04.22
[내일배움캠프] QA/QC_5기 ( 31일차 ) (0)	2026.04.20
[내일배움캠프] QA/QC_5기 ( 30일차 ) (0)	2026.04.17
[내일배움캠프] QA/QC_5기 ( 29일차 ) (0)	2026.04.16

현재글[내일배움캠프] QA/QC_5기 ( 32일차 )

lshxkwh 님의 블로그

lshxkwh 님의 블로그 입니다.

데이터시각화 #Python #EDA #금연캠페인 #생체데이터 #티스토리 #데이터분석프로젝트,

Today :
Yesterday :

lshxkwh 님의 블로그