내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 32일차 )

lshxkwh 2026. 4. 21. 21:09

[ 머신러닝 심화 ] - 실시간 세션 2

  1. clustering(클러스터링 , 군집화)란?
    • 클러스터링은 답이 없어도 데이터 끼리의 거리를 측정해서 자동으로 그룹을 만드는 방법
      즉 , 서로 가까이 있는 비슷한 것들의 그룹(군집)을 이루는 작업 ( 비지도 학습의 한 종류 )
    • 분석 기법에서 클러스터링이란 ????
      1. 분석 대상이 되는 데이터의 그룹을 만드는 방법론 
        - intra-cluster(군집 내 거리) : 데이터들 끼리의 거리는 가까울 수록 좋음
        - initer-cluster(군집 간 거리) : 멀수록 좋음
        # 이때 거리를 어떤 것으로 정의 하느냐에 따라 클러스트링 이 다르게 형성
    • 클러스트링이 필요한 이유
      1. 머신러닝 문제 해결 과정에서 학습데이터의 구조적 이해
        -> 크고 복잡한 데이터 셋을 소수의 균일한 범주로 단순화
      2. 새로운 데이터 붆류
        -> 정답이 없는경우 , 모르는 경우

      3. 이상 탐지
        -> 이미 보유 , 다른 데이터 셋
    • 클러스터링 쉽게 이해하기!!

 우리는 과일에 대한 데이터를 가지고 있다. 

이 데이터 셋에는 사과, 딸기, 복숭아,오렌지의 색깔 정보와 크기가 들어있다. 

이때 클러스터링을 사용하게 도면 이 데이터를 분석해 비슷한 크기와 색깔을 가진 과일들을 그룹화 할 수있다.

 

클러스트링은 데이터들 간의 유사성을 계산하여 이를 기준으로 클러스터를 형성한다. 이때 사과와 사과는 크기와 색깔이 비슷하므로 같은 클러스터로 묶일 것이고 복숭아와 오렌지는 다른 종류의 과일 이지만 크기와 색깔이 유사한 경우 , 비슷한 특징을 가진 다른 클러스터로 묶일 수 있을 것이다.

 

  • 클러스터링을 통해 데이터를 그룹화 하면 비슷한 특성을 가진 데이터 들 끼리 묶어 패턴을 파악 하거나 유사한 데이터를 찾을 수 있습니다. 이를 통해 데이터를 잘 이해하고 분석 할 수 있게 된다. 

 

 2. 클러스터링 프로세스

  • 문제정의 - 데이터 수집/전처리 - 알고리즘 선택 - 학습 &k 결정 - 평가 - 해석 & 활용

 

 

계층적 군집화(Hierarchical Clustering)

 

1. 덴드로그램
    - 가장 비슷한거 2개를 묶고 또 비슷한 거 끼리 묶고 이 과정을 나무 처럼 기록

 -  모든점이 하나가 될때 까지 반복하며 높이(거리 )기록

 

 2. 통합 계층 & 분할 계층 군집화

아 남아서 공부할려했는데 zep이 못견디고 다운됬어요 아쉽게도 내일 마무리 공부를 할게요