내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 4일차 )

lshxkwh 2026. 3. 12. 20:02

데이터 분석 종합반 ( 4주차 )

- 직접 가설을 세워 그것을 검증하는 연습을 해보자!

 

★ 핵심 ★

- groupby()

- index()

 


Mission 01. 게임 종합반 수강생 유입에 집중하여 액션 플랜을 세워보자!

데이터 분석 순서

더보기

1. 문제 정의 및 가설 설정하기

2. 데이터 분석 기본 세팅하기

3. 데이터 분석하기 ( 전처리 하기 )

4. 분석 결과 시각화하기

5. 결론 내리기

1. 데이터 분석하기 [ "배경" 확인 및 "가설" 세우기 ]

  • 배경 : 광고 비용에 비해 매출 효율이 좋지 않다
  • 가설 : 효율이 낮은 매체에 집행 한다면 기존 대비 50% 광고 효율을 높일 수 있을 것이다.

 

(1). 데이터 살펴 보기

- sparta_data.head()

- sparta_data.tail()

 

🍯 꿀팁!!! - 결측치 다시 보기! 🍯

 

1) 데이터 확인하기

   - sparta_data.info()

2) 결측치 확인하기

   - sparta_data.isnull().sum()

3) 결측치 제거하기

   - sparta_data = sparta_data.dropna()

 

2. 데이터 시각화 하기

(1). 데이터 분석하기

   - 유입 광고 매체 "별"로 수강생 수를 구해야 하기 때문에 groupby(), count()를 이용하자!

   -access_media = sparta_data.groupby('access_media')['user_id'].count()
    access_media

 

(2). 그래프로 시각화 하기 [ Matplotlib , numpy 선언하기 ! ] 

  • import Matplotlib.pyplot as plt
  • import numpy as np

   - 바 그래프 그리기


 

(3). 결론 

- 광고 효율이 좋은 인스타 그램, 페이스북 그리고 네이버 블로그 관련 홍보에 예산을 집중하면 좋을 것 같다!

 

4. 시각화 하기 [ 심화 ] 

(1). 그래프 디테일 바꾸기

  • 그래프 색 변경하기

     - plt.bar(X, Y,color='원하는 색상 컬러')

 

  • 각 바 마다 다른 색 입히기!

     - plt.bar(access_media.index,access_media.values, color = ['gold', 'b', '#FF0000', 'green','orange','red','#000000'], alpha = 0.3)

 

(2). 그래프 테두리 변경하기

  •  그래프 테두리 및 색 변경하기

     - plt.bar(access_media.index,access_media.values, color = ['gold', 'b', '#FF0000', 'green','orange','red','#000000'], alpha = 0.3,edgecolor = '원하는 색상', linewidth = 원하는 두께)

 

(3). 그래프 너비 바꾸기

    - plt.bar(access_media.index,access_media.values, width=원하는 두께)

(4). 그래프 폰트 크기 바꾸기

    - plt.title('수강생 별 수강 신청 경로',fontsize=원하는사이즈)

(5). 그래프 바 수치 바꾸기

    - bar = plt.bar(access_media.index,access_media.values)

      for rect in bar:

              height = rect.get_height()

              plt.text(rect.get_x() + rect.get_width()/2.0, height, '%.1f' % height, ha='center', va='bottom', size = 12)

 

................. 멘탈 바사삭....................

 


Mission 02.  할인이 가장 효과정인 선택인지 알아보자!

[ 1단계 ] 배경 및 가설 세우기

  • 문제 파악
  • 결과 도출

[ 2단계 ] Pandas , Matplotlib 사용 선언 후 수강 데이터 가져오기

- import pandas as pd
- import numpy as np
- import matplotlib.pyplot as plt
- plt.rc('font', family='NanumBarunGothic') #한글 깨짐 방지 글꼴 설정

 

- sparta_data = pd.read_table('파일 경로',sep=',')

 

 

[ 3단계 ] 필요한 데이터 알아보기

- sparta_data.tail()

 

[ 4단계 ] 데이터 분석 및 시각화 하기

   

- #sparta_data['group'] ==1 이라는 조건을 두고 그것이 일치하는 user의 수를 세면 됩니다!
#이때의 ==은 우리가 알고 있는 "equal" = 과 동일한 뜻입니다! 

(파이선에서 = 는 변수 지정 할때만 쓰입니다. 소곤소곤)
#할인 혜택 받지 않은 사람의 결제 수 
sum_of_students_by_discounted = sparta_data[sparta_data['group']==1]['user_id'].count()
sum_of_students_by_discounted

 

# 동일한 방법으로 할인혜택을 받지 않는 고객을 sparta_data['group'] ==0 이라는 조건을 두고 그것이 일치하는 user의 수를 세볼까요?
#이때의 ==은 우리가 알고 있는 "equal" = 과 동일한 뜻입니다! 
#할인 혜택 받은 사람의 결제 수 
sum_of_students_by_not_discounted = sparta_data[sparta_data['group']==0]['user_id'].count()
sum_of_students_by_not_discounted

 

  •  시각화 하기

     -
plt.figure(figsize=(10,5))

x_list =["정가 구입 그룹", "할인 적용 그룹"]

y_list = [percent_of_students_by_not_discounted ,percent_of_students_by_discounted]

plt.bar(x_list, y_list)

plt.title('할인 여부 결제 전환율 비교 분석')

plt.xlabel('할인 적용 여부')

plt.ylabel('결제 전환율')

plt.show()

- 결론 : 따라서, 고객의 구매 장벽을 낮추기 위해 마지막 페이지에적절한 할인을 제시하는 것이

            신규 수강생 모집에 효과적으로 보입니다.


< 아티클 스터디 >

주제 : 데이터 분석이란 무엇일까? | 요즘IT

 

데이터 분석이란 무엇일까? | 요즘IT

오늘날 데이터는 어디에나 있습니다. 그리고 우리가 생산하는 데이터는 해를 거듭할수록 증가하고 있습니다. 우리가 사용할 수 있는 데이터의 양은 방대하지만, 이 모든 데이터로 무엇을 할 수

yozm.wishket.com

 

 

  1. 데이터 분석의 개념정보와 인사이트를 도출하는 과정이다. ( 문제 해결, 의사결정, 미래 예측 가능 )

         → 데이터 분석(Data Analysis)이란 수집된 데이터를 정리하고 분석하여 의미 있는

     

    2. 데이터 분석의 목적→ 문제 원인 분석→ 의사 결정 지원

          → 미래 예측

          → 데이터 속 패턴과 관계 파악

 

  1. 데이터의 종류
정성적 데이터 숫자가 아닌 형태의 데이터 이미지, 텍스트, 영상
정량적 데이터 숫자로 표현 가능한 데이터 판매량, 방문자 수

 

4. 데이터 분석 과정 (5단계)

→ 문제 정의

→ 데이터 수집

→ 데이터 정제

→ 데이터 분석

→ 결과 공유

 

 

5. 데이터 분석 유형

기술적 분석 과거 데이터 요약 무엇이 일어났는가
전단적 분석 문제 원인 분석 왜 발생했는가
예측 분석 미래 결과 예측 앞으로 무엇이 일어날까
처방적 분석 해결 방법 제시 무엇을 해야 하는가

 

6 . 데이터 분석에 필요한 기술

→ 통계 및 수학지식

→ SQL 및 데이터 베이스

→ 프로그래밍 언어 (Python , R)

→ 데이터 시각화

  • 주요 포인트

✔ 데이터 분석은 데이터를 활용해 의미 있는 정보를 찾는 과정이다.

✔ 기업은 데이터 분석을 통해 시장 분석과 의사결정을 수행한다.

✔ 데이터 분석은문제 정의 → 데이터 수집 → 정제 → 분석 → 결과 공유단계로 진행다.

✔ 분석 방법에는 기술·진단·예측·처방 분석이 있다.

✔ 데이터 분석 역량은 현대 산업에서 매우 중요한 기술이다.

 

끝!!!!!!!!!