내일배움캠프(QA,QC_5기)

[내일배움캠프] QA/QC_5기 ( 16일차 )

lshxkwh 2026. 3. 30. 20:21

[ 데이터 전처리 & 시각화 ] - 실제 데이터 가지고 분석하기! 1일차

auto-mpg.csv
0.02MB

 

[ Part 1 ] . 데이터 불러오기 

import pandas as pd

df = pd.read_csv('/content/auto-mpg.csv')
df.head()

 

[ Part 2 ] . 데이터 전처리 하기

df.info()
df.isnull().sum()

※ 여기서 horsepower이 object(문자) 타입이므로 숫자로 변환하고 결측치는 평균값으로 대체 할려고 한다

 

[ Part 3 ]. horsepower 전처리

df['horsepower'] = pd.to_numeric(df['horsepower'],errors = 'coerce')
df['horsepower'] = df['horsepower'].fillna(df['horsepower'].mean())
df

 

[ Part 4 ]. 필요 없는 컬럼 제거하기

  • 자동차 이름은 필요없는 행이므로 삭제 해준다 ( errors = 'ignore' 은 에러가 발생해도 계속 진행 하라는 의미 )
df = df.drop(columns= ['car name'] , errors = 'ignore')
df

 

[ 중요 ★ ] . 연비 vs 차 무게 관계 비교 

import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
plt.scatter(df['weight'],df['mpg'])
plt.xlabel('weight')
plt.ylabel("mpg")
plt.title("무게 vs 연비 관계")
plt.show()
  • 차량 무게가 무거워 질수록 연비는 낮아진다는 것을 알 수 있다.

[ 중요 ★ ] . 연비 vs 마력 관계 비교 

plt.scatter(df['horsepower'],df['mpg'])
plt.xlabel('horsepower')
plt.ylabel('mpg')
plt.title('연비 vs 마력 관계')
plt.show()

  • 마력은 엔진이 얼마나 강한 힘을 내는지를 의미 한다. 그러므로 높은 힘을 쓸려면 더 많은 연료를 필요로 하고 그러므로 연비는 낮아 질 수 밖에 없다.

[ 중요 ★ ] . 연도 별 연비 변화

df.groupby('model year')['mpg'].mean().plot(kind='line')
plt.xlabel('model year')
plt.ylabel('average mpg')
plt.title('연도별 평균 연비')
plt.show()

  • 시간이 지날 수록 연비 개선이 되어 연비가 증가한다는 것을 알 수 있다.

[ 중요 ★ ] . 실린더 수 별 연비 변화

df.groupby('cylinders')['mpg'].mean().plot(kind='bar')
plt.xlabel('cylinders')
plt.ylabel('average mpg')
plt.title('실린더 별 평균 연비')
plt.show()

  • 실린더 수가 많을 수록 연비가 낮다
  • 3기통 차량은 거의 옛날 차량 모델이 많아 엔진 효율이 좋지 않다.

 

본 분석을 통해 차량의 물리적 특성(무게, 마력, 엔진 구조)이 연비에 큰 영향을 미친다는 것을 확인할 수 있었다.