[ 데이터 전처리 & 시각화 ] - 실제 데이터 가지고 분석하기! 1일차
[ Part 1 ] . 데이터 불러오기
import pandas as pd
df = pd.read_csv('/content/auto-mpg.csv')
df.head()

[ Part 2 ] . 데이터 전처리 하기
df.info()
df.isnull().sum()

※ 여기서 horsepower이 object(문자) 타입이므로 숫자로 변환하고 결측치는 평균값으로 대체 할려고 한다
[ Part 3 ]. horsepower 전처리
df['horsepower'] = pd.to_numeric(df['horsepower'],errors = 'coerce')
df['horsepower'] = df['horsepower'].fillna(df['horsepower'].mean())
df

[ Part 4 ]. 필요 없는 컬럼 제거하기
- 자동차 이름은 필요없는 행이므로 삭제 해준다 ( errors = 'ignore' 은 에러가 발생해도 계속 진행 하라는 의미 )
df = df.drop(columns= ['car name'] , errors = 'ignore')
df

[ 중요 ★ ] . 연비 vs 차 무게 관계 비교
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
plt.scatter(df['weight'],df['mpg'])
plt.xlabel('weight')
plt.ylabel("mpg")
plt.title("무게 vs 연비 관계")
plt.show()

- 차량 무게가 무거워 질수록 연비는 낮아진다는 것을 알 수 있다.
[ 중요 ★ ] . 연비 vs 마력 관계 비교
plt.scatter(df['horsepower'],df['mpg'])
plt.xlabel('horsepower')
plt.ylabel('mpg')
plt.title('연비 vs 마력 관계')
plt.show()

- 마력은 엔진이 얼마나 강한 힘을 내는지를 의미 한다. 그러므로 높은 힘을 쓸려면 더 많은 연료를 필요로 하고 그러므로 연비는 낮아 질 수 밖에 없다.
[ 중요 ★ ] . 연도 별 연비 변화
df.groupby('model year')['mpg'].mean().plot(kind='line')
plt.xlabel('model year')
plt.ylabel('average mpg')
plt.title('연도별 평균 연비')
plt.show()

- 시간이 지날 수록 연비 개선이 되어 연비가 증가한다는 것을 알 수 있다.
[ 중요 ★ ] . 실린더 수 별 연비 변화
df.groupby('cylinders')['mpg'].mean().plot(kind='bar')
plt.xlabel('cylinders')
plt.ylabel('average mpg')
plt.title('실린더 별 평균 연비')
plt.show()

- 실린더 수가 많을 수록 연비가 낮다
- 3기통 차량은 거의 옛날 차량 모델이 많아 엔진 효율이 좋지 않다.
본 분석을 통해 차량의 물리적 특성(무게, 마력, 엔진 구조)이 연비에 큰 영향을 미친다는 것을 확인할 수 있었다.
'내일배움캠프(QA,QC_5기)' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 ( 18일차 ) (0) | 2026.04.01 |
|---|---|
| [내일배움캠프] QA/QC_5기 ( 17일차 ) (0) | 2026.03.31 |
| [내일배움캠프] QA/QC_5기 ( 15일차 ) (2) | 2026.03.27 |
| [내일배움캠프] QA/QC_5기 ( 14일차 ) (0) | 2026.03.26 |
| [내일배움캠프] QA/QC_5기 ( 13일차 ) (0) | 2026.03.25 |