전체 글 62

[내일배움캠프] QA/QC_5기 ( 70일차 )

EDA 분석 통합 보고서https://app.notion.com/p/38a69e106c01808d94bff31de157b351?source=copy_link 데이터를 통한 공정 과정 파악 | Notion데이터 기준 공정 과정 분석app.notion.comhttps://app.notion.com/p/38a69e106c018080bdd4ee3bda089d5a?source=copy_link 이상 사이클 분석 | Notion이상 사이클 분석app.notion.comhttps://app.notion.com/p/vs-38a69e106c018087937ae1fe4138c157?source=copy_link 정상 vs 이상 비교 분석 | Notion정상 vs 이상 비교 분석 — R03 Gripper_Loadapp.no..

[내일배움캠프] QA/QC_5기 ( 69일차 )

스마트제조 - 로봇 조립라인 시계열 센서 데이터 분석프로젝트 개요주제: 스마트제조 환경에서 로봇 조립라인의 시계열 센서 데이터를 활용한 이상(결함) 탐지데이터 특징약 50개 센서 컬럼, 10Hz 수집률로 30시간 가동분을 필터링하여 최종 32개 완전 사이클 구성모든 파일 공통: 974,836행 의 시계열 데이터데이터셋 구성분석에 사용된 데이터는 총 7개 파일로 구성되어 있으며, 각각 공정의 서로 다른 측면을 담고 있다.① Conveyor_Signals.csv — 컨베이어 신호구성: 974,836행 × 11컬럼컬럼 설명Q_VFD1~4_Temperature컨베이어 구동 인버터(VFD) 온도 센서 4개I_Stopper1~5_Status스토퍼 작동 상태 (bool)_time타임스탬프Description이벤트 설..

[내일배움캠프] QA/QC_5기 ( 68일차 )

데이터 선정 배경 및 소개1. 데이터 선정 배경문제 인식스마트 제조 현장에서는 로봇, 컨베이어, 그리퍼, 안전장치 등 다양한 설비가 연동되어 제품을 자동 조립한다. 이러한 자동화 공정에서는 설비가 정상적으로 동작하더라도 부품 누락, 파지 실패, 조립 순서 이상 같은 문제가 발생할 수 있다.특히 부품이 누락되더라도 설비는 그냥 계속 동작하기 때문에 사람이 직접 확인하지 않으면 불량품이 그대로 다음 공정으로 넘어가는 문제가 있다. 수작업 확인 중심의 품질 관리는 반복성과 확장성이 낮아 자동화가 필요하다.데이터 선정 이유본 프로젝트에서 신라정보기술의 로봇 자동화 조립라인 데이터를 선정한 이유는 다음과 같다.실무 연계성 실제 제조 현장에서 수집된 데이터로, 현업에서 발생하는 부품 누락 문제를 그대로 담고 있다...

[내일배움캠프] QA/QC_5기 ( 67일차 )

오늘 학습한 핵심은 데이터의 흐름을 읽고 연속적인 숫자를 예측하는 회귀 분석(Regression)입니다. 단순한 직선 형태의 선형 회귀부터, 복잡한 데이터 패턴을 잡기 위한 다항 회귀, 그리고 모델의 과적합(Overfitting)을 방지하여 일반화 성능을 높이는 규제(Regularization) 기법과 평가 지표를 체계적으로 다루었습니다.회귀 모델 핵심 유형 비교구분개념장점주의할 점선형 회귀독립변수와 종속변수 간의 직선 관계를 모델링모델이 가볍고 해석이 매우 직관적임데이터 자체의 비선형성을 반영하기 어려움다항 회귀독립변수의 고차항을 추가하여 곡선 형태의 관계 모델링복잡한 데이터 패턴을 유연하게 학습 가능차수가 높아질수록 과적합 위험이 커짐릿지 (Ridge)L2 규제를 더해 가중치 크기를 전반적으로 줄임변..

[내일배움캠프] QA/QC_5기 ( 66일차 )

NASA C-MAPSS 항공 엔진 수명 예측 프로젝트처음부터 딥러닝까지들어가며오늘은 NASA에서 공개한 항공 엔진 데이터셋(C-MAPSS FD001)으로엔진이 언제 고장날지 예측하는 AI 모델을 처음부터 만들어봤다.머신러닝부터 시작해서 딥러닝까지 단계별로 진행했고,최종적으로 RMSE 9.40 / 조기경보 정확도 96% 를 달성했다.1. 문제 정의왜 이 문제가 중요한가?항공사는 엔진 고장 시점을 미리 알 수 없어서 두 가지 문제가 생긴다.과도한 예방 정비 → 멀쩡한 엔진을 너무 자주 정비 → 비용 낭비예상치 못한 고장 → 결항, 안전사고 → 훨씬 큰 손실그래서 센서 데이터로 남은 수명(RUL, Remaining Useful Life) 을 예측해서적절한 시점에 정비하는 것이 목표다.성공 기준지표 목표RMSE..

[내일배움캠프] QA/QC_5기 ( 65일차 )

01. 왜 어려운가문제 정의는 왜 어려울까?데이터 분석 프로세스에서 문제 정의는 가장 첫 단계이자 이후 모든 단계의 전제조건입니다. 그런데 역설적으로, 문제 정의 단계는 가장 적은 데이터와 정보를 가지고 가장 중요한 결정을 내려야 하는 단계입니다.단계보유 정보량결정의 영향력문제 정의매우 적음매우 큼 — 이후 전체 방향 결정EDA / 전처리데이터 확보 후 풍부중간모델링풍부중간평가풍부작음💡 정보는 가장 적은데 결정의 무게는 가장 무겁다 — 이것이 문제 정의가 구조적으로 어려운 첫 번째 이유입니다.02. 구조적 원인문제 정의가 어려운 4가지 이유이유 1되돌릴 수 없는 결정Target 변수, 문제 유형, 평가 지표는 모든 단계의 기준. 문제 정의가 잘못되면 처음부터 다시 시작해야 합니다.이유 2언어의 불일치"..

[내일배움캠프] QA/QC_5기 ( 64일차 )

BMW i3 실주행 데이터로 주행거리 예측 모델링 중간 점검 (D-2)CatBoost 기반 EV 항속거리 예측 모델 구축기전기차를 타는 사람이라면 한 번쯤은 이런 고민을 해봤을 것이다."지금 배터리로 정말 목적지까지 갈 수 있을까?"이른바 Range Anxiety(주행거리 불안) 이다.이번 프로젝트에서는 BMW i3의 실제 주행 데이터를 활용하여 주행거리에 영향을 미치는 요인을 분석하고, 머신러닝 모델을 이용해 주행거리를 예측해 보았다.최종적으로 CatBoost 모델을 통해 R² 0.941, 평균 RMSE 3.08km의 성능을 얻을 수 있었다.하지만 이 프로젝트에서 더 중요했던 것은 높은 성능보다도, 그 성능이 어떤 의미를 가지는지 이해하는 과정이었다.왜 BMW i3를 선택했을까?BMW i3는 전기차 시..

[내일배움캠프] QA/QC_5기 ( 63일차 )

오늘 한 것 — EV 데이터 분석 프로젝트 정리1. K-Fold 기반 Optuna 진행 중기존 Optuna는 단일 train/test split 기준으로 파라미터를 찾았는데, 특정 트립에 과적합됐을 가능성이 있었다. 이를 보완하기 위해 각 trial마다 5-Fold 평균 RMSE로 평가하는 K-Fold 기반 Optuna를 진행 중이다.2. 이동평균 피처 추가 시도SoC, Battery_Power, Velocity, Total_HVAC 4개 변수에 60초 rolling mean을 추가했다. 기존 최적 파라미터로 학습했을 때 RMSE가 6.50 → 7.17로 오히려 나빠졌고, Optuna 재튜닝 후에도 44개 피처 단독보다 성능이 낮아 이동평균 추가는 포기했다.3. 슬라이드 그래프 빨간 계열 스타일로 통일발..

[내일배움캠프] QA/QC_5기 ( 62일차 )

BMW i3는 왜 사라졌을까?전기차 시장이 본격적으로 성장하기 전, BMW는 누구보다 빠르게 미래를 준비하고 있었다. 그 중심에 있었던 차가 바로 BMW i3다.2013년 등장한 BMW i3는 탄소섬유 차체, 친환경 소재, 전용 전기차 플랫폼 등 당시로서는 파격적인 기술을 적용한 혁신적인 모델이었다. 하지만 2022년, i3는 조용히 단종됐다.선구자였던 BMW i3는 왜 시장에서 살아남지 못했을까?BMW i3는 어떤 차였나BMW i3는 BMW가 전기차 전용 브랜드인 BMW i를 통해 처음 선보인 양산 전기차다.당시 대부분의 완성차 업체들이 내연기관 차량을 기반으로 전기차를 개발하던 것과 달리, BMW는 처음부터 전기차를 위해 별도의 플랫폼을 설계했다.특히 가장 큰 특징은 탄소섬유강화플라스틱(CFRP) 차..

[내일배움캠프] QA/QC_5기 ( 61일차 )

EV 주행거리 예측 모델 개발기: CatBoost + Optuna로 RMSE 3.27km 달성1. Baseline 모델 구축먼저 아무런 튜닝 없이 대표적인 트리 기반 회귀 모델 4개를 비교했다.Random ForestLightGBMCatBoostXGBoost타겟 변수는 Distance(주행거리, km) 로 설정하고, 나머지 변수들을 모두 입력 특성으로 사용하였다.B 데이터셋 단독 결과모델R²RMSECatBoost0.8196.50 kmRandom Forest0.799-LightGBM낮음-A+B 통합 데이터셋 결과모델R²RMSECatBoost0.9224.25 kmXGBoost0.9054.72 kmRandom Forest0.8735.45 kmLightGBM0.6748.71 km데이터를 통합하자 모든 모델의 성..