Skip to content

Latest commit

 

History

History
67 lines (42 loc) · 3.1 KB

File metadata and controls

67 lines (42 loc) · 3.1 KB

SmartFactory_B : UCI-SECOM

Hits
Paper | PPT | Presentation

Members

  • 유찬재(School of Mechanical Engineering, Chung-Ang University)
  • 최연찬(School of Mechanical Engineering, Chung-Ang University)
  • 🙋‍♀️임도연(School of Computer Science and Engineering, Chung-Ang University)

주제

반도체 제조 과정에서의 수율 향상을 위한 이진 분류 모델 비교 분석

데이터

캐글(https://www.kaggle.com/paresh2047/uci-semcom) 에서 제공하는 데이터셋 이용

데이터 특징

  • 고유치가 1인 열 존재
  • Pass/Fail 데이터 비율이 고르지 않음
  • 데이터 값의 편차가 큼

데이터 전처리

  1. 결측값 처리
  • 결측값이 900개가 넘는 열은 삭제 후 남은 결측값은 0으로 대체
  • 결측값이 50%가 넘는 열과 고유치가 1인 열은 삭제 후 남은 결측값은 앞,뒤 행의 값으로 대체
  1. 데이터 스케일링
  • Oversampling(오버샘플링)
  • StandardScaler(표준화)
  • PCA(주성분 분석)

데이터 모델링

데이터 평가

  • F1_score
  • Recall(재현율)
  • Precision(정밀도)

image

결론

  • 2가지로 진행한 데이터 전처리 방법에 따른 경향성이 보이지 않음
  • GridSearchCV로 하이퍼 파라미터 조정을 통해 예측성능이 향상됨

image

image

image

최종적으로, 전처리 방법2를 적용한 뒤 GridSearchCV로 교차검증을 하고 SVM 알고리즘으로 학습시킨 모델이 가장 좋은 예측 성능을 보였다.