공정 품질 사전 예측 및 예지보전 위한 데이터 마이닝
출처: (한국생산기술연구원, 공정 품질 예측 및 원인 분석을 위한고성능 데이터마이닝 모델 연구, 2017.2.24)
공정 품질 사전예측을 위한 문헌 조사 중 여러 자료를 개인정리하는 용도의 포스팅
공정품질 예측 및 원인 분석의 중요성
1. 생산량 등의 가시적인 지표에 비해 후순위
2. 품질 측정이 공정 완료 후 진행하는 경우가 많음
3. 샘플링 문제 - 전수검사 어려움. LOT단위
4. 공정 중 품질예측을 통해 불량 조기 탐지, 선제적 품질관리
5. 모수 품질 측정을 위한 데이터 마이닝 필요
제조 현장 데이터의 특징
전수 x 샘플검사 위주, LOT단위 샘플
제품 단위로 품질 값이 존재하는 Labeled 데이터보다 품질 값이 없이 공정 데이터만 존재하는 Unlabeled 데이터의 양이 더 많음 (3) Labeled 데이터만으로 모델을 학습시킬 경우 전체 데이터의 분포를 정확하게 계산하기 어려워 예측 성능의 한계가 있음 (4) Unlabeled 데이터를 Labeled 데이터와 함께 학습시켜 보다 정확한 품질 예측 모델을 만드는 Semi-Supervised Learning 학습 방법론 연구 필요
공정 데이터의 경우 여러 대의 설비에서 파라미터 값을 시계열로 저장하므로 대용량 데이터임
학습 복잡도가 매우 높음
변수의 수가 많고 단계가 복잡한 공정 데이터의 경우, 딥러닝을 활용한 품질 예측 성공 가능성이 높음
>> 해당논문에서는 이러한 학습 복잡도, unlabeled 데이터 활용하기 힘든 supervised learning의 한계, 변수가 너무 많은 문제를 해결하기 위해 아래와 같은 학습데이터 줄이는 알고리즘, unlabeled 데이터를 활용하는 semi supervised, 변수선택 알고리즘을 통해 품질데이터 예측의 정확도를 향상시킴
해외와 국내의 기술 차이
* 자료: 2014년도 기술수준평가 결과(안), 120개 국가전략기술, 미래창조과학부, 2015.04.29
스마트 공장 관련 요소 기술들의 기술 격차는 대부분 최고 기술국 대비 80% 수준이며, 특히 지식기반 빅데이터 활용의 경우 77% 수준으로 뒤쳐져 있음. 공정 품질 데이터에 대한 모델링 정확도만을 비교했을 때, 최고 기술국 대비 모델의 불량 예측 오차율의 경우 2배 수준이며, 품질 예측 오차율의 경우 3배 수준([표 5]) 불량 원인 인자 분석의 경우 아직 선진국에서도 정량적으로 성과를 발표하지 못했으며, 국내 역시 마찬가지 수준.전체적인 기술 격차가 존재하고 있으며, 이를 극복하기 위한 노력이 필요
- 2007년 미국 Tuskegee University 반도체 공정에서의 불량탐지 모델인 FD-kNN을 발표하였음(He and Wang, 2007). 이는 기존의 주성분분석(Principal Component Analysis: PCA) 기반의 T 2 지수가 가진 한계점을 극복하여, 비선형 문제에서의 불량탐지가 가능한 모델을 개발하였음.
- 반도체 공정 중 Etch 공정에서 가상계측에 기반한 품질예측 기법을 개발하였음. Gaussian Process Regression 모델
연구 주 내용
학습 복잡도 감소 알고리즘, Semi superviesed learning algorithm
학습복잡도 감소
마진 예측 기반 학습데이터 선택 알고리즘 개발(Expected margin-based pattern selection: EMPS)
복수개의 샘플 데이터셋 학습을 통한 학습 데이터 마진 평가
평가된 마진의 평균 및 표준편차를 이용하여 최종 마진 예측
마진이 특정 영역 안에 들어오는 학습 데이터 선택
학습시간 측정을 통한 학습 복잡도와 예측 정확도를 기존 모델(SVM-KM, NPPS, BEPS, EMPS, Ensemble)과 EMPS를 비교
(기본적으로 SVM에 기반한 것으로 보임)
Unlabeld data 복원 학습데이터
두 개의 확률적 지역 재구축(probabilistic local reconstruction) 모델 활용 label 분포 예측
Unlabeled 데이터를 학습하여 일반화 성능 강화
Label 분포 기반 불확실성을 고려한 학습 데이터 생성
PLR, SVR(support vector regression)을 변형하여 활용한 것으로 보임
*SVR?
“SVR은 데이터에 노이즈가 있다고 가정하며, 이러한 점을 고려하여 노이즈가 있는 실제 값을 완벽히 추정하는것을 추구하지 않는다. 따라서 적정 범위(2ϵ) 내에서는 실제값과 예측값의 차이를 허용한다.”
일종의 오버샘플링이라고 봐도 될까?
모델의 예측 정확도와 학습시간 측정은 기존(coreg KNN, coreg SVR, co- SVR, L- SVR)과 해당모델과의 비교
다변량 선택을 위한 변수 선택 알고리즘
Random forward search 기반 변수 선택 알고리즘