출처 논문:
위 논문 읽으며 주요 포인트 Summary
리서치/메모 용도의 글이며 모든 정보 출처와 지적재산권은 위 논문에 있음~~
My opinion:
해당 연구는 고장 분석 x
생산량, 가동 시간으로 군집 파악함
즉 고장 분석으로 치면, Y(결과 변수)가 아닌 설명 변수(X)이다.
하지만 어떤 군집으로 특징이 나뉘는지 보려면 Y값이 아닌 X값으로 군집 생성하는 것이 맞다.
DTW, 시계열 군집화, 특징 파악 등을 방법론적으로 파악하기 좋은 논문이다.
해당 논문은 R을 사용하였음
개요:
- 반도체 제조 장비의 분석 Case
- 군집화 기법을 이용한 반도체 다이(Die) 내부 전압의 특성에 따라 분류하고 군집별 메모리의 동작 특성을 정의한 후 최적화된 전압조건을 적용함으로써 불량률 감소
- 박은미(2013)는 서포트벡터머신과 K-Means를 이용한 반도체 테스트공정의 불량 예측에 관한 연구를 진행
반도체 최종 검사의 불량 여부를 Probe Test 단계에서 미리 예측하는 학습 모델을 제안
- 반도체 최종 검사의 불량률이 매우 불균형한 데이터이기 때문에 이 불균형을 해결하기 위해 K-means를 사용해 여러 군집으로 나누고 군집마다 데이터의 균형을 맞추는 작업 후 실험을 진행
- 커널밀도 기반 파티클 맵을 활용한 반도체 설비 불량 관리
불량 발생 현상을 입체적으로 제공하여 직관적 불량 분석이 가능
불량 패턴에 기반하여 불량부품을 선정하기 위해 인공신경망 및 의사결정나무의 기계학습 알고리즘
- 다중선형 회귀 및 비선형적 회귀 접근 방식을 이용하여 ch 공정에 대해 계측 CD 값의 특징을 분석하고 예측 구축
목표변수(CD값)와 유의하다고 판단되는 변수들을 선택한 후 분석을 실시
- 반도체 웨이퍼 결함패턴 인식을 위한 다단계 ART1 알고리즘
반도체 웨이퍼의 결함 패턴을 정확하게 인식하기 위해 신경망 알고리즘 중 ART1을 이용
- 해당 연구:
데이터 : Cleaning 장비 92대 의 데이터, 효율 지수(일종의 가동 시간 비율), 생산량 지수( 몇 장을 생산했는가?)
모두 일별로 생성되는 시계열 데이터
낮은 효율 지수는 PM(Preventive Manitenance)와 BM(Breakdown Maintenance) 이 많이 발생하고 비가동율이 높아진다는 의미
분석 기법: 다변량 시계열 분석을 진행하고 92대의 설비에 대해 유사도(거리) 측정을 위해 DTW(Dynamic Time Warping) 알고리즘을 사용. 시계열 간의 유사도 패턴 파악하는 DTW
군집화는 계층적(Hierarchical) 기법과 비계층적 기법 중 K-medoids 기법을 적용
분석 알고리즘:
- DTW: Dynamic Time Warping
시계열 군집 기법의 일부
DTW 기법은 본래 주식과 같이 시간대별로 변하는 시계열 데이터(Time Series Data)사이에서 유사한 패턴을 가지는 데이터를 찾아내는 알고리즘
DTW 기법은 두 시계열 데이터 사이의 유사성을 측정하는 방법
장점은 두 시계열의 시작점이 달라도 패턴만 유사하면 유사도가 잘 측정됨
위 그림에서 유클리디안으로 시계열 패턴 유사도 비교시, 좌우 시작점 차이로 인해 두 패턴이 매우 다른 것으로 인식
DTW는 맵핑을 통해 두 시계열이 유사한 것으로 측정
두 데이터의 유사도는 Warping Path로 구함
Warping Path: 두 데이터의 구성요소 간 여러 매핑결과 중 매핑된 구성요소간의 거리 합이 가장 작은 것이다.
Warping Path 구하는 5조건
1. Monotonicity
w 포인트들은 양 데이터 시간이 증가하는 방향으로만 매핑
2. Continuity
매핑 시 시간 순서 건너뛰지 않고 순서대로, 연속적으로 매핑
3. Warping Window
w 포인트들은 Warping Window 구역 내에서만 존재 해야 함
4. Slope Constraint
여러 path 중에 결정해야 할 때 한쪽 방향으로만 쏠리며 매핑하는 것 피함
5. Boundary Condition
시작점과 끝점을 동일한 offset만큼 이동하여 패턴 비교?
(이해 못함, 추가 리서치 필요)
- 군집 분석
EDA 진행 후 생산량 지수, 효율 지수 간의 Scale 차이가 있으므로 정규화 진행, 0~1
DTW로 군집 분석 진행 후 실루엣 계수로 군집 적절성 판정
a(i)는 개체 i가 속해 있는 군집의 모든 개체들과 개체 i와의 평균 거리이고, b(i)는 개체 i가 속하지 않은 군집의 모든 개체들과 개체 i와의 평균거리이다. 실루엣 너비값은 각 개체의 신뢰도의 개념
각 개체가 적절한 군집에 배치될수록 1에 가깝고 그렇지 않을수록 –1에 가깝다.
계층적 군집분석 진행:
군집별 대표 추세 결과 확인, 실루엣 계수를 군집 개수 k 를 2~10로 변환 시키며 적절한 것 선택
k=5일 때 제일 적절
k=5로 적용 시 군집 별 특징
- K-medoids 군집 분석
결론:
반도체 생산 공정(Cleaning) 분석을 위해 일별로 수집되는 효율 지수, 생산량 지수 시계열 데이터를 군집화 함
DTW로 유사성을 측정하고 시계열 간 군집화는 계층적 , K-medoids 두 가지를 사용하여 군집화 및 특징 파악
실루엣 계수 및 경험적인 지식(비지도 학습이므로..)으로 적절성 파악
전반적으로 계층적 군집이 우수했음.
DTW와 Wraping 계산에 대한 또다른 글
댓글