Data science/데이터 다루기2 실전 시계열 분석(Practical Time Series Analysis) O-REILLY 실전 시계열분석(Practical Time Series Analysis) 책을 읽으며 필요한 내용 메모 및 정리 현재 분석중인 데이터셋 구조 보안상 데이터구조가 유사한 가상데이터를 생성했다. 실제 값과는 아예 다르다. 설비의 모델은 총 6개가 있으며 동일 장비가 수백 대 존재한다. 고장이 한 번 날 때마다 한 행으로 기록이 된다. 고장 일시와 수리 일시가 기록된다. 동일 장비(개별장비 ID)가 시계열에 따라 여러 번 고장이 날 경우 여러 행을 가진다. 데이터셋에서 머신ID로 Group by 할 경우 고장 횟수에 따라 중복집계되며 시간에 따라 구분된다. 이하 설비DT라고 명명하겠다. 주의점은 고장이 날 때만 기록이 되므로 고장이 나지 않은 주는 누락된다는 것이다. 1 0 111 0 1 로 .. 2022. 5. 23. 학습 데이터의 불균형을 해결하는 방법 데이터를 학습할 때 요인 혹은 CLASS에 따른 데이터 개수가 크게 차이나는 경우가 있다. 혹은 학습할 데이터의 정량적인 개수 자체가 부족할 때가 있다. 기본적으로 딥러닝 분석을 위해서는 많은 데이터 확보가 효과적이다. 인공지능 학습의 정확도 문제도 있지만, 소수데이터의 평가가 어려워지는 문제도 있다. 100명 중 3명이 여자라고 했을 때 성별분류 인공지능을 만들면 무조건 남자라고 판정해도 정확도가 97%기에 겉으로 보기엔 완성도 있는 모델인 것이다. 그럴 때 불균형을 해결하고 데이터 수를 늘리는 방법의 일부를 정리했다. 소수 데이터 수를 뻥튀기하는 방식 = 오버샘플링 CNN을 이용해 음식사진 700여종을 분류한 프로젝트이다. 음식 종류 당 50여장을 학습했다고 하는데 이는 이미지 학습에서 매우 적은 양.. 2022. 4. 4. 이전 1 다음