[데이터사이언스] 데이터전처리
데이터 전처리: 데이터크리닝 데이터 전처리의 필요성: 데이터 품질이 높더라도 전처리 필요성 존재(구조,데이터 형태,데이터 사이즈 등등) 데이터의 품질을 낮추는 요인: 불완전(필드가 비어있는 경우), 잡음(데이터 오류), 모순(정합성, 일관성 결여) 데이터 전처리: 정제, 통합, 축소, 변환 결측값(Missing Value): 비어있는 상태, NULL 결측값 처리방법: 수작업으로 채우기, 특정값 사용, 평균값 사용, 가능성 높은 값 사용(회귀분석, 보간법 등), 해당 데이터행 제거 이상값: 드물게 나타나는 특이값, 오류, 다양한 탐지기법 존재 IQR기준(Box Plot) 확률이나 분포: Variance, Likelihood(우도, 조건부확률, 정상/이상 샘플에 대한 발생확률로 판별), 거리기반(Neares..
2023. 3. 30.