[데이터사이언스] 나이브베이즈, 의사결정나무, 비계층적 군집분석
나이브베이즈 Bayes 법칙에 기반한 분류 기법 Feature들이 확률적으로 독립이라는 가정 확률 기반, 완전히 확률은 아니다 -> 그래서 나이브 베이즈 정리: 사후 확률, 이벤트가 다 끝나고 거꾸로 물어봄, P(A|C)=P(C|A)P(A)/P(C) 머신러닝에서는 Conditional(조건부)을 안쓰고 likelihood(우도)를 쓴다 P(A|C)와 P(B|C)는 분모는 똑같음, 때문에 분모는 계산하지 말자 -> 확률은 아니지만 비슷 그래서 naive Laplace Smoothing: 샘플의 갯수가 작을때 확률을 구하고 싶으면, 분모에 2를 더하고, 분자에 1을 더한다 Underflow: 확률의 값이 너무 작으면 컴퓨터가 다룰수 있는 범위를 넘어섬 -> exp, log 활용 나이브베이즈 장점: 단순, 비..
2023. 4. 3.
[데이터사이언스] 선형회귀분석, 로지스틱 회귀분석, KNN
선형회귀분석: 머신러닝파트 minimize MSE 경사하강법(Gradient Descent): 보폭을 결정하는 개념을 Learning Rate(학습률, 에타, 일반적으로 0.05) 전체 최적을 (optimal minimum) 보장하지는 않음 다중공선성: 독립변수들 간에 강한 상관관계가 존재하는 상태 확인방법: 상관계수, VIF 클수록 다중공선성이 큼 해결방법: 다중공선성이 있는 독립변수 제거, 머신러닝에서는 크게 고민하지 않는다 one-hot-encoding → Dummy variable 다중공선성 문제 해결: Ridge(가중치 조절), LASSO(데이터 제거) 로지스틱 회귀분석 로지스틱 → 로그 느낌 Classification: 이진 분류 모델, class 예측하는 문제, 이상, 이하로 수치형 데이터도..
2023. 4. 2.
[데이터사이언스] 데이터전처리
데이터 전처리: 데이터크리닝 데이터 전처리의 필요성: 데이터 품질이 높더라도 전처리 필요성 존재(구조,데이터 형태,데이터 사이즈 등등) 데이터의 품질을 낮추는 요인: 불완전(필드가 비어있는 경우), 잡음(데이터 오류), 모순(정합성, 일관성 결여) 데이터 전처리: 정제, 통합, 축소, 변환 결측값(Missing Value): 비어있는 상태, NULL 결측값 처리방법: 수작업으로 채우기, 특정값 사용, 평균값 사용, 가능성 높은 값 사용(회귀분석, 보간법 등), 해당 데이터행 제거 이상값: 드물게 나타나는 특이값, 오류, 다양한 탐지기법 존재 IQR기준(Box Plot) 확률이나 분포: Variance, Likelihood(우도, 조건부확률, 정상/이상 샘플에 대한 발생확률로 판별), 거리기반(Neares..
2023. 3. 30.
[데이터사이언스] 주요확률분포, 추론 통계, 상관분석
주요확률분포: 이산, 연속, 균등, 이항, 포아송, 지수 확률변수: 표본공간의 원소를 실수로 대응한 값 확률분포: 확률변수와 그 값이 나올수 있는 확률을 대응시켜 표시하는 것 확률분포함수: 확률질량함수(PMF, Probability Mass Function), 확률밀도함수 (PDF, Probability Density Function) 균등분포(Uniform Distribution) 이항분포(Binomial Distribution): n번 반복, 독립, 성공확률(p), 실패확률(1-p), 확률변수 x는 n번 시행중 성공횟수 시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항분포는 좌우대칭을 이룬다 포아송분포(Poisson Distribution): 단위시간, 단위거리, 단위면적, ~동안, ~당 1시간..
2023. 3. 28.