본문 바로가기

데이터사이언스8

[데이터사이언스] 나이브베이즈, 의사결정나무, 비계층적 군집분석 나이브베이즈 Bayes 법칙에 기반한 분류 기법 Feature들이 확률적으로 독립이라는 가정 확률 기반, 완전히 확률은 아니다 -> 그래서 나이브 베이즈 정리: 사후 확률, 이벤트가 다 끝나고 거꾸로 물어봄, P(A|C)=P(C|A)P(A)/P(C) 머신러닝에서는 Conditional(조건부)을 안쓰고 likelihood(우도)를 쓴다 P(A|C)와 P(B|C)는 분모는 똑같음, 때문에 분모는 계산하지 말자 -> 확률은 아니지만 비슷 그래서 naive Laplace Smoothing: 샘플의 갯수가 작을때 확률을 구하고 싶으면, 분모에 2를 더하고, 분자에 1을 더한다 Underflow: 확률의 값이 너무 작으면 컴퓨터가 다룰수 있는 범위를 넘어섬 -> exp, log 활용 나이브베이즈 장점: 단순, 비.. 2023. 4. 3.
[데이터사이언스] 선형회귀분석, 로지스틱 회귀분석, KNN 선형회귀분석: 머신러닝파트 minimize MSE 경사하강법(Gradient Descent): 보폭을 결정하는 개념을 Learning Rate(학습률, 에타, 일반적으로 0.05) 전체 최적을 (optimal minimum) 보장하지는 않음 다중공선성: 독립변수들 간에 강한 상관관계가 존재하는 상태 확인방법: 상관계수, VIF 클수록 다중공선성이 큼 해결방법: 다중공선성이 있는 독립변수 제거, 머신러닝에서는 크게 고민하지 않는다 one-hot-encoding → Dummy variable 다중공선성 문제 해결: Ridge(가중치 조절), LASSO(데이터 제거) 로지스틱 회귀분석 로지스틱 → 로그 느낌 Classification: 이진 분류 모델, class 예측하는 문제, 이상, 이하로 수치형 데이터도.. 2023. 4. 2.
[데이터사이언스] 머신러닝 Overfitting/Underfitting, 모델평가기법 머신러닝 개요 및 유형 머신러닝: 경험을 통해 자동으로 개선되는 컴퓨터 알고리즘에 대한 학문, Train ML algorithm 전통적 방법: Write rules 1.Supervised learning(지도학습): Regression(회귀,수치형), Classification(분류,범주형), 입력값에 대한 출력값이 함께 제시됨 2.Unsupervised learning(비지도학습): 데이터만 있고 정답이 없음, 군집을 찾는 방식 또는 차원 축소 방식 사용 3.Reinforcement learning(강화학습): 구체적인 행동에 대한 지시없이 목표만 주어짐, 최선의 액션을 보상(reward)에 의해 스스로 찾아 학습하게 하는 방법, Agent Machine Learning Workflow 1. Colle.. 2023. 3. 31.
[데이터사이언스] 데이터전처리 데이터 전처리: 데이터크리닝 데이터 전처리의 필요성: 데이터 품질이 높더라도 전처리 필요성 존재(구조,데이터 형태,데이터 사이즈 등등) 데이터의 품질을 낮추는 요인: 불완전(필드가 비어있는 경우), 잡음(데이터 오류), 모순(정합성, 일관성 결여) 데이터 전처리: 정제, 통합, 축소, 변환 결측값(Missing Value): 비어있는 상태, NULL 결측값 처리방법: 수작업으로 채우기, 특정값 사용, 평균값 사용, 가능성 높은 값 사용(회귀분석, 보간법 등), 해당 데이터행 제거 이상값: 드물게 나타나는 특이값, 오류, 다양한 탐지기법 존재 IQR기준(Box Plot) 확률이나 분포: Variance, Likelihood(우도, 조건부확률, 정상/이상 샘플에 대한 발생확률로 판별), 거리기반(Neares.. 2023. 3. 30.
[데이터사이언스] 선형회귀분석 선형회귀분석: 통계파트 (기울기, 절편 구하는법) 회귀분석: 회귀분석으로 인과관계를 확인 y(종속변수) = 베타_0 + 베타_1 * x(독립변수) 목적: 독립변수의 영향을 측정, 설명함 + 예측 함수에서는 하나의 x값에 대해서 하나의 y값이 나오지만 관측 데이터에서는 하나의 x값에 대해서 다양한 y값이 존재 때문에 오차(Error)라는 개념이 등장한다 Target Value - Model Value == Error 단순 선형 회귀분석 SSE(Sum of Square Error) -> 최소제곱법(Ordinary Least Squares: OLS) 1. x평균, y평균 구하기 2. 기울기 먼저 구하기 3. 절편 구하기 선형회귀분석: 통계파트 (주요가설) 희귀분석의 가설 H_0: 귀무가설, x변수와 y변수는 .. 2023. 3. 29.
[데이터사이언스] 주요확률분포, 추론 통계, 상관분석 주요확률분포: 이산, 연속, 균등, 이항, 포아송, 지수 확률변수: 표본공간의 원소를 실수로 대응한 값 확률분포: 확률변수와 그 값이 나올수 있는 확률을 대응시켜 표시하는 것 확률분포함수: 확률질량함수(PMF, Probability Mass Function), 확률밀도함수 (PDF, Probability Density Function) 균등분포(Uniform Distribution) 이항분포(Binomial Distribution): n번 반복, 독립, 성공확률(p), 실패확률(1-p), 확률변수 x는 n번 시행중 성공횟수 시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항분포는 좌우대칭을 이룬다 포아송분포(Poisson Distribution): 단위시간, 단위거리, 단위면적, ~동안, ~당 1시간.. 2023. 3. 28.