머신러닝 개요 및 유형
머신러닝: 경험을 통해 자동으로 개선되는 컴퓨터 알고리즘에 대한 학문, Train ML algorithm
전통적 방법: Write rules
1.Supervised learning(지도학습): Regression(회귀,수치형), Classification(분류,범주형), 입력값에 대한 출력값이 함께 제시됨
2.Unsupervised learning(비지도학습): 데이터만 있고 정답이 없음, 군집을 찾는 방식 또는 차원 축소 방식 사용
3.Reinforcement learning(강화학습): 구체적인 행동에 대한 지시없이 목표만 주어짐, 최선의 액션을 보상(reward)에 의해 스스로 찾아 학습하게 하는 방법, Agent
Machine Learning Workflow
1. Collect data
2. Prepare data
3. Split data
4. Train a model
5. Test and validate a model
6. Deploy a model
7. Iterate
특성공학: Under/Over fitting
Feature가 많아질수록 차원의 저주에 걸림
Feature 중요도를 객관적으로 측정할수 있는게 중요함: 상관계수, 회귀계수와 p-value, 의사결정 나무의 Feature Importance
1. Feature Selection: Feature가 많은 경우
2. Feature Extraction: 새로운 Feature를 만들어 내는것, 자동화 개념 포함, Feature Construction: 수작업으로 진행
3. Feature Learning: 비지도 학습
Machine Learning은 학습 오류와 일반화 오류 사이의 격차를 최소화 하는것을 목표로 함, 일반화 오류는 예측 오류로 추정함
편향과 분산(Bias vs Variance)
편향: 예측값이 정답과 얼마나 다른가
분산: 예측값들이 얼마나 흩어져 있는가, 입력 데이터에 대해 알고리즘이 얼마나 민감한가
모델의 복잡도: 입력변수 증가하면 증가, 출력변수의 class가 늘어나면 증가, 비선형이면 증가
Underfitting: 모델이 너무 단순(복잡도가 낮아) 성능이 안좋음 -> 학습시간을 늘린다, 더 복잡한 모델을 구성한다, Feature를 추가한다
Overfitting: 모델의 복잡도가 너무 높아 입력 데이터의 잡음까지 fitting 하는 경향을 보이고 일반화에 실패하는 상황
-> 일찍 멈추게한다, 모델 복잡도를 낮춘다, 일부 Feature 제거, Regularization을 활용한다, 앙상블 모델을 적용한다
특성공학: 모델평가기법
모든 모델은 처음보는 데이터를 가지고 평가를 받아야 한다
Cross Validation(교차검증): k-fold Cross Validation (k=10)
평가지표
1.회귀모델: MSE, RMSE, MAE, MAPE
2.분류모델: 예측 대상이 범주형 데이터인 경우
Confusion Matrix: 예측(row,Predicted)/정답(column,Actual)
내가 만든 모델(예측)이 기준, false_negative: 비용이 높은 값
정답(Actual) | |||
Positive | Negative | ||
예측(Predicted) | Positive | t_p (true_positive) | f_p (false_positive) |
Negative | f_n (false_negative) | t_n (true_negative) |
Precision(정확률) = tp / (tp + fp), 내가 만든 모델의 정확도
Recall(재현율) = tp / (tp + fn), 재현, 추출
Accuracy(정확도) = (tp + tn) / (tp + tn + fp + fn)
F1 = 2* 1/(1/Precision + 1/Recall) = 2*(Precision * Recall) / (Precision + Recall)
G = sqrt(Precision * Recall)
total_cost = f(fp)*fp + f(fn)*fn
'강의필기 > 데이터사이언스' 카테고리의 다른 글
[데이터사이언스] 나이브베이즈, 의사결정나무, 비계층적 군집분석 (0) | 2023.04.03 |
---|---|
[데이터사이언스] 선형회귀분석, 로지스틱 회귀분석, KNN (0) | 2023.04.02 |
[데이터사이언스] 데이터전처리 (0) | 2023.03.30 |
[데이터사이언스] 선형회귀분석 (0) | 2023.03.29 |
[데이터사이언스] 주요확률분포, 추론 통계, 상관분석 (0) | 2023.03.28 |
댓글