본문 바로가기
강의필기/데이터사이언스

[데이터사이언스] 선형회귀분석

by shine2gether 2023. 3. 29.

멀티캠퍼스 데이터사이언스

 

 

선형회귀분석: 통계파트 (기울기, 절편 구하는법)


회귀분석: 회귀분석으로 인과관계를 확인
y(종속변수) = 베타_0 + 베타_1 * x(독립변수)
목적: 독립변수의 영향을 측정, 설명함 + 예측
함수에서는 하나의 x값에 대해서 하나의 y값이 나오지만
관측 데이터에서는 하나의 x값에 대해서 다양한 y값이 존재
때문에 오차(Error)라는 개념이 등장한다
Target Value - Model Value == Error

단순 선형 회귀분석
SSE(Sum of Square Error) -> 최소제곱법(Ordinary Least Squares: OLS)
1. x평균, y평균 구하기
2. 기울기 먼저 구하기
3. 절편 구하기

선형회귀분석: 통계파트 (주요가설)

 

희귀분석의 가설
H_0: 귀무가설, x변수와 y변수는 선형관계가 없음, 기울기 베타_1 = 0, 회귀식의 존재여부 확인 -> F 검정
H_1: 대립가설, 선형관계가 있음, 개별 독립변수가 종속변수에 얼마나 영향을 끼치는지 -> t 검정

선형회귀분석의 가정: 선형성 + (정규성, 등분산성, 독립성) 오차가 iid


선형회귀분석: 통계파트 (주요가정)

 

잔차: 관측값과 표본에서 구한 회귀식과의 차이
실제로는 모집단에서의 진짜 회귀식을 알수 없기 때문에 오차와 잔차를 같게 본다

선형성: 산점도, 상관계수, 회귀계수 베타에 대한 검정
독립성: 오차-iid
독립성 가정이 성립하지 않는경우: 중요한 설명변수 누락, 다중공선성 존재(독립변수가 독립변수가 아닌경우)
독립성 가정 검토: 예측값 대 잔차산점도, Durbin-Watson test
정규성: 오차는 모두 평균이 0이고 분산 시그마^2인 정규분포다
정규성이 보장되지 않으면 F-test 검정을 사용할수 없음
정규성 가정 검토: 산점도/Histogram/Q-Q plot, 잔차에 대한 왜도 및 첨도 검토
등분산성: 분산은 모든 x에 대해 일정한 상수임
iid 가정이 성립하지 않으면 F검정 t검정 사용불가
등분산성 가정 검토: 예측값 대 잔차산점도, White test

회귀분석의 가정을 만족하지 못할때
1.선형성
산점도 그래프와 회귀선 그래프를 그려봤더니 선형성이 안나올때
대응방법: 다항회귀, 일반화 가법 모형(Generalized Additive Model): y=베타_0+f1(x1)+f2(x2)+fp(xp)
입력 데이터의 형태를 바꿔서 선형으로 바꾸자
2.정규성
오차항의 확률분포가 정규분포가 아닌경우
대응방법: Link Function, 일반화 선형 모형(Generalized Linear Model): binomial->logit, exponential->inverse, poisson->log
3.등분산성
대응방법: 이상치제거, 가중선형회귀(Weighted Linear Regression/Weighted Least Square)
가중치는 해당 관측치 분산의 역수: 분산이 작은 관측치는 신뢰하고, 분산이 큰 관측치는 신뢰하지 않는다
4.독립성
오차항이 독립이 아닌경우
Durbin-Watson 통계량으로 확인
대응방법: 자기회귀모델(Autoregressive Model)

 

선형회귀분석: 통계파트 (변수처리, 성능평가)


다른 이슈가 있는 데이터
1.Outlier
데이터변화: Outlier 제거
L1 loss Regression: 잔차의 제곱대신 절대값의 합이 최소가 되도록 계수를 추정 (제곱을 안했더니 이상치가 아니더라)
Quantile Regression: 회귀식을 하나가 아니라 구간별로 여러개를 적용
2.다중공선성
독립변수 간에 강한 상관관계가 있는 경우 (독립성x)
확인: 상관분석/VIF(Variance Inflation Factor): VIF 값이 클수록 다중공산성 확인
대응방법: Feature Engineering, Regularization(Ridge:가중치 조절하여 영향역을 줄임/LASSO:제거/Elastic:하이브리드), PCR(Principal Component Regression),PLS(Partial Least Square Regression)

선형회귀모델 평가
잔차분석: 등분산 확인 가능
유의성 검정: F분포(검정)(회귀검정식이 존재하는가, 회귀모델), t분포(검정)(각각의 독립변수가 얼마나 영향을 미치는가, 회귀변수)
Goodness of fit: R^2(결정계수, coefficient of determination)
변수간 영향을 주는 정도 또는 인과 관계의 정도를 정량화해서 나타낸 수치, 0~1
SST: Target value - y평균
SSE: 잔차(오차)
SSR: 회귀선 - y평균, SSR이 존재한다는 의미는 회귀식이 존재함을 의미, 회귀식과 y평균과의 차이
R^2 = SSR/SST = 회귀모형에 의해 설명되는 변동 / 총 변동
독립변수를 추가하면 R^2 값은 상승함
완전한 지표가 아니라서 다른 지표와 함께 사용
Error Metrics: MSE,RMSE,MAE,MAPE
범주형 데이터를 회귀분석모델로 처리할때 사용할수 있는 방법: one-hot-encoding, dummy, 가변수화


- 지수분포: 무기억성(Memoryless Property), 앞에 기다렸던 시간은 무시된다
- 점추정 조건
불편추정량: 표본에서 얻은 평균의 기대값이 모집단의 평균과 같을때
일치추정량: 샘플의 갯수가 많아질수록 추정량이 모수와 같아짐
유효추정량: 분산이 작을수록 정규분포를 더 유효하게 추정 가능
충분통계량: 표본이 가지고 있는 모수에 대한 모든 정보와 동일한 정보량을 가지는 통계량
방법: 적률법, 최우추정량(최대우도추정법: Maximum Likelihood Estimation)
- 영향점: Outlier를 제거한 희귀모델과 제거하지 않은 희귀모델을 비교했을때 결과값의 차이를 크게 만들어주는 이상값

댓글