본문 바로가기
강의필기/데이터사이언스

[데이터사이언스] 주요확률분포, 추론 통계, 상관분석

by shine2gether 2023. 3. 28.

멀티캠퍼스 데이터사이언스

 

주요확률분포: 이산, 연속, 균등, 이항, 포아송, 지수

확률변수: 표본공간의 원소를 실수로 대응한 값
확률분포: 확률변수와 그 값이 나올수 있는 확률을 대응시켜 표시하는 것
확률분포함수: 확률질량함수(PMF, Probability Mass Function), 확률밀도함수 (PDF, Probability Density Function)

균등분포(Uniform Distribution)
이항분포(Binomial Distribution): n번 반복, 독립, 성공확률(p), 실패확률(1-p), 확률변수 x는 n번 시행중 성공횟수
시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항분포는 좌우대칭을 이룬다
포아송분포(Poisson Distribution): 단위시간, 단위거리, 단위면적, ~동안, ~당
1시간 동안 방문하는 고객수, 책 1페이지당 오탈자 건수, 웨이퍼  25장당 불량건수
평균=분산=람다, 람다가 커질수록 정규분포 형태를 따라간다
지수분포(Exponential Distribution): 일정시간동안 발생하는 사건의 횟수가 포아송 분포를 따른다면, 다음사건이 일어날때까지의 대기 시간
평균= 1/람다, 분산=1/람다^2, 발생 횟수가 많아지면 대기시간이 짧아진다



주요확률분포: 정규, t, 카이제곱, f

정규분포(Normal Distribution)
중심극한정리: 모집단의 표본의 평균은 정규분포를 따른다
2시그마: 95%
표준정규분포: 평균 0, 분산 1, -1.96~1.96 범위안에는 95% 데이터가 있음
t분포: 표본을 보고 모집단의 평균값을 구하고 싶을때 사용, 정규분포와 비슷하게 생김
확률변수 T = (x_bar - 뮤) / (S/sqrt(n)), S/sqrt(n):표준오차, x_bar: 표본의 평균, 뮤: 모수의 평균, S: 표본의 표준편차, n:샘플수, 표본수
카이제곱 분포: 표본을 보고 모집단의 분산을 구하고 싶을때 사용
자유도가 k인 카이제곱 분포의 평균은 k, 분산은 2k
자유도가 커질수록 정규분포에 가까워짐
F분포: 두 모집단의 분산에 대한 불편추정치의 비율, 분산비, 동질성 여부, 평균치 간의 차이 유무
F검정, 분산분석, 회귀분석 등에서 사용

 


추론 통계: 추정

추정: 표본을 통해서 모집단의 특서이 어떠한가 추측하는 과정
추정량: 추정에 사용되는 표본통계량
추정치: 추정량을 평가하여 얻게되는 특정한 수치

대수의법칙 / 중심극한정리

신뢰구간추정치: 하한<점추정치(평균)<상한
신뢰구간: t분포, 샘플수가 크면(n>30) z 분포
t_l < (x_bar - 뮤) / (S/sqrt(n)) < t_u
-> x_bar - (t_l x (S/sqrt(n))) > 뮤 > x_bar - (t_u x (S/sqrt(n)))
-> x_bar +- t x (S / sqrt(n)) : 암기
z 이면 t 대신 1.96(95%)
모분산을 모르고, 모분산을 모르고, 샘플수가 작으면 t분포: 이때는 1.96이 아니다
t분포 테이블 보는법
행: 자유도(알파), 자유도가 무한대이면 정규분포와 같아짐
열: 꼬리부분 확률값 (한쪽 꼬리) -> 신뢰구간 95%이면, 한쪽 꼬리는 2.5%
표준오차: 표본평균의 퍼짐 정도 (표본평균의 표준편차) S/sqrt(n)
분산 > 표준편차 > 표준오차, 범위 > 표준편차, 범위와 신뢰구간은 달라질수있다, 신뢰구간과 표준오차도 달라질수 있다 (몇%이냐에 따라)


상관분석

연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법
상관계수(Correleation Coefficient): -1~1, 선형성을 판단
0: 두 변수 사이에 선형관계가 존재하지 않는다. abs(0.3)보다 크게되면 선형성이 있다고 판단

피어슨 상관계수, r_xy = 공분산/(x표준편차*y표준편차)
스피어만 상관계수: 서열척도, 순위
켄달 상관계수: 심사위원, 순위가 일치하는 정도

상관관계는 인과관계를 의미하는 것이 아니다, 우연인 경우도 있음
상관계수로 기울기를 알수 없음, 선형성(상관계수)와 기울기는 다르다

상관관계는: 선형성과 비선형성으로 나눠볼수 있음
상관계수의 절대값이 크다고 해서, 두 변수간의 상관관계가 강한것이 아닐수 있음 (예: outlier)
outlier를 제거하면 상관계수가 떨어질수 있음

회귀분석을 하기전에 반드시 선형관계가 있는지 확인해야한다

댓글