주요확률분포: 이산, 연속, 균등, 이항, 포아송, 지수
확률변수: 표본공간의 원소를 실수로 대응한 값
확률분포: 확률변수와 그 값이 나올수 있는 확률을 대응시켜 표시하는 것
확률분포함수: 확률질량함수(PMF, Probability Mass Function), 확률밀도함수 (PDF, Probability Density Function)
균등분포(Uniform Distribution)
이항분포(Binomial Distribution): n번 반복, 독립, 성공확률(p), 실패확률(1-p), 확률변수 x는 n번 시행중 성공횟수
시행횟수 n이 크면 성공확률 p의 크기에 관계없이 이항분포는 좌우대칭을 이룬다
포아송분포(Poisson Distribution): 단위시간, 단위거리, 단위면적, ~동안, ~당
1시간 동안 방문하는 고객수, 책 1페이지당 오탈자 건수, 웨이퍼 25장당 불량건수
평균=분산=람다, 람다가 커질수록 정규분포 형태를 따라간다
지수분포(Exponential Distribution): 일정시간동안 발생하는 사건의 횟수가 포아송 분포를 따른다면, 다음사건이 일어날때까지의 대기 시간
평균= 1/람다, 분산=1/람다^2, 발생 횟수가 많아지면 대기시간이 짧아진다
주요확률분포: 정규, t, 카이제곱, f
정규분포(Normal Distribution)
중심극한정리: 모집단의 표본의 평균은 정규분포를 따른다
2시그마: 95%
표준정규분포: 평균 0, 분산 1, -1.96~1.96 범위안에는 95% 데이터가 있음
t분포: 표본을 보고 모집단의 평균값을 구하고 싶을때 사용, 정규분포와 비슷하게 생김
확률변수 T = (x_bar - 뮤) / (S/sqrt(n)), S/sqrt(n):표준오차, x_bar: 표본의 평균, 뮤: 모수의 평균, S: 표본의 표준편차, n:샘플수, 표본수
카이제곱 분포: 표본을 보고 모집단의 분산을 구하고 싶을때 사용
자유도가 k인 카이제곱 분포의 평균은 k, 분산은 2k
자유도가 커질수록 정규분포에 가까워짐
F분포: 두 모집단의 분산에 대한 불편추정치의 비율, 분산비, 동질성 여부, 평균치 간의 차이 유무
F검정, 분산분석, 회귀분석 등에서 사용
추론 통계: 추정
추정: 표본을 통해서 모집단의 특서이 어떠한가 추측하는 과정
추정량: 추정에 사용되는 표본통계량
추정치: 추정량을 평가하여 얻게되는 특정한 수치
대수의법칙 / 중심극한정리
신뢰구간추정치: 하한<점추정치(평균)<상한
신뢰구간: t분포, 샘플수가 크면(n>30) z 분포
t_l < (x_bar - 뮤) / (S/sqrt(n)) < t_u
-> x_bar - (t_l x (S/sqrt(n))) > 뮤 > x_bar - (t_u x (S/sqrt(n)))
-> x_bar +- t x (S / sqrt(n)) : 암기
z 이면 t 대신 1.96(95%)
모분산을 모르고, 모분산을 모르고, 샘플수가 작으면 t분포: 이때는 1.96이 아니다
t분포 테이블 보는법
행: 자유도(알파), 자유도가 무한대이면 정규분포와 같아짐
열: 꼬리부분 확률값 (한쪽 꼬리) -> 신뢰구간 95%이면, 한쪽 꼬리는 2.5%
표준오차: 표본평균의 퍼짐 정도 (표본평균의 표준편차) S/sqrt(n)
분산 > 표준편차 > 표준오차, 범위 > 표준편차, 범위와 신뢰구간은 달라질수있다, 신뢰구간과 표준오차도 달라질수 있다 (몇%이냐에 따라)
상관분석
연속형 두 변수간의 직선적(선형)관계 정도를 검정하는 통계 분석 방법
상관계수(Correleation Coefficient): -1~1, 선형성을 판단
0: 두 변수 사이에 선형관계가 존재하지 않는다. abs(0.3)보다 크게되면 선형성이 있다고 판단
피어슨 상관계수, r_xy = 공분산/(x표준편차*y표준편차)
스피어만 상관계수: 서열척도, 순위
켄달 상관계수: 심사위원, 순위가 일치하는 정도
상관관계는 인과관계를 의미하는 것이 아니다, 우연인 경우도 있음
상관계수로 기울기를 알수 없음, 선형성(상관계수)와 기울기는 다르다
상관관계는: 선형성과 비선형성으로 나눠볼수 있음
상관계수의 절대값이 크다고 해서, 두 변수간의 상관관계가 강한것이 아닐수 있음 (예: outlier)
outlier를 제거하면 상관계수가 떨어질수 있음
회귀분석을 하기전에 반드시 선형관계가 있는지 확인해야한다
'강의필기 > 데이터사이언스' 카테고리의 다른 글
[데이터사이언스] 머신러닝 Overfitting/Underfitting, 모델평가기법 (0) | 2023.03.31 |
---|---|
[데이터사이언스] 데이터전처리 (0) | 2023.03.30 |
[데이터사이언스] 선형회귀분석 (0) | 2023.03.29 |
[데이터사이언스] 통계분석 (0) | 2023.03.27 |
[데이터사이언스] 자료의 이해: 기본용어 / 시각화 (0) | 2023.03.26 |
댓글