본문 바로가기
강의필기/데이터사이언스

[데이터사이언스] 통계분석

by shine2gether 2023. 3. 27.

멀티캠퍼스 데이터사이언스

 

통계분석 위치&변이 통계량


위치통계량(중심 경향성)
1.산술평균(mean):각 자료에 대해 유일한 값, 극단적인 값에 민감
기대값: 평균이 수치형 데이터에 대한 대표값이라면, 기대값은 모르는 데이터에 대한 평균값
2.중앙값(median):가운데있는 값, 중앙값을 중심으로 확률분포의 두 면적이 같음
3.최빈값(mode):빈도가 가장 많은 값, 존재하지 않을수 있고, 유일한 값이 아닐수도 있음

변이통계량(퍼짐 정도)
1.범위:최대치와 최소치의 차이
2.중간범위:범위/2
3.평균절대편차(Mean Absolute Deviation): 편차(평균과의 차이), 편차의 합은 0
4.분산: "표본"분산의 분모는 (n-1)로 나눠줘야 함 -> 자유도(degree of freedom)
편차제곱합의 편균(분모가 n)을 구하면 모분산을 과소추정 하게 됨
분모를 (n-1)로 사용하여 모분산의 불편추정치가 되도록 함
불편추정량(unbias estimator): 모수랑 같은 결과를 내게해주는 추정량
분산은 제곱을 했기때문에 원자료의 단위와 달라짐 (표준편차는 다시 원자료 단위로 회귀됨)
5.변동계수: 표준편차/평균, 데이터의 스케일에 따라 표준편차가 커질 수 있음, 스케일을 맞춰서 비교, 예) 키와 몸무게

위치통계량(분포의 모양)
1.왜도: 좌우치우친 정도, 오른쪽 꼬리가 길면(왼쪽 치우침)(+), 왼쪽꼬리가 길면(오른쪽 치우침)(-)
2.첨도: 뾰족함의 정도


통계분석: 확률&베이즈 정리

 

확률실험: 실험결과를 모름, 하지만 가능한 경우의 수를 알고있음, 반복가능
표본공간(Sample Space): 확률 실험으로부터 출현 가능한 모든 결과들의 모임
사건: 표본공간의 부분집합
근원사건: 어떤 사건이 표본공간 상의 하나의 원소로 구성된 사건
합사건, 곱사건, 여사건,배 반사건(교집합이 공집합), 독립사건

조건부확률
P(B|A): A가 주어졌을때 B가 나올 확률, 표본공간을 전사건 S에서 사건 A로 축소
P(B|A) = P(A교집합B)/P(A)
P(A교집합B) = P(A)P(B|A) = P(B)P(A|B)

베이즈정리->사후확률
사전확률(Prior Probability):이벤트가 발생하기 전의 확률
사후확률(Posterior Prob):이벤트가 끝난후에 역으로 물어보는 것
사후확률과 조건부 확률은 다르다
사후확률은 사전확률과 조건부 확률로 구할수 있음

댓글