통계분석 위치&변이 통계량
위치통계량(중심 경향성)
1.산술평균(mean):각 자료에 대해 유일한 값, 극단적인 값에 민감
기대값: 평균이 수치형 데이터에 대한 대표값이라면, 기대값은 모르는 데이터에 대한 평균값
2.중앙값(median):가운데있는 값, 중앙값을 중심으로 확률분포의 두 면적이 같음
3.최빈값(mode):빈도가 가장 많은 값, 존재하지 않을수 있고, 유일한 값이 아닐수도 있음
변이통계량(퍼짐 정도)
1.범위:최대치와 최소치의 차이
2.중간범위:범위/2
3.평균절대편차(Mean Absolute Deviation): 편차(평균과의 차이), 편차의 합은 0
4.분산: "표본"분산의 분모는 (n-1)로 나눠줘야 함 -> 자유도(degree of freedom)
편차제곱합의 편균(분모가 n)을 구하면 모분산을 과소추정 하게 됨
분모를 (n-1)로 사용하여 모분산의 불편추정치가 되도록 함
불편추정량(unbias estimator): 모수랑 같은 결과를 내게해주는 추정량
분산은 제곱을 했기때문에 원자료의 단위와 달라짐 (표준편차는 다시 원자료 단위로 회귀됨)
5.변동계수: 표준편차/평균, 데이터의 스케일에 따라 표준편차가 커질 수 있음, 스케일을 맞춰서 비교, 예) 키와 몸무게
위치통계량(분포의 모양)
1.왜도: 좌우치우친 정도, 오른쪽 꼬리가 길면(왼쪽 치우침)(+), 왼쪽꼬리가 길면(오른쪽 치우침)(-)
2.첨도: 뾰족함의 정도
통계분석: 확률&베이즈 정리
확률실험: 실험결과를 모름, 하지만 가능한 경우의 수를 알고있음, 반복가능
표본공간(Sample Space): 확률 실험으로부터 출현 가능한 모든 결과들의 모임
사건: 표본공간의 부분집합
근원사건: 어떤 사건이 표본공간 상의 하나의 원소로 구성된 사건
합사건, 곱사건, 여사건,배 반사건(교집합이 공집합), 독립사건
조건부확률
P(B|A): A가 주어졌을때 B가 나올 확률, 표본공간을 전사건 S에서 사건 A로 축소
P(B|A) = P(A교집합B)/P(A)
P(A교집합B) = P(A)P(B|A) = P(B)P(A|B)
베이즈정리->사후확률
사전확률(Prior Probability):이벤트가 발생하기 전의 확률
사후확률(Posterior Prob):이벤트가 끝난후에 역으로 물어보는 것
사후확률과 조건부 확률은 다르다
사후확률은 사전확률과 조건부 확률로 구할수 있음
'강의필기 > 데이터사이언스' 카테고리의 다른 글
[데이터사이언스] 머신러닝 Overfitting/Underfitting, 모델평가기법 (0) | 2023.03.31 |
---|---|
[데이터사이언스] 데이터전처리 (0) | 2023.03.30 |
[데이터사이언스] 선형회귀분석 (0) | 2023.03.29 |
[데이터사이언스] 주요확률분포, 추론 통계, 상관분석 (0) | 2023.03.28 |
[데이터사이언스] 자료의 이해: 기본용어 / 시각화 (0) | 2023.03.26 |
댓글