
자료의 이해: 기본용어
모집단(Population): 현재 우리가 수집한 모든 데이타 Set
모수(Parameters): 모집단을 분석해서 얻어지는 수치
표본(Sample): 전체 모집단을 다 볼수 없기때문에 데이터를 추출한 값
통계량(Statistics): 표본을 분석하여 얻어지는 결과 수치
표본에서 얻어지는 통계량을 가지고, 모집단의 모수를 추론(추정)한다
모수는 그리스문자, 통계량은 알파벳으로 표기
개체(item): 관심대상
요인(Factor): 요인을 묶은 상위개념
변수:개체(item)을 구성하고 있는 요소, Column 데이터
관측치(Observation):행정보
범주형데이터: 문자, 당연히 연산 불가 -> 빈도 기반 연산
연속형데이터: 숫자
열(Column) 정보: feature(특성), attribute(속성), variable(변수)
행(row) 정보: instance, observation
알고싶어하는 값: target,class label
y=0.1+0.2x
y:종속변수,target,예측값
x:독립변수
자료
1.범주형:명목형(성별,혈액형),순서형(범주의 순서가 상대적으로 비교가능, 예)학점, 비만도, 직급)
2.수치형:이산형,연속형(등간형,비율형:0의 의미가 있는 경우, 0이 없음을 의미)
범주형(질적)->빈도분석:표,파이그래프,모자이크plot
수치형(양적)->분포분석:히스토그램,박스plot,산점도
독립변수x:독립변수y
수치형:수치형=>상관분석/회귀분석
수치형:범주형=>로지스틱/회귀분석(분류형문제)
범주형:수치형=>t-test/ANOVA
범주형:범주형=>카이제곱 검정(분류형문제)
자료의 이해: 시각화
범주형->질적자료(빈도): 도수분포표, 막대그래프, 원형그래프
박스plot: Q1(25%),중앙값(50%),Q3(75%), IQR(데이터의 50%가 들어있음)
산점도를 통해서는 인과관계를 알수 없다
1.일변량:범주형(원형그래프),수치형(히스토그램,박스plot)
2.다변량:범주형&수치형(박스plot,막대그래프),수치형&수치형(산점도),범주형&범주형(모자이크plot),범주형&범주형&수치형(누적 세로막대형차트)
'강의필기 > 데이터사이언스' 카테고리의 다른 글
[데이터사이언스] 머신러닝 Overfitting/Underfitting, 모델평가기법 (0) | 2023.03.31 |
---|---|
[데이터사이언스] 데이터전처리 (0) | 2023.03.30 |
[데이터사이언스] 선형회귀분석 (0) | 2023.03.29 |
[데이터사이언스] 주요확률분포, 추론 통계, 상관분석 (0) | 2023.03.28 |
[데이터사이언스] 통계분석 (0) | 2023.03.27 |
댓글