자료의 형태와 요약
1. 자료의 두 가지 형태
1) categorical(범주형)
- 명목(Nominal) 변수: 순서 없는 범주를 가지는 변수 (성별, 지역, ..)
- 순서(Ordinal) 변수: 순서가 있는 범주를 가지는 변수 (자동차 크기, 계층)
2) quantitative(양적) : 연속/이산
- 연속(Continuous) 변수: 무수히 많은 다른 값을 가짐 (키,몸무게,온도)
- 이산(Discrete) 변수: 몇 개의 다른 값만 가짐
도수분포표 (Frequency table)
? 데이터를 그래프로 표현하는 이유
-> 전체적인 분포 패턴과 그 패턴을 벗어나는 극단적 관측치를 찾기 위한 것
줄기-잎 그림(Stemplot)
- 모든 값이 양수면서 데이터 양이 많지 않아야 함
히스토그램(Histogram)
- 자료의 범위(range)를 몇 개의 구간(class)으로 나누고,
각 구간에 들어가는 관측치의 빈도(frequency) 또는 상대빈도(relative frequency)만을 나타내는 그림
- Dataset이 클 때 좋음
산술평균(mean)
- 모든 관측치를 사용하므로 특이값에 영향을 많이 받음
중앙값(median)
- 관측한 자료를 순서대로 배열하여 가장 중앙에 있는 값
- 순위를 사용하므로 특이값에 영향을 받지 않음
짝수면 n/2 번째 값, 홀수면 (n+1)/2 번째 값
최빈값(mode)
- 이산변수에 주로 사용하고, 범주형 자료에도 사용 가능
=> 분포가 한쪽으로 치우치거나 특이값이 있는 경우는 중앙값이 더 [적합]하고
그렇지 않은 경우 산술평균이 [적합]함
산포도
범위(range)
- 최대값-최소값
- 특이값에 영향을 받음
4분기 범위 (IQR, interquartile range)
- 특이값에 영향을 받지 않음
- p 백분위수란 p%의 관측치는 이 값 아래에 있고, 나머지는 이 값 위에 있는 것을 의미함
ex) 중앙값은 50 백분위수
ex) Q1 = 25백분위수 = 제1사분위수
- IQR = Q3 - Q1
표준편차
- 가장 널리 이용됨
- 특이값에 영향을 받음
상자그림(Boxplot)
- 다섯 숫자 요약을 그래프로 표현한 것
min Q1 중앙값(median) Q3 max
(중앙값 = Q2 ???)
정규분포
- 연속형 분포 가운데 가장 많이 쓰이는 확률분포
- 시그마가 [작은] 모집단의 분포는 평균 주위에 몰려 있고, 시그마가 [큰] 모집단의 분포는 넓게 펴지는 형태
- 정규분포는
댓글