본문 바로가기
C.E/Data Science (with python)

통계 기초 스터디

by 책읽는구리 2020. 2. 19.
반응형

자료의 형태와 요약

1. 자료의 두 가지 형태

1) categorical(범주형)

- 명목(Nominal) 변수: 순서 없는 범주를 가지는 변수 (성별, 지역, ..) 
- 순서(Ordinal) 변수: 순서가 있는 범주를 가지는 변수 (자동차 크기, 계층) 

2) quantitative(양적) : 연속/이산

- 연속(Continuous) 변수: 무수히 많은 다른 값을 가짐 (키,몸무게,온도) 
- 이산(Discrete) 변수: 몇 개의 다른 값만 가짐



도수분포표 (Frequency table)


? 데이터를 그래프로 표현하는 이유
-> 전체적인 분포 패턴과 그 패턴을 벗어나는 극단적 관측치를 찾기 위한 것


줄기-잎 그림(Stemplot)
- 모든 값이 양수면서 데이터 양이 많지 않아야 함

히스토그램(Histogram)
- 자료의 범위(range)를 몇 개의 구간(class)으로 나누고, 
각 구간에 들어가는 관측치의 빈도(frequency) 또는 상대빈도(relative frequency)만을 나타내는 그림

- Dataset이 클 때 좋음


산술평균(mean)

- 모든 관측치를 사용하므로 특이값에 영향을 많이 받음

 

중앙값(median)

- 관측한 자료를 순서대로 배열하여 가장 중앙에 있는 값

- 순위를 사용하므로 특이값에 영향을 받지 않음

짝수면 n/2 번째 값, 홀수면 (n+1)/2 번째 값

 

최빈값(mode)

- 이산변수에 주로 사용하고, 범주형 자료에도 사용 가능

 

=> 분포가 한쪽으로 치우치거나 특이값이 있는 경우는 중앙값이 더 [적합]하고

그렇지 않은 경우 산술평균이 [적합]함

 


산포도

범위(range)

- 최대값-최소값

- 특이값에 영향을 받음

 

4분기 범위 (IQR, interquartile range)

- 특이값에 영향을 받지 않음

- p 백분위수란 p%의 관측치는 이 값 아래에 있고, 나머지는 이 값 위에 있는 것을 의미함

ex) 중앙값은 50 백분위수

ex) Q1 = 25백분위수 = 제1사분위수

- IQR = Q3 - Q1

 

표준편차

- 가장 널리 이용됨

- 특이값에 영향을 받음


상자그림(Boxplot)

- 다섯 숫자 요약을 그래프로 표현한 것

min Q1 중앙값(median) Q3 max 

(중앙값 = Q2 ???)


정규분포

- 연속형 분포 가운데 가장 많이 쓰이는 확률분포

- 시그마가 [작은] 모집단의 분포는 평균 주위에 몰려 있고, 시그마가 [큰] 모집단의 분포는 넓게 펴지는 형태

- 정규분포는 

 

반응형

댓글