728x90
반응형

산포의 척도

 

 

==> 평균깊이가 1.2M인 강을 키가 1.7M인 사람이 걸어서 무사히 건널 수 있는지에 대해 생각

 

==> 강의 평균 깊이가 1.2M 라는 뜻은 1.2M보다 작은 부분도 있지만 1.2M보다 깊은 곳도 있을 수 있다.

 

==> 평균 깊이만 가지고는 이 강의 특성을 알 수 없다.

 

1. 산포도(Measure of dispersion)_범위

==> 자료의 흩어진 정도 또는 밀집 정도를 나타내는 척도

 

EX) A = 240 24 27 30 28 31 22 27 30 25 25 23

       B = 24 24 27 30 28 31 22 27 30 25 25 23

 

집단 A의 최대 자료값 : 240

               최소 자료값: 22

                        범위 : 218

 

집단 B의 최대 자료값 : 31

               최소 자료값 : 22

                       범위  : 9

 

==> 범위는 특이값(outlier)에 대해 매우 큰 영향을 받는 척도

 

2. 평균편차(Mean deviation)

==> 범위는 양 극단의 두 자료 값에 의하여 결정 BUT. 모든 자료 값의 정보를 고려하지 않는다.

 

==> 평균편차는 각 자료 값과 평균의 편차에 대한 절대값들의 평균

 

평균편차

A = 1 2 3 4 5 6 7 7 7 8 9 10 11 12 13

B = 5 6 6 6 7 7 7 7 7 7 7 8 8 8 9

 

==> A의 평균 편차 : 2.8

==> B의 평균 편차 : 0.67

 

==> 두 집단의 산술평균: 7

 

==> 집단 A가 집단 B보다 자료가 더 폭 넓게 분포하고 있음을 알 수 있다.

 

==> 평균편차의 특징

 

1. 개개의 자료 값의 정보 반영

2. 범위보다 특이점에 대한 영향 덜 받는다.

3. 절대값을 사용하여 수리적으로 처리 힘들다.

4. 평균편차가 클수록 폭 넓게 분포한다.

 

EX)[2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]의 평균편차

 

A = [2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]
print(np.mean(A))

산술 평균 : 4.4

 

MD = [abs(round(i-np.mean(A) ,1)) for i in A]
MD = int(sum(MD) /len(A))
MD

MD = [2.4, 0.4, 2.6, 1.4, 3.6, 3.4, 2.4, 2.6, 0.6, 0.6]

평균편차 : 2

 

3. 모분산(Population variance)

 

==> 모집단을 구성하는 모든 자료값 x1, x2, x3 ········ xN 과 모평균의 편차의 제곱에 대한 평균

 

모분산

EX) 경부고속도로의 나들목 사이 33곳 구간의 거리에 대한 모분산 구하기

 

뮤 값 = 평균 = 12.208485

xi = 각각의 값

A =  '9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00'

A = list(map(float , A.split(' ')))
A

A  = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]

 

 

 

var = np.var(A)
var

var = 37.349 (모분산)

std = 루트(37.349) = 6.111 ~ 6.206174 (오차가 있다.) (표본표준편차 와 모표준편차의 차이이기 때문!!) 

 

A = pd.Series(A)
A
A.describe()

-=리스트 값에대한 정보요약

==> Describe()의 STD의 의미는 표본표준편차이다!!!!!!!!!!!!!!!!

 

4. 표본분산(Sample variance)

==> 표본을 구성하는 모든 자료값 x1, x2 , ·······xn 과 표본평균의 편차의 제곱합을 n-1로 나눈 값

 

표본 분산

==> 모분산은 모집단을 구성하는 모든 자료의 개수인

 

==> 표본분산은 편차제곱합을 N-1로 나누어야 한다.

 

특징: 

 

1. 개개의 자료 값의 정보 반영

2. 수리적으로 다루기 쉬움

3. 특이점에 대한 영향 매우 크다. (WHY? 표본이므로 갯수가 적기 때문)

4. 미지의 모분산 추론 위하여 표본 분산 이용

 

EX) 표본 [6,3,4,2,4] 에 대한 표본분산 구하기

 

var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var

 

s**2 = 8.8/4 = 2.2

std= np.std(B ,ddof= 1)
std

s = 루트(2.2) = 1.483

 

※표본분산을 구하기 위해서는 ddof =1 설정해주어야 한다.!!!

 

 

5. 모표준편차(Population Standard Deviation) and 표본표준편차(Sample Standard Deviation)

 

==> 분산의 경우 제곱을 이용하여 표현되므로 자료 값의 단위를 제곱한 단위 사용

 

==> 해석의 용이함을 위하여 제곱근을 취해준다.

 

==> 표준편차가 작을수록 자료 값들은 평균 주위로 집중

 

==> 표준편차가 클 수록 폭넓게 흩어진다.

 

==> 2개 이상의 자료 집단의 밀집 정도를 비교할 때 사용

모표준편차
표본표준편차

EX)A  = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]

 

A의 모집단의 모표준편차 : o(오메가) = 루트(37.34) = 6.1114

var2 = np.var(A)
std2 = math.sqrt(var2)
std2

var2 = 37.34

o(오메가) = 루트(37.34) = 6.1114

 

 

 

B = [6,3,4,2,4] 의 표본표준편차 구하시오

var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var
std= np.std(B ,ddof= 1)
std

s= 루트(2.2) = 1.4832

 

※표본분산 or 표본표준편차 구할때 ddof =1 설정해주자!!

 

출처 :  [쉽게 배우는 생활속의 통계학]  [북스힐 , 이재원] 

※혼자 공부 정리용

 

 

728x90
반응형

+ Recent posts