★DDOF = 1★모/표본분산 , 모/표본표준편차★평균편차★기초통계학-[Chapter03

★DDOF = 1★모/표본분산 , 모/표본표준편차★평균편차★기초통계학-[Chapter03 - 04]

2022. 12. 2. 15:22

728x90

산포의 척도

==> 평균깊이가 1.2M인 강을 키가 1.7M인 사람이 걸어서 무사히 건널 수 있는지에 대해 생각

==> 강의 평균 깊이가 1.2M 라는 뜻은 1.2M보다 작은 부분도 있지만 1.2M보다 깊은 곳도 있을 수 있다.

==> 평균 깊이만 가지고는 이 강의 특성을 알 수 없다.

1. 산포도(Measure of dispersion)_범위

==> 자료의 흩어진 정도 또는 밀집 정도를 나타내는 척도

EX) A = 240 24 27 30 28 31 22 27 30 25 25 23

B = 24 24 27 30 28 31 22 27 30 25 25 23

집단 A의 최대 자료값 : 240

최소 자료값: 22

범위 : 218

집단 B의 최대 자료값 : 31

최소 자료값 : 22

범위 : 9

==> 범위는 특이값(outlier)에 대해 매우 큰 영향을 받는 척도

2. 평균편차(Mean deviation)

==> 범위는 양 극단의 두 자료 값에 의하여 결정 BUT. 모든 자료 값의 정보를 고려하지 않는다.

==> 평균편차는 각 자료 값과 평균의 편차에 대한 절대값들의 평균

A = 1 2 3 4 5 6 7 7 7 8 9 10 11 12 13

B = 5 6 6 6 7 7 7 7 7 7 7 8 8 8 9

==> A의 평균 편차 : 2.8

==> B의 평균 편차 : 0.67

==> 두 집단의 산술평균: 7

==> 집단 A가 집단 B보다 자료가 더 폭 넓게 분포하고 있음을 알 수 있다.

==> 평균편차의 특징

1. 개개의 자료 값의 정보 반영

2. 범위보다 특이점에 대한 영향 덜 받는다.

3. 절대값을 사용하여 수리적으로 처리 힘들다.

4. 평균편차가 클수록 폭 넓게 분포한다.

EX)[2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]의 평균편차

A = [2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]
print(np.mean(A))

산술 평균 : 4.4

MD = [abs(round(i-np.mean(A) ,1)) for i in A]
MD = int(sum(MD) /len(A))
MD

MD = [2.4, 0.4, 2.6, 1.4, 3.6, 3.4, 2.4, 2.6, 0.6, 0.6]

평균편차 : 2

3. 모분산(Population variance)

==> 모집단을 구성하는 모든 자료값 x1, x2, x3 ········ xN 과 모평균의 편차의 제곱에 대한 평균

EX) 경부고속도로의 나들목 사이 33곳 구간의 거리에 대한 모분산 구하기

뮤 값 = 평균 = 12.208485

xi = 각각의 값

A =  '9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00'

A = list(map(float , A.split(' ')))
A

A = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]

var = np.var(A)
var

var = 37.349 (모분산)

std = 루트(37.349) = 6.111 ~ 6.206174 (오차가 있다.) (표본표준편차 와 모표준편차의 차이이기 때문!!)

A = pd.Series(A)
A
A.describe()

==> Describe()의 STD의 의미는 표본표준편차이다!!!!!!!!!!!!!!!!

4. 표본분산(Sample variance)

==> 표본을 구성하는 모든 자료값 x1, x2 , ·······xn 과 표본평균의 편차의 제곱합을 n-1로 나눈 값

==> 모분산은 모집단을 구성하는 모든 자료의 개수인

==> 표본분산은 편차제곱합을 N-1로 나누어야 한다.

특징:

1. 개개의 자료 값의 정보 반영

2. 수리적으로 다루기 쉬움

3. 특이점에 대한 영향 매우 크다. (WHY? 표본이므로 갯수가 적기 때문)

4. 미지의 모분산 추론 위하여 표본 분산 이용

EX) 표본 [6,3,4,2,4] 에 대한 표본분산 구하기

var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var

s**2 = 8.8/4 = 2.2

std= np.std(B ,ddof= 1)
std

s = 루트(2.2) = 1.483

※표본분산을 구하기 위해서는 ddof =1 설정해주어야 한다.!!!

5. 모표준편차(Population Standard Deviation) and 표본표준편차(Sample Standard Deviation)

==> 분산의 경우 제곱을 이용하여 표현되므로 자료 값의 단위를 제곱한 단위 사용

==> 해석의 용이함을 위하여 제곱근을 취해준다.

==> 표준편차가 작을수록 자료 값들은 평균 주위로 집중

==> 표준편차가 클 수록 폭넓게 흩어진다.

==> 2개 이상의 자료 집단의 밀집 정도를 비교할 때 사용

EX)A = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]

A의 모집단의 모표준편차 : o(오메가) = 루트(37.34) = 6.1114

var2 = np.var(A)
std2 = math.sqrt(var2)
std2

var2 = 37.34

o(오메가) = 루트(37.34) = 6.1114

B = [6,3,4,2,4] 의 표본표준편차 구하시오

var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var

std= np.std(B ,ddof= 1)
std

s= 루트(2.2) = 1.4832

※표본분산 or 표본표준편차 구할때 ddof =1 설정해주자!!

출처 : [쉽게 배우는 생활속의 통계학] [북스힐 , 이재원]

※혼자 공부 정리용

728x90

'기초통계 > 평균,표준편차,분산' 카테고리의 다른 글

경험적규칙★체비쇼프 정리★기초통계학-[Chapter03 - 06] (0)	2022.12.06
★distplot , histplot , twinx(), ticker , axvline()★정규분포 그래프★기초통계학-[Chapter03 - 05] (0)	2022.12.06
np.median★절사평균, 중위수★기초통계학-[Chapter03 - 03] (0)	2022.12.02
★가중평균, 표본평균★기초통계학-[Chapter03 - 02] (1)	2022.12.02
★모평균, 표본평균★중심위치의 척도★기초통계학-[Chapter03 - 01] (0)	2022.12.01

뭐든지 다 알아보자

Menu

Category

Notice

Recent comments

Links