★DDOF = 1★모/표본분산 , 모/표본표준편차★평균편차★기초통계학-[Chapter03 - 04]
산포의 척도
==> 평균깊이가 1.2M인 강을 키가 1.7M인 사람이 걸어서 무사히 건널 수 있는지에 대해 생각
==> 강의 평균 깊이가 1.2M 라는 뜻은 1.2M보다 작은 부분도 있지만 1.2M보다 깊은 곳도 있을 수 있다.
==> 평균 깊이만 가지고는 이 강의 특성을 알 수 없다.
1. 산포도(Measure of dispersion)_범위
==> 자료의 흩어진 정도 또는 밀집 정도를 나타내는 척도
EX) A = 240 24 27 30 28 31 22 27 30 25 25 23
B = 24 24 27 30 28 31 22 27 30 25 25 23
집단 A의 최대 자료값 : 240
최소 자료값: 22
범위 : 218
집단 B의 최대 자료값 : 31
최소 자료값 : 22
범위 : 9
==> 범위는 특이값(outlier)에 대해 매우 큰 영향을 받는 척도
2. 평균편차(Mean deviation)
==> 범위는 양 극단의 두 자료 값에 의하여 결정 BUT. 모든 자료 값의 정보를 고려하지 않는다.
==> 평균편차는 각 자료 값과 평균의 편차에 대한 절대값들의 평균

A = 1 2 3 4 5 6 7 7 7 8 9 10 11 12 13
B = 5 6 6 6 7 7 7 7 7 7 7 8 8 8 9
==> A의 평균 편차 : 2.8
==> B의 평균 편차 : 0.67
==> 두 집단의 산술평균: 7
==> 집단 A가 집단 B보다 자료가 더 폭 넓게 분포하고 있음을 알 수 있다.
==> 평균편차의 특징
1. 개개의 자료 값의 정보 반영
2. 범위보다 특이점에 대한 영향 덜 받는다.
3. 절대값을 사용하여 수리적으로 처리 힘들다.
4. 평균편차가 클수록 폭 넓게 분포한다.
EX)[2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]의 평균편차
A = [2, 4 , 7 , 3 , 8 , 1 , 2 , 7 , 5 , 5]
print(np.mean(A))
산술 평균 : 4.4
MD = [abs(round(i-np.mean(A) ,1)) for i in A]
MD = int(sum(MD) /len(A))
MD
MD = [2.4, 0.4, 2.6, 1.4, 3.6, 3.4, 2.4, 2.6, 0.6, 0.6]
평균편차 : 2
3. 모분산(Population variance)
==> 모집단을 구성하는 모든 자료값 x1, x2, x3 ········ xN 과 모평균의 편차의 제곱에 대한 평균

EX) 경부고속도로의 나들목 사이 33곳 구간의 거리에 대한 모분산 구하기
뮤 값 = 평균 = 12.208485
xi = 각각의 값
A = '9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00'
A = list(map(float , A.split(' ')))
A
A = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]
var = np.var(A)
var
var = 37.349 (모분산)
std = 루트(37.349) = 6.111 ~ 6.206174 (오차가 있다.) (표본표준편차 와 모표준편차의 차이이기 때문!!)
A = pd.Series(A)
A
A.describe()

==> Describe()의 STD의 의미는 표본표준편차이다!!!!!!!!!!!!!!!!
4. 표본분산(Sample variance)
==> 표본을 구성하는 모든 자료값 x1, x2 , ·······xn 과 표본평균의 편차의 제곱합을 n-1로 나눈 값

==> 모분산은 모집단을 구성하는 모든 자료의 개수인
==> 표본분산은 편차제곱합을 N-1로 나누어야 한다.
특징:
1. 개개의 자료 값의 정보 반영
2. 수리적으로 다루기 쉬움
3. 특이점에 대한 영향 매우 크다. (WHY? 표본이므로 갯수가 적기 때문)
4. 미지의 모분산 추론 위하여 표본 분산 이용
EX) 표본 [6,3,4,2,4] 에 대한 표본분산 구하기
var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var
s**2 = 8.8/4 = 2.2
std= np.std(B ,ddof= 1)
std
s = 루트(2.2) = 1.483
※표본분산을 구하기 위해서는 ddof =1 설정해주어야 한다.!!!
5. 모표준편차(Population Standard Deviation) and 표본표준편차(Sample Standard Deviation)
==> 분산의 경우 제곱을 이용하여 표현되므로 자료 값의 단위를 제곱한 단위 사용
==> 해석의 용이함을 위하여 제곱근을 취해준다.
==> 표준편차가 작을수록 자료 값들은 평균 주위로 집중
==> 표준편차가 클 수록 폭넓게 흩어진다.
==> 2개 이상의 자료 집단의 밀집 정도를 비교할 때 사용


EX)A = [9.59 4.62 0.65 7.75 16.98 11.78 7.24 10.15 25.49 11.44 10.37 9.33 15.04 12.16 16.63 12.06 9.70 12.46 8.05 19.91 5.58 12.48 4.35 16.41 22.53 17.56 18.40 10.86 27.43 7.39 14.57 11.92 2.00]
A의 모집단의 모표준편차 : o(오메가) = 루트(37.34) = 6.1114
var2 = np.var(A)
std2 = math.sqrt(var2)
std2
var2 = 37.34
o(오메가) = 루트(37.34) = 6.1114
B = [6,3,4,2,4] 의 표본표준편차 구하시오
var = np.var(B ,ddof=1) #표본분산 위해서는 ddof =1 설정
var
std= np.std(B ,ddof= 1)
std
s= 루트(2.2) = 1.4832
※표본분산 or 표본표준편차 구할때 ddof =1 설정해주자!!
출처 : [쉽게 배우는 생활속의 통계학] [북스힐 , 이재원]
※혼자 공부 정리용
'기초통계 > 평균,표준편차,분산' 카테고리의 다른 글
| 경험적규칙★체비쇼프 정리★기초통계학-[Chapter03 - 06] (0) | 2022.12.06 |
|---|---|
| ★distplot , histplot , twinx(), ticker , axvline()★정규분포 그래프★기초통계학-[Chapter03 - 05] (0) | 2022.12.06 |
| np.median★절사평균, 중위수★기초통계학-[Chapter03 - 03] (0) | 2022.12.02 |
| ★가중평균, 표본평균★기초통계학-[Chapter03 - 02] (1) | 2022.12.02 |
| ★모평균, 표본평균★중심위치의 척도★기초통계학-[Chapter03 - 01] (0) | 2022.12.01 |