728x90
반응형

1. 변동계수(Coefficient of Variation)

 

표준편차는 평균을 중심으로 자료 집단 안의 자료 값들의 놓인 위치에 대한 산포의 척도

 

==> 측정 단위가 동일하지만 평균이 큰 차이를 보이는 두 자료 집단 또는 측정 단위가 서로 다른 두 자료 집단에 대한 산포의 척도로 절대적 수치인 표준편차를 사용하기에는 부적절

 

==> ex) 신생아 몸무게 vs 산모 몸무게

 

==>단위에 관계없이 양수인 값을 가지며 평균으로 부터 상대적으로 흩어진 정도를 나타내는 척도

 

모집단 변동계수
표본의 변동계수

==> 변동계수가 클수록 자료의 분포는 상대적으로 폭이 넓다

 

EX-01) 

A = pd.DataFrame({'가구원 수(명)' : [4.06 , 1.02] , '외식비(원)' : [175420 , 33250]})
A.index = ['|x' , 's']
A

가구원 , 외식비 DF

a =  pd.DataFrame([(A.iloc[1,0]/A.iloc[0,0])*100, (A.iloc[1,1]/A.iloc[0,1])*100]) #변동계수 구하기
a = a.transpose()
a = a.rename(columns = {0 : A.columns[0] , 1 : A.columns[1]})
a.index= ['변동계수']
A = pd.concat([A ,a])
A

변동계수

==> 표본의 변동계수 식으로 구한 결과값 : 

 

가구원 CV : 25.123

외식비 CV: 18.9545

==> 가구원의 흩어진 정도가 1.3배 정도 크다

 

==> 표준편차

 

가구원 표준편차 : 2.1496

외식비 표준편차 : 100529.371

 

==> 이처럼 단위가 다른 자료에 대한 산포도를 파악할 수 있다.

 

 

EX-02) 

 

company = ['삼성전자' , 'SK텔레콤' , 'LG전자' , 'GS칼텍스' , '롯데쇼핑' , '현대자동차' , '현대케미칼' , '대한항공' , '포스코' , '현대중공업']
SALARY = [10200,10500,6900,9107,3353,9400,6779,6400,7900,7232]
YEAR = [9.3,12.4,8.5,14.6,5.7,16.8,12.2,13.8,18.5,18.0]

B = pd.DataFrame({'회사명' : company , '평균 연봉(만 원)' : SALARY , '근속 연수(년)' : YEAR})
B = B.set_index('회사명')
B
SALARY_CV = np.std(B.iloc[:,0] , ddof =1) / np.mean(B.iloc[:,0])
YEAR_CV = np.std(B.iloc[:,1] , ddof =1) / np.mean(B.iloc[:,1])

b = pd.DataFrame(['변동계수(CV)' , SALARY_CV , YEAR_CV])
b = b.transpose().set_index(0)
b  = b.rename(columns = {1 : B.columns[0] , 2 : B.columns[1]})
B = pd.concat([B,b])
B

==> NUMPY 라이브러리 적극 활용 , ddof= 1 ==> 표본표준편차 설정

 

변동계수 비교

==> 근속연수에 대한 산포도가 평균 연봉에 대한 산포도보다 높음을 알 수 있다.

 

https://knowallworld.tistory.com/214

 

★DDOF = 1★모/표본분산 , 모/표본표준편차★평균편차★기초통계학-[Chapter03 - 04]

산포의 척도 ==> 평균깊이가 1.2M인 강을 키가 1.7M인 사람이 걸어서 무사히 건널 수 있는지에 대해 생각 ==> 강의 평균 깊이가 1.2M 라는 뜻은 1.2M보다 작은 부분도 있지만 1.2M보다 깊은 곳도 있을 수

knowallworld.tistory.com

ddof =1 을 해야하는 이유!!!!

모표준편차
표본표준편차

출처 :  [쉽게 배우는 생활속의 통계학]  [북스힐 , 이재원] 

※혼자 공부 정리용

728x90
반응형

+ Recent posts