728x90
반응형

점도표 :

각 범주 또는 측정값을 수평축에 나타내고,

이 수평축 위에 각 범주 또는 측정값의 관찰 횟수를 점으로 나타낸 것이다.

 

==> 원자료의 특성을 그림으로 나타내는 가장 간단한 방법

 

==> 양적자료뿐만 아니라 질적자료에도 사용이 가능하다.

 

점도표는 수평축 위에 범주 또는 측정값을 점으로 찍어서 나타냄

==> 자료의 정확한 위치를 알 수 있으며, 수집한 자료가 어떠한 모양으로 흩어져 있는지 쉽게 파악 가능

 

=============

 

도수분포표(Frequency distribution table) : 양적자료를 적당한 간격으로 집단화(범주화) 하면 질적 자료로 전환시킬 수 있다.

 

==> 각 계급 또는 구간 안에 들어가는 자료의 도수, 상대도수, 누적도수, 누적상대도수, 계급값

 

계급(CLASS) : 양적자료를 적당한 간격으로 집단화  ==> 범주 의미

 

계급 간격(CLASS Width) : 이웃하는 두 계급의 위쪽 경계에서 아래쪽 경계를 뺀 값

 

계급 상대도수(Class Relative Frequency) : 계급의 도수를 자료 집단 안의 전체 자료의 수로 나눈 값

 

계급 상대도수 = 계급의 도수 / 전체 도수

 

누적 도수(Cumulative Frequency) : 이전 계급까지의 모든 도수를 합한 도수

 

누적상대도수(Cumulative relative frequency) : 이전 계급까지의 모든 상대도수를 합한 상대도수

 

계급값(Class Mark) : 각 계급의 중앙값

 

계급값 = (위쪽 경계 + 아래쪽 경계) / 전체 도수

 

 

================================

 

양적자료의 도수분포표의 작성 프로세스

 

1번째 , 계급의 수를 결정한다. 

 

 

보통 계급의 수 : 5개~20개 내외

 

자료의 수 (n)이 200개 이하이면 계급의 수(k)는 k= n^(1/2) +- 3 에 가까운 정수 선택

 

자료의 수가 충분히 많으면

 

Sturges 공식 활용 ==> k= 1+3.3log n 에 가까운 정수를 택한다.

 

EX) 재외공관의 개수 193개 ==> k = 193^(1/2)+-3 = 16~17 개의 계급의 수를 정한다.

Describe()로 요약 자료

 

2번째 , 각 계급에 일정하게 주어지는 각 계급 간격을 결정한다.

 

범위(Range) 

 

==> R는 R=(최대 자료 값) - (최소 자료 값)

 

계급 간격(Class Width) ==> 범위를 계급의 수(k)로 나눈 값보다 큰, 가장 작은 정수로 택한다.

 

계급간격(w) ~~ R/k 

 

 

R = 86995 - 25283 = 61,712

k = 16

w= 3857

 

3번째, 이웃하는 계급 사이의 중복을 피하기 위하여 제 1계급의 하한을 결정

 

제 1계급의 하한 = 최소 자료 값 - (기본단위)/2

 

==> 제 1계급의 하한 = 25283- 1/2 = 25,283.5

 

 

4번째 , 각 계급의 도수, 상대도수, 누적도수, 누적상대도수, 계급값을 구하여 기입하면 도수분포표가 완성

================================

도수히스토그램

==> 수평축에 도수분포표의 계급을 나타내고 , 수직축에 각 계급에 대응하는 도수를 높이로 갖는 사각형으로 나타낸 그림

 

plt.hist(dansu_boksu_hab.iloc[:,-1] , bins , rwidth = 0.8 , color = 'green' , alpha = 0.5)
plt.xlabel('재외공관 별 업무량' , fontsize = 14)
plt.xticks(fontsize = 14)
plt.yticks(fontsize = 14)

 

이 도수분포표의 경우 왜도가 심하게 기울어져 있다.

 

특이점 (Outlier) : 분포 모양에서 멀리 떨어지는 자료의 측정값

 

 

data = [12.6,10.5,25.2,20.9,29.5,28.3,12.9,11.2,26.1,23.6,18.2,13.1,14.8,11.1 , 10.2,
        16.9,26.7,16.7 , 23.6 , 17.5]

width = (max(data) - min(data)) // 5 #계급 간격 구하는 공식
bins = np.arange(min(data), max(data), width)
hist, bins = np.histogram(data, bins)
print(hist)
print(bins)

HIST : [7 1 4 1 2 3]
BINS : [10.2 13.2 16.2 19.2 22.2 25.2 28.2]

 

 

plt.hist(data, bins , rwidth = 0.8 , color = 'green' , alpha = 0.5)
plt.xlabel('양적자료' , fontsize = 14)
plt.xticks(fontsize = 14)
plt.yticks(fontsize = 14)

================================

도수다각형

==> 히스토그램에서 각 사각형 상단의 중심을 선분으로 연결하여 다각형으로 나타낸 그림

 

출처 :  [쉽게 배우는 생활속의 통계학]  [북스힐 , 이재원] 

※혼자 공부 정리용

 

 

728x90
반응형

+ Recent posts