★양적자료의 요약★점도표, 도수분포표 , 특이점,계급 , 계급의 수★도수히스토그램★기초통계학-[Chapter02 - 02]
점도표 :
각 범주 또는 측정값을 수평축에 나타내고,
이 수평축 위에 각 범주 또는 측정값의 관찰 횟수를 점으로 나타낸 것이다.
==> 원자료의 특성을 그림으로 나타내는 가장 간단한 방법
==> 양적자료뿐만 아니라 질적자료에도 사용이 가능하다.
점도표는 수평축 위에 범주 또는 측정값을 점으로 찍어서 나타냄
==> 자료의 정확한 위치를 알 수 있으며, 수집한 자료가 어떠한 모양으로 흩어져 있는지 쉽게 파악 가능
=============
도수분포표(Frequency distribution table) : 양적자료를 적당한 간격으로 집단화(범주화) 하면 질적 자료로 전환시킬 수 있다.
==> 각 계급 또는 구간 안에 들어가는 자료의 도수, 상대도수, 누적도수, 누적상대도수, 계급값
계급(CLASS) : 양적자료를 적당한 간격으로 집단화 ==> 범주 의미
계급 간격(CLASS Width) : 이웃하는 두 계급의 위쪽 경계에서 아래쪽 경계를 뺀 값
계급 상대도수(Class Relative Frequency) : 계급의 도수를 자료 집단 안의 전체 자료의 수로 나눈 값
계급 상대도수 = 계급의 도수 / 전체 도수
누적 도수(Cumulative Frequency) : 이전 계급까지의 모든 도수를 합한 도수
누적상대도수(Cumulative relative frequency) : 이전 계급까지의 모든 상대도수를 합한 상대도수
계급값(Class Mark) : 각 계급의 중앙값
계급값 = (위쪽 경계 + 아래쪽 경계) / 전체 도수
================================
양적자료의 도수분포표의 작성 프로세스
1번째 , 계급의 수를 결정한다.
보통 계급의 수 : 5개~20개 내외
자료의 수 (n)이 200개 이하이면 계급의 수(k)는 k= n^(1/2) +- 3 에 가까운 정수 선택
자료의 수가 충분히 많으면
Sturges 공식 활용 ==> k= 1+3.3log n 에 가까운 정수를 택한다.
EX) 재외공관의 개수 193개 ==> k = 193^(1/2)+-3 = 16~17 개의 계급의 수를 정한다.
2번째 , 각 계급에 일정하게 주어지는 각 계급 간격을 결정한다.
범위(Range)
==> R는 R=(최대 자료 값) - (최소 자료 값)
계급 간격(Class Width) ==> 범위를 계급의 수(k)로 나눈 값보다 큰, 가장 작은 정수로 택한다.
계급간격(w) ~~ R/k
R = 86995 - 25283 = 61,712
k = 16
w= 3857
3번째, 이웃하는 계급 사이의 중복을 피하기 위하여 제 1계급의 하한을 결정
제 1계급의 하한 = 최소 자료 값 - (기본단위)/2
==> 제 1계급의 하한 = 25283- 1/2 = 25,283.5
4번째 , 각 계급의 도수, 상대도수, 누적도수, 누적상대도수, 계급값을 구하여 기입하면 도수분포표가 완성
================================
도수히스토그램
==> 수평축에 도수분포표의 계급을 나타내고 , 수직축에 각 계급에 대응하는 도수를 높이로 갖는 사각형으로 나타낸 그림
plt.hist(dansu_boksu_hab.iloc[:,-1] , bins , rwidth = 0.8 , color = 'green' , alpha = 0.5)
plt.xlabel('재외공관 별 업무량' , fontsize = 14)
plt.xticks(fontsize = 14)
plt.yticks(fontsize = 14)
특이점 (Outlier) : 분포 모양에서 멀리 떨어지는 자료의 측정값
data = [12.6,10.5,25.2,20.9,29.5,28.3,12.9,11.2,26.1,23.6,18.2,13.1,14.8,11.1 , 10.2,
16.9,26.7,16.7 , 23.6 , 17.5]
width = (max(data) - min(data)) // 5 #계급 간격 구하는 공식
bins = np.arange(min(data), max(data), width)
hist, bins = np.histogram(data, bins)
print(hist)
print(bins)
HIST : [7 1 4 1 2 3]
BINS : [10.2 13.2 16.2 19.2 22.2 25.2 28.2]
plt.hist(data, bins , rwidth = 0.8 , color = 'green' , alpha = 0.5)
plt.xlabel('양적자료' , fontsize = 14)
plt.xticks(fontsize = 14)
plt.yticks(fontsize = 14)
================================
도수다각형
==> 히스토그램에서 각 사각형 상단의 중심을 선분으로 연결하여 다각형으로 나타낸 그림
출처 : [쉽게 배우는 생활속의 통계학] [북스힐 , 이재원]
※혼자 공부 정리용
'기초통계 > 막대그래프,히스토그램' 카테고리의 다른 글
★Pie Chart[Python]★기초통계학-[Chapter02 - 연습문제_03] (0) | 2022.12.01 |
---|---|
Plt, Fig, Seaborn 이해[Python]★기초통계학-[Chapter02 - 연습문제_02] (0) | 2022.11.30 |
★zip, collections.Counter()★도수표, 도수막대그래프★Plt, Fig, Seaborn 이해[Python]★기초통계학-[Chapter02 - 연습문제] (0) | 2022.11.30 |
★산점도 그래프★이변량 양적자료★기초통계학-[Chapter02 - 03] (0) | 2022.11.30 |
★질적자료의 요약★seaborn, matplotlib★기초통계학-[Chapter02 - 01] (0) | 2022.11.29 |