본문 바로가기

방법론 공부/계량통계 방법론

데이터의 분포를 어떻게 보여줄까 - Histogram vs. Boxplot

Boxplot


Boxplot은 outlier를 제거하고 사분위수를 이용하여 가운데 50% 의 데이터를 통해 그래프를 생성한다. 이를 통해 중앙값을 비롯한 각 사분위수의 범위,최대값, 최소값을 알 수 있습니다.  


Histogram

Histogram은 전체 데이터에 기초하여 측정값이 존재하는 범위를 몇 개의 구간(급)으로 나눈 경우,각 구간에 해당하는 데이터의 총 갯수를 보여준다. 상대도수를 모두 합하면 1이 된다. 각 막대 간에는 간격이 없으며, 많은 경우 값들은 정규분포를 따르는 것처럼 보인다.


이를 통해 데이터의 범위, 데이터가 집중된 곳이나 대칭성 등을 알 수 있다. 단, 데이터 자체의 측정값들은 그래프에 나타나지 않습니다. 



출처: http://www.jmp.com/support/help/Options_for_Continuous_Variables.shtml


출처: http://isites.harvard.edu/fs/docs/icb.topic198854.files/Lecture03.pdf





추가. 다양한 분포의 히스토그램