실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다.
하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데,
특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지,
bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자.
*히스토그램의 장단점
히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다.
장점:
1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다.
2) 정규분포와 비교하기 쉽다.
단점:
1) 원래 값을 상실하게 된다.
2) 두 데이터셋을 비교하기 어렵다.
3) 연속적인 데이터에서만 사용 가능하다.
'Artificial Intelligence' 카테고리의 다른 글
카이제곱 검정 (chi-squared test) (0) | 2021.11.07 |
---|---|
척도의 종류와 의미 (0) | 2021.08.16 |
빅데이터 시스템 조직 및 운영 체계 (1) | 2021.04.14 |
빅데이터의 주요 특징 (0) | 2021.04.14 |
빅데이터 분석 기사 (0) | 2021.04.14 |