본문 바로가기

데이터사이언스2

카이제곱 검정 (chi-squared test) 카이제곱검정 -교차분석이라고도 불림. -두 범주형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립사건인지 판별하는 것 -자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됨 주의사항 -자유도가 1일 경우 각 관측값이 30 이상이어야 한다. 카이제곱값 계산 공식: (예시) 1) 가설 세우기 귀무가설 H0 : 성별과 쿠폰 간 상관성이 없다. 대립가설 H1 : 성별과 쿠폰 간 상관성이 있다. 2) 관측도수 쿠폰 반응 쿠폰 미반응 total 남성 200 300 500 여성 220 260 480 total 420 560 980 3) 기대도수 구하기 쿠폰 반응 쿠폰 미반응 total 남성 214.29 285.71 500 여.. 2021. 11. 7.
히스토그램의 정의, 장단점 실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다. 하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데, 특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지, bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자. *히스토그램의 장단점 히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다. 장점: 1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다. 2) 정규분포와 비교하기 쉽다. 단점: 1) 원래 값을 상실하게 된다. 2) 두 데이터셋을 비교하기 어렵다. 3) 연속적인 데이터에서만 사.. 2021. 8. 9.
728x90