모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다.
물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만
그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고
그에 맞게 one-hot encoding, scaling 등을 해줘야한다.
*측정방법 4가지 (척도의 종류와 의미)
-질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도)
1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분)
2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학년, 신용등급)
-양적척도 (수치형자료, 숫자들의 크기 차이를 계산할 수 있는 척도)
3) 구간척도(등간척도) : 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 구간이나 구간 사이의 간격이 의미가 있는 자료 (온도, 지수)
4) 비율척도 : 간격(차이)에 대한 비율이 의미를 가지는 자료, 절대적 기준인 0이 존재하고 사칙연산이 가능하며 제일 많은 정보를 가지는 척도 (무게, 나이, 시간, 거리)
*서열척도는 명목척도와 달리 매겨진 숫자의 크기를 의미있게 활용할 수 있다.
e.g. 1등이 2등보다 성적이 높다.
*구간척도는 절대적 크기는 측정할 수 없기 때문에 사칙연산 중 더하기와 빼기는 가능하지만 비율처럼 곱하거나 나누는 것은 불가능하다.
(참고) 절대적 기준인 0이 존재한다는 말의 의미?
0이 상대적인 의미일 뿐 '없을 무'의 의미가 아니다. 즉, 0도는 온도가 없다? 0시는 아무것도 없다? 가 아니다.
하지만 비율척도에서의 0은 '절대적 0'이다. 소득이 0원이다=아무 것도 가진 게 없다, 무게=0kg이다=아무 무게도 없다 등을 의미한다.
'Artificial Intelligence' 카테고리의 다른 글
책 "BERT와 GPT로 배우는 자연어 처리" 후기 - 한국어 언어모델 입문서적으로 최고인 책 (0) | 2022.01.10 |
---|---|
카이제곱 검정 (chi-squared test) (0) | 2021.11.07 |
히스토그램의 정의, 장단점 (0) | 2021.08.09 |
빅데이터 시스템 조직 및 운영 체계 (1) | 2021.04.14 |
빅데이터의 주요 특징 (0) | 2021.04.14 |