본문 바로가기

Artificial Intelligence23

척도의 종류와 의미 모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다. 물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만 그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고 그에 맞게 one-hot encoding, scaling 등을 해줘야한다. *측정방법 4가지 (척도의 종류와 의미) -질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분) 2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학.. 2021. 8. 16.
히스토그램의 정의, 장단점 실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다. 하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데, 특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지, bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자. *히스토그램의 장단점 히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다. 장점: 1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다. 2) 정규분포와 비교하기 쉽다. 단점: 1) 원래 값을 상실하게 된다. 2) 두 데이터셋을 비교하기 어렵다. 3) 연속적인 데이터에서만 사.. 2021. 8. 9.
빅데이터 시스템 조직 및 운영 체계 *빅데이터 시스템 조직 구성 -분석결과의 사용자, 데이터 분석팀, 데이터 시스템 운영팀 사이의 협업을 원활하게 하기 위한 조직 구성 1) 시스템 엔지니어 : 빅데이터 시스템 운영 담당 2) 데이터베이스 엔지니어 3) 소프트웨어 엔지니어 (주의) AI엔지니어, 데이터분석가는 포함되지 않는다. *빅데이터 시스템 운영 체계 -효율적이고 안정적인 시스템 운영을 위한 운영 체계 -시스템 상시 모니터링 체계 -시스템 장애 발생 시 장애 대응 시나리오 체계 -데이터 훼손 시 데이터 복구 체계 -주기적인 데이터 백업 체계 및 복구 테스트 수행 -정보보호 규정을 고려한 운영 체계 -사용자별 권한 관리 및 운영 체계 2021. 4. 14.
빅데이터의 주요 특징 5V = 3V(Volume, Variety, Velocity) + Value + Veracity 1) Volume (규모의 증가) -기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가 2) Variety (다양성) -데이터 종류의 증가 -비정형화된 데이터의 유형 증가 -고정 필드에 저장되는 정형 데이터(주소, 이름, 나이 등) 포함 3) Velocity (처리속도) -데이터의 양과 내용이 끊임없이 변화 -실시간성 정보 증가 e.g. 사물, 스트리밍 정보 -데이터 생성, 이동(유통) 속도의 증가 -대규모 데이터의 빠른 처리 및 분석 속도 요구 4) Value (가치) -대용량 데이터 내부에 함축된 가치를 찾는 것이 중요 -기존 DBMS 또는 데이터 분석 시스템으로는 작업이 어려움 5) Veracit.. 2021. 4. 14.
빅데이터 분석 기사 1. 빅데이터 분석 기획 1.1. 빅데이터의 이해 1.2. 데이터 분석 계획 1.3. 데이터 수집 및 저장 계획 2. 빅데이터 탐색 2.1. 데이터 전처리 2.2. 데이터 탐색 2.3. 통계기법 이해 3. 빅데이터 모델링 3.1. 분석모형 설계 3.2. 분석기법 적용 4. 빅데이터 결과 해석 4.1. 분석모형 평가 및 개선 4.2. 분석결과 해석 및 활용 2021. 4. 14.
[AI] epoch, batch size, iteration, step *epoch, batch size, iteration, step one epoch = when an ENTIRE dataset is passed forward and backward through the neural network only ONCE 전체 sample 데이터를 이용하여 한 바퀴 돌며 학습하는 것 ​ batch size = total number of training examples present in a single batch (cf. batch와는 다름) ​ iteration = number of batches needed to complete one epoch ​ 1 step = Weight와 Bias를 1회 업데이트하는 것 ​ s = (n * e) / b ​ n = num of sam.. 2021. 2. 21.
728x90