본문 바로가기

전체 글106

[ADP, ADsP] 데이터 처리 순서: Legacy -> staging -> ODS -> DW -> DM -> R, SAS, PYTHON 한때 BI 대시보드 개발을 위한 DW 구축 제안서 작업에 잠시 참여했던 적이 있다. 사실 캐글 등 해커톤에서나, 실제 현업에서는 대부분 csv로 떨궈서 데이터를 분석하지만, BI를 만들어야하거나, 대용량/실시간 데이터 처리를 해야하면 좀 복잡해진다. 데이터는 실시간으로 운영시스템에 쌓이는데, 이 데이터를 분석할 수 있도록 데이터 파이프라인을 구축해야하는 경우가 생기는데, 운영시스템에 붙어서 분석을 할 수가 없기 때문이다. 할 수는 있는데 처리 속도도 느리고, 쿼리를 잘못 날리면 모든 게 엉킬 수도 있다. 그래서 안 하는 것 같다. 그래서 OLTP로부터 OLAP을 구축하는데 (-> 사실 이건 어디까지나 batch 분석에 불과하다) ADP 시험에서는 batch 분석 정도의 개념만 묻는 듯하지만, real-t.. 2020. 11. 19.
[ADP, ADsP] EDA의 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성 EDA(Exploratory Data Analysis, EDA)의 4가지 주제 1. 저항성의 강조: 자료 변동에 민감하지 않은가? 자료변동에 민감하지 않음=저항성이 있음 e.g. 중앙값은 저항성이 있지만 평균은 저항값이 있다. 14 21 18 20 15 -> 14 21 18 20 20000 좌에서 우로 갔을 때 평균은 확 늘어나게 돼 저항성이 없다. 2. 잔차 계산: 관찬 값들이 주경향으로부터 얼마나 벗어났나? 3. 자료변수의 재표현: 원래 변수를 적당한 척도로 바꾸면? e.g. 로그 변환을 통해 데이터가 정규분포임을 쉽게 파악하기 4. 그래프를 통한 현시성: 그래프로 시각화함으로써 구조를 효율적으로 파악하자 e.g. histogram, box plot, scatter plot 등 https://blog.. 2020. 11. 19.
ADP 서술형 문제 출제 리스트 서술형 문제 탐색적 분석 회귀 분석 주성분 분석 시계열 분석 로지스틱 회귀분석 의사결정나무 앙상블 분석 나이브 베이지안 인공신경망 군집분석 연관성 분석 2020. 11. 19.
SQLP 시험 항목들 2020. 10. 31.
728x90