본문 바로가기

Artificial Intelligence22

conda 터미널 명령어 conda 터미널 명령어 정리 conda navigator도 있지만, conda terminal 환경에서 작업할 경우 명령어로 작업해야 한다. 매우 쉽지만 맨날 구글링하기 귀찮아서 정리한다. 찾아보니 아래와 같은 cheatsheet도 있다! Conda basics - 설치된 아나콘다 정보 조회 (Verify conda is installed, check version number) $ conda info - conda 최신 버전으로 업데이트 (Update conda to the current version) $ conda update conda - conda 패키지 설치 (Install a package included in Anaconda) $ conda install PACKAGENAME - 패키지 .. 2021. 1. 12.
numpy의 dot / matmul 차이 *numpy에서 dot 함수 *numpy에서 matmul 함수 -참고문헌 m.blog.naver.com/PostView.nhn?blogId=cjh226&logNo=221356884894&proxyReferer=https:%2F%2Fwww.google.com%2F 2021. 1. 12.
[ADP, ADsP] 데이터 처리 순서: Legacy -> staging -> ODS -> DW -> DM -> R, SAS, PYTHON 한때 BI 대시보드 개발을 위한 DW 구축 제안서 작업에 잠시 참여했던 적이 있다. 사실 캐글 등 해커톤에서나, 실제 현업에서는 대부분 csv로 떨궈서 데이터를 분석하지만, BI를 만들어야하거나, 대용량/실시간 데이터 처리를 해야하면 좀 복잡해진다. 데이터는 실시간으로 운영시스템에 쌓이는데, 이 데이터를 분석할 수 있도록 데이터 파이프라인을 구축해야하는 경우가 생기는데, 운영시스템에 붙어서 분석을 할 수가 없기 때문이다. 할 수는 있는데 처리 속도도 느리고, 쿼리를 잘못 날리면 모든 게 엉킬 수도 있다. 그래서 안 하는 것 같다. 그래서 OLTP로부터 OLAP을 구축하는데 (-> 사실 이건 어디까지나 batch 분석에 불과하다) ADP 시험에서는 batch 분석 정도의 개념만 묻는 듯하지만, real-t.. 2020. 11. 19.
[ADP, ADsP] EDA의 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성 EDA(Exploratory Data Analysis, EDA)의 4가지 주제 1. 저항성의 강조: 자료 변동에 민감하지 않은가? 자료변동에 민감하지 않음=저항성이 있음 e.g. 중앙값은 저항성이 있지만 평균은 저항값이 있다. 14 21 18 20 15 -> 14 21 18 20 20000 좌에서 우로 갔을 때 평균은 확 늘어나게 돼 저항성이 없다. 2. 잔차 계산: 관찬 값들이 주경향으로부터 얼마나 벗어났나? 3. 자료변수의 재표현: 원래 변수를 적당한 척도로 바꾸면? e.g. 로그 변환을 통해 데이터가 정규분포임을 쉽게 파악하기 4. 그래프를 통한 현시성: 그래프로 시각화함으로써 구조를 효율적으로 파악하자 e.g. histogram, box plot, scatter plot 등 https://blog.. 2020. 11. 19.