본문 바로가기

Artificial Intelligence22

히스토그램의 정의, 장단점 실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다. 하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데, 특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지, bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자. *히스토그램의 장단점 히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다. 장점: 1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다. 2) 정규분포와 비교하기 쉽다. 단점: 1) 원래 값을 상실하게 된다. 2) 두 데이터셋을 비교하기 어렵다. 3) 연속적인 데이터에서만 사.. 2021. 8. 9.
빅데이터 시스템 조직 및 운영 체계 *빅데이터 시스템 조직 구성 -분석결과의 사용자, 데이터 분석팀, 데이터 시스템 운영팀 사이의 협업을 원활하게 하기 위한 조직 구성 1) 시스템 엔지니어 : 빅데이터 시스템 운영 담당 2) 데이터베이스 엔지니어 3) 소프트웨어 엔지니어 (주의) AI엔지니어, 데이터분석가는 포함되지 않는다. *빅데이터 시스템 운영 체계 -효율적이고 안정적인 시스템 운영을 위한 운영 체계 -시스템 상시 모니터링 체계 -시스템 장애 발생 시 장애 대응 시나리오 체계 -데이터 훼손 시 데이터 복구 체계 -주기적인 데이터 백업 체계 및 복구 테스트 수행 -정보보호 규정을 고려한 운영 체계 -사용자별 권한 관리 및 운영 체계 2021. 4. 14.
빅데이터의 주요 특징 5V = 3V(Volume, Variety, Velocity) + Value + Veracity 1) Volume (규모의 증가) -기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가 2) Variety (다양성) -데이터 종류의 증가 -비정형화된 데이터의 유형 증가 -고정 필드에 저장되는 정형 데이터(주소, 이름, 나이 등) 포함 3) Velocity (처리속도) -데이터의 양과 내용이 끊임없이 변화 -실시간성 정보 증가 e.g. 사물, 스트리밍 정보 -데이터 생성, 이동(유통) 속도의 증가 -대규모 데이터의 빠른 처리 및 분석 속도 요구 4) Value (가치) -대용량 데이터 내부에 함축된 가치를 찾는 것이 중요 -기존 DBMS 또는 데이터 분석 시스템으로는 작업이 어려움 5) Veracit.. 2021. 4. 14.
빅데이터 분석 기사 1. 빅데이터 분석 기획 1.1. 빅데이터의 이해 1.2. 데이터 분석 계획 1.3. 데이터 수집 및 저장 계획 2. 빅데이터 탐색 2.1. 데이터 전처리 2.2. 데이터 탐색 2.3. 통계기법 이해 3. 빅데이터 모델링 3.1. 분석모형 설계 3.2. 분석기법 적용 4. 빅데이터 결과 해석 4.1. 분석모형 평가 및 개선 4.2. 분석결과 해석 및 활용 2021. 4. 14.
[AI] epoch, batch size, iteration, step *epoch, batch size, iteration, step one epoch = when an ENTIRE dataset is passed forward and backward through the neural network only ONCE 전체 sample 데이터를 이용하여 한 바퀴 돌며 학습하는 것 ​ batch size = total number of training examples present in a single batch (cf. batch와는 다름) ​ iteration = number of batches needed to complete one epoch ​ 1 step = Weight와 Bias를 1회 업데이트하는 것 ​ s = (n * e) / b ​ n = num of sam.. 2021. 2. 21.
ML 관련 Top-tier 학회 명단 채용공고를 보면 ML 관련 Top-tier 학회 Publication 실적이라는 말이 많이 적혀있는데, top-tier의 기준은 무엇일까. 각 분야별 교수님들이 말하는 Top-tier 학회 명단. ML 전반 NeurIPS, ICML, ICLR, AAAI, IJCAI NLP 전반 ACL, EMNLP, NAACL Computer Vision 전반 CVPR, ICCV, ECCV Data Mining KDD 2021. 2. 11.