728x90

Artificial Intelligence 22

(Hive) Hive Error while compiling statement: FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations. - HIVE ALTER TABLE 명령어 사용법 정리 (INSERT, DROP, UPDATE X)

Issue 테이블 mytable에서 part_yrmn이 '202203'인 것을 제외하려고 다음과 같이 입력했더니 Delete from mytable where part_yrmn='202203' 다음과 같은 에러가 떴다. Hive에서 INSERT...VALUES, UPDATE와 DELETE문을 사용할 수 없어서 뜨는 에러다. 다음과 같이 해결하면 된다. Solution 1) 먼저, Hive 0.14.0부터 INSERT...VALUES, UPDATE, DELETE가 full ACID support에서 사용가능하게 되었다. 즉, Hive 0.14.0 아래 버전을 쓰고 있다면 위 statements를 사용할 수 없다. 대신 ALTER TABLE statements를 사용하면 된다. 사실 Hive 공식 docs의..

(PyTorch) Missing keys & unexpected keys in state_dict when loading self trained model

(Trouble) Missing keys & unexpected keys in state_dict when loading self trained model 에러 예시1) RuntimeError: Error(s) in loading state_dict for VGG: Missing key(s) in state_dict: "features.0.weight", "features.0.bias", "features.2.weight", "features.2.bias", "features.5.weight", "features.5.bias", "features.7.weight", "features.7.bias", "features.10.weight", "features.10.bias", "features.12.weig..

책 "BERT와 GPT로 배우는 자연어 처리" 후기 - 한국어 언어모델 입문서적으로 최고인 책

책 "BERT와 GPT로 배우는 자연어 처리" 몇 달 전에 대화요약 해커톤을 나가고 난 후, 언어 모델에 대한 공부가 필요하다고 느껴 신청하게 된 도서다. 운 좋게 서평이벤트에 당첨됐고 이 책을 읽으면서 내가 해커톤에서 주먹구구식으로 썼던 개념들에 대해 정리할 수 있게 됐다. 자연어처리가 처음이라면, 정말 추천하는 책이다. 사실 그동안 출간되어 있는 nlp 관련 서적들 중에 통계적인 언어모델을 다루거나, 기본적인 RNN, LSTM 정도 혹은 많이 나간다 해도 Transformers 논문 정도까지만 나온 책이 많았다. 즉, Transformers 논문 이후 나온 Transformers 기반의 여러 언어 모델에 대한 개념서가 없었고, 이에 대한 갈증을 늘 느끼고 있던 터였다. 근데 딱 이런 책이 Do it!..

자연어처리 각 분야들 (NLP tasks)

Academic Disciplines related to NLP 1. natural language processing (major conference : ACL, EMNLP, NAACL) 1) low level parsing -Tokenization e.g. 나는 학교를 간다 -> 나, 는, 학교, 를, 가, ㄴ, 다 -stemming (어근 추출) e.g. study -> studying, studied / 맑다 -> 맑은데, 맑지만, 맑고 2) word and phrase level -Named entity recognition (NER) e.g. 뉴욕타임즈 -part-of-speech(POS) tagging e.g. 주어/본동사/목적어/부사구/형용사구 등 구분 -noun-phrase chunkin..

카이제곱 검정 (chi-squared test)

카이제곱검정 -교차분석이라고도 불림. -두 범주형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립사건인지 판별하는 것 -자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됨 주의사항 -자유도가 1일 경우 각 관측값이 30 이상이어야 한다. 카이제곱값 계산 공식: (예시) 1) 가설 세우기 귀무가설 H0 : 성별과 쿠폰 간 상관성이 없다. 대립가설 H1 : 성별과 쿠폰 간 상관성이 있다. 2) 관측도수 쿠폰 반응 쿠폰 미반응 total 남성 200 300 500 여성 220 260 480 total 420 560 980 3) 기대도수 구하기 쿠폰 반응 쿠폰 미반응 total 남성 214.29 285.71 500 여..

척도의 종류와 의미

모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다. 물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만 그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고 그에 맞게 one-hot encoding, scaling 등을 해줘야한다. *측정방법 4가지 (척도의 종류와 의미) -질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분) 2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학..

히스토그램의 정의, 장단점

실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다. 하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데, 특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지, bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자. *히스토그램의 장단점 히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다. 장점: 1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다. 2) 정규분포와 비교하기 쉽다. 단점: 1) 원래 값을 상실하게 된다. 2) 두 데이터셋을 비교하기 어렵다. 3) 연속적인 데이터에서만 사..

빅데이터 시스템 조직 및 운영 체계

*빅데이터 시스템 조직 구성 -분석결과의 사용자, 데이터 분석팀, 데이터 시스템 운영팀 사이의 협업을 원활하게 하기 위한 조직 구성 1) 시스템 엔지니어 : 빅데이터 시스템 운영 담당 2) 데이터베이스 엔지니어 3) 소프트웨어 엔지니어 (주의) AI엔지니어, 데이터분석가는 포함되지 않는다. *빅데이터 시스템 운영 체계 -효율적이고 안정적인 시스템 운영을 위한 운영 체계 -시스템 상시 모니터링 체계 -시스템 장애 발생 시 장애 대응 시나리오 체계 -데이터 훼손 시 데이터 복구 체계 -주기적인 데이터 백업 체계 및 복구 테스트 수행 -정보보호 규정을 고려한 운영 체계 -사용자별 권한 관리 및 운영 체계

Artificial Intelligence 2021.04.14 (1)

빅데이터의 주요 특징

5V = 3V(Volume, Variety, Velocity) + Value + Veracity 1) Volume (규모의 증가) -기술적 발전과 IT 서비스의 일상화로 디지털 정보량의 증가 2) Variety (다양성) -데이터 종류의 증가 -비정형화된 데이터의 유형 증가 -고정 필드에 저장되는 정형 데이터(주소, 이름, 나이 등) 포함 3) Velocity (처리속도) -데이터의 양과 내용이 끊임없이 변화 -실시간성 정보 증가 e.g. 사물, 스트리밍 정보 -데이터 생성, 이동(유통) 속도의 증가 -대규모 데이터의 빠른 처리 및 분석 속도 요구 4) Value (가치) -대용량 데이터 내부에 함축된 가치를 찾는 것이 중요 -기존 DBMS 또는 데이터 분석 시스템으로는 작업이 어려움 5) Veracit..

728x90