본문 바로가기

Artificial Intelligence22

(Hive) Hive Error while compiling statement: FAILED: SemanticException [Error 10294]: Attempt to do update or delete using transaction manager that does not support these operations. - HIVE ALTER TABLE 명령어 사용법 정리 (INSERT, DROP, UPDATE X) Issue 테이블 mytable에서 part_yrmn이 '202203'인 것을 제외하려고 다음과 같이 입력했더니 Delete from mytable where part_yrmn='202203' 다음과 같은 에러가 떴다. Hive에서 INSERT...VALUES, UPDATE와 DELETE문을 사용할 수 없어서 뜨는 에러다. 다음과 같이 해결하면 된다. Solution 1) 먼저, Hive 0.14.0부터 INSERT...VALUES, UPDATE, DELETE가 full ACID support에서 사용가능하게 되었다. 즉, Hive 0.14.0 아래 버전을 쓰고 있다면 위 statements를 사용할 수 없다. 대신 ALTER TABLE statements를 사용하면 된다. 사실 Hive 공식 docs의.. 2022. 5. 11.
(PyTorch) Missing keys & unexpected keys in state_dict when loading self trained model (Trouble) Missing keys & unexpected keys in state_dict when loading self trained model 에러 예시1) RuntimeError: Error(s) in loading state_dict for VGG: Missing key(s) in state_dict: "features.0.weight", "features.0.bias", "features.2.weight", "features.2.bias", "features.5.weight", "features.5.bias", "features.7.weight", "features.7.bias", "features.10.weight", "features.10.bias", "features.12.weig.. 2022. 4. 23.
책 "BERT와 GPT로 배우는 자연어 처리" 후기 - 한국어 언어모델 입문서적으로 최고인 책 책 "BERT와 GPT로 배우는 자연어 처리" 몇 달 전에 대화요약 해커톤을 나가고 난 후, 언어 모델에 대한 공부가 필요하다고 느껴 신청하게 된 도서다. 운 좋게 서평이벤트에 당첨됐고 이 책을 읽으면서 내가 해커톤에서 주먹구구식으로 썼던 개념들에 대해 정리할 수 있게 됐다. 자연어처리가 처음이라면, 정말 추천하는 책이다. 사실 그동안 출간되어 있는 nlp 관련 서적들 중에 통계적인 언어모델을 다루거나, 기본적인 RNN, LSTM 정도 혹은 많이 나간다 해도 Transformers 논문 정도까지만 나온 책이 많았다. 즉, Transformers 논문 이후 나온 Transformers 기반의 여러 언어 모델에 대한 개념서가 없었고, 이에 대한 갈증을 늘 느끼고 있던 터였다. 근데 딱 이런 책이 Do it!.. 2022. 1. 10.
자연어처리 각 분야들 (NLP tasks) Academic Disciplines related to NLP 1. natural language processing (major conference : ACL, EMNLP, NAACL) 1) low level parsing -Tokenization e.g. 나는 학교를 간다 -> 나, 는, 학교, 를, 가, ㄴ, 다 -stemming (어근 추출) e.g. study -> studying, studied / 맑다 -> 맑은데, 맑지만, 맑고 2) word and phrase level -Named entity recognition (NER) e.g. 뉴욕타임즈 -part-of-speech(POS) tagging e.g. 주어/본동사/목적어/부사구/형용사구 등 구분 -noun-phrase chunkin.. 2021. 11. 7.
카이제곱 검정 (chi-squared test) 카이제곱검정 -교차분석이라고도 불림. -두 범주형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립사건인지 판별하는 것 -자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됨 주의사항 -자유도가 1일 경우 각 관측값이 30 이상이어야 한다. 카이제곱값 계산 공식: (예시) 1) 가설 세우기 귀무가설 H0 : 성별과 쿠폰 간 상관성이 없다. 대립가설 H1 : 성별과 쿠폰 간 상관성이 있다. 2) 관측도수 쿠폰 반응 쿠폰 미반응 total 남성 200 300 500 여성 220 260 480 total 420 560 980 3) 기대도수 구하기 쿠폰 반응 쿠폰 미반응 total 남성 214.29 285.71 500 여.. 2021. 11. 7.
척도의 종류와 의미 모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다. 물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만 그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고 그에 맞게 one-hot encoding, scaling 등을 해줘야한다. *측정방법 4가지 (척도의 종류와 의미) -질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분) 2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학.. 2021. 8. 16.