본문 바로가기

전체 글106

Python 딕셔너리 정렬 (Key, Value 기준 sort) 예제 mydict = {'d': 50, 'a': 20, 'b': 30, 'e': 10, 'c': 30} 1. Key를 기준으로 정렬 (오름차순) mydict_sorted = sorted(mydict.items()) print(mydict_sorted) [('a', 20), ('b', 30), ('c', 30), ('d', 50), ('e', 10)] 2. Key를 기준으로 정렬 (내림차순) mydict_sorted = sorted(mydict.items(), key=lambda x:x[0], reverse=True) print(mydict_sorted) [('e', 10), ('d', 50), ('c', 30), ('b', 30), ('a', 20)] 3. Value를 기준으로 정렬 (오름차순) mydi.. 2022. 4. 9.
책 "BERT와 GPT로 배우는 자연어 처리" 후기 - 한국어 언어모델 입문서적으로 최고인 책 책 "BERT와 GPT로 배우는 자연어 처리" 몇 달 전에 대화요약 해커톤을 나가고 난 후, 언어 모델에 대한 공부가 필요하다고 느껴 신청하게 된 도서다. 운 좋게 서평이벤트에 당첨됐고 이 책을 읽으면서 내가 해커톤에서 주먹구구식으로 썼던 개념들에 대해 정리할 수 있게 됐다. 자연어처리가 처음이라면, 정말 추천하는 책이다. 사실 그동안 출간되어 있는 nlp 관련 서적들 중에 통계적인 언어모델을 다루거나, 기본적인 RNN, LSTM 정도 혹은 많이 나간다 해도 Transformers 논문 정도까지만 나온 책이 많았다. 즉, Transformers 논문 이후 나온 Transformers 기반의 여러 언어 모델에 대한 개념서가 없었고, 이에 대한 갈증을 늘 느끼고 있던 터였다. 근데 딱 이런 책이 Do it!.. 2022. 1. 10.
자연어처리 각 분야들 (NLP tasks) Academic Disciplines related to NLP 1. natural language processing (major conference : ACL, EMNLP, NAACL) 1) low level parsing -Tokenization e.g. 나는 학교를 간다 -> 나, 는, 학교, 를, 가, ㄴ, 다 -stemming (어근 추출) e.g. study -> studying, studied / 맑다 -> 맑은데, 맑지만, 맑고 2) word and phrase level -Named entity recognition (NER) e.g. 뉴욕타임즈 -part-of-speech(POS) tagging e.g. 주어/본동사/목적어/부사구/형용사구 등 구분 -noun-phrase chunkin.. 2021. 11. 7.
카이제곱 검정 (chi-squared test) 카이제곱검정 -교차분석이라고도 불림. -두 범주형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립사건인지 판별하는 것 -자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됨 주의사항 -자유도가 1일 경우 각 관측값이 30 이상이어야 한다. 카이제곱값 계산 공식: (예시) 1) 가설 세우기 귀무가설 H0 : 성별과 쿠폰 간 상관성이 없다. 대립가설 H1 : 성별과 쿠폰 간 상관성이 있다. 2) 관측도수 쿠폰 반응 쿠폰 미반응 total 남성 200 300 500 여성 220 260 480 total 420 560 980 3) 기대도수 구하기 쿠폰 반응 쿠폰 미반응 total 남성 214.29 285.71 500 여.. 2021. 11. 7.
웹/앱 서비스 기획 순서 다음의 글은 아래 참고문헌을 요약한 글이다. 참고문헌: 20년 차 웹/앱 서비스 기획자의 앱 기획 노하우를 공개합니다 -전제는 최소화 (전제가 여러 개이면 그만큼 실현 가능성은 낮아진다) -서비스 제작 -> 서비스 오픈과 운영 -> 서비스 잘돼서 성장 -> 서비스 잘 유지 예시 주제: 자전거를 이동시켜주는 앱 서비스 기획 1. 무엇을 하는 서비스인가를 정의하라. (가장 중요) *자신의 서비스를 단순하게 정의할 것 -내 자전거를 내가 원하는 장소로 이동시켜 주는 서비스 -자전거 이송 서비스 (sendbike) *서비스명을 지을 때 해당 도메인을 살 수 있는지가 중요 -도메인: send.bike 2. 초간단 서비스 구조를 그려라. (너무 중요) -지금 위치에서 다른 위치로 자전거를 이동시켜준다. 3. 사용자.. 2021. 8. 27.
척도의 종류와 의미 모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다. 물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만 그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고 그에 맞게 one-hot encoding, scaling 등을 해줘야한다. *측정방법 4가지 (척도의 종류와 의미) -질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분) 2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학.. 2021. 8. 16.
728x90