본문 바로가기

분류 전체보기98

자연어처리 각 분야들 (NLP tasks) Academic Disciplines related to NLP 1. natural language processing (major conference : ACL, EMNLP, NAACL) 1) low level parsing -Tokenization e.g. 나는 학교를 간다 -> 나, 는, 학교, 를, 가, ㄴ, 다 -stemming (어근 추출) e.g. study -> studying, studied / 맑다 -> 맑은데, 맑지만, 맑고 2) word and phrase level -Named entity recognition (NER) e.g. 뉴욕타임즈 -part-of-speech(POS) tagging e.g. 주어/본동사/목적어/부사구/형용사구 등 구분 -noun-phrase chunkin.. 2021. 11. 7.
카이제곱 검정 (chi-squared test) 카이제곱검정 -교차분석이라고도 불림. -두 범주형 변수에서 관찰된 빈도가 기대 빈도와 의미 있게 다른지를 검증하기 위해 사용된다. 즉, 두 범주형 변수 A, B가 종속사건인지 독립사건인지 판별하는 것 -자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됨 주의사항 -자유도가 1일 경우 각 관측값이 30 이상이어야 한다. 카이제곱값 계산 공식: (예시) 1) 가설 세우기 귀무가설 H0 : 성별과 쿠폰 간 상관성이 없다. 대립가설 H1 : 성별과 쿠폰 간 상관성이 있다. 2) 관측도수 쿠폰 반응 쿠폰 미반응 total 남성 200 300 500 여성 220 260 480 total 420 560 980 3) 기대도수 구하기 쿠폰 반응 쿠폰 미반응 total 남성 214.29 285.71 500 여.. 2021. 11. 7.
웹/앱 서비스 기획 순서 다음의 글은 아래 참고문헌을 요약한 글이다. 참고문헌: 20년 차 웹/앱 서비스 기획자의 앱 기획 노하우를 공개합니다 -전제는 최소화 (전제가 여러 개이면 그만큼 실현 가능성은 낮아진다) -서비스 제작 -> 서비스 오픈과 운영 -> 서비스 잘돼서 성장 -> 서비스 잘 유지 예시 주제: 자전거를 이동시켜주는 앱 서비스 기획 1. 무엇을 하는 서비스인가를 정의하라. (가장 중요) *자신의 서비스를 단순하게 정의할 것 -내 자전거를 내가 원하는 장소로 이동시켜 주는 서비스 -자전거 이송 서비스 (sendbike) *서비스명을 지을 때 해당 도메인을 살 수 있는지가 중요 -도메인: send.bike 2. 초간단 서비스 구조를 그려라. (너무 중요) -지금 위치에서 다른 위치로 자전거를 이동시켜준다. 3. 사용자.. 2021. 8. 27.
척도의 종류와 의미 모델링을 하기 전에 각 측정치들이 어떤 척도에 속하는지 이해가 필요하다. 물론 변수가 명목형 변수인지, 비율형 변수인지 등에 영향을 받지 않는 모델(e.g. RandomForest, LightGBM 등)도 있지만 그렇지 않은 모델(e.g. Linear/Logistic Regression, Deep Neural Network 등)의 경우 척도에 대해 이해하고 그에 맞게 one-hot encoding, scaling 등을 해줘야한다. *측정방법 4가지 (척도의 종류와 의미) -질적척도 (범주형자료, 숫자들의 크기 차이가 계산되지 않는 척도) 1) 명목척도 : 측정 대상이 어느 집단에 속하는지 분류할 때 사용 (성별, 출생지 구분) 2) 순서척도 : 측정 대상의 서열관계를 관측하는 척도 (만족도, 선호도, 학.. 2021. 8. 16.
히스토그램의 정의, 장단점 실무에서 데이터 분포를 보기 위해 히스토그램을 쓰는 경우가 많다. 하지만 히스토그램의 장점과 단점을 명확히 알고 있어야 하는데, 특히 discrete dataset을 막대그래프가 아닌 histogram으로 그리는 오류라든지, bins를 몇 개 선택하는지에 따라 히스토그램의 모양이 달라지는데 이를 고려하지 않아 오류를 범하지 않도록 주의하자. *히스토그램의 장단점 히스토그램: 도수의 분포 상태를 보다 쉽게 알아볼 수 있게 그린 그래프. 항상 세로축은 빈도를 나타내고 가로축은 계급을 나타낸다. 장점: 1) 각 계급에 속하는 자료의 수가 많고 적음을 한눈에 알아보기 쉽다. 2) 정규분포와 비교하기 쉽다. 단점: 1) 원래 값을 상실하게 된다. 2) 두 데이터셋을 비교하기 어렵다. 3) 연속적인 데이터에서만 사.. 2021. 8. 9.
Mecab 논문 정리 (작성 중) MECAB 논문 정리 Mecab 논문인 "Applying Conditional Random Fields to Japanese Morphological Analysis"를 읽고 정리해봤다. (아직 정리 중이라는 표현이 적절할 듯. 아직 정리 중이다) 본 포스팅은 다음의 4가지를 다룬다. 1. 일본어 형태소 분석기 모델들 2. CRF 이전 모델들의 문제점 3. CRF(conditional random fields) 4. Experiments of CRFs 💡 일본어 형태소 분석기 모델들 **일본어 형태소 분석 **모델들 (6가지) 1) Chasen: hierarchical structure 사용, IPA tagset 사용 **IPA tagset은 세 가지 부분으로 구성됨. POS, conjugation fo.. 2021. 7. 25.