본문 바로가기

분류 전체보기74

NLP Cleaning and Normalization (wikidocs) Cleaning (정제) - corpus로부터 노이즈 데이터를 제거 - 노이즈 데이터는 특수 문자 외에 분석 목적에 맞지 않는 불필요한 단어를 말하기도 함 1) Removing stopwords - stopword: 큰 의미가 없는 단어 (I, my, me, over, 조사, 접미사 등) - NLTK에서 정의하고 있음 - 한국어 불용어의 경우는 미리 불용어 사전을 정의해두고 사용 (https://www.ranks.nl/stopwords/korean) from nltk.corpus import stopwords from nltk.tokenize import word_tokenize stop_words = set(stopwords.words('english')) text = 'Family is not an .. 2020. 3. 16.
NLP Tokenization (wikidocs) Tokenization - corpus를 token 단위로 나누는 작업 - token은 보통 의미있는 단위로 정의 1) Word tokenization - token의 기준을 word로 하는 경우 - word는 단어, 단어구, 의미를 갖는 문자열로도 간주되기도 함 - 단순히 punctuation을 제거하고 whitespace를 기준으로 토큰화하는 것은 아님 - 가령 don't 처럼 '로 접어가 발생한 경우 다양하게 처리할 수 있으며 (do + n't / don + t 등) - 단어 자체에 punctuation을 가진 경우도 있음 (m.p.h / Ph.D. / AT&T) - 숫자 사이에 punctuation이 들어갔으나 한 번에 처리하고 싶은 경우도 있음 ($45.55 / 01/02/06 / 123,456.. 2020. 3. 16.
NLP tutorial (wikidocs) Pandas 1) Series - 1차원 배열의 값에 각 값에 대응되는 인덱스를 부여할 수 있음 - value와 index로 구성 2) DataFrame - 2차원 배열의 값과 행 방향 인덱스, 열 방향 인덱스로 구성 - value, index, column으로 구성 - list, dict, ndarrays, Series, 또 다른 DataFrame으로 생성할 수 있음 - csv, text, excel, sql, html, json 등 외부 데이터 파일을 읽어 생성할 수 있음 Numpy 1) ndarray 생성 - np.array()로 list, tuple로부터 ndarray를 생성 - np.zeros(shape), np.ones(shape), np.full(shape, num), np.eye(shape.. 2020. 3. 16.
Research paper classification systems based on TF-IDF and LDA schemes Crawling of abstract data & Preprocessing - Data crawler가 abstract와 keyword를 수집하고 전처리함 - 전처리로는 stop words를 제거하고 only nouns를 추출함 - 전처리로 데이터 양이 줄어드므로 classification system의 효율성을 높임 - Abstract가 빅데이터이므로, HDFS로 관리함 Managing paper data - 모든 abstract의 keyword 중에서 비슷한 의미를 갖는 keywords를 하나의 representative keyword로 Categorize함 - 그 결과 1394개의 representative keywords를 추출했고, 이것으로 keyword dictionary를 만듦 - 하지만 그.. 2020. 3. 3.