NLP Cleaning and Normalization (wikidocs)

Cleaning (정제)

- corpus로부터 노이즈 데이터를 제거

- 노이즈 데이터는 특수 문자 외에 분석 목적에 맞지 않는 불필요한 단어를 말하기도 함

1) Removing stopwords

- stopword: 큰 의미가 없는 단어 (I, my, me, over, 조사, 접미사 등)

- NLTK에서 정의하고 있음

- 한국어 불용어의 경우는 미리 불용어 사전을 정의해두고 사용 (https://www.ranks.nl/stopwords/korean)

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))
text = 'Family is not an important thing. It\'s everything.'
word_tokens = word_tokenize(text)

result = []
for w in word_tokens:
	if w not in stop_words:
    	result.append(w)

print(word_tokens)
print(result) # 'is', 'not', 'an' are removed.

2) Removing rare words

- 등장 빈도가 적은 단어 제거

3) Removing words with very short length

- 영어권 언어에서 길이가 짧은 단어들은 대부분 stopwords(불용어)에 해당됨

- 반면 한국어는 한 글자에 함축적인 의미를 갖고 있는 경우가 많아 유효하지 않음

- 영어 단어의 평균 길이는 6~7, 한국어 단어의 평균 길이는 2~3

- 그래서 영어 텍스트에서 길이가 1인 단어를 제거하면 stopwords인 'a'와 'I'가 제거됨

- 길이가 2인 단어를 제거하면 'it', 'at', to', 'in', 'by' 등의 stopwords가 제거됨

- 길이가 3인 단어부터 명사가 제거되기 시작함

Normalization (정규화)

- 표현 방법이 다른 단어들을 통합시켜 하나의 단어로 만듦

1) Lemmatization (표제어 추출)

- lemma: 표제어

- lemmatization은 단어가 다른 형태를 가지더라도 그 뿌리 단어를 찾아가 단어 개수를 줄일 수 있는지 판단함

- 가령 'am', 'are', 'is'의 표제어는 'be'

- lemmatization을 하기 위해서는 형태학적 파싱을 해야 함

- 형태학적 파싱은 어간(stem)과 접사(affix)를 구분하는 것임

- 어간: 단어의 의미를 담고 있는 핵심 부분, 접사: 단어에 추가적인 의미를 주는 부분

- 가령 cats는 어간 'cat', 접사 's'로 분리

- lemmatization은 stemming과 다르게 단어의 형태가 적절히 보존됨

- 그러나 lemmatizer가 본래 단어의 품사 정보를 모르면 적절하지 않은 단어를 출력함

- lemmatization은 문맥을 고려하며 단어의 품사 정보를 보존함 (pos 태그를 보존)

- stemming은 품사 정보를 보존하지 않으며 (pos 태그를 보존하지 않음) 결과가 사전에 없는 단어일 경우가 많음

from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['dies', 'watched', 'has']
print([n.lemmatize(w) for w in words]) # ['dy', 'watched', 'ha']
print([n.lemmatize(w, 'v') for w in words]) # ['die', 'watch', 'have']

2) Stemming (어간 추출)

- 어간을 추출하는 작업

- 정해진 규칙에 따라 어림잡아 어간을 추출함

- 섬세한 작업이 아니므로 결과가 사전에 없는 단어일 경우가 많음

- 일반적으로 stemming이 lemmatization보다 빠름

- stemmer마다 다른 알고리즘을 쓰므로 결과가 전혀 다를 수 있음

- corpus에 stemmer를 적용해보고 적절한 stemmer를 골라야 함

- stemming 결과가 지나치게 일반화가 되었거나 일반화가 덜 된 경우가 생김

- 가령 'organization'과 'organ'은 전혀 다른 단어지만 stemming 결과 'organ'으로 동일할 수 있음

from nltk.stem import PorterStemmer, LancasterStemmer
p = PorterStemmer()
l = LancasterStemmer()
words = ['policy', 'organization']
print([p.stem(w) for w in words]) # ['polici', 'organ']
print([l.stem(w) for w in words]) # ['policy', 'org']

3) 대소문자 통합

- 대소문자가 구분되어야 하는 상황도 있음 (US vs us / 고유명사의 앞글자)

- 따라서 언제 소문자 변환을 사용할지 결정하는 ML 시퀀스 모델을 이용할 수 있음

- 그러나 corpus 자체에서 대소문자가 자유롭게 쓰였다면 의미가 없어 모든 corpus를 소문자로 바꾸는 게 나을수도

References

https://wikidocs.net/21693

https://wikidocs.net/21707

https://wikidocs.net/22530

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

4/23 해봤던 것 정리 (0)	2020.04.24
NLP Encoding (wikidocs) (0)	2020.03.19
NLP Tokenization (wikidocs) (0)	2020.03.16
NLP tutorial (wikidocs) (0)	2020.03.16
Research paper classification systems based on TF-IDF and LDA schemes (0)	2020.03.03

IT 찢는 뱁새 🐣

NLP Cleaning and Normalization (wikidocs)

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

댓글

티스토리툴바

NLP Cleaning and Normalization (wikidocs)

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

관련글

댓글

티스토리툴바