NLP Tokenization (wikidocs)

Tokenization

- corpus를 token 단위로 나누는 작업

- token은 보통 의미있는 단위로 정의

1) Word tokenization

- token의 기준을 word로 하는 경우

- word는 단어, 단어구, 의미를 갖는 문자열로도 간주되기도 함

- 단순히 punctuation을 제거하고 whitespace를 기준으로 토큰화하는 것은 아님

- 가령 don't 처럼 '로 접어가 발생한 경우 다양하게 처리할 수 있으며 (do + n't / don + t 등)

- 단어 자체에 punctuation을 가진 경우도 있음 (m.p.h / Ph.D. / AT&T)

- 숫자 사이에 punctuation이 들어갔으나 한 번에 처리하고 싶은 경우도 있음 ($45.55 / 01/02/06 / 123,456 )

- 단어 내에 띄어쓰기가 있는 경우도 있음 (New York / Rock 'n' roll)

- "Penn Treebank Tokenization"

- 표준 토큰화 방법 중 하나

- 규칙 1) 하이픈으로 구성된 단어는 하나로 유지

- 규칙 2) '로 접어가 함께하는 단어는 분리

from nltk.tokenize import word_tokenize
word_tokenize(corpus)

from nltk.tokenize import WordPunctTokenizer
WordPunctTokenizer(corpus)

from tensorflow.keras.preprocessing.text import text_to_word_sequence
text_to_word_sequence(corpus)

from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(corpus)

2) Sentence tokenization

= Sentence segmentation

- !와 ?는 비교적 정확한 문장 구분자(boundary)가 되지만 .는 꼭 그렇지는 않음 (192.168.56.31 / Ph.D.)

- .이 단어의 일부분인지 문장의 구분자인지 분류하는 binary classifier를 사용하기도 함

- 오픈소스: NLTK, OpenNLP, CoreNLP, splitta, LingPipe 등

from nltk.tokenize import sent_tokenize
sent_tokenize(corpus)

%pip install kss // Korean Sentence Splitter
import kss
kss.split_sentences(corpus)

Korean tokenization

- 영어는 거의 띄어쓰기 토큰화와 단어 토큰화가 같음

- 하지만 한국어는 교착어이므로 띄어쓰기 토큰화로는 부족함 (교착어: 조사, 어미 등을 붙여 말을 만드는 언어)

- 따라서 형태소 토큰화를 해야 함 (형태소: 뜻을 가진 가장 작은 말의 단위. 자립 형태소와 의존 형태소로 나뉨.)

- 게다가 한국어는 띄어쓰기가 어렵고 띄어쓰기 없이도 이해하기가 쉬워 띄어쓰기가 잘 지켜지지 않음

from konlpy.tag import Okt
okt = Okt()
okt.morphs(text)
okt.pos(text)
okt.nouns(text)

from konlpy.tag import Kkma  
kkma = Kkma()
kkma.morphs(text)
kkma.pos(text)
kkma.nouns(text)

Part-of-speech tagging

= 품사 태깅

- 표기는 같아도 품사에 따라 단어의 의미가 달라지는 경우가 있음 (영어: fly, 한국어: 못)

- 따라서 품사 태깅이 필요할 수도 있음

- 오픈소스: NLTK, KoNLPy

from nltk.tag import word_tokenize, pos_tag
pos_tag(word_tokenize(text))

References

https://wikidocs.net/21698

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

NLP Encoding (wikidocs) (0)	2020.03.19
NLP Cleaning and Normalization (wikidocs) (0)	2020.03.16
NLP tutorial (wikidocs) (0)	2020.03.16
Research paper classification systems based on TF-IDF and LDA schemes (0)	2020.03.03
Text classification (wikidocs) (0)	2020.02.27

IT 찢는 뱁새 🐣

NLP Tokenization (wikidocs)

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

댓글

티스토리툴바

NLP Tokenization (wikidocs)

'머신러닝, 딥러닝 > Paper Classification' 카테고리의 다른 글

관련글

댓글

티스토리툴바