Integer encoding
- ๋จ์ด ์งํฉ(vocab)์ ๋จ์ด์ ๊ณ ์ ํ ์ซ์๋ฅผ ๋ถ์ฌ
- ๋ฐฉ๋ฒ: python dictionary, Counter, NLTK FreqDist, Keras preprocessing.text
1) sentence/word tokenization, cleaning, normalization
2) key=๋จ์ด, value=๋น๋์๋ก ํ์ฌ ๋จ์ด ์งํฉ์ ๋ง๋ค๊ณ ๋น๋์ ์์ผ๋ก ์ ๋ ฌ
3) ๋น๋์๊ฐ ๋์ ๋จ์ด๋ถํฐ ๋ฎ์ ์ ์ ์ธ๋ฑ์ค๋ฅผ ๋ถ์ฌ
4) ๋น๋์๊ฐ ์ ์ ๋จ์ด๋ฅผ ๋จ์ด ์งํฉ์์ ์ ์ธํ ์ ์์
5) ์์ฐ์ด ์ํ์ ๋จ์ด๋ฅผ ์ ์ ์ธ๋ฑ์ค๋ก ๋ณํ
- ์ ์ ์ธ๋ฑ์ค๋ก ๋ณํํ๋ ๊ณผ์ ์์ OOV๊ฐ ์์ ์ ์์
- OOV(Out-Of-Vocabulary): ๋จ์ด ์งํฉ์ ์กด์ฌํ์ง ์๋ ๋จ์ด (๋น๋์๊ฐ ์ ์ด ์ ์ธ๋ ๋จ์ด)
One-hot encoding
- Integer encoding ํ์ ์งํ
- ๋จ์ด ์งํฉ์ ํฌ๊ธฐ๋ฅผ ๋ฒกํฐ์ ์ฐจ์์ผ๋ก ํ๊ณ , ํํํ๊ณ ์ถ์ ๋จ์ด์ ์ธ๋ฑ์ค์ 1, ๋๋จธ์ง ์ธ๋ฑ์ค์ 0์ ๋ถ์ฌ
- ๊ฒฐ๊ณผ ๋ฒกํฐ๋ฅผ one-hot vector๋ผ๊ณ ํจ
One-hot encoding์ ํ๊ณ
- ๋จ์ด ์งํฉ์ ํฌ๊ธฐ๊ฐ ๋์ด๋ ์๋ก ๋ฒกํฐ์ ์ฐจ์์ด ์ปค์ง
- ๋งค์ฐ sparseํ์ฌ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ด ๋จ์ด์ง
- ๋จ์ด ๊ฐ ์ ์ฌ๋๋ฅผ ํํํ์ง ๋ชปํจ
References
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Paper Classification' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
4/23 ํด๋ดค๋ ๊ฒ ์ ๋ฆฌ (0) | 2020.04.24 |
---|---|
NLP Cleaning and Normalization (wikidocs) (0) | 2020.03.16 |
NLP Tokenization (wikidocs) (0) | 2020.03.16 |
NLP tutorial (wikidocs) (0) | 2020.03.16 |
Research paper classification systems based on TF-IDF and LDA schemes (0) | 2020.03.03 |
๋๊ธ