๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋/Paper Classification10 4/23 ํด๋ดค๋ ๊ฒ ์ ๋ฆฌ 1. RMDL ์ ์ฉ ์๋ Colab์ pip ์ค์นํด ํ๋ค๊ฐ checkpoint ๊ฒฝ๋ก ๋ฐ๊ฟ๋ณด๋ ค๊ณ ๋ด ๊นํ์ forkํ๊ณ ๊ฒฝ๋ก ๊ณ ์ณ์ ์ปค๋ฐํ ๋ค์ git cloneํจ (pip ์ค์นํ๊ณ ๋ ์ฝ๋๋ฅผ ์์ ํ ์ ์๋ ์ง๋ ๋ชจ๋ฅด๊ฒ ์..) https://stackoverflow.com/questions/49322072/checkpoints-in-google-colab : ์ด๊ฑฐ ๋ณด๋ฉด checkpoint ๊ฒฝ๋ก๋ฅผ /gdrive ๋ด๋ก ๋ฐ๊ฟ๋ ์ ๋ ์๋ ์์ ๊ฒ ๊ฐ์ (๋ฌผ๋ก mount ํ์..) https://research.google.com/colaboratory/local-runtimes.html : Colab ๋ก์ปฌ ๋ฐํ์ ๊ด๋ จ document. ๋ก์ปฌ์์ ์ฝ๋๋ฅผ ์คํํ๊ณ ๋ก์ปฌ ํ์ผ ์์คํ ์ ์์ธ์คํ ์ ์๋ค๊ณ ํจ. ๋จ์ .. 2020. 4. 24. NLP Encoding (wikidocs) Integer encoding - ๋จ์ด ์งํฉ(vocab)์ ๋จ์ด์ ๊ณ ์ ํ ์ซ์๋ฅผ ๋ถ์ฌ - ๋ฐฉ๋ฒ: python dictionary, Counter, NLTK FreqDist, Keras preprocessing.text 1) sentence/word tokenization, cleaning, normalization 2) key=๋จ์ด, value=๋น๋์๋ก ํ์ฌ ๋จ์ด ์งํฉ์ ๋ง๋ค๊ณ ๋น๋์ ์์ผ๋ก ์ ๋ ฌ 3) ๋น๋์๊ฐ ๋์ ๋จ์ด๋ถํฐ ๋ฎ์ ์ ์ ์ธ๋ฑ์ค๋ฅผ ๋ถ์ฌ 4) ๋น๋์๊ฐ ์ ์ ๋จ์ด๋ฅผ ๋จ์ด ์งํฉ์์ ์ ์ธํ ์ ์์ 5) ์์ฐ์ด ์ํ์ ๋จ์ด๋ฅผ ์ ์ ์ธ๋ฑ์ค๋ก ๋ณํ - ์ ์ ์ธ๋ฑ์ค๋ก ๋ณํํ๋ ๊ณผ์ ์์ OOV๊ฐ ์์ ์ ์์ - OOV(Out-Of-Vocabulary): ๋จ์ด ์งํฉ์ ์กด์ฌํ์ง ์๋ ๋จ์ด (๋น๋์๊ฐ ์ ์ด .. 2020. 3. 19. NLP Cleaning and Normalization (wikidocs) Cleaning (์ ์ ) - corpus๋ก๋ถํฐ ๋ ธ์ด์ฆ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐ - ๋ ธ์ด์ฆ ๋ฐ์ดํฐ๋ ํน์ ๋ฌธ์ ์ธ์ ๋ถ์ ๋ชฉ์ ์ ๋ง์ง ์๋ ๋ถํ์ํ ๋จ์ด๋ฅผ ๋งํ๊ธฐ๋ ํจ 1) Removing stopwords - stopword: ํฐ ์๋ฏธ๊ฐ ์๋ ๋จ์ด (I, my, me, over, ์กฐ์ฌ, ์ ๋ฏธ์ฌ ๋ฑ) - NLTK์์ ์ ์ํ๊ณ ์์ - ํ๊ตญ์ด ๋ถ์ฉ์ด์ ๊ฒฝ์ฐ๋ ๋ฏธ๋ฆฌ ๋ถ์ฉ์ด ์ฌ์ ์ ์ ์ํด๋๊ณ ์ฌ์ฉ (https://www.ranks.nl/stopwords/korean) from nltk.corpus import stopwords from nltk.tokenize import word_tokenize stop_words = set(stopwords.words('english')) text = 'Family is not an .. 2020. 3. 16. NLP Tokenization (wikidocs) Tokenization - corpus๋ฅผ token ๋จ์๋ก ๋๋๋ ์์ - token์ ๋ณดํต ์๋ฏธ์๋ ๋จ์๋ก ์ ์ 1) Word tokenization - token์ ๊ธฐ์ค์ word๋ก ํ๋ ๊ฒฝ์ฐ - word๋ ๋จ์ด, ๋จ์ด๊ตฌ, ์๋ฏธ๋ฅผ ๊ฐ๋ ๋ฌธ์์ด๋ก๋ ๊ฐ์ฃผ๋๊ธฐ๋ ํจ - ๋จ์ํ punctuation์ ์ ๊ฑฐํ๊ณ whitespace๋ฅผ ๊ธฐ์ค์ผ๋ก ํ ํฐํํ๋ ๊ฒ์ ์๋ - ๊ฐ๋ น don't ์ฒ๋ผ '๋ก ์ ์ด๊ฐ ๋ฐ์ํ ๊ฒฝ์ฐ ๋ค์ํ๊ฒ ์ฒ๋ฆฌํ ์ ์์ผ๋ฉฐ (do + n't / don + t ๋ฑ) - ๋จ์ด ์์ฒด์ punctuation์ ๊ฐ์ง ๊ฒฝ์ฐ๋ ์์ (m.p.h / Ph.D. / AT&T) - ์ซ์ ์ฌ์ด์ punctuation์ด ๋ค์ด๊ฐ์ผ๋ ํ ๋ฒ์ ์ฒ๋ฆฌํ๊ณ ์ถ์ ๊ฒฝ์ฐ๋ ์์ ($45.55 / 01/02/06 / 123,456.. 2020. 3. 16. ์ด์ 1 2 3 ๋ค์