Kaggle
- ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ๊ฒฝ์ง๋ํ ์น์ฌ์ดํธ
- Datasets ํ์ฉ ๊ฐ๋ฅ
- ์จ๋ผ์ธ IDE ("Kernel") ์ ๋ฌด๋ฃ๋ก ์ ๊ณตํ๊ณ , ๋ฐ์ดํฐ ์ฌ์ด์ธ์ค ํจํค์ง๊ฐ ์ด๋ฏธ ์ค์น๋์ด ์์
- ์์ธก ๋ชจ๋ธ๋ง์ ํ์ฌ ์ ์ถํ๋ฉด ๋ฆฌ๋๋ณด๋์์ ์์ ํ์ธ ๊ฐ๋ฅ
ํ์ดํ๋ ์์ ์์ [1/3]
- ๋ฌธ์ ๋ถ์ + ๋ฐ์ดํฐ ๋ถ์
- ๊ฐ๋จํ ๋ฌธ์ ๋ถ์: ํ์ดํ๋ ํ์น์ ์ค ์ด๋ค ์ฌ๋์ด ์ด์๊ณ ์ด๋ค ์ฌ๋์ด ์ฃฝ์๋์ง ์์ธกํ๋ ๊ฒ
- ๊ฐ Feature๊ฐ Target(= Survived/Dead)์ ์ด๋ค ๊ด๊ณ๊ฐ ์๋์ง ๊ทธ๋ํ๋ก ํ์ธ
- Feature engineering ๋จ๊ณ์ ๋ฐฉํฅ์ฑ์ ์ก์
ํ์ดํ๋ ์์ ์์ [2/3]
- Feature engineering
- ํ ์คํธ ๊ฐ์ ์ซ์๋ก ๋ฐ๊พธ๊ณ , ๋น ์ง ๊ฐ๋ค์ ์ฑ์ ๋ฃ์ด์ฃผ๋ฉด์ ๋ฒกํฐํ ํ๋ ๊ฒ
- ๊ฐ๋ น Title์ด 'Mr'์ธ ์ฌ๋์ Age๊ฐ ๋น ์ ธ์๋ค๋ฉด, 'Mr'์ ์ค๊ฐ๊ฐ์ผ๋ก ๋ฃ์ด์ค ์ ์์ (์ ์ฒด ์ธ์์ ์ค๊ฐ๊ฐ๋ณด๋ค ๋์)
- Binning: ์๋ฏธ์๋ Sequential data๋ฅผ ๋ช ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก Groupingํ๋ ๊ฒ
- ๊ฐ๋ น Age๋ Sequential data์ง๋ง ๋์ด ํ๋ํ๋๊ฐ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค๊ธฐ ๋ณด๋ค ๋์ด๋๊ฐ ์๋ฏธ๋ฅผ ๊ฐ์ง๋ฏ๋ก ๋์ด๋๋ณ๋ก ์ด๋ฆฐ์ด/์ฒญ๋ /์ค๋ /์ฅ๋ ์ผ๋ก ๋๋ ์ ์์
- Feature scaling: Classifier๋ Euclidean distance๋ฅผ ์ฐ๊ธฐ ๋๋ฌธ์ ์ซ์์ ๋ฒ์๊ฐ ํฌ๋ฉด ์ค์๋๋ฅผ ๋๊ฒ ๊ฐ์ ธ๊ฐ ์๋ ์์. ๊ทธ๋์ ๊ฐ์ ์กฐ์ ํด์ฃผ๋ ๊ฒ์ด Feature scaling.
- ๊ฐ๋ น ์ด๋ค Feature๊ฐ 6๊ฐ ์ข ๋ฅ๋ฅผ ๊ฐ์ง๋ค๋ฉด, 0~5๋ฅผ ์ฌ์ฉํ์ง ์๊ณ 0~2๋ก ์กฐ์ ํ ์ ์์
- ์๋ฏธ์๋ Feature๋ Drop ํด์ค
ํ์ดํ๋ ์์ ์์ [3/3]
Classifiers
1) kNN
- k๊ฐ์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง๋ฏ๋ก k๊ฐ์ ๋ฐ๊ฟ๊ฐ๋ฉฐ Accuracy ๋ณํ ๊ด์ฐฐ ํ์
2) Decision tree
- ๊ฐ๊ณ ์๋ Feature๋ก Tree๋ฅผ ๋น๋์ํค๊ณ , ๊ฐ๊ฐ์ ๋ฐ์ดํฐ์ ๋ํด ํธ๋ฆฌ๋ฅผ ๋ฐ๋ผ๊ฐ๋ ๊ฒ
3) Random forest
- ์ฌ๋ฌ ๊ฐ์ ์์ Decision tree๋ก ๊ตฌ์ฑ
- ์์ปจ๋ Feature๊ฐ 9๊ฐ๊ณ Tree๊ฐ 3๊ฐ๋ฉด Feature๋ฅผ 3๊ฐ/3๊ฐ/3๊ฐ๋ก ๋๋
- ๊ทธ ์ฌ๋ฌ Tree์ ๊ฒฐ๊ณผ ์ค ๋ง์ ์ชฝ์ผ๋ก ๊ฒฐ์
4) Naive Bayes
5) SVM
- ๊ฐ์ฅ ๋ง์ง๋ง์ ์ฐ ๋ฐ์ดํฐ์ ์ฃฝ์ ๋ฐ์ดํฐ ์ฌ์ด์ ๊ฐ์ฅ ๊ธด ๊ฑฐ๋ฆฌ๋ฅผ ๋ง๋๋ ์ง์ ์ ๋ง๋ฆ
- ๊ทธ ์ง์ ์ Decision boundary ๋ผ๊ณ ํจ
- Decision boundary์ ์์ชฝ์ ์๋์ง, ์๋์ชฝ์ ์๋์ง์ ๋ฐ๋ผ ๊ฒฐ๊ณผ ๊ฒฐ์
Validation
1) Train data์์ ์ผ๋ถ๋ฅผ ๋ผ์ด Valid data๋ก ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ
- ์ด๋ค ๋ฐ์ดํฐ๊ฐ Valid data๋ก ๋ฝํ๋๋์ ๋ฐ๋ผ Accuracy๊ฐ ๋ฌ๋ผ์ง
- Biased validation์ด ๋ ์๋ ์์
2) k-fold cross validation
- ์์ปจ๋ k=10์ด๋ฉด Train data(1000)๋ฅผ 100 * 10๋ก ๋๋
- ์ด k๋ฒ Train๊ณผ Valid๋ฅผ ์ํํ๋ Round๋ฅผ ์งํํ๋ฉฐ, ๊ฐ Round๋ง๋ค ์ฌ์ฉํ๋ Valid๋ฅผ ๋ค๋ฅด๊ฒ ํจ
- Unbiased validation์ด ๋จ
- ์ํํ Round๋ค์ Accuracy์ ํ๊ท ์ ๋
References
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Paper Classification' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
NLP tutorial (wikidocs) (0) | 2020.03.16 |
---|---|
Research paper classification systems based on TF-IDF and LDA schemes (0) | 2020.03.03 |
Text classification (wikidocs) (0) | 2020.02.27 |
Google colab ์ฌ์ฉ๋ฒ (0) | 2020.02.24 |
์์ด๋์ด๋ค (0) | 2019.11.22 |
๋๊ธ