Pandas
1) Series
- 1์ฐจ์ ๋ฐฐ์ด์ ๊ฐ์ ๊ฐ ๊ฐ์ ๋์๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ถ์ฌํ ์ ์์
- value์ index๋ก ๊ตฌ์ฑ
2) DataFrame
- 2์ฐจ์ ๋ฐฐ์ด์ ๊ฐ๊ณผ ํ ๋ฐฉํฅ ์ธ๋ฑ์ค, ์ด ๋ฐฉํฅ ์ธ๋ฑ์ค๋ก ๊ตฌ์ฑ
- value, index, column์ผ๋ก ๊ตฌ์ฑ
- list, dict, ndarrays, Series, ๋ ๋ค๋ฅธ DataFrame์ผ๋ก ์์ฑํ ์ ์์
- csv, text, excel, sql, html, json ๋ฑ ์ธ๋ถ ๋ฐ์ดํฐ ํ์ผ์ ์ฝ์ด ์์ฑํ ์ ์์
Numpy
1) ndarray ์์ฑ
- np.array()๋ก list, tuple๋ก๋ถํฐ ndarray๋ฅผ ์์ฑ
- np.zeros(shape), np.ones(shape), np.full(shape, num), np.eye(shape), np.random.random(shape)
- np.arange(start, stop, step, dtype)
- arr.ndim: ์ฐจ์, arr.shape: ํฌ๊ธฐ
3) ndarray reshape
- arr.reshape(shape)
4) ndarray slicing
- arr = arr[0:2, 0:2]
- ๋ค์ฐจ์ ๋ฐฐ์ด์ ์ฌ๋ผ์ด์ฑํ ๋๋ ๊ฐ ์ฐจ์ ๋ณ๋ก ์ฌ๋ผ์ด์ค ๋ฒ์๋ฅผ ์ง์ ํด์ผ ํจ
5) ndarray integer indexing
- ์๋ณธ ๋ฐฐ์ด๋ก๋ถํฐ ๋ถ๋ถ ๋ฐฐ์ด์ ๊ตฌํจ
- arr = arr[[2, 1], [1, 0]]์ 2ํ 1์ด๊ณผ 1ํ 0์ด์ ์์๋ฅผ ๊ฐ์ง๋ ndarray
6) ndarray arithmetic
- +, -, *, / ๋๋ np.add(), np.subtract(), np.multiply(), np.divide(): ๋ฐฐ์ด ๊ฐ ์์์ ๋ํ์ฌ ์ฐ์ฐ
- np.dot(): ํ๋ ฌ ๊ณฑ
Matplotlib
- plt.title(), plt.plot(), plt.xlabel(), plt.ylabel(), plt.legend(), plt.show()
- plt.plot([1, 2, 3, 4], [2, 4, 8, 6]): [1, 2, 3, 4]๊ฐ xlabel์ ๊ฐ, [2, 4, 8, 6]์ด ylabel์ ๊ฐ
- plt.plot() ์ฌ๋ฌ ๊ฐ ์จ์ ๋ผ์ธ์ ์ฌ๋ฌ ๊ฐ ์ถ๊ฐํ ์ ์์
- plt.legend()๋ก ๊ฐ ๋ผ์ธ์ด ๋ฌด์์ธ์ง๋ฅผ ํ์ํ๋ ๋ฒ๋ก๋ฅผ ์ฝ์ ํ ์ ์์
EDA
- ML์ ๋๋ฆฌ๊ธฐ ์ด์ ์ ๋ฐ์ดํฐ์ ์ฑ๊ฒฉ์ ๋จผ์ ํ์ ํด์ผ ํจ
- ๋ฐ์ดํฐ ๋ด ๊ฐ์ ๋ถํฌ, ๋ณ์ ๊ฐ์ ๊ด๊ณ, NULL ๊ฐ ์กด์ฌ ์ฌ๋ถ ๋ฑ์ ํ์
- ์ด๋ฌํ ๊ณผ์ ์ EDA (Exploratory Data Analysis; ํ์์ ๋ฐ์ดํฐ ๋ถ์) ์ด๋ผ๊ณ ํจ
Pandas profiling
import pandas as pd
import pandas_profiling
data = pd.read_csv('/my_csv.csv', encoding='latin1')
pr = data.profile_report()
pr.to_file
- Overview: Dataset info, Variable types, Warnings
- Variables: ๊ฐ feature์ ๋ํ ํต๊ณ์น ์ ๊ณต, Toglle details๋ก ์์ธ์ฌํญ ํ์ธ ๊ฐ๋ฅ
ML workflow
1) ์์ง (Acuisition)
- corpus(์์ฐ์ด ๋ฐ์ดํฐ)๋ฅผ ์์ง
- txt, csv, xml ๋ฑ
2) ์ ๊ฒ ๋ฐ ํ์ (Inspection and Exploration)
- EDA ๋จ๊ณ๋ผ๊ณ ๋ ํจ
- ๋ฐ์ดํฐ ๊ตฌ์กฐ/ํน์ง/๊ด๊ณ๋ฅผ ํ์
- ์๊ฐํ๋ ๊ฐ๋จํ ํต๊ณ ํ ์คํธ๋ฅผ ์งํํ๊ธฐ๋ ํจ
3) ์ ์ฒ๋ฆฌ ๋ฐ ์ ์ (Preprocessing and Cleaning)
- NLP์ ๊ฒฝ์ฐ ํ ํฐํ, ์ ์ , ์ ๊ทํ, ๋ถ์ฉ์ด ์ ๊ฑฐ ๋ฑ์ ํฌํจ
- ๋ค์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ํ ์ง์ ํ์
4) ๋ชจ๋ธ๋ง ๋ฐ ํ๋ จ (Modeling and Training)
- training set, validation set, testing set์ผ๋ก ๋๋
- training set์ผ๋ก ํ์ตํ๊ณ validation set์ผ๋ก ๊ฒ์ฆํ๋ฉฐ ๋ชจ๋ธ ์ฑ๋ฅ์ ๊ฐ์
5) ํ๊ฐ (Evaluation)
- testing set์ผ๋ก ํ๊ฐ
6) ๋ฐฐํฌ (Deployment)
References
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > Paper Classification' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
NLP Cleaning and Normalization (wikidocs) (0) | 2020.03.16 |
---|---|
NLP Tokenization (wikidocs) (0) | 2020.03.16 |
Research paper classification systems based on TF-IDF and LDA schemes (0) | 2020.03.03 |
Text classification (wikidocs) (0) | 2020.02.27 |
Kaggle ํ์ดํ๋ ์์ (0) | 2020.02.25 |
๋๊ธ