์ฝ์ ์๋ฃ: https://dnddnjs.github.io/cifar10/2018/10/09/resnet/
Fine tuning
https://eehoeskrap.tistory.com/186
Parameter & Hyperparameter
Neural network์ Parameter๋ ์ผ๋ฐ์ ์ผ๋ก Connection์ Weights๋ฅผ ๋งํ๋ค. ์ด Parameters๋ Training stage์์ ํ์ต๋๋ค. ๊ทธ๋์ ์๊ณ ๋ฆฌ์ฆ ์์ฒด (๊ทธ๋ฆฌ๊ณ ์ธํ ๋ฐ์ดํฐ๋) ์ด Parameters๋ฅผ ํ๋ํ๋ค.
Hyperparameter๋ ์ผ๋ฐ์ ์ผ๋ก Learning rate, Batch size, # of Epochs๋ฅผ ๋งํ๋ค. ์ด๋ป๊ฒ Parameters๊ฐ ํ์ต๋๋์ง์ ์ํฅ์ ๋ผ์น๋ค๊ณ ํด์ "Hyper"๋ผ๊ณ ๋ถ๋ฆฐ๋ค. ์ด Hyperparameter๋ฅผ ๋ค์ ๋ฐฉ๋ฒ์ผ๋ก ์ต์ ํํ ์ ์๋ค: Grid search, Random search, By hand, Using visualization ๋ฑ. Validation stage์์ Parameters๊ฐ ์ถฉ๋ถํ ํ์ต ๋์๋์ง, Hyperparameter๊ฐ ์ข์์ง (์ ์ค์ ๋์๋์ง) ํ์ธํ ์ ์๋ค.
https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning)
In machine learning, a hyperparameter is a parameter whose value is set before the learning process begins. By contrast, the values of other parameters are derived via training.
https://blogyong.tistory.com/8 : Hyperparameter์ ์ข ๋ฅ์ ์ต์ ํ์ํค๋ ๋ฐฉ๋ฒ
SGD (Stochastic Gradient Descent)
http://shuuki4.github.io/deep%20learning/2016/05/20/Gradient-Descent-Algorithm-Overview.html
์ฃผ์ ๋ด์ฉ: SGD ๊ฐ๋ ๊ณผ SGD์ Variations
์ฒ์ ๊ทธ๋ฆผ ์๋ฃ ๋์ค๊ธฐ ์ ๊น์ง Gradient Descent ๊ฐ๋ , Batch Gradient Descent์ Stochastic Gradient Descent๋ฅผ ๋น๊ตํ๋ ๋ด์ฉ์ด ๋์จ๋ค. ๊ฐ๋จํ ์์ฝํ๋ฉด BGD๋ Loss function์ ๊ณ์ฐํ ๋ Training data ์ ์ฒด๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๊ณ SGD๋ Training data ์์ ์กฐ๊ฐ(์ฆ Mini-batch)์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค. SGD๋ BGD์ ๋นํด ๋ถ์ ํํ ์๋ ์์ง๋ง 1) ๊ณ์ฐ ์๋๊ฐ ๋นจ๋ผ ๊ฐ์ ์๊ฐ์ ๋ ๋ง์ Step์ ๊ฐ ์ ์๊ณ 2) BGD๊ฐ Local minimum์ ๋น ์ง ์ ์๋ ๊ฒ์ ๋นํด ๊ทธ๋ด ์ํ์ด ์ ๊ณ 3) ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํ๋ฉด ๋ณดํต BGD์ ์ ์ฌํ ๊ฒฐ๊ณผ๋ก ์๋ ดํ๋ค.
* f(x)์ ๊ธฐ์ธ๊ธฐ๋ฅผ ∇f ๋ผ๊ณ ํ๋ค. ∇๋ ๋ฒกํฐ ๋ฏธ๋ถ ์ฐ์ฐ์๋ก, ๋๋ธ๋ผ(nabla) ๋๋ ๋ธ(del) ์ฐ์ฐ์๋ผ๊ณ ํ๋ค. (์ํค ๊ธฐ์ธ๊ธฐ(๋ฒกํฐ) ์ฐธ๊ณ )
์ฒ์ ๊ทธ๋ฆผ ์๋ฃ๋ ๋จ์ SGD์ SGD์ ์ฌ๋ฌ Variations๋ฅผ ๋น๊ตํ ๊ฒ์ด๋ค. ์ฌ๊ธฐ์ ๋จ์ SGD๋ ๊ทธ Variations์ ๋นํด ์ฑ๋ฅ์ด ์ข์ง ์์์ ํ์ธํ ์ ์๋ค. (๋๋ฆฌ๊ณ , ๋ฐฉํฅ๋ ์ ์ ์น ์์) ๊ทธ๋์ ์ดํ๋ถํฐ ์ฌ๋ฌ Variations๋ฅผ ์๊ฐํ๋ค. ์์์ด ๋์ค๊ธด ํ๋๋ฐ ์ฝ์ ๋งํ ์ ๋์ธ ๊ฒ ๊ฐ๋ค. ๋ค ์ฝ์ง๋ ์์์ง๋ง.. Variations ์ข ๋ฅ๋ฅผ ๋์ดํ๋ฉด ์๋์ ๊ฐ๋ค.
Momentum, NAG, Adagrad, RMSProp, AdaDelta, Adam
๊ฒฐ๊ตญ Gradient Descent๋ฅผ ํ ๋ ์ด๋ป๊ฒ Step์ ์ด๋ํ ๊ฒ์ด๋ (๊ทธ๋์ ์ด๋ป๊ฒ Optimizeํ ๊ฒ์ด๋) ์ ๋ํ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ tf์์ ๋ดค๋ Optimizer ์ข ๋ฅ๋ค์ด๋ค.
Internal Covariate Shift & Batch Normalization
์ฃผ์ ๋ด์ฉ: Internal covariate shift ๊ฐ๋ ๊ณผ Batch normalization ์๊ณ ๋ฆฌ์ฆ ๊ฐ๊ด ๋ฐ ์ฅ์
NN์์ Hyperparameters๋ ์ฌ๋ฌ ๋ณต์กํ ๊ณ์ฐ์ ๊ฐ๋ฅํ๊ฒ ํ์ง๋ง ๋ฌธ์ ๋ฅผ ์ผ์ผํฌ ์ ์๋๋ฐ ๊ทธ ๋ฌธ์ ๋ ์๋์ ๊ฐ๋ค๊ณ ์ค๋ช ํ๋ค.
1) Overfitting
2) Internal covariate shirt
Overfitting์ ๋ด๊ฐ ์๊ณ ์๋ ๋๋ก Training data๋ฅผ ๋๋ฌด ๊ณผํ๊ฒ ํ์ตํ์ฌ Training accuracy๋ ์ข์๋ฐ Test accuracy๋ ๋จ์ด์ง๋ ํ์์ด๋ค. ์ฆ Generalization์ด ์ ์ ๋ ๊ฒ์ด๋ค. ๋ ๋ค๋ฅธ ๋ฌธ์ ์ ์ ๋ช๋ช Weights๊ฐ ํ๊ท Weights ๊ฐ๋ณด๋ค ํฐ ๊ฒฝ์ฐ ๊ณ์ํด์ Weighted sum์ด ๋๋ฉด์ ๊ฐ ๋ ์ด์ด์ ๋ถํฌ๊ฐ ๋ฌ๋ผ์ง๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๊ฒ์ Internal covariate shift๋ผ๊ณ ํ๋ค. (Weighted sum์ xi * wi์ ํฉ ์ฆ ์ผ๋ฐ์ ์ผ๋ก Activation function์ผ๋ก ๋ค์ด๊ฐ๋ ๊ฐ์ ๋งํ๋ ๋ฏ) ์์์์ ์์ ๋ณํ๊ฐ ๋ค๋ก ๊ฐ์๋ก ์ปค์ ธ ๋ฌธ์ ๋ฅผ ๋น๋ ๊ฒ๊ณผ ๋น์ทํ ๊ฒ์ผ๋ก ์ฌ๊ธฐ์๋ ๊ฐ์กฑ ์ค๋ฝ๊ด์ '๊ณ ์ ์์ ์ธ์นจ'์ ๋น์ ํ๋ค. Gradient vanishing/exploding์ด ์ด๋ฐ ๋ฌธ์ ์ ํด๋นํ๋ค๊ณ ํ๋ค. Internal covariate shift์๋ ๋ค๋ฅธ ๋ฌธ์ ๋ผ๊ณ ์๊ฐํ๋๋ฐ ์๋๊ฐ๋ณด๋ค. Internal covariate shift๋ผ๋ ํํ์ 2015๋ ๋ ผ๋ฌธ์์ ์ฒ์ ์ผ๋ค๊ณ ํ๋๋ฐ ์ด๊ฑด ๋ฌธ์ ๋ฅผ ๋ถํฌ์์ ์ฐพ์์ ์ด๋ฆ์ ์ด๋ ๊ฒ ๋ถ์ธ ๊ฒ์ด๊ณ Gradient vanishing/exploding์ ํ๋ฉด์ ์ผ๋ก Gradient๊ฐ Vanishing ํ๊ฑฐ๋ Exploding ํ๋ ๊ฒ์ 1์ฐจ์ ์ ์ผ๋ก ๋ํ๋ธ ๊ฒ ์๋๊น?? (๋ํผ์ ) ์ฌํผ ๊ฐ ๋ ์ด์ด๊ฐ ๋ฐ์๋ค์ด๋ ์ธํ์ ๋ถํฌ๊ฐ ์๋ก ๋ค๋ฅด๋ค๋ ๋ฌธ์ ๋ค.
๊ฒฐ๊ตญ Batch normalization์ ๊ฐ ๋ ์ด์ด๊ฐ ๋ฐ์๋ค์ด๋ ์ธํ์ ๋ถํฌ๋ฅผ ๊ฐ๊ฒ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋๋ต์ ์ผ๋ก ํ๊ท =0 ํ์คํธ์ฐจ=1์ธ ๋ถํฌ๋ก ๋ฐ๊ฟ์ค๋ค๋ ๊ฐ๋ ์ด๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ Scale๊ณผ Shift๋ฅผ ํ๋ Parameters๋ฅผ ๋์ ํด Trainable ํ๋๋ก ํ๋ค. (์๋ ์๊ณ ๋ฆฌ์ฆ์์ ๋ฒ ํ์ ๊ฐ๋ง) ์ฌ๊ธฐ์๋ ๊ฒฐ๊ตญ Batch normalization์ Extra layer๋ก ๋ณผ ์ ์๋ค๊ณ ์ค๋ช ํ๋ค. Activation์ผ๋ก ๊ฐ์ ๋๊ฒจ ์ฃผ๊ธฐ ์ ์ Normalization์ ์ํํ๋ Extra layer..
Gradient vanishing/exploding ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ReLU, Regularizer weight decay (L2 or L1), Dropout ๋ฑ์ ๋ฐฉ๋ฒ์ด ์ ์๋์์์ง๋ง ์ด๊ฑด ๋ฐ์ดํฐ์ ์ง์ ์ ์ผ๋ก ์์ ๋์ง ์๋ ๊ฐ์ ์ ์ธ ๋ฐฉ๋ฒ์ด์๋ค. ์ด์ ๋นํด Batch normalization์ ์์ ๋ฐ์ดํฐ์ ์์ ๋๋ ์ง์ ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ํ๋ค. ๋ ผ๋ฌธ์์๋ Batch normalization์ ์ฅ์ ์ ์๋์ ๊ฐ์ด ์ค๋ช ํ๋ค๊ณ ํ๋ค.
1) ๊ฐ ๋ ์ด์ด์ ์ธํ ๋ถํฌ๋ฅผ ๊ฐ๊ฒ ํด ์์ ์ ์ธ ํ์ต ๊ฐ๋ฅ
2) ๋์ Learning rate๋ฅผ ์ฌ์ฉํ ์ ์์ด์ ํ์ต ์๋ ๋นจ๋ผ์ง
3) ์์ฒด์ ์ธ Regularization ํจ๊ณผ๊ฐ ์์ด์ Weight decay๋ Dropout์ ์ฌ์ฉํ์ง ์์๋ ๋จ
* ์๋ ์ฝ๋ ๊ธ์์ ๋ณด๋ฉด Initialization๋ ํฌ๊ฒ ์๊ด ์๋ ์ฅ์ ์ด ์๋ค๊ณ ๋์จ๋ค.
๊ทผ๋ฐ Regularizer weight decay๊ฐ ๋ญ์ง ๋ชจ๋ฅด๊ฒ ๋ค. ^_^..
LSTM Mechanism (Youtube)
https://www.youtube.com/watch?v=8HyCNIVRbSU&feature=youtu.be
ํ ๋ฒ ๋ดค๋๋ฐ ์ ๋ฆฌํ๋ฉด์ ๋ค์ ๋ณด๋ฉด ์ข์ ๊ฒ ๊ฐ๋ค.
Identity Mapping
Identity mapping ensures that the output of some multilayer neural net is ensured to be equal to its input.
...
An identity map or identity function gives out exactly what it got.
์์ฝ: ํญ๋ฑํจ์๋ ๋๊ฐ์ ๊ฐ๋ (h(x) = x)
Degradation: Motivation to 1) Highway network and 2) ResNet
์ด ๋ถ๋ถ์ ์๊ธ์ ์ ์ค๋ช ๋์ด ์์ด์ ๋ฐ๋ก ์ฐพ์๋ณด์ง๋ ์์๋ค.
- Overfitting: Training error๋ ์ค์ด๋๋๋ฐ Test error๋ ์ค์ด๋ค์ง ์๋ ํ์
- Degradation: Layer๋ฅผ ๊น๊ฒ ์์๋๋ฐ ์๊ฒ ์์ ๋๋ณด๋ค Training error์ Test error๊ฐ ๋ชจ๋ ๋์ ํ์ (Layer๋ฅผ ๊น๊ฒ ์์ผ๋ฉด์ ํ์ต์ด ์ ๋๋ก ์ด๋ฃจ์ด์ง์ง ์์)
์ด Degradation ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฒ์ด 1) Highway network์ 2) ResNet์ด๋ค.
์ผ๋จ ResNet์ ์ง์คํด์ ๋ณด๊ธด ํ ๊ฑด๋ฐ Highway network์ ๋ํด ์ดํดํ ๊ฒ์ ๊ฐ๋จํ๋ง ์ ๋ฆฌํ๋ฉด..
LSTM์์ (์๊ฐ์ ์ผ๋ก) ์์ ์ ๋ณด๋ฅผ ์ ์ง๋๋๋ก ํ๊ธฐ ์ํด Cell state๋ผ๋ ๊ฐ๋ ์ ์ด ๊ฒ๊ณผ ๋น์ทํ๊ฒ ์ Layer์ ์ ๋ณด๋ฅผ (๋น๊ต์ ์์ค์ด๋ ๋ณํ ์์ด?) ๋ท Layer์ ์ ๋ฌํ๊ณ ์ ํ ๊ฒ์ด๋ค.
์๋ ๋ค Layer์ ์ ๋ฌํ๋ ๊ฐ์ด (x๋ ์ธํ, W_H๋ Weight, H๋ Non-linear(Activation) function)
$$y = H(x, W_H)$$์๋ค๋ฉด Highway network์์ ๋ค Layer์ ์ ๋ฌํ๋ ๊ฐ์ $$y = t * H(x, W_H) + (1 - t) * x$$์ด๋ค. (๋จ, 0<= t <= 1)
1) ๊ทธ๋ฅ ์ธํ๊ณผ 2) Non-linear๋ฅผ ํต๊ณผํ ์ธํ์ ์ ์ ํ ๋น์จ๋ก ๊ฐ์ ธ์ ๋ค์ Layer๋ก ๋ณด๋ด๋ ๊ฐ๋ ์ด๋ค.
๋จ t๋ ๊ฐ๋จํ ์ด ๊ฒ์ด๊ณ ์ค์ ๋ก๋ T(x, W_T)์ด๋ค. t๊ฐ ์์ฒด๋ W_T๋ฅผ ํ์ต์์ผ์ ๋ํ๋ผ ์ ์๋๋ก ํ ๊ฒ์ด ์๋๊น ์ถ๋ค. ๋ t๋ [0, 1] ๋ฒ์์ ๊ฐ์ด๋ฏ๋ก Sigmoid๋ฅผ ์จ์ ๋ง๋ ๋ค. ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค. $$t = T(x, W_T)$$ $$T(x) = Sigmoid(W_T x + b_T)$$
๊ฐ์๊ธฐ ๋ ์๊ฐ์ด..
์๊ธ์์ NN์์ (ํ์ต์์ผ์ผ ํ๋) Parameters๋ Weight์ Bias๋ผ๊ณ ํ๋๋ฐ ์ ์์ ์๋ b_T๊ฐ ์ฌ๊ธฐ์ ๋งํ๋ Bias๊ฐ ์๋๊น ์ถ๋ค. Bias๊ฐ ์ฌ๋ฌ ๋งฅ๋ฝ์์ ํด์๋ ์ ์์ด์ ์๊น ์ฐพ๋ค๊ฐ ๊ทธ๋ฅ ๋์ด๊ฐ๋๋ฐ.. ์๋ง ์ด๊ฑฐ ๊ฐ๋ค.
ResNet
์๋ ์ด๋ค Layer๋ก ํ์ต์ํค๊ณ ์ถ์ ํจ์๊ฐ H(x) ์๋ค๋ฉด ResNet์ H(x) = F(x) + x ๋ก ๋๊ณ F(x)๋ฅผ ํ์ต์ํจ๋ค. ๊ฒฐ๊ตญ ๋๊ฐ์ ๊ฒ ๊ฐ์ง๋ง x๋ฅผ ๋ค์ Layer๋ก ๋ณด๋ด๋ ๊ธธ์ ์ด์ด์ค๋ค๋ ๋ฐ์ ์๋ฏธ๊ฐ ์๋ค.
Highway network๋ ResNet์ด๋ ๊ฒฐ๊ตญ Layer๋ฅผ ๊น๊ฒ ์๊ณ ์ถ์ด์ ๋ฑ์ฅํ ๊ฒ์ด๋ค. (Layer๋ฅผ ๊น๊ฒ ์๊ณ ์ถ์์ผ๋ Degradation ๋ฌธ์ ๊ฐ ๋ฐ์ํด Degradation ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ฑ์ฅํ ๊ฑฐ๋๊น) ์ด ๋งฅ๋ฝ์์ Layer๋ฅผ ๊น๊ฒ ์์๋ ๊ธฐ์กด์ ์ ๋ณด๋ฅผ ์ต๋ํ ์์ง ์๊ฒ ํ๊ธฐ ์ํด ๋ณ๋์ ์๊ธธ์ ๋ซ์ด์ฃผ๋ ๋๋์ผ๋ก ์ดํดํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
ResNet์์ ๋ ์ค์ํ ๊ฒ Batch normalization์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ผ๊ณ ํ๋ค. ์ค์ ๋ก x์ ๋ํด์ง๋ F(x)๋ ์ด๊ฒ์ด๋ค. $$bn(conv(relu(bn(conv(x)))))$$
์ด๊ฑธ x์ Element-wise ๋ํ ๋ค์ relu์ ๋ฃ๋๋ค. ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค. $$relu(x + bn(conv(relu(bn(conv(x))))))$$์ด๊ฑธ Residual block์ด๋ผ๊ณ ํ๋ค.
ResNet์ ์ค์ ๊ตฌ์กฐ
๋ ผ๋ฌธ์์๋ 1) VGG์ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ Plain network์ 2) ResNet์ ๋น๊ตํ๋ค. ์๋ ๊ทธ๋ฆผ์์ ํ์ธํ ์ ์๋ค.
์๊ธ์์ ํผ๋๋๋ ๋ถ๋ถ์ด Plain network์ ResNet์ด ๊ณต์ ํ๋ ๋ ๊ฐ์ง ๊ท์น์ด์๋๋ฐ ๋ด์ฉ์ ์๋์ ๊ฐ๋ค.
1) (ํด๋น Convolutional layer์ ๋ํ์ฌ) Feature map size๊ฐ ๊ฐ์ผ๋ฉด Filter ๊ฐ์๋ ๊ฐ๋ค.
2) Feature map size๊ฐ ์ ๋ฐ์ด ๋๋ฉด Filter ๊ฐ์๋ ๋ ๋ฐฐ๊ฐ ๋๋ค. (Feature map size๊ฐ ์ ๋ฐ์ด ๋๋ ๊ฒ์ strides=2)
' ~ํ๋ฉด ~ํ๋ค'์ ํ์์ผ๋ก ์ฐ์ฌ์์ด์ ์ธ๊ณผ ๊ด๊ณ์ธ์ค ์์๋๋ฐ ์๋๊ณ , ๊ทธ๋ฅ ์ด๋ฐ ๊ฒฝ์ฐ์๋ ์ด๋ ๋ค~ ์ ๋์ ๋ด์ฉ์ด๋ค. ๊ทธ๋ฆผ์์๋ ํ์ธํ ์ ์๋ค. Shortcut connection์ด ์ ์ ์ธ ๋ถ๋ถ์ ๋ณด๋ฉด, Filter ๊ฐ์๋ ๋ ๋ฐฐ๊ฐ ๋๊ณ (๊ฐ๋ น 64์์ 128, 128์์ 256...) Feature map size๊ฐ ์ ๋ฐ์ด ๋๋ ๊ฒ์ Filter ๊ฐ์ ๋ค์ '/2' ๋ผ๊ณ ํํํ ๋ฏ ์ถ๋ค.
* ์ ์ Shortcut connection: Feature map size๊ฐ ์ ๋ฐ์ด ๋๋ ๊ฒฝ์ฐ (1x1 convolution๊ณผ bn์ ์ ์ฉํ๋ฏ๋ก Parameters๊ฐ ์์)
* ์ค์ Shortcut connection; ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ (Parameters๊ฐ ์์)
์ ๊ทธ๋ฆผ์ 34-layer ์ผ ๋์ ๊ตฌ์กฐ์๋๋ฐ, Layer ๊ฐ์๋ฅผ ๋ค๋ฅด๊ฒ ํ์ ๋์ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ๋ค.
ResNet์ ์ด๋์ ๋ Degradation์ ํจ๊ณผ๊ฐ ์๋ค๊ณ ๋ฐํ์ก๋ค. CIFAR-10์ ์ ์ฉํ ์ด์ผ๊ธฐ๋ฅผ ์ ์ธํ๋ฉด ResNet์ ๋ํ ์ด์ผ๊ธฐ๋ ์ฌ๊ธฐ์ ๋๋๋ค. ๋ค๋ง ๊ฐ์ ์ ์์ ์ดํ ๋ ผ๋ฌธ์์ Residual block ๋ด๋ถ ๊ตฌ์กฐ ์์๋ฅผ ๋ณ๊ฒฝํ Pre-activaion ๊ตฌ์กฐ๋ฅผ ์ ์ํ์๋๋ฐ, ์ด๊ฒ์ผ๋ก ๋ Layer๋ฅผ ๊น์ด ์์ ์ ์์๋ค๊ณ ํ๋ค. (์๋ ๊ตฌ์กฐ๋ Post-activation ๊ตฌ์กฐ) ์ด ๋ถ๋ถ์ ์๊ธ์ From 100 to 1000 Layers ๋ถ๋ถ์ ์ฐธ๊ณ ํ๋ฉด ๋๋ค. ์งง๋ค.
'๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋ > OCR' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Multi-GPU Model์์ h5(hdf5)๋ฅผ ๋ก๋ํ์ง ๋ชปํ๋ ๋ฌธ์ (0) | 2019.08.13 |
---|---|
Variable Scope ๊ณต๋ถ (0) | 2019.08.13 |
Attention ๊ณต๋ถ (0) | 2019.08.12 |
Attention Is All You Need ๊ณต๋ถ (0) | 2019.08.09 |
Simultaneous Recognition of Horizontal and Vertical Text in Natural Images (2018.12) (0) | 2019.07.29 |
๋๊ธ