본문 바로가기
Have Done/MLP

MLP from Scratch with Numpy [0 / 7] - Classification 사전작업

by 에아오요이가야 2022. 1. 3.

앞으로 모델들은 Kaggle의 MNIST데이터를 이용하여 시동? 검증하려고 합니다.

import numpy as np
import pandsa as pd
import random
import matplotlib.pyplot as plt

 

MNIST데이터 자체의 난이도가 너무 낮아 틀린 모델이더라도, 정확도가 높은 경우가 생길 수 있으니

 

ImageNet 데이터로 재차 검증을 해야 할지도 모르겠습니다. [귀찮아서 안 할 것 같긴 합니다. 하하]

 

일단 데이터부터 받아줍시다!

import os
os.environ['KAGGLE_USERNAME'] =  # username
os.environ['KAGGLE_KEY'] =  # key

압축 해제를 해주시고요~~

!kaggle competitions download -c digit-recognizer
!unzip -q test.csv.zip
!unzip -q train.csv.zip

데이터 지정해주겠습니다.

train=pd.read_csv('train.csv')
test= pd.read_csv('test.csv')

필요한 변수들을 잡아주고

input data들 내부의 pixel값을 0~1 사이에 위치할수 있도록 하겠습니다.

Label = train['label'].values
Train = train.drop(columns=['label']).values/255
Test = test.values/255

MNIST 데이터는 [28 x 28] 사이즈의 이미지 입니다. 

다음 코드를 실행하게 되면 N = 42000, size_input = 784입니다.

N 은 전체 데이터의 양

size_input = 28 x 28 데이터 하나의 픽셀 수 노드수 세부 데이터 개수 등등으로 설명될 수 있는 784입니다.

[N,size_input]=Train.shape

자 이제 모델 설계를 위한 사전작업은 끝났습니다. 이제 이해해 보고 설계해 봅시다!

 

댓글