오답 노트/머신러닝

데이터 다루기

히니1008 2022. 7. 24. 22:37

지도 학습과 비지도 학습

 

지도학습에서 데이터와 정답을 **입력(input)**과 **타깃(target)**이라고 하고 이 둘을 합쳐 **훈련 데이터(training data)**라고 부른다.

지도학습 알고리즘은 입력(데이터)과 타깃(정답)으로 이뤄진 훈련 데이터가 필요하다.

입력으로 사용된 길이와 무게를 특성(featrue)이라고 한다.

 

훈련 세트와 테스트 세트

49개의 sample과 2개의 특성

평가에 사용하는 데이터를 테스트 세트(test set), 훈련에 사용되는 데이터를 훈련 세트(train set)라고 부른다.

*훈련 세트와 테스트 세트를 골고루 섞이게 만들어야 한다.

평가에 사용하는 데이터를 테스트 세트(test set), 훈련에 사용되는 데이터를 훈련 세트(train set)라고 부른다.

 

*훈련 세트와 테스트 세트를 골고루 섞이게 만들어야 한다.

input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

np.random.seed(42)
index = np.arange(49)
np.random.shuffle(index)
print(index)
print(input_arr[[1,3]]

[[ 26.3  290.  

  [29.     363.  ]]

train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]
print(input_arr[13], train_input[0])