데이터 다루기

오답 노트/머신러닝

히니1008 2022. 7. 24. 22:37

지도학습에서 데이터와 정답을 **입력(input)**과 **타깃(target)**이라고 하고 이 둘을 합쳐 **훈련 데이터(training data)**라고 부른다.

지도학습 알고리즘은 입력(데이터)과 타깃(정답)으로 이뤄진 훈련 데이터가 필요하다.

입력으로 사용된 길이와 무게를 특성(featrue)이라고 한다.

49개의 sample과 2개의 특성

평가에 사용하는 데이터를 테스트 세트(test set), 훈련에 사용되는 데이터를 훈련 세트(train set)라고 부른다.

*훈련 세트와 테스트 세트를 골고루 섞이게 만들어야 한다.

평가에 사용하는 데이터를 테스트 세트(test set), 훈련에 사용되는 데이터를 훈련 세트(train set)라고 부른다.

*훈련 세트와 테스트 세트를 골고루 섞이게 만들어야 한다.

input_arr = np.array(fish_data)
target_arr = np.array(fish_target)

np.random.seed(42)
index = np.arange(49)
np.random.shuffle(index)

print(index)

print(input_arr[[1,3]]

[[ 26.3 290.

[29. 363. ]]

train_input = input_arr[index[:35]]
train_target = target_arr[index[:35]]

print(input_arr[13], train_input[0])

헷갈리는 함수(Train,Test split) (0)	2022.07.30
.set_index 메서드와 .reset_index메서드 (0)	2022.07.26
딥러닝 -자연어 처리 (0)	2022.07.26
훈련데이터셋 나누기(fit.train_test_split()): 각 parameter들의 의미 (0)	2022.07.25

모르는 것들을 저장하는 곳

Unnamed: 0 #, ValueError #, 튜플, .isna, .loc #.query, ignore_index=True, 클래스,

히니