2. Validació del model
Validació del model¶
En esta activitat veure'm com de bo és el nostre model.
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
iowa_file_path = 'data/train.csv'
home_data = pd.read_csv(iowa_file_path)
# Target
y = home_data.SalePrice
# Selecció de variables
feature_columns = ['LotArea', 'YearBuilt', '1stFlrSF', '2ndFlrSF', 'FullBath', 'BedroomAbvGr', 'TotRmsAbvGrd']
X = home_data[feature_columns]
iowa_model = DecisionTreeRegressor()
# Entrenament
iowa_model.fit(X, y)
# Prediccions
print("Prediccions dels prin¡mers 5 habitatges:", iowa_model.predict(X.head()))
print("Valors reals de venda:", y.head().tolist())
Prediccions dels prin¡mers 5 habitatges: [208500. 181500. 223500. 140000. 250000.] Valors reals de venda: [208500, 181500, 223500, 140000, 250000]
Pregunta 1¶
Separa les dades les dades en dos blocs, una per a entrenament i una altra per a test.
Pregunta 2¶
Entrena el model amb les dades que corresponen a entrenament.
Pregunta 3¶
Agafa les primeres 5 dades de les dades d'entrenament (train_X) i utilitza el model per a fer una predicció del preu de venda.
Compara el preu prediut amb el preu real per a eixos habitatges.
Pregunta 4¶
Agafa les primeres 5 dades de les dades de validació (test_X) i utilitza el model per a fer una predicció del preu de venda.
Compara el preu prediut amb el preu real per a eixos habitatges.
Pregunta 5¶
Comenta el resultats obtesos en les dues preguntes anteriors.
Pregunta 6¶
Calcula l'error absolut mitjà en fer prediccions amb el nostre model tant per a les dades d'entrenament com per a les de validació. Comenta els resultats.
Pregunta 7¶
Calcula el percentatge que representa el MAE tanty per a les dades d'entrenament com de validació front al preu mitjà dels habitatges.
Quin és menor? Perquè?