Introducció¶
Ara ja esteu preparats per obtindre una comprensió més profunda de les vostres dades.
Carregueu de nou el DataSet dels vins.
import pandas as pd
reviews = pd.read_csv("data/winemag-data-130k-v2.csv", index_col=0)
reviews.head()
Pregunta 1¶
Calcula la mitjana aritmètica, la mediana i la moda de les puntuacions?
Pregunta 2¶
De quins països tenim vins?
Pregunta 3¶
Amb quina freqüència apareix cada país al DataSet?
Crea una reviews_per_country mapejant els països a la seua freqüència.
Pregunta 4¶
Crea una variable centered_price que continga una versió de la columna price amb la resta de cada preu per la seua mitjana.
(Nota: este 'centrat' és una transformació típica que es sol fer abans d'aplicar algorismes de machine learning, amb la mitjana centrada a 0)
Pregunta 5¶
Sóc un comprador econòmic de vi. Quin vi és la "millor ganga"? Creeu una variable "bargain_wine" amb el títol del vi amb la relació punts-preu (qualitat-preu) més alta del conjunt de dades.
Pregunta 6¶
Només hi ha algunes paraules que podeu utilitzar per descriure una ampolla de vi.
És més probable que un vi siga "tropical" o "afruitat"(fruity)?
Creeu una sèrie descriptor_counts comptant quantes vegades cada una d'aquestes dues paraules apareix a la columna description del conjunt de dades. (Tingues en compte que poden haver en majúscula i en minúscula)
Pregunta 7¶
Ens agradaria allotjar aquestes ressenyes de vins al nostre lloc web, però un sistema de qualificació que oscil·la entre 80 i 100 punts és massa difícil d'entendre; ens agradaria traduir-los en classificacions d'estrelles simples. Una puntuació de 95 o superior compta com a 3 estrelles, una puntuació d'almenys 85 és 2 estrelles. Qualsevol altra puntuació és 1 estrella.
A més, l'Associació Canadenca de Vinaters va a comprar molts anuncis al lloc, de manera que els vins del Canadà han d'obtenir automàticament 3 estrelles, independentment dels punts.
Creeu una sèrie star_ratings amb el nombre d'estrelles corresponent a cada revisió del conjunt de dades.