4. Distibucions
Distrubucions¶
En aquest exercici, treballarem amb un conjunt de dades del món real que conté informació recollida a partir d'imatges microscòpiques de tumors de càncer de mama, similar a la imatge següent.

Cada tumor s'ha etiquetat com a benigne (no cancerós) o maligne (cancerós).
Per obtindre més informació sobre com s'utilitzen aquest tipus de dades per crear algorismes intel·ligents per classificar els tumors en entorns mèdics, **mira el vídeo següent en aquest enllaç **.
import pandas as pd
pd.plotting.register_matplotlib_converters()
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
cancer_filepath = "data/cancer.csv"
cancer_data = pd.read_csv(cancer_filepath, index_col="Id")
cancer_data.head()
| Diagnosis | Radius (mean) | Texture (mean) | Perimeter (mean) | Area (mean) | Smoothness (mean) | Compactness (mean) | Concavity (mean) | Concave points (mean) | Symmetry (mean) | ... | Radius (worst) | Texture (worst) | Perimeter (worst) | Area (worst) | Smoothness (worst) | Compactness (worst) | Concavity (worst) | Concave points (worst) | Symmetry (worst) | Fractal dimension (worst) | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Id | |||||||||||||||||||||
| 8510426 | B | 13.540 | 14.36 | 87.46 | 566.3 | 0.09779 | 0.08129 | 0.06664 | 0.047810 | 0.1885 | ... | 15.110 | 19.26 | 99.70 | 711.2 | 0.14400 | 0.17730 | 0.23900 | 0.12880 | 0.2977 | 0.07259 |
| 8510653 | B | 13.080 | 15.71 | 85.63 | 520.0 | 0.10750 | 0.12700 | 0.04568 | 0.031100 | 0.1967 | ... | 14.500 | 20.49 | 96.09 | 630.5 | 0.13120 | 0.27760 | 0.18900 | 0.07283 | 0.3184 | 0.08183 |
| 8510824 | B | 9.504 | 12.44 | 60.34 | 273.9 | 0.10240 | 0.06492 | 0.02956 | 0.020760 | 0.1815 | ... | 10.230 | 15.66 | 65.13 | 314.9 | 0.13240 | 0.11480 | 0.08867 | 0.06227 | 0.2450 | 0.07773 |
| 854941 | B | 13.030 | 18.42 | 82.61 | 523.8 | 0.08983 | 0.03766 | 0.02562 | 0.029230 | 0.1467 | ... | 13.300 | 22.81 | 84.46 | 545.9 | 0.09701 | 0.04619 | 0.04833 | 0.05013 | 0.1987 | 0.06169 |
| 85713702 | B | 8.196 | 16.84 | 51.71 | 201.9 | 0.08600 | 0.05943 | 0.01588 | 0.005917 | 0.1769 | ... | 8.964 | 21.96 | 57.26 | 242.2 | 0.12970 | 0.13570 | 0.06880 | 0.02564 | 0.3105 | 0.07409 |
5 rows × 31 columns
Al conjunt de dades, cada fila correspon a una imatge diferent. El conjunt de dades té 31 columnes diferents, corresponents a:
- 1a columna ("Diagnòstic") que classifica els tumors com a benignes (que apareix al conjunt de dades com a B) o malignes (M)
- 30 columnes que contenen diferents mesures recollides a partir de les imatges
Pregunta 1¶
Crea dos histogrames que mostren la distribució en valors de "Àrea (mitjana)", per separat tant per als tumors benignes com per als malignes. (Per permetre una comparació fàcil, creeu una única figura que continga els dos histogrames.)
Pregunta 2¶
Un investigador us sol·licita ajuda per identificar com es pot utilitzar la columna "Àrea (mitjana)" per entendre la diferència entre tumors benignes i malignes. A partir dels histogrames anteriors,
- Els tumors malignes tenen valors més alts o més baixos per a "Àrea (mitjana)" (en relació amb els tumors benignes), de mitjana?
- Quin tipus de tumor sembla tindre un rang més gran de valors potencials?
Pregunta 3¶
Crea dos gràfics de densitat (KDE) que mostren la distribució en valors de Radius (worst) per als tumors benignes i per als malignes. (Per permetre una comparació fàcil, creeu una única figura que continga els dos gràfics de KDE).
Pregunta 4¶
Recentment, un hospital ha començat a utilitzar un algorisme que pot diagnosticar tumors amb alta precisió. Tenint en compte un tumor amb un valor de "Radius (worst)" de 25, creus que és més probable que l'algorisme classifique un tumor com a benigne o com maligne? Justifica la resposta.