Sei sulla pagina 1di 1

In questo video, parleremo di Statistiche descrittive.

Quando inizi ad analizzare i


dati, è importante esplorare i dati prima di dedicare tempo alla creazione di
modelli complicati. Un modo semplice per farlo è calcolare alcune statistiche
descrittive per i tuoi dati. L' analisi statistica descrittiva aiuta a descrivere
le caratteristiche di base di un insieme di dati e ottiene una breve sintesi sul
campione e le misure dei dati. Ti mostriamo un paio di diversi metodi utili. Un
modo in cui possiamo farlo è usare la funzione di descrivere nei panda. Utilizzando
la funzione di descrivere e applicarla sul frame di dati, la funzione di descrivere
calcola automaticamente le statistiche di base per tutte le variabili numeriche.
Mostra la media, il numero totale di punti dati, la deviazione standard, i quartili
e i valori estremi. Tutti i valori NAN vengono saltati automaticamente in queste
statistiche. Questa funzione ti darà una chiara idea della distribuzione delle tue
diverse variabili. Potresti anche avere variabili categoriche nel tuo set di dati.
Si tratta di variabili che possono essere suddivise in diverse categorie o gruppi e
hanno valori discreti. Ad esempio, nel nostro set di dati abbiamo il sistema di
trasmissione come una variabile categorica, che consiste delle categorie, trazione
anteriore, trazione posteriore e quattro ruote motrici. Un modo per riassumere i
dati categorici, è utilizzando la funzione value_counts. Possiamo cambiare il nome
della colonna per renderlo più facile da leggere. Vediamo che abbiamo 118 auto
nella categoria trazione anteriore. 75 vetture nella categoria a trazione
posteriore e 8 vetture nella categoria a quattro ruote motrici. I box plot sono un
ottimo modo per visualizzare i dati numerici, poiché è possibile visualizzare le
varie distribuzioni dei dati. Le caratteristiche principali che il box plot mostra,
sono la mediana dei dati, che rappresenta la posizione del punto dati intermedio.
Il quartile superiore mostra dove si trova il 75° percentile. Il quartile inferiore
mostra dove si trova il 25° percentile. I dati tra il quartile superiore e
inferiore rappresentano l'intervallo interquartile. Poi hai gli estremi inferiori e
superiori. Questi sono calcolati come 1,5 volte l'intervallo interquartile, al di
sopra del 75° percentile, e come 1,5 volte l'IQR al di sotto del 25° percentile.
Infine, i box plot mostrano anche valori anomali come singoli punti che si
verificano al di fuori degli estremi superiori e inferiori. Con i box plot, è
possibile individuare facilmente i valori anomali e anche vedere la distribuzione e
l'asimmetria dei dati. I box plot semplificano il confronto tra i gruppi. In questo
esempio, utilizzando box plot possiamo vedere la distribuzione di diverse categorie
della caratteristica ruote motrici rispetto alla caratteristica prezzo. Possiamo
vedere che la distribuzione del prezzo tra la trazione posteriore, e le altre
categorie sono distinte. Ma il prezzo per la trazione anteriore e quattro ruote
motrici sono quasi indistinguibili. Spesso tendiamo a vedere variabili continue nei
nostri dati. Questi punti dati sono numeri contenuti in un certo intervallo. Ad
esempio, nel nostro set di dati il prezzo e la dimensione del motore sono variabili
continue. E se volessimo capire il rapporto tra dimensioni del motore e prezzo. Le
dimensioni del motore potrebbero prevedere il prezzo di un'auto? Un buon modo per
visualizzarlo è l'utilizzo di un grafico a dispersione. Ogni osservazione nel
grafico a dispersione è rappresentata come un punto. Questo grafico mostra la
relazione tra due variabili. La variabile predittore, è la variabile che si sta
utilizzando per prevedere un risultato. In questo caso la nostra variabile
predittore è la dimensione del motore. La variabile di destinazione è la variabile
che si sta tentando di prevedere. In questo caso, la nostra variabile target è il
prezzo. Dal momento che questo sarebbe il risultato. In un grafico a dispersione,
in genere impostiamo la variabile predittore sull'asse x o sull'asse orizzontale e
impostiamo la variabile target sull'asse y o sull'asse verticale. In questo caso,
traccieremo quindi la dimensione del motore sull'asse x e il prezzo sull'asse y.
Stiamo usando, le funzioni matplotlib scatter qui, prendendo in x e y variabile.
Qualcosa da notare è che è sempre importante etichettare gli assi e scrivere un
titolo generale della trama, in modo da sapere cosa stai guardando. Ora come è la
dimensione variabile del motore correlata al prezzo? Dalla trama a dispersione,
vediamo che man mano che la dimensione del motore aumenta, anche il prezzo
dell'auto sale. Questo ci dà un'indicazione iniziale che esiste una relazione
lineare positiva tra queste due variabili. [ MUSIC]

Potrebbero piacerti anche