In questo video, parleremo di Statistiche descrittive.
Quando inizi ad analizzare i
dati, è importante esplorare i dati prima di dedicare tempo alla creazione di modelli complicati. Un modo semplice per farlo è calcolare alcune statistiche descrittive per i tuoi dati. L' analisi statistica descrittiva aiuta a descrivere le caratteristiche di base di un insieme di dati e ottiene una breve sintesi sul campione e le misure dei dati. Ti mostriamo un paio di diversi metodi utili. Un modo in cui possiamo farlo è usare la funzione di descrivere nei panda. Utilizzando la funzione di descrivere e applicarla sul frame di dati, la funzione di descrivere calcola automaticamente le statistiche di base per tutte le variabili numeriche. Mostra la media, il numero totale di punti dati, la deviazione standard, i quartili e i valori estremi. Tutti i valori NAN vengono saltati automaticamente in queste statistiche. Questa funzione ti darà una chiara idea della distribuzione delle tue diverse variabili. Potresti anche avere variabili categoriche nel tuo set di dati. Si tratta di variabili che possono essere suddivise in diverse categorie o gruppi e hanno valori discreti. Ad esempio, nel nostro set di dati abbiamo il sistema di trasmissione come una variabile categorica, che consiste delle categorie, trazione anteriore, trazione posteriore e quattro ruote motrici. Un modo per riassumere i dati categorici, è utilizzando la funzione value_counts. Possiamo cambiare il nome della colonna per renderlo più facile da leggere. Vediamo che abbiamo 118 auto nella categoria trazione anteriore. 75 vetture nella categoria a trazione posteriore e 8 vetture nella categoria a quattro ruote motrici. I box plot sono un ottimo modo per visualizzare i dati numerici, poiché è possibile visualizzare le varie distribuzioni dei dati. Le caratteristiche principali che il box plot mostra, sono la mediana dei dati, che rappresenta la posizione del punto dati intermedio. Il quartile superiore mostra dove si trova il 75° percentile. Il quartile inferiore mostra dove si trova il 25° percentile. I dati tra il quartile superiore e inferiore rappresentano l'intervallo interquartile. Poi hai gli estremi inferiori e superiori. Questi sono calcolati come 1,5 volte l'intervallo interquartile, al di sopra del 75° percentile, e come 1,5 volte l'IQR al di sotto del 25° percentile. Infine, i box plot mostrano anche valori anomali come singoli punti che si verificano al di fuori degli estremi superiori e inferiori. Con i box plot, è possibile individuare facilmente i valori anomali e anche vedere la distribuzione e l'asimmetria dei dati. I box plot semplificano il confronto tra i gruppi. In questo esempio, utilizzando box plot possiamo vedere la distribuzione di diverse categorie della caratteristica ruote motrici rispetto alla caratteristica prezzo. Possiamo vedere che la distribuzione del prezzo tra la trazione posteriore, e le altre categorie sono distinte. Ma il prezzo per la trazione anteriore e quattro ruote motrici sono quasi indistinguibili. Spesso tendiamo a vedere variabili continue nei nostri dati. Questi punti dati sono numeri contenuti in un certo intervallo. Ad esempio, nel nostro set di dati il prezzo e la dimensione del motore sono variabili continue. E se volessimo capire il rapporto tra dimensioni del motore e prezzo. Le dimensioni del motore potrebbero prevedere il prezzo di un'auto? Un buon modo per visualizzarlo è l'utilizzo di un grafico a dispersione. Ogni osservazione nel grafico a dispersione è rappresentata come un punto. Questo grafico mostra la relazione tra due variabili. La variabile predittore, è la variabile che si sta utilizzando per prevedere un risultato. In questo caso la nostra variabile predittore è la dimensione del motore. La variabile di destinazione è la variabile che si sta tentando di prevedere. In questo caso, la nostra variabile target è il prezzo. Dal momento che questo sarebbe il risultato. In un grafico a dispersione, in genere impostiamo la variabile predittore sull'asse x o sull'asse orizzontale e impostiamo la variabile target sull'asse y o sull'asse verticale. In questo caso, traccieremo quindi la dimensione del motore sull'asse x e il prezzo sull'asse y. Stiamo usando, le funzioni matplotlib scatter qui, prendendo in x e y variabile. Qualcosa da notare è che è sempre importante etichettare gli assi e scrivere un titolo generale della trama, in modo da sapere cosa stai guardando. Ora come è la dimensione variabile del motore correlata al prezzo? Dalla trama a dispersione, vediamo che man mano che la dimensione del motore aumenta, anche il prezzo dell'auto sale. Questo ci dà un'indicazione iniziale che esiste una relazione lineare positiva tra queste due variabili. [ MUSIC]