Sei sulla pagina 1di 1

In questo video, tratteremo le basi del raggruppamento e come questo può aiutare a

trasformare il nostro set di dati. Si supponga che si desidera sapere, c'è qualche
relazione tra i diversi tipi di sistema di trasmissione, avanti, posteriore, e
quattro ruote motrici, e il prezzo dei veicoli? In caso affermativo, quale tipo di
sistema di azionamento aggiunge più valore a un veicolo? Sarebbe bello se potessimo
raggruppare tutti i dati in base ai diversi tipi di ruote motrici e confrontare i
risultati di queste diverse ruote motrici l'uno contro l'altro. In Panda, questo
può essere fatto usando il gruppo per metodo. Il metodo di gruppo viene utilizzato
su variabili categoriali, raggruppa i dati in sottoinsiemi in base alle diverse
categorie di tale variabile. È possibile raggruppare in base a una singola
variabile oppure è possibile raggruppare più variabili passando nomi di variabili
multiple. Ad esempio, diciamo che siamo interessati a trovare il prezzo medio dei
veicoli e osservare come differiscono tra diversi tipi di stili di carrozzeria e
variabili di ruote motrici. Per fare ciò, prima scegliamo le tre colonne di dati a
cui siamo interessati, che viene fatto nella prima riga di codice. Raggruppiamo
quindi i dati ridotti in base alle ruote motrici e allo stile della carrozzeria
nella seconda riga. Dal momento che siamo interessati a sapere come il prezzo medio
differisce su tutta la linea, possiamo prendere la media di ogni gruppo e
aggiungerlo anche alla fine della linea. I dati sono ora raggruppati in
sottocategorie e viene mostrato solo il prezzo medio di ciascuna sottocategoria.
Possiamo vedere che, secondo i nostri dati, i convertibili a trazione posteriore e
i dischi rigidi a trazione posteriore hanno il valore più alto, mentre i quattro
portelli motrici hanno il valore più basso. Una tabella di questo modulo non è la
più facile da leggere e anche non molto facile da visualizzare. Per rendere più
facile la comprensione, possiamo trasformare questa tabella in una tabella pivot
utilizzando il metodo pivot. Nella tabella precedente, entrambe le ruote motrici e
lo stile del corpo erano colonne di ascolto. Una tabella pivot ha una variabile
visualizzata lungo le colonne e l'altra variabile visualizzata lungo le righe. Solo
con una riga di codice e utilizzando il metodo pivot del Panda, possiamo ruotare la
variabile di stile del corpo in modo che venga visualizzata lungo le colonne e le
ruote motrici verranno visualizzate lungo le righe. I dati sui prezzi diventano ora
una griglia rettangolare, che è più facile da visualizzare. Questo è simile a
quello che viene solitamente fatto nei fogli di calcolo Excel. Un altro modo per
rappresentare la tabella pivot consiste nell'utilizzare un grafico della mappa
termica. Mappa termica prende una griglia rettangolare di dati e assegna
un'intensità di colore in base al valore dei dati in corrispondenza dei punti della
griglia. È un ottimo modo per tracciare la variabile target su più variabili e
attraverso questo ottenere indizi visivi con la relazione tra queste variabili e il
target. In questo esempio, usiamo il metodo di colore p di pyplot per tracciare la
mappa termica e convertire la tabella pivot precedente in una forma grafica.
Specifichiamo la combinazione di colori rosso-blu. Nel grafico di output, ogni tipo
di stile del corpo è numerato lungo l'asse x e ogni tipo di ruote motrici viene
numerato lungo l'asse y. I prezzi medi sono tracciati con colori variabili in base
ai loro valori. Secondo la barra dei colori, vediamo che la sezione superiore della
mappa termica sembra avere prezzi più alti rispetto alla sezione inferiore.

Potrebbero piacerti anche