Sei sulla pagina 1di 11

Elementi di base

Struttura di un database statistico (tabella individui-modalità)

In questo caso su ogni riga c’è un individuo (persone), ma può essere qualsiasi cosa.
osserviamo; cognome, altezza, anno di nascita…

nella colonna ci sono le variabili statistiche


grandezze che in individui diversi assume valori diversi, in questo senso è variabile

prima variabile= cognome, individui diversi hanno valori diversi!


Ogni riga rappresenta una osservazione/individuo
Ogni colonna rappresenta una variabile

Definizioni
 Variabile statistica o carattere:
ad esempio:
sesso, anno di nascita, luogo di nascita etc.

 Modalità del carattere:


quello che osserviamo della variabile statistica o carattere
ad esempio:
il carattere sesso ha modalità maschile o femminile, il carattere anno di nascita ha modalità
1950, 2010…

4 tipologie di variabili

Qualitative:
 Nessun ordine tra le modalità = Variabile Nominale
variabile priva di ordine
(es: sesso, cognome, colore occhi, stato lavorativo, sport etc.)
non c’è ordine nelle modalità di risposta; posso dire maschio o femmina, oppure,
femmina o maschio, non c’è un ordine preciso di come li devo presentare

1
come si sintetizza una variabile qualitativa se non si possono fare calcoli; es non posso
fare la media del colore degli occhi!

 Con un ordine predefinito= variabile ordinale


ordine ben precise
(es: titolo di studio, grado di soddisfazione)
Titolo di studio: elementari, medie, liceo ordine ben preciso
Grado di soddisfazione: per niente, abbastanza, molto…
NON sono numeri, ma hanno un ordine ben preciso!
la variabile ordinale ha più valore; perché ho sia il valore che il grado

questa variabile può essere resa quantitative, posso dire sufficiente vale=0, insufficiente=
1… ecc (questa è una cosa soggettiva, ma non posso fare dei calcoli, vedi tabella!)
La codifica è utile, perché semplifica il database
attenzione: magari abbiamo il numero ma non ha senso!

Quantitative:
sono numerici (numeri interi, o con la virgola)

 Continue = Variabile definita su una Scala (es: durata di una connessione internet,
temperatura meteo, ora di arrivo)

 Discrete = Anche se formalmente assomigliano alle ordinali, costituiscono una misura e


vengono trattate come le continue (es: numero di accessi ad una pagina web, numero di
figli)
somiglia variabile nominale, buono, ottimo ecc posso dare un numero

Esempi di variabili di vario tipo

2
Peso e altezza sono variabili quantitative continue,
numero di modalità è infinito in quanto il peso è un numero reale (numero con la virgola), il
peso può essere 45,1 45,2 ecc…, dato che l’altezzaa e il peso sono variabili scala e dipendono solo
dagli strumenti di misura
Se dico che il peso assume come modalità 45, 46 ecc… sto facendo un approssimazione, dato che il
peso è 45,1 ecc…

Effettuiamo questa distinzione perché…


I metodi statistici sono differenti nelle quattro tipologie

Nella statistica descrittiva, distinguiamo:

- Statistica univariata:
o Ciascuna variabile presa separatamente

- Statistica bi- o multi-variata:


o Consideriamo due o più variabili insieme
o Esempio: ho un database (tabella)
posso prendere una solo colanna e fare una sintesi, o tutte insieme.
Solitamente lo scopo è rappresentarle tutte insieme, perché in questo modo
vedremo le loro relazioni!

Possiamo contare su tre insiemi di strumenti


1. Tabelle
2. Grafici
3. Strumenti analitici
Es la media, % perché è una sintesi numerica

1. tabelle
Per sintetizzare le informazioni di base!

La tabella più semplice è la tabella individui/modalità (nessuna sintesi)


il foglio Excel di base

Una prima sintesi è ottenuta raggruppando i valori uguali in una tabella Modalità/frequenze
Righe= modalità distinte
Colonne=quante volte si presenza quella modalità/frequenz

3
Variabili qualitative: tabella individui/modalità per la variabile sesso

La variabile sesso è una variabile qualitativa (nominale)


Dalla tabella considero solo una colonna, e codifico che:

Assume i valori:
- 0 = Maschio
- 1 = Femmina
variabile nominale, ricordandomi che non posso fare medie su questi valori e dopo di che
costruisco una tabella di frequenza

Possiamo contare quanti individui assumono ogni differente modalità producendo così una:
- Tabella di frequenza o
- Distribuzione di frequenza

Esito della procedura

sintesi molto effiace, tabella piccola


sintetizzare= perdere informazioni, togliamo inessenziale e teniamo solo essenziale

4
Ci sono 3 tipi di frequenze
 Assolute (il puro conteggio): FrqAss
o La somma delle FrqAss ci dà il totale degli individui osservati (N)

 Relative (indipendenti dal numero degli individui): FrqRel = FrqAss / N (numero individui)
o La somma di tutte le FrqRel è 1.

 Percentuali (indipendenti dal numero degli individui): FrqPerc = FrqRel * 100


o La somma di tutte le FrqPerc è 100

La tabella precedente diventa:

66(individui)/145= 0,45 (frequenza relativa) x100= 45, 52%

Le frequenze relative sommano uno.


Le frequenze percentuali sommano 100.

Se le modalità di risposta sono poche (es ho solo maschio o femmina) È’ POSSIBILE ELENCARLE
TUTTE E CONTARNE LA FREQUENZA
se le modalità sono tante e non ho più la funzione di sintesi, quindi visto che non rispetta il mio
scopo di sintetizzare, non ha senso!

Ma quando le modalità sono troppe possiamo raggruppare i valori in CLASSI di modalità

Ove possibile le classi dovrebbero essere tutte di uguale ampiezza per evitare distorsioni

5
Esempio: Età
tabella di frequenza di una variabile quantitative discreta, posso farla, ma non è molto utile
perché non è sintetica (es età in cui non ho osservato nessuno)
Quindi raggruppo in classi di modalità

Oppure: età in classi


ho raggruppato in classe in classi dato che le modalità (età) erano tante.
Considerazioni:
1. In quesro caso la variabile è discreta, quindi può assumere valori solo di numeri interi e non
con la virgola!
Vuoto tra 20 e 21, questo è normale!

2. Se modifico il criterio di formazioni delle classi, modifico l’immagine che viene fornita
tramite questa sintesi
soggettivo
dove è possibile (variabili quantitative) le classi dovrebbero essere della stessa ampiezza
(classi decennali, tranne la prima aperta a sinistra e l’ultima aperta a destra)
posso manipolare i dati!

6
Attenzione:
IL MODO DI RAGGRUPPARE IN CLASSI NON E’ UNICO, E’ ARBITRARIO, E PUO’ MODIFICARE LE
CONCLUSIONI!
Nel caso della variabile quantitativa almeno le classi devono avere un certo ordine, altrimenti se è
qualitativa si può fare ciò che si vuole

Esempio: luogo di nascita

qui la maggiorparte degli studenti sembra italiano

Ma anche, aggregando diversamente le classi:

qui invece la maggiorparte degli studenti sembra straniero, perciò bisogna stare attenti quando
forniamo le classi, in quanto devono essere il più obiettive possibile!

7
Variabili quantitative discrete
numeri di figli

Le formule da usare il Excel:

Variabili qualitative ordinali (hanno un ordine ben definito)

Variabili quantitative continue


Per definizione non posso elencare tutte le modalità
es altezza, dico 177, ma qualcuno può essere 177,1 ec…

Ad esempio: peso, altezza, minuti.

Non sono possibili tabelle e grafici per valori singoli dunque:


- Raggruppare è una necessità (invece nei casi precedenti non lo era)!

8
Esempio: Peso
(Raggruppiamo i pesi delle varie persone in classi)

per salvaguardare una certa obiettività faccio classi di 10 kili.

Dove metto chi pesa 50 kg?


Potrei metterlo:
- Prima categoria
- Seconda categoria
devo deciderlo io, l’importanza che sia sequenziale. Ovvero che se metto chi pesa 50 kg
nella prima categeoria, metterò anche chi pesa 60 kili nella seconda categoria

non c’è discuntinuitità tra le classi, dove finisce una classe inzia la successiva!

9
Strumenti grafici
strumenti che mi servono per rappresentare graficamente le stesse info della tabella.
Sono una maniera conveniente di rappresentare una distribuzione di frequenza o, più in generale,
dei dati

Istogramma
(per variabili quantitative) (poche colonne – “bassa definizione”)

La tabella è difficile da leggere, quindi raggruppiamo in classi. Invece per l’istogramma non è così,
possiamo mettere tante info e metto tante classi.
+ ci sono classi meglio è!

Istogramma
(molte colonne – “media definizione”)

qui ad esempio posso dire la frequenza cresce e poi diminuisce.

10
Istogramma
(ancora più colonne – “alta definizione”)

Grafico a barre verticali


(per variabili qualitative: le colonne non sono contigue perchè non c’è continuità tra le classi)

qui assolutamente non posso dire se la frequenza scende o sale ecc


qui posso solo dire ci sono 4 colori, e il più rappresentato è il blu. Non conta l’ordine

Oltre agli istogrammi e ai grafici a barre ci sono un infinità di altri tipi di grafici:
in Excel..

11

Potrebbero piacerti anche