Il 0% ha trovato utile questo documento (0 voti)
74 visualizzazioni4 pagine

Riassunto Statistica

Riassunto di statistica base con comandi Excel

Caricato da

martinafallinii
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
74 visualizzazioni4 pagine

Riassunto Statistica

Riassunto di statistica base con comandi Excel

Caricato da

martinafallinii
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

Variabili qualitative

- Nominali: se non c’è un ordine tra le caratteristiche (blu, femmina ecc)


!! Sesso, luogo di nascita, sport preferito
- Ordinali: se c’è un ordine prede nito (titolo di studio, quanto mi piace un prodotto)
—> non presuppone che la distanza tra le unità sia la stessa (il primo posto e il secondo posto hanno
tanta distanza tra loro rispetto alla distanza che c’è tra il 588 e il 189 posto in una gara)
!! Titolo di studio, livello di soddisfazione

Variabili quantitative:
- Continue: sono de nite su una scala e sono numeri decimali (altezza, peso, reddito)
!! Peso, altezza, temperatura
- Discrete: sono numeri interi e vengono trattati come le continue (es. accessi a un sito) —> presuppone
però che la distanza tra le unità sia la stessa
!! Anno di nascita, numero di gli

STATISTICA UNIVARIATA
1. Tabelle
- Frequenza assoluta: = COUNTIF (range di tutti i dati; un indicatore)
—> la somma delle frequenze relative mi da il numero totale di osservazioni
- Frequenza relativa: = frequenza assoluta / N numero totale di osservazioni
—> la somma delle frequenze relative è 1
- Frequenze percentuali = frequenze relative * 100
—> la somma delle frequenze percentuali è 100

Quando i valori sono troppi si può raggruppare in classi ma ciò è arbitrario e può cambiare le conclusioni
(necessario per variabili quantitative continue tipo peso)

2. Strumenti gra ci
- Istogrammi: Seleziono tutte le altezze —> vado su insert —> e metto istogramma
(X modi care l'ampiezza delle classi schiaccio sulle colonne dell'istogramma e faccio format data series e
poi cambio auto in bins width e cambio l’ampiezza) DIVERSO SU WINDOWS
Si può dividere in classi sempre più piccole per aumentare la de nizione dell’istogramma nché non ci
sono delle classi negative (in cui non cade nessun individuo)
- Gra ci a barre verticali: per le variabili qualitative (le colonne non sono continue perchè non c’è continuità
tra le classi)

3. Strumenti analitici
Convenienti per riassumere in pochi parametri le caratteristiche
principali della distribuzione di frequenza:
- Tendenza centrale
Si riferisce alla posizione della distribuzione di frequenza nel gra co.
Descrive a grossomodo come si comporta un fenomeno (es. uomini
più pesanti delle donne).
È misurata da:
- media
- mediana
- moda

La media
È la somma di tutti i valori divido il numero degli individui e può essere calcolata solo per variabili
quantitative (problema della media: può essere malinterpretata)
PRO: è unica ed è la più veloce da calcolare
CONTRO: solo per variabili quantitative, è instabile -> ogni variazione di un valore la fa variare, tiene conto
di ogni singolo valore

La mediana : —> spesso usata nelle statistiche dei prezzi delle case e in quelle di reddito
• Se abbiamo un numero dispari di osservazioni, la mediana è il valore dell’osservazione che si torva in
posizione centrale (dopo aver ordinato i dati)
• Se abbiamo un numero pari di osservazioni, la mediana è la media tra i valori delle due osservazioni che si
trovano in posizione centrale (dopo aver ordinato i dati)
fi
fi
fi
fi
fi
fi
fi
fi
fi
PRO: è unica, è più stabile della media (“robusta”)
CONTRO: solo per variabili quantitative e qualitative ordinali, non tiene conto dei singoli valori di tutti gli
individui
La mediana divide la distribuzione di frequenza (il gra co) in due porzioni di eguale frequenza —> possiamo
dividere la distribuzione di frequenza in quattro porzioni (quartili) o cento porzioni (percentili) di egual
frequenza.

La moda
È il valore che corrisponde alla massima frequenza (o densità) in una distribuzione di frequenza, ed è
utilizzata per le variabili qualitative nominali (senza ordine).
In alcuni casi possiamo trovarci in presenza di una doppia moda —> si parla di distribuzione bimodale
PRO: può non essere unica, è molto stabile
CONTRO: si usa per variabili qualitative nominali e ordinali e per le quantitative discrete, in generale non
esiste per variabili quantitative continue (si deve dividere in classi), non tiene conto dei singoli valori di tutti
gli individui.

!! Quando una distribuzione è simmetrica (un ramo è speculare all’altro) media, moda e mediana coincidono

- La dispersione
- dispersione di variabili quantitative (dotate di variabilità) si misura con misure di variabilità:
• Varianza
• Deviazione standard
• Coe ciente di variazione
• Range o campo di variazione
• Range interquartilico
- dispersione di variabili qualitative (dotate di omogeneità)
• Omogeneità

Il minimo della variabilità, cioè 0, si ha quando tutti gli individui hanno la stessa modalità (tipo sono tutti alti
uguali) e il massimo non è de nito. (Variabilità 0 = abbiamo una costante)

Dispersione di variabili quantitative


Varianza = σ2 —> è la media degli scarti della media elevati al quadrato
1. Calcoliamo la di erenza tra il valore assunto da ogni individuo e la media (lo scarto dalla media)
2. Calcoliamo il quadrato di ogni scarto dalla media
3. Calcoliamo la media dei valori (i quadrati degli scarti) così ottenuti.

• La varianza è sempre maggiore o uguale a zero (essendo una media di quadrati)


• Può assumere qualunque valore tra 0 e ∞
• E’ espressa in una unità di misura che è il quadrato di quella originale

Deviazione standard = σ
• E’ la radice quadrata (positiva) della varianza.
• E’ sempre positiva.
• E’ espressa nella medesima unità di misura della variabile.

Coe ciente di variazione = CV


È il rapporto tra la deviazione standard e la media ed è una misura scale free quindi non dipende dall’unità
di misura adottata.

Range
• Il valore più alto meno il più basso. In Excel: =MAX(range)-MIN(range)
• È una prima, approssimata, misura della dispersione.
• Dipende solo da due valori: min e max —> misura “poco robusta”/”poco stabile”. (Il range, così come la
media non è robusto a valore eccezionali - valori outline)

Range interquartilico
• Il terzo quartile meno il primo.
In Excel: =QUARTILE(range;3) - QUARTILE(range;1)
• E’ il range entro il quale cadono il 50 % dei casi “normali” (vicini alla mediana).
ffi
ffi
ff
fi
fi
Dispersione di variabili qualitative
Omogeneità
Misura la dispersione per variabili qualitative (massima omogeneità se tutti presentano la stessa modalità /
minimo omogeneità —> eterogeneità, quando tutti presentano modalità diverse)

- La forma : solo per variabili quantitative


• La SKEWNESS misura la simmetria della distribuzione di frequenza.
• La CURTOSI misura la dimensione delle code della distribuzione di frequenza.
Curtosi< 3 —> pochi estremi
Curtosi > 3 —> tanti estremi
Curtosi = 3 —> valori normali

STATISTICA BIVARIATA
1. Tabelle
Possiamo costruire distribuzioni di frequenza bivariata, dette anche tabella a doppia entrata o crosstabs
contando il numero di individui che presentano simultaneamente una certa modalità delle due variabili.
Su queste tabelle possiamo calcolare 3 tipi di percentuale:
- Di riga
- Di colonna
- Totali

2. Gra ci
- Se entrambe le variabili sono quantitative partizione in classi (peso e altezza) facciamo uno stereogramma
(che è come un istogramma ma a più dimensioni)
- Se le variabili sono qualitative creiamo un gra co a colonne (che sono staccate tra di loro)
- Se entrambe le variabili sono quantitative avremo un diagramma a dispersione o scatter
In uno scatter :
- ogni punto rappresenta un individuo, e le sue coordinate sono date dai valori assunti dalle 2
variabili per quella osservazione
- l’intera nuvola rappresenta la relazione tra le due variabili

Ci possono essere diversi tipi di relazione tra le variabili:


- relazione diretta o positiva: quando una variabile cresce, anche l’altra tende a crescere
- relazione inversa o negativa: quando una variabile cresce l’altra tende a decrescere
- assenza di relazione: quando una variabile cresce l’altra tende ad essere costante oppure quando
una variabile cresce l’altra non ha un regolare andamento

3. Strumenti analitici
Se ci riferiamo a variabili qualitative o quantitative suddivise in classi, descriviamo la distribuzione di
frequenza bivariata attraverso il concetto di dipendenza.

Se entrambe le variabili sono quantitative, descriviamo le relazioni evidenziare da uno scatter attraverso il
concetto di correlazione.
Per variabili quantitative:
- Possiamo caratterizzare ogni scatter con un singolo valore (un parametro) il quale descrive il grado di
regolarità mostrata dal gra co.
- Questo valore è la correlazione
- La correlazione si riferisce a relazioni di tipo lineare e il suo valore è
• = 0 quando la relazione tra le 2 variabili non può essere rappresentata attraverso una linea retta
(magari è rappresentato però da qualcos’altro)
• = 1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una retta
crescente
• = -1 quando la relazione tra le 2 variabili può essere rappresentata perfettamente da una retta
decrescente

La correlazione è la covarianza diviso la radice quadrata del prodotto della varianza di X e la varianza di Y.

La covarianza
Ci dice come stanno assieme due variabili ed è la somma dei prodotti tra gli scarti dalla media di X e gli
scarti dalla media di Y diviso N ovvero il numero di osservazioni.
fi
fi
fi

Potrebbero piacerti anche