Il 0% ha trovato utile questo documento (0 voti)
538 visualizzazioni50 pagine

Elementi Di Statistica

Il documento introduce i concetti fondamentali della statistica descrittiva come la raccolta e l'analisi dei dati, le variabili quantitative e qualitative, le distribuzioni di frequenza e le classi. Viene fornito un esempio di distribuzione di frequenza per il periodo di incubazione di una malattia in 40 pazienti.

Caricato da

due ruote
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
538 visualizzazioni50 pagine

Elementi Di Statistica

Il documento introduce i concetti fondamentali della statistica descrittiva come la raccolta e l'analisi dei dati, le variabili quantitative e qualitative, le distribuzioni di frequenza e le classi. Viene fornito un esempio di distribuzione di frequenza per il periodo di incubazione di una malattia in 40 pazienti.

Caricato da

due ruote
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd

Elementi di Statistica

Introduzione
• Statistica: insieme di metodi di natura logica e matematica atti a raccogliere,
analizzare ed interpretare dati numerici o numerabili.
• Ha come fine lo studio quantitativo e qualitativo di un particolare fenomeno in
condizioni di incertezza o non determinismo, ovvero di non completa conoscenza
di esso o di parti di esso
o Applicazione della statistica alla metodologia di ricerca: corretta e obiettiva
interpretazione dei fenomeni osservati. Possibilità di esprimere un diverso grado di
credibilità dei risultati ottenuti.

• S. descrittiva: gli strumenti analitici hanno il compito di organizzare, elaborare e


presentare i dati (permettendo individuare a prima vista le caratteristiche di un
gruppo di valori).
• S. inferenziale: le metodologie impiegate servono a trarre conclusioni pertinenti
riguardanti la popolazione a partire dai risultati forniti da un campione
rappresentativo di essa.
 Universo o Popolazione (U): massa di possibili individui od osservazioni
 Campione: insieme delle osservazioni effettivamente utilizzate, purché tratte dalla
massa secondo criteri opportuni
 Unità statistica: singolo soggetto in esame
 Osservazione: risultato del rilievo eseguito
 Dato statistico: insieme delle osservazioni maturate
Introduzione
• I metodi statistici sono utilizzati per:
o misurare e spiegare variazioni a livello globale, alcune delle quali sono dovute ad errori;
o distinguere tra variazioni casuali e significative;
o agevolare l’interpretazione dei dati necessaria per la diagnosi medica, per la prognosi e per la
terapia
• Accuratezza e Precisione sono due obiettivi distinti, ma correlati, della raccolta e
dell’analisi dei dati:
o Accuratezza: capacità di una certa misura di essere corretta in media. Se una misura non è
accurata, allora è distorta;
o Precisione (o Riproducibilità, o Attendibilità): capacità di una certa misurazione di fornire lo
stesso risultato (o uno molto simile), con ripetute misurazioni dello stesso oggetto. L’errore
casuale, se grande, può provocare mancanza di precisione.
Possibili combinazioni di accuratezza
e precisione nella descrizione di una
variabile continua
Statistica
descrittiva
Il dato statistico

• Quando si compie una rilevazione di dati, che in seguito saranno


elaborati mediante tecniche descrittive, in realtà si rilevano i valori
o le modalità con quali si presentano determinate variabili.
o Sesso, età, altezza, colore degli occhi, ed altre ancora sono variabili
le cui determinazioni possono essere oggetto di una rilevazione
statistica.
o Ognuna di queste presenta particolari caratteristiche che
permettono di classificarla in una ben precisa categoria.
o La scelta del metodo di analisi appropriato dipende direttamente dal
tipo di variabile sulla quale la metodologia deve essere utilizzata.
Il dato statistico

• In base alle loro caratteristiche, le variabili possono essere distinte in:


o Var. QUALITATIVE: possono essere espresse mediante attributi (es. colore dei
capelli, stato civile, sesso, .... ).
o Var. QUANTITATIVE: sono indicate da numeri (età, altezza, peso, .... ).

Var. dicotomiche (ammettono solo


due risposte possibili)
Var. politomiche (ammettono più
risposte possibili)

Differenti scale di
misurazione
Periodo d'incubazione espresso in giorni della malattia ABC in 40 pazienti
Distribuzioni di frequenza

Prima analisi dei dati attraverso la distribuzione di


frequenze

Tabella in cui nella colonna di sinistra sono indicati


tutti i possibili caratteri o modalità o classi in cui
sono ripartiti i dati raccolti, mentre nella colonna di
destra abbiamo le frequenze assolute Fi = numero
di volte in cui la i-esima modalità si presenta.
Distribuzioni di frequenza

• Si consideri uno studio compiuto sul periodo d'incubazione di una certa malattia
ABC (gruppo di soggetti di numerosità n=40).
• X: variabile quant. discreta “numero di giorni d'incubazione della malattia ABC”

Numero di soggetti per singola


modalità

Distribuzione di frequenza del periodo


d'incubazione espresso in
giorni della malattia XYZ in 40 pazienti

Singoli valori (modalità,


Periodo d'incubazione espresso in giorni della malattia ABC in 40 pazienti determinazioni) della variabile X
Distribuzioni di frequenza

frequenze relative fi = ottenute dividendo le


frequenze assolute per il numero dei dati n fi =Fi
/n
Le frequenze relative
facilitano il confronto tra le numerosità delle
diverse classi,
sono numeri tra 0 e 1
possono essere espressi in forma percentuale
(frequenza percentuale)
Somma delle frequenze relative è pari a 1; delle
frequenze percentuali pari a 100
Distribuzioni di frequenza

frequenza relativa cumulata = esprime la somma


delle frequenze relative di tutte le classi minori
(o uguali) della i-esima
Distribuzioni di frequenza

• Scopo della distribuzione percentuale di frequenza, lo scopo è di fornire la


composizione della distribuzione rispetto all'intero gruppo di informazioni.
o I valori si ottengono dividendo le frequenze (espresse in valore assoluto) per il totale di
colonna e presentando il risultato in forma di percentuale.
• La distribuzione percentuale cumulata si ottiene dalla somma progressiva delle
frequenze percentuali della colonna precedente

L'elaborazione della
distribuzione percentuale
cumulata non è indicata per le
variabili qualitative di tipo
nominale

Distribuzione di frequenza, percentuale e percentuale cumulata del periodo


d'incubazione espresso in giorni della malattia ABC in 40 pazienti
Distribuzioni di frequenza

Esempio (dati quantitativi discreti)


Ai clienti di una concessionaria è stato chiesto di
esprimere un giudizio sulla qualità del servizio
ricevuto, assegnando un punteggio da 1 a 5.
Calcolare frequenze relative e frequenze
cumulate
Modalità Frequenze Fi Frequenze Frequenze
relative fi cumulate fic
1 1 0,02 0,02
2 5 0,10 0,12
3 18 0,36 0,48
4 21 0,42 0,90
5 5 0,10 1,00
Importanza
numerosità classi

Dati Istogramma di Frequenza

Istogramma di Frequenza Istogramma di Frequenza


TROPPE CLASSI TROPPE POCHE CLASSI
Classi

• Una maniera efficace per rappresentare le osservazioni eseguite su un gruppo


consistente di soggetti è quello di costruire delle classi entro cui vengono comprese
più modalità assunte dalla stessa variabile.
o Classe: ciascuno degli intervalli in cui è suddivisa una variabile in una tavola di
frequenza

• La scelta dell'ampiezza e del numero di classi è generalmente arbitraria e dipende


dalla natura dei dati e dagli scopi dell'indagine.
• Per decidere quale suddivisione in classi adottare, può essere utile la cosiddetta
regola di Sturges, che fornisce, in funzione degli n dati, il numero di classi K in cui è
possibile raggrupparli, senza perdere eccessive informazioni.

K = 1,33 + 3, 322*log10n

Numero delle classi in cui viene


suddiviso il campo di variazione
Numero complessivo delle
della variabile X (che equivale
osservazioni effettuate, ovvero
alla distanza esistente tra il
il totale delle frequenze Y
valore massimo ed il valore
minimo della variabile)
Classi
Malattia ABC

• Il campo di variazione della variabile X contiene valori compresi in un intervallo


che ha come valore massimo 9 e valore minimo 1;
• Numerosità del campione n=40;
• Il numero totale delle frequenze Y=9

K = 1,33 +3* log109 ≅ 4

• l'ampiezza di ogni classe risulta:

Distribuzione di frequenza del periodo d'incubazione espresso in


giorni della malattia XYZ in 40 pazienti (variabile in classi)
Costruzione della Distribuzione di Frequenza per variabili quantitative continue
Algoritmo:

1) Conteggio del numero delle osservazioni della variabile (funzione [Link])


2) determinazione del valore minimo e massimo delle osservazioni (funzione MIN e MAX)
3) Determinazione intervallo di valori MAX-MIN
4) Determinazioni n° classi -> regola di Sturges (1,33 + 3, 322*log10n)
5) Determinazione ampiezza classe= (VMAX-Vmin)/n° classi
6) definizione classi =>[x0=min, x1= x0 +ampiezza], ]x1, x2=x1+ampiezza], …, ]xn-1, xn= xn-1
+ampiezza=max]
7) conteggio della frequenza assoluta di ogni classe tramite la funzione FREQUENZA

Attenzione alle classi in Excel!!!!!


Tipi di Grafici

• Istogramma – Consiste in una serie di linee verticali di diverso colore per ogni voce della legenda, è
consigliato il suo utilizzo quando si vuole sottolineare le differenza fra le voci;

• A barre – Simile a un istogramma ruotato di 90°, si rivela utile per mettere a confronto i valori in un
determinato periodo di tempo;

• Torta – Dalla forma circolare mostra la relazione tra le parti di un intero;

Tipi di grafici in Excel:


[Link]
9b0f-20df0544a683
Tipi di Grafici
• Consta di una serie di linee piegate a tratti che indicano le tendenze e il cambiamento dei valori nel temp
• A dispersione (XY) – Un grafico a dispersione (XY) mostra le relazioni tra i valori numerici di varie serie
oppure traccia due gruppi di numeri come un'unica serie di coordinate XY.

Tipi di grafici in Excel:


[Link]
9b0f-20df0544a683
Rappresentazioni grafiche

• Se il primo passo per eseguire le più elementari statistiche descrittive è quello di


elaborare le tabulazioni di frequenza, il successivo è rappresentato senza dubbio
dalle rappresentazioni grafiche, attraverso cui viene visualizzato l'andamento delle
variabili esaminate.
o Il tipo di variabile da analizzare determina la scelta della rappresentazione più opportuna.

Morti per suicidio secondo il sesso tra il 1864 ed il 1954


Rappresentazioni grafiche
• Il diagramma a colonne permette di rappresentare non solo le distribuzioni di frequenza, ma
anche quelle percentuali.

Distribuzione della scolarità secondo il sesso

• Il diagramma a torta consente di evidenziare sia il valore assoluto di un certo fenomeno che
la sua composizione percentuale

Distribuzione delle malattie in un gruppo di bambini


di età < 10 anni
Rappresentazioni grafiche

• L’istogramma permette di sfruttare la divisione in classi. I rettangoli costruiti in


corrispondenza di ogni classe hanno una superficie proporzionale alle rispettive
frequenze.
o È opportuno che le classi abbiano uguale ampiezza, per non incorrere in rappresentazioni
poco coerenti.

- 179

Distribuzione di frequenza dell'altezza rilevata in un gruppo


di soggetti (variabile in classi)

179
Test autovalutativo

[Link]
Indici di tendenza centrale

• Le distribuzioni di frequenza ed i grafici hanno lo scopo rispettivamente di


organizzare i dati e visualizzarne l'andamento.
• Gli indicatori di tendenza centrale assolvono il compito di sintetizzare le
informazioni provenienti da essi, riassumendo in pochi valori gli aspetti
rappresentativi del gruppo di osservazioni.
• Gli indicatori a disposizione per rappresentare il valore "centrale" di una
distribuzione sono molteplici. La loro scelta è condizionata sia dal tipo di
variabile su cui eseguire l'elaborazione (qualitativa/quantitativa), che dalla
sua distribuzione all'interno del campo di variazione.
Indici di tendenza centrale
Media aritmetica

• La media aritmetica fa parte delle cosiddette medie analitiche.


• Siano: n
o X: variabile åx i
o xi (i = 1, 2, …n): modalità/valori che la variabile può assumere m= i=1
n
# Misure
1 1
2 3
3 2
4 5
5 4
6 2 somma 59
7 2
8 3
numero di casi 20
9 3 media 2,95
10 2
11 3
12 4
13 4
14 3
15 2
16 5
17 4
18 3
19 3
20 1
Indici di tendenza centrale
Media geometrica

• La media geometrica si applica di fronte a grandezze in cui vi è un comportamento di


tipo non additivo, ma moltiplicativo.
• Siano:

o X: variabile n

o xi (i = 1, 2, …n): modalità/valori che la variabile può assumere m0 = n Õ x i


i=1

E' utilizzata anche quando le informazioni sono moltiplicate tra loro.

Esempio. I tassi di crescita sono moltiplicati per loro stessa natura. Lo stesso
può dirsi per il tasso di interesse e il tasso di inflazione nei problemi economici.
Indici di tendenza centrale
Mediana

• I percentili dividono la serie ordinata delle osservazioni in 100 parti, contenenti ciascuna
l’1% delle osservazioni (es.: il 25mo percentile lascia prima di sé il 25% delle osservazioni
e il 75% dopo). La mediana è quell'indicatore che divide la graduatoria in due parti uguali
(indica cioè 50mo percentile).
• Occorrono due differenti formule applicative per calcolarla, da adottare in relazione alla
numerosità dei dati.
o Se n è dispari la mediana è rappresentata dal termine centrale della successione, individuato
dalla formula (n+1)/2
o Se n è pari non si può determinare un valore centrale unico, ma piuttosto una coppia di valori
mediani. Nella pratica è consuetudine accettare come mediana la semisomma dei termini della
successione che occupano i posti n/2 e (n/2)+1
• Siano:
o 23, 24, 24, 25, 26, 27, 28: successione ordinata dei voti di 7 esami di uno
studente
o Siccome n è dispari, il voto mediano sarà quello che occupa il (n+1)/2=4° Me = 25
posto

o 23, 24, 24, 25, 26, 26, 27, 27, 28, 28: successione ordinata dei voti di 10
esami di uno studente
o Siccome n è pari, il voto mediano sarà dato dalla semisomma tra quello che Me = 26
occupa il n/2=5° posto, ed (n/2)+1=6° posto
Indici di tendenza centrale
Mediana
Indici di tendenza centrale
Mediana

valori media tra


# Misure Misure ordinate crescenti centrali valori
(pari)pari centrali
1 1 1
2 3 1
3 2 2
4 5 2
5 4 2
6 2 2
7 2 2
8 3 3
9 3 3
10 2 3 3
3
11 3 3 3
12 4 3
13 4 3
14 3 3
15 2 4
16 5 4
17 4 4
18 3 4
19 3 5
20 1 5
Indici di tendenza centrale
Moda

• La moda (o norma) di una distribuzione di frequenza della variabile X è la modalità (o la


classe di modalità) caratterizzata dalla massima frequenza e viene spesso rappresentata
con la simbologia ν0. In altre parole, è il valore che compare più frequentemente.
• Siano:

o X: variabile
o xi (i = 1, 2, …n): intensità/valori che la variabile può assumere Mo = 6
o 2, 2, 3, 4, 4, 5, 5, 6, 6, 6, 6, 7, 10: xi valori assunti da X in una
distribuzione
Indici di tendenza centrale
Moda

# Misure Misure ordinate crescenti

1 1 1
2 3 1
3 2 2
4 5 2
5 4 2
6 2 2
7 2 2 Moda
8 3 3 3
9 3 3
10 2 3
11 3 3
12 4 3
13 4 3
14 3 3
15 2 4
16 5 4
17 4 4
18 3 4
19 3 5
20 1 5
Indici di tendenza centrale
Moda
Indici di tendenza centrale
Riepilogo

Definizione Vantaggi Svantaggi

Somma dei Adatta a


Molto influenzata
MEDIA dati/Numero dei manipolazioni
dai valori estremi
dati matematiche

Livello di misura al
di sotto del quale Non adatta a
Non influenzata dai
MEDIANA ricade la metà dei manipolazioni
valori estremi
dati della matematiche
distribuzione

Valore che ricorre


Possibili
con maggiore Di significato
MODA distribuzioni bi–,
frequenza in una facilmente intuibile
tri–modali, etc.
distribuzione
# Misure
1 1
2 3
3 2
4 5
5 4
6 2
7 2
8 3
9 3
10 2
11 3
12 4 Media
13 4 3,0
14 3
15 2
16 5
17 4
18 3
19 3
20 1

# Misure
1 3
2 3
3 3
4 3
5 3
6 3
7 3
8 3
9 3
10 3 Media
11 3
12 3
3,0
13 3
14 3
15 3
16 3
17 3
18 3
19 3
20 3
Misure di variabilità (o dispersione)
Misure di variabilità (o dispersione)

• Le misure di variabilità, assieme a quelle di tendenza centrale, permettono di


descrivere in modo più ampio e completo la distribuzione di un gruppo di valori.
• Osservando una qualsiasi distribuzione di frequenza, si può osservare come un
buon numero di casi siano distanti in varia misura dal valore centrale che è stato
adottato per rappresentarli
o Una media non fornisce indicazioni in merito a come i dati si distribuiscono attorno al
valore centrale della distribuzione.
o Due campioni, pur avendo una media molto simile, possono essere molto differenti nel
modo in cui le frequenze si distribuiscono attorno ad esse

• Nessun indicatore di tendenza centrale è in


grado di evidenziare la differenza nella
distribuzione di valori attorno ai valori medi
tra le due distribuzioni
• occorrono anche degli indici che misurino la
variabilità, ovvero la dispersione dei dati
attorno al valore centrale

m1 m2
Misure di variabilità (o dispersione)
Range – Scarto Medio Assoluto

• Il campo di variazione (o range), ottenibile sottraendo il valore minimo delle


determinazioni della variabile X dal suo valore massimo.
o Tale indice, dipendendo solo dal primo e dall'ultimo termine della successione di
osservazioni, non tiene conto dei termini intermedi e dunque della loro concentrazione
attorno al valore medio

xmax - xmin
• Lo scostamento semplice medio dalla media aritmetica (o scarto medio assoluto)
tiene invece conto della distanza dei dati dal valore centrale individuato nella
distribuzione.
n
• Siano:
å x -mi
sm = i=1
n
o X: variabile
o xi (i = 1, 2, …n): modalità/valori che la variabile può assumere
o m (oppure X): media aritmetica della distribuzione
Misure di variabilità (o dispersione)
Deviazione Standard

• La deviazione standard (o scostamento quadratico medio) è molto simile alla misura


precedente ma, al posto del valore assoluto, presenta il quadrato della differenza
tra singolo valore della variabile e valore medio della distribuzione.
o L'estrazione della radice quadrata è stata inserita per ridimensionare l'effetto
dell'elevamento dei dati sulla dimensione delle grandezze esaminate

• Siano:

å ( x - m)
2
o X: variabile
o xi (i = 1, 2, …n): modalità/valori che la variabile può i
assumere s= i=1

o m (oppure X ): media aritmetica della distribuzione n


n

å ( x - m)
2
i
s= i=1
n
Altezze altezze - media (altezze - medie)^2
173 -3,222 10,383
182 5,778 33,383 somma 283,556
177 0,778 0,605 somma/n 31,506
182 5,778 33,383 radice 5,613
173 -3,222 10,383
179 2,778 7,716 [Link] 5,613
164 -12,222 149,383
182 5,778 33,383
174 -2,222 4,938

Media 176,2222222
Misure di variabilità (o dispersione)
Varianza

• La varianza è il quadrato della deviazione standard. Viene calcolata per una


popolazione di ampiezza n.

• Siano:
n

å ( x - m)
2
i
s =2 i=1
o X: variabile
n
o xi (i = 1, 2, …n): modalità/valori che la variabile può
assumere
o m (oppure X ): media aritmetica della distribuzione
Misure di variabilità (o dispersione)
Deviazione Standard e Varianza campionarie

• La deviazione standard campionaria e la varianza campionaria si distinguono dalle


precedenti versioni delle due formule in quanto si impiegano in presenza di gruppi
di osservazioni o campioni di dimensione limitata, per i quali è consigliabile porre al
denominatore della formula la quantità (n-1).
o Se n è molto grande, per calcolare la varianza o la deviazione standard la divisione per n o
per (n-1) fornirà risultati molto simili; al contrario, se n è piccolo tale approssimazione non
è più accettabile, per cui occorre in entrambi i casi dividere le somme degli scarti per (n-1)

• Siano:
n

å ( x - m)
2
i
S= i=1

o X: variabile n -1
o xi (i = 1, 2, …n): modalità/valori che la variabile può
assumere n

å ( x - m)
2
o m (oppure X ): media aritmetica della distribuzione
i
s =2 i=1
n-1
Principali indici statistici
Riepilogo
Esercizi

Esercizio 1:
I seguenti numeri riportano i componenti di 20 famiglie: 1 3 2 5 4 2 2 3 3 2 3 4 4 3 2 5 4 3 3 1
Costruire:
- la distribuzione di frequenza
- Fare l’istogramma relativo la distribuzione di frequenza

Esercizio 2:
Le temperature nella località X alle 12 sono state 12.1 14.5 9.7 8.1 13.0 12.5 10.5
Calcola la media e la mediana.
Esercizi

Potrebbero piacerti anche