Sei sulla pagina 1di 10

Descrittiva I

 
La statistica è una scienza quantitativa che permette di trarre
informazioni attendibili su fenomeni collettivi.
La metodologia statistica viene suddivisa in:
 statistica descrittiva: è la branca della Statistica che studia i criteri di rilevazione, di
classificazione e di sintesi delle informazioni relative a una popolazione oggetto di studio;
organizza e sintetizza i dati ed aiuta a descrivere le caratteristiche di un gruppo o di una
popolazione.
 statistica inferenziale: è il procedimento per cui si inducono le caratteristiche di una
popolazione dall'osservazione di una parte di essa, detta campione, selezionata mediante
un’estrazione casuale.
(dal campione alla popolazione)
 
Dati
I dati costituiscono la ‘materia prima’ su cui lavora lo statistico. Vengono raccolti ed
elaborati al fine di ottenere:
–un messaggio sintetico (statistica descrittiva)
–leggi generali ottenute da un numero limitato di osservazioni ma valide per tutti i soggetti
con caratteristiche analoghe (statistica inferenziale)
Tipologie di dati:

*nominali (etichetta) --> binari (due etichette possibili)


*ordinali (hanno ordine naturale) es. taglie
 
Nel linguaggio statistico alla parola DATO viene spesso sostituita con la parola VARIABILE
Il termine variabile sottolinea che il valore cambia da un soggetto all’altro.
I dati che non cambiano di valore sono denominati costanti.
 
Struttura dei dati:
 Matrice di dati (tabella) : consiste in un insieme rettangolare di numeri, dove in riga abbiamo
i casi e in colonna le variabili; in ogni cella derivante dall’incrocio tra una riga e una colonna
abbiamo un dato, cioè il valore assunto da una particolare variabile su un particolare caso.
Esempio: studio sui fattori di rischio di sepsi in neonati prematuri

Descrizione statistica di dati categorici: distribuzioni di frequenza


→ insieme di valori ( modalità o intervalli di classe) di una variabile con associata la frequenza con
cui tali valori sono stati rilevati nel campione.
 
 
Se il campione non è piccolo, bisogna creare delle classi di valori. Le classi devono essere:
–complete: devono coprire l‘intero range di valori
–disgiunte: ciascun valore appartiene a una sola classe

2. Assegnare ad ogni modalità/intervallo la frequenza assoluta o relativa (proporzione o


percentuale)
 Frequenza assoluta: numero di osservazioni corrispondente alle diverse modalità o intervalli
di classe della variabile
 Frequenza relativa: rapporto tra il numero di osservazioni corrispondente alle diverse
modalità o intervalli di classe della variabile e la dimensione campionaria ( rapporto tra la
frequenza assoluta e la dimensione campionaria)
Frequenza cumulativa: è la somma totale della frequenza assoluta dell'elemento della serie
preso in esame e di tutte le frequenze assolute dei valori che lo precedono.(dati quantitativi
e categorici ordinali)

 
 
Rappresentazione grafica delle distribuzioni di frequenza: diagramma a barre
 
 
Rappresentazione grafica delle distribuzioni di frequenza per variabili qualitative: diagramma
a torta
 
Rappresentazione grafica delle distribuzioni di frequenza per variabili quantitative:
istogramma

*area proporzionale alla frequenza assoluta


Descrittiva II
La statistica descrittiva ci permette di descrivere i dati per mezzo di indici numerici:
Valori caratteristici di una distribuzione:
– Misure di tendenza centrale o di posizione
– Misure di dispersione
Vi sono anche altre caratteristiche della distribuzione (esempio: grado di asimmetria)
 Tendenza centrale: forniscono un valore numerico che si trova “al centro” dell’insieme delle
osservazioni.
Operatori frequenti: moda, media, mediana.
1. Moda: modalità della variabile che si verifica il maggior numero di volte.
-->
Se i valori di una variabile numerica (discreta o continua) sono raggruppati in classi di
ampiezza costante la classe modale è quella in cui cade il maggior numero di osservazioni.
Vi può essere una distribuzione “bimodale” o “plurimodale” oppure la moda può essere
assente.
2. Mediana: modalità di una variabile a cui appartiene il caso che divide a metà la distribuzione
(il 50% dei valori sono più bassi della mediana e il 50% dei valori sono più alti della mediana).
--> Si riordinano le modalità della variabile in ordine crescente, si identifica il soggetto
centrale: la mediana è la modalità/valore della variabile di quel soggetto.
Se i soggetti sono pari, ci sono 2 soggetti centrali: la mediana è la media aritmetica dei due
valori della variabile per i due soggetti centrali.
Caso mediano: n +1 /2
3. Media: La media di una variabile (continua o discreta) è calcolata sommando le osservazioni
e dividendo per il numero totale delle osservazioni.

 
 Media su dati aggregati - distribuzione di frequenza
 
 
 
 
 
 
 
 

Inferenza: esempi ed applicazione


 
Test d’ipotesi e intervalli di confidenza sono i mezzi che utilizziamo per l’inferenza statistica, per
confutare l'ipotesi nulla.
Le applicazioni sono:
 Confrontare media campionaria e ipotesi di media di popolazione.
 Confrontare l'effetto di un trattamento in due gruppi di persone
--> il trattamento ha effetto diverso nei due gruppi?
Ipotesi nulla : stesso effetto nei due gruppi
Ho: δ = µ1 - µ2 = 0 ( le medie di popolazione, parametri di inferenza, devono essere uguali)
"delta" è la differenza, ovvero il corrispettivo reale di d ( devo chiedermi se d può essere uno
0 mascherato oppure no, ovvero δ è veramente d oppure può essere uno 0 in incognito? ).
Viene calcolato l'intervallo di confidenza IC per la vera differenza di popolazione δ, perciò in
quell'intervallo di due numeri abbiamo confidenza di trovare δ. Se 0 non è compreso in tale
intervallo, allora la differenza non può proprio essere 0. l'ipotesi nulla viene quindi rifiutata, il
trattamento ha effetti diversi.
Inoltre, tenendo conto il significato di p ( probabilità di trovare la misura campionaria d se è
vera l'ipotesi nulla) si deve rifiutare l'ipotesi nulla se p è minore di α.
 Confrontare l'effetto di due trattamenti
--> un trattamento diverso ha effetto diverso sullo stesso gruppo?
Ipotesi nulla: i due trattamenti hanno lo stesso effetto
Ho: le medie di popolazione corrispondenti (μ1 e μ2) devono essere uguali, e cioè che la loro
differenza δ sia nulla.
 δ = μ1 - μ2 = 0
Si esegue il procedimento precedente, ricordando che se 0 è compreso nell'intervallo di
confidenza, allora l'ipotesi nulla viene accettata e che se p è maggiore di α non si ha
evidenza contro Ho.
 Valutare il rischio di una specifica malattia in un gruppo esposto a sostanze nocive o
benefiche.
--> l'incidenza della specifica malattia è diversa per esposti e non esposti?
Si considera molto frequentemente il rischio relativo RR (rapporto tra i due rischi esposti vs
non esposti), invece della differenza δ.
Ipotesi nulla: il rischio di malattia deve essere uguale negli esposti e nei non esposti alla
sostanza.
Ho: RR = 1 il vero rapporto di popolazione tra i rischi deve essere 1.
Ci sono molti modi per misurare il rischio relativo (RR):
  Rapporto dei rischi: RR
  Rapporto dei tassi di incidenza (incidence rate ratio): IRR
  Rapporto degli odds (odds ratio): OR
  Rapporto standardizzato di mortalità (incidenza): SMR (SIR)
Se IC non comprende RR = 1 allora l'ipotesi nulla è rifiutata. Se p è minore di α, allora si ha
evidenza contro Ho.
 Valutare il rischio di morte
--> rischio di morire in un gruppo vs. rischio di morire nell’altro gruppo
Si utilizza l'hazard ratio HR.
Ipotesi nulla: il rischio di morire deve essere uguale nei due gruppi.
Ho : HR = 1
Si esegue lo stesso procedimento precedente.
--> randomizzazione: si vuole ottenere gruppi il più possibile bilanciati. Per dimostrare che la
randomizzazione è stata eseguita correttamente gli statistici utilizzaano la tabella 1 o
baseline, ovvero esplicitano tutte le caratteristiche che influenzano l'esito, prima del
trattamento come età,sesso,etc).
 
Ricorda:

Potrebbero piacerti anche