Sei sulla pagina 1di 47

Corso di Laurea in Scienze Biologiche

Anno accademico 2021/2022


CI Igiene e Statistica

Modulo di Statistica

Prof.ssa Martina Barchitta

3 marzo 2022
2
3
4
5
STATISTICA

La Statistica è una scienza, strumentale ad altre, che elabora i


metodi più idonei per analizzare dati numerici riguardanti vari
fenomeni, in particolare sociali, economici, biologici e naturali

Quando l’interesse è rivolto alle scienze biologiche e biomediche,


e all’interpretazione dei fenomeni correlati ad esse si usa il
termine di biostatistica o se applicata alla medicina di statistica
medica

Insieme delle metodologie per lo studio di fenomeni,


singolarmente o congiuntamente considerati, che hanno
l’attitudine a manifestarsi in maniere differenti
La rilevazione dei dati

❑ L’UNITÀ DI ANALISI o UNITÀ STATISTICA è costituita dal


singolo elemento della popolazione in esame al quale si
riferiscono le proprietà studiate (es. organismo unicellulare,
individuo, studente, classe, evento, famiglia,
organizzazione, istituzione, impresa, unità amministrativa,
ecc; individuo, specie, genere, famiglia, ordine, classe,
phylum, regno)

❑ I CASI sono gli esemplari di una data unità di analisi inclusi


in una determinata ricerca
Esempi

❑ Se l’unità di analisi è la cellula staminale umana, la singola


cellula sarà il caso, l’universo sarà costituito dall’insieme di
tutte le cellule staminali
❑ Se l’unità di analisi è la cellula della cervice uterina umana, la
singola cellula sarà il caso, l’universo sarà costituito
dall’insieme di tutte le cellule cervicali, e sui casi si studieranno
le caratteristiche biologiche ad es. la presenza di DNA da HPV
❑ Se l’unità di analisi è la scuola, la singola scuola sarà il caso,
l’universo sarà costituito da tutte le scuole
La Rilevazione dei dati

Le unità di analisi, che denotano in maniera astratta il tipo di


organismo biologico al quale si riferiscono le proprietà di
interesse per la ricerca, si contestualizzano nel tempo e nello
spazio nella

POPOLAZIONE DI RIFERIMENTO
o UNIVERSO
La Rilevazione dei dati
Può essere:
✓ Totale (esaustiva)
✓ Campionaria (parziale)

Mentre l’indagine totale fornisce il valore esatto del parametro


richiesto (es: percentuale, valor medio, variabilità), l’indagine
campionaria ne da solo una stima, cioè un valore
approssimato, affetto da un errore o bias:

L’ERRORE DI CAMPIONAMENTO
CAMPIONE PROBABILISTICO

Se un campione è stato scelto con una procedura


rigorosamente casuale,

se cioè si tratta di un campione probabilistico,

la statistica (inferenziale) permette di calcolare l’entità di tale


errore
Rilevazione statistica

Un prerequisito indispensabile alle elaborazioni statistiche è la


raccolta dei dati riguardanti il fenomeno che si vuole studiare

Una rilevazione statistica è la raccolta di informazioni su un certo


fenomeno con un metodo fornito dalla statistica

I dati rilevati possono riguardare:

L’intera POPOLAZIONE

Un CAMPIONE estratto da essa


Popolazione statistica Ω

Popolazione Insieme di tutti gli individui


o oggetti cui il fenomeno si
riferisce

Sottoinsieme di unità estratto


Campione dalla popolazione

Insieme delle frequenze relative


Distribuzione ai valori campionati
Campione casuale

Sottoinsieme della popolazione che si vuole considerare,


formato da elementi la cui scelta è affidata al caso

MA CHE SEGUE LE REGOLE PRECISE


DEL CAMPIONAMENTO
Carattere

Il carattere di una unità statistica è una particolare


caratteristica degli individui della popolazione stessa che si
manifesta in essi con forme differenti
Carattere

Il carattere in base al quale effettuare l’organizzazione dei dati


deve possedere i seguenti requisiti:

1. Il carattere deve poter assumere modalità diverse

2. Più individui possono possedere la stessa modalità del


carattere

3. Ogni individuo della popolazione deve poter possedere


un’unica modalità del carattere

4. Devono esistere almeno due individui della popolazione per


cui il carattere assuma modalità diverse
Esempio di carattere
Stato nutrizionale di soggetti adulti:

1. Modalità: sottopeso, normopeso, sovrappeso, obeso

2. Più individui possono possedere la stessa modalità del


carattere

3. Ogni individuo della popolazione deve poter possedere


un’unica modalità del carattere. Ossia le modalità sono
mutuamente esclusive

4. Devono esistere almeno due individui della popolazione per


cui il carattere assuma modalità diverse
Variabili
Un qualunque fenomeno che può assumere valori o
modalità diverse è detto variabile
In biostatistica le variabili possono essere:

Nominali
Qualitative (sono attributi)
Ordinali

Discrete
Quantitative (sono numeri)
Continue
Variabili qualitative

❑ V. nominali non esiste nessun ordine naturale delle categorie


per cui dal loro confronto si possa stabilire una relazione del tipo
minore, maggiore
❑ V. cardinali (ordinali) se le sue categorie hanno un ordine
naturale non ambiguo

Le variabili qualitative sono intuitivamente più semplici anche se


la loro natura limita le possibilità di analisi e ne circoscrive il
potenziale informativo
Variabili Qualitative

Anche le variabili qualitative possono essere espresse in numeri,


esempio: casi di AIDS: affetto (1) o no (0) da sarcoma di Kaposi
(tumore della cute, mucose e linfonodi)
Le variabili nominali che assumono una di due distinte modalità
sono dette dicotomiche
Es. maschio/femmina variabili dicotomiche o dummy
Non tutte le variabili sono dicotomiche
Es. Gruppo sanguigno A, B, O
In ambedue i casi l’ordine non importa
Variabili Qualitative

Quando l’ordine tra le categorie di una variabile è importante,


siamo dinnanzi a variabili ordinali. Es. ferita da arma: mortale,
grave, mediamente grave, lieve. Classe della ferita chirurgica,
pulita, contaminata, sporca

Dati ordinati in ranghi in relazione alla grandezza – es. in ordine


decrescente; a ciascuna osservazione è assegnato un numero
che corrisponde alla posizione nella sequenza – es. Tabella della
mortalità per causa o età
Variabili Quantitative

Mentre le variabili qualitative assegnano alle unità statistiche


osservate degli attributi, le variabili quantitative rappresentano
misurazioni numeriche effettuate sulle unità statistiche
osservate
Variabili Quantitative

Variabili quantitative o cardinali: numeri

Variabili discrete: possono assumere solo valori interi


è rilevante sia l’ordine che la grandezza: i numeri non sono qui
simboli ma vere misure, che possono assumere solo valori
specifici
• N° di nucleotidi di una sequenza di DNA
• Quanti pasti consumi al giorno?

Variabili continue: possono assumere qualunque valore, anche


frazionario:
il tempo, il peso, il livello di colesterolo sierico, concentrazione di
metalli pesanti nell’acqua
Esempi di variabili qualitative

Genere
variabile qualitativa nominale
Stati della proprietà: M e F,
sconnessi, M ≠ F
Esempi di variabili qualitative

CLASSIFICAZIONE DEGLI AGENTI BIOLOGICI


D. L. 81/2001

Classe 1: Basso Rischio individuale e collettivo


Classe 2: Medio Rischio individuale e collettivo
Classe 3: Alto Rischio individuale e Basso Rischio collettivo
Classe 4: Elevato rischio individuale e collettivo

Classe di rischio: variabile qualitativa ordinale


Stati della proprietà: basso, medio, alto ed elevato
Operazioni: classificazione e ordinamento:
basso < medio < alto < elevato
Esempi di variabili quantitative discrete

Operativizzazione: conteggio

N° di paia di basi (bp) di una sequenza nucleotidica

N° di nuclei in una cellula


Esempi di variabili quantitative continue

OPERATIVIZZAZIONE: MISURA (stabilire l’unità di misura)

La concentrazione di mercurio nell’acqua potabile è compreso


tra 50 e 500 ng/l (nanogrammi/litro)

Le dimensioni di una cellula 4-6 µ (micron)

Il peso di un organo (es. nell'uomo adulto, il cervello pesa


mediamente da 1,3 a 1,4 Kg)
Corso di Laurea in Scienze Biologiche
Anno accademico 2021/2022
CI Igiene e Statistica

Modulo di Statistica

Prof.ssa Martina Barchitta

10 marzo 2022
La matrice dei dati
(casi * variabili)
Caso variabile
i x1 x2 … xj …
1 X 11 X 12 … X 1j …
2 X 21 X 22 … X 2j …
3 X 31 X 32 … X 3j …
… … … … … …
… … … … … …
… … … … … …
… … … … … …
N X N1 X N2 … X Nj …
La matrice dei dati
Serve ad organizzare l’informazione (materiale empirico grezzo)
in una forma idonea all’analisi statistica

OGNI RIGA RAPPRESENTA UN CASO

… … … … … …
caso i xi1 xi2 … xij …
… … … … … …

Nel linguaggio informatico derivante dall’inglese, ogni riga della


matrice è chiamata RECORD: il tracciato-record è la chiave di
lettura della matrice dei dati poiché indica la posizione delle
variabili nella riga (oltre che lo spazio occupato da ciascuna di
esse)
La matrice dei dati
OGNI COLONNA RAPPRESENTA UNA … Variabile X j …
VARIABILE
ovvero una caratteristica osservata e
… x 1j …
misurata … x 2j …
… … …
Il numero delle colonne della matrice
… … …
dipende dalla più o meno ampia gamma
di informazioni che sono disponibili per … x ij …
ciascun caso … … …
… … …
… x Nj …
Classificazione
Classificare una popolazione Ω secondo un certo carattere
(variabile X) significa individuare per ogni soggetto ω Є Ω una ed
una sola modalità della variabile X

Attraverso la classificazione, pertanto, si passa da un certo numero


di casi (nella popolazione Ω) ad un certo numero di aggettivi o
numeri che rappresentano le modalità del fenomeno (variabile X)
rispetto al quale ogni caso viene classificato

La classificazione è l’operazione logica che presiede alla


formazione di una variabile statistica
Distribuzione di Presenze o
Frequenze Assolute
Siano:

Ω = popolazione statistica costituita da N elementi


(es. studenti)

X = carattere in esame (es. età)

Supponiamo che l’insieme delle modalità del carattere X sia costituito da K


elementi, cioè

X (Ω ) = {x1, x2…xk}
(Ad es. 18, 19, 20…28 anni)
• Il concetto di frequenza (assoluta o presenza) è prettamente statistico e si
riferisce al numero di volte in cui ricorre una medesima osservazione
• Ad esempio il valore 20 anni ha una frequenza più elevata rispetto al valore
22 anni in questa aula
Distribuzione di Frequenze Relative
Si dice FREQUENZA RELATIVA (o semplicemente frequenza) della modalità xi , e
si denota con fi , il rapporto fra il numero di presenze (frequenza assoluta) di
xi ed il numero di elementi di Ω (totale campione o popolazione)

In questo caso la popolazione Ω, classificata in base al carattere X, si associa


una distribuzione di frequenza relativa:
x1 x2 … xk
X =
f1 f2 … fk
Ovviamente risulta:
Misure di frequenza
1) Frequenze (o valori) assoluti o Presenze
Risultato dell’osservazione di un fenomeno (nascite, malattie, morti)
Numero che esprime la frequenza di comparsa del fenomeno (N) stesso nel tempo (tx)
di osservazione
N(tx)
2) Rapporto (Ratio)
frazione in cui il numeratore non è incluso nel denominatore
Esempio: numero di fumatori/numero di non fumatori; maschi/femmine

3) Proporzione (Proportion) – Frequenza relativa o percentuale


frazione in cui il valore del numeratore è una parte del valore del denominatore
Esempio:
La proporzione di bimbi con morbillo in una popolazione scolastica è:
Bimbi con morbillo = 25; Bimbi nella scuola = 200
proporzione = 25/200 = 0.125 ovvero 12.5%

36
Distribuzioni Cumulative
Un’importante caratterizzazione di una variabile statistica viene data dalla
distribuzione cumulativa di frequenza (assoluta o relativa): è calcolata
sommando le frequenze relative per il valore specificato insieme a quelle
dei valori precedenti

X =
x1 x2 … xk
n1 n1 + n2 … n1 + n1 + nk

X =
x1 x2 … xk
f1 f1 + f2 … f1 + f1 + fk
Frequenza Frequenza Frequenza
Livello di istruzione assoluta relativa cumulativa

Nessuna istruzione 6 7,5% 7,5%

Elementare/media 22 27,5% 35%

Diploma 30 37,5% 72,5%

Laurea 22 27,5% 100%

Totale 80 100%
Rappresentazioni grafiche

Hanno lo scopo di fornire immediatamente le caratteristiche


essenziali del fenomeno oggetto dell’indagine

Ciò si ottiene facendo corrispondere alcuni disegni alla


distribuzione di frequenze della variabile statistica
precedentemente costruita

Le più importanti rappresentazioni grafiche sono:


il diagramma a barre, l’istogramma, il diagramma a settori
circolari o a torta, il cartogramma
Rappresentazioni Grafiche

Il diagramma a barre è una maniera di presentare dati nominali


(ma non solo)
Sulla scala delle ascisse i diversi valori si susseguono in maniera
arbitraria nel caso di variabili puramente nominali o con un certo
ordinamento nel caso di variabili ordinali o di variabili
quantitative
In ordinate si riportano le frequenze (assolute o relative) di
presentazione
I dati appaiono, allora, come una successione di rettangoli di
larghezza arbitraria e di altezza proporzionale alla frequenza
Diagramma a barre
60%

52%
50%

40%

30%
25%
20%
15%
10% 8%

0%

Laurea Diploma Elementare/media Nessuna istruzione

Il diagramma a barre si usa generalmente per rappresentare dati di tipo


nominale, ma non solo
Rappresentazioni Grafiche
Il modo di presentare con i grafici le variabili numeriche è più vasto

In ordinate si riportano sempre le frequenze (assolute o relative) di


presentazione delle grandezze

In ascisse si riportano i valori ottenuti

Se i valori sono riportati con continuità si ottiene un istogramma:


variabili quantitative continue
Istogramma
Ogni classe individua un intervallo di valori e il numero di dati che
ricade in quella classe costituisce la frequenza associata a ciascuna
classe
I dati si presentano, pertanto, come una successione di rettangoli di
area pari alla frequenza della classe
La base del rettangolo è l’ampiezza della classe
L’altezza è data da:

cioè la densità di frequenza, ovvero il rapporto tra la frequenza e


l’ampiezza della classe considerata
Istogramma
Diagramma a settori circolari
Si rappresenta come parte (settore) dell’area di un cerchio la
frequenza associata a ciascuna modalità della distribuzione

L’ampiezza dell’angolo è ottenuta dalla proporzione:

da cui
Adatto ad ogni tipo di carattere, ma da utilizzare quando il
numero di modalità è limitato
Diagramma a settori circolari
Nessuna
Elementare/m istruzione; 8% Laurea; 25%
edia; 15%

Diploma; 52%
Cartogramma

47

Potrebbero piacerti anche