Sei sulla pagina 1di 6

Statistica descrittiva

Misure di tendenza centrale (aka sintetizzare una serie di dati in un valore unico che dia
unidea di cosa rappresentano le misurazioni effettuate)
Descrivono landamento generale della serie di dati, che cosa vogliano dire i dati raccolti.
Quelle utilizzabili in scala numerica continua sono:
Media:
E unica (viene fuori un valore solo)
E semplice da usare (la sa calcolare anche mia nonna)
E molto influenzata dagli estremi
Es: media dei valori 3, 4, 5 --> (3+4+5)/3 = 4, ma media dei valori 3, 4, 5, 12 -->
(3+4+5+12)/4 = 6 .
Cambia un sacco al primo valore un p strano che capita, e soprattutto bastano
pochissimi valori che si discostano di molto dagli altri per influenzarla di molto.
Un campione che raccogliamo dovrebbe rappresentare la popolazione ma per
definizione un campione un numero piccolo di valori che ne rappresenta uno
grande e con variabilit molto maggiore. Siccome tra i dati che estraiamo
potremmo includere un valore estremo senza saperlo bisogna stare attenzione a
prendere la media per oro colato.
Mediana:
E unica
E semplice da calcolare
Non drasticamente influenzata dagli estremi
Es: la mediana di queste due serie [1, 6, 7, 9, 11] e [1, 6, 7, 9], cio rispettivamente
7 e (6+7)/2= 6,5, molto simile.
Pu assumere un valore che non appartiene allinsieme e che, in teoria, non
esiste: nella serie [1, 6, 7, 9] dellesempio precedente infatti la mediana calcolata (6,5)
non appartiene allinsieme ed un dato che stato inventato.
Moda:
E semplicemente il valore che compare pi volte
Se tutti i valori sono diversi non c la moda
Una serie di valori pu avere pi mode (essere mono-, bi-, tri-, n-modale)
(E un dato inutile e stupido, viene usato perch fa comodo. Quando leggiamo un
articolo ed i nostri colleghi hanno puntato tutto sulla moda fate attenzione perch
difficilmente usiamo la moda come dato per dimostrare qualcosa cit.)
Midrange (Valmax-Valmin)/2 :
Unico
Semplice
Troppo sensibile agli estremi
Non va confuso con la mediana
Bonus della prof: serve a poco perch non conosco il centro o la variabilit
Media pesata
Frequente il suo utilizzo in ambito clinico

Misure di variabilit (o dispersione)


Indicano quanto i dati rilevati sono dispersi intorno al valore dato dallindicatore di tendenza
centrale, cio servono per capire se gli indicatori centrali rappresentano decentemente i dati o

se questi sono cos dispersi che svarionano troppo e potrebbero verificarsi valori lontanissimi
dalla media.)
Intervallo di variazione (o campo o range):
Differenza tra valore massimo e minimo
Di utilit limitata, d unidea della dispersione
[4, 7, 7] e [1, 3, 14]: la media 6 per entrambe ma la variabilit della seconda molto
maggiore
Varianza:
E il quadrato della deviazione standard
Serve per standardizzare le misure di variabilit
Non dipende dalla numerosit delle osservazioni
Molto importante, usata in numerose procedure statistiche
[Come si calcola:
X- = Scarto del valore X dalla media (): pu essere positivo o negativo, a seconda che il valore che
stiamo considerando sia superiore o inferiore a quello medio della serie di dati. Indica quanto si
discosta il valore preso in esame dalla media di tutti i valori.
Devianza: somma del quadrato di tutti gli scarti: (X1- )2+(X2- )2+... (Xn- )2
In una distribuzione gaussiana (che simmetrica e quindi ha tanti valori maggiori della media quanti
ce ne sono al di sotto di essa) la somma di tutti gli scarti non elevati al quadrato =0; li si eleva al
quadrato per esasperare la distanza tra il valore preso in esame e la media, ed in modo da avere
tutti valori positivi. In questo momento non ci interessa sapere come siano dispersi i dati intorno alla
media ma proprio misurare quanto questi se ne discostano in maniera grezza, a prescindere dal fatto
che lo facciano in positivo od in negativo.
Varianza: Devianza / (n di osservazioni effettuate)
Questo valore numericamente elevato (anche se si divide per n comunque la somma di tanti valori
elevati al quadrato) ed inoltre si ottiene un valore con unit di misura che il quadrato di quella presa
in esame: se stiamo misurando il peso di alcuni individui troviamo una varianza espressa in Kg 2, se
misuriamo delle altezze addirittura m 2, cio unarea, e questo ovviamente non ha un cazzo di senso
logico.
Quindi nella pratica si usa di solito la Deviazione Standard (o Scarto Quadratico Medio, ), cio la
radice quadrata della Varianza.
Cos si ottiene un valore pi piccolo e maneggevole e con la stessa unit di misura della grandezza
che stiamo misurando (e quindi col pregio di non essere campato in aria per seghe mentali
matematichesi).
Varianza e DS campionarie: quando si lavora con un campione invece che dividere la somma dei
quadrati degli scarti (cio la devianza) per n la si divide per n-1.
Essendo il denominatore pi piccolo sia la varianza che la DS assumono un valore un p pi elevato, a
simboleggiare il fatto che su un campione piccolo con poche osservazioni lincertezza maggiore.
Inoltre cos se si tentasse di calcolare la variabilit di un campione composto da una sola misurazione il
denominatore verrebbe =0 ed il rapporto num/0 diventerebbe impossibile, un altro modo per dire
matematicamente che calcolare la variabilit di una sola misurazione non ha senso.
Anzich essere essere chiamate 2 e vengono indicate con s 2 ed s, perch come regola generale
quando si parla di dati riferiti alla popolazione si usano le lettere greche mentre per dati riferiti ad un
campione si utilizzano le corrispettive lettere latine.]

Coefficiente di Variazione:
C.V.= [(Deviazione Standard) / ] *100

E utile per indicare la dispersione di un solo insieme di dati con una semplice
percentuale oppure per utilizzare questa percentuale per confrontare dispersioni tra
popolazioni e campioni diversi.

Pu essere usato per indicare la dispersione di due parametri della stessa


popolazione (ad esempio misurare la variabilit di peso ed altezza di un campione di
soggetti e poi valutare se pi grande la dispersione del peso o quella dellaltezza).
Oppure per confrontare la dispersione dello stesso parametro in due popolazioni
differenti.

Misure di Posizione
Una volta che si ha unidea di come distribuita la popolazione generale si potrebbe voler sapere come si
inserisce allinterno di questa popolazione un dato valore che vogliamo studiare.
Quartili, percentili ed intervallo interquartile sarebbero a rigor di definizione indicatori di dispersione
perch anche loro valutano come sono dispersi i dati attorno ad un indicatore centrale ed infatti nella
dispensa che c sul gruppo sono trattati insieme alla deviazione standard: a lezione la prof li chiama
indicatori di posizione perch permettono di capire come si inserisce un certo valore allinterno
dellandamento generale (e quindi la sua posizione), ma a me lunica differenza sembra che la DS si usi
con variabili a distribuzione gaussiana mentre queste misure di posizione si usino con le distribuzioni
asimmetriche.

Quartili e Percentili:
La mediana divide una serie ordinata di dati in due parti contenenti entrambe il 50% dei
valori rilevati.
I quartili la dividono in quattro parti uguali, comprendenti tutte il 25% dei valori presi in
esame. Tra il secondo ed il terzo quartile si trova la mediana.
NB: i quartili non sono intervalli con la stessa ampiezza (dei valori presenti al loro interno),
ma semplicemente quattro insiemi che contengono lo stesso numero di misurazioni.
I percentili dividono la serie di dati in cento parti uguali, ognuna comprendente l1% dei
valori in esame. Si usano ad esempio in ostetricia per valutare la crescita del bambino in
relazione alle curve di crescita nota della popolazione.
Questi valori sono misurati sullintera popolazione e si usa la mediana (50 percentile)
perch risente poco dei valori estremi.
Intervallo (o range) interquartile
Indicatore di dispersione che valuta quanto ampio sia lintervallo di misure allinterno del quale
sono compresi il 50% dei soggetti con misure pi vicine alla mediana. E lintervallo di
misurazioni che si trovano tra il primo ed il quarto quartile, cio il secondo ed il terzo.
Outlier
E un valore estremo che dobbiamo analizzare per capire se si tratta di un errore di misurazione
od un dato reale.
Pu avere influenza notevole su:
media
deviazion standard
rappresentazione grafica (quindi anche sulla scala con cui si rappresentano i dati in un
grafico)

Probabilit
Evento: raccolta di esiti di un esperimento
Evento raro: bassa probabilit che si verifichi
Spazio campionario: composto da tutti gli eventi elementari
Evento complementare: evento che pu essere scomposto in eventi pi semplici.
La probabilit di un evento impossibile 0
La probabilit di un evento certo 1

Per ogni evento A la probabilit che esso si verifichi ( P(A) ) compresa tra 0 ed 1.
Variabili aleatorie
Una Variabile aleatoria una variabile (x) che assume un singolo valore numerico,
determinato in base al caso, per ciascuno degli esiti dellesperimento
Una distribuzione di probabilit un grafico, una tabella od una formula che fornisce
la probabilit p(x) di ciascun valore della variabile aleatoria. La somma di queste
probabilit sempre =1 ed ogni possibile soluzione ha probabilit compresa tra 0 ed 1.
Distribuzione binomiale (processo di Bernoulli)

Lesperimento ha un numero fissato di prove


Le prove devono essere indipententi (una prova non influenza il risultato della
successiva e non influenzata dal risultato delle precedenti)
Il risultato delle prove deve appartenere a due sole categorie (dicotomica)
Le probabilit devono rimanere costanti ad ogni prova
E sostanzialmente una serie di lanci di monete.
Si usa quando vogliamo determinare la probabilit di x successi in n prove (p = successo, q =
1-p = insuccesso). Il termine successo arbitrario, indica levento di cui vogliamo calcolare la
probabilit.
Quando si effettua un campionamento senza reimmissione gli eventi possono essere
considerati indipendenti quando la taglia del campione n minore del 5% della
popolazione.
Distribuzione di Poisson
Prendendo in esame il numero di volte () che un evento si verifica in media in un certo periodo
di tempo ben definito, fornisce la probabilit P(x) che lo stesso evento si verifichi x volte
anzich volte.
Gli eventi devono verificarsi in modo casuale
Ogni evento deve verificarsi indipendentemente dagli altri
Differenze tra la binomiale e la Poisson:
La binomiale determinata dalla taglia del campione (n) e dalla probabilit del
successo (p), mentre la Poisson determinata solo dalla media () di volte in cui si
verifica un evento (rapportata sempre ad un preciso intervallo di tempo, quindi si
riconosce subito).
I possibili valori che pu assumere la variabile aleatoria nella binomiale sono finiti
(oltre a n successi in n prove non possibile andare) mentre nella Poisson non c un
tetto massimo: descrive la probabilit che un evento si verifichi volte in un intervallo
di tempo, posso voler sapere qual la probabilit che questo si verifichi 10, 100, 1000
volte nello stesso intervallo, non c un limite massimo.

Distribuzione uniforme
Variabile aleatoria continua: ha una distribuzione uniforme se i suoi n valori si
distribuiscono uniformemente nellintervallo dei valori possibili.
Il grafico di una distribuzione di Probabilit continua detta curva di densit:
Area sottesa alla curva = 1
Ogni punto sotto la curva deve avere altezza minore od uguale ad 1
Se una variabile aleatoria continua ha una distribuzione che presenta un grafico a forma di
campana si dice che ha una distribuzione normale.

La formula :
2

(x)
2
2

f(x) =

e
2

che a noi serve solo per sapere che se diventa un numero grande allora il numeratore
diventa piccolo ed il denominatore cresce quindi la curva diventa bassa e molto slargata alla
base.

Distribuzione gaussiana (o normale)

ed e sono le costanti matematiche note, la media e la deviazione standard


E simmetrica intorno alla media
Media, Moda e Mediana coincidono
E completamente specificata dai parametri e : bastano questi due per disegnarla e
bastano per descriverne le propriet
E una famiglia di curve, ognuna caratterizzata dalla propria media e dalla propria
deviazione
standard:
ci
saranno poi curve pi alte e
strette o curve pi basse e
allargate alla base (ma larea
sottesa alla curva sempre
=1)
Distribuzione normale standard

Proprio perch ogni curva di Gauss


ha una sua media ed una sua
deviazione standard e quindi ognuna
ha una forma diversa pu non essere
semplice confrontare due curve
differenti. Per ovviare a ci si
introduce il concetto di distribuzione
standardizzata, in modo da avere una curva modello a cui rifarsi ed avere una sorta di termine
di paragone.
La curva standardizzata ha:
=0. Ponendo =0 si ottiene che tutti i valori inferiori al valore medio sono negativi e
tutti quelli superiori ad esso sono positivi
=1. In modo da non doversi preoccupare della dispersione dei dati, ma avere una
curva con altezza e larghezza della base standard.
Il metodo esatto tramite il quale si standardizzi una curva venne perso insieme ai due leocorni
quando No se li dimentic a terra prima del Diluvio universale ma passa attraverso
lintroduzione di un termine chiamato z che permette di passare da tante curve particolari
ciascuna con una certa ad una curva standard indipendente da essa.
Z un valore dellasse delle x a cui corrisponde una probabilit, cio larea sottesa alla curva.
Come in una certa curva ad ogni valore di x corrisponde la probabilit che la variabile assuma
tale valore anche per la curva standardizzata ci sono tante z a cui corrispondono relative aree
sottese alla curva che rappresentano la relativa probabilit che la variabile assuma tale valore.
La differenza tra le due che la z assume alcuni valori particolari che si usano pi di altri
perch sottendono a certe probabilit particolarmente utilizzate: facile che si richieda la z che
corrisponde ad una probabilit del 5% che si verifichi un certo evento, meno frequente che si

voglia sapere la z che corrisponde alla probabilit del 3,569% che questo accada, perch un
numero di merda, ma sarebbe possibile ed infatti esistono le tabelle con tutti i valori di z
possibili e tutte le aree di curva che vi corrispondono.
Siccome la curva si abbassa sempre di pi mano a mano che ci si allontana dalla media gli
eventi meno probabili si trovano ad una notevola distanza dallo zero (cio la media), e si
troveranno esternamente a valori z piuttosto elevati in modulo (cio valori grandi, a pre
scindere dal segno che hanno davanti, sia in negativo che in positivo).
Molto terra terra, il senso del rapporto (x-) / pu essere visto cos:
se il valore che stiamo prendendo in esame (x) si discosta molto dalla media () ci attendiamo
che il numeratore sia un numero grande, con un segno o positivo o negativo ma comunque un
valore elevato. Z sar quindi un valore elevato.
Se invece il valore che prendiamo in esame si discosta poco dalla media allora x- dar un
valore molto vicino allo zero, perch x e sono valori molto simili. Z avr quindi un valore
basso.
In entrambi i casi bisogna rapportare il tutto alla della curva in questione: dividendo il
numeratore per la si ottiene un valore che non dipende pi da essa.
Questo ragionamento di valutare x- non molto rigoroso perch anche un numeratore piccolo
diviso per una piccola d una zeta grande, ma a me basta come regola generale per capire
cosa devo aspettarmi (a spanne) come risultato dallo standardizzare la curva.