Sei sulla pagina 1di 18

lOMoARcPSD|2635519

Appunti Statistica

Statistica / Statistics (Università Commerciale Luigi Bocconi)

StuDocu non è sponsorizzato o supportato da nessuna università o ateneo.


Scaricato da lulu bottasi (carola.capodieci@gmail.com)
lOMoARcPSD|2635519

POPOLAZIONE E CAMPIONE
La popolazione è l’insieme completo di tutte le unità oggetto di studio. La dimensione della
popolazione, N, può essere molto grande o addirittura infinita. Il campione è il sottoinsieme delle
unità osservate nella popolazione e la sua dimensione viene indicata con n.

CAMPIONE CASUALE
Il campione casuale semplice è il procedimento usato per selezionare un campione di n oggetti da
una popolazione, in modo tale che ciascuna unità della stessa popolazione sia scelta rigorosamente a
caso e abbia la stessa opportunità di essere scelta. Ogni possibile campione di dimensione assegnata
n, inoltre deve avere la stessa possibilità di essere selezionata. Il campione ottenuto con questo
metodo è noto come campione casuale.

PARAMETRO E STATISTICA
Il parametro è una caratteristica specifica della popolazione. La statistica è una caratteristica
specifica del campione.

STATISTICA DESCRITTIVA E STATISTICA INFERENZIALE


La statistica descrittiva comprende metodi grafici e numerici che sono usati per sintetizzare ed
elaborare i dati in modo da trasformarli in informazioni. La statistica inferenziale fornisce le basi
per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza.

CLASSIFICAZIONE DELLE VARIABILI


Le variabili categoriche generano risposte che appartengono a gruppi o categorie.
Le variabili numeriche comprendono sia le variabili discrete sia quelle continue.
Una variabile numerica discreta può (ma non necessariamente) avere un numero finito di valori; il
tipo più comune di variabile discreta che incontreremo genera delle risposte che provengono da un
processo di conteggio.
Una variabile numerica continua può assumere un qualunque valore all’interno di un determinato
intervallo di numeri reali e, di solito, è originata da un processo di misurazione.

LIVELLO DI MISURAZIONE
I dati possono anche essere classificati come qualitativi o quantitativi. Con i dati qualitativi non si
può attribuire alcun significato misurabile alla “differenza” tra coppie di numeri.
Invece, con i dati quantitativi, c’è un significato misurabile nella differenza numerica.
I dati qualitativi includono, come livello di misurazione, la scala nominale e la scala ordinale; i dati
quantitativi includono la scala ad intervallo e la scala di rapporto.
I livelli di misurazione nominali e ordinali si riferiscono a dati ottenuti da domande di tipo
categorico.
Le risposte alle domande sul sesso, sulla cittadinanza, sull’orientamento politico, sul possesso di
telefonino sono dati nominali. Questi sono considerati il livello inferiore di misurazione dei dati,
poiché la codifica numerica è scelta per pura convenienza.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

I valori assunti dalle variabili nominali sono etichette che descrivono le categorie o le classi di
risposta. A ogni risposta viene assegnato arbitrariamente un codice numerico, tuttavia questo
numero non ha alcun significato, tranne quello di classificazione.
I dati ordinali indicano un ordine gerarchico degli elementi e, allo stesso modo dei dati nominali, i
valori assunti sono delle etichette che descrivono le risposte.
Le risposte sono ordinali, o disposte per ranghi, ma non c’è nessun significato misurabile nella
“differenza di intensità” tra le risposte.
I dati misurati in scala di intervallo o di rapporto sono riferiti a una scala ordinata dove però la
differenza di intensità tra coppie di misure ha significato. Una scala ad intervallo indica l’ordine e
la distanza da un’origine arbitraria misurata con una determinata unità di misura: i valori sono cioè
ottenuti in relazione a un punto di riferimento.
Con scala di rapporto si indicano sia un ordine sia la distanza da un’origine assoluta (lo zero) e il
rapporto tra le due misure, in questo caso, assume un significato numerico ben preciso.

Variabili Categoriche
• Distribuzione di Frequenze
• Diagramma a barre
• Diagramma a torta
• Diagramma di Pareto

Variabili Numeriche
• Grafico per serie storiche
• Distribuzione di frequenze
• Istogramma e ogiva
• Diagramma ramo-foglia
• Diagramma di dispersione

DIAGRAMMI A BARRE E DIAGRAMMI A TORTA


Per descrivere i dati categorici sono comunemente usati i diagrammi a barre e i diagrammi a torta.
Se il nostro scopo è quello di attirare l’attenzione sulla frequenza di ogni categoria, allora molto
probabilmente disegneremo un diagramma a barre; se il nostro scopo è invece quello di
sottolineare la proporzione di ciascuna categoria, allora la scelta più opportuna sarà il diagramma a
torta.
I diagrammi a barre sovrapposte e a barre accostate permettono un confronto visivo tra i totali e le
singole componenti.

DIAGRAMMA DI PARETO
Il diagramma di Pereto è un diagramma a barre che rappresenta le frequenze delle cause di
difettosità.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

La barra più a sinistra indica la causa più frequente e le barre più a destra indicano le cause con
frequenze decrescenti. Il diagramma di Pareto è usato per separare le “poche cause rilevanti” dalle
“numerose cause insignificanti”.

GRAFICO PER SERIE STORICHE


Il grafico per serie storiche rappresenta una serie di dati rilevanti in istanti di tempo diversi. Se si
considera l’asse orizzontale come asse temporale e si pongono sull’asse verticale le quantità
numeriche oggetto della misurazione, si otterrà, per ogni osservazione, un punto sul piano
cartesiano. Il grafico si ottiene congiungendo i vari punti con una spezzata.

COSTRUZIONI DI UNA DISTRIBUZIONE DI FREQUENZA


Regola 1: Determinare k, il numero delle classi di intervallo.

Regola 2: Le classi di intervallo possono avere la stessa ampiezza w determinata nel modo
seguente:
(valore massimo−Valore minimo)
w = Ampiezza dell’intervallo =
Numero di classi

dove w può essere arrotondata per eccesso, preferibilmente all’intero successivo.

Regola 3: Le classi di intervallo devono essere collettivamente esaustive e mutualmente esclusive


(senza sovrapposizioni).

DISTRIBUZIONE DELLE FREQUENZE RELATIVE, CUMULATE E


RELATIVE CUMULATE
La distribuzione delle frequenze relative è ottenuta dividendo ciascuna frequenza per il numero
complessivo di osservazioni; moltiplicando la proporzione risultante per 100% si ottiene la
distribuzione delle frequenze percentuali.
La distribuzione delle frequenze cumulate contiene il numero totale di osservazioni con valori
minori del limite superiore di ciascuna classe. La distribuzione di frequenza cumulate si ottiene
sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti.
In una distribuzione delle frequenze relative cumulate si cumulano le frequenti relative (se si
cumulano le frequenze percentuali si ottiene la distribuzione delle frequenze percentuali
cumulate).

ISTOGRAMA
L’istogramma è un grafico composto da rettangoli verticali adiacenti, costruiti su una linea
orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nella distribuzione di
frequenze. L’area del rettangolo è proporzionale al numero di osservazioni della classe
corrispondente. Se le classi hanno tutte la stessa ampiezza, è naturalmente l’altezza di ciascun
rettangolo a essere proporzionata al numero di osservazioni della classe.
È possibile anche utilizzare classi di ampiezza diversa, se ritenuto opportuno dall’analista; in questo
caso però l’altezza delle barre accostate non sarà̀ la frequenza assoluta o relativa
Sull’asse delle ascisse si evidenziano le classi di intervallo considerate;

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Sopra ogni intervallo si costruisce un rettangolo avente area proporzionale alla frequenza
relativa della classe stessa;
Nel caso generale (possibili anche classi di ampiezza di diversa) le altezze (ci) di tali rettangoli
vengono pertanto determinate dividendo l’area per l’ampiezza dell’intervallo
L’altezza di ogni rettangolo prende il nome di densità̀ di frequenza (interpretata come ammontare
della frequenza relativa per unità di intervallo).

OGIVA
L’ogiva, anche chiamata curva delle frequenze cumulate, è una spezzata che rappresenta la
distribuzione delle frequenze percentuali cumulate. Infatti, unisce i punti che rappresentano le
percentuali cumulate di osservazioni con valori minori del limite superiore di ciascuna classe.

SIMMETRIA
La forma di un istogramma è detta simmetrica se le osservazioni sono bilanciate o distribuite in
modo approssimativamente regolare intorno al centro dell’istogramma.

ASIMMETRIA
Una distribuzione è asimmetrica o obliqua, se le osservazioni non sono distribuite in modo
simmetrico rispetto al valore centrale della distribuzione.
Una distribuzione obliqua a destra (o con asimmetria positiva) ha una coda che si estende verso
destra, nella distribuzione dei valori positivi.
Una distribuzione obliqua a sinistra (o con asimmetria negativa) ha una coda che si estende verso
sinistra, nella direzione dei valori negativi.

DIAGRAMMI RAMO-FOGLIA
Il diagramma ramo-foglia è un metodo di analisi esplorativa dei dati alternativo all’istogramma. I
dati sono raggruppati secondo le loro cifre più significative (i rami), mentre le cifre meno
significative di ogni osservazione (le foglie) sono elencate a destra di ogni ramo, separatamente e in
ordine non decrescente.

DIAGRAMMA DI DISPERSIONE
Possiamo preparare un diagramma di dispersione associando un punto del piano cartesiano a ogni
coppia di valori che costituiscono un’osservazione congiunta delle due variabili. Il diagramma di
dispersione fornisce una descrizione dei dati, in particolare evidenzia:
- I possibili valori di ogni variabile;
- La distribuzione dei dati all’interno dei valori possibili;
- L’eventuale relazione tra le due variabili;
- La presenza di eventuali valori anomali.

TABELLA A DOPPIA ENTRATA

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

Una tabella a doppia entrata elenca la frequenza delle osservazioni per ogni combinazione di
classi di misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le
possibili classi per ognuna delle due variabili.
Il numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due
variabili.
Una tabella con r righe e c colonne viene indicata come tabella r x c. Quando le due variabili sono
entrambe qualitative si parla di tabella di contingenza.

Distribuzioni marginali di X

Distribuzioni marginali di Y

ERRORI NELLA PRESENTAZIONE DEI DATI


Obbiettivi per una presentazione efficace dei dati:

 Presentare i dati in modo da mostrare le informazioni essenziali.


 Comunicare idee complesse chiaramente ed in modo accurato.
 Evitare distorsioni che possono comunicare il messaggio sbagliato.
 Diversa ampiezza delle classi di intervallo in un istogramma.
 Compressione o distorsione dell’asse verticale.
 Omissione dello zero sull’asse verticale.
 Non fornire una base di riferimento per il confronto di dati di diversi gruppi.

PARADOSSO DI SIMPSON
Il paradosso di Simpson indica una situazione in cui una relazione tra due fenomeni appare
modificata, o perfino invertita, dai dati in possesso a causa di altri fenomeni non presi in
considerazione nell'analisi.

MEDIA ARITMETICA
La media aritmetica di un insieme di dati è la somma dei valori di tutte le osservazioni divisa per il
numero di osservazioni.
Se i dati si riferiscono all’intera popolazione, la media della popolazione, µ, è un parametro dato
da:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

nN

∑ xi x 1+ x 2+…+ xN
µ= i=1 =
N N

Se i dati provengono da un campione, allora la media campione, x, è una statistica data da:

nN

∑ xi x 1+x 2+ …+ xN
x= i=1 =
N N

MEDIA PONDERATA
nN

∑ wi xi w 1 x 1+w 2 x 2+ …+wN xN
X = i =1 =
∑w ∑w

MEDIANA
La mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo non
decrescente (o non crescente). Se n, la dimensione del campione, è un numero dispari, la mediana è
l’osservazione centrale; se n è un numero pari, la mediana si ottiene dalla media delle due
osservazioni centrali. Più in generale, si potrebbe dire che la mediana si trova nella

Posizione 0,50 (n+1) della sequenza ordinata

Le fasi per il calcolo della mediana sono le seguenti:


1. Individuazione, attraverso la cumulata, della classe mediana, ovvero la classe di intervallo in cui
la funzione cumulativa raggiunge o supera il valore 0,5.
2. Per determinare quindi il valore della mediana, si uguaglia a 0,5 l’espressione analitica della
funzione cumulativa nella classe individuata, oppure si impone che l'area dell'istogramma alla
sinistra del valore mediano sia 0,5.

MODA
Dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste, è la modalità che si
presenta il maggior numero di volte.

CAMPO DI VARIAZIONE
Il campo di variazione è la differenza tra il massimo e minimo dei valori osservati.
Più è grande la variazione dei dati rispetto al centro di distribuzione, più sarà grande il campo di
variazione.

DIFFERENZA INTERQUARTILE

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

La differenza interquartile misura la variabilità del 50% centrale dei dati: in una sequenza di
osservazioni ordinate in modo non decrescente è la differenza tra l’osservazione Q3, terzo quartile
(o 75-esimo percentile) e l’osservazione Q1, primo quartile (o 25-esimo percentile). Quindi:

Differenza interquartile = Q3-Q1

Si noti che i quartili, come i percentili, sono delle misure di tendenza non centrale e, come la
mediana, si ottengono a partire dalle frequenze cumulate delle osservazioni.
In particolare, Q1, primo quartile si trova nella posizione 0.25(n + 1) della sequenza di
osservazioni ordinata in modo non decrescente, mentre Q3, terzo quartile si trova nella posizione
0.75(n + 1) della sequenza ordinata (entrambe le posizioni devono essere arrotondate all’interno più
vicino e, se la posizione ottenuta si trova esattamente a metà tra le altre due, la misura cercata si
ottiene dalla media dei valori nelle due posizioni).
La mediana è il secondo quartile e si trova nella posizione 0.50(n + 1) della sequenza ordinata.

I CINQUE NUMERI DI SINTESI


I cinque numeri di sintewsi si riferiscono a cinque misuredescrittive: il minimo, il primo quartile, la
mediana, il terzo quartile e il massimo. Chiaramente:

Minimo <= Q1 <= Mediana <= Q3 <= Massimo

PROPRIETA’ DI ROBUSTEZZA
Ovvero che siano relativamente insensibili a valori estremi e < cambiamenti marginali nei dati. I
quartili posseggono tale proprietà.

FORME DI DISTRIBUZIONE
Una distribuzione simmetrica ha le seguenti proprietà:

1. Media = Mediana
2. Me – Q1 = Q3 – Me
3. Q1 – Min = Max – Q3

Media = Mediana

Una distribuzione con asimmetria negativa (obliqua a sinistra) ha le seguenti proprietà:

1. Media < Mediana


2. Me – Q1 > Q3 – Me

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

3. Q1 – Min > Max – Q3

Media < Mediana

Una distribuzione con asimmetria positiva (obliqua a destra) ha le seguenti proprietà:

1. Media > Mediana


2. Me – Q1 < Q3 – Me
3. Q1 – Min < Max – Q3

Mediana < Media

BOX PLOT
Una visualizzazione grafica dei “cinque numeri di sintesi” si ottiene con il diagramma a scatola a
baffi.
Inoltre, si può essere in presenza di dati estremi definiti Outliers.
Più precisatemene, un singolo dato xi può essere definito outlier se vale una delle seguenti
condizioni:
- xi < Q1 – 1,5 (Q3 – Q1)
- xi > Q3 + 1,5 (Q3 – Q1)

VARIANZA
La varianza della popolazione, σ2, è la somma delle differenze, al quadrato, tra ciascuna
osservazione e la media della popolazione, divisa per la dimensione della popolazione N:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

∑ ( xi −μ )2
σ 2= i =1
N

La varianza campionaria, s2, è invece la somma delle differenze, al quadrato, tra ciascuna
osservazione e la media del campione, divisa per la dimensione del campione, n, meno 1.
N

∑ ( x i−x )2
s2= i=1
n−1

SCARTO QUADRATICO MEDIO


Lo scarto quadratico medio della popolazione, σ, è la radice quadrata (con segno positivo) della
varianza della popolazione ed è definito da:


N

∑ ( x i−μ )2
σ =√ σ 2= i=1
N

Ha la stessa unità di misura dei dati originali.

Lo scarto quadratico medio campionario, s, è:


N

∑ ( x i−x )2
s= √ s2 = i=1
n−1

Ha la stessa unità di misura dei dati originali.

DISUGUAGLIANZA DI CHEBYCHEV
Per ogni popolazione con media µ, scarto quadratico medio σ e k > 1, la percentuale di osservazioni
che appartenevano all’intervallo [μ + kσ] è:

almeno 100 [1  (1 / k2)] %

dover k rappresenta il fattore moltiplicativo dello scarto quadratico medio.

REGOLA EMPIRICA
Per molte popolazioni di grandi dimensioni, la regola empirica fornisce una valutazione della
percentuale approssimata di osservazioni il cui scostamento, in più o in meno dalla media, è pari al
massimo a una, due o tre volte lo scarto quadratico medio:

- Approssimatamene il 68% delle osservazioni sono nell’intervallo µ  1σ.

- Approssimatamene il 95% delle osservazioni sono nell’intervallo µ  2σ.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

- Quasi tutte le osservazioni (99,73%) sono nell’intervallo µ  3σ.

COEFFICIENTE DI VARIAZIONE

Il coefficiente di variazione, CV, è una misura di variabilità relativa che esprime lo scarto
quadratico medio come una percentuale della media (purché la media non sia nulla).

Il coefficiente di variazione della popolazione è:

σ
CV =
¿ µ∨¿ x 100 % con µ ≠ 0 ¿

Il coefficiente di variazione campionario è:

σ
CV = x 100 % con x ≠ 0
|x|

COVARIANZA
La covarianza è una misura della relazione lineare tra due variabili. Un valore positivo indica una
relazione inversa o negativa.

La covarianza della popolazione:

∑ ( x x −µ x ) ( x y −µ y )
COV ( X , Y )=σ xy = i=1
N

La covarianza campionaria:
N

∑ ( x x −µ x) ( x y−µ y )
COV (Y , Y )=s xy = i=1
n−1

Cov(X, Y) > 0 X e Y tendono a muoversi nella stessa


direzione (associazione diretta)
Cov(X, Y) < 0 X e Y tendono a muoversi in direzioni
opposte (associazione inversa)
Cov(X, Y) = 0 X e Y no relazione lineare (assenza di relazione o relazione anche forte ma
non monotona)

COEFFICIENTE DI CORRELAZIONE
Il coefficiente di correlazione misura la forza della relazione lineare tra due variabili.

Coefficiente di correlazione della popolazione:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

COV ( X ,Y )
ρ=
σxσy
Coefficiente di correlazione campionario:

COV ( X ,Y )
r=
σxσy
Caratteristiche del coefficiente di correlazione:

 Senza unità di misura


 Campo di variazione fra –1 e 1
 Quanto più è vicino a –1, tanto più è forte la relazione lineare negativa
 Quanto più è vicino a 1, tanto più è forte la relazione lineare positiva
 Quanto più è vicino a 0, tanto più è debole la relazione lineare
Un’utile regola pratica afferma che si può assumere l’esistenza di una relazione lineare se:

2
|r|>
√n

RELAZIONI LINEARI
I modelli economici usano specifiche relazioni funzionali per indicare l’effetto su una variabile
dipendente, Y, risultante dai cambiamento nella variabile indipendente, X.
In molti casi possiamo approssimare adeguatamente l’auspicabile relazione funzionale con
l’equazione lineare:

Y = β0 +β 1 X

METODO DEI MINIMI QUADRATI


La retta ottenuta con il metodo dei minimi quadrati, basata su dati campionario, è detta retta di
regressione ed è data da:

Y^ =b0 +b1 X

b1 è la pendenza della retta, ossia la variazione di y per ogni variazione unitaria x, ed è calcolata nel
seguente modo:

COV ( X ,Y ) sy
b 1= =r
s2x sx

b0 è l’ordinata all’origine, calcolata come:

b 0= ý−b 1 x́

VARIABILE ALEATORIA
Una variabile aleatoria è una variabile che assume valori numerici in corrispondenza ai risultati di
un esperimento.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

VARIABILE ALEATORIA DISCRETA


Una variabile aleatoria è una variabile aleatoria discreta se può assumere al più un insieme
numerabile di valori.

VARIABILE ALEATORIA
Una variabile aleatoria è una variabile aleatoria continua se può assumere un qualunque valore in un
intervallo.

FUNZIONE DI RIPARTIZIONE
La funzione di ripartizione, F(x0), per una variabile aleatoria X esprime la probabilità che X non
superi il valore x0, come funzione x0. Cioè:

F (x 0)=P( X ≤ x 0)

La probabilità che P(a < X < b) = F(b) – F(a).

FUNZIONE DI DENSITÀ DI PROBABILITÀ


La funzione di densità di probabilità, f(x), di una variabile aleatoria X ha le seguenti proprietà:
1. f(x) ≥ 0 per qualunque valore di x.
2. L’area sottesa alla funzione di densità di probabilità f(x) su tutto l’intervallo di valori
ammissibili di X vale 1.
3. La probabilità che X assuma valori in un intervallo è l’area sottesa alla funzione di densità
sull’intervallo.
4. La funzione di ripartizione F(x0) è l’area sottesa alla funzione di densità f(x) dal valore
minimo xm fino al valore x0.
x0

f (X 0 )=∫ f ( x ) dx
xm

dove xm è il valore minimo della variabile aleatoria x

DISTRIBUZIONE UNIFORME
La distribuzione uniforme è la distribuzione di probabilità che assegna la stessa probabilità a tutti
i possibili valori di una variabile aleatoria

DISTRIBUZIONE UNIFORME CONTINUA

{
1
se a≤ x ≤ b
f (x)= b−a
0 altrove

La media di una distribuzione uniforme è:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

a+b
µ=
2

La varianza è:
2
2 ( b−a )
σ =
12

VALORI ATTESI DI VARIABILI ALEATORIE CONTINUE


La media di X, indicata con μX, è definita come il valore atteso di X:

µx =E (x)

 La varianza di X, indicata con σX2, è definita come il valore atteso del quadrato degli scarti della
variabile dalla sua media, (X - μX)2

σ 2x =E [ ( X−µ x )2 ]

FUNZIONI LINEARI DI VARIABILI


Sia W = a + bX, dove X ha media μX e varianza,σ 2x , e a e b sono costanti

La media di W è:
μW E(abX)abμX
La varianza è:

σ 2w =Var ( a+bX ) =b2 σ 2X

Lo scarto quadratico medio di W è:


σW |b|σX

VARIABILE ALEATORIA STANDARDIZZATA


X−µ X
Z=
σX

La quale ha media 0 e varianza 1; inoltre è un numero puro, cioè privo di unità di misura.
Qualunque distribuzione normale (con qualuneu combinazione di media e varianza) può essere
trasformata nella distribuzione normale standard (Z), con media 0 e varianza 1.

L’ area totale sottesa alla curva è pari a 1, e la curva è simmetrica, perciò metà è al di sopra della
media, e metà è al di sotto:

P(  X  )  1.0

DISTRIBUZIONE NORMALE

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

- Simmetrica.
- Media, Mediana e Moda coincidono.
- La tendenza centrale è determinata dalla media, μ.
- La variabilità è determinata dallo scarto quadratico medio, σ.
- Variando i parametri μ e σ, otteniamo diverse distribuzioni normali

La formula per la funzione di densità di probabilità normale è:


2
−( x− µ)
1 2

f (x)= e 2σ
σ √2 π

- Dove e = la costante matematica approssimata da 2.71828 π = la costante matematica


approssimata da 3.14159 μ = la media della popolazione
σ = lo scarto quadratico medio della popolazione
- x = qualunque valore della variabile continua,  < x < 

TAVOLA 1 DELL’APPENDICE DEL LIBRO


Tavola 1 dell’Appendice fornisce la probabilità F(a) per qualunque valore a

PROCEDURA GENERALE PER CALCOLARE LA PROBABILITÀ

Per calcolare P(a < X < b) quando X ha una distribuzione normale:

 Disegna la curva normale per il problema in termini di X


 Traduci i valori di X in valori di Z
 Usa la Tavola della Funzione di Ripartizione

TROVARE IL VALORE DI X CORRISPONDENTE AD UNA NOTA


PROBABILITÀ

I passi per trovare il valore di X corrispondente ad una nota probabilità:

1. Trovare il valore di Z corrispondente alla probabilità nota


2. Converti nelle unità di X usando la formula:
X  μ  Zσ

NORMAL PROBABILITY PLOT


Normal probability plot:

 Ordina i dati dal più basso al più alto.


 Calcola la funzione di ripartizione per tutti i valori.
 Esamina un grafico dei valori osservati vs. le probabilità cumulate (con la funzione di ripartizione
della distribuzione normale sull’asse verticale e i valori osservati sull’asse orizzontale).
 Valuta il grafico per evidenze di linearità.

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

APPROSSIMAZIONE DELLA DISTRIBUZIONE BINOMIALE CON


LA DISTRIBUZIONE NORMALE

E(X)  μ  nP

Var(X)σ2 nP(1-P)
Se nP(1 - P) > 9, allora:
P ( a< X <b )=P
( a−nP
√ nP(1−P)
≤Z≤
b−nP
√nP (1−P) )
VALORE ATTESO DELLA MEDIA CAMPIONARIA
Il valore della media campionaria di queste osservazioni è definito come:
n
1
X́ = ∑ X i
n i=1

SCARTO QUADRATICO MEDIO DELLA MEDIA


Diversi campioni della stessa dimensione estratti dalla stessa popolazione produrranno medie
campionarie diverse

Una misura della variabilità nel valore della media da campione a campione è dato dall’Errore
Standard della Media:

σ
σ X́ =
√n

DISTRIUZIONE CAMPIONARIA
Data una popolazione, si consideri una sua caratteristica, ad esempio la sua media µ.
Estratto dalla popolazione un campione, per fare inferenza sulla caratteristica si dovrà scegliere una
statistica campionaria: la media campionaria X nell’esempio in questione.
L’inferenza è basata sul fatto che ogni campione casuale determina un diverso valore x delle medie
e quindi ognuno di essi può essere visto come una realizzazione della variabile aleatoria X.
La distribuzione campionaria di questa statistica è la distribuzione delle medie campionarie
ottenute su tutti i possibili campioni, della stessa ampiezza, estratti dalla popolazione.

DISTRIBUZIONE STANDARIZZATA DELLA MEDIA


CAMPIONARIA
Quando la media campionaria segue una distribuzione normale possiamo standardizzarla e la
variabile aleatoria:

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

( X́ −µ) ( X́ −µ)
Z= =
σ X́ σ
√n
Segue la distribuzione normale.

X = media campionaria.
μ = media della popolazione.
σ = scarto quadratico medio della popolazione n = dimensione del campione.
n = dimensione del campione.
La distribuzione media di X́ ha media:

E ( X́ ) =µ

La distribuzione di X́ ha deviazione standard:

σ
σ X́ =
√n
Applicare la Correzione per Popolazioni Finite se:

 Un elemento della popolazione non può essere incluso nel campione più di una volta (il campione
è senza reintroduzione).
 Il campione è ampio rispetto alla popolazione (n è superiore al 5% di N)

Var ( X́ ) =
σ 2 N −n
n N −1
oppure σ X́ =

σ N −n
√ n N−1
Se la dimensione del campione n non è abbastanza piccola rispetto alla dimensione della
popolazione N, allora usa:

( X́ −µ)
Z=


σ N −n
√ n N−1

Al crescere della dimensione del campione la distribuzione campionaria diventa quasi


normale indipendente dalla distribuzione della popolazione.

PROPORZIONE CAMPIONARIA
Sia X il numero di successi in un campione di n osservazioni estratte da una popolazione
bernoulliana con parametro p.
Il parametro rappresenta la proporzione delle unità della popolazione che possiedono la
caratteristica oggetto di studio.
Si definisce proporzione campionaria il rapporto:

^ X
P=
n

Scaricato da lulu bottasi (carola.capodieci@gmail.com)


lOMoARcPSD|2635519

X è la somma di n variabili bernoulliane indipendenti, ognuna con probabilità di successo p.


Come conseguenza, ^ P è la media di n variabili indipendenti e identicamente distribuite e si
potranno applicare i risultati ottenuti precedentemente per la media campionaria. Si può inoltre
utilizzare il teorema del limite centrale per affermare che la distribuzione di probabilità di ^

approssimatamene normale.

PROPRIETÀ:

La proporzione campionaria ^
P ha media p.

E(^
P )= p
La proporzione campionaria ^
P ha deviazione standard:

σ ^P=
√ p(1− p)
n

Se il campione ha un’ampiezze elevata, la variabile aleatoria

^
P−p
Z=
σ ^P
È approssimatamene distribuita come una normale standard.
L’approssimazione è buona se np(1-p) > 9

VARIANZA CAMPIONARIA
Siano X1, X2, . . . , Xn un campione casuale estratto da una popolazione. La varianza campionaria
è:
n
1
2
S= ∑
n−1 i=1
( X i− X́ )2

La sua radice quadrata è detta deviazione standard campionaria.


La varianza campionaria è diversa per i vari campioni casuali estratti dalla stessa popolazione.

La distribuzione campionaria di S2 ha media σ2 E(S2)σ2

Se la popolazione ha distribuzione normale, allora

2σ 4
Var ( S )=
2
n−1

Scaricato da lulu bottasi (carola.capodieci@gmail.com)