Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Capitolo1.
Che cos’è la Statistica??
La Statistica è la scienza che studia i fenomeni collettivi→ l’insieme delle tecniche utilizzate per
raccogliere, rielaborare e interpretare i dati che riguardano la collettività al fine di studiare un
fenomeno e poterne prevedere gli sviluppi. In particolare la statistica offre un supporto ideale al
processo decisionale, grazie alla sua capacità di produrre risultati semplici, chiari e coincisi pronti
ad essere utilizzati come punto di partenza delle analisi strategiche, infatti la statistica viene
utilizzata da manager, investitori, dirigenti marketing….
STATISTICA
Possiamo dunque dire, che in generale la statistica si occupa di analizzare i dati, questi dati sono
osservati su unità statistiche o di studio (che quindi sono gli individui o gli elementi) e sono la
misurazione di un fenomeno (caratteristica che accomuna le unità statistiche). Il fenomeno però
varia da unità a unità o meglio si manifesta diversamente, per cui esso definisce una variabile.
Fenomeno e variabile dunque, sono sostanzialmente la stessa cosa, solo che il fenomeno è il
concetto mentre la variabile è quel concetto misurato.
Quantità numeriche
.
.
.
tempo
si mettono dei puntini in corrispondenza delle quantità numeriche e dai relativi tempi, per cui alla
fine avremo un grafico composto da tanti punti uniti.
Uno strumento di sintesi, è la distribuzione di frequenza, dove per frequenza s’intende quante volte
si è ripetuta la stessa modalità. FREQUENZA=numero di duplicati
Una distribuzione di frequenza è una tabella in cui si fa corrispondere ad ogni modalità della
variabile la sua frequenza.
La distribuzione di frequenza serve per l’eliminazione dei duplicati e viene rappresentata in una
tabella dove:
Di solito si aggiunge anche il totale, ovvero la somma di tutte le frequenze. Con il totale si può
calcolare la distribuzione delle frequenze percentuali: ciascuna frequenza/totale x 100= n%
quanti studenti hanno preso 21? 46/111= 0,41 (frequenza relativa)→ 0,41 x 100= 41%
Questa distribuzione di frequenza è quello che in seggio elettorale si chiama spoglio delle schede.
Un’altra rappresentazione, forse più utile per le variabili discrete è il diagramma a barre:
Quando i dati sono continui (variabili continue), non è sensato fare la distribuzione di frequenza, ma
è utile costruire della classi di modalità. Per esempio se si vuole misurare l’obesità essa non dipende
solo dal peso, ma dal peso in relazione con l’altezza, e si misura facendo l’indice di massa corporea:
ciò indica che il 15 è compreso nell’intervallo, e come si può vedere le classi possono avere
ampiezza diversa.
Ampiezza classe= estremo superiore della classe – estremo inferiore della classe
Per definizione→ la somma delle aree di tutti i rettangoli fa 1
W= (180-160)/5= 4
per cui→ 160, 164, 168, 172, 176, 180
Relazioni tra variabili→ Condurre un’analisi bivariata significa tener conto contemporaneamente di
due variabili per ciascuna unità studiata, infatti talvolta, si raccolgono dati su 2 o più variabili
osservate sulle stesse unità.
es) Dati su 10 studenti partecipanti al test d’ingresso di una facoltà
X= mat
Y= test
Ad ogni studente assegno le coordinate (x,y)
Un’altra cosa che si può fare è una distribuzione di frequenza doppia per le variabili qualitative:
Sesso A L P T Tot:
M 1 2 0 2 5
F 0 2 1 2 5
Tot: 1 4 1 4 = 10
0.05
Le distribuzioni condizionate per riga, si dividono le righe per il totale di riga, ovvero si divide
ogni frequenza congiunta per le frequenze marginali di riga:
es) 0,26/0,45=0,57
0,15/0,45=0,33
Tot= 1
0,03/0,45=0,06
0.33 0.04
0,02/0,45=0,04
riga) risponde alla domanda→ tra una categoria di Y (M o F) qual’è la percentuale di chi ha fatto
X (L,T,P,A), per esempio: sul totale di studenti, il 57% delle femmine ha fatto il liceo
Le distribuzioni condizionate per colonna, divide le colonne per il totale di colonna, ovvero si
divide ogni frequenza congiunta per le frequenze marginali di colonna:
es) 0,26/0,56=0,46
0,30/0,56=0,54
Tot= 1
0,15/0,36=0,42
0,21/0,36=0,58 0.46 0.42
0.54 0.58
colonna) risponde alla domanda→tra una categoria delle X (L,T,P,A) qual’è la percentuale di una
categoria delle Y, per esempio: le femmine sono il 46% al liceo
- oppure faccio al contrario cioè, nell’asse x metto il sesso, nell’asse y metto sempre le frequenze
assolute. Poi in corrispondenza di M e F metto 4 rettangoli che corrispondono alle 4 tipologie di
scuola.
Capitolo 3.
INDICI DI TENDENZA CENTRALE
Gli indici di tendenza centrale, sono indici che rappresentano un valore tipico attorno a cui si
addensano i dati. Tale valore si può prendere come un sommario approssimato di tutti i dati:
• media
• mediana
• moda
n
I dati su una variabile quantitativa X, sono indicati con: ∑ xi
i=1
La media è:
- sempre compresa tra il valore max e il valore min
- la somma degli scarti della media è sempre 0
- la somma degli scarti della media al quadrato rappresenta la distanza della media dai dati (criterio
dei minimi quadrati)
es) media aritmetica calcolata su una distribuzione di frequenza
Qual’è il numero annuo di richieste di indennizzo?
La moda, rappresenta il termine più frequente. Si fa facendo la distribuzione di frequenza per classi
e poi si guarda la classe che ha una densità di frequenza maggiore, graficamente:
Può capitare che la moda e la media siano abbastanza simili (13 e 13,333), questo succede
quando la distribuzione è simmetrica, ovvero quando l’istogramma= montagna simmetrica come
nella figura sopra.
Esistono delle distribuzioni che non sono unimodali ma BIMODALI ovvero che hanno più di una
moda; questo succede quando vi sono 2 addensazioni ovvero 2 apici della montagna
(nell’istogramma).
La mediana, è il valore che è più grande della metà dei dati e più piccolo dell’altra metà. Come si
calcola?:
1) si ordinano i dati (ordine crescente)
2) si individua un max e un min, e si individua il valore centrale
- Se abbiamo dei dati dispari, per esempio 9 dati, la mediana è il dato n°5 poiché la formula per i
valori centrali (n dati dispari)→ (n+1)/2
Mediana= 172
- Se abbiamo dei dati pari, per esempio 8 dati, la mediana sono i 2 dati centrali poiché la formula
per i valori centrali (n dati pari)→ n/2 e (n/2)+1
Il 100 e il 101 stanno nella 3° classe , nella 3° classe ci stanno gli individui che hanno un’altezza di
170
Mediana e media=170
Concetti fondamentali:
É meglio la media o la mediana??, quando siamo in presenza di dati atipici (outlier), per dato
atipico, si intende un dato che si trova molto lontano rispetto alla gran parte dei dati:
Per intenderci→ 3, 4, 5, 6 , 70
- la media è troppo sensibile ai valori atipici
- la mediana invece è più resistente ai valori atipici
Media= 17,6
Mediana= n dati dispari, valore centrale→ 6//2=3 , mediana=5
La variabilità→La sintesi dei dati, data dalla media indica la variabilità dei dati:
Q1= è il valore che ha prima di se il 25% dei dati→ Q1= 0,25 x (n+1) dove n è il numero di dati. Il
numero trovato indica la posizione del dato ovvero se Q1= 12, il primo quartile è il dato che occupa
la 12° posizione.
es)
Trucco per calcolare la mediana (senza pari e dispari)→ Me= 0,5 x (n+1)
La varianza, è un indice sempre positivo, che misura la variabilità dei dati rispetto alla media.
media su campione= x
media su una popolazione= μ
xi= scarti
es)
Varianza= 920/4= 230
La deviazione standard o scarto quadratico medio→ è la radice quadrata della varianza e si fa per
riportare la varianza alla stessa unità di misura della variabile, in quanto la varianza è espressa in
un’unità di misura alla 2.
✔ Fatto su foglio
Come si calcola la varianza con una distribuzione di frequenza?
es)
Disuguaglianza di Chebyshev: Per ogni popolazione con media: μ e con deviazione standard: σ,
la proporzione (o percentuale) di dati compresa nell’intervallo μ±kσ è almeno 1- (1/k2) dove k≥1
rappresenta un multiplo della deviazione standard.
μ±kσ ≥ 1- (1/k2)
I dati che si trovano all’interno dell’intervallo, sono almeno il 75% dei valori (¾ dei dati stanno di
sicuro in quell’intervallo). L’intervallo, è un intorno della media!
Esercizio. Qual’è la proporzione dei dati che sta all’interno dell’intervallo (64,72)??
σ= 3 k=?
μ= (64+72)/2 = 68
Le persone che hanno un QI sopra la media sono quelle che hanno un QI maggiore di 130, ovvero:
(1-99,73%)/2= 15%
Associazioni tra 2 variabili→ si parla di associazione, quando si studia la relazione esistente tra 2
variabili quantitative. L’obbiettivo è quello di valutare come si comporta una variabile al variare
dell’altra, per fare ciò esistono degli indici:
• covarianza
• coefficiente di correlazione
• retta dei minimi quadrati
Il coefficiente di correlazione è:
- un numero puro (adimensionale)
- simmetrico (rimane invariato se si cambiano le due variabili, ovvero rxy=ryx)
- le variabili sono considerate sullo stesso piano
- è un indice di associazione lineare, poiché può assumere valori compresi tra -1 e +1 (es. -1 ≤ r ≤ 1)
Se r o ƿ è vicino ad 1, i punti sono allineati in una retta crescente → relazione lineare positiva
Se r o ƿ è vicino a -1, i punti sono allineati in una retta decrescente → relazione lineare negativa
Se r o ƿ =0 → relazione lineare nulla, le variabili sono incorrelate
Negli esempi seguenti, le 2 variabili sono incorrelate (cioè non sono associate in modo lineare):
Relazioni lineari→ A volte però, anzi spessissimo, le variabili NON sono considerate sullo stesso
piano, una viene prima e una viene dopo: la variabile che viene prima serve per prevedere la
variabile che viene dopo. Es:
Y=β0 + β1X
Poiché le rette su un piano sono infinite, dobbiamo definire un criterio che permetta di stimare la
retta che meglio si adatta all’insieme di punti osservati. Innanzitutto, dobbiamo dire che i punti
osservati, si trovano sia al di sopra che al di sotto della retta (per ora ideale), la distanza di ciascun
punto osservato (xi,yi) dalla retta, viene definita residuo e indicata con e i. Residuo= distanza di un
punto dalla retta, ovvero distanza tra il valore vero del punto e il suo valore teorico ovvero la sua
proiezione sulla retta.
Valore vero,
vero,
osservato
ei
Valore teorico, residuo
che prevedo
I punti che stanno al di sopra della retta hanno scarti positivi, mentre quelli che stanno al di sotto
hanno scarti negativi. Ma come trovo la retta?? Si deve dunque trovare la retta che minimizza la
distanza punti-retta, ovvero trovare tra tutte le rette quella che minimizza la somma dei quadrati dei
residui (scarti).
Una retta, ha equazione: y=mx+q dove m è la pendenza e q è il termine noto ovvero in questo caso
l’intercetta. Una retta che passa per 1 punto (x, y) avrà equazione: y= y + m(x-x). = Y=b0 + b1X
q
La retta dei minimi quadrati dunque, passerà per un punto che ha coordinate (x,y) e ha pendenza m.
- La pendenza è positiva se, rxy>0
- La pendenza è negativa se, rxy<0 Si fa prima così:
- La pendenza è nulla se, rxy=0 m= Sxy/Sx2
es)
x= 13
y= 27,5
dato-mediax→ -5 -3 -1 1 3 5
dato-mediay→ -13,5 -9,5 -2,5 2,5 10,5 12,5
Prodotto degli scarti= 67,5 28,5 2,5 2,5 31,5 62,5 = 195
Sxy= 195/ (6-1)= 195/5 = 39
Sx2= 25 9 1 1 9 25 = 70→ 70/5= 14
m= Sxy/ Sx2= 39/14= 2.79
Retta dei minimi quadrati→ y= 27,5 + 2,79(x-13)
y= 27,5 + 2,79x – 36,27→ y= 2,79x -8,77 poiché q= 27,5 -36,27= -8,77
Ne si deduce che per ogni anno di istruzione in più, il reddito aumenta di 2790$
Capitolo 4.
PROBABILITÀ
Un esperimento casuale o esperimento aleatorio, è un processo che porta ad un esito, tra un insieme
noto di possibili esiti, ma senza prevedere quale di questi si verificherà. L’insieme di tutti gli esiti
possibili, è detto spazio campionario, e si indica con S, mentre gli esiti si dicono eventi
elementari (lo spazio campionario dunque contiene eventi elementari). Alcuni esempi di
esperimenti casuali sono:
- il lancio di un dado
- il lancio di una moneta
Un evento (si indica con E) invece, è un sottoinsieme di eventi elementari di uno spazio
campionario. Un evento si verifica quando il risultato dell’esperimento casuale è uno degli eventi
elementari che lo costituiscono.
L’evento lo possiamo immaginare come un’affermazione verbale: scommetto che esce un numero
pari! (poiché delimita un certo insieme di eventi elementari).
Gli eventi si comportano e si combinano fra loro come gli insiemi. Le operazioni con gli eventi,
corrispondono alle operazioni insiemistiche:
L’interpretazione è:
➔ P(AUB)= probabilità che si verifichi almeno 1 evento, matematicamente: tutti gli elementi
che stanno in A ed in B.
➔ P(A∩B)= probabilità che si verifichino contemporaneamente i 2 eventi, matematicamente:
gli elementi che hanno in comune A e B.
➔ A = tutti gli elementi che appartengono ad S (spazio campionario) ma non ad A.
2) l’evento unione→ un evento elementare si trova nell’unione di A con B, se e solo se tale evento è
in A, in B o in entrambi. Tutti gli elementi che stanno in A ed in B.
Alcuni esempi:
1) intersezione 2) unione 3) complementare
Eventi particolari:
➢ evento certo, il cui verificarsi è sicuro (lanciando un dado uscirà un numero pari o dispari).
Evento certo = S
➢ evento impossibile, evento che non potrà mai verificarsi (lanciando un dado uscirà il numero
7). Evento impossibile= insieme vuoto ovvero O (il complementare dell’evento certo)
➢ eventi incompatibili o mutamente esclusivi, sono eventi per cui l’intersezione è impossibile
poiché non possono verificarsi contemporaneamente
➢ eventi collettivamente esaustivi, se l’evento unione è certo
es) Estrazione casuale:
- A, la persona estratta ha un’età<13 anni
- B, la persona estratta è sposata
- C, la persona estratta ha un’età>10 anni
N.B: se 2 o più eventi, sono mutuamente esclusivi e anche collettivamente esaustivi, si dice che tali
eventi formino una partizione dello spazio campionario (S).
Uno esclude l’altro, ma allo stesso tempo esauriscono tutto lo spazio campionario
La probabilità con l’approccio classico però, non è sempre semplice da calcolare e per le situazioni
più complesse si usa il calcolo combinatorio:
es) A= indovinare esattamente i 5 numeri estratti
eventi elementari che stanno in S= numero di sottoinsiemi di 5 numeri diversi estratti dai 90
Calcolo combinatorio= (90 x 89 x 88 x 87 x 86) / (5 x 4 x 3 x 2 x 1) = 43 949 268
Legge empirica del caso o legge dei grandi numeri→ la frequenza relativa, dipende dal numero di
prove eseguite e tende a stabilizzarsi verso un unico valore se il n° di prove è sufficientemente
elevato, pertanto: la frequenza relativa di un evento su un gran numero di prove, ripetute tutte nelle
stesse condizioni, da un valore approssimato della probabilità classica, per cui:
Se gli eventi sono compatibili→ P(A∩B)≠0, anzi l’intersezione ci serve proprio per eliminare le
ripetizioni, ovvero:
La probabilità condizionata→ l’idea di base è che la probabilità del verificarsi di un evento, spesso
dipende dal fatto che altri eventi si siano verificati o meno.
Siano A e B 2 eventi, la probabilità condizionata dell’evento A, sapendo che l’evento B si è
verificato è identificata dal simbolo P(A B) e si ricava:
ne segue che→
Esercizio) Si lancia un dado, qual’è la probabilità di A= 1,2? Si sa che è uscito un numero pari,
qual’è la probabilità di A sapendo che B= n°pari?
Dado: 1, 2 ,3 ,4 ,5 ,6
A= 1,2
B= 2,4,6→ P(B)= 3/6
P(A∩B)= è il n° 2 ovvero→ 1/6
- bisogna definire gli eventi, in modo corretto!→ 62%= VOTANTI PRO SINDACO= P(A)
53%= VOTANTI DONNE= P(B)
46%= VOTANTI DONNE PRO SINDACO= P(A B)
Probabilità condizionata= P(A∩B) / P(B) → 0,46= P(A∩B) / 0,53→ P(A∩B)= 0,46 x 0,53= 0,24
45
la regola è→
55
60 40
Regola della probabilità totale→quando si hanno 2 o più eventi (E1, E2…) , che sono mutuamente
esclusivi e anche collettivamente esaustivi, e si vuole calcolare un evento A (che sostanzialmente si
va ad incrociare con gli eventi E1, E2..), conoscendo le probabilità condizionate, si usa tale regola:
Es) una persona daltonica non riesce a distinguere i colori. Vogliamo conoscere la probabilità di
estrarre una persona daltonica (evento D). Sappiamo che per i maschi e per le femmine la
probabilità di essere daltonico è la seguente:
P(D M)= 0,08
P(D F)= 0,04
e: P(M)= 0,48
P(F)=0,52
Terminologia:
➢ numero di permutazioni, o sequenze ordinate
➢ numero di disposizioni
➢ numero di combinazioni
Permutazioni= sono le possibili sequenze ordinate che si possono fare per un gruppo di N oggetti
N!= N fattoriale= N (N-1) (N-2) (N-3)…
Disposizioni= rispondono alla domanda, in quanti modi diversi posso scegliere k oggetti da un
insieme di N oggetti? Con ovviamente la condizione k≤N
D KN = N (N-1) (N-2) (N-3)… fino a (N-k+1)
Combinazioni= il numero di possibili combinazioni di k oggetti presi da N oggetti
Esercizio riepilogativo:
TEOREMA DI BAYES
Il teorema di Bayes, venne elaborato da Thomas Bayes ed è conosciuto anche come teorema della
probabilità delle cause. Tale teorema viene usato per calcolare, conoscendo il risultato di un
esperimento, la probabilità che esso sia dovuto ad una certa causa→ serve per calcolare la
probabilità di una causa che ha scatenato l’evento verificato. Per esempio si può attribuire una
malattia quando il test di laboratorio risulta positivo.
Tale teorema, deriva dalla probabilità condizionata, dalla regola moltiplicativa e dalla regola della
probabilità totale:
P(A B)= P(A∩B) / P(B) = probabilità condizionata
dove il numeratore: P(A∩B)= P(B A) x P(A)= regola moltiplicativa
dove il denominatore: P(B)=P(B A) x P(A) + (B A) x P(A) = probabilità totale
Modalità p(x)
0 1/4
1 2/4
2 1/4
La tabella qua sopra riportata, ricorda le distribuzioni di frequenza solo che al posto delle frequenze,
vi sono le probabilità. Le frequenze relative sono molto simili alla probabilità.
La corrispondenza tra una modalità x e la sua rispettiva probabilità, è definita dalla funzione p(x) e
tale funzione non è altro che la probabilità che X=x →p(x)=X
per cui:
➔ X= variabile aleatoria nel suo complesso
➔ x= valori assunti dalla variabile aleatoria quando si fa l’esperimento= modalità
➔ p(x)= corrispondenza tra una modalità e la sua probabilità
p(0)= 1/8
p(1)= 3/8 Modalità p(x)
p(2)= 3/8 0 1/8
p(3)= 1/8 1 3/8
2 3/8
p(0≤x≤2)= p(0) + p(1) + p(2) 3 1/8
p(0<x≤2)= p(1) + p(2)
Funzione di ripartizione→ è la funzione F(x) definita delle probabilità cumulate:
Valore atteso di una variabile aleatoria discreta→ il valore atteso di una variabile aleatoria, è
semplicemente la media della variabile.
passaggio 1: trovare il valore atteso di X→ E(X)= 10 (0,1) +11 (0,3) + 12 (0,3) + 13 (0,2) + 14
(0,1)= 11,9 giorni
passaggio 2: trovare il valore atteso di a+bX, formula→ E(a+bX)= a+bE(X)= 25 000 + 900 x 11,9=
35710 $
Logicamente, questa formula si può applicare anche alla sottrazione, ovvero→ E(X - a)= E(X) - a
dove: Z = X- μ
E(Z)= 0
var(Z)= 1
σ
DISTRIBUZIONE BINOMIALE
La distribuzione binomiale, è una particolare distribuzione di probabilità discrete, che ha alla base la
prova di Bernulli. Una prova di Bernulli, è un esperimento che può avere solo 2 possibili esiti, il
successo e l’insuccesso. Possiamo dunque definire la variabile di Bernulli, ovvero una variabile
aleatoria X, che ha solo 2 valori: x=0 (è l’insuccesso) e x=1 (è il successo), con:
- probabilità di insuccesso→ p(x)=p(0)= 1-p
- probabilità di successo→ p(x)= p(1)= p
x p(x)
La variabile di Bernulli, ha sempre:
μ= p 0 1-p
σ2= p(1- p) 1 p
Successione di prove di Bernulli indipendenti e identiche→ quando una prova di Bernulli si ripete
più volte (indichiamo con n il numero di prove effettuate); queste prove devono essere
indipendenti l’una dall’altra e identiche ovvero con la stessa probabilità di successo (se estraiamo
una pallina da un’urna, la si deve rimettere poi dentro per la prova successiva, in quanto l’urna deve
sempre rimanere la stessa). Il problema che ora si pone è come valutare la probabilità di ottenere un
certo numero di successi x, su n prove. La soluzione a questo problema ce la dà la variabile
binomiale. Variabile binomiale→ è il numero di successi x su n prove di Bernulli indipendenti e
identiche con probabilità di successo p (è una variabile discreta). La probabilità che su n
ripetizioni si verifichino x successi, è data dalla formula:
dove:
- modalità= x = successi= 0,1,2...n P(x)= Cnx px (1-p)n-x
- n-x= insuccessi
x p(x)
0 ??
1 ??
x=0,1,2
2 ??
n=2
18
Trucchetto! Al posto di fare C12 , si può fare C618, poiché se i successi sono 12 gli insuccessi
dovranno essere per forza 6→ 12(successi) + 6(insuccessi)= 18. Per cui fare uno o fare l’altro non
cambia il risultato finale, è solo una questione di tempo.
2. p(x≥17)= p(17) + p(18)→ p(17)= 18,000000012 x 0,00232631 x 0,3= 0,01256
p(18)= 1 x 0,00162841 x 1= 0,00162841 p(x≥17)=0,01419
Esercizio: un’organizzazione impiega degli studenti per richiedere donazioni per telefono. Dopo un
breve periodo di addestramento, gli studenti chiamano i potenziali donatori e sono pagati in
percentuale sulla base delle offerte ricevute. L’esperienza indica che, in passato, gli studenti hanno
avuto scarso successo e che il 75% di loro ha abbandonato il lavoro prima di 2 settimane.
L’organizzazione impiega 7 studenti che possono essere considerati un campione casuale:
1. qual’è la probabilità che almeno 2 studenti dei 7 abbandonino il lavoro prima delle 2
settimane?
2. qual’è la probabilità che almeno 2 studenti dei 7 NON abbandonino il lavoro prima delle 2
settimane?
Probabilità=1
Probabilità abbandono= 0,75
Probabilità non abbandono=0,25
n=7 evento complementare:
1. p(x≥2) con p=0,75? p(x≥2)=
p(x≥2)= 1- p(x≤1)= 1 – [p(0) + p(1)]
2. p(x≥2) con p=0,25?
Esercizio: una società farmaceutica riceve partite contenenti grandi quantitativi di aspirina. Per
decidere se accettare o rifiutare la partita, la società ha stabilito di selezionare in modo casuale e
testare 17 compresse e di accettare l’intera partita solo se 1 o nessuna è conforme alle specifiche
richieste. Se una consegna di migliaia di compresse di aspirina, ha un tasso del 3% di difetti, qual’è
la probabilità che tutta questa partita venga accettata?
n=17
p=probabilità di difetti= 0,03
p(x≤1)=? → p(o) + p(1)= 0,595826 + 0,313269= 0,909
p(0)= 0,030 x (1-0,03)17= 0,595826
p(1)= 17 x 0,031 x (1-0,03)16= 0,313269
es) un negozio che rivende computer, lancia questa campagna: tutti gli acquirenti di nuovi
computer, potranno se insoddisfatti, restituirli entro 2 giorni dalla data d’acquisto e ricevere indietro
l’intera somma pagata. Il costo dell’operazione è valutato in 75$ per ogni computer e il rivenditore
ritiene che alla fine il 18% degli acquirenti, restituirà i computer e avrà il rimborso. Supponiamo
che con questa campagna promozionale, vengano venduti 60 computer:
1. qual’è la media e la deviazione standard del numero di computer che saranno restituiti?
2. qual’è la media e la deviazione standard dei costi di rimborso che si generano in seguito alle
60 vendite?
n=60
p=computer restituiti= 0,18
75$= costi di rimborso per ogni computer
Queste tipologie di distribuzioni, si chiamano congiunte in quanto p(x) e p(y) sono le probabilità
del verificarsi contemporaneamente di una certa variabile aleatoria Y e una certa variabile aleatoria
X.
Per esempio, nella tabella qua sopra descritta, 0,2 è la probabilità che x=0 e y=1.
La funzione di probabilità congiunta→ è la funzione p(x,y) che associa ad ogni coppia di modalità
(x,y) una probabilità p(X=x ∩ Y=y) tale che:
- ogni probabilità sia ≥0
- la somma delle probabilità sia sempre =1
Data una distribuzione congiunta, è possibile calcolare delle probabilità condizionate, es:
x
p(x1∩y1) Totale della riga Caso n°1:
Probabilità condizionata di X dato Y:
y
p(x y)= p(x∩y) / p(y)
x
p(x1∩y1) Caso n°2:
Probabilità condizionata di Y dato X:
y
p(y x)= p(x∩y) / p(x)
Totale della
colonna
In pratica, si divide una probabilità congiunta (ovvero una di quelle dentro la tabella) per il totale di
riga o di colonna.
X
x1 x2 x3 x4 p(y)
y1 p(x1∩y1) p(x2∩y1) p(x3∩y1) p(x4∩y1) p(y1)
Y y2 p(x1∩y2) p(x2∩y2) p(x3∩y2) p(x4∩y2) p(y2)
y3 p(x1∩y3) p(x2∩y3) p(x3∩y3) p(x4∩y3) p(y3)
p(x) p(x1) p(x2) p(x3) p(x4) 1
Media di X→sarebbe tutti i possibili valori di x per p(x): μx= E(X)= x1 p(x1) + x2 p(x2)+ ….
Media di Y→ sarebbe tutti i possibili valori di y per p(y): μy= E(Y)= y1 p(y1) + y2 p(y2)+….
Varianza di X→σx2= (x1-μx)2 p(x1) + (x2-μx)2 p(x2) + .. oppure→ σx2= x12 p(x1) + x22 p(x2) + … -μx2
Varianza di Y→σy2= (y1-μy)2 p(y1) + (y2-μy)2 p(y2) + .. oppure→ σy2=y12 p(y1) + y22 p(y2) + … -μy2
Non c’è bisogno di dire che la deviazione standard (σ) è la radice della varianza→ σ= √σ2
Per la covarianza, è più conveniente riscrivere la tabella in questo modo (è conveniente, non
necessario)!:
y x p(x∩y) xy p(x∩y) xy
y1 x1 p(x1∩y1) x1y1 p(x1∩y1) x1y1
... ... …. ... ….. Tot
Cov(X,Y)= p(x∩y) xy - μxμy
... ... …. ... …..
Tot: somma
della colonna
Indipendenza→ X e Y sono indipendenti se e solo se p(xn ∩yn)= p(xn) p(yn) per ogni valore di X e Y
Il coefficiente di correlazione→Il coefficiente di correlazione lineare, fornisce una misura
dell’intensità della relazione lineare tra 2 variabili aleatorie, con valori limitati all’intervallo: [-1,1].
Corr(X,Y)= Cov(X,Y)/σxσy
es)
x=1 x=2 p(y)
y=1 0,27 0,03 0,30
y=2 0,63 0,07 0,70
p(x) 0,90 0,10 1
a e b sono fisse ma X e Y no, in quanto sono delle variabili per cui hanno un’incertezza descritta
dalla distribuzione di probabilità congiunta
La valutazione complessiva del portafoglio, dipende da 2 indici:
• Valore atteso di portafoglio→ E(W)= E(aX + bY)
• Rischio del portafoglio→ var(W)= var(aX + bY)
N:B: Può succedere che il rischio complessivo sia più basso della somma dei 2 rischi? La risposta è
SI, questo succede quando la covarianza è negativa→ Var(W)= Var(X) + Var(y) +2Cov(X,Y)
(questo + in fondo fa decrescere il rischio complessivo)
Capitolo 6.
VARIABILI ALEATORIE CONTINUE
Ricapitoliamo: una variabile aleatoria, è una variabile che assume dei valori numerici in
corrispondenza di un esperimento casuale.
Variabili aleatorie discrete X→ x (modalità) è un numero intero (n° di contagi in un giorno)
Variabili aleatorie continue X→ x (modalità) è un numero reale (durata di un componente
elettronico)
Una variabile aleatoria continua, è una variabile che può assumere qualsiasi valore in un intervallo
di numeri reali:
es) spessore di un oggetto, altezza di una persona….
➔ f(x)≥0 per qualunque valore di x nell’intervallo dei valori ammissibili e f(x)=0 altrove
➔ l’area sottesa alla funzione di densità di probabilità, su tutto l’asse dei numeri reali, è =1
➔ la probabilità che X assuma valore compresi tra a e b è: P(a≤X≤b)= area sottesa alla
funzione di densità, nel suo intervallo
Nota: per le variabili aleatorie continue, si possono sostituire i valori ≤ con < senza cambiare niente
perché P(X=x)= 0 per ogni x.
➔ La funzione di ripartizione f(x0)= area sottesa alla funzione di densità, fino a x0 (x0 è
qualsiasi valore assumibile dalla variabile aleatoria)
F(x0)= P(X≤x0)
La funzione di ripartizione F(x0), esprime la probabilità che X, non superi il valore x0.
Valore atteso di una variabile aleatoria continua E(X)→ viene calcolata matematicamente tramite un
integrale:
Trasformazione lineare di una variabile aleatoria continua→ W=a+bX dove a e b sono costanti, la
media di W, si calcola: E(W)= E(a+bX)= a +bμX e la varianza di W: σ2W=Var(a+bX)= b2 σ2X
mentre la deviazione standard di W si calcola: σW= b σX
Le distribuzioni di probabilità per le variabili aleatorie continue
Distribuzioni di probabilità
La funzione di densità dunque, assume diverse conformazioni in base alla tipologia di distribuzione
che ci troviamo davanti:
DISTRIBUZIONE UNIFORME
La distribuzione uniforme, è la distribuzione di probabilità che assegna la stessa probabilità a tutti
gli intervalli, ovvero tutti i valori di X sono equiprobabili.
Funzione di densità di probabilità→ Per una variabile aleatoria continua uniforme X, che si trova in
un certo intervallo a, b, la funzione di densità di probabilità è:
Esercizio) Trovare la probabilità che le vendite giornaliere di benzina siano almeno pari a 600 litri
(la cisterna può ospitare al massimo 1000 litri di benzina).
P(X≥600)=?→ P(600≤X≤1000)= (1000 – 600) (1/1000-0)= (400) 1/1000= 400/1000= 0,4
Esercizio) un guasto su un oleodotto lungo 2Km si verifica casualmente con una densità di
probabilità uniforme. Qual’è la probabilità che si verifichi nel segmento 500m e 1500m?
P(500≤X≤1500)=?→ P(500≤X≤1500)= (1500-500) (1/2000)= 1000/2000= 0,5
2Km in m→ 2000.
La probabilità è crescente: più di 1 la probabilità non può essere, quando si arriva a b, la probabilità
non cresce più e resta costante (linea piatta).
Calcolo della probabilità in un intervallo con la funzione di ripartizione→ P(a<X<b)= F(b) – F(a)
Funzione di ripartizione per una variabile normale standard→ è la probabilità F(z)=P(Z≤z)= area a
Sx di z e l’area si calcola usando la Tavola n°1.
La tavola della normale standard, fornisce i valori della funzione di ripartizione della distribuzione
normale, ottenuti tramite approssimazione numerica→ per un dato valore a di Z, la tavola
fornisce F(a): P(Z≤a)= F(a)
La probabilità che F(1)= P(Z≤1)= ? Si cerca guardando il valore di F(a) che corrisponde a a=1 nella
tavola:
Per i valori negativi di Z, usufruiamo del fatto che la distribuzione è simmetrica per trovare la
probabilità desiderata:
Ovvero faccio il complementare, se a=2→ P(Z≤2)=0.9772
b se a=-2 → P(Z≤-2)= 1- 0.9772→ 0.0228
Probabilità di un intervallo per una variabile normale standard → P(a≤Z≤b)= F(b) – F(a)
es) P(0≤Z≤1)= F(1) – F(0)= 0.8413 - 0.5 = 0.3413
• P(Z>n)=P(Z<-n)→ 1-P(Z<n)
• P(Z>-n)→ P(Z<n)
• P(-a<Z<b)→ P(Z<b)-[1-P(Z<a)]
• P(-a<Z<-b)→ P(Z<a) – P(Z<b)
• P(Z<-n)→ 1-P(Z<n)
• P(a<Z<b)→ P(Z<b)-P(Z<a)
• P(-2<Z<0)= P(Z<2) – 0.5
Z = X- μ
σ
E viceversa, una variabile normale standard, si può riportare ad una generica X, usando la
trasformazione inversa:
X= μ+σX
Normale standard Normale generale
Z ~ N(0,1) X ~ N(μ,σ2)→ Z ~ N(0,1)
Si usa una notazione: Se X ~ (simbolo tipo tilde, che sta per, è distribuita come..) una variabile
normale N(μ,σ2). La probabilità P(X<x) si può calcolare sempre usando le tavole della normale
standard.
Cosa si fa? Si effettuano 2 standardizzazioni:
1) si standardizza X ~ N(μ,σ2), che quindi diventa Z ~ N(0,1)
2) si standardizza il valore x che diventa z=x-μ/σ
P(az≤Z≤bz)→ P(Z<bz)-P(Z<az)
es) il punteggio allo scritto di statistica è distribuito normalmente con μ=19 e σ=2. Calcolare la
probabilità che uno studente prenda: 21≤X≤23.
P(az≤Z≤bz)= P(Z≤2) – P(Z≤1)→ ricorro all’uso della tavola e→ 0.9772 – 0.8413= 0.1359
poiché: az=a-μ/σ→ 21-19/2=1 e bz=b-μ/σ→ 23-19/2= 2
In pratica, bisogna:
- passaggio 1, trasformare P(a≤X≤b) in P(az≤Z≤bz) calcolando az e bz→ az=a-μ/σ e bz=b-μ/σ
- passaggio 2, applicare la formula: P(az≤Z≤bz)→ P(Z<bz)-P(Z<az) utilizzando i valori della tavola
per la normale standard.
- N.B: questo sopra citato è per il caso in cui X sia compreso tra 2 estremi, ma se i segni cambiano
non è un problema, si applicano le regole per la normale standard ovviamente tenendo conto che
non vi sono più a e b ma az e bz:
• P(Z>n)=P(Z<-n)→ 1-P(Z<n)
• P(Z>-n)→ P(Z<n)
• P(-a<Z<b)→ P(Z<b)-[1-P(Z<a)] P(a<Z<-b)→ P(Z<a)-[1-p(Z<b)]
• P(-a<Z<-b)→ P(Z<a) – P(Z<b)
• P(Z<-n)→ 1-P(Z<n)
• P(a<Z<b)→ P(Z<b)-P(Z<a)
• P(-2<Z<0)= P(Z<2) – 0.5
La probabilità che una certa variabile sia compresa tra μ+σ e μ- σ, si calcola standardizzando gli
estremi dell’intervallo: es) (μ+σ -μ)/σ=1 e (μ-σ -μ)/σ= -1.
Q1= è il valore che ha prima di se il 25% dei dati→ il primo quartile, detto anche quantile di
ordine 0.25 è il valore k tale che P(X≤k)=0.25
Q3= è il valore che ha prima di se il 75% dei dati→ il terzo quartile, detto anche quantile di ordine
0.75 è il valore k tale che P(X≤k)=0.75
Generalizzando: un quantile di ordine p è il valore k tale che P(X≤k)=p e per calcolare un quantile
bisogna utilizzare la tavola all’inverso.
1-0.25= 0.75 ma cambiando il segno diventa -0.75 questo perché esso è più piccolo della metà e
quindi è negativo!
es) Trovare l’intervallo (-k,k) che racchiude il 90% dei valori di Z (normale standard).
Siccome siamo in presenza di una normale standard, la distribuzione è simmetrica e siccome il 90%
dei valori è racchiuso nell’intervallo, la coda di Dx e Sx saranno rispettivamente 0.05 e 0.05.
es) X ~ N(μ,σ2) con σ= 15 μ= 60. Qual’è il valore soglia (quantile) che delimita il 10% degli
studenti migliori??
Ovvero: P(X>valore)=0.1 → siccome 0.1 è < di 0.5 il valore non si trova nelle tavole conviene
trovare il valore <, per cui si fa la formula inversa:
Formula classica→ P(X>k)= 1- P(X<k)
- P(X<k)= -1 + P(X>k)
P(X<k)= 1- P(X>k)
P(X<valore)=1- 0.1=0.9
Esercizio importante: Qual’è l’intervallo simmetrico, centrato nella media, tale che la probabilità
che X assuma valori all’interno sia 0.03? μ= 70 σ=7
In altre parole: P(a<X<b)=0.03→ a e b=??
➢ conviene separare P(az<Z<bz)
- P(Z<bz). bz= b-70/7
La P(X<b) è data delle probabilità: P(X<a) e P(a<X<b). Questa probabilità, si trova utilizzando la
simmetria della distribuzione:
P(Z<b)= 1-P(a<X<b)/2 + P(a<X<b)→1-0.03/2 + 0.03→ 0.515
➢ Utilizzo la tavola della normale standard per trovare il valore che corrisponde a F(z)= 0.515,
che è z=0.04
➢ bz→ 0.04= b-70/7→70.28
➢ Utilizzo ora la simmetria, ed a si risolve per - 0.04 : az→ -0.04= a-70/7→69.72
P(69.7<Z<70.3)
Si usa la così detta regola del pollice per vedere se n è grande: n è grande se np(1-p)>9). Poi se n è
grande, allora la probabilità che il numero di successi sia ≤ x è:
Poi risolvo le mie operazioni normalmente come faccio per le variabili aleatorie continue: es)
Esercizio) n=900 p=0.5.
a. Qual’è il numero di successi > 500? ovvero: P(X>500)=?
Applico la formula classica delle variabile aleatorie continue per il caso >: P(Z>n)= 1- P(Z<n)
P(Z>3.33)= 1- P(Z<3.33)= 1- 0.9996= 0.0004
Poi uguaglio la mia z cambiandola di segno al valore→ -0.25= valore-450/15→ -3.75 +450= valore
valore= 446.25
P(X<446.25)= 0.40
Ricapitolando dunque:
➔ quando ho: P(X>n)= probabilità < 0.5, n=?? Facendo la formula inversa, diventa:
1- la probabilità che ho e mi trovo il mio F(z) P(X<n)= 1- P(X>n)
F(z)=…. → z=….. usando la tavola
Poi uguaglio la mia z al dato che devo trovare
??
➔ quando ho: P(X<n)= probabilità < 0.5, n=??
1- la probabilità che ho e mi trovo il mio F(z) Questo perché la formula sarebbe:
F(z)=…. → z=….. usando la tavola P(X>n)= 1-P(X<n)
Poi uguaglio la mia z cambiata di segno al dato che devo trovare
COMBINAZIONI LINEARI DI VARIABILI ALEATORIE CONTINUE (= per quelle discrete)
a e b sono fisse ma X e Y no, in quanto sono delle variabili per cui hanno un’incertezza descritta
dalla distribuzione di probabilità congiunta
N:B: Può succedere che il rischio complessivo sia più basso della somma dei 2 rischi? La risposta è
SI, questo succede quando la covarianza è negativa→ Var(W)= Var(X) + Var(y) +2Cov(X,Y)
(questo + in fondo fa decrescere il rischio complessivo)
Statistica descrittiva→ come dice la parola stessa, è quella parte della statistica che si occupa di
descrivere, analizzare dei dati. Si raccolgono i dati in modo opportuno e si riassumono le
caratteristiche essenziali delle variabili (tendenza centrale, variabilità, grafici..). Queste
caratteristiche però solo esclusivamente valide solo per i dati osservati, es se i dati sono 200 le
caratteristiche trovate si limitano a quei 200 dati.
Statistica inferenziale→ dunque è quella parte della statistica che si occupa di estrapolare le
caratteristiche di una popolazione tramite l’osservazione di dati di un campione rappresentativo,
ovvero un campione che rappresenta la popolazione di interesse. Gli unici campioni che possiamo
considerare rappresentativi sono quelli casuali, in quanto sono imparziali. Il campionamento
casuale, è il procedimento che viene usato per selezionare un campione di n oggetti da una
popolazione, dove tutti gli elementi appartenenti alla stessa popolazione avranno la stessa
probabilità di essere scelti. La differenza tra il risultato ottenuto dal campione e la vera caratteristica
della popolazione è detta errore di campionamento. L’errore di campionamento, non può mai essere
determinato con certezza, ma può essere stimato ovvero si possono determinare i limiti probabili
della sua entità.
Avendo dunque un campione rappresentativo, si determinano delle procedure di stima delle
caratteristiche della popolazione, si fanno dei calcoli appropriati su un campione per poi
generalizzare.
N.B: le caratteristiche della popolazione che si vogliono stimare si dicono PARAMETRI DELLA
POPOLAZIONE
Stima della media (su una popolazione normale)→ lo stimatore della media μ, è la media
campionaria:
n=numerosità campionaria
Proprietà della distribuzione campionaria della media:
• X è una variabile aleatoria che ha sempre valore atteso= alla media della popolazione
• X ha una varianza uguale alla varianza della popolazione / la numerosità del campione
es) Supponiamo che un’azienda produca candele di accensione con durata X aleatoria. Si estrae un
campione casuale i.i.d. di 16 candele, qual’è la probabilità che la durata media campionaria sia < o
≥ a 34500Km?
μ= 36000Km
σ= 4000Km
La probabilità che voglio è: P(X≤34500), poiché la media campionaria ha una distribuzione
normale, quindi: N( μ, σ/√n)→ N(36000, 4000/√16)= (36000, 1000)
Dunque calcolo (standardizzo): P(Z≤ 34500 – 36000/100)→ per cui: P(Z≤ x -μ /σX)
P(Z≤- 1.50)→ siccome il numero è negativo faccio il complementare: 1- P(Z≤1.50)= 1- 0.9332=
0.0668
N.B: la deviazione standard della media campionaria, viene chiamata errore standard di X. L’errore
standard, è l’errore dovuto al campionamento in cui si incorre stimando la media μ della
popolazione usando un campione. Se n→ ∞ l’errore standard tende a 0.
La deviazione standard è inversamente proporzionale a √n, per cui se voglio dimezzare l’errore
standard prendendo un campione più grande, occorre che quadruplico la dimensione del campione.
Teorema del limite centrale→ tale teorema, è un risultato asintotico, ovvero indica quello che
accade quando n, la dimensione del campione, tende all’infinito. Esso afferma che: se si è
interessati alla distribuzione della media campionaria e si dispone di un campione abbastanza
ampio (a volte basta che n≥30) non ci si bisogna preoccupare di qual’è la distribuzione del
carattere della popolazione perché ciò è irrilevante, infatti qualunque essa sia, la media
campionaria avrà distribuzione approssimativamente normale (al crescere della dimensione
campionaria n, l’approssimazione diventa sempre migliore).
Esercizio) Da una popolazione con μ= 100 e σ= 30 si estrae un campione con n=30
• Quanto valgono la media e la varianza della media campionaria?
• Qual’è la probabilità che X>109?
Stima di una proporzione di una distribuzione di Bernulli→la stima di una proporzione di successi p
in una popolazione Bernoulliana usando un campione casuale i.i.d. di dimensione n.
- probabilità di insuccesso→ p(0)= 1-p
- probabilità di successo→ p(1)= p
La proporzione campionaria, è uno stimatore non distorto cioè non tende a sovrastimare o
sottostimare μ, in quanto il suo valore atteso coincide con il parametro di interesse:
infatti→ E(P^)=μ
Regola: Se si vuole dimezzare l’errore di stima si deve fare un campione 4 volte più grande per cui
si deve quadruplicare la dimensione campionaria (n). Questo perché al denominatore abbiamo una
√n.
Teorema del limite centrale→ tale teorema, è un risultato asintotico, ovvero indica quello che
accade quando n, la dimensione del campione, tende all’infinito. Esso afferma che: se si è
interessati alla distribuzione della proporzione campionaria e si dispone di un campione
abbastanza ampio (regola del pollice: np(1-p)>9) non ci si bisogna preoccupare di qual’è la
distribuzione del carattere della popolazione perché ciò è irrilevante, infatti qualunque essa sia, la
media campionaria avrà distribuzione approssimativamente normale.
^
P
Es) la probabilità di osservare un campione con proporzione di successi non superiore al 60% è:
P(P^≤0.60)= ??
P(P^≤0.60)→ P(Zp^ ≤ (0.60-p) / √p(1-p)/√n)
Esercizio: da una popolazione di case di vecchia costruzione, si è estratto un campione casuale i.i.d.
di 250 case per verificare la proporzione casuale di case con l’impianto elettrico non a norma. Se la
popolazione ha il 30% di case non a norma, qual’è la probabilità che la proporzione campionaria di
case non a norma sia compresa tra il 25% e il 35%?
n=250 p=0.3 np(1-p)>9 → 75(0.7)>9 → 52.5>9
P(0.25< P^ < 0.35)=??
P(0.25-0.3 / √0.3(0.7)/ 15,81 < ZP^ < 0.35-0.3 / √0.3(0.7)/ 15,81)
P(-0.05/0.0289 < ZP^ < 0.05/0.0289)→ P(- 1.73 < ZP^ < 1.73)
la formula classica è: P(-a < Z < b)= P(Z<b) - [1-P(Z<a)]→ P(ZP^ < b) - [1-P(ZP^ < a)]
0.9582 - [1-0.9582]= 0.9582 – 0.0418= 0.9164
Capitolo 8.
PROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE
Proprietà degli stimatori:
• correttezza
• efficienza
• consistenza
Questi stimatori, sono stimatori corretti o non distorti, ma esistono anche stimatori distorti? La
risposta è si.
Stimatori con distorsione→ riprendiamo innanzitutto la definizione di stimatore non distorto: uno
stimatore è non distorto quando il suo valore atteso coincide con il parametro d’interesse e dunque
la differenza tra media e parametro è nulla. Da questa definizione possiamo dedurre che uno
stimatore è distorto quando il suo valore atteso ≠ parametro d’interesse, ovvero quando la
differenza tra media e parametro non è più nulla, bensì da come risultato uno scarto negativo o
positivo.
Stimatore distorto:
Distorsione→ sia θ^ uno stimatore per θ (parametro), la distorsione (o bias) è definita come la
differenza tra la media dello stimatore e il vero valore del parametro.
Un modo per quantificare l’incertezza è quello di associare alla stima un intervallo, (es. [8, 12]),
detto intervallo di confidenza (IC). L’intervallo di confidenza, è l’intervallo di valori entro i quali si
stima che cada, con un livello di probabilità prescelto, il parametro desiderato. Tale probabilità è
detta livello di confidenza ed è in generale indicato con (1−α) dove α è la probabilità che il
parametro si trovi al di fuori dell’intervallo di confidenza. Quindi la confidenza è il grado di fiducia
che l’intervallo possa contenere effettivamente il parametro di interesse. N.B: quanto più ampio è
l’intervallo tanto maggiore è l’incertezza.
Tipicamente gli intervalli sono fatti così: θ^±multiplo dell’errore standard di θ^
(una stima±un certo multiplo dell’errore standard, sono fatti come un intorno della stima)
IC per la media con varianza nota a priori→ con livello di confidenza 1-α.
se α= 5%, 1-α=95%→ zα/2= 1.96 (è quel valore che lascia nelle code una probabilità α/2)
za/2= fattore di affidabilità
Livello di 90% 95% 98% 99%
confidenza
1-α 0.90 0.95 0.98 0.99
α 0.10 0.05 0.02 0.01
(1-α) +α/2 0.95 0.975 0.99 0.995
zα/2 1.645 1.96 2.33 2.575
la parte della tabella evidenziata è F(z) per cui si va a vedere sulla tavola qual’è il valore di z che
corrisponde a F(z), e il valore ottenuto sarà zα/2.
N.B: scrivere che (…. ≤ μ ≤ ….) è sbagliato in quanto l’intervallo può contenere o NON
CONTENERE il vero valore di μ, in quanto non possiamo sapere se l’intervallo ottenuto fa parte
degli intervalli “buoni” (nel caso sopra erano 95) o degli intervalli “cattivi” (nel caso sopra 5).
Alcune notazioni:
• la media della popolazione è una costante fissa
• gli estremi degli intervalli di confidenza sono aleatori
Il margine di errore (ME)→ è pari alla metà della lunghezza dell’intervallo di confidenza, ovvero:
Il ME ha le seguenti proprietà:
1. cresce al crescere di σ
2. diminuisce al crescere di n
3. cresce al crescere del livello di confidenza richiesto
Esercizio: Si producono bottiglie d’acqua con etichetta 720ml. Si studia il reale contenuto di X. La
produzione sa che X è normale con μ incognita e σ= 6ml. Si estrae un campione i.i.d ì. Di
dimensione 90 e la media campionaria è 719ml.
Trovare l’intervallo di confidenza al 92% per la media della popolazione.
X= 719
σ= 6
n= 90
la formula ricordiamo che è:
719± zα/2 6/9.4868→ 719± zα/2 0.63
zα/2=??→
• il mio livello di confidenza è il 92% per cui 1-α=0.92
• tot=1 , se 1-α=0.92 ne segue che α= 0.08
• (1-α) +α/2= 0.92 + 0.04= 0.96, e questo è il valore F(z), per cui ora avdo sulla tavola della
normale standard e mi trovo il valore di z che corrisponde alla mia F(z).
F(z)= 0.96 → z=1.75→ zα/2= 1.75
• ora posso completare la formula: 719± 1.75 (0.63)
719 ± 1.1025→ l’intervallo è: 720.1025 ≈ 720.1
717.8975 ≈ 717.9
Si potrebbe pensare che una volta stimata la varianza, l’intervallo aleatorio diventa:
ma ciò è sbagliato ecco perché:
Una conseguenza della sostituzione di σ (una quantità fissa, certa) con S (uno stimatore, che
assume valori diversi a seconda del campione estratto) è l’introduzione di una ulteriore fonte
di incertezza: a parità di livello di confidenza l’IC si allunga per tener conto dell’aumentata
incertezza.
Da un punto di vista tecnico, la media campionaria standardizzata ha:
- distribuzione normale standard quando la varianza è nota è nota
- distribuzione t di Student con n−1 gdl quando la deviazione standard (σ) non è nota e viene
sostituita dalla deviazione standard campionaria S.
tale distribuzione: è stata inventata da William Gosset (chimico-matematico) nel 1907.
gbgbghhghgngnhhggnbnbnbnbnbnbnbnbnbnbnbnbn(student è uno pseudonimo)
La t di Student è una famiglia parametrica di v.a. continue che hanno come supporto l’intero asse
dei numeri reali. Ogni membro della famiglia (cioè, qualunque sia il numero di gdl) è una
distribuzione simmetrica con media 0, varianza appena maggiore di 1. La differenza sostanziale con
la Normale Standard è che le code sono più spesse della normale, dunque i fattori di affidabilità
(za/2) nella distribuzione t di Student sono maggiori di quelli della Normale Standard.
(per ottenere i fattori di affidabilità si usa la tavola 2 del libro)
Inoltre, possiamo dire anche che la t di Student è sostanzialmente diversa dalla Normale standard
quando n è piccolo; al crescere del numero di gdl la t diviene sempre più simile alla Normale
standard, tanto che per n>60 le due distribuzioni presentano differenze trascurabili.
Esercizio: Il consumo X di carburante degli autocarri di un certo modello definisce una popolazione
che si distribuisce normalmente. Si vuole stimare μ usando un campione i.i.d. n=24 con un livello di
confidenza del 90%. Trovare l’intervallo di confidenza sapendo che:
X= 8.03 S= 0.73
• applicando la formula: 8.03±t n-1,α/2 (0.73/4.8989)
8.03±t23, α/2 (0.149)→ α/2, lo calcolo con il procedimento solito e viene: 0.05
• ora vado a cercare nella tavola della distribuzione t di Student: v= 23 e α= 0.05, e mi trovo il
valore 1.714
• 8.03±t23, α/2 (0.149)= 8.03±(1.714)(0.149)→ 8.03±0.255
• per cui il mio intervallo di confidenza sarà: 8.285 ≈ 8.3
7.775 ≈ 7.8
Livello di 90% 95% 98% 99%
confidenza
1-α 0.90 0.95 0.98 0.99
α 0.10 0.05 0.02 0.01
α/2 0.05 0.025 0.01 0.005
t n-1,α/2 t n-1, 0.05 t n-1, 0.025 t n-1, 0.01 t n-1,0.005
Esercizio: il tempo X impiegato per andare a lavoro si suppone che sia distribuito normalmente. Si
vuole stimare il tempo medio e per questo si estrae un campione casuale i.i.d. di tempi (minuti) per
5 individui ottenendo i dati: 30, 42, 35, 40, 45.
a) qual’è l’errore standard stimato della media campionaria?
b) calcolare l’ampiezza dell’intervallo (livello di confidenza 95%)