Sei sulla pagina 1di 57

STATISTICA

Capitolo1.
Che cos’è la Statistica??
La Statistica è la scienza che studia i fenomeni collettivi→ l’insieme delle tecniche utilizzate per
raccogliere, rielaborare e interpretare i dati che riguardano la collettività al fine di studiare un
fenomeno e poterne prevedere gli sviluppi. In particolare la statistica offre un supporto ideale al
processo decisionale, grazie alla sua capacità di produrre risultati semplici, chiari e coincisi pronti
ad essere utilizzati come punto di partenza delle analisi strategiche, infatti la statistica viene
utilizzata da manager, investitori, dirigenti marketing….

STATISTICA

STATISTICA DESCRITTIVA STATISTICA INFERENZIALE

POPOLAZIONE= una moltitudine di individui o di elementi che presentano caratteristiche comuni


CAMPIONE= quando lo studio dell’intera popolazione risulta essere troppo complicato o costoso, si
sceglie un campione, ovvero un sottoinsieme della popolazione, che deve riprodurre/rappresentare
in piccolo le caratteristiche dell’intera popolazione. Questo campione, viene scelto secondo il
campionamento casuale, ovvero il procedimento che viene usato per selezionare un campione di n
oggetti da una popolazione; qui però, il termine casuale non significa che è un procedimento privo
di regole, ma che tutti gli elementi appartenenti alla stessa popolazione avranno la stessa probabilità
di essere scelti.

Possiamo dunque dire, che in generale la statistica si occupa di analizzare i dati, questi dati sono
osservati su unità statistiche o di studio (che quindi sono gli individui o gli elementi) e sono la
misurazione di un fenomeno (caratteristica che accomuna le unità statistiche). Il fenomeno però
varia da unità a unità o meglio si manifesta diversamente, per cui esso definisce una variabile.
Fenomeno e variabile dunque, sono sostanzialmente la stessa cosa, solo che il fenomeno è il
concetto mentre la variabile è quel concetto misurato.

Variabili qualitative e quantitative → Le variabili si manifestano in modalità e si classificano in:


➢ qualitative, quando i suoi valori sono modalità non numeriche ma espressioni. Ad esempio,
il genere è una variabile qualitativa perché è costituita da due modalità: maschio e femmina.
ASD Le variabili qualitative a loro volta si dividono in:
- qualitative nominali, categorie che non si possono ordinare (sesso)
- qualitative ordinali, come dice la parola stessa sono categorie che si possono ordinare
➢ quantitative, quando i suoi valori sono modalità numeriche che si differenziano tra loro in
termini di grandezza numerica . Le variabili quantitative a loro volta si dividono in:
- quantitative continue, sono misurate con numeri reali (es. 1- 1,5 - 2 – 2,5)
- quantitative discrete, sono misurate con numeri interi (es. 1 - 2 - 3)
Capitolo 2: RAPPRESENTAZIONE GRAFICA DEI DATI
Le serie storiche→ si osserva il fenomeno su una sola unità in istanti di tempo diversi, e per farne
una rappresentazione grafica, si prende il piano cartesiano:

Quantità numeriche
.
.
.
tempo
si mettono dei puntini in corrispondenza delle quantità numeriche e dai relativi tempi, per cui alla
fine avremo un grafico composto da tanti punti uniti.

La capacità di sintesi→ La Statistica, ha la capacità di sintesi ovvero, quando si analizzano molti


dati è conveniente sintetizzarli, poiché anche se ciò comporta inevitabilmente una perdita di dati, il
processo di sintesi ci permette si riassumere i dati in alcuni valori significativi.

• diagramma a barre, per le variabili quantitative discrete


• istogrammi, per le variabili quantitative continue

Uno strumento di sintesi, è la distribuzione di frequenza, dove per frequenza s’intende quante volte
si è ripetuta la stessa modalità. FREQUENZA=numero di duplicati
Una distribuzione di frequenza è una tabella in cui si fa corrispondere ad ogni modalità della
variabile la sua frequenza.
La distribuzione di frequenza serve per l’eliminazione dei duplicati e viene rappresentata in una
tabella dove:

Modalità (es. voti esami) Frequenza (studenti)


18 8
30 26
21 46
25 31
Si indica per ogni voto il numero di studenti che l’hanno preso.

Di solito si aggiunge anche il totale, ovvero la somma di tutte le frequenze. Con il totale si può
calcolare la distribuzione delle frequenze percentuali: ciascuna frequenza/totale x 100= n%
quanti studenti hanno preso 21? 46/111= 0,41 (frequenza relativa)→ 0,41 x 100= 41%
Questa distribuzione di frequenza è quello che in seggio elettorale si chiama spoglio delle schede.

Un’altra rappresentazione, forse più utile per le variabili discrete è il diagramma a barre:

Asse verticale (y)= frequenze


Asse orizzontale (x)=modalità
Frequenze assolute=indicano esattamente in numero di volte in cui una modalità si presenta
Frequenze relative= sono quelle ottenute dal rapporto tra ciascuna frequenza assoluta/ numero totale

Quando i dati sono continui (variabili continue), non è sensato fare la distribuzione di frequenza, ma
è utile costruire della classi di modalità. Per esempio se si vuole misurare l’obesità essa non dipende
solo dal peso, ma dal peso in relazione con l’altezza, e si misura facendo l’indice di massa corporea:

Questo indice, è un dato continuo


che si studia suddiviso in classi:

ciò indica che il 15 è compreso nell’intervallo, e come si può vedere le classi possono avere
ampiezza diversa.

Nello scanner unidimensionale, prendendo come esempio 200 donne:

I numeri sono messi in


ordine crescente, e le linee
blu sono le classi.

Per le variabili continue, la rappresentazione grafica sono gli istogrammi:

Asse verticale (y)= densità


Asse orizzontale (x)=modalità (classi)
Ogni rettangolo, rappresenta una classe, dove la base è l’ampiezza della classe e l’altezza è uguale
alla densità. Per cui ne segue che, l’area di ogni triangolo è:

Ampiezza classe= estremo superiore della classe – estremo inferiore della classe
Per definizione→ la somma delle aree di tutti i rettangoli fa 1

Regole per la scelta del numero di classi:


l’ampiezza delle classi è arbitraria, tuttavia bisogna utilizzare un criterio di scelta che tenga conto
delle informazioni che vogliamo trovare.
• Esiste una regola→ il Regola Sturges che è appunto un criterio utilizzato per determinare il
numero di classi necessari per rappresentare graficamente un insieme di dati statistici.
Questa regola fu enunciata nel 1926 dal matematico tedesco Herbert Sturges. Secondo
questa regola:
K (numero di classi)= 1 + 3,322(log n)→ n= numerosità campionaria e l’ampiezza delle
classi (w) sarà data da: w= R /k dove R è il Range(max – min)
es) i dati sull’altezza di un gruppo di adulti vanno da un minimo di 160 ad un massimo di 180 e
voglio fare 5 classi. Quali sono gli estremi delle classi?

W= (180-160)/5= 4
per cui→ 160, 164, 168, 172, 176, 180

Relazioni tra variabili→ Condurre un’analisi bivariata significa tener conto contemporaneamente di
due variabili per ciascuna unità studiata, infatti talvolta, si raccolgono dati su 2 o più variabili
osservate sulle stesse unità.
es) Dati su 10 studenti partecipanti al test d’ingresso di una facoltà

- mat= voto di maturità (variabile quantitativa)


- test= punteggio al test d’ingresso (variabile quantitativa)
- scuola= scuola di provenienza (variabile qualitativa)
- sesso= variabile qualitativa
Ogni riga orizzontale rappresenta uno studente
Ogni colonna, rappresenta una variabile

Cos’è che si fa? Si riducono i dati:


si fa la media dei voti, per cui→ media mat= 77,1 media test= 13, 475
Al posto di fare lo scanner unidimensionale, si fa lo scanner bidimensionale per le variabili
quantitative: (un grafico cartesiano dei punti (x,y) che premette di valutare l’associazione tra le
variabili)

X= mat
Y= test
Ad ogni studente assegno le coordinate (x,y)
Un’altra cosa che si può fare è una distribuzione di frequenza doppia per le variabili qualitative:

Sesso A L P T Tot:
M 1 2 0 2 5
F 0 2 1 2 5
Tot: 1 4 1 4 = 10

Qual’è lo strumento che ci consente di esaminare insieme 2 variabili?


In una tabella doppia o di contingenza→ le frequenze dentro la tabella si chiamano frequenze
congiunte, mentre le frequenze sui bordi si chiamano frequenze/ totali marginali.
- Se faccio poi, tutte le frequenze/tot= frequenze relative (numero compreso tra 0 e 1)
- Se voglio la proporzione, faccio frequenze relative x 100= n%

(le frequenze relative o le proporzioni si rimettono nella tabella)

0.05

Le distribuzioni condizionate per riga, si dividono le righe per il totale di riga, ovvero si divide
ogni frequenza congiunta per le frequenze marginali di riga:
es) 0,26/0,45=0,57
0,15/0,45=0,33
Tot= 1
0,03/0,45=0,06
0.33 0.04
0,02/0,45=0,04

riga) risponde alla domanda→ tra una categoria di Y (M o F) qual’è la percentuale di chi ha fatto
X (L,T,P,A), per esempio: sul totale di studenti, il 57% delle femmine ha fatto il liceo

Le distribuzioni condizionate per colonna, divide le colonne per il totale di colonna, ovvero si
divide ogni frequenza congiunta per le frequenze marginali di colonna:
es) 0,26/0,56=0,46
0,30/0,56=0,54
Tot= 1
0,15/0,36=0,42
0,21/0,36=0,58 0.46 0.42
0.54 0.58

colonna) risponde alla domanda→tra una categoria delle X (L,T,P,A) qual’è la percentuale di una
categoria delle Y, per esempio: le femmine sono il 46% al liceo

esercizio per capire meglio.


➢ qual’è la percentuale di ragazze?→ 45%
➢ qual’è la percentuale di studenti che hanno fatto un tecnico?→ 36%
➢ tra le ragazze qual’è la percentuale che hanno fatto il professionale?→ 6%
➢ tra gli studenti del liceo qual’è la percentuale delle ragazze?→ 46%
Rappresentazione grafica→ Diagramma a barre suddiviso, dove:
- o nell’asse x mettiamo le tipologie di scuola e nell’asse y le frequenze assolute. Poi in
corrispondenza delle tipologie di scuola metto 2 rettangoli, uno riferito ai M e uno riferito alle F

- oppure faccio al contrario cioè, nell’asse x metto il sesso, nell’asse y metto sempre le frequenze
assolute. Poi in corrispondenza di M e F metto 4 rettangoli che corrispondono alle 4 tipologie di
scuola.

Capitolo 3.
INDICI DI TENDENZA CENTRALE
Gli indici di tendenza centrale, sono indici che rappresentano un valore tipico attorno a cui si
addensano i dati. Tale valore si può prendere come un sommario approssimato di tutti i dati:
• media
• mediana
• moda
n
I dati su una variabile quantitativa X, sono indicati con: ∑ xi
i=1

Sommatoria per un indice i che va da 1,…,n di Xi→ xi= x1, x2,….,xn.


La media aritmetica, ovviamente di una variabile numerica, si fa sommando tutti i valori e poi si
divide il risultato per il numero di valori.
La media aritmetica, rappresenta bene un fenomeno se i dati non sono molto diversi tra loro. Una
rappresentazione grafica della media aritmetica è data dallo Scanner unidimensionale:

Ricorda che se si vuole fare la media:


➔ media su un campione= x
➔ media su una popolazione= μ

La media è:
- sempre compresa tra il valore max e il valore min
- la somma degli scarti della media è sempre 0
- la somma degli scarti della media al quadrato rappresenta la distanza della media dai dati (criterio
dei minimi quadrati)
es) media aritmetica calcolata su una distribuzione di frequenza
Qual’è il numero annuo di richieste di indennizzo?

- moltiplico le richieste per il rispettivo numero di polizze:


(1x13) + (2x5) + (3x4) + (4x2) + (5x3) + (6x2)= 70

- faccio una nuova tabella ordinata→


Media richieste di indennizzo= 70/50=1,4

Per cui la regola è:

La moda, rappresenta il termine più frequente. Si fa facendo la distribuzione di frequenza per classi
e poi si guarda la classe che ha una densità di frequenza maggiore, graficamente:

istogramma, dati continui: l’altezza delle “scalinate”


rappresentano le densità di frequenza.
diagramma, dati discreti: si prende la barra più alta

La moda si trova sull’asse x

Può capitare che la moda e la media siano abbastanza simili (13 e 13,333), questo succede
quando la distribuzione è simmetrica, ovvero quando l’istogramma= montagna simmetrica come
nella figura sopra.

Esistono delle distribuzioni che non sono unimodali ma BIMODALI ovvero che hanno più di una
moda; questo succede quando vi sono 2 addensazioni ovvero 2 apici della montagna
(nell’istogramma).

La mediana, è il valore che è più grande della metà dei dati e più piccolo dell’altra metà. Come si
calcola?:
1) si ordinano i dati (ordine crescente)
2) si individua un max e un min, e si individua il valore centrale
- Se abbiamo dei dati dispari, per esempio 9 dati, la mediana è il dato n°5 poiché la formula per i
valori centrali (n dati dispari)→ (n+1)/2

Mediana= 172
- Se abbiamo dei dati pari, per esempio 8 dati, la mediana sono i 2 dati centrali poiché la formula
per i valori centrali (n dati pari)→ n/2 e (n/2)+1

Mediana= (172+175)/2= 173,5

es) calcolo della mediana dell’altezza, da una distribuzione di frequenza:


n dati pari, sono 200 → 200/2= 100 e (200/2)+1= 101 sono i valori centrali.

Dove stanno il 100 e il 101?? È utile fare le frequenze cumulate:


- 10
- (45+10)= 55
- (55+65)= 120
- (120+50)=170
- (170+30)= 200

Il 100 e il 101 stanno nella 3° classe , nella 3° classe ci stanno gli individui che hanno un’altezza di
170

Quando si fa una rappresentazione grafica, con un istogramma, la mediana divide in 2 parti


perfettamente uguali il grafico e siccome nell’istogramma la somma delle aree di tutti i rettangoli fa
1, le aree a Dx e Sx della mediana saranno rispettivamente ½.

Media e mediana, sono = quando i dati hanno una distribuzione simmetrica:

Media= (160x10) + (170x20) + (180x10)= 170


Mediana: n dati pari (40), i valori centrali sono 20 e 21
facendo le frequenze cumulate vedo che i 2 valori centrali si
trovano nella medesima classe ovvero la 2°; mediana =170

Mediana e media=170
Concetti fondamentali:

• se la distribuzione è simmetrica, Media= Mediana


• se la distribuzione è asimmetrica +, Media>Mediana
• se la distribuzione è asimmetrica -, Media<Mediana

É meglio la media o la mediana??, quando siamo in presenza di dati atipici (outlier), per dato
atipico, si intende un dato che si trova molto lontano rispetto alla gran parte dei dati:
Per intenderci→ 3, 4, 5, 6 , 70
- la media è troppo sensibile ai valori atipici
- la mediana invece è più resistente ai valori atipici

Media= 17,6
Mediana= n dati dispari, valore centrale→ 6//2=3 , mediana=5

La variabilità→La sintesi dei dati, data dalla media indica la variabilità dei dati:

Gli indici di variabilità sono:


• varianza
• campo di variazione
• differenza interquartile

I DATI SI ORDINANO SEMPRE (ORDINE CRESCENTE)


Campo di variazione, talvolta si chiama range dei dati (Xmax – Xmin) ed è un indice grossolano e
sempre positivo

Differenza interquartile, è la differenza tra il 3° e il 1° quartile (Q3 – Q1).


Q3= è il valore che ha prima di se il 75% dei dati→ Q3= 0,75 x (n+1) dove n è il numero di dati. Il
numero trovato indica la posizione del dato ovvero se Q 3= 12, il terzo quartile è il dato che occupa
la 12° posizione.

Q1= è il valore che ha prima di se il 25% dei dati→ Q1= 0,25 x (n+1) dove n è il numero di dati. Il
numero trovato indica la posizione del dato ovvero se Q1= 12, il primo quartile è il dato che occupa
la 12° posizione.
es)

Se di questo voglio fare il campo di variazione→ 66-12=54

Trucco per calcolare la mediana (senza pari e dispari)→ Me= 0,5 x (n+1)

La varianza, è un indice sempre positivo, che misura la variabilità dei dati rispetto alla media.
media su campione= x
media su una popolazione= μ
xi= scarti

➔ Se abbiamo un campione, la varianza si indica con→ S2 che è la stima campionaria della


varianza della popolazione
➔ Se abbiamo una popolazione, la varianza si indica con→ σ2

es)
Varianza= 920/4= 230

La varianza dunque, si calcola, facendo:


1. (dato-media) per trovare gli scarti
2. poi faccio scarti2
3. poi sommo tutti scarti2 / n-1 o N dove n e N è il numero di dati

La deviazione standard o scarto quadratico medio→ è la radice quadrata della varianza e si fa per
riportare la varianza alla stessa unità di misura della variabile, in quanto la varianza è espressa in
un’unità di misura alla 2.

es) Varianza= 920/4= 230→ deviazione standard= √230= 15,17

La deviazione standard, dunque misura: σ e s

Esercizio: Calcolare media, mediana, differenza interquartile, varianza e deviazione standard.


I dati sono tempi in secondi→

✔ Fatto su foglio
Come si calcola la varianza con una distribuzione di frequenza?

Si calcola la media, secondo la regola:

La varianza, si calcola, facendo:


1. (dato-media) per trovare gli scarti
2. poi faccio scarti2 e li moltiplico per le rispettive frequenze
3. poi sommo tutti scarti2 x le frequenze/ n

Se voglio confrontare la variabilità di 2 fenomeni, che hanno la variabilità espressa in unità di


misura diverse o uguali, si usa un altro indice: il coefficiente di variazione.
Il coefficiente di variazione si calcola: CV= (σ/μ) x 100% → nel caso di popolazione o
CV= (S/x) x 100% → nel caso di campione
Il coefficiente di variazione è un indice di variabilità relativa, è un numero puro (NO unità di
misura).

es)

Proporzione di dati in un intorno della media→ un matematico russo, Pafnuty Chebyshev,


determinò, per ogni insieme di dati, degli intervalli che contengono una proporzione minima di dati.

Disuguaglianza di Chebyshev: Per ogni popolazione con media: μ e con deviazione standard: σ,
la proporzione (o percentuale) di dati compresa nell’intervallo μ±kσ è almeno 1- (1/k2) dove k≥1
rappresenta un multiplo della deviazione standard.
μ±kσ ≥ 1- (1/k2)
I dati che si trovano all’interno dell’intervallo, sono almeno il 75% dei valori (¾ dei dati stanno di
sicuro in quell’intervallo). L’intervallo, è un intorno della media!

Esercizio. Qual’è la proporzione dei dati che sta all’interno dell’intervallo (64,72)??
σ= 3 k=?
μ= (64+72)/2 = 68

- passaggio1, il raggio dell’intorno→ ri= estremo sup – media= 72-68=4


- passaggio 2, trovare k, ovvero quante volte σ sta in ri→ ri/σ = 4/3 ovvero 1,333 = k
- passaggio 3, trovare la percentuale→ 1- (1/1,3332) = 0,44 x100= 44%
La regola empirica→ per le distribuzioni di frequenza di forma campanulare simmetrica, e per le
popolazioni di grandi dimensioni, esiste una regola più semplice detta regola empirica. Tal regola
fornisce dati 3 intervalli, quant’è la frequenza relativa ovvero la percentuale di dati che sta in ogni
intervallo:

μ±1σ con k=1 → 68% dei dati


μ±2σ con k=2 → 95% dei dati
μ±3σ con k=3 → 99,73% dei dati

Regola empirica VS disuguaglianza di Chebyshev: La regola empirica fornisce un


valore esatto, mentre la disuguaglianza di Chebyshey fornisce un valore minimo (è almeno pari a..)

es) misurazione dell’intelligenza, distribuzione campanulare simmetrica, μ= 100 e σ=10

Sappiamo automaticamente che il 95% delle persone, ha un QI compreso entro 2 deviazioni


standard della media cioè entro 80 e 120:
100±20= 80 e 120 ovvero il 95% dei dati

Le persone che hanno un QI sopra la media sono quelle che hanno un QI maggiore di 130, ovvero:
(1-99,73%)/2= 15%

Associazioni tra 2 variabili→ si parla di associazione, quando si studia la relazione esistente tra 2
variabili quantitative. L’obbiettivo è quello di valutare come si comporta una variabile al variare
dell’altra, per fare ciò esistono degli indici:
• covarianza
• coefficiente di correlazione
• retta dei minimi quadrati

La covarianza→ Due variabili (x,y) possono essere associate:


- positivamente se, quando al crescere di x, cresce anche la y
- negativamente se, quando al crescere di x, decresce la y

Per campione→ Cov (x,y)= Sxy=

Per popolazione→ Cov (x,y)= σxy=

- passaggio 1, trovare le medie


- passaggio 2, trovare gli scarti (dati-media)
- passaggio 3, fare i prodotti degli scarti della media e se il risultato è +, l’associazione è + mentre
se il risultato è -, l’associazione è -.
- passaggio 4, prodotto degli scarti della media/ N oppure n-1 a seconda se ho un campione o una
popolazione

Esercizio per un campione: Cov= 116/(6-1)= 23,2


x= 170
y= 40

Xi= -10, -10, -2, +2, +10,+10


Yi= -4, -2, +1, -1, +2, +4
Prodotto degli scarti= +40, +20, -2, -2, +20, +40= 116
Graficamente, si rappresenta: y
I quadrante= xi+ e yi+
II quadrante= xi- e yi+
III quadrante= xi- e yi-
IV quadrante= xi+ e yi-
x

Il coefficiente di correlazione lineare→ risponde alla domanda: qual’è la forza di associazione? Il


coefficiente di correlazione è pari al rapporto tra la covarianza e il prodotto delle deviazioni
standard, ovvero si calcola:

Per campione→ rxy= Sxy/ (Sx x Sy)


Per popolazione→ƿxy= σxy/ (σx x σy)

Il coefficiente di correlazione è:
- un numero puro (adimensionale)
- simmetrico (rimane invariato se si cambiano le due variabili, ovvero rxy=ryx)
- le variabili sono considerate sullo stesso piano
- è un indice di associazione lineare, poiché può assumere valori compresi tra -1 e +1 (es. -1 ≤ r ≤ 1)
Se r o ƿ è vicino ad 1, i punti sono allineati in una retta crescente → relazione lineare positiva
Se r o ƿ è vicino a -1, i punti sono allineati in una retta decrescente → relazione lineare negativa
Se r o ƿ =0 → relazione lineare nulla, le variabili sono incorrelate

Se -1 ≤ r < 0 → retta decrescente


Se 0 < r ≤ 1 → retta crescente
r/ƿ≃1 r/ƿ≃-1

Negli esempi seguenti, le 2 variabili sono incorrelate (cioè non sono associate in modo lineare):

Relazioni lineari→ A volte però, anzi spessissimo, le variabili NON sono considerate sullo stesso
piano, una viene prima e una viene dopo: la variabile che viene prima serve per prevedere la
variabile che viene dopo. Es:

➢ variabile y , è la variabile dipendente


➢ variabile x, è la variabile esplicativa→si usa per prevedere la variabile y
Il metodo dei minimi quadrati, studia come una variabile y (variabile dipendente) dipenda da una
variabile esplicativa (x), ovvero ci permette di selezionare una retta che rappresenta la media di y,
per differenti valori di x. Tale retta, ha equazione: Y=β0 + β1X
β0→ è l’intercetta
β1→ è la pendenza della retta, ossia la variazione di Y per ogni variazione unitaria di X

Y=β0 + β1X

Poiché le rette su un piano sono infinite, dobbiamo definire un criterio che permetta di stimare la
retta che meglio si adatta all’insieme di punti osservati. Innanzitutto, dobbiamo dire che i punti
osservati, si trovano sia al di sopra che al di sotto della retta (per ora ideale), la distanza di ciascun
punto osservato (xi,yi) dalla retta, viene definita residuo e indicata con e i. Residuo= distanza di un
punto dalla retta, ovvero distanza tra il valore vero del punto e il suo valore teorico ovvero la sua
proiezione sulla retta.

Valore vero,
vero,
osservato
ei
Valore teorico, residuo
che prevedo

I punti che stanno al di sopra della retta hanno scarti positivi, mentre quelli che stanno al di sotto
hanno scarti negativi. Ma come trovo la retta?? Si deve dunque trovare la retta che minimizza la
distanza punti-retta, ovvero trovare tra tutte le rette quella che minimizza la somma dei quadrati dei
residui (scarti).

Una retta, ha equazione: y=mx+q dove m è la pendenza e q è il termine noto ovvero in questo caso
l’intercetta. Una retta che passa per 1 punto (x, y) avrà equazione: y= y + m(x-x). = Y=b0 + b1X

se m<0→ la retta è decrescente


se m>0→ la retta è crescente m

q
La retta dei minimi quadrati dunque, passerà per un punto che ha coordinate (x,y) e ha pendenza m.
- La pendenza è positiva se, rxy>0
- La pendenza è negativa se, rxy<0 Si fa prima così:
- La pendenza è nulla se, rxy=0 m= Sxy/Sx2

L’intercetta della retta (q), si calcola: y= y + m(x-x)


y= y + mx -mx
y= (y -mx) +mx → q=(y -mx)

es)

siccome si studia di quanto varia la y


per una variazione unitaria (1 unità) di x.
In questo caso la y varia di 0,052 quando la
x varia di 1000→ su un unità: la y varia di
52 quando la x varia di 1

Esercizio: relazione tra reddito e anni di istruzione

- passaggio 1, trovare la media di x e di y


- passaggio 2, calcolare Sxy→ trovare gli scarti (dati-media)
fare i prodotti degli scarti della media
prodotto degli scarti della media/ (n-1)
- passaggio 3, calcolare Sx2, ovvero la varianza rispetto ad x→ fare gli scarti2 di x
sommare tutti scarti2 / (n-1)
- passaggio 4, calcolare m= Sxy /Sx2
- passaggio 5, scrivere l’equazione della retta dei minimi quadrati→ y = y+m(x-x), mettendo dentro
i dati calcolati in precedenza
- passaggio 6, trovare l’intercetta q=(y -mx) e riscrivere l’equazione come: y=mx+q

x= 13
y= 27,5

dato-mediax→ -5 -3 -1 1 3 5
dato-mediay→ -13,5 -9,5 -2,5 2,5 10,5 12,5
Prodotto degli scarti= 67,5 28,5 2,5 2,5 31,5 62,5 = 195
Sxy= 195/ (6-1)= 195/5 = 39
Sx2= 25 9 1 1 9 25 = 70→ 70/5= 14
m= Sxy/ Sx2= 39/14= 2.79
Retta dei minimi quadrati→ y= 27,5 + 2,79(x-13)
y= 27,5 + 2,79x – 36,27→ y= 2,79x -8,77 poiché q= 27,5 -36,27= -8,77

Ne si deduce che per ogni anno di istruzione in più, il reddito aumenta di 2790$
Capitolo 4.
PROBABILITÀ
Un esperimento casuale o esperimento aleatorio, è un processo che porta ad un esito, tra un insieme
noto di possibili esiti, ma senza prevedere quale di questi si verificherà. L’insieme di tutti gli esiti
possibili, è detto spazio campionario, e si indica con S, mentre gli esiti si dicono eventi
elementari (lo spazio campionario dunque contiene eventi elementari). Alcuni esempi di
esperimenti casuali sono:
- il lancio di un dado
- il lancio di una moneta

Un evento (si indica con E) invece, è un sottoinsieme di eventi elementari di uno spazio
campionario. Un evento si verifica quando il risultato dell’esperimento casuale è uno degli eventi
elementari che lo costituiscono.

L’evento lo possiamo immaginare come un’affermazione verbale: scommetto che esce un numero
pari! (poiché delimita un certo insieme di eventi elementari).

Gli eventi si comportano e si combinano fra loro come gli insiemi. Le operazioni con gli eventi,
corrispondono alle operazioni insiemistiche:

ovvero quello che sta in S ma non in A

L’interpretazione è:
➔ P(AUB)= probabilità che si verifichi almeno 1 evento, matematicamente: tutti gli elementi
che stanno in A ed in B.
➔ P(A∩B)= probabilità che si verifichino contemporaneamente i 2 eventi, matematicamente:
gli elementi che hanno in comune A e B.
➔ A = tutti gli elementi che appartengono ad S (spazio campionario) ma non ad A.

Il diagramma di Venn illustra perfettamente le operazioni tra insiemi:


- il rettangolo rappresenta lo spazio campionario S
- l’area colorata rappresenta il tipo di operazione che vogliamo
- i cerchi rappresentano gli eventi (A, B)
1) l’evento intersezione→ un evento elementare, si trova nell’intersezione di A con B, se e solo se
tale evento appartiene sia ad A che a B. Gli elementi che hanno in comune A e B.

2) l’evento unione→ un evento elementare si trova nell’unione di A con B, se e solo se tale evento è
in A, in B o in entrambi. Tutti gli elementi che stanno in A ed in B.

3) l’evento complementare→ insieme degli eventi che appartengono ad S ma non ad A, l’evento


complementare si indica con: A (è come se fosse una negazione di A)

Alcuni esempi:
1) intersezione 2) unione 3) complementare

Eventi particolari:
➢ evento certo, il cui verificarsi è sicuro (lanciando un dado uscirà un numero pari o dispari).
Evento certo = S
➢ evento impossibile, evento che non potrà mai verificarsi (lanciando un dado uscirà il numero
7). Evento impossibile= insieme vuoto ovvero O (il complementare dell’evento certo)
➢ eventi incompatibili o mutamente esclusivi, sono eventi per cui l’intersezione è impossibile
poiché non possono verificarsi contemporaneamente
➢ eventi collettivamente esaustivi, se l’evento unione è certo
es) Estrazione casuale:
- A, la persona estratta ha un’età<13 anni
- B, la persona estratta è sposata
- C, la persona estratta ha un’età>10 anni

Che rapporto abbiamo??:


• A e B sono eventi mutamente esclusivi, poiché uno esclude l’altro per cui i 2 eventi non
possono verificarsi contemporaneamente
• A e C sono eventi collettivamente esaustivi, esauriscono tutto S

N.B: se 2 o più eventi, sono mutuamente esclusivi e anche collettivamente esaustivi, si dice che tali
eventi formino una partizione dello spazio campionario (S).

Uno esclude l’altro, ma allo stesso tempo esauriscono tutto lo spazio campionario

La probabilità→ la probabilità è una misura coerente dell’incertezza di un evento. Vi sono diversi


approcci: tramite la definizione classica, tramite quella frequentista e tramite quella soggettivista..

• DEFINIZIONE CLASSICA→ ci dice che la probabilità di un evento E, è data dalla formula:


P(E)= n° casi favorevoli/ n° casi possibili, tutto sotto l’ipotesi che tutti gli eventi elementari
siano equiprobabili. Questa visione classica è anche detta probabilità a priori, poiché viene
stabilita prima di guardare i dati, ovvero permette di calcolare l’esito di un evento sulla base
di una formula.
es)

La probabilità con l’approccio classico però, non è sempre semplice da calcolare e per le situazioni
più complesse si usa il calcolo combinatorio:
es) A= indovinare esattamente i 5 numeri estratti
eventi elementari che stanno in S= numero di sottoinsiemi di 5 numeri diversi estratti dai 90
Calcolo combinatorio= (90 x 89 x 88 x 87 x 86) / (5 x 4 x 3 x 2 x 1) = 43 949 268

• DEFINIZIONE FREQUENTISTA→ ci dice che la probabilità di un evento E, è la frequenza


relativa calcolata su un numero di prove sufficientemente elevato, quindi qui la condizione
necessaria è che l’esperimento sia ripetibile più volte (tale definizione viene applicata in
quei casi in cui non è applicabile la definizione classica, in quanto viene a mancare la
condizione di equiprobabilità). Questa visione frequentista è anche detta probabilità a
posteriori, in quanto la probabilità è ricavata dall’esame dei dati.
ƒ(E)= n° di volte in cui si è verificato l’evento/ n° delle prove eseguite.
es)

Legge empirica del caso o legge dei grandi numeri→ la frequenza relativa, dipende dal numero di
prove eseguite e tende a stabilizzarsi verso un unico valore se il n° di prove è sufficientemente
elevato, pertanto: la frequenza relativa di un evento su un gran numero di prove, ripetute tutte nelle
stesse condizioni, da un valore approssimato della probabilità classica, per cui:

• DEFINIZIONE SOGGETTIVISTA O INTERPRETAZIONE SOGGETTIVA → secondo tale definizione,


la probabilità è il livello di fiducia che un individuo coerente assegna ad un evento E, in base
alle proprie informazioni.

La probabilità, è definita implicitamente tramite degli assiomi:


1) la probabilità di un evento è sempre positiva
2) la probabilità è misurata in un intervallo che va da 0 ad 1: 0≤ P(A) ≤1
se è 0, indica che l’evento non si verificherà e quindi→ evento impossibile
se è 1, indica che l’evento si verificherà sicuramente→ evento certo
3) la probabilità soddisfa la regola additiva

Regole della probabilità, derivanti dagli assiomi:


- evento complementare→ P(A)= 1–P(A)

- regola additiva dati 2 eventi A, B,


P(AUB)= probabilità che si verifichi almeno 1 evento
P(A∩B)= probabilità che si verifichino contemporaneamente i 2 eventi

Se gli eventi sono incompatibili→ P(A∩B)=0

Se gli eventi sono compatibili→ P(A∩B)≠0, anzi l’intersezione ci serve proprio per eliminare le
ripetizioni, ovvero:
La probabilità condizionata→ l’idea di base è che la probabilità del verificarsi di un evento, spesso
dipende dal fatto che altri eventi si siano verificati o meno.
Siano A e B 2 eventi, la probabilità condizionata dell’evento A, sapendo che l’evento B si è
verificato è identificata dal simbolo P(A B) e si ricava:

ne segue che→

Con P(A)>0 in quanto se fosse =0, l’evento A sarebbe impossibile.


Indica la probabilità di A, condizionata da B.

Attenzione a come scrivere: P(E1 E2)→ E1 è la probabilità da


calcolare, E2 è l’informazione

La scritta giusta nell’immagine è lavoro voto laurea→

1. Due eventi E1, E2 si dicono dipendenti se P(E1)≠P(E1 E2)


2. Due eventi E1, E2 si dicono indipendenti se P(E1)=P(E1 E2). Quando tra 2 eventi non vi è alcun
tipo di legame, ognuno si può verificare indipendentemente dall’altro. Ne segue che la formula
diventa: P(A∩B)=P(A) X P(B) e si legge come: la probabilità che si verifichino
contemporaneamente gli eventi A e B, è = alla probabilità che si verifichi l’evento B per la
probabilità che si verifichi A sapendo che prima si è verificato B→ sarebbe la regola moltiplicativa.

es) Tabella di probabilità:


Lavora
Voto laurea si no tot
<110 44 36 80
110 o 110 lode 16 4 20
tot 60 40 100

P(LAVORO)= 60/100= 0,6


Come faccio a calcolare la probabilità per i laureati che hanno preso 110 o 110 lode??→
P(LAVORO VOTO ≥110)= 16/20= 4/5= 0,8

16= probabilità congiunta ovvero P(A∩B)


20= probabilità marginale di B ovvero P(B)

Esercizio) Si lancia un dado, qual’è la probabilità di A= 1,2? Si sa che è uscito un numero pari,
qual’è la probabilità di A sapendo che B= n°pari?
Dado: 1, 2 ,3 ,4 ,5 ,6
A= 1,2
B= 2,4,6→ P(B)= 3/6
P(A∩B)= è il n° 2 ovvero→ 1/6

P(1,2 n°pari)= (1/6)/(3/6)= 2/6= 1/3


Esercizio 2) in un sondaggio sul sindaco della città, il 62% dei votanti ha votato per dare la fiducia
al sindaco. Le donne costituiscono il 53% del campione e tra queste il 46% ha dato la fiducia al
sindaco. Si seleziona una persona a caso, qual’è la probabilità che la persona selezionata sia una
donna che ha dato fiducia al sindaco?

- bisogna definire gli eventi, in modo corretto!→ 62%= VOTANTI PRO SINDACO= P(A)
53%= VOTANTI DONNE= P(B)
46%= VOTANTI DONNE PRO SINDACO= P(A B)

Ricorda: il simbolo si legge => sapendo che…

Probabilità condizionata= P(A∩B) / P(B) → 0,46= P(A∩B) / 0,53→ P(A∩B)= 0,46 x 0,53= 0,24

Esercizio sull’indipendenza/dipendenza) Supponiamo di avere una popolazione e fare un’estrazione


casuale. La tabella di probabilità, è la seguente:

45
la regola è→
55
60 40

C’è un rapporto di indipendenza o di dipendenza tra gli eventi?

Probabilità condizionata= 27/60= 0,45

Per essere indipendenti→ P(A∩B)= P(A B) x P(B) → 27=0,45 x 60= 27=27


✔ i 2 eventi sono indipendenti

Regola della probabilità totale→quando si hanno 2 o più eventi (E1, E2…) , che sono mutuamente
esclusivi e anche collettivamente esaustivi, e si vuole calcolare un evento A (che sostanzialmente si
va ad incrociare con gli eventi E1, E2..), conoscendo le probabilità condizionate, si usa tale regola:

P(A)= P(A B) P(B) + P(A C) P(C)

Es) una persona daltonica non riesce a distinguere i colori. Vogliamo conoscere la probabilità di
estrarre una persona daltonica (evento D). Sappiamo che per i maschi e per le femmine la
probabilità di essere daltonico è la seguente:
P(D M)= 0,08
P(D F)= 0,04
e: P(M)= 0,48
P(F)=0,52

P(D)=??→P(D)=(0,08)(0,48) + (0,04)(0,52)→ P(D)= 0,059


Il calcolo combinatorio→ il calcolo combinatorio è quella branca della matematica applicativa che
ha lo scopo di misurare il numero dei possibili raggruppamenti diversi, che si possono creare
prendendo una determinata quantità di elementi in un assegnato insieme

Terminologia:
➢ numero di permutazioni, o sequenze ordinate
➢ numero di disposizioni
➢ numero di combinazioni

Permutazioni= sono le possibili sequenze ordinate che si possono fare per un gruppo di N oggetti
N!= N fattoriale= N (N-1) (N-2) (N-3)…
Disposizioni= rispondono alla domanda, in quanti modi diversi posso scegliere k oggetti da un
insieme di N oggetti? Con ovviamente la condizione k≤N
D KN = N (N-1) (N-2) (N-3)… fino a (N-k+1)
Combinazioni= il numero di possibili combinazioni di k oggetti presi da N oggetti

C KN = N (N-1) (N-2)… (N-k+1)


k!

Per semplicità→ C KN = prodotto di numeri decrescenti a partire da N fino a N-k+1


prodotto di numeri decrescenti a partire da k

k= numero di dati che ci devono essere al numeratore e al denominatore

Esercizio riepilogativo:

Esercizio. Un selezionatore ha 8 candidati di cui 5 donne e 3 uomini. Se esso sceglie a caso 4


persone qual’è la probabilità di selezionare 2 uomini e 2 donne?

1) Scegliere 4 persone tra 8:


N= 8
k=4 CN,k= 8x7x6x5 / 4x3x2x1= 70

2) Scegliere 2 donne su 5 3) scegliere 2 uomini su 3


N= 5 CN,k= 5x4 /2x1= 10 N= 3 CN,k= 3x2 /2x1= 3
k=2 k=2

4) Combinare il tutto→ 10x3 /70 = 3/7


Campionamento con ripetizione→ si estrae da un’urna che contiene N unità, un campione di n unità
ogni volta reinserendo l’unità estratta nell’urna

Campionamento senza ripetizione→ si estrae da un’urna che contiene N unità, un campione di n


unità senza reinserire l’unità estratta nell’urna.

TEOREMA DI BAYES
Il teorema di Bayes, venne elaborato da Thomas Bayes ed è conosciuto anche come teorema della
probabilità delle cause. Tale teorema viene usato per calcolare, conoscendo il risultato di un
esperimento, la probabilità che esso sia dovuto ad una certa causa→ serve per calcolare la
probabilità di una causa che ha scatenato l’evento verificato. Per esempio si può attribuire una
malattia quando il test di laboratorio risulta positivo.

Indichiamo con E= l’evento verificato


Hn= le possibili cause che l’hanno verificato l’evento E

Tale teorema, deriva dalla probabilità condizionata, dalla regola moltiplicativa e dalla regola della
probabilità totale:
P(A B)= P(A∩B) / P(B) = probabilità condizionata
dove il numeratore: P(A∩B)= P(B A) x P(A)= regola moltiplicativa
dove il denominatore: P(B)=P(B A) x P(A) + (B A) x P(A) = probabilità totale

Tale formula infatti, può essere scritta in diversi modi:


Capitolo 5.

DISTRIBUZIONI DI PROBABILITÀ E VARIABILI ALEATORIE DISCRETE


Una variabile aleatoria, è simile ad una variabile statistica:
• variabile statistica= variabile definita da un insieme di modalità a cui sono associate delle
frequenze (distribuzione di frequenza)
• variabile aleatoria= è definita da un insieme di modalità a cui sono associate delle
probabilità (distribuzione di probabilità)
Una variabile aleatoria, possiamo definirla più nello specifico come una variabile che assume dei
valori numerici in corrispondenza di un esperimento casuale.

Variabili aleatorie discrete X→ x è un numero intero (n° di contagi in un giorno)


Variabili aleatorie continue X→ x è un numero reale (durata di un componente elettronico)

es) voglio lanciare 4 volte 2 monete, le mie possibili combinazioni saranno:


S= (T,T) (C,C) (T,C) (C,T)
Qual’è il numero di teste che posso avere lanciando 2 monete? X= numero di teste→ variabile aleatoria
(discreta). Se lancio 2 monete, il numero di teste può essere 0,1,2 ma non sono sicuro del risultato,
per cui devo associare ad ogni possibile risultato la probabilità che ognuno ha di verificarsi.

Modalità p(x)
0 1/4
1 2/4
2 1/4

La tabella qua sopra riportata, ricorda le distribuzioni di frequenza solo che al posto delle frequenze,
vi sono le probabilità. Le frequenze relative sono molto simili alla probabilità.

VARIABILI ALEATORIE DISCRETE


Una variabile aleatoria discreta X, è una variabile aleatoria che ha modalità x che sono numeri
interi. Dunque, una variabile aleatoria X, è un insieme di modalità discrete (in numero finito o
infinito) a cui si associano le rispettive probabilità di verificarsi. Sono però necessarie 2
condizioni:
1) che le probabilità siano positive
2) che la somma delle probabilità=1

Funzione di (massa di) probabilità→ La tabella dove vengono rappresentate le modalità e le


rispettive probabilità di verificarsi è detta→ distribuzione della probabilità della variabile
aleatoria X.

La corrispondenza tra una modalità x e la sua rispettiva probabilità, è definita dalla funzione p(x) e
tale funzione non è altro che la probabilità che X=x →p(x)=X
per cui:
➔ X= variabile aleatoria nel suo complesso
➔ x= valori assunti dalla variabile aleatoria quando si fa l’esperimento= modalità
➔ p(x)= corrispondenza tra una modalità e la sua probabilità
p(0)= 1/8
p(1)= 3/8 Modalità p(x)
p(2)= 3/8 0 1/8
p(3)= 1/8 1 3/8
2 3/8
p(0≤x≤2)= p(0) + p(1) + p(2) 3 1/8
p(0<x≤2)= p(1) + p(2)
Funzione di ripartizione→ è la funzione F(x) definita delle probabilità cumulate:

Modalità p(x) F(x)= frequenze


cumulate
0 1/8 1/8
1 3/8 1/8 + 3/8 = 1/2
2 3/8 1/2 + 3/8= 7/8
3 1/8 7/8 +1/8= 1

Le probabilità cumulate, sono le probabilità che la variabile assuma un valore ≤ x.

• La funzione di probabilità è rappresentata da dei segmenti che sono lunghi quanto la


probabilità
• La funzione di ripartizione è in pratica fatta a gradini ed è crescente, dove l’asse y, dove
stanno le frequenze cumulate, va da 0 ad 1

Valore atteso di una variabile aleatoria discreta→ il valore atteso di una variabile aleatoria, è
semplicemente la media della variabile.

E(X)= μ= x1 p(x1) + x2 p(x2) + x3 p(x3) +…...

La varianza e deviazione standard di una variabile aleatoria discreta→la varianza di X, si può


calcolare con 2 formule:
var(X)= σ2= (x1- μ)2 p(x1) + (x2- μ)2 p(x2) +... var(X)= σ2= x12 p(x1) + x22 p(x2)+…- μ2
σ= √var(X)
Valore atteso di una trasformazione lineare di X di media μ → E(a +bX)= a +b E(X)
es) Costo totale= costo materiali + costo manodopera
- il costo materiali è fisso= 25 000
- il costo manodopera è variabile= 900 il giorno. Il tempo di completamento in giorni è una
variabile aleatoria X (va da un minimo di 10 ad un massimo di 14 giorni)

Qual’è il valore atteso del costo totale?→ E(a +bX)=?


Costo totale= 25 000 + 900 X
Costo totale= a + bX

passaggio 1: trovare il valore atteso di X→ E(X)= 10 (0,1) +11 (0,3) + 12 (0,3) + 13 (0,2) + 14
(0,1)= 11,9 giorni
passaggio 2: trovare il valore atteso di a+bX, formula→ E(a+bX)= a+bE(X)= 25 000 + 900 x 11,9=
35710 $

Logicamente, questa formula si può applicare anche alla sottrazione, ovvero→ E(X - a)= E(X) - a

Varianza e deviazione standard di una trasformazione lineare→ var(a+bX)= b2 var(X)


Come mai nella formula non vi è più la costante a? La costante a, è una costante additiva che non
influenza la varianza

es) il testo è quello dell’esercizio soprastante:


Calcolare la varianza e la deviazione standard
passaggio 1: trovare la varianza di X→ var(X)= (10-11,9)2 (0,1) + (11-11,9)2 (0,3) + (12-11,9)2
(0,3) + (13-11,9)2 (0,2) + (14-11,9)2 (0,1) = 1,29
passaggio 2: applicare la formula: var(a+bX)= 9002 1,29= 1 044 900
passaggio 3: fare la radice della var(a+bX) per la deviazione standard→ √1 044 900 = 1022,20 $

Standardizzazione→ una variabile standardizzata Z, è una variabile ottenuta sottraendo alla


variabile aleatoria X, il suo valore atteso E(X) e rapportando il risultato alla deviazione standard σ.

dove: Z = X- μ
E(Z)= 0
var(Z)= 1
σ

MODELLI PROBABILISTICI DISCRETI


• distribuzione binomiale
• distribuzione di Poisson (non viene affrontata)
• distribuzione ipergometrico (non viene affrontata)

DISTRIBUZIONE BINOMIALE
La distribuzione binomiale, è una particolare distribuzione di probabilità discrete, che ha alla base la
prova di Bernulli. Una prova di Bernulli, è un esperimento che può avere solo 2 possibili esiti, il
successo e l’insuccesso. Possiamo dunque definire la variabile di Bernulli, ovvero una variabile
aleatoria X, che ha solo 2 valori: x=0 (è l’insuccesso) e x=1 (è il successo), con:
- probabilità di insuccesso→ p(x)=p(0)= 1-p
- probabilità di successo→ p(x)= p(1)= p
x p(x)
La variabile di Bernulli, ha sempre:
μ= p 0 1-p
σ2= p(1- p) 1 p
Successione di prove di Bernulli indipendenti e identiche→ quando una prova di Bernulli si ripete
più volte (indichiamo con n il numero di prove effettuate); queste prove devono essere
indipendenti l’una dall’altra e identiche ovvero con la stessa probabilità di successo (se estraiamo
una pallina da un’urna, la si deve rimettere poi dentro per la prova successiva, in quanto l’urna deve
sempre rimanere la stessa). Il problema che ora si pone è come valutare la probabilità di ottenere un
certo numero di successi x, su n prove. La soluzione a questo problema ce la dà la variabile
binomiale. Variabile binomiale→ è il numero di successi x su n prove di Bernulli indipendenti e
identiche con probabilità di successo p (è una variabile discreta). La probabilità che su n
ripetizioni si verifichino x successi, è data dalla formula:

dove:
- modalità= x = successi= 0,1,2...n P(x)= Cnx px (1-p)n-x
- n-x= insuccessi

La distribuzione del numero di successi x, su un numero di n prove è chiamata distribuzione


binomiale.

es) distribuzione del numero di successi su n prove. n=2

x p(x)
0 ??
1 ??
x=0,1,2
2 ??
n=2

p(x)=p(0)= C02 p0 (1-p)2-0 → (1-p)2


2
p(x)=p(1)= C1 p1 (1-p)2-1 → 2p(1-p)
x p(x)
p(x)=p(2)= C22 p2 (1-p)2-2 → p2
0 (1-p)2
1 2p(1-p)
2 p2

Ricorda, la somma delle probabilità, anche qui, fa 1!

Esercizio: per una distribuzione binomiale con p=0,7 e n=18, trovare:


1. la probabilità che ci siano 12 successi→ x=12
2. la probabilità che il numero di successi sia almeno 17→ x≥17
3. la probabilità che il numero di successi sia compreso tra 12 e 14→ 12≤x≤14
1. p=0,7
18
n=18 p(x=12)= C12 0,712 (1-0,7)18-12→ p(12)= 18564 x 0,01384129 x 0,36 =0,1873
18
x= 12 p(x=12)= C6 0,712 (1-0,7)18-12→ p(12)= 18564 x 0,01384129 x 0,36 =0,1873

18
Trucchetto! Al posto di fare C12 , si può fare C618, poiché se i successi sono 12 gli insuccessi
dovranno essere per forza 6→ 12(successi) + 6(insuccessi)= 18. Per cui fare uno o fare l’altro non
cambia il risultato finale, è solo una questione di tempo.
2. p(x≥17)= p(17) + p(18)→ p(17)= 18,000000012 x 0,00232631 x 0,3= 0,01256
p(18)= 1 x 0,00162841 x 1= 0,00162841 p(x≥17)=0,01419

3. p(12≤x≤14)= p(12) + p(13) + p(14)→ p(12)= 0,1873


p(13)= 85680 x 0,0096889 x 0,00243= 2,017
p(14)= 3060 x 0,00678 x 0,0081= 0,1680

p(12≤x≤14)= 0,1873 + 2,017 + 0,1680= 2,37235

Esercizio: un’organizzazione impiega degli studenti per richiedere donazioni per telefono. Dopo un
breve periodo di addestramento, gli studenti chiamano i potenziali donatori e sono pagati in
percentuale sulla base delle offerte ricevute. L’esperienza indica che, in passato, gli studenti hanno
avuto scarso successo e che il 75% di loro ha abbandonato il lavoro prima di 2 settimane.
L’organizzazione impiega 7 studenti che possono essere considerati un campione casuale:
1. qual’è la probabilità che almeno 2 studenti dei 7 abbandonino il lavoro prima delle 2
settimane?
2. qual’è la probabilità che almeno 2 studenti dei 7 NON abbandonino il lavoro prima delle 2
settimane?
Probabilità=1
Probabilità abbandono= 0,75
Probabilità non abbandono=0,25
n=7 evento complementare:
1. p(x≥2) con p=0,75? p(x≥2)=
p(x≥2)= 1- p(x≤1)= 1 – [p(0) + p(1)]
2. p(x≥2) con p=0,25?

1. p(x≥2) con p=0,75→ 1- 0,0013427= 0,9987


p(x=0)= 1 x (1-0,75)7= 0,000061035
p(x=1)= 7 x 0,75 x (1-0,75)6= 0,00128174

2. p(x≥2) con p=0,25→ 1- 0,44494= 0,5551


p(x=0)= 1 x (1-0,25)7= 0,13348
p(x=1)= 7 x 0,75 x (1-0,25)6= 0,31146

Esercizio: una società farmaceutica riceve partite contenenti grandi quantitativi di aspirina. Per
decidere se accettare o rifiutare la partita, la società ha stabilito di selezionare in modo casuale e
testare 17 compresse e di accettare l’intera partita solo se 1 o nessuna è conforme alle specifiche
richieste. Se una consegna di migliaia di compresse di aspirina, ha un tasso del 3% di difetti, qual’è
la probabilità che tutta questa partita venga accettata?
n=17
p=probabilità di difetti= 0,03
p(x≤1)=? → p(o) + p(1)= 0,595826 + 0,313269= 0,909
p(0)= 0,030 x (1-0,03)17= 0,595826
p(1)= 17 x 0,031 x (1-0,03)16= 0,313269

La distribuzione binomiale, ha sempre:


• media→ μ=E(X)= np
• varianza→ σ2= np (1-p)

es) un negozio che rivende computer, lancia questa campagna: tutti gli acquirenti di nuovi
computer, potranno se insoddisfatti, restituirli entro 2 giorni dalla data d’acquisto e ricevere indietro
l’intera somma pagata. Il costo dell’operazione è valutato in 75$ per ogni computer e il rivenditore
ritiene che alla fine il 18% degli acquirenti, restituirà i computer e avrà il rimborso. Supponiamo
che con questa campagna promozionale, vengano venduti 60 computer:
1. qual’è la media e la deviazione standard del numero di computer che saranno restituiti?
2. qual’è la media e la deviazione standard dei costi di rimborso che si generano in seguito alle
60 vendite?
n=60
p=computer restituiti= 0,18
75$= costi di rimborso per ogni computer

1. μc=np→ 60 x 0,18= 10,8


σc= √np (1-p)→ 10,8 (1-0,18)= √10,8 x 0,82= 3

2. μ$= μc x costi di rimborso→ 10,8 x 75= 810$


σ$= σc x costi di rimborso→ 3 x 75= 225

DISTRIBUZIONE CONGIUNTE DI 2 VARIABILI ALEATORIE DISCRETE


È semplicemente la distribuzione di 2 variabili aleatorie, in questo caso discrete.
es)
x=0 x=1 x=2 p(y)
y=1 0.2 0.3 0.1 0.6
y=2 0.1 0.1 0.2 0.4
p(x) 0.3 0.4 0.3 1

Queste tipologie di distribuzioni, si chiamano congiunte in quanto p(x) e p(y) sono le probabilità
del verificarsi contemporaneamente di una certa variabile aleatoria Y e una certa variabile aleatoria
X.
Per esempio, nella tabella qua sopra descritta, 0,2 è la probabilità che x=0 e y=1.
La funzione di probabilità congiunta→ è la funzione p(x,y) che associa ad ogni coppia di modalità
(x,y) una probabilità p(X=x ∩ Y=y) tale che:
- ogni probabilità sia ≥0
- la somma delle probabilità sia sempre =1

Vengono chiamate distribuzioni marginali di probabilità, le distribuzioni separate ovvero:


➢ p(x)= somma delle probabilità congiunte per colonna, ovvero è la somma delle probabilità
congiunte per tutti i possibili valori di Y
➢ p(y)= somma delle probabilità per riga, ovvero è la somma delle probabilità congiunte per
tutti i possibili valori di X

Data una distribuzione congiunta, è possibile calcolare delle probabilità condizionate, es:

x=0 x=1 x=2 p(y)


Carte=X
y=1 0.2 0.3 0.1 0.6 Acquisti= Y
y=2 0.1 0.1 0.2 0.4 Se una persona ha 2 carte qual’è la probabilità che
faccia 1 acquisto?
p(x) 0.3 0.4 0.3 1

Sapendo che x=2 qual’è la probabilità che y=1?


p(x y)= p(x∩y) / p(y) → probabilità condizionata di X dato Y=y
Analogamente: p(y x)= p(x∩y) / p(x) → probabilità condizionata di Y dato X=x
In questo caso: p(y x)= p(x,y) / p(x) → p(x=2 ∩ y=1) / p(x=2)→ 0.1/0.3= 0,33

x
p(x1∩y1) Totale della riga Caso n°1:
Probabilità condizionata di X dato Y:
y
p(x y)= p(x∩y) / p(y)

x
p(x1∩y1) Caso n°2:
Probabilità condizionata di Y dato X:
y
p(y x)= p(x∩y) / p(x)
Totale della
colonna

In pratica, si divide una probabilità congiunta (ovvero una di quelle dentro la tabella) per il totale di
riga o di colonna.
X
x1 x2 x3 x4 p(y)
y1 p(x1∩y1) p(x2∩y1) p(x3∩y1) p(x4∩y1) p(y1)
Y y2 p(x1∩y2) p(x2∩y2) p(x3∩y2) p(x4∩y2) p(y2)
y3 p(x1∩y3) p(x2∩y3) p(x3∩y3) p(x4∩y3) p(y3)
p(x) p(x1) p(x2) p(x3) p(x4) 1

Media di X→sarebbe tutti i possibili valori di x per p(x): μx= E(X)= x1 p(x1) + x2 p(x2)+ ….
Media di Y→ sarebbe tutti i possibili valori di y per p(y): μy= E(Y)= y1 p(y1) + y2 p(y2)+….

Varianza di X→σx2= (x1-μx)2 p(x1) + (x2-μx)2 p(x2) + .. oppure→ σx2= x12 p(x1) + x22 p(x2) + … -μx2
Varianza di Y→σy2= (y1-μy)2 p(y1) + (y2-μy)2 p(y2) + .. oppure→ σy2=y12 p(y1) + y22 p(y2) + … -μy2
Non c’è bisogno di dire che la deviazione standard (σ) è la radice della varianza→ σ= √σ2

Riprendendo la tabella con i valori, calcolare le medie e le varianze e deviazioni standard:


μx= E(X)= 0x0.3 + 1x0.4 + 2x0.3= 1
μy= E(Y)=1x0.6 + 2x0.4= 1.4
σx2= 1x0.3 + 1x0.3= 0.6
σy2= 0.16x0.6 + 0.36x0.4= 0.24
σx= 0.775
σy= 0.490

Covarianza→ Cov(X,Y)= x1y1 p(x1∩y1)+ x2y2 p(x2∩y2)+.. -μxμy


Cov(X,Y)= ∑(xn -μx) (yn. -μy) p(xn∩yn)
Cov(X,Y) positiva= X↑ e Y↑ oppure X↓ e Y↓ (quando entrambe o crescono o decrescono)
Cov(X,Y) negativa= X↑ e Y↓ (quando vi è una situazione discordante)

Per la covarianza, è più conveniente riscrivere la tabella in questo modo (è conveniente, non
necessario)!:

y x p(x∩y) xy p(x∩y) xy
y1 x1 p(x1∩y1) x1y1 p(x1∩y1) x1y1
... ... …. ... ….. Tot
Cov(X,Y)= p(x∩y) xy - μxμy
... ... …. ... …..
Tot: somma
della colonna

Indipendenza→ X e Y sono indipendenti se e solo se p(xn ∩yn)= p(xn) p(yn) per ogni valore di X e Y
Il coefficiente di correlazione→Il coefficiente di correlazione lineare, fornisce una misura
dell’intensità della relazione lineare tra 2 variabili aleatorie, con valori limitati all’intervallo: [-1,1].
Corr(X,Y)= Cov(X,Y)/σxσy

➢ Un Corr(X,Y) positivo (>0), indica che le variabili sono correlate positivamente. La


dipendenza lineare perfetta + è indicata da Corr(X,Y)= +1, ovvero X e Y sono legate da una
relazione lineare Y=a+bX con b>0
➢ Un Corr(X,Y) negativo (<0), indica che le variabili sono correlate negativamente. La
dipendenza lineare perfetta - è indicata da Corr(X,Y)= -1, ovvero X e Y sono legate da una
relazione lineare Y=a+bX con b<0
➢ Se Corr(X,Y)= 0, non c’è alcuna relazione lineare tra le 2 variabili aleatorie che quindi sono
dette incorrelate. → Se X e Y sono indipendenti, allora Corr(X,Y)=0 (NON VICEVERSA,
È UNA COSA A SENSO UNICO), il coefficiente di correlazione =0 di per sé non implica che
X e Y siano indipendenti, per verificare l’indipendenza è necessario applicare la formula.

p(xn ∩yn)= p(xn) p(yn) = => Corr(X,Y)=0

es)
x=1 x=2 p(y)
y=1 0,27 0,03 0,30
y=2 0,63 0,07 0,70
p(x) 0,90 0,10 1

p(x=1∩ y=1)=0,27 0,27=0,27


0,30 x 0,90=0,27
✔ X e Y sono indipendenti, per cui sono anche incorrelate

Ovviamente qua la covarianza gioca un ruolo importante:


- Cov(X,Y) + → Corr(X,Y) + correlazione positiva
- Cov(X,Y) - → Corr(X,Y) - correlazione negativa
- Cov(X,Y) =0 →Corr(X,Y)=0 le variabili sono incorrelate

COMBINAZIONI LINEARI DI VARIABILI ALEATORIE DISCRETE

Una combinazione lineare di X e Y, è un’espressione del tipo: W=aX + bY e poiché X e Y sono 2


variabili aleatorie, lo sarà anche W.

es) siano X e Y i prezzi dei titoli A e B


➢ un portafoglio, contenente questi 2 titoli è definito dal numero di azioni del titolo A e del
titolo B, che chiamiamo a e b
➢ la quotazione di mercato del portafoglio, è la combinazione lineare W (prezzo X
moltiplicato per il numero di azioni a e prezzo il Y moltiplicato per il numero di azioni b)

a e b sono fisse ma X e Y no, in quanto sono delle variabili per cui hanno un’incertezza descritta
dalla distribuzione di probabilità congiunta
La valutazione complessiva del portafoglio, dipende da 2 indici:
• Valore atteso di portafoglio→ E(W)= E(aX + bY)
• Rischio del portafoglio→ var(W)= var(aX + bY)

Media con W= aX+bY→ E(W)=μW= aμx+ bμy


Media con W= aX-bY→ E(W)= μW= aμx - bμy
Varianza con W= aX+bY→ Var(W)=σ2W= a2 σ2x +b2 σ2y +2abCov(X,Y)
Varianza con W= aX-bY→ Var(W)= σ2W= a2 σ2x +b2 σ2y -2abCov(X,Y)
oppure con il Corr(X,Y):

N:B: Può succedere che il rischio complessivo sia più basso della somma dei 2 rischi? La risposta è
SI, questo succede quando la covarianza è negativa→ Var(W)= Var(X) + Var(y) +2Cov(X,Y)
(questo + in fondo fa decrescere il rischio complessivo)

Capitolo 6.
VARIABILI ALEATORIE CONTINUE

Ricapitoliamo: una variabile aleatoria, è una variabile che assume dei valori numerici in
corrispondenza di un esperimento casuale.
Variabili aleatorie discrete X→ x (modalità) è un numero intero (n° di contagi in un giorno)
Variabili aleatorie continue X→ x (modalità) è un numero reale (durata di un componente
elettronico)
Una variabile aleatoria continua, è una variabile che può assumere qualsiasi valore in un intervallo
di numeri reali:
es) spessore di un oggetto, altezza di una persona….

Variabili aleatorie discrete Variabili aleatorie continue


È definita dalla funzione di massa di probabilità, È definita dalla funzione di densità di probabilità
che assegna ad ogni modalità la corrispondente e non dalla funzione di massa di probabilità
probabilità. come per le v.a.d, in quanto essa per le variabili
aleatorie continue risulterebbe pari a 0. Per cui,
in questo caso non definiamo le singole
probabilità delle modalità, ma la densità ovvero
come la probabilità si spalma su un certo
intervallo.
Qua la probabilità è vista come area
La funzione di densità di probabilità, ha diverse proprietà:

➔ f(x)≥0 per qualunque valore di x nell’intervallo dei valori ammissibili e f(x)=0 altrove
➔ l’area sottesa alla funzione di densità di probabilità, su tutto l’asse dei numeri reali, è =1
➔ la probabilità che X assuma valore compresi tra a e b è: P(a≤X≤b)= area sottesa alla
funzione di densità, nel suo intervallo

Nota: per le variabili aleatorie continue, si possono sostituire i valori ≤ con < senza cambiare niente
perché P(X=x)= 0 per ogni x.

➔ La funzione di ripartizione f(x0)= area sottesa alla funzione di densità, fino a x0 (x0 è
qualsiasi valore assumibile dalla variabile aleatoria)
F(x0)= P(X≤x0)

La funzione di ripartizione F(x0), esprime la probabilità che X, non superi il valore x0.

Valore atteso di una variabile aleatoria continua E(X)→ viene calcolata matematicamente tramite un
integrale:

Varianza di una variabile aleatoria continua σ2X→

Trasformazione lineare di una variabile aleatoria continua→ W=a+bX dove a e b sono costanti, la
media di W, si calcola: E(W)= E(a+bX)= a +bμX e la varianza di W: σ2W=Var(a+bX)= b2 σ2X
mentre la deviazione standard di W si calcola: σW= b σX
Le distribuzioni di probabilità per le variabili aleatorie continue

Distribuzioni di probabilità

La funzione di densità dunque, assume diverse conformazioni in base alla tipologia di distribuzione
che ci troviamo davanti:

DISTRIBUZIONE UNIFORME
La distribuzione uniforme, è la distribuzione di probabilità che assegna la stessa probabilità a tutti
gli intervalli, ovvero tutti i valori di X sono equiprobabili.

Funzione di densità di probabilità→ Per una variabile aleatoria continua uniforme X, che si trova in
un certo intervallo a, b, la funzione di densità di probabilità è:

l’ordinata del punto x è la densità di probabilità f(x) della variabile X

Valore atteso di una variabile aleatoria uniforme→ μ= (a+b)/2


Varianza di una variabile aleatoria uniforme→ σ2= (b-a)2/12
Funzione di ripartizione→

Esercizio) Trovare la probabilità che le vendite giornaliere di benzina siano almeno pari a 600 litri
(la cisterna può ospitare al massimo 1000 litri di benzina).
P(X≥600)=?→ P(600≤X≤1000)= (1000 – 600) (1/1000-0)= (400) 1/1000= 400/1000= 0,4

Esercizio) un guasto su un oleodotto lungo 2Km si verifica casualmente con una densità di
probabilità uniforme. Qual’è la probabilità che si verifichi nel segmento 500m e 1500m?
P(500≤X≤1500)=?→ P(500≤X≤1500)= (1500-500) (1/2000)= 1000/2000= 0,5
2Km in m→ 2000.

La probabilità è crescente: più di 1 la probabilità non può essere, quando si arriva a b, la probabilità
non cresce più e resta costante (linea piatta).

Calcolo della probabilità in un intervallo con la funzione di ripartizione→ P(a<X<b)= F(b) – F(a)

Esercizio) All’inizio dell’inverno, un proprietario valuta pari a 0.4 la probabilità di spendere in


totale al massimo 380$ per il riscaldamento. Inoltre valuta 0.6 la probabilità di spendere al massimo
460$.
1. Qual’è la probabilità che la spesa complessiva sia tra 380 e 460$?
2. Valutare la probabilità che la spesa complessiva sia inferiore a 400$.

N.B→ non sappiamo la spesa che distribuzione ha (uniforme, normale..)


Spesa=X
P(X≤380)= 0.4
P(X≤460)= 0.6
Per cui: 1. P(380≤X≤460)→ F(b) – F(a)= P(X≤460) – P(X≤380)= 0.6 – 0.4
2. P(X<400)=?→ 0.4≤ P(X<400)≤0.6

Variabili aleatorie normali


La distribuzione normale, detta anche gaussiana, ha forma campanulare simmetrica e la curva non
totta mai l’asse delle x, ma procede sempre verso +∞ e -∞. Qua si parla di una famiglia di
distribuzioni (non di una singola distribuzione), questo perché la normale dipende da 2 quantità
fondamentali che sono la media e la deviazione standard. Al variare della media e della
deviazione standard (o varianza ovviamente) la variabile aleatoria normale cambia.
(media=moda=mediana)
La curva rappresenta la densità, per cui l’area sotto la curva dovrà essere pari ad 1.
Il punto più alto corrisponde alla densità massima e si trova sull’asse di simmetria (media)
La deviazione standard, è la distanza tra la media e i punti di flesso (ovvero dove la curva cambia
la concavità)

Come si rappresenta graficamente, es:


μ= 170
σ= 5
σ

155 165 μ 175 185


Si prendono 3 deviazioni standard a Dx e a Sx
I punti di flesso, si trovano in corrispondenza di: 165 e 175
Al 155 e al 185 possiamo tendere la curva a +∞ e -∞

• Se cambia μ si sposta la distribuzione normale o a Dx o a Sx


• Se cambia σ si allungano o si restringono le code, più σ è piccolo, più la densità di
probabilità è concentrata sulla media.
La normale che ha μ= 0 e σ=1 si dice normale standard. La normale che ha μ= np e σ2=np(1-p)
approssima bene la distribuzione binomiale (diagramma a barre):

La normale standard (è una normale particolare)

Funzione di densità di probabilità per una variabile normale standard→

Funzione di ripartizione per una variabile normale standard→ è la probabilità F(z)=P(Z≤z)= area a
Sx di z e l’area si calcola usando la Tavola n°1.

La tavola della normale standard, fornisce i valori della funzione di ripartizione della distribuzione
normale, ottenuti tramite approssimazione numerica→ per un dato valore a di Z, la tavola
fornisce F(a): P(Z≤a)= F(a)

La probabilità che F(1)= P(Z≤1)= ? Si cerca guardando il valore di F(a) che corrisponde a a=1 nella
tavola:

F(1)= P(Z≤1)= 0.8413


I valori della tavola vanno da 0 a 3.99 e per i valori più grandi di 3,99 la probabilità è
ancora più vicina ad 1 e se ho per esempio z=5 approssimo ad 1.

Per i valori negativi di Z, usufruiamo del fatto che la distribuzione è simmetrica per trovare la
probabilità desiderata:
Ovvero faccio il complementare, se a=2→ P(Z≤2)=0.9772
b se a=-2 → P(Z≤-2)= 1- 0.9772→ 0.0228

Probabilità di un intervallo per una variabile normale standard → P(a≤Z≤b)= F(b) – F(a)
es) P(0≤Z≤1)= F(1) – F(0)= 0.8413 - 0.5 = 0.3413

Esempi da studiare con attenzione:

• P(Z>n)=P(Z<-n)→ 1-P(Z<n)
• P(Z>-n)→ P(Z<n)
• P(-a<Z<b)→ P(Z<b)-[1-P(Z<a)]
• P(-a<Z<-b)→ P(Z<a) – P(Z<b)
• P(Z<-n)→ 1-P(Z<n)
• P(a<Z<b)→ P(Z<b)-P(Z<a)
• P(-2<Z<0)= P(Z<2) – 0.5

Il caso della normale generale


Data una variabile aleatoria normale X con media e deviazione standard, si può riportare alla
normale standard tramite la standardizzazione. Ricordiamo che una variabile standardizzata Z, ha
μ= 0 e σ=1
Standardizzazione→ una variabile standardizzata Z, è una variabile ottenuta sottraendo alla
variabile aleatoria X, il suo valore atteso E(X) e rapportando il risultato alla deviazione standard σ.

Z = X- μ
σ
E viceversa, una variabile normale standard, si può riportare ad una generica X, usando la
trasformazione inversa:

X= μ+σX
Normale standard Normale generale
Z ~ N(0,1) X ~ N(μ,σ2)→ Z ~ N(0,1)
Si usa una notazione: Se X ~ (simbolo tipo tilde, che sta per, è distribuita come..) una variabile
normale N(μ,σ2). La probabilità P(X<x) si può calcolare sempre usando le tavole della normale
standard.
Cosa si fa? Si effettuano 2 standardizzazioni:
1) si standardizza X ~ N(μ,σ2), che quindi diventa Z ~ N(0,1)
2) si standardizza il valore x che diventa z=x-μ/σ

In pratica, si fa questa trasformazione: P(X≤x)→ P(Z≤z) dove z= x-μ/σ e Z=X-μ/σ

Esempio: X ~ N(μ,σ2)= X ~ N(8,25) trovare la probabilità che P(X≤8.6)


Z= X-μ/σ→ Z=8.6-8/5=0.6/5→ 0.12
P(X≤8.6)=P(Z≤0.12)
Cerco poi nella tavola il valore
0.12→ P(Z≤0.12)= 0.5478

Probabilità di un intervallo per una variabile normale→P(a≤X≤b)= P(az≤Z≤bz) dove:


az=a-μ/σ
bz=b-μ/σ

P(az≤Z≤bz)→ P(Z<bz)-P(Z<az)

es) il punteggio allo scritto di statistica è distribuito normalmente con μ=19 e σ=2. Calcolare la
probabilità che uno studente prenda: 21≤X≤23.
P(az≤Z≤bz)= P(Z≤2) – P(Z≤1)→ ricorro all’uso della tavola e→ 0.9772 – 0.8413= 0.1359
poiché: az=a-μ/σ→ 21-19/2=1 e bz=b-μ/σ→ 23-19/2= 2

In pratica, bisogna:
- passaggio 1, trasformare P(a≤X≤b) in P(az≤Z≤bz) calcolando az e bz→ az=a-μ/σ e bz=b-μ/σ
- passaggio 2, applicare la formula: P(az≤Z≤bz)→ P(Z<bz)-P(Z<az) utilizzando i valori della tavola
per la normale standard.
- N.B: questo sopra citato è per il caso in cui X sia compreso tra 2 estremi, ma se i segni cambiano
non è un problema, si applicano le regole per la normale standard ovviamente tenendo conto che
non vi sono più a e b ma az e bz:

• P(Z>n)=P(Z<-n)→ 1-P(Z<n)
• P(Z>-n)→ P(Z<n)
• P(-a<Z<b)→ P(Z<b)-[1-P(Z<a)] P(a<Z<-b)→ P(Z<a)-[1-p(Z<b)]
• P(-a<Z<-b)→ P(Z<a) – P(Z<b)
• P(Z<-n)→ 1-P(Z<n)
• P(a<Z<b)→ P(Z<b)-P(Z<a)
• P(-2<Z<0)= P(Z<2) – 0.5

La regola empirica→ P(μ−σ < X < μ+σ)≈ 0.68%


P(μ−2σ < X < μ+ 2σ)≈ 0.95%
P(μ−3σ < X < μ+ 3σ)≈0.99%

La probabilità che una certa variabile sia compresa tra μ+σ e μ- σ, si calcola standardizzando gli
estremi dell’intervallo: es) (μ+σ -μ)/σ=1 e (μ-σ -μ)/σ= -1.

Quartili e quantili→ Invece di calcolare la probabilità in un intervallo, qua io voglio trovare


l’intervallo che ha quella probabilità (si usano le tavole all’inverso).

Un quartile è un quantile di ordine p.

Q1= è il valore che ha prima di se il 25% dei dati→ il primo quartile, detto anche quantile di
ordine 0.25 è il valore k tale che P(X≤k)=0.25
Q3= è il valore che ha prima di se il 75% dei dati→ il terzo quartile, detto anche quantile di ordine
0.75 è il valore k tale che P(X≤k)=0.75

Generalizzando: un quantile di ordine p è il valore k tale che P(X≤k)=p e per calcolare un quantile
bisogna utilizzare la tavola all’inverso.

Quantili della normale standard


es) P(Z<k)=0.25 come faccio? La tavola inizia da 0.5 per cui il valore che cerco non lo trovo
riportato. In questi casi, si sfrutta la simmetria della normale standard:
Se si vuole trovare un quantile di ordine α minore di 0.5, si calcola il quantile di ordine 1-α e poi si
cambia il segno:

1-0.25= 0.75 ma cambiando il segno diventa -0.75 questo perché esso è più piccolo della metà e
quindi è negativo!

es) Qual’è il valore k tale che P(Z>k)=0.05?


Faccio il complementare: P(Z>k)=1-0.05= 0.95
Vado poi a cercare nella tabella il valore 0.95 nella colonna F(z) e trovo che mi corrisponde una Z
pari a 1.64

es) Trovare l’intervallo (-k,k) che racchiude il 90% dei valori di Z (normale standard).
Siccome siamo in presenza di una normale standard, la distribuzione è simmetrica e siccome il 90%
dei valori è racchiuso nell’intervallo, la coda di Dx e Sx saranno rispettivamente 0.05 e 0.05.

Basta che mi trovo k, poiché -k non è altro che k cambiato di segno.


K→ P(Z<k)=0.9+0.05= 0.95
Vado poi a cercare nella tabella il valore 0.95 nella colonna F(z) e trovo che mi corrisponde una Z
pari a 1.64
Per cui l’intervallo desiderato sarà: (-1.64,+1.64)

Quantili della normale generica


es) X ~ N(μ,σ2) con σ= 5 μ= 170. Trovare il valore tale che P(X≤valore)=0.75
- passaggio 1, standardizzo sia X che il valore→ P(X-μ/σ ≤ valore -μ/σ)
P(Z ≤ valore -μ/σ)
- passaggio 2, uguaglio il tutto alla probabilità→ P(Z ≤ valore -μ/σ)=0.75
- passaggio 3, trovare usando la tavola il valore che corrisponde a F(z)= 0.75, che è z=0.67
- passaggio 4, P(Z≤z) z=0.67 per cui uguagliare le 2 scritture: 0.67=valore -μ/σ
(0.67σ)+ μ= valore
inserisco i dati→ (0.67 x 5) +170= valore→ 173.35

es) X ~ N(μ,σ2) con σ= 15 μ= 60. Qual’è il valore soglia (quantile) che delimita il 10% degli
studenti migliori??
Ovvero: P(X>valore)=0.1 → siccome 0.1 è < di 0.5 il valore non si trova nelle tavole conviene
trovare il valore <, per cui si fa la formula inversa:
Formula classica→ P(X>k)= 1- P(X<k)
- P(X<k)= -1 + P(X>k)
P(X<k)= 1- P(X>k)
P(X<valore)=1- 0.1=0.9

- passaggio 1, standardizzo sia X che il valore→ P(X-μ/σ ≤ valore -μ/σ)


P(Z ≤ valore -μ/σ)
- passaggio 2, uguaglio il tutto alla probabilità→ P(Z ≤ valore -μ/σ)=0.9
- passaggio 3, trovare usando la tavola il valore che corrisponde a F(z)= 0.9, che è z=1.28
- passaggio 4, P(Z≤z) z=1.28 per cui uguagliare le 2 scritture: 1.28 =valore -μ/σ
(1.28σ)+ μ= valore
inserisco i dati→ (1.28 x 15) +60= valore→ 79.2
________________________________________________________________________________

Esercizio importante: Qual’è l’intervallo simmetrico, centrato nella media, tale che la probabilità
che X assuma valori all’interno sia 0.03? μ= 70 σ=7
In altre parole: P(a<X<b)=0.03→ a e b=??
➢ conviene separare P(az<Z<bz)
- P(Z<bz). bz= b-70/7
La P(X<b) è data delle probabilità: P(X<a) e P(a<X<b). Questa probabilità, si trova utilizzando la
simmetria della distribuzione:
P(Z<b)= 1-P(a<X<b)/2 + P(a<X<b)→1-0.03/2 + 0.03→ 0.515
➢ Utilizzo la tavola della normale standard per trovare il valore che corrisponde a F(z)= 0.515,
che è z=0.04
➢ bz→ 0.04= b-70/7→70.28
➢ Utilizzo ora la simmetria, ed a si risolve per - 0.04 : az→ -0.04= a-70/7→69.72
P(69.7<Z<70.3)

Approssimazione della binomiale con la normale→ se n (numero di prove) è grande, si approssima


la binomiale con una normale che ha la stessa media=np e la stessa varianza= np(1-p) della
binomiale data.

Si usa la così detta regola del pollice per vedere se n è grande: n è grande se np(1-p)>9). Poi se n è
grande, allora la probabilità che il numero di successi sia ≤ x è:

Poi risolvo le mie operazioni normalmente come faccio per le variabili aleatorie continue: es)
Esercizio) n=900 p=0.5.
a. Qual’è il numero di successi > 500? ovvero: P(X>500)=?

P(Z>500-450/√225)→ P(Z>50/15)→ P(Z>3.33)

Applico la formula classica delle variabile aleatorie continue per il caso >: P(Z>n)= 1- P(Z<n)
P(Z>3.33)= 1- P(Z<3.33)= 1- 0.9996= 0.0004

b. Qual’è il numero di successi <425? ovvero: P(X<425)=?


P(Z<425-450/√225)→ P(Z<25/15)→ P(Z< - 1.66666667) Quando vi sono casi di questo tipo, si
approssima e diventa 1.7

P(Z<-n)→ 1- P(Z<n)→P(Z< - 1.7)= 1- P(Z<1.7)


1- 0.9525= 0.0475

c. P(X<x)= 0.40, n=??


P(Z< valore-np/√np(1-p))→ P(Z<valore-450/15)=0.4
Siccome il valore 0.4 è <0.5 non si trova nella tavola per cui: faccio il complementare 1-0.4= 0.6
F(z)= 0.6 ora cerco il valore z sulla tavola che mi corrisponde ovvero z= 0.25

Poi uguaglio la mia z cambiandola di segno al valore→ -0.25= valore-450/15→ -3.75 +450= valore
valore= 446.25
P(X<446.25)= 0.40

d. P(X>x)= 0.06, n=??


P(Z> valore-np/√np(1-p))→ P(Z>valore-450/15)=0.06
Il valore 0.06 è <0.5 non si trova nella tavola per cui: faccio il complementare 1-0.06= 0.94
F(z)= 0.94 ora cerco il valore z sulla tavola che mi corrisponde ovvero z= 1.55

Poi uguaglio la mia z al valore→ 1.55= valore-450/15→ 23.25+450= valore


valore= 473.25
P(X<473.25)= 0.06

Ricapitolando dunque:

➔ quando ho: P(X>n)= probabilità < 0.5, n=?? Facendo la formula inversa, diventa:
1- la probabilità che ho e mi trovo il mio F(z) P(X<n)= 1- P(X>n)
F(z)=…. → z=….. usando la tavola
Poi uguaglio la mia z al dato che devo trovare
??
➔ quando ho: P(X<n)= probabilità < 0.5, n=??
1- la probabilità che ho e mi trovo il mio F(z) Questo perché la formula sarebbe:
F(z)=…. → z=….. usando la tavola P(X>n)= 1-P(X<n)
Poi uguaglio la mia z cambiata di segno al dato che devo trovare
COMBINAZIONI LINEARI DI VARIABILI ALEATORIE CONTINUE (= per quelle discrete)

Una combinazione lineare di X e Y, è un’espressione del tipo: W=aX + bY e poiché X e Y sono 2


variabili aleatorie, lo sarà anche W.

es) siano X e Y i prezzi dei titoli A e B


➢ un portafoglio, contenente questi 2 titoli è definito dal numero di azioni del titolo A e del
titolo B, che chiamiamo a e b
➢ la quotazione di mercato del portafoglio, è la combinazione lineare W (prezzo X
moltiplicato per il numero di azioni a e prezzo il Y moltiplicato per il numero di azioni b)

a e b sono fisse ma X e Y no, in quanto sono delle variabili per cui hanno un’incertezza descritta
dalla distribuzione di probabilità congiunta

La valutazione complessiva del portafoglio, dipende da 2 indici:


• Valore atteso di portafoglio→ E(W)= E(aX + bY)
• Rischio del portafoglio→ var(W)= var(aX + bY)

Media con W= aX+bY→ E(W)=μW= aμx+ bμy


Media con W= aX-bY→ E(W)= μW= aμx - bμy
Varianza con W= aX+bY→ Var(W)=σ2W= a2 σ2x +b2 σ2y +2abCov(X,Y)
Varianza con W= aX-bY→ Var(W)= σ2W= a2 σ2x +b2 σ2y -2abCov(X,Y)
oppure con il Corr(X,Y):

N:B: Può succedere che il rischio complessivo sia più basso della somma dei 2 rischi? La risposta è
SI, questo succede quando la covarianza è negativa→ Var(W)= Var(X) + Var(y) +2Cov(X,Y)
(questo + in fondo fa decrescere il rischio complessivo)

Capitolo 7 (e accenni dell’8)


CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE

Statistica descrittiva→ come dice la parola stessa, è quella parte della statistica che si occupa di
descrivere, analizzare dei dati. Si raccolgono i dati in modo opportuno e si riassumono le
caratteristiche essenziali delle variabili (tendenza centrale, variabilità, grafici..). Queste
caratteristiche però solo esclusivamente valide solo per i dati osservati, es se i dati sono 200 le
caratteristiche trovate si limitano a quei 200 dati.

Se si vuole generalizzare, e quindi estendere le caratteristiche trovate c’è un operazione da fare,


tale operazione viene chiamata Inferenza Statistica.

Inferenza statistica= è un processo di generalizzazione per il quale i risultati ottenuti su un


campione, vengono estesi alla popolazione. Esso è un processo di induzione, ovvero permette di
andare dal PARTICOLARE al GENERALE
(campione) (popolazione)

Statistica inferenziale→ dunque è quella parte della statistica che si occupa di estrapolare le
caratteristiche di una popolazione tramite l’osservazione di dati di un campione rappresentativo,
ovvero un campione che rappresenta la popolazione di interesse. Gli unici campioni che possiamo
considerare rappresentativi sono quelli casuali, in quanto sono imparziali. Il campionamento
casuale, è il procedimento che viene usato per selezionare un campione di n oggetti da una
popolazione, dove tutti gli elementi appartenenti alla stessa popolazione avranno la stessa
probabilità di essere scelti. La differenza tra il risultato ottenuto dal campione e la vera caratteristica
della popolazione è detta errore di campionamento. L’errore di campionamento, non può mai essere
determinato con certezza, ma può essere stimato ovvero si possono determinare i limiti probabili
della sua entità.
Avendo dunque un campione rappresentativo, si determinano delle procedure di stima delle
caratteristiche della popolazione, si fanno dei calcoli appropriati su un campione per poi
generalizzare.
N.B: le caratteristiche della popolazione che si vogliono stimare si dicono PARAMETRI DELLA
POPOLAZIONE

Vi sono 2 tipologie di campioni rappresentativi:


- campioni con ripetizione (estrazioni con remissione), si pesca una pallina dall’urna e si toglie.
- campioni senza ripetizione (estrazioni senza remissione), si pesca una pallina dall’urna e si
reinserisce.
(Noi ci concentreremo principalmente sui campioni casuali con ripetizione)

Proprietà dei campioni casuali con ripetizione:


1. ogni unità della popolazione ha la stessa probabilità di essere estratta
2. la selezione di ogni unità è indipendente dalla selezione di ogni altra unità
3. un campione di dimensione n da una popolazione è una successione di variabili aleatorie
indipendenti e identicamente distribuite
X1, X2, X3….. i.i.d
i.i.d→ indipendenti e identicamente distribuite
La distribuzione campionaria della media:
- POPOLAZIONE, numerosità N → parametri
- CAMPIONE, numerosità n (che è <N) → statistiche
Ogni quantità della popolazione (parametro) ha un suo analogo nel campione (statistica), es:
al parametro media della popolazione, indicata con la lettera greca μ, corrisponde la media
campionaria indicata con la lettera X.
È normale dunque cercare di stimare un parametro d’interesse con la corrispondente statistica.
Quando una statistica viene usata a fini inferenziali, per stimare un parametro viene detto stimatore
(es. X è lo stimatore di μ). Uno stimatore `e una variabile aleatoria con una distribuzione detta
distribuzione campionaria.
Tipicamente il parametro d’interesse primario è la media della popolazione. Disponendo di un
campione, la media campionaria è uno stimatore della media della popolazione. Una volta
estratto un campione, lo stimatore (è una variabile aleatoria) produce una stima (è un numero).
Per convenzione indichiamo:
- lo stimatore con la lettere latina maiuscola
- la stima con la corrispondete minuscola

Essendo la stima un procedimento inferenziale (ovvero induttivo) è soggetto ad errore, dunque


dobbiamo quantificare l’errore. Una volta estratto il campione casuale, la stima è nota ma il valore
del parametro no, per cui di fatto l’errore di stima commesso è ignoto (non si può nemmeno sapere
se l’errore è per eccesso po per difetto). Dunque non si può valutare se una specifica stima è buona
o no, ma possiamo valutare le proprietà dello stimatore:
Uno stimatore si dice corretto o non distorto, quando il valore atteso dell’errore di stima è nullo. In
altre parole, uno stimatore è non distorto quando il suo valore atteso coincide con il parametro
d’interesse.
Formalmente la proprietà di non distorsione si scrive come:

Stima della media (su una popolazione normale)→ lo stimatore della media μ, è la media
campionaria:

n=numerosità campionaria
Proprietà della distribuzione campionaria della media:
• X è una variabile aleatoria che ha sempre valore atteso= alla media della popolazione

• X ha una varianza uguale alla varianza della popolazione / la numerosità del campione

• Se la popolazione è normale, X ha distribuzione normale


La distribuzione campionaria della media, è uno stimatore non distorto cioè non tende a
sovrastimare o sottostimare μ, in quanto il suo valore atteso coincide con il parametro di interesse:
infatti→ E(X)=μ

La varianza dello stimatore, è inversamente proporzionale alla dimensione campionaria n, cioè


l’errore di stima tende a diminuire al crescere del campione.

es) Supponiamo che un’azienda produca candele di accensione con durata X aleatoria. Si estrae un
campione casuale i.i.d. di 16 candele, qual’è la probabilità che la durata media campionaria sia < o
≥ a 34500Km?
μ= 36000Km
σ= 4000Km
La probabilità che voglio è: P(X≤34500), poiché la media campionaria ha una distribuzione
normale, quindi: N( μ, σ/√n)→ N(36000, 4000/√16)= (36000, 1000)
Dunque calcolo (standardizzo): P(Z≤ 34500 – 36000/100)→ per cui: P(Z≤ x -μ /σX)
P(Z≤- 1.50)→ siccome il numero è negativo faccio il complementare: 1- P(Z≤1.50)= 1- 0.9332=
0.0668
N.B: la deviazione standard della media campionaria, viene chiamata errore standard di X. L’errore
standard, è l’errore dovuto al campionamento in cui si incorre stimando la media μ della
popolazione usando un campione. Se n→ ∞ l’errore standard tende a 0.
La deviazione standard è inversamente proporzionale a √n, per cui se voglio dimezzare l’errore
standard prendendo un campione più grande, occorre che quadruplico la dimensione del campione.

Teorema del limite centrale→ tale teorema, è un risultato asintotico, ovvero indica quello che
accade quando n, la dimensione del campione, tende all’infinito. Esso afferma che: se si è
interessati alla distribuzione della media campionaria e si dispone di un campione abbastanza
ampio (a volte basta che n≥30) non ci si bisogna preoccupare di qual’è la distribuzione del
carattere della popolazione perché ciò è irrilevante, infatti qualunque essa sia, la media
campionaria avrà distribuzione approssimativamente normale (al crescere della dimensione
campionaria n, l’approssimazione diventa sempre migliore).
Esercizio) Da una popolazione con μ= 100 e σ= 30 si estrae un campione con n=30
• Quanto valgono la media e la varianza della media campionaria?
• Qual’è la probabilità che X>109?

1. media: E(X1, X2, X3…./n)= μ → = 100


varianza: σ2/ n= 30
2. P(X>109)=?
P(Z> 109-100/(30/5.477))→ P(Z>9/5.477)= P(Z>1.64)
Siccome ho il maggiore, applico la classica formula: P(Z>z)= 1- P(Z<z)
P(Z>1.64)= 1- P(Z<1.64)= 1- 0.9494= 0.0505

Stima di una proporzione di una distribuzione di Bernulli→la stima di una proporzione di successi p
in una popolazione Bernoulliana usando un campione casuale i.i.d. di dimensione n.
- probabilità di insuccesso→ p(0)= 1-p
- probabilità di successo→ p(1)= p

Avendo questo campione, si vuole stimare p, la proporzione campionaria incognita, di successi.


Si calcola dunque la proporzione campionaria di successi: P^=X/n (numero di successi/numero di
elementi del campione). Riflettendo bene, possiamo notare che P^ non è altro che la media
campionaria.
Ma, che distribuzione ha P^??→ricordiamo che: il numero di successi X ha distribuzione Binomiale
con media np e varianza np(1-p). Quindi la proporzione di successi P^=X/n avrà ancora
distribuzione binomiale ma con media e varianza che sono rispettivamente:

L’errore standard o deviazione standard della proporzione campionaria è:

La proporzione campionaria, è uno stimatore non distorto cioè non tende a sovrastimare o
sottostimare μ, in quanto il suo valore atteso coincide con il parametro di interesse:
infatti→ E(P^)=μ

Regola: Se si vuole dimezzare l’errore di stima si deve fare un campione 4 volte più grande per cui
si deve quadruplicare la dimensione campionaria (n). Questo perché al denominatore abbiamo una
√n.
Teorema del limite centrale→ tale teorema, è un risultato asintotico, ovvero indica quello che
accade quando n, la dimensione del campione, tende all’infinito. Esso afferma che: se si è
interessati alla distribuzione della proporzione campionaria e si dispone di un campione
abbastanza ampio (regola del pollice: np(1-p)>9) non ci si bisogna preoccupare di qual’è la
distribuzione del carattere della popolazione perché ciò è irrilevante, infatti qualunque essa sia, la
media campionaria avrà distribuzione approssimativamente normale.
^
P

La proporzione campionaria standardizzata→

La variabile aleatoria standardizzata, è approssimata da una normale standard:

Es) la probabilità di osservare un campione con proporzione di successi non superiore al 60% è:
P(P^≤0.60)= ??
P(P^≤0.60)→ P(Zp^ ≤ (0.60-p) / √p(1-p)/√n)

Esercizio: da una popolazione di case di vecchia costruzione, si è estratto un campione casuale i.i.d.
di 250 case per verificare la proporzione casuale di case con l’impianto elettrico non a norma. Se la
popolazione ha il 30% di case non a norma, qual’è la probabilità che la proporzione campionaria di
case non a norma sia compresa tra il 25% e il 35%?
n=250 p=0.3 np(1-p)>9 → 75(0.7)>9 → 52.5>9
P(0.25< P^ < 0.35)=??
P(0.25-0.3 / √0.3(0.7)/ 15,81 < ZP^ < 0.35-0.3 / √0.3(0.7)/ 15,81)
P(-0.05/0.0289 < ZP^ < 0.05/0.0289)→ P(- 1.73 < ZP^ < 1.73)
la formula classica è: P(-a < Z < b)= P(Z<b) - [1-P(Z<a)]→ P(ZP^ < b) - [1-P(ZP^ < a)]
0.9582 - [1-0.9582]= 0.9582 – 0.0418= 0.9164
Capitolo 8.
PROBLEMI DI STIMA SU UNA SINGOLA POPOLAZIONE
Proprietà degli stimatori:
• correttezza
• efficienza
• consistenza

CORRETTEZZA. Fino ad ora abbiamo visto 2 tipologie di stimatori:


➢ lo stimatore della media → X
➢ lo stimatore della proporzione si successi di una popolazione Bernoulliana → P^
Vi è anche un’altra tipologia di stimatore non distorto:
➢ lo stimatore della varianza:

Questi stimatori, sono stimatori corretti o non distorti, ma esistono anche stimatori distorti? La
risposta è si.

θ1^= stimatore non distorto


θ2^= stimatore distorto

Stimatori con distorsione→ riprendiamo innanzitutto la definizione di stimatore non distorto: uno
stimatore è non distorto quando il suo valore atteso coincide con il parametro d’interesse e dunque
la differenza tra media e parametro è nulla. Da questa definizione possiamo dedurre che uno
stimatore è distorto quando il suo valore atteso ≠ parametro d’interesse, ovvero quando la
differenza tra media e parametro non è più nulla, bensì da come risultato uno scarto negativo o
positivo.

Stimatore non distorto:

Stimatore distorto:

Distorsione→ sia θ^ uno stimatore per θ (parametro), la distorsione (o bias) è definita come la
differenza tra la media dello stimatore e il vero valore del parametro.

EFFICIENZA. Spesso ci sono stimatori alternativi di un parametro e si pone il problema di scelta


tra i 2. Se consideriamo due stimatori θ1^ e θ2^ di un parametro θ, entrambi non distorti, la regola è
quella di scegliere lo stimatore che ha la varianza campionaria (o l’errore standard) minore
poiché è più preciso.
→ Lo stimatore più efficiente tra i 2 è dunque quello che ha la varianza < .
Lo stimatore con varianza minore, è detto più efficiente dell’altro poiché permette una certa
precisione con meno dati.
Per valutare quando ad esempio θ2^ è più variabile di θ1^ si calcola il rapporto di efficienza
relativa, ovvero si fa:
Efficienza relativa= Var(θ2)/ Var(θ1)→ se il risultato del rapporto è >1, θ1^ sarà più efficiente di
θ2^.
es) se la popolazione è normale N(μ, σ2), μ sappiamo che è sia la media che la mediana in quanto in
una distribuzione normale la media=la moda. Per cui in questo caso per stimare μ potremmo fare sia
la media campionaria che la mediana campionaria. In questo caso qual’è lo stimatore migliore??

• Var(Me)= (π/2) x (σ2 /n)→ 1.57 x (σ2 /n)


• Var(X)= σ2 /n
Se applichiamo la formula dell’efficienza relativa→ 1.57 x (σ2/n) = 1.57
σ2/n
1.57 è >1 per cui la varianza della media campionaria è più efficiente. Quindi possiamo dedurre che
con popolazioni normali (senza valori anomali) la media è più efficiente della mediana.
- la media è troppo sensibile ai valori anomali
- la mediana invece è più resistente ai valori anomali (se ci fossero stati valori anomali avrebbe
“vinto” la mediana).

CONSISTENZA. La consistenza è una proprietà asintotica, cioè riguarda il comportamento di


uno stimatore al crescere dell’ampiezza campionaria.
- Se la popolazione ha dimensione finita N, e si campiona senza ripetizione, quando l’ampiezza
campionaria n raggiunge N il campione coincide con la popolazione, per cui quando n=N la media
campionaria = media della popolazione→ stima perfetta.
- Cosa accade se la popolazione è infinita (N=∞) ? In tal caso n non può raggiungere N(il campione
non può avere ampiezza infinita) e quindi non è possibile avere stime perfette.
Tuttavia se lo stimatore è consistente si possono avere stime quasi perfette, perché al crescere
dell’ampiezza campionaria gli errori di stima diventano sempre più piccoli.
Indicando con n l’ampiezza del campione, una condizione sufficiente affinché uno stimatore T n di
un parametro θ sia consistente è che:
1. sia non distorto per qualunque n o almeno che tenda ad essere non distorto al crescere di n
2. la sua varianza campionaria tenda a zero al crescere n

➔ Al crescere di n, la distribuzione di Tn diviene sempre più concentrata attorno al parametro


di interesse θ, quindi lo stimatore è sempre più preciso. Questo è un requisito minimo: in
generale, uno stimatore non consistente non deve essere usato!
es) La media campionaria è uno stimatore consistente perché:
1. è non distorto per qualunque n
2. la sua varianza è σ2/n , quindi tende a 0 al crescere di n

Intervalli di confidenza (IC)→ L’inferenza statistica consiste nell’usare statistiche (=quantità


calcolate nel campione) per stimare parametri incogniti della popolazione. Come ogni processo
induttivo, l’inferenza statistica porta a conclusioni incerte: infatti, in generale la stima non coincide
con il parametro obiettivo (anche se una buona stima non dovrebbe esserne troppo lontana). La
peculiarità dell’inferenza statistica è quella di quantificare l’incertezza associata al processo
induttivo; la quantificazione dell’incertezza è essenziale per la corretta interpretazione di una stima.

Un modo per quantificare l’incertezza è quello di associare alla stima un intervallo, (es. [8, 12]),
detto intervallo di confidenza (IC). L’intervallo di confidenza, è l’intervallo di valori entro i quali si
stima che cada, con un livello di probabilità prescelto, il parametro desiderato. Tale probabilità è
detta livello di confidenza ed è in generale indicato con (1−α) dove α è la probabilità che il
parametro si trovi al di fuori dell’intervallo di confidenza. Quindi la confidenza è il grado di fiducia
che l’intervallo possa contenere effettivamente il parametro di interesse. N.B: quanto più ampio è
l’intervallo tanto maggiore è l’incertezza.
Tipicamente gli intervalli sono fatti così: θ^±multiplo dell’errore standard di θ^
(una stima±un certo multiplo dell’errore standard, sono fatti come un intorno della stima)

IC per la media con varianza nota a priori→ con livello di confidenza 1-α.

se α= 5%, 1-α=95%→ zα/2= 1.96 (è quel valore che lascia nelle code una probabilità α/2)
za/2= fattore di affidabilità
Livello di 90% 95% 98% 99%
confidenza
1-α 0.90 0.95 0.98 0.99
α 0.10 0.05 0.02 0.01
(1-α) +α/2 0.95 0.975 0.99 0.995
zα/2 1.645 1.96 2.33 2.575

la parte della tabella evidenziata è F(z) per cui si va a vedere sulla tavola qual’è il valore di z che
corrisponde a F(z), e il valore ottenuto sarà zα/2.

N.B. Perché i valori 1.96, 2.33...??


es) Poiché bisogna trovare l’intervallo (-z,z) che racchiude il 95% dei valori di Z (normale
standard). Siccome siamo in presenza di una normale standard, la distribuzione è simmetrica e
siccome il 95% dei valori è racchiuso nell’intervallo, la coda di Dx e Sx saranno rispettivamente
0.25 e 0.25.
Basta che mi trovo z, poiché -k non è altro che k cambiato di segno.
→ P(Z<z)=0.95+0.25= 0.975
Vado poi a cercare nella tabella il valore 0.975 nella colonna F(z) e trovo che mi corrisponde una Z
pari a 1.96
Per cui l’intervallo desiderato sarà: (-1.96,+1.96)

N.B: scrivere che (…. ≤ μ ≤ ….) è sbagliato in quanto l’intervallo può contenere o NON
CONTENERE il vero valore di μ, in quanto non possiamo sapere se l’intervallo ottenuto fa parte
degli intervalli “buoni” (nel caso sopra erano 95) o degli intervalli “cattivi” (nel caso sopra 5).
Alcune notazioni:
• la media della popolazione è una costante fissa
• gli estremi degli intervalli di confidenza sono aleatori

Il margine di errore (ME)→ è pari alla metà della lunghezza dell’intervallo di confidenza, ovvero:

Il ME ha le seguenti proprietà:
1. cresce al crescere di σ
2. diminuisce al crescere di n
3. cresce al crescere del livello di confidenza richiesto
Esercizio: Si producono bottiglie d’acqua con etichetta 720ml. Si studia il reale contenuto di X. La
produzione sa che X è normale con μ incognita e σ= 6ml. Si estrae un campione i.i.d ì. Di
dimensione 90 e la media campionaria è 719ml.
Trovare l’intervallo di confidenza al 92% per la media della popolazione.
X= 719
σ= 6
n= 90
la formula ricordiamo che è:
719± zα/2 6/9.4868→ 719± zα/2 0.63
zα/2=??→
• il mio livello di confidenza è il 92% per cui 1-α=0.92
• tot=1 , se 1-α=0.92 ne segue che α= 0.08
• (1-α) +α/2= 0.92 + 0.04= 0.96, e questo è il valore F(z), per cui ora avdo sulla tavola della
normale standard e mi trovo il valore di z che corrisponde alla mia F(z).
F(z)= 0.96 → z=1.75→ zα/2= 1.75
• ora posso completare la formula: 719± 1.75 (0.63)
719 ± 1.1025→ l’intervallo è: 720.1025 ≈ 720.1
717.8975 ≈ 717.9

Se volessi trovare il ME→ ME= 1.1025

IC per la media con varianza NON nota→ ci riscontrano “dei problemi”:


➢ non si può conoscere l’errore standard
➢ non si può calcolare il ME
➢ non si possono determinare gli intervalli di confidenza
Quindi cosa si fa? Ovviamente si deve stimare la varianza (σ2):

Si potrebbe pensare che una volta stimata la varianza, l’intervallo aleatorio diventa:
ma ciò è sbagliato ecco perché:

- IC per media conoscendo la varianza, con es. livello di confidenza al 95%→


- IC per media conoscendo la varianza, con es. livello di confidenza al 95%→

Una conseguenza della sostituzione di σ (una quantità fissa, certa) con S (uno stimatore, che
assume valori diversi a seconda del campione estratto) è l’introduzione di una ulteriore fonte
di incertezza: a parità di livello di confidenza l’IC si allunga per tener conto dell’aumentata
incertezza.
Da un punto di vista tecnico, la media campionaria standardizzata ha:
- distribuzione normale standard quando la varianza è nota è nota
- distribuzione t di Student con n−1 gdl quando la deviazione standard (σ) non è nota e viene
sostituita dalla deviazione standard campionaria S.
tale distribuzione: è stata inventata da William Gosset (chimico-matematico) nel 1907.
gbgbghhghgngnhhggnbnbnbnbnbnbnbnbnbnbnbnbn(student è uno pseudonimo)

La t di Student è una famiglia parametrica di v.a. continue che hanno come supporto l’intero asse
dei numeri reali. Ogni membro della famiglia (cioè, qualunque sia il numero di gdl) è una
distribuzione simmetrica con media 0, varianza appena maggiore di 1. La differenza sostanziale con
la Normale Standard è che le code sono più spesse della normale, dunque i fattori di affidabilità
(za/2) nella distribuzione t di Student sono maggiori di quelli della Normale Standard.
(per ottenere i fattori di affidabilità si usa la tavola 2 del libro)
Inoltre, possiamo dire anche che la t di Student è sostanzialmente diversa dalla Normale standard
quando n è piccolo; al crescere del numero di gdl la t diviene sempre più simile alla Normale
standard, tanto che per n>60 le due distribuzioni presentano differenze trascurabili.

L’intervallo di confidenza dunque qua cambia ed è:

Esercizio: Il consumo X di carburante degli autocarri di un certo modello definisce una popolazione
che si distribuisce normalmente. Si vuole stimare μ usando un campione i.i.d. n=24 con un livello di
confidenza del 90%. Trovare l’intervallo di confidenza sapendo che:
X= 8.03 S= 0.73
• applicando la formula: 8.03±t n-1,α/2 (0.73/4.8989)

8.03±t n-1,α/2 (0.149)

8.03±t23, α/2 (0.149)→ α/2, lo calcolo con il procedimento solito e viene: 0.05
• ora vado a cercare nella tavola della distribuzione t di Student: v= 23 e α= 0.05, e mi trovo il
valore 1.714
• 8.03±t23, α/2 (0.149)= 8.03±(1.714)(0.149)→ 8.03±0.255
• per cui il mio intervallo di confidenza sarà: 8.285 ≈ 8.3
7.775 ≈ 7.8
Livello di 90% 95% 98% 99%
confidenza
1-α 0.90 0.95 0.98 0.99
α 0.10 0.05 0.02 0.01
α/2 0.05 0.025 0.01 0.005
t n-1,α/2 t n-1, 0.05 t n-1, 0.025 t n-1, 0.01 t n-1,0.005

Esercizio: il tempo X impiegato per andare a lavoro si suppone che sia distribuito normalmente. Si
vuole stimare il tempo medio e per questo si estrae un campione casuale i.i.d. di tempi (minuti) per
5 individui ottenendo i dati: 30, 42, 35, 40, 45.
a) qual’è l’errore standard stimato della media campionaria?
b) calcolare l’ampiezza dell’intervallo (livello di confidenza 95%)

a) media campionaria= ( 30+42+35+40+45) / 5= 38.4 per cui X= 38.4


varianza campionaria= S2= [(30-38.4)2+(42-38.4)2+(35-38.4)2+(40-38.4)2+(45-38.4)2] / 5-1= 35.3
La varianza dunque, si calcola, facendo:
1. (dato-media) per trovare gli scarti
2. poi faccio scarti2
3. poi sommo tutti scarti2 / n-1
errore standard= σ/√n= S/√n (analogamente) → √35.3 / √5= 5.94 / 2.236= 2.6565 ≈ 2.657

b) l’ampiezza? ME= l/2= t n-1,α/2 (S/√n)

Analogamente l= 2ME→ 2(t 4, 0.025 (2.657)) = 2(2.776 x 2.657)= 2 x 7.3758= 14.75

IC per una proporzione della popolazione→ c

Potrebbero piacerti anche