Sei sulla pagina 1di 93

Il procedimento di misura

La misura deriva da un procedimento empirico ed oggettivo, infatti si attua attraverso una


procedura che richiede un intervento sul mondo esterno, descrivibile con concetti e termini chiari
per tutti gli addetti al settore.
La misura topografica per essere tale non può esaurirsi in un codice numerico, perché necessita
di almeno tre qualificatori:
1) L’indicazione del misurando
2) L’unità di misura adeguata
3) La qualità della misura
Per quanto attiene il primo qualificatore è facilmente comprensibile che il dire
“La misura è 27.35”
Potrebbe essere inteso in più modi, per esempio:
“Il dislivello è 27.35”
“La distanza è 27.35”
“L’angolo è 27.35”
Ecco perché la indicazione del misurando è necessaria ad indirizzare chi opera.
Il secondo qualificatore, vale a dire l’unità di misura, non solo specifica il tipo di oggetto che si
osserva ma ne migliora la descrizione.
Infatti non diremo mai che il cedimento di una pila risulta 3x10-6 km, diremo invece che la misura è
3 mm.
Il terzo qualificatore è quello più importante in quanto descrivendo la qualità totale della misura, ne
costituisce la garanzia.
Questo qualificatore prende generalmente il nome di Incertezza e riassume in sé il concetto relativo
di utilizzo della misura.
Dire che una misura è poco incerta o molto incerta non ha senso, in quanto manca il contesto in cui
la stessa deve essere utilizzata e l’incertezza è il nesso tra il problema che si affronta e la qualità di
misura con cui s’intende risolverlo.
Quale che sia l’operazione d’Ingegneria che s’intende sviluppare essa non potrà prescindere da un
progetto delle misure la cui qualità dovrà essere preventivamente studiata.
E siccome, in definitiva, il prodotto misura si vende e si compra, l’incertezza costituisce la garanzia
di qualità che fornisce chi l’ha prodotta.
Considerato che la qualità ha un costo si pone anche un problema di ottimizzazione, in quanto è
inutile conseguire incertezze molto più basse di quelle necessarie.
Esiste dunque un problema a priori del calcolo di un’incertezza (±σ) ed un problema a posteriori.

1
Ora mentre il secondo è ampiamente conosciuto sotto il profilo statistico, il primo si lega
all’Utilizzazione della misura.
Non si effettua una misura senza uno scopo, questo è il punto centrale per definire la qualità
necessaria.
Se la misura ha qualità inferiore a quella necessaria per lo scopo da raggiungere, la misura è
inutile; se la qualità è largamente superiore si saranno sprecate risorse inutili.
Lo scopo coincide il più delle volte con una decisione da prendere, per esempio:
“Un fabbricato manifesta segni di instabilità, si ritiene che superato un valore di rotazione ϕamm sarà
necessario intervenire”
Il problema è che non esiste la misura ϕamm bensì ϕ = ϕamm ± σ

--------------------------|-----------------------------|------------------------------|-------------
-σ ϕ amm +σ
|-----------------------------------------------------------|
Zona in cui c’è una valutazione da fare
da parte dell’utilizzatore

dove σ è l’incertezza della misura


Qual è l’ampiezza accettabile della zona di decisione ?
La zona deve essere necessariamente costituita da una rotazione relativamente piccola rispetto al
valore di ϕamm , infatti se ϕamm é di 30” non avrebbe senso una σ pari a ± 15”, in quanto la zona di
decisione sarebbe troppo ampia rispetto alla delicatezza dell’intervento.

Se si opera con un’incertezza molto più piccola (σ= ± 2”÷3”) la scelta diventa significativa, infatti

la riduzione dell’intervallo di valutazione diminuisce di molto il margine di rischio.


Si comprende così che nel procedere a misurazione il passo prioritario è la scelta dell’incertezza
senza la quale l’intero procedimento non ha significato.
Qualunque altra scelta, sia essa di metodo sia essa di operatività, consegue al dimensionamento
dell’incertezza, la cui verifica a posteriori consente di stabilire se siamo rimasti nell’intervallo
risolutivo del sistema.

2
Cos’è l’incertezza?
Nel definire la misura topografica abbiamo visto che il terzo qualificatore ha un legame
preminente con la misura stessa, talmente preminente da escludere risultati veri e indirizzarci verso
risultati affidabili.
Infatti non potendo prescindere, come vedremo, dalle interazioni tra strumento, operatore e
ambiente, l’interrogazione della realtà nel fornire una definizione numerica (angolo, distanza o
dislivello) ne darà comunque un valore affetto da Errore.
Esiste una divisione in classi di questo ente ed è la seguente:
- Errori grossolani
- Errori sistematici
- Errori accidentali
E’ noto che i primi sono veri e propri sbagli dovuti ad errata lettura o trascrizione o quanto altro,
mentre i sistematici hanno nelle medesime condizioni strumentali stesso valore e stesso segno.
In ultimo gli accidentali sono quelli che prescindono da qualunque considerazione
deterministica verificandosi per incontrollabili difetti strumentali o variazioni ambientali.
Quest’ultima classe di errori, caratterizzata da cambiamento di valore e segno non determinabili
pur persistendo le stesse condizioni, e quella che forma nel complesso il grado di affidabilità della
misura e quindi della sua incertezza.
La variabilità dei risultati nasce, come abbiamo detto, da una interazione non controllabile tra
strumento, operatore e condizioni ambientali.
In effetti anche il modello interagisce con la causa precedente, in quanto l’approssimazione del
modello condiziona il risultato finale.
Infatti pensiamo per un esempio ad una misura banale e cioè quella della lunghezza dell’asse di
una trave che per modello consideriamo rettilinea, se però l’asse della trave ha nella realtà una
leggerissima curvatura, ecco che il modello ha introdotto una causa di errore che interagisce con le
altre.
L’affidabilità di una misura viene indicata associando al risultato uno fra i seguenti parametri:
1) L’incertezza, misurata dallo S.Q.M. ± σ
2) Tolleranza è l’ampiezza di un intervallo in cui tutti i valori della misura sono accettabili. In
assenza di errore sistematico della media si può assumere per |I/2| il valore |3σ|
3) Errore massimo atteso è la somma degli errori massimi componenti. L’errore massimo atteso è
un parametro deterministico.
4) Esattezza ((Accuracy) è lo scostamento di misura dal valore vero; in una singola misura è
rappresentato dall’errore massimo.

3
La necessità di abbinare al numero rappresentativo della grandezza uno dei quattro indicatori di
qualità (in genere il 1° o il 2°) deriva essenzialmente dalla circostanza che si presenta quando
ripetendo l’operazione di misura si ottengono risultati diversi. Tutto ciò implica l’impossibilità di
attribuire alla misura un valore univoco, nasce quindi la necessità di determinare un intervallo in cui
il risultato della misura sia accettabile.
Può sembrare paradossale, ma per gli strumenti più precisi aumenta l’impossibilità di correlare
numero e grandezza.
La diversità delle misure può emergere in due casi estremamente diversi:
- 1. Ripetizione della misura con lo stesso strumento
- 2. Misure con strumenti diversi.
Nel primo caso la variazione dei risultati è tanto più avvertita quanto più spinta è
l’approssimazione della misura, e cioè quanto maggiore è il numero delle cifre significative.
Nel secondo caso oltre a quanto avviene nel primo, cioè oltre alla variabilità intrinseca di ogni
strumento, si osserva una dispersione più o meno forte tra misure con strumenti diversi.
Se si prendono in considerazione strumenti ugualmente sensibili, con i quali si può esprimere lo
stesso numero di cifre significative, si osserverà un diverso modo di variare delle ultime cifre.
Si verifica infatti un’oscillazione intorno a valori centrali differenti da strumento a strumento.

Perché variano le misure ?


L’operazione di misura coinvolge nello stesso ambiente tre elementi: lo strumento,
l’operatore, l’oggetto da misurare.
Più precisamente potremo dire che nell’ambito di condizioni ambientali (temperatura,
pressione, rifrazione ecc. ecc.) lo strumento (tecnologia, modalità operative) utilizzato
dall’operatore (accuratezza, sensibilità operativa ecc. ecc.) cerca di definire la grandezza di un
oggetto.
Come si vede i parametri, peraltro non stabili, che si correlano sono molteplici ed un’analisi di tipo
deterministico è impossibile, possiamo al massimo individuare alcuni elementi su cui fondare un
ragionamento che ci convinca del perché una variabilità della misura è inevitabile.
Cominciamo con la parte strumentale e vediamo di definire uno strumento BUONO.
Il progetto di uno strumento di misura può fornire la garanzia di correlare univocamente grandezza
e numero se si verificano le seguenti condizioni:
- Lo strumento ha una soglia di sensibilità, oltre la quale non riesce a percepire valori utili
della grandezza.

4
- Lo strumento opera in alcuni settori specifici di misura (per esempio distanze, angoli e non,
velocità).
- L’operazione di taratura è tale da garantire che i difetti residui determinano errori di un
ordine più piccoli della sensibilità.
Definiremo quindi BUONO uno strumento che, usato nel proprio campo di applicazione,
fornisce variazioni entro i limiti della sua sensibilità.
Uno strumento buono dovrebbe quindi garantire misure univoche, eppure ciò non avviene.
Per quanto attiene la grandezza a questa è richiesta stabilità nel tempo.
E’ una caratteristica che però l’oggetto non può assicurare, basti pensare alle differenze di
temperatura oppure all’individuazione dei punti estremi che definiscono un angolo.
In ogni caso non può essere neanche la mancanza di stabilità della grandezza a determinare
variazioni di misura, perché potremmo definire un funzionale che descrive la variabilità.
Per arrivare ad una spiegazione plausibile dobbiamo partire dalla constatazione che strumento,
operatore e grandezza immersi nell’ambiente partecipano inevitabilmente agli scambi energetici.
Potremo quindi dire che la variabilità delle misure ripetute può risultare spiegata dalla
variazione di energia che avviene nell’intorno della misura.
Si può quindi pensare ad una funzione di perturbazione
φ = ƒ ( S, G, O, x1,….. xn) dove
- S è l’effetto dello strumento
- G è l’effetto della grandezza
- O è l’effetto dell’operatore
- X1…Xn sono gli effetti ambientali
Tale funzione lega il risultato numerico m di una misura alla grandezza, all’ambiente e alle altre
caratteristiche citate.
Di questa funzione non conosciamo la legge di variazione, possiamo solo dire che può avere un
comportamento reversibile o irreversibile.
Se la funzione assume carattere irreversibile significa che quando l’ambiente riassume le stesse
condizioni di livello energetico, il numero m risulta sempre diverso, in quanto la funzione φ non
riassume lo stesso valore perché la precedente variazione di livello energetico ha lasciato una
traccia.
In questo tipo d’interazione la variazione di m si presenta o con un salto oppure con una deriva.
Il primo effetto può essere dovuto ad un urto, il secondo ha caratteristiche di continuità e monotonia
dovute per esempio all’usura o al riscaldamento.
Per la trattazione che ci interessa ci riferiremo alla condizione seguente:

5
“STRUMENTO BUONO e φ REVERSIBILE”.
Le possibili combinazioni di livelli energetici determinano un insieme possibile di valori di m,
questo insieme lo definiremo popolazione di misure.
Considerato che non riusciamo a spiegare la funzione φ e quindi a determinare i valori di m
diremo che la prerogativa di questa popolazione sarà la casualità.
Pertanto la misura effettiva in un certo istante con un valore energetico non determinabile la
considereremo come estrazione a caso dalle misure possibili, vale a dire che la misura sarà una
variabile casuale.

La misura vera
Quanto abbiamo detto sino ad ora comporta che è impossibile attribuire alla grandezza un valore
vero, mentre si può affermare che un’operazione di misura genera una popolazione di valori
possibili.
In effetti però all’interno delle misure possibili ogni valore può essere considerato come “vero”
e viceversa nessuno può essere considerato tale.
Dobbiamo quindi inventarci un modo per definire la misura vera, e questo modo dovrà tener
conto di quanto abbiamo detto sino ad ora.
Quindi la misura vera per far parte delle misure possibili deve:
1. Essere univoca
2. Tener conto del livello energetico ambientale
3. Essere operativa
4. Congrua con la sensibilità strumentale.
La scelta più conveniente è quella di definire come misura vera quella corrispondente ad una
situazione energetica media e quindi compresa in quelle possibili.
Infatti se le misure vengono eseguite in un arco di tempo in cui l’energia varia, in maniera
sconosciuta, ma costante, l’energia corrispondente a condizioni medie sarà la più frequente, in
quanto nella variazione si passerà più volte dalle condizioni medie.
Dunque convenzionalmente definiremo misura vera il valore
Mo = ƒ(m, S°, G°, O° ……xn°)
Vale a dire il valore della misura correlata al valore medio energetico corrispondente alla
situazione spazio-tempo in cui si opera.
Quanto detto sinora consente di definire concettualmente sia il valore vero sia la classe di errori
possibili che saranno del tipo

6
δ = m – Mo

A valle del ragionamento che abbiamo fatto sin qui emergono due aspetti fondamentali e cioè:
- la misura vera esiste in quanto media delle infinite misure che si potrebbero fare di una grandezza;
- la misura vera non è definibile in quanto non è possibile eseguire infinite misure di una grandezza.
Considerando i due aspetti la conclusione è che nell’eseguire un numero finito di misure sarà
possibile definire una stima m̂ la cui qualità dovrà essere adeguata alla natura del problema cui la
misura è connessa.

L’osservazione e la stima di una grandezza


La definizione numerica di una grandezza non è esaustiva del procedimento di misura, infatti
essa ne costituisce la prima fase che prende il nome di Osservazione ed il valore ad essa
corrispondente è il valore osservato.
Per ottenere un valore osservato di una grandezza è necessario utilizzare uno strumento
specifico è con esso abbinarle un codice numerico che ne quantifica, in quel momento, l'entità.
Con riferimento alla funzione energetica si può dire che il valore osservato è correlato alla
particolare condizione che ψ assume in quell’istante.
Potremo ancora dire che di una generica grandezza θ esistono:
- il valore vero θ
- il valore teorico θ

- il valore osservato θ o
~
- il valore approssimato θ
- il valore stimato θˆ .
Per chiarite e fissare meglio le diverse nature di θ facciamo un esempio pratico e consideriamo
l’allungamento ε di un filo di sezione A, lungo l , con modulo di elasticità E, teso da un peso P:

L
Si avrà così:
ε
P
1) La vera grandezza ε dell’allungamento non è data a conoscere in quanto per definizione
essa coincide con la media delle infinite misure di ε , e noi non possiamo eseguirle.
2) Se utilizziamo il modello che la fisica propone avremo il valore teorico:

7
Pl
ε=
EA
Questo valore non è ne “certo” ne unico.
3) il valore osservato ε 0 è quel particolare valore della misura che un operatore registra in quel

particolare momento con uno strumento buono in condizioniψ reversibile.


4) il valore approssimato ε~ , non è una stima ma bensì una ragionata indicazione di larga
massima nella misura della grandezza che può anche coincidere con ε 0 ovvero derivare dal modello
fisico utilizzato:
~~
Pl ~ ~ ~ ~
ε~ = ~ ~ dove P, l, E, A sono approssimazioni
EA
5) il valore stimato εˆ è quello più vicino a quello vero ε della misura della grandezza e sarà
sempre εˆ ≠ ε .
E’ importante notare che la migliore o peggiore qualità delle osservazioni ε 0 determinerà
migliori o peggiori stime.
L'unicità della stima e la sua coincidenza con ε sarebbe difatti possibile solo se εˆ fosse il frutto
di infinite osservazioni della grandezza che analiticamente si esprime con
lim m[ε 0n ] ⇒ εˆ ⇒ ε
n →∞

In buona sostanza disponendo di un numero finito di osservazioni, con un minimo di r, il valore


che utilizzeremo sarà la stima εˆ che deriva dalle n osservazioni ε 0 .
Però al momento ci sono due problemi:
1) Non sappiamo come calcolare la εˆ ;
2) Ammesso che, in qualche modo, conosciamo εˆ , non sappiamo se si tratta di una buona stima.
I problemi nascono dalla constatazione che sino a questo momento l'unica cosa che sappiamo è
che, in condizioni di strumento buono è ψ reversibile, la n (finite) misure di una grandezza si
distribuiscono su un asse reale in modo casuale, ma di questa casualità non sappiamo ancora nulla.
Quello che ci manca è un modello matematico della distribuzione delle infinite misure di una
grandezza, modello da confrontare con i valori finiti che abbiamo registrato.
Sarà dunque necessario configurare un modello di casualità e capire se la realtà si conforma ad
esso, ma per fare questo abbiamo bisogno di parlare prima di Probabilità.

8
La Probabilità

Il concetto
La nostra mente coglie istintivamente il concetto di probabilità che trova applicazione in tutti
quei fenomeni in cui fornire una risposta deterministica, e quindi certa, risulta impossibile, mentre é
possibile ipotizzare solo un ordine di priorità di accadimento di un evento.
Nell’Ingegneria Civile lo studio delle sollecitazioni sulle costruzioni derivanti da eventi naturali
fonda sul concetto di probabilità, ad esempio:
- Qual è l'accelerazione sismica massima che probabilmente si verificherà in un arco di tempo in un
sito?
- Qual è la massima altezza di pioggia che probabilmente si verificherà in un arco di tempo in un
bacino?
- Qual è la massima altezza di un onda marina che probabilmente si verificherà in un arco di tempo
lungo la costa?
Per quanto concerne la misura di una grandezza abbiamo visto che la “verità” non si può
determinare, ma che invece si genera una popolazione di valori tra i quali sarà possibile seguire una
stima.
Nel caso delle misure la domanda quindi si pone nel modo seguente:
“In condizioni operative di strumento buono e ψ reversibile, nel misurare una grandezza qual è la
probabilità che si presenti un certo valore?”.
Anche questo caso, come negli altri, sarà possibile definire una scala di priorità attribuendo ad un
determinato evento un valore tra 0 (evento impossibile) ed 1 (evento certo).

La definizione
Essendo un concetto primitivo la probabilità sfugge ad una definizione matematica di tipo
classico ovvero frequenti stico, tant'è che la sua definizione avviene per assiomi, cioè per le verità
che “ictu oculi” possono attribuirsi al concetto che abbiamo già espresso.
Prima di passare alla definizione assiomatica della probabilità, vale la pena di citare due
tentativi ed il perché si cadano in difetto.

Metodo Classico
Fu proposto da Laplace e consiste nell’individuare le classi di simmetria di un fenomeno, ad
esempio:
Evento: lancio di due monete

9
Classi di simmetria dell'evento: TT, CT, TC, CC
Ogni classe ha il 25% di probabilità
Il metodo cade in difetto per il semplice motivo che non è sempre possibile individuare “a
priori” le classi di simmetria (fenomeni climatici, tempi di coda del semaforo, sisma, ecc. ecc.).

Metodo frequentistico
La definizione è di Von Mises:
NA
P(A) = lim dove
N →∞ N

- P(A) è la probabilità che si verifichi un evento A


- NA è il numero di volte che in N eventi si verifichi A
- N è il numero complessivo degli eventi.
Il metodo cade in difetto in quanto non si può escludere che su N prove A non si verifichi mai.

La definizione assiomatica
La definizione si basa sul soddisfacimento degli assiomi cui la probabilità deve obbedire.
Sia S un insieme di eventi (discreto o continuo) e ad ognuno di essi è possibile associare un numero
P, tra φ ed 1, nel rispetto dei seguenti assiomi.

- Non esistono valori negativi perché sarà sempre


P(A) ≥φ

- Se un evento è certo sarà


P(A) = 1
- Se un evento è impossibile sarà
P(A) = φ

- Se due o più eventi sono mutuamente esclusivi, sarà


P(AUB) = P(A) + P(B)

10
Teoremi sulla probabilità
1. Se A’ è il complemento di A sarà: A'
P(A’)=1-P(A) A

2. Se A= A1 ∪ A 2 ∪ ....A n
A1 A
e A1 , A 2 ....A n sono mutuamente esclusivi sarà: An
P(A) = P(A1 ) + P(A 2 ) + ....P(A n ) A2

In particolare se A1 , A 2 ....A n è l’intero insieme degli eventi sarà


P(A1 ) + P(A 2 ) + ....P(A n ) = 1

3. Se A e B sono eventi che presentano un’intersezione A ∩ B


avremo che A B

P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

A B
ed in generale se per A1 , A 2 , A 3 esistono le intersezioni

A1 ∩ A 2 , A1 ∩ A 3 , A 2 ∩ A 3 , A1 ∩ A 2 ∩ A 3 avremo A1
A2
P( A1 ∪ A 2 ∪ A 3 ) = P( A1 ) + P( A 2 ) + P( A 3 ) − P( A1 ∩ A 2 ) − P( A 2 ∩ A 3 )
− P(A1 ∩ A3 ) + P(A1 ∩ A 2 ∩ A3 )
A3
4. Se uno spazio di eventi contiene soltanto A1 , A 2 ....A n sarà:
P(A1 ) + P(A 2 ) + ....P(A n ) = 1
Se gli eventi sono equiprobabili sarà:
1
P(A k ) = k=(1,2..n)
n
Se A è un evento formato da h elementi semplici avremo
h
P(A) =
n
Quale che sia il modo con cui si perviene all’assegnazione di probabilità essa costituisce un
modello matematico la cui validità va verificata.

11
Esempio
Si costituisca il modello matematico dell’evento “lancio di un dado”.
Considerato che ogni faccia ha la stessa probabilità delle altre, il modello sarà:

P(A)=1/6

1 2 3 4 5 6

5. La probabilità condizionata

In alcuni casi i valori argomentali possono essere classificati con due distribuzioni di probabilità
diverse, ed in questi casi è importante vedere se tra le due distribuzioni c’è o meno una
correlazione.
Vediamo di spiegarci con un esempio.
Supponiamo che di un fabbricato che si è instabilizzato sono stati tenuti in osservazione 100 punti,
nei quali si sono misurati al tempo t1 gli spostamenti δ e rotazioni ϕ, riassunti nella tabella
seguente:

f
+ - ƒ(δ)
δ
+ 20 10 0.3
- 40 30 0.7
ƒ(ϕ) 0.6 0.4 1

Da questo set di misure posso dire che:

1) La priorità con cui si presenta

P(δ+ ϕ+) = 0.20 P(δ+) = 0.3


P(δ+ ϕ-) = 0.10 P(δ-) = 0.7
P(δ- ϕ+) = 0.4 P(ϕ+) = 0.6
P(δ- ϕ-) = 0.3 P(ϕ-) = 0.4

12
e posso anche affermare che se si è verificata una ϕ+ , la priorità con cui si presenta

δ+ = 20/60 = 1/3 = 0.333


δ- = 40/60= 2/3 = 0.666

Queste due valutazioni sono condizionate dal fatto che ho ristretto le priorità di δ a quella di ϕ
già verificatasi come positiva.

In coerenza all’esempio potremo scrivere


P (δ+ . ϕ+)
P (δ+ / ϕ+) = ------------ vale a dire
P(ϕ+ )

“La priorità con cui si può verificare uno spostamento (+) una volta che si è verificata una
rotazione (+) è data dalla priorità dell’insieme intersezione (δ+ , ϕ+) divisa per la priorità che si
verifichi una ϕ+ nell’intera popolazione infatti:

20/100
P (δ+ / ϕ+) = ------------ = 20/60 = 1/3
60/100
Domandiamoci ora se tra gli eventi riportati in tabella vi sia un legame, notiamo infatti che
correlando la qualità di uno spostamento alla qualità di una rotazione il valore cambia rispetto a
quelli presi in assoluto.
Se però

P (A/B) = P (A) vale a dire se la probabilità condizionata di A rispetto a B fosse sempre


uguale ad P (A), gli eventi A e B sarebbero indipendenti.

Supponiamo che la tabella precedente assumesse i valori seguenti:

13
f
+ - ƒ(δ)
δ
+ 0.20 0.20 0.4
- 0.30 0.30 0.6
ƒ(ϕ) 0.5 0.5 1

Avremo che P(δ+ ) = 40/100 = 0.4

P(δ+ / ϕ+)
ma anche P (δ+ / ϕ+) = ------------ = 0.2/0.5 = 0.4
P(ϕ+)
quindi il fatto che si sia verificata una ϕ+ non condiziona il risultato di δ+

il che significa che δ+ è indipendente da ϕ+

6. La probabilità composta

Si definisce probabilità composta quella dell’evento che contemporaneamente appartiene a due


insiemi:

δ+ ϕ+ probabilità composta P(δ+ ϕ+)

Nel caso in cui gli eventi sono indipendenti

Sarà P(δ+ ϕ+) = P(δ+) x P(ϕ+)

Come è facile dimostrare, infatti se:

P(δ+ ϕ+)
P(δ+ / ϕ+) = --------------- = P(δ+)
P(ϕ+)

P (δ+ ϕ+) = P(δ+) x P(ϕ+)

14
Teoremi sulla probabilità condizionata
Abbiamo visto che per due eventi A e B, la probabilità che si verifichi A una volta che B si è già
verificato vale:
P(AB)
P(A / B) =
P(B)
che può anche essere scritta come
P(A ∩ B) = P(B) ⋅ P(A / B)
la cui lettura è la seguente:
“La probabilità congiunta di due eventi A e B è data dal prodotto della probabilità dell’evento
B per la probabilità che si verifichi A una volta che si è già verificato B.
(Ovviamente vale anche P(A ∩ B) = P(A) ⋅ P(B / A) )
1. Se consideriamo tre eventi qualunque A1 , A 2 , A 3 sarà:

P(A1 ∩ A 2 ∩ A 3 ) = P(A1 ) ⋅ P(A 2 / A1 ) ⋅ P(A 3 / A 2 A1 ) cioè

“la probabilità che si verifichino i tre eventi A1 , A 2 , A 3 è data dalla probabilità che P(A1)
moltiplicata per la probabilità che si presenti A2 una volta che si è verificato A1, moltiplicata per la
probabilità che si verifichi A3 una volta che A1 e A2 si sono già verificati”.

Eventi indipendenti
Se
P(AB)
P(A / B) = = P( A)
P(B)
Significa che il verificarsi dell’evento A non è condizionato da B ed in particolare che
P(AB) = P(A) ⋅ P(B)
in questo caso gli eventi A e B sono indipendenti.

Abbiamo visto che


P(AB)
P(A / B) = ⇒ P(AB) = P(B) ⋅ P(A / B)
P(B)
Ore se l’evento A seguirà certamente l’evento B ovvero all’evento C, avremo
P(A) = P(AB) + P(AC) e ancora
P(A) = P(B) ⋅ P(A / B) + P(C) ⋅ P(A / C)
In generale se A segue certamente uno degli eventi A1 , A 2 ....A n sarà
P(A) = P(A1 ) ⋅ P(A / A1 ) + P(A 2 ) ⋅ P(A / A 2 ) + ....P(A n ) ⋅ P(A / A n )

15
Esempio
L’urna I contiene 3 palline rosse e 2 azzurre, mente l’urna II contiene 2 rosse e 8 azzurre.

R R R R R

A A A A
A A
A A A A

URNA I URNA II

Si lanci una moneta e se si ha testa si estrae dalla i, se croce dalla II, si vuole conoscere la
probabilità di estrarre una pallina rossa:
Sia R l’evento “pallina rossa” che comunque segue o l’evento A1 (urna I) o l’evento A2 (urna II)
avremo:
3 2 2
P(R ) = P(A1 ) ⋅ P(R / A1 ) + P(A 2 ) ⋅ P(R / A 2 ) = 0,5 ⋅ + 0,5 ⋅ =
5 10 5

Teorema di Bayes
Se A è un evento che comunque consegue al verificarsi di uno degli eventi A1 , A 2 ....A n abbiamo
visto che la sua probabilità è data da:
P(A) = P(A1 ) ⋅ P(A / A1 ) + P(A 2 ) ⋅ P(A / A 2 ) + ....P(A n ) ⋅ P(A / A n )
n
= ∑ P(A k ) ⋅ P(A / A k )
k =1

Vogliamo ora conoscere la probabilità che l’evento Ak ha di determinare A cioè P(Ak/A).


Essendo:
P(A k A) P(A k ) ⋅ P(A / A k )
P(A k / A) = ⇒
P(A) n
∑ P(A k ) ⋅ P(A / A k )
k =1

Come applicazione vediamo che la determinare qual è la probabilità che la pallina rossa provenga
dall’urna I cioè la P(I/R).
Applicando la formula di Bayes avremo:

16
3
0,5 ⋅
P ( I) ⋅ P ( I / R ) 5 3
P(I / R ) = = =
P(I) ⋅ P(R / I) + P(II) ⋅ P(R / II) 3 2 4
0,5 ⋅ + 0,5 ⋅
5 10
In buona sostanza questo significa che se la pallina estratta è rossa c’è il 75% di probabilità che
provenga dall’urna I ed il 25% che provenga dalla II.

17
La funzione densità e la funzione distribuzione
Un evento aleatorio di cui si conosce l’evoluzione complessiva può essere riassunto dalla funzione
densità di probabilità cha alla domanda
fx

“Qual è la probabilità che l’evento cada in dx?”


fornisce la risposta
P( x ∈ dx ) = dP = f x dx

-a dx b
Rispettando gli assiomi, infatti:
- P( x < −a oppure x > b) = 0 fuori dall’intervallo − a < x < b l’evento non si può verificare
- Che l’evento si verifichi in − a < x < b è certo quindi
b
P= ∫ f x dx = 1
−a

- I valori di P sono sempre positivi


- Eventi mutuamente esclusivi determinano
P( x 1 ∈ dx 1 oppure x 2 ∈ dx 2 ) = f x1dx 1 + f x 2 dx 2

Se integro la y= f(x) in un intervallo (a,∈)

ε
ottengo F= ∫a
f (x)dx

La F prende il nome di distribuzione di probabilità e risponde alla domanda “Qual è la probabilità


che si verifichi un evento tra a ed ∈” (fig. n.2)

18
Questa probabilità è rappresentata dall’area tratteggiata

E’ evidente che

b
F(x) = ∫
a
f ( x)dx = 1

fuori dall’intervallo sarà

F(x) = φ

Pertanto mentre la densità di probabilità è riferita ad un punto sull’asse reale x, la funzione


distribuzione presume un intervallo.
E’ bene soffermarsi sulla differenza tra funzione densità ( f x ) discrete e continue che consiste nel

fatto che nelle prime la probabilità P(x) di un evento coincide con la f x , mentre nelle seconde la

P(x) è riferita ad un intervallo ∆x.


Consideriamo dapprima la probabilità che descrive l’evento “lancio di un dado”, rappresentabile
come nel grafico di figura

19
la probabilità che si presenti una delle facce è data da:
P(x)= f x =1/6
la funzione distribuzione assume la forma:

che va letta nel modo seguente:


- E’ impossibile che non si presenti una faccia P(φ)=φ
- La probabilità che si presenti una faccia tra 1 ed n è data da P(1 ÷ n ) = n ⋅ f x

- E’ certo che si presenterà una faccia tra 1 e 6 pertanto P(1 ÷ 6 ) = 1


E’ importante notare che la probabilità del’evento è associata al fatto che esso coincide con un
numero ben definito sull’intervallo.

Consideriamo ora la seguente funzione


(
y = 2 x2 +1 ) 0≤ x≤2
Se vogliamo che la y sia una densità di probabilità f x , dovrà essere certo che l’evento avvenga
nell’intervallo pertanto:
2
P( x) = ∫ f x dx = 1
0

Dovremo calcolare una costante C che trasformi la y in f x :


2
2
⎡x3 ⎤
( ) ⎡8 ⎤ 28
P( x) = 2 ⋅ C ∫ x + 1 dx = 2 ⋅ C ⎢ + x ⎥ =2 ⋅ C ⎢ + 2⎥ =
2
⋅C =1⇒ C =
3
0 ⎣3 ⎦0 ⎣3 ⎦ 3 28

20
Avremo così che la

fx =
3 2
14
(
x +1 ) 0≤ x≤2

È una funzione densità di probabilità.


Pertanto la probabilità che l’evento cada in un intervallo infinitesimo è:

P( x ∈ dx) = dP = f x dx

Ne consegue che la probabilità che l’evento sia x ≡ x1 non può esistere in quanto dx = φ .
In conclusione mentre per f x discreta la v.c. può assumere un valore specifico e la probabilità
coincide con la densità, di contro la v.c. continua, essendo definita come un’area, non può assumere
un particolare valore ma necessità di un intervallo attorno ad esso.

La misura: la realtà ed il modello


Nel misurare una grandezza ciò che potremo ottenere sarà una stima θˆ derivante da un numero
finito di osservazioni θ 0 , per sapere se θˆ è una buona stima dovremo confrontarla con il modello
che riteniamo più opportuno, in buona sostanza dovremo confrontare la v.s. misura con la sua v.c.
Cominciamo a vedere come si rappresenta una v.s. misura e supponiamo che di una grandezza
abbiamo registrato 100 valori x riassunti nella seguente tabella

VALORI X1 X2 X3 X4 X5

NUMEROSITA’ 10 20 15 20 35

FREQUENZE
Ni/N
0,1 0,2 0,15 0,2 0,35 ∑ fi = 1

Costruiamo sull’asse reale l’istogramma delle 100 misure, riportando sull’asse reale x i valori xi e
per ognuno di essi un rettangolo la cui area rappresenti un rettangolo la cui area rappresenti la
numerosità Ni:

10 20 15 20 35

X1 X2 X3 X4 X5 Xi
21
Questo grafico da già un’idea di come, casualmente si distribuiscono 100 possibili valori della
grandezza, chiarendo sin d’ora che altre 100 registrazioni si distribuirebbero in modo diverso.
Il grafico che abbiamo rappresentato può essere riassunto dai momenti della distribuzione
Ni
m k = ∑ x ik = ∑ x ik f i
N
Tra questi il momento di 1° grado assume particolare importanza e viene definito media:
m1 = ∑ x i f i

Il momento di 2° grado viene definito quadratico medio

m 2 = ∑ x i2 f i

E’ inoltre importante notare che la variabile scarto


ν i = xi − m
che ha la stessa distribuzione delle xi,con un istogramma che viene, però, riferito al valore m.
Un altro parametro significativo della distribuzione è il momento centrale di 2° grado riferito alla
media e che prende il nome di varianza:

σ 2 ( x ) = ∑ ( x − m) 2 f i = ∑ν i2 f i
Se sviluppiamo questa espressione avremo:

σ 2 ( x ) = ∑ x 2 f i − 2∑ x i mf i + m 2 = ∑ x i2 f i − 2m 2 + m 2 da cui

σ x2 = m 2 ( x ) − m i2
Si definisce scarto quadratico medio il valore

σ x = ± σ x2

Mentre la media m da un’idea di dove si concentra la popolazione, la varianza σ x2 riassume la


dispersione attorno ad m.
L’analogia meccanica rende subito il concetto, infatti se le xi fossero masse, il valore medio sarebbe
il baricentro e la varianza il momento d’inerzia rispetto all’asse normale a quello reale e passante
per m.

Teorema di Tchebycheff

Quale che sia la forma di una distribuzione di una v.c., la quasi totalità dei suoi valori argomentali
cade tra

22
- 3 σx ≤ x ≤ 3 σx
Infatti se consideriamo l’espressione della varianza

σ 2 = ∑ ( xi − µx) 2 ⋅ fi = ∑υ i2 ⋅ fi

σ 2 = υ12 ⋅ f1 + υ 22 ⋅ f 2 + υ 32 ⋅ f 3 .......υ n2 ⋅ f n

in cui νi è lo scarto iesimo.


Supponiamo di fissare un valore νm dello scarto, al disotto del quale gli scarti siano nulli e al di
sopra siano tutti uguali a νm.

ν1 ν2 ν3 ........ νn

φ φ φ νm νm νm

σ 2 = ∑υ i2 ⋅ f i > υ m2 ⋅ ( f m + f m +1 ..... ⋅ f n

ψ è la somma delle frequenze degli scarti superiori a νm, pertanto la somma delle frequenze ƒ
degli scarti inferiori a νm sarà:

ƒ=1-ψ ψ=1-ƒ
σ2
σ ≥ υ ⋅ψ = υ ⋅ (1 − f )
2 2 2
⇒ 1- f ≤ 2
υm
m m

e quindi
σ2
f > 1− 2
υm

σ2
il che significa che la frequenza degli scarti inferiori a νm è maggiore di 1 −
υ m2

23
Poniamo ora
νm = λ ⋅ σ
avremo

σ2 1
f > 1− = 1− 2
λ ⋅σ
2 2
λ

che è la disuguaglianza di Tchebycheff


(λ>1)
se poniamo Vm = 2 σx

avremo
1
f > 1− = 0.75
4

se poniamo Vm = 3 σx

avremo
1
f > 1− ≅ 90%
9

Riassumendo quanto abbiamo detto sino ad ora potremo dire che effettuate n (finite) misure la
media m = ∑ x i f i è il valore attorno a cui si concentrano le misure ognuna con uno scarto ν i .

Potremo inoltre affermare che ogni singola misura scarta mediamente con un valore pari allo s.q.m.
± σ , ed inoltre (per il teorema di Tchebycheff) che queste misure appartengono tute ad una
popolazione contenuta in un intervallo ± 3σ .

24
Esempio
Di una distanza AB sono state eseguite le seguenti 10 misure, la cui elaborazione è riassunta nella
tabella:

ABm m ν ν2 σ2 ±σ ± 3σ

10,20 -0,002 4 ⋅ 10−6

10,21 +0,008 64 ⋅ 10−6

10,20 -0,002 4 ⋅ 10−6

10,22 +0,018 324 ⋅ 10−6

10,18 10,202 -0,022 484 ⋅ 10−6 276 ⋅ 10−6 ± 0,016 ± 0,049

10,19 -0,012 144 ⋅10−6

10,19 -0,012 144 ⋅10−6

10,24 +0,038 1444 ⋅10−6

10,19 -0,012 144 ⋅10−6

10,20 -0,002 4 ⋅ 10−6

∑ν = 0 ∑ν 2 = 2760 ⋅10−6

Considerato che le misure hanno come ultima cifra significativa il cm, è inutile tenere conto dei mm
pertanto avremo che:
- la media vale m=10,20 m
- lo s.q.m. vale σ = ±0,01 m
- tutte le misure saranno tra (10,20 − 0,05) m e (10,20 + 0,05)m

25
Supponiamo ora che le misure vengano eseguite con uno strumento che consente la lettura del mm,
avremo così:

ABm m ν ν2 σ2 ±σ ± 3σ

10,203 -0,0031 9,610 ⋅10−6

10,212 +0,0059 3,481 ⋅10−5

10,203 -0,0031 9,610 ⋅10−6

10,225 +0,0189 3,572 ⋅10−4

10,187 10,2061 -0,0191 3,648 ⋅10−4 2,517 ⋅ 104 ± 1,586 ⋅ 10−2 ± 0,047

10,195 -0,0111 1,232 ⋅10−4

10,195 -0,0111 1,232 ⋅10−4

10,243 +0,0369 1,362 ⋅10−3

10,195 -0,0111 1,232 ⋅10−4

10,203 -0,0031 9,610 ⋅10−6

∑ν = 0 ∑ν 2 = 5,034 ⋅10−3

- la media vale m=10,206 m


- lo s.q.m. vale σ = ±0,016 m
- tutte le misure saranno tra (10,206 − 0,047) m e (10,206 + 0,047)m

Abbiamo sin qui visto che, quale che sia la grandezza, osservarla significa utilizzare uno strumento
specifico e con esso abbinarle un codice numerico che in quel momento ed in quelle condizioni ne
quantifica l’entità.
La registrazione di questa realtà genera una variabile statistica i cui parametri significativi sono

momenti ed in particolare media m e varianza σ 2 .


Se le misure effettuate fossero infinite la loro media e la loro varianza sarebbero quelle vere, valori
che invece non possiamo ottenere, se però si potesse costruire il modello teorico della distribuzione
delle misure fatte, il discorso cambierebbe notevolmente perché si potrebbe vedere come e se le
misure fatte appartengano al modello.

26
Si tratterà quindi di trovare la variabile casuale (v.c.) “misura” con cui confrontare la corrispondente
variabile statistica.

La variabile casuale ad una dimensione


Un fenomeno aleatorio è definito quando è nota la sua funzione distribuzione di probabilità che in
questo caso prende il nome di variabile casuale e risulta formalmente identica alla variabile
statistica con la differenza che ad ogni valore argomentale in luogo delle frequenze si associa invece
una probabilità:
x 1 x 2 ......x n

P1 P2 ......Pn con ∑ Pi = 1
Le probabilità associate coincidono con le frequenze relative quando il numero degli eventi tende
all’infinito.
E’ importante precisare che la v.c. è un ente di ragione in quanto se pur definito non potrà mai
essere realizzato nella pratica ed invece trova un unico fondamento nella teoria pura del calcolo
delle probabilità.
In questo contesto diremo che la v.c. monodimensionale è una funzione distribuzione di probabilità
sulla retta reale:
v.c.( x 0 ) = P( x 0 ∈ I 0 )

I0

a X1 X0 X2 b
La funzione F(xi) gode sempre delle proprietà:
1) F(x0) è sempre definita in (a,b) e vale 0< F(x0)<1
2) F( x 0 ) = 0
lim x →-∞

3) F( x 0 ) = 1
lim x → ∞

4) F(x2)> F(x1) se x2>x1

Esempio

27
v.c. = lancio di una moneta
Eventi: Testa o Croce P

Funzione densità
1/2 1/2
T
x
C

Funzione distribuzione
F(x)

1
1/2
T C
x
Esempio
v.c. = lancio di due monete
Eventi: TT, TC, CT, CC
Probabilità ¼ ¼ ¼ ¼

Funzione densità P

1/4 1/4 1/4 1/4


TT TC CT CC
x

Funzione distribuzione
F(x) 1
3/4
1/2
1/4
TT TC CT CC
x

28
Esempio
v.c. = lancio di un dado
Eventi: 1 2 3 4 5 6
Probabilità 1/6 1/6 1/6 1/6 1/6 1/6

Funzione densità
1/6 1/6 1/6 1/6 1/6 1/6
x
1 2 3 4 5 6

Funzione distribuzione
F(x) 1
5/6
4/6
3/6
1/6 2/6
x
1 2 3 4 5 6

Esempio
⎧⎪cx 2 0 < x < 3
La v.c. è definita da f x = ⎨
⎪⎩ 0 altrimenti

Si tratta di v.c. continua.

1) Calcolare il valore c affinché la fx sia una densità.


3
Dovrà essere P( x ) = ∫ cx 2 = 1 pertanto:
0
3
⎡ x3 ⎤ 27
1 = ⎢c ⎥ = c = c ⋅ 9 ⇒ c = 1 / 9 avremo così
⎢⎣ 3 ⎥⎦ 0 3

x2
fx =
9
2) Calcolare la probabilità che 2<x<3.
3 3
x2 ⎡x3 ⎤ ⎡ 27 8 ⎤ 19
P(2 < x < 3) = ∫ =⎢ ⎥ =⎢ − ⎥= = 70%
9 ⎣⎢ 27 ⎥⎦ ⎣ 27 27 ⎦ 27
2 2

29
3) La funzione distribuzione Fx sarà F(x)
0 x<0

x3
Fx = 0<x<3 1
27
8/27
1 x>3 1/27
1 2 3
x

Il modello delle misure


La costruzione di un modello delle misure richiede:
1) la rispondenza empirica: questo significa che in condizioni di “strumento Buono e φ
reversibile” le buone misure siano più numerose delle meno buone, il che significa che i
valori tenderanno a concentrarsi attorono al valore più attendibile.
2) La corretta definizione analitica: vale a dire che il modello sarà rappresentato da un
funzionale introducendo nel quale i parametri significativi fornisce una risposta
teoricamente corretta, aderente quindi al risultato empirico, ove di questo si potessero
determinare tutti i valori possibili.
3) Definizione di un intervallo di esistenza: è l’intervallo in cui possono essere compresi tutti
gli eventi nel caso delle misure l’intervallo è infinito; in quanto infinite sono le misure che si
possono operare su una grandezza.
4) Capacità di rappresentare gli eventi: se con x indichiamo gli eventi, il modello deve fornire
la numerosità teorica del generico evento xi ed inoltre deve dare indicazioni sull’evento più
attendibile (coincidente nel modello con la misura vera) che chiameremo µ.
Sappiamo già che µ è il valore della misura ottenuto teoricamente in condizione media della
funzione φ, ma questo ancora non è sufficiente per definire numericamente il parametro µ, infatti di
medie ne possiamo costruire diverse (aritmetica, geometrica, quadratica….) ma vedremo nel seguito
che quella aritmetica è la migliore in quanto fornisce il baricentro della popolazione di misure.
Dal parametro µ è possibile derivare un’altra indicazione rappresentata da

νi = x i − µ νi

µ xi

30
che prende il nome di scarto e che indica lo scostamento tra la generica osservazione ed il valore µ,
e più è piccolo lo scarto e migliore sarà l’osservazione di misure con scarti piccoli è molto
concentrata attorno a µ mentre scarti grandi denunciano una dispersione maggiore.
La maggiore o minore dispersione comporta maggiore o minore bontà del sistema di misure e di ciò
si terrà conto attraverso un parametro chiamato varianza e indicato con σ2, la cui costruzione
analitica è quella di un momento d’inerzia.
A questo punto se volessi impostare schematicamente un modello delle misure potrei riferirmi al
grafico che segue:

-∞ µ +∞

In effetti se si eseguono numerose misure di una grandezza e si costruisce la v.s. si otterrà il grafico
seguente:

dove m è la media aritmetica della v.s., i rettangoli rappresentano con la loro area la numerosità
degli scarti νi.
Se aumentiamo indefinitamente la numerosità delle misure vedremo che l’istogramma tende alla
curva tratteggiata la cui equazione è

31
1 ⎡ (x − µ ) ⎤
fx = exp ⎢− i ⎥
2π ⋅ σ ⎣ 2σ 2 ⎦

che si chiama curva di Gauss o Normale, e che costituisce la v.c. (modello) con cui confrontare la
v.s. (realtà).
Un ragionamento pressoché analogo porta ad utilizzare la curva χ2 come modello per la
distribuzione degli scarti e quindi per le necessarie valutazioni sulla varianza σ2.
In conclusione una volta eseguite le misure è necessario verificare se sono state mantenute le
premesse, vale a dire se quelle misure rispondono in qualità al problema che le ha generate.
In questo contesto la Normale e la χ2 costituiscono i modelli con cui si analizzano misure e scarti ed
in particolare se le v.s. (misure, scarti) rispettano l’ipotesi a priori contenuta nella v.c.

Confronto tra v.s. e v.c.

Il confronto tra v.c. e v.s. costituisce la base del trattamento dei dati, questo confronto potrebbe
avvenire attraverso una sovrapposizione degli istogrammi che descrivono la v.s. con le curve che
definiscono la v.c.

Ma in effetti si preferisce ricorrere al confronto attraverso i parametri statistici, che nel caso delle
misure si limitano ad essere la media e la varianza. Infatti per le nostre applicazioni quello che conta
sapere è dove si concentra la distribuzione e quale sia la dispersione attorno al punto di massima
concentrazione.

32
La Media

Questo parametro fornisce il valore attorno a cui si concentra la distribuzione della popolazione,
traslando il concetto in termini meccanici potremo dire che la media è il baricentro della
popolazione, conseguentemente la sua espressione è data da:

M(x) = ∫ x ƒ(x) dx (caso continuo) M(x) = 1/n ⋅ ∑xi (caso discreto)

Volendo differenziare il caso in cui si tratta di v.c. o v.s., scriveremo


- µ(x) che indica una media per v.c.
- m(x) che indica una media per v.s.
- M[.] è l’operatore di media.
Esempio
Sia data la funzione densità in figura

ƒx = ½x o≤ x ≥ 2

φ altrimenti

a) Vogliamo verificare se ƒx è una funzione densità di probabilità, se è vero, dovrà essere

∫f
0
( x) dx = 1

sostituendo il valore di ƒx avremo

33
2


0
1
2 x dx = [ 1 4 x 2 ]02 = 1

quindi ƒ(x) è una funzione densità di probabilità

b) Calcoliamo la media

2 2
µ x = ∫ x f (x) dx = ∫ x 1 2 x dx = ∫ 1 2 x 2 dx = [x 3 / 6]02 = 4 / 3
0 0

In effetti se ci riferiamo alla media come valore baricentrico si ha che su x risulterà

x = 2/3 ⋅ 2 = 4/3

Possiamo fare ancora un’altra verifica, considerando la mediana C1 che ha equazione

x–1 y-φ
-------- = ---------- y=x-1
2–1 1-φ

Se intersechiamo la C1 con la retta x =4/3 avremo:

y = 4/3 – 1 = 1/3

che è proprio l’ordinata del baricentro.

Proprietà della media

Cosa ci interessa sapere sulla media?

1) Se la distribuzione è simmetrica qual è il valore della media ?

ƒ(c+h) = ƒ(c-h)

34
∞ ∞ ∞ ∞
µ x = ∫ (c + h ) ⋅ f (c + h ) = ∫ c ⋅ f ( c + h ) + ∫ h ⋅ f (c + h ) = c ∫ f ( c + h ) + φ = c
∞ -∞ −∞ -∞

2) Se tra le due v.c. y ed x esiste un legame lineare, la media lo rispetta infatti

y = ax + b
M[y] = a M[x] + M[b] = a M[x] + b

Consideriamo la particolare variabile scarto definita da

ν = x - µx
la media sarà
M[ν] = M[x] – M[µx] = µx - µx = φ

Variabile casuale funzione di un’altra

Tra le variabili casuali x e y esiste il seguente legame funzionale

Y = g (x)

Si vuole calcolare la ƒy conoscendo la ƒx

35
La funzione g(x) è definita nell’insieme Sx e trasforma δx nella corrispondente immagine Sy.
Se Ay è un sottoinsieme (intervallo) di δy, esisterà un sottoinsieme Ax tale che

g(Ax) = Ay

Si pone per definizione che

P(y ∈ Ay) = P(x ∈ Ax)


Ad esempio se

Ay = c ≤ y ≤ d ⇒ Ax = x 1 ≤ x ≤ x 2 e x3 ≤ x ≤ x4

Se passiamo ad intervalli infinitesimi avremo che all’intervallo ay = dy (yo) corrisponderanno


ax = ki dx (xi) i = 1, 2, 3…….
È sarà
P(y ∈ dyo) = ∑P (x ∈ dxi)

Sappiamo che per una variabile casuale i valori di P (probabilità) ed f (densità) sono numeri
positivi al più nulli, pertanto si avrà:

P( x ∈ dx) = fx dx

dove con | dx | si indica il valore assoluto dell’intervallo dx.

Avremo così:

P ( y ∈ dy) P ( x ∈ dxi) P (x ∈ dxi) 1


=∑ =∑ ⋅
| dy | | dy | | dx | dy
dx

sarà così
fx
fy = ∑ ove x = g −1 ( y )
g '⋅( x)

36
Esempio

fx La distribuzione della x è quella in figura con


ƒx=1/2 e µx = 1

1/2
0 2 x

Tra y e x esiste la seguente relazione


y=x+5 (5 ≤ y ≤ 7)

pertanto, applicando la relazione precedente,

1
fx
fy = = 2 = 1/ 2
g '⋅( x) 1

Avremo così
fy
1/2

5 7 y

7
y y 2 49 − 25
µy = ∫ ⋅ dy = = =6
5
2 4 4

come del resto era prevedibile essendo la media un operatore lineare

µy = µx + b = 1 + 5 = 6

37
Esempio

fx

1
2 x

y=x+5

2
fx 1 x x2 x3 4
= fx = µx = ∫ = = = 1,33
x 2 2 0
2 6 3

x
y −5
fy = 2 = ; (5 ≤ y ≤ 7)
1 2

7 7
y −5 y2 5y
µy = ∫ y ⋅ ⋅ dy = ∫( − ) ⋅ dy = 6,33
5
2 5
2 2

Esempio

fx

2/π
0 π/2 x

y = sen x y’ = cos x

cos x = 1 − sen 2 x = 1- y2

fx = 2/π
µx = π/4

38
2
fy =
fx
= π (0 ≤ y ≤ 1)
| g' x | 1- y2

fy

2/π

0 µ(y) 1

Vediamo intanto se ƒy è una funzione densità:

2 π
1 1
2 1 2

0
fy dy = ∫π ⋅
0 1− y2
= [ ⋅ arc sen y ]10 = = ⋅ [ − 0] = 1
π π 2

Calcoliamo la media di y:
1
2 1 2
µy = ∫ ⋅ y⋅ = ⋅ [− 1 − y 2 ]10 =
0
π 1− y 2 π

2 2
µy = ⋅ [φ + 1] = = 0.636
π π

Esempio
fx

4/π y = sen x
fx y’ = cos x
0 x π/2 x µx =2/3 ⋅ π/2 = 60°
4
fx π 8
= fx = ⋅x
x π π2
2
8 8
⋅x ⋅ arc seny
fy = π π2
2
=
g ' ( x) 1− y2

39
Vediamo se la ƒy è una funzione di densità:

1 1
8 arc seny

0
fy dy = ∫π
0
2

1- y2
⋅ dy

arc seny
∫ 1- y2
⋅ dy è del tipo ∫ u dv = u ⋅ v - ∫ v du
1
in quanto è il differenziale di arc sen y, si ha così
1− y2

arc seny arc seny


∫ 1- y 2
⋅ dy = arc seny ⋅ arc seny - ∫
1- y2
⋅ dy

da cui si ottiene che

arc seny arc seny 1


2∫ = (arc seny) 2 ⇒ ∫ = (arc seny) 2
1- y2 1- y2 2

Pertanto

4 π2
1
8 1
∫ fy ⋅ dy = ⋅ ⋅ = ⋅[ −φ] = 1
2 1
[( arcseny ) ] 0
0 π2 2 π2 4

La ƒy è una funzione densità.


Calcoliamo la media di y:

1
8 arcsen y
µy = ⋅∫ y⋅ ⋅ dy
π 2
0 1− y2

y
essendo = d (− 1 − y 2 ) avremo
1− y 2

∫ u dv = u ⋅ v - ∫ r ⋅ du pertanto

40
1
arcsen y
1
(− 1 − y 2 )
∫ y⋅
0 1− y2
⋅ dy = [arcsen y ⋅ (− 1 − y 2 )]10 − ∫
0 1− y2
⋅ dy

8
µy = ⋅ [− 1 − y 2 ⋅ arcsen y + y ]10 =
π 2

8 8
⋅ [φ + 1 + 1 ⋅ φ + φ ] = = 0.811
π 2
π2

Dimostriamo ora l’importante teorema della media:

Se due variabili casuali x e y sono legate dalla relazione y =g(x) avremo:

µy = M [ y ] = M[g(x)]
Infatti se y = g(x) è funzione monotona crescente avremo g’(x) > φ e
fx
fy = con x = g-1(y)
g ' ( x)

∞ ∞
fx
M [ y] = ∫ y f(y) dy = ∫ y ⋅
−∞ -∞
dy
dy =

dx


= ∫ g(x) f x dx
-∞

= M[g(x)]

Esempio:

2 /π φ ≤ x ≤π /2
fx =
φ x < φ x > π /2

Abbiamo già visto che se y= senx la µy = 2/π.


Calcoliamo questa media utilizzando il teorema della media

41
π /2 π /2
2 2 2
µ y = M[gx ] = ∫ g(x ) fx dx = ∫ senx ⋅ ⋅ dx = ⋅ [− cos x ]φπ / 2 =
π π π
φ φ

Se la v.c. x è molto concentrata ed in un intorno è possibile che

g(x) = g(µx) + (x - µx) ⋅ g’(µx)

potremo scrivere

µy = ∫ [g(µx) + (x - µx) ⋅ g’(µx)] ⋅ ƒx dx

µy = ∫ g(µx) ⋅ ƒx dx + ∫ (x - µx) ⋅ g’(µx)⋅ ƒx ⋅ dx =

= g(µx) ∫ ƒx dx + g’(µx) ∫ (x - µx) ⋅ ƒx ⋅ dx = g(µx)

In quanto il secondo termine è una media di scarti.


L’ipotesi di concentrazione della variabile è fondamentale, in quanto diversamente
µ(y) ≠ g (µx)
Facciamo un esempio semplice, considerando che sull’asse x la variabile possa assumere i valori
riportati in figura

1 2 3 4 5 6 7 8 9 10

e che sia y = x2 il legame funzionale;

la media dei valori sull’asse x vale

µx = 5.5 e se fosse vero che

42
µ(y) = g(µx) avremo

µ(y) = 5.52 = 30.25

Se facciamo la media dei quadrati riportati sull’asse otterremo


µ(y) = 38.5 che è diversa da g(Mx)
proprio perché la distribuzione non è concentrata
Viceversa consideriamo la distribuzione

1 1.1 1.2 1.3 1.4 1.5

che è una distribuzione abbastanza concentrata la cui media vale µx = 1.25

Se il legame è sempre del tipo y=x 2 avremo:

1 1.21 1.44 1.69 1.96 2.25

la cui media vale µy = 1.59; M[µx2] = M[1.252] = 1.56

La Varianza

Se consideriamo le due popolazioni in figura, ci rendiamo conto che pur avendo la stessa media µx,
sono distribuite in maniera diversa, ed in particolare la distribuzione (1) è molto più concentrata
della (2).

La concentrazione attorno al valore medio è un parametro statisticamente importante in quanto


segnala, nel caso di una popolazione di misure, maggiore o minore incertezza.
43
Questo parametro prende il nome di Varianza ed è definita da:

σ2 = ∫ (x - µx)2 ƒ(x)dx (caso continuo)

σ2 = 1/n ∑ni=1 (x-µx)2 (caso discreto)

Nel caso in cui tra due v.c. y ed x esiste una relazione del tipo
y = g(x)
con g(x) funzione qualunque avremo:

σ2 (y)= [g’(x)]2 σ2x infatti

σ2 (y) = ∫ (y-µy)2 ƒ(y)dy = ∫ [g(x) – µy]2 ƒ(x)dx

ma nell’ipotesi che la v.c. x sia concentrata attorno alla media µx e che g(x) sia regolare in questo
intorno, sarà:
g(x) = g(µx) + g’(µx) (x- µx) quindi

σ2 (y) = ∫ [g(µx) + g’(µx) (x-µy) - µy]2 ƒ(x) dx

ma essendo g(µx) = µy avremo

σ2 (y) = ∫ [g’(µx)]2 ⋅ (x-µx)2 ƒx dx = g’(µx)2 σ2x

il Valore ± √σ2 prende il nome di scarto quadratico medio (s.q.m.) ed ha il significato dello scarto
mediamente attribuibile ad ogni valore della popolazione.
Il termine Error medio della media (E.m.m.) è invece lo scarto attribuibile a µx e vale

σm = σ2 / √n
infatti
x1 x 2 x
mx = + + ....... n
n n n

44
pertanto

2 2 2
⎛σ1 ⎞ ⎛σ 2 ⎞ ⎛σ ⎞
σ 2 ( m) = ⎜ ⎟ + ⎜ ⎟ .......⎜ n ⎟
⎝ n ⎠ ⎝ n ⎠ ⎝ n ⎠

Le σi provenendo dalla stessa popolazione saranno tutte uguali, sarà così

n σ2
σ 2 ( m) = ⋅ σ 2
= c.v.d.
n2 n

Definizione di una variabile standardizzata

Si definisce standardizzata una variabile del tipo z = [x – µ(x)] / σ


Questa variabile ha le seguenti proprietà:

M (z) = φ σ2 (z) = 1

Infatti
x – µ(x) M(x – µx)
M(z) = M ------------------ = -------------- = φ
σ σ

(x – µx)2
σ2(z) = M [---------------] = σ2 / σ2 = 1
σ2

45
LA CURVA DI GAUSS

Abbiamo già visto che la variabilità delle misure può essere espressa da un funzionale del tipo
φ = ƒ (G, O, S, x1, x2,……..xn)
dove
- G è l’effetto indotto dalla Grandezza
- O è l’effetto indotto dall’Operatore
- S è l’effetto indotto dallo Strumento
- x1, x2,…xn) sono i parametri ambientali

Constatato il nesso statistico tra vera grandezza e misura di essa, è logico giungere alla conclusione
che la misura è definita quando è conosciuta la popolazione delle misure possibili, in questo
contesto il risultato di una singola misura è un evento aleatorio configurabile come estrazione a caso
dalla popolazione delle misure possibili.
A questo punto è necessario risolvere due problemi ed in particolare:
- Considerato che nella fluttuazione accidentale c’è una stabilità statistica è necessario scegliere
un modello matematico che la caratterizzi adeguatamente.
- Il modello matematico è definito da parametri, (µ e σ2 per es.) sussiste quindi la necessità di
definire i parametri sulla scorta di un numero finito di misure (Problema di Stima).
Alla scelta della Curva di Gauss

1 ⎡ (x − µ )2 ⎤
= ⋅ exp ⎢−
2σ 2 ⎥⎦
f ( x)
2π ⋅ σ ⎣

si arriva sia per via sperimentale, che per via teorica.


Numerosi esperimenti di misure di grandezze portano a istogrammi come quelli del tipo in figura

46
E facile notare la buona qualità dell’adattamento della gaussiana all’istogramma.
Dal punto di vista teorico il Teorema fondamentale di convergenza stocastica che recita:
“Sia | xi | una successione di variabili indipendenti tutte con la stessa distribuzione e con

M [xi] = µx
σ2 (xi) = σ2

allora la successione Sn = ∑xi tende asintoticamente in legge alla normale

Sn ∼ N [nµ, nσ2]

L’importanza di questo teorema sta nella possibile interpretazione che se ne può dare, infatti
abbiamo già detto che gli errori accidentali di misura dipendono da una serie di fattori ambientali,
strumentali e soggettivi, ciascuno di essi assolutamente ininfluente e non correlata con le altre.
Ognuna di queste cause può essere intesa come una v.c. indipendente dalle altre, la successione

Si = ∑xi

per il teorema centrale tende ad essere distribuita normalmente.


Adotteremo dunque come modello matematico della distribuzione di un sistema di misure
l’espressione:

1 ⎡ ( xi − µ x ) 2 ⎤
f ( x) = ⋅ exp ⎢− ⎥
2π ⋅ σ ⎣ 2σ ⎦

la ƒ(x) rappresenta la densità di probabilità che ha la misura xi, di presentarsi in un sistema di


misure la cui media è µx e la varianza σ2.
Le ƒ può anche scriversi

1 ⎡ ν2 ⎤
f ( x) = ⋅ exp ⎢− i 2 ⎥
2π ⋅ σ ⎣ 2σ ⎦

considerato che υ i = xi − µ x è la variabile scarto.

47
Introducendo la variabile standardizzata
x − µx
z= avremo
σ

1 ⎡ zi2 ⎤
f ( x) = ⋅ exp ⎢− ⎥
2π ⎣ 2⎦

che rappresenta la densità di probabilità che ha la variabile zi di presentarsi in un sistema di


misure con µx = φ e σ2 = 1.

Per studiare i parametri significativi di questa curva standardizzata, è bene premettere che per la
risoluzione degli integrali che si presenteranno sarà necessario utilizzare la funzione Gamma le cui
proprietà sono elencate di seguito:

Funzione Gamma = Γ( n) =
∫o
t n−1 e -t dt n >φ

Γ(n + 1) = n Γ(n) Γ(1) = 1

π
Γ(n) Γ(1 - n) = in particolare
sen n π

1
Γ(1 / 2) ⋅ Γ(1 - ) = Γ(1 / 2) ⋅ Γ(1 / 2) =π
2

sarà Γ(1 / 2) = π

Studio della Gaussiana

a) La f ( x ) è realmente una funzione densità di probabilità in quanto:

48
∞ ∞
⎡ z2 ⎤ ⎡ z2 ⎤ 2π
∫ ∫
1 2 2
exp ⎢− ⎥ ⋅ dz = exp ⎢− ⎥ = ⋅ =1
2π ⎣ 2⎦ 2π ⎣ 2 ⎦ 2π 2
−∞ o


1 π
dato che

o
exp(− a ⋅ x 2 ) = ⋅
2 a

b) Calcolo della funzione distribuzione F(x):

z ⎡ u2 ⎤
1
2π −∫∞
F(z) = exp ⎢− ⎥ ⋅ du
⎢⎣ 2 ⎥⎦
ed ancora
o ⎡ u2 ⎤ z ⎡ u2 ⎤
1 1
2π −∫∞ 2π o∫
F(z) = exp ⎢− ⎥ ⋅ du + exp ⎢− ⎥ ⋅ du
⎣⎢ 2 ⎦⎥ ⎣⎢ 2 ⎦⎥

il primo integrale abbiamo già visto che vale 1/2 , pertanto:

z ⎡ u2 ⎤
1 1
2π o∫
F(z) = + exp ⎢− ⎥ ⋅ du
2 ⎢⎣ 2 ⎥⎦

sviluppando l’argomento del secondo integrale in serie di Mac-Laurin

⎡ u2 ⎤ ⎡ u2 ⎤ u2 u3 u4
exp ⎢− ⎥ = exp ⎢− ⎥ + u ⋅ f (u ) o +
I
⋅ f (u ) o + ⋅ f
II III
(u ) o + ⋅f IV
(u ) o ......
⎣ 2 ⎦ ⎣ 2 ⎦o 2 3! 4!

2u ⎡ u2 ⎤
f (u ) o = − ⋅ exp ⎢− ⎥ = φ
I

2 ⎣ 2 ⎦o

⎡ u2 ⎤ ⎡ u2 ⎤
f II (u ) o = − exp ⎢− ⎥ + u 2 ⋅ exp ⎢− ⎥ = −1
⎣ 2 ⎦o ⎣ 2 ⎦o

49
⎡ u2 ⎤ ⎡ u2 ⎤ ⎡ u2 ⎤
f III
= ⋅
(u ) o u exp ⎢ − + ⋅ −
⎥ 2u exp ⎢ 2 ⎥ u exp ⎢− 2 ⎥ =
− 3

⎣ 2 ⎦o ⎣ ⎦o ⎣ ⎦o
⎡ u2 ⎤ ⎡ u2 ⎤
= 3u ⋅ u ⋅ exp ⎢− ⎥ − u ⋅ exp ⎢− ⎥ = φ
3

⎣ 2 ⎦o ⎣ 2 ⎦o

⎡ u2 ⎤ ⎡ u2 ⎤ ⎡ u2 ⎤
f IV
(u ) o = 3 ⋅ exp ⎢− ⎥ − 3u ⋅ exp ⎢− ⎥ + u ⋅ exp ⎢− ⎥ = 3
4

⎣ 2 ⎦o ⎣ 2 ⎦o ⎣ 2 ⎦o

si ha così:

⎡ u2 ⎤ u2 1 4
exp ⎢− ⎥ = 1 − + ⋅ u ..........
⎣ 2⎦ 2 8

il secondo integrale diventa

z⎛ ⎞
1 u2 u4
⋅ ∫ ⎜1 − + ........ ⎟ ⋅ du
2π o ⎜⎝ 2 8 ⎟

ed è proprio la parte tabellata che rappresenta l’area compresa tra la ƒ(x) e le ordinate per φ e z.

50
Esempio

Vogliamo verificare il valore tabulare dell’area compresa tra la curva, l’ordinata per φ e l’ordinata
per z=0.31:

Valore tabellato A = 0.1217

1 0.313 0.315
Valore calcolato ⇒ ⋅ (0.31 − + .........) = 0.1217
2π 6 40

c) Calcolo della media

∞ ⎡ z2 ⎤ ∞ ⎡ z2 ⎤
1 2
2π −∫∞ 2π 0∫
µz = z ⋅ exp ⎢ − ⎥ ⋅ dz = z ⋅ exp ⎢− ⎥ ⋅ dz =
⎢⎣ 2 ⎥⎦ ⎢⎣ 2 ⎥⎦
∞ ⎡ ⎛ z 2 ⎞⎤
−1 ⎜ − ⎟⎥ ⋅ dz =
= ∫ d ⋅ ⎢ exp
2π o ⎢⎣ ⎜⎝ 2 ⎟⎠⎥⎦

⎡ 1 ⎛ z 2 ⎞⎤
= ⎢− ⋅ exp⎜ − ⎟⎥ =φ
⎢⎣ 2π ⎜ 2 ⎟⎥
⎝ ⎠⎦ −∞

che coincide con la media di una variabile standardizzata


µz =φ

d) Calcolo della varianza


σ 2 = ( z − µ z ) 2 ⋅ f ( z ) ⋅ dz
−∞
essendo µz = φ si ha

∞ ⎡ z2 ⎤ ∞ ⎡ z2 ⎤
2 1 2 1 2
σ = ∫ z ⋅
2π −∫∞
⋅ exp ⎢− ⎥ ⋅ dz = z ⋅ exp ⎢− ⎥dz
−∞
2π ⎢⎣ 2 ⎥⎦ ⎢⎣ 2 ⎥⎦

51
z2
posto ν = si ha dv = z ⋅ dz pertanto
2

∞ ∞
2 dv 2 z
2
σ = ⋅ ∫ z 2 ⋅ exp[− ν ] ⋅ = ⋅∫ ⋅ exp[− ν ] ⋅ dv =
2π 0 z π o 2

z
= ν =v
1
essendo 2
potremo scrivere
2


2
σ2 = ⋅ v (3 / 2−1) ⋅ exp[− ν ] ⋅dv
π
o

utilizzando la funzione Γ (u) avremo

2 2 ⎛1 ⎞ 2 1
σ2 = ⋅ Γ (3/2) = ⋅ Γ ⎜ + 1⎟ = ⋅ ⋅ π
π π ⎝2 ⎠ π 2

pertanto σ2 = 1

come del resto era prevedibile in quanto

x − µx ⎡ (x − µ x )2 ⎤
z= ⇒σ 2 = M ⋅ ⎢ ⎥ =1
σ ⎣ σ 2

e) Calcolo della curtosi (grado di simmetria)

M [z 4 ]
γ= = M [z 4 ]
σ 4

∞ ∞
⎡ z2 ⎤ ⎡ z2 ⎤
∫ ∫
1 z
γ= ⋅ z ⋅ exp ⎢− ⎥ ⋅ dz =
4
⋅ z ⋅ exp ⎢− ⎥ ⋅ dz
4

2π ⎣ 2⎦ 2π ⎣ 2⎦
−∞ −∞

z2
poniamo ν = dv = z⋅dz avremo così
2

52
∞ ∞

∫ ∫
2 2
⋅ z 4 ⋅ exp[− v ] ⋅ = ⋅ z 3 ⋅ exp[− v ] ⋅ dv
dv
γ=
2π z 2π
o o

ma z3 = z2 ⋅ z possiamo quindi scrivere

∞ ∞
2⋅2 z2 z
∫ ∫
4
γ= ⋅ ⋅ ⋅ exp[− v ] ⋅ dv = ⋅ v 3 / 2 ⋅ exp[− v ] ⋅ dv
2π 2 2 π
o o


4 4
γ= ⋅ v ( 5 / 2−1) ⋅ exp[− v ] ⋅ dv = ⋅ Γ(5 / 2)
π π
o

4 ⎛3 ⎞ 4 3 4 3 ⎛1 ⎞
= ⋅ Γ⎜ + 1⎟ = ⋅ ⋅ Γ(3 / 2) = ⋅ ⋅ Γ ⋅ ⎜ + 1⎟
π ⎝2 ⎠ π 2 π 2 ⎝2 ⎠

e ancora

4 3 1
γ= ⋅ ⋅ ⋅ π =3
π 2 2

la curva è simmetrica rispetto all’asse delle frequenze

Funzione generatrice dei momenti per la Normale

M (exp[ xt ]) =
∫ exp[ xt] ⋅ f
−∞
x ⋅ dx e ancora


⎡ (x − µ )2 ⎤

1
M (exp[ xt ]) = ⋅ exp[ xt ] ⋅ exp ⎢− ⋅ dx
σ ⋅ 2π ⎣ 2σ 2 ⎥⎦
−∞

53
Standardizziamo la Variabile

x−µ
z= ⇒ x = µ + z ⋅σ dx = σ ⋅ dz
σ
pertanto

⎡ z2 ⎤

1
M (exp[ xt ]) = ⋅ exp[(µ + z ⋅ σ ) ⋅ t ] ⋅ exp ⎢− ⎥ ⋅ σ ⋅ dz
σ ⋅ 2π ⎣ 2⎦
−∞


⎡ z2 ⎤

1
M (exp[ xt ]) = ⋅ exp[(µ + z ⋅ σ ) ⋅ t ] ⋅ exp ⎢− ⎥ ⋅ dz
2π ⎣ 2⎦
−∞


z2

1
M (exp[ xt ]) = ⋅ exp[ µ t + z ⋅ σ t − ] ⋅ dz
2π 2
−∞

ma

z2 σ 2t 2 ( z − σ t ) 2
µ t + z ⋅ σt − = µ t + − infatti
2 2 2

σ 2t 2 z 2 − 2 zσ t + σ 2 t 2
µ⋅t + − =
2 2
σ 2 t 2 − z 2 + 2 zσ t − σ 2 t 2 z2
=µ⋅t + = µ t - + zσ t
2 2

Si può così scrivere:



σ t2 ⎡ ( z − σ t) 2 ⎤

1
M (exp[ xt ]) = ⋅ exp[ µ t + ] ⋅ exp ⎢− ⎥ ⋅ dz
2π 2 ⎣ 2 ⎦
−∞

σ 2t 2
exp[ µ t + ] ∞
⎡ ( z − σ t) 2 ⎤
M (exp[ xt ]) =

2

⋅ exp ⎢−
−∞
⎣ 2 ⎥ ⋅ dz

54
Cambiamo ancora variabile e poniamo (z - σ t) = ω avremo così:

σ 2t 2
exp[ µ t + ] ∞
⎡ ω2 ⎤
M (exp[ xt ]) =

2

⋅ exp ⎢−
−∞
⎣ 2 ⎥⎦
⋅ dω

⎡ σ 2t 2 ⎤
= exp ⎢ µ t + in quanto
⎣ 2 ⎥⎦


⎡ ω2 ⎤

1
exp ⎢− ⎥ = 2 ⋅ ⋅ 2π = 2π
−∞
⎣ 2 ⎦ 2

In definitiva avremo:

⎡ σ 2t 2 ⎤
M (exp[ xt ]) = exp ⎢ µ t +
⎣ 2 ⎥⎦

che sviluppato in serie di Mac-Laurin fornisce

⎡ σ 2t 2 ⎤
M (exp[ xt ]) = 1 + t ⋅ ( µ + σ t ) o exp ⎢ µ t +
2
⎥ +
⎣ 2 ⎦o
t2 ⎡ 2 ⎡ σ 2t 2 ⎤ ⎡ σ 2t 2 ⎤ ⎤
+ ⋅ ⎢σ ⋅ exp ⎢ µ t + + ( µ + σ t ) ⋅ ( µ + σ t ) ⋅ exp ⎢ µ t +
2 2

2 ⎣ ⎣ 2 ⎥⎦ ⎣ 2 ⎥⎦ ⎦ o

e quindi

t2
M (exp[ xt ]) = 1 + t ⋅ µ + ⋅ (σ 2 + µ 2 ).......
2

avremo così che la media è proprio µ e la varianza è σ2 infatti:

σ 2 = S2 − µ 2 = σ 2 + µ 2 − µ 2 = σ 2

55
Uso della curva di Gauss

Ricordiamo che la curva è tabellata per µ = φ e σ2 = 1 pertanto bisogna utilizzare valori


standardizzati.

Se vogliamo conoscere la probabilità che la v.c. si trova tra

a< x <b

essa sarà espressa dall’area compresa tra la curva e le ordinate per a e b.

Esempi di determinazione dell’area

Esercizio n.1
Abbiamo misurato il diametro interno di 200 guarnizioni prodotte da una macchina ed abbiamo
riscontrato che il diametro medio e lo s.q.m. sono:

φm = 0.502”
σ = ± 0.005 “
Per l’uso cui sono destinate è ammissibile il seguente intervallo tecnologico

0.502

0.496 0.508

Nel presupposto che la produzione segue la legge di Gauss quante saranno le guarnizioni difettose ?

56
Per prima cosa dobbiamo standardizzare gli estremi dell’intervallo:

Z (0.496) = (0.496-0.502) / 0.005 = - 1.2


Z (0.508) = (0.508 – 0.502) / 0.005 = + 1.2

Difettosa Difettosa

- 1.2 1.2

P = 2 x (0.5 – 0.3849) = 23%

Esercizio n.2
Abbiamo eseguito 24 misure di un angolo con un teodolite di alta precisione ottenendo

αm = 47°,3112
σ = ± 0.0005
Nel presupposto che la distribuzione sia normale
a) Qual è la probabilità che si presentino misure superiori a 47°,3325 ?

Z(47°,3325) = (47°,3325 – 47°,3112) / 0.0005 = 42.6


P(z) = φ

b) che αi > 47°,3113

Z = (47°,3113 – 47°,3112) / 0.0005 = 0.2


P (αi > 0.2) = 0.5 – 0.0793 = 0.4207 = 42%

c) che 47°,3107 < α > 47°,3118

Z1 = (47°,3107 – 47°,3112) / 0.0005 = 1 Z2 = (47°,3118 – 47°,3112) / 0.0005 = 1.2


P = 0.3413 + 0.3849 = 0.7262 = 73 %

57
Esercizio n.3

Supponiamo di aver ottenuto la stessa media con un s.q.m. più alto, vale a dire
αmm = 47,3325
σ = ± 0.05
Qual’ è la probabilità che si presenti α > 47°,3325

Z = (47°,3325 – 47°,3112) / 0.05 = 0.426


P = (0.5 – 0.1628) = 0.3372 = 34%

58
La curva χ2

Per comprendere il significato della distribuzione χ2 è bene riprendere i concetti che riguardano una
distribuzione normale standardizzata

xi = N φ , 1

la cui funzione densità di probabilità è espressa da

1 ⎡ xi2 ⎤
f ( xi ) = ⋅ exp ⎢− ⎥
2π ⎣ 2⎦

in cui i valori di densità aumentano per le x che si avvicinano alla media, mentre decrescono
allontanandosi da essa.
In buona sostanza una ƒ(xi) normale vuole significare che se a caso si estraessero n x dalle infinite
possibili i valori vicini alla media sarebbero preponderanti.
Si dimostra che la funzione densità definita nel campo positivo della x2i è espressa da:

1 ⎡ xi2 ⎤
f ( xi2 ) = ⋅ exp ⎢− 2 ⎥
2π ⋅ xi2 ⎣ ⎦

59
che concordemente alla normale esprime il fatto che valori piccoli di xi hanno ƒ(x2i) alte, mentre
valori alti xi hanno ƒ(x2i) basse, la curva infatti per xi = φ diverge, viceversa per xi ∞ ƒ(x2i) = φ.
E’ importante notare che per xi = 1 si ha

ƒ(xi) =ƒ(x2i)
Siano, nell’ambito della normale standardizzata, x1 x2…..xn n v.c. indipendenti e sia

χ 2 = x12 + x22 ...... + xn2

la funzione densità ƒn( χ 2 ), vale a dire la funzione che definisce la densità con cui si distribuisce un

somma di x2i e che vale χ2 è data da:

⎛n ⎞
1 ⎜ −1 ⎟ ⎡ x2 ⎤
f n (χ ) =
2
⋅x ⎝2 ⎠
⋅ exp ⎢− ⎥
n/2 ⎛n⎞ ⎣ 2⎦
2 p⎜ ⎟
⎝2⎠
dove

- n è il grado di liberta (numero di v.c. indipendenti)


- g(n) = funzione Gamma =


∫o
t n−1 ⋅ e −t ⋅ dt

Le curve hanno l’andamento riportato nel grafico.

60
Vediamo di chiarire meglio il concetto espresso dalla ƒn( χ 2 ), e prendiamo in considerazione la
curva n = 10 la quale esprime il fatto che se da una v.c. normale standardizzata si estraggono a caso
10 valori la densità di probabilità che:

⎧ = φ ⇒ f10 (φ ) = φ

x + x + .........x = ⎨ = 5 ⇒ f10 (5) ≅ 0.1
2
1
2
2
2
10
⎪= 35 ⇒ f (35) ≅ φ
⎩ 10

e in generale che la somma dei quadrati delle 10 v.c. è poco probabile che sia o molto alta o molto
bassa e che orientativamente è compresa tra φ e 35.
La curva χ2 assume molta importanza nella verifica di ipotesi della varianza σ2, infatti supponiamo
di aver fatto n misure di un osservabile, che forniscono una media m e varianza S2, gli scarti
standardizzati saranno:

∑v
xi − m 1
Vi = ⇒ Ss2 = ⋅ 2
i
Si n

la
∑ vi2 è una somma di quadrati di n variabili standardizzati indipendenti e pertanto può avere

come modello di distribuzione la χ2.

61
Esempi sull’uso della curva χ2.

Siano V1 , V2, V3, V4, V5 cinque scarti estratti casualmente da una distribuzione normale di misure,
determinare i valori

χ 2 = v12 + v22 + v32 + v42 + v52


per i quali risulta:

1) che la somma χ2 abbia almeno il 95% di probabilità di verificarsi ?

(χ )

χ χ

Dalla tabella si ha che per n = 5 χ20.95 = 11.1

Il che significa che estratti casualmente 5 scarti standardizzati la probabilità che


∑v 2
i < 11.1 è

del 95%

2) che la somma χ2 abbia globalmente una probabilità del 5% ?

(χ )

χ χ χ

62
Considerando aree uguali sottese dalla curva si ha:

n = 5 χ20.025 = 0.831 χ20.975 = 12.8

Pertanto il 5% globale viene fornito dal fatto che


∑ v sia o minore di 0.831 o superiore a 12.8.
2
i

3) che la somma χ2 abbia il 10% di probabilità di essere inferiore ad un certo valore ?

Con n = 5 si ha χ2(0.10) = 1.61


Vale a dire che estratti casualmente 5 scarti standardizzati la probabilità che essi abbiano una

∑ v minore di 1.61 è del 10%.


2
i

63
La variabile casuale a 2 e a n dimensioni

Premessa
I concetti che di seguito esporremo riguardano in particolare una v.c. bidimensionale e ciò al fine di
poterli visualizzare in maniera significativa, sarà così più semplice estendere le relative
formulazioni alla v.c. n/dimensionale.
E’ opportuno inoltre precisare che lo studio che si affronta si concretizza nella funzione di
distribuzione statistica del posizionamento dei punti nello spazio, in questo contesto la v.c. presenta
al massimo le tre dimensioni relative alle coordinate (x, y, z).
Se si considera inoltre la consuetudine operativa che tende sempre a separare il posizionamento
planimetrico da quello altimetrico, sia per la dicotomia esistente tra le superfici di riferimento sia
per il diverso ordine di precisione, si ha che il modello di v.c. planimetrica e bidimensionale mentre
quello altimetrico ha una sola dimensione.

Il modello matematico
La v.c. a due dimensioni è definita da una funzione densità ƒ(x,y) che gode delle seguenti proprietà:
ƒ(x y) > φ
v.c. continua v.c. discreta
∞ ∞ r s
∫ ∫ f(xy) ⋅ dx ⋅ dy = 1 ∑ ∑ f ( xi ⋅ yj ) = 1
−∞ -∞ i =1 j =1

il concetto si estende facilmente alla v.c. ad n dimensioni, per la quale si avrà:

f ( x y ......... z ) > φ
14 4244 3
n var iabili

v.c. continua

∞ ∞ ∞

∫ dx ∫ dy ..... ∫ dz
−∞ -∞ −∞
⋅ f ( x y ..... z ) = 1

v.c. discreta

64
r s t

∑ ∑........∑ ⋅ f ( x ⋅ y ......z )
i =1 j =1 k =1
i j k

Altro concetto importante è quello della funzione distribuzione definito da:


xo yo
F (xo yo) = P[x < xo , y < yo] = ∫ ∫ f ( u ,ν )d u ⋅ d v
−∞ −∞

che nel caso discreto diventa


ε η
F ( ε ,η ) = P [ x < ε , y < η ] = ∑ ∑ f ( xi y i )
i =1 j =1

Con riferimento alla figura 1 e alla fig. 2

Le funzioni distribuzioni sono:


b d
− F ( a ≤ x ≤ b; c ≤ y ≤ d) = ∫ dx ∫ dy ⋅ f ( xy ) ⇒ volume tratteggiato
144424443
v .c . conttinua a c

- F (x ≤ 2; y ≤ 1) = f11 + f 21
14 4244 3
v .c . discreta

65
ESEMPI

Distribuzione Discreta

Numero eventi N=10:

x1 x2 x3
x
y\ 4 5 6
y1 7 3 0 2
y2 8 1 3 0
y3 9 1 0 0
∑ Nij ⇒ 10

Frequenze
f ( x1 , y1 ) = 0,3 f ( x1 , y2 ) = 0,1 f ( x1, y3 ) = 0,1

….. …… f ( x3 , y 3 ) = φ

x1 x2 x3
x
y\ 4 5 6
y1 7 0.3 0 0.2
y2 8 0.1 0.3 0
y3 9 0.1 0 0
∑ fij ⇒ 1

3 3

∑ f (x y ) = ∑ ∑ f (x , y ) = 1
i j
i =1 j =1
i i

66
Distribuzione Continua

⎧0 ≤ x ≤ 4
f ( x, y ) = c x y ⎨
⎩1 ≤ y ≤ 5
0 altrimenti

Determiniamo il valore di c affinché

f ( x, y ) sia una funzione densità:


dovrà essere

4 5 4 5
c ⋅ ∫ x ∫ y ⋅ dxdy = ∫ x ⋅ dx ∫ y ⋅ dy = c ⋅ 96 = 1
o 1 0 1

1
Pertanto c = e quindi
96

67
1 ⎧0 ≤ x ≤ 4
f ( x, y ) = xy ⎨
96 ⎩1 ≤ y ≤ 5

La funzione distribuzione si scrive:

(Caso Discreto)

[ ]
r s
F ( x r , y s ) = P xi ≤ x r ; y j ≤ y s = ∑ ∑ f (x yi j )
i =1 j =1

F ( x ≤ 5; y ≤ 9 ) = f (4,7 ) + f (4,8) + f (4,9) + f (5,7 ) + f (5,8) + f (5,9 ) =


0.3 + 0.1 + 0.1 + 0 + 0.2 + 0 = 0.7

(Caso Continuo)
2 3

F (0 ≤ x ≤ 2; 1 ≤ y ≤ 3) = ∫ dx ∫ dy ⋅ f ( x, y ) =
0 1

2 3
1
2 3
1
2 3
1 ⎡ x2 ⎤ ⎡ y2 ⎤ 1 ⎡ 9 − 1⎤
96 ∫0 ∫1 96 ∫0 ∫1
= dx dy ⋅ xy = xdx ⋅ ydy = ⎢ ⎥ ⋅⎢ ⎥ = ⋅2⋅⎢ ⎥ = 0.083
96 ⎣ 2 ⎦ 0 2
⎣ ⎦1 96 ⎣ 2 ⎦

68
Le distribuzioni marginali
Al fine di rendere più comprensibile il concetto faremo riferimento ad una v.c. bidimensionale
discreta e successivamente scriveremo le espressioni analitiche per una v.c. continua.
Riportiamo di seguito la distribuzione di frequenza di una v.c. (x y), dove la x può assumere i
valori da x1 a xr mentre la y da y1 a ys:

x
y\ x1 x2 …… xr Pj
y1 ƒ11 ƒ21 ....... ƒr1 P1
y2 ƒ12 ƒ22 …… ƒr2 P2 Marginali y
…… …… …… …… …… ……..
ys ƒ1s ƒ2s …… ƒrs Ps
qj q1 q2 ……. qr ∑ Pi = 1
∑ qi = 1
Marginali x

Nella tabella sono riportate:

- le ƒ(xi yj) che rappresentano le frequenze, o densità, della v.c. (x y), vale a dire la percentuale di
volte che compare la coppia (xi yj).
In particolare se N è la numerosità totale della popolazione (xi yj) ed Nij è il numero di volte
N ij
che si presenta (xi yj), la frequenza risulta f ( xi y j ) =
N
- le Pj (j=1…….s) che rappresentano le frequenze marginali della y, cioè la frequenza di un
particolare valore yj a prescindere dal valore che assume la x, pertanto
Pij = f ( 1, j ) + f ( 2, j ) + ......... f ( r , j )
- le qi (i=1….r) che rappresentano le frequenze marginali della x, cioè la frequenza con cui si
presenta un particolare valore xi a prescindere del valore che assume la y, si ha così:
qi = f ( i ,1 ) + f ( i ,2 ) + ......... f ( i , s )

In linea con il concetto generale di frequenza sarà :

69
r s r s
∑ ∑ f ( xi y j ) = ∑ q i = ∑ P j = 1
i =1 j =1 i =1 j =1

Dalle definizioni che abbiamo dato discende chiaramente che ogni riga rappresenta una
distribuzione condizionata della x:

riga J = ƒx / yj

e analogamente ogni colonna è una distribuzione condizionata della y:

colonna i = = ƒy / xi

E’ possibile inoltre definire le funzioni di distribuzione marginali:

k −1 k −1 s
F ( x < xk ) = ∑ qi = ∑ ∑ f ( ij )
i =1 j =1 j =1
k −1 r k −1
F( y < yk ) = ∑ Pj = ∑ ∑ f ( ij )
j =1 i =1 j =1

Nel caso continuo perde di significato il fatto che una delle componenti possa assumere un
particolare valore, proprio perché ciò non è analiticamente possibile, mentre ha senso che una delle
due variabili cada in un certo intervallo a prescindere dal valore che assume l’altra, in buona
sostanza la condizione ai margini è definita dalla funzione di distribuzione ed in particolare avremo:

b ∞ b
- F (a < x < b, - ∞ y < ∞) = ∫ ∫ f ( xy )d x ⋅ d y = ∫ r( x )d x dove
a −∞ a


r( x ) = ∫ f ( xy )d y
−∞
d ∞ d
- F (- ∞ < x < ∞, c < y < d) = ∫ ∫ f ( xy )d x ⋅ d y = ∫ t( y )d y dove
c −∞ c

70

t( y ) = ∫ f ( xy )d x
−∞

ESEMPI

Caso Discreto

x1 x2 x3
y x 4 5 6 Pj Marginale y

y1 7 0.3 0 0.2 0.5


y2 8 0.1 0.3 0 0.4 ΣPj=1
y3 9 0.1 0 0 0.1
qi q1=0.5 q2=0.3 q3=0.2
Marginale x Σqi=1

- q1 è la frequenza dell’iesimo valore della x che si presenta indipendentemente dal valore


assunto dalla y.
Per esempio:
q2= 30% è la frequenza del valore x2= 5 indipendentemente dalla y.

- Pj è la frequenza del jesimo valore della y che si presenta indipendentemente dal valore
assunto dalla x.
Per esempio:
P3= 10% è la frequenza del valore y3= 9 indipendentemente dalla x.

Ovviamente:
3

∑q
i =1
i = q1 + q 2 + q3 = 0,5 + 0,3 + 0,2 = 1

∑p
i =1
j = p1 + p 2 + p 3 = 0,5 + 0,4 + 0,1 = 1

71
Caso Continuo

Con riferimento alla

1 ⎧0 ≤ x ≤ 4
f ( x, y ) = x y ⎨
96 ⎩1 ≤ y ≤ 5
0 altrimenti

Determiniamo la funzione distribuzione marginale della x:

Fx = (0 ≤ u ≤ x; 1 ≤ y ≤ 5)

x 5
1
x 5
1 ⎡u 2 ⎤ ⎡ y2 ⎤ x2
96 ∫0
Fx = udx ∫ ydy = ⎢ ⎥ ⋅⎢ ⎥ =
1
96 ⎣ 2 ⎦ 0 ⎣ 2 ⎦ 1 16

Ed essendo dF = f x dx avremo che

dFx
fx =
dx
Pertanto la funzione marginale della x è data da:

d ⎛ x2 ⎞ ⎛ x ⎞
f x = ⎜⎜ ⎟⎟ = ⎜ ⎟
dx ⎝ 16 ⎠ ⎝ 8 ⎠

Per la Fy avremo:

F y = (0 ≤ x ≤ 4; 1 ≤ ν ≤ y )

4 ν
1 y2 −1
96 ∫0
Fy = xdx ∫νdν =
1
24

e la frequenza marginale risulta:


y
Fy =
12

72
Le distribuzioni condizionate

In generale la probabilità che si verifichi l’evento A una volta che si è verificato l’evento B è
definita da
P(AB) Pr obabilità congiunta (AB)
P(A / B) = =
P(B) Pr obabilità marginale (B)

Consideriamo una variabile bidimensionale (x,y) e passando alle frequenze avremo:

f (x i y j ) frequenza congiunta (x i y j )
f (x i / y j ) = =
Pj frequenza marginale y = y j

Che rappresenta la probabilità che la x assuma il valore xi mentre la y già assunto il valore yj,
analogamente la probabilità che y = yj quando si è già verificato x = xi sarà:

f (x i y j ) frequenza congiunta (x i y j )
f (y j / x i ) = =
qj frequenza marginale x = x i

Nel caso continuo le formule diventano:

f ( xy )
λ( x / y ) =
t( y )
f ( x, y )
ϕ( y / x ) =
r( x )

Dove t(y) e r(x) hanno i significati precedentemente chiariti.

Per una v.c. continua n/dimensionale la densità di probabilità che k < n variabili assumano i valori
x1, x2, ……..xk quando le restanti (n-k) hanno già assunto i valori xk+1……..xn è data da:

f ( x1 x 2 .......x n )
S ( x1 x 2 .......x k / x k +1 .......x n ) = ∞ ∞ ∞
∫−∞ ∫−∞ ∫−∞ f ( x1 x 2 .......x n )dx1 .......dx k

73
Se gli eventi A e B sono indipendenti, sappiamo già che

P( AB )
P( A / B ) = = P( A )
P( B )

il che significa che l’evento B non condiziona l’evento A, ne consegue inoltre che

P(A/B) = P(A) ⋅ P(B)

il che significa che nel caso di eventi indipendenti la probabilità congiunta P(AB) è data dal
prodotto delle marginali = P(A) ⋅ P(B).

Per una variabile casuale n/dimensionale, esprimendoci in termini di funzioni densità, avremo:

ƒ(x1, x2, ……..xn) = ƒ(x1) ⋅ ƒ(x2) ……..ƒ(xn)

74
ESEMPI

x1 x2 x3
y\x 4 5 6 Pj Marginale y

y1 7 0.3 0 0.2 0.5


y2 8 0.1 0.3 0 0.4 ΣPj=1
y3 9 0.1 0 0 0.1
qi q1=0.5 q2=0.3 q3=0.2
Marginale x Σqi=1

Ogni riga rappresenta una distribuzione condizionata della x:

f ( xi y1 ) f (xi y1 )
- riga n.1 ⇒ f ( x1 / y1 ) = =
f ( y1 ) P1

f ( x1 y1 ) f (4,7 ) 0.3
f ( x1 / y1 ) = = = = 0.6
P1 f (7 ) 0.5
f ( x 2 y1 ) f (5,7 ) 0
f ( x 2 / y1 ) = = = =0
P1 f (7 ) 0.5

f ( x 3 y1 ) f (6,7 ) 0.2
f ( x 3 / y1 ) = = = = 0.4
P1 f (7 ) 0.5

e risulta sempre ∑ f (x
i =1
i / y1 ) = 1 infatti

∑ f (x
i =1
i / y1 ) = f x1 / y1 + f x2 / y1 + f x3 / y1 = 0.6 + 0 + 0.4 = 1

75
f (x i y 2 ) f (x i y 2 )
⇒ fx i / y 2 = =
f (y2 )
- riga n.2
P2

0 .1 0. 3
f ( x1 / y 2 ) = = 0.25 f ( x2 / y 2 ) = = 0.75 f ( x3 / y 2 ) = 0
0.4 0. 4

f ( xi y 3 ) f ( xi y 3 )
⇒ fxi / y 3 = =
f ( y3 )
- riga n.3
P3

f ( x1 / y 3 ) = 1 f ( x2 / y3 ) = 0 f ( x3 / y 3 ) = 0

Analogamente ogni colonna rappresenta una distribuzione condizionata della y:


- colonna n. 1

f ( y1 x1 ) 0.3
f ( y1 / x1 ) = = = 0.6
q1 0 .5

f ( y 2 x1 ) 0.1
f ( y 2 / x1 ) = = = 0.2
q1 0 .5
f ( y 3 x1 ) 0.1
f ( y 3 / x1 ) = = = 0.2
q1 0 .5

- colonna n. 2

f ( y1 x 2 ) 0
f ( y1 / x 2 ) = = =0
q2 0.3
f ( y 2 x 2 ) 0 .3
f ( y2 / x2 ) = = =1
q2 0 .3
f ( y3 x2 ) 0
f ( y3 / x2 ) = = =0
q2 0.3

76
- colonna n. 3

f ( y1 x3 ) 0.2
f ( y1 / x3 ) = = =1
q3 0.2
f ( y 2 x3 ) 0
f ( y 2 / x3 ) = = =0
q3 0 .2
f ( y 3 x3 ) 0
f ( y 3 / x3 ) = = =0
q3 0.2

La Media

Consideriamo una v.c. a 2 dimensioni (x,y) la media delle x e la media delle y sarà espressa da:

1) Caso discreto:
r s
mx = ∑ ∑x i f ( xi y j ) x i = x1 , x 2 .......x r
i =1 j =1
s r
my = ∑ ∑y j f ( xi y j ) y j = y1 , y 2 ....... y s
j =1 i =1

Nel nostro caso avremo:


m x = x1 ⋅ f ( x1 y1 ) + x1 ⋅ f ( x1 y 2 ) + x1 ⋅ f (x1 y 3 ) +

+ x 2 ⋅ f ( x 2 y1 ) + x 2 ⋅ f ( x 2 y 2 ) + x 2 ⋅ f ( x 2 y 3 ) +

+ x3 ⋅ f ( x3 y1 ) + x3 ⋅ f ( x3 y 2 ) + x3 ⋅ f ( x3 y 3 ) =

m x = x1 ⋅ [ f (x1 y1 ) + f ( x1 y 2 ) + f ( x1 y 3 )] + x 2 [ f (x 2 y1 ) + f ( x 2 y 2 ) + f ( x 2 y 3 )] + x3 [ f ( x3 y1 ) + f ( x3 y 2 ) + f ( x3 y 3 )]

q1 q2 q3

Pertanto:
m x = x1 ⋅ q1 + x 2 ⋅ q 2 + x3 ⋅ q3 = 4 ⋅ 0,5 + 5 ⋅ 0,3 + 6 ⋅ 0,2 = 2 + 1,5 + 1,2 = 4,7

e analogamente:

77
m y = y1 ⋅ p1 + y 2 ⋅ p 2 + y 3 ⋅ p 3 = 7 ⋅ 0,5 + 8 ⋅ 0,4 + 9 ⋅ 0,1 = 3,5 + 3,2 + 0,9 = 7,6

Possiamo anche definire le medie condizionate:


r f ( xi y j )
m x / y j = ∑ xi ⋅ e pertanto
i =1 Pj
3
f ( xi y1 )
m x / y1 = ∑ xi ⋅ = 4 ⋅ 0,6 + 5 ⋅ φ + 6 ⋅ 0,4 = 2,4 + φ + 2,4 = 4,8
i =1 P1
3
f ( xi y 2 )
m x / y 2 = ∑ xi ⋅ = 4 ⋅ 0,25 + 5 ⋅ 0,75 + 6 ⋅ φ = 4,75
i =1 P2
3
f ( xi y 3 )
m x / y 3 = ∑ xi ⋅ = 4 ⋅1 + 5 ⋅ φ + 6 ⋅ φ = 4
i =1 P3

e chiaramente risulta:

3
m x = ∑ ( m x / y j ) ⋅ Pj = 4,8 ⋅ 0,5 + 4,75 ⋅ 0,4 + 4 ⋅ 0,1 = 4,7
j =1

Anche per le y avremo:

3 f ( xi y j )
m y / xi = ∑ y j ⋅ e pertanto
j =1 qj
3 f ( x1 y j )
m y / x1 = ∑ y j ⋅ = 7 ⋅ 0,6 + 8 ⋅ 0,2 + 9 ⋅ 0,2 = 7,6
j =1 q1
3 f ( x2 y j )
m y / x2 = ∑ y j ⋅ = 7 ⋅ φ + 8 ⋅1 + 9 ⋅ φ = 8
j =1 q2
3 f ( x3 y j )
m y / x3 = ∑ y j ⋅ = 7 ⋅1 + 8 ⋅ φ + 9 ⋅ φ = 7
j =1 q3

e sarà ancora:
3
m y = ∑ (m y / xi ) ⋅ q j = 7,6 ⋅ 0,5 + 8 ⋅ 0,3 + 7 ⋅ 0,2 = 7,6
j =1

78
2) Caso continuo:
c b
µx = ∫ ∫ xf ( xy)dxdy
d a

a< x<b c<y<d


b d
µy = ∫ ∫ yf ( xy )dxdy
a c

Sviluppiamo ora la µx nel caso discreto, avremo


µ x = x1 f ( x1 y1 ) + x1 f ( x1 y 2 ) + ......... x1 f ( x1 y s ) + x 2 f ( x 2 y1 ) + x 2 f ( x 2 y 2 ) + ........ x 2 f ( x 2 y s ) +
....... x 2 f ( x 2 y1 ) + x r f ( x r y 2 ) + .......... x r f ( x r y s ) =
s s s
= x1 ∑ f ( x1 y j ) + x 2 ∑ f ( x 2 y j ) + .......... ..... x r ∑ f ( x r y j ) =
j =1 j =1 j =1
r
= x1 ⋅ q1 + x 2 ⋅ q 2 + .......... ...... x r ⋅ q r = ∑ xi qi
i =1

quindi la media è data dal prodotto delle xi per le rispettive marginali, e analogamente per le yj
avremo:
s
µ y = ∑ y j Pj
j =1

Nel caso continuo, le medie si esprimono con:

b
µ x = ∫a x ⋅ r( x ) ⋅ dx
d
µ y = ∫c y ⋅ t( y ) ⋅ dy

dove r(x) e t(y) sono le marginali rispettivamente della x e della y.


E’ possibile definire anche le medie condizionate che nel caso discreto, più comprensibile,
possiamo scrivere:

µx r
= ∑ xi ⋅
f ( xi y k )
dove
yk i =1 Pyk

- ƒ(xi yk) è la frequenza per x = xi (i=1 2 …r) e y = yk


- Pyk è la frequenza marginale per y = yk

79
Analogamente avremo:
µy s f ( xk y j )
= ∑ yi ⋅
xk j =1 qxk
Con ovvio significato dei simboli
E’ chiaro inoltre che:
r s f ( x k yi )
µx = ∑ ∑µx / y i j

i =1 j =1 q xk
r s f ( xi y i )
µy = ∑ ∑µy j / xi ⋅
i =1 j =1 qi

Per una v.c. ad n dimensioni espressa dal vettore


x1 M [ x1 ]
x2 M [x2 ]
. .
x= avremo M [x i ] =
. .
. .
M [xn ]
xn

che per una v.c. continua esprime la generica µxi come:

∞ ∞
µ xi = M [ xi ] = ∫ x f(x
−∞
i 1 ⋅ x2 ....xn ) ⋅ dx1.....dxn = ∫x f
−∞
i xi ⋅ dxi

dove f xi è la marginale di xi

Teorema della media


Sia |y| = |g(x)| una trasformazione di |xn| in |yn| :

80
g ( x1 )
y1
x1
x2 g ( x2 )
y2
. . .
x= y = =
. . .
. . .
xn yn
g ( xn )

Il teorema della media dice che


µy 1 M [ g ( x 1 )]
µy 2 M [ g ( x 2 )]
. .
M ( y) = =
. .
. .
µy M [ g ( x n )]
n

Se la v.c. xn è ben concentrata sui rispettivi assi e le g(xi) sono funzioni regolari, vale il corollario:

g ( µ x1 )
g ( µ x2 )
.
M( y)=
.
.
g ( µ xn )

Sussiste inoltre il corollario che la media rispetta il legame lineare, infatti:

|y| = |Ax| + |b|


M|y| = M|Ax| + µ|b| = AM|x| + b = A |µx| + b

4. La varianza

Analogamente a quanto fatto per le medie, utilizzando le marginali avremo:

81
r r
σ = ∑ ( xi − m x ) ⋅ qi
2
x
2
σ = ∑ ( y j − m y ) 2 ⋅ Pi
2
y
i =1 j =1

Consideriamo la tabella delle frequenze degli scarti:

v
x
v -0.7 -0.3 1.3 Pj
y

0.6 0.3 0 0.2 0.5


0.4 0.1 0.3 0 0.4
1.4 0.1 0 0 0.1
qi q1=0.5 q2=0.3 q3=0.2 1

Avremo quindi:
σ x2 = 0,49 ⋅ 0,5 + 0,09 ⋅ 0,3 + 1,69 ⋅ 0,2 = 0,61

σ y2 = 0,36 ⋅ 0,5 + 0,16 ⋅ 0,4 + 1,96 ⋅ 0,1 = 0,44

Come è facile dimostrare le varianze si possono calcolare con:

σ x2 = ∑ xi 2 ⋅ qi − µ x2

σ y2 = ∑ y i 2 ⋅ Pi − µ y2

che portano agli stessi risultati.


Si possono definire le varianze condizionate:
f ( xi y j )
σ 2 ( x / y j ) = ∑ [xi − m x / y j ]2 ⋅
r

i =1 Pj

con i valori precedentemente riportati avremo:


σ 2 ( x / y1 ) = (−0,8) 2 ⋅ 0,6 + (0,2) 2 ⋅ φ + (1,2) 2 ⋅ 0,4 = 0,96

σ 2 ( x / y 2 ) = (−0,75) 2 ⋅ 0,25 + (0,25) 2 ⋅ 0,75 + (1,25) 2 ⋅ φ = 0,187

82
σ 2 ( x / y 3 ) = (φ ) 2 ⋅ 1 + 12 ⋅ φ + 2 2 ⋅ φ = φ

Teorema di decomposizione ortogonale degli scarti

Teorema: “La varianza di una componente è pari alla somma della varianza delle medie
condizionate più la media delle varianze condizionate”.

σ 2 x = σ 2 ( µ x / y ) + µ( σ 2 x / y )
Infatti la varianza delle medie µ(x/yj) è data da
m
σ 2( µ x / y j ) = ∑ ( µ x / y J − µ x )2 ⋅ p J (1)
J =1

mentre la media delle varianze condizionate di x rispetto a yj è data da:


m
µ( σ 2 x / y j ) = ∑σ 2 x / y J ⋅ p J (2)
J =1

Sviluppiamo la (1)
m m
2
σ (µx/ yJ )= ∑µ 2
x/ y j
⋅ pJ − 2µ x ∑ µx/Y J
⋅ p J + µ x2 ⋅ ∑ p J
J =1 J =1

ma ∑µx / y J
⋅ pJ = µ x e ∑ pJ =1

m
pertanto σ 2( µ x / yJ )= ∑ µ x2 / y J
⋅ p J − 2 µ x2 + µ x2
J =1

m
e ancora σ 2( µ x / y j ) = ∑ µ x2 / y j
⋅ p J − µ x2
J =1

Sviluppiamo la (2)
m M n f ( xi y j )
µ( σ 2 x / y j ) = ∑σ 2 x / y J ⋅ p J = ∑ ∑ ( xi − µ x / y J
)2 ⋅
pJ
⋅ pJ
J =1 J =1 i =1

m n m n
= ∑∑ ( xi − µ x / y j
2
) ⋅ f ( xi y j ) = ∑ ∑ ( xi2 − 2 xi ⋅ µ x / y j
+ µ x2 / y j ) ⋅ f ( xi y j )
J =1i =1 J =1 i =1

83
moltiplicando e dividendo il secondo termine per pJ si ha:

⎛ n 2
m n pJ n ⎞

= ∑ ⋅ ∑ x i ⋅ f ( x i y j ) − 2µ x / y j ⋅ ∑ x i ⋅ f (x i y j ) ⋅ + µ x / y ⋅ ∑ f (x i y j ) ⎟
2
⎜ pj j ⎟
J =1 ⎝ i =1 i =1 i =1 ⎠

m ⎛n 2 n f ( xi y j ) n ⎞
= ∑ ⎜∑ i
⋅ ⎜ x ⋅ f ( x y
i j ) − 2 µ x / yj ⋅ p J ∑ i
⋅ x ⋅ + µ x / y J ∑ f ( xi y j
2
⋅ )⎟⎟
J =1 ⎝ i =1 i =1 PJ i =1 ⎠

n f ( xi y j ) n
ma ∑ xi ⋅ pJ
= µ x / yJ e ∑ f ( xi y j ) = p J
i =1 i =1

si ha così:
m ⎛n 2 ⎞
µ( σ 2 x / y j ) = ∑ ⎜⎜ ∑ xi ⋅ f ( xi y J ) − 2µ x2 / yJ ⋅ p J + µ x2 / yJ ⋅ p J ⎟⎟

J =1 ⎝ i =1 ⎠
m ⎛n 2 ⎞
= ∑ ⋅ ⎜⎜ ∑ xi ⋅ f ( xi y j ) − µ x2 / yJ ⋅ p J ⎟⎟ =
J =1 ⎝ i =1 ⎠
n m m
=∑ xi2 ⋅ ∑ f ( xi y j ) − ∑ µ x2 / yJ ⋅ p J
i =1 J =1 J =1

m
ma ∑ f ( xi / y J ) = q i pertanto si ha
J =1

n m
µ( σ x / y j ) = ∑
2
xi2 ⋅ qi − ∑ µ x/y
2
J
⋅ pJ
i =1 J =1

Sommiamo ora le espressioni della

σ 2 ( µ x / y J ) e della µ ( σ 2 x / y J ) :
m n m
σ 2 ( µ x / y J ) + µ (σ 2 x / y j ) = ∑ µ x2 / y ⋅ p J − µ x2 + ∑ x i2 ⋅ q i − ∑ µ x / y J ⋅ p J
J
J =1 i =1 J =1
n
= ∑ x i ⋅ q i2 − µ x2 = σ x2 c.v.d.
i =1

84
Analogamente per la y avremo

σ 2 y = σ 2 ( µ y / xi ) + µ ( σ y2 / xi )
Il teorema di decomposizione ortogonale degli scarti contiene in se condizioni di indipendenza o

dipendenza funzionale, consideriamo infatti una v.c. standardizzata in cui σ x2 = σ y2 = 1 e


riferendoci alla componente x scriviamo

σ 2 ( µ x / y J ) + µ ( σ x2 / y j ) = 1

se risulta µ ( σ x2 / y j ) = 1 sarà
n
σ ( µ x / y j ) = ∑ ( µ x / yJ − µ x )2 ⋅ p J = φ
2

i =1

ed essendo almeno un pJ positivo dovrà essere


µx / yj = µx Vj
pertanto le medie condizionate sono sempre uguali alla media e pertanto indipendenti.

Se sarà invece µ ( σ x2 / y j ) = φ sarà σ 2 ( µ x / y ) = 1 e quindi:


J

m n f ( xi y j )
∑∑ ( xi − µ x / y j
)2 ⋅
pj
⋅ p j =φ
J =1i =1

e quindi
xi = µ x / y j Vi, j

pertanto ad ogni valore di yj corrisponde un solo valore xi, si ha così una dipendenza funzionale
y=g(x)

Possiamo costruire un altro indice

85
σ 2( µ x / y j )
O ≤ η x2 = ≤1
σ x2
che si chiama indice di Pearson e che vuole significare quanto segue:

1) σ 2 ( µ x / y j ) = φ ⇒ η x2 = φ
si ha l’indipendenza in media
µx / y j = µx VJ

2) σ 2 ( µ x / y j ) = σ x2 ⇒ η x2 = 1
in questo caso si ha dipendenza funzionale

σ 2 (µ y / x i )
O ≤ η y2 = ≤1
σ y2

La matrice di covarianza
Si definisce matrice di covarianza quella in cui si ordinano i momenti centrali del secondo ordine, in
termini matriciali per una v.c. a n dimensioni potremo scrivere:

matrice di covarianza Cxx = [cik ] = M [(x - µx) ⋅ (x - µx )T]

in particolare i termini [cik ] si definiscono:


- per i = k ⇒ Cij = M [(xi - µxi) ⋅ (xi - µxi)]= M[(xi - µxi) 2]
e prendono il nome di varianze
- per i ≠ k ⇒ Cik = M [(xi - µxi) ⋅ (xk - µxk)]
e prendono il nome di covarianza.

Consideriamo una v.c. discreta bidimensionale

x1 µ1
x = x2 µ = µ2

86
( x1 − µ x1 ) (x1 − µ x1 ) (x2 − µ x 2 ) ( x1 − µ x1 ) 2 ( x1 − µ x1 )( x 2 − µ x 2 )
C xx = M ( x 2 − µ x 2 ) ⋅ = M ( x1 − µ x1 )( x 2 − µ x 2 ) ( x2 − µ x 2 )2

σ i2 σ 12
C xx =
σ 12 σ r2

Tornando alla v.c. n/dimensionale, abbiamo visto che

Cxx = M [(x - µx) ⋅ (x - µx )T]

che sviluppata fornisce:

Cxx = M [(x⋅xT - µx ⋅ xT - x ⋅ µxT + µx ⋅ µxT )] =


= M [x⋅xT] - µx ⋅ M [xT] – M[x]⋅ µxT + µx ⋅ µxT = = M [x⋅xT] - µx ⋅ µxT - µx ⋅ µxT + µx⋅ µxT

e in definitive avremo:
Cxx = M [x⋅xT ] - µx ⋅ µxT espressione che abbiamo già visto nel caso monodimensionale:

σ2 = M[ (x-µ)2] = M [x2] - µ2

Se le v.c. n/dimensionali sono indipendenti avremo:

f(x1 x2 . . . xn) = f(x1) f(x2) . . . f(xn)

scriveremo ora la generica M[xi xk]

M [ xi x k ] = ∫ x1 x k f ( x1 x 2 x n ) ⋅ d x1 ⋅ d x2 .......d xn
e ancora

M [ xi x k ] = ∫ xi ⋅ x k f ( xi )......f(xi ).......f(x k )...... f ( x n ) ⋅ dxi ⋅ dxi ⋅ dx k ⋅ dx n =


= ∫ xi f ( xi ) ⋅ dxi ⋅ ∫ x k f ( x k ) ⋅ dx k ⋅ ∫ f ( xi ) ⋅ dxi ..........∫ f ( x n ) ⋅ dx n

87
essendo sempre ∫ f ( x )dx = 1 sarà:

M[xi ⋅ xk] = µxi ⋅ µxk e pertanto

Cik = M[xi ⋅ xk] - µx ⋅ µk = φ

e la matrice di covarianza assume la forma

σ 12 0 0
C xx = 0 σ 22 0
0 0 σ n2

Analogamente a quanto osservato per le medie è possibile esplicitare le varianze con le densità
marginali, che nel caso di una v.c. discreta a due dimensioni si scrivono:

r r
σ x2 = ∑ ( xi − µ x ) ⋅ q i
2
σ = ∑ ( y j − µ j ) 2 ⋅ Pj
2
y
i =1 j =1

Sviluppiamo la prima espressione:


r r r
σ x2 =∑ ( xi2 − 2 xi ⋅ µ x − µ x2 ) ⋅ qi = ∑ xi2 ⋅ qi − 2 µ x ⋅ ∑ xi ⋅ qi + µ x2 ⋅ ∑ qi
i =1 i =1 i =1

dove
- ∑ xi ⋅ qi =µ x ∑ qi = 1 pertanto

σ x2 = ∑ xi2 ⋅ qi − µ x2 e analogamente

σ y2 = ∑ y 2j ⋅ Pj − µ y2

Inoltre si possono definire le varianze condizionate

88
r f (x i ⋅ y j )
σ 2 ( x / y j ) = ∑ [ x i − µ ⋅ ( x i / y j )]2 ⋅
i =1
Pj
s f (x i ⋅ y j )
σ 2 ( y / x i ) = ∑ [ y j − µ ⋅ ( y / x i )]2 ⋅
j =1
qi

La propagazione di varianza
Siano y e x due v.c. legate dal legame funzionale y = g(x), sia nota la Cxx si vuole calcolare la
Cyy.
Consideriamo dapprima il caso di un legame lineare:
y = Ax + b avremo
µ y = Aµ x + b e sarà
____________
y - µ y = A( x − µ x )
avremo così:
Cyy = M [(y - µy) ⋅ (y - µy)T] = M [A ⋅ (x - µx) ⋅ AT ⋅ (x - µx)T] =
= A ⋅ M [(x - µx) ⋅ (x - µx)T] ⋅ AT = A ⋅ Cxx ⋅ AT

va sottolineato il caso particolare:


y = a1 x1 + a2 x2 +………….an xn dove

A = | a1 a2 …… an | = at pertanto

σ2y = at ⋅ Cxx ⋅ a
Nel caso in cui il legame è di tipo qualunque, ma le v.c. sono ben concentrate e la g(x) è regolare,
potremo scrivere:

⎡ϑ g (x ) ⎤
y = g(x ) ≅ g(µ x ) + ⎢ ⋅ (x − µ x )
⎣ ϑ x ⎥⎦ µ x

⎡ϑ g ( x ) ⎤ ⎡ϑ g ( x ) ⎤
= g(µ x ) + ⎢ ⎥ ⋅x − ⎢ ⋅µx
⎣ ϑx ⎦ µx ⎣ ϑ x ⎥⎦ µ x
ordinando avremo

89
⎡ ϑg ( x ) ⎤ ⎡ ϑg ( x ) ⎤
y=⎢ ⎥ ⋅ x + g(µ x ) − ⎢ ⋅ µx
⎣ ϑ x ⎦ µx ⎣ ϑx ⎥⎦ µx
14243 14442444 3
A⋅x b

pertanto
T
ϑg(x) ϑg(x)
C yy = ⋅ Cxx ⋅
ϑx µx ϑx µx

La Covarianza
Abbiamo detto che la covarianza è definita da:

CIK = M [(x - µx) ⋅ (y - µy )]

ed in particolare per una v.c. discreta a 2 dimensioni avremo:

σxy = M [(x - µx) ⋅ (y - µy )]

ma, in buona sostanza, cosa significa che tra due variabili esiste covarianza ?

La risposta sta nella espressione della probabilità condizionata:

P( AB )
P( A / B ) = =K
P( B )

ora se K ≠ P(A) questo significa che il verificarsi dell’evento B condiziona l’evento A, mentre se K
= P(A) questo significa che gli eventi A e B sono indipendenti ed in particolare:

P( AB )
P( A / B ) = = P( A ) ⇒ P( AB ) = P( A ) ⋅ P( B )
P( B )

Ritornando alla v.c. bidimensionale (xy) e passando alle frequenze avremo:

f ( xy ) = f ( x ) ⋅ f ( y )

90
e sviluppando l’espressione di σxy avremo

σ xy = M [ xy − xµ y − µ x ⋅ y + µ x µ y ] = M [ xy ] − µ x µ y
ma
M [ xy ] = ∑ xy ⋅ f ( xy )

se le variabili sono indipendenti sarà:

M [ xy ] = ∑ xy ⋅ fx ⋅ fy =∑ xf x ⋅ ∑ yf y = µ x ⋅ µ y
e quindi σxy = φ

Vediamo ora cosa succede se tra la x e la y il legame è di tipo lineare:


y = ax + b avremo
µ y = aµ x + b e sarà
____________
y - µ y = a( x − µ x )

σ xy = M[( x − µ x ) ⋅ ( y − µ y )] = M[( x − µ x ) ⋅ a ( x − µ x )] = a ⋅ σ x2

dalla propagazione di varianza sarà inoltre

2 σ y
σ y = a ⋅ σ x2 ⇒ σ x =
a

l’espressione di σxy diventa :

a σ xy
σ = σ ⋅σ ⇒ = ±1
xy
|a|
x y
σ xσ y

e si definisce coefficiente di correlazione lineare il termine


σ xy
ρ= = ±1
σ xσ y
per valori ρ
- compresi tra φ e 0.4 non c’è correlazione lineare

91
- compresi tra 0.4 e 0.7 c’è una buona correlazione lineare
- compresi tra 0.7 e 1 c’è una forte correlazione lineare

Esempio
Supponiamo di aver determinato 100 volte la posizione planimetrica di un punto

y
P(x,y)
x

i risultati ottenuti sono riassunti nella tabella seguente:

y x 10.1 10.2 10.3 10.4 y x 10.1 10.2 10.3 10.4 ƒy


Passando
8.3 25 25 Alle 8.3 0.25 0.25 0.5
8.4 frequenze 8.4
8.5 8.5
8.6 25 25 8.6 0.25 0.25 0.5
ƒx 0.5 0.5 1
100

Le medie di x e y valgono

µx = 10.10 ⋅ 0.5 + 10.40 ⋅ 0.5 = 10.25


µy = 8.3 ⋅ 0.5 + 8.6 ⋅ 0.5 = 8.45

le frequenze degli scarti δx = (x - µx) e δy = (y - µy) saranno:

δy \ δx -0.15 -0.05 0.05 0.15 ƒy


-0.15 0.25 0.25 0.5
-0.05
0.05
0.15 0.25 0.25 0.5
ƒx 0.5 0.5 1

92
Calcoliamo le varianze:
σ x2 = (−0.15)2 ⋅ 0.25 +(0.15)2 ⋅ 0.25 = 0.01125 ⇒ σ x = ±0.106
σ y2 = = 0.01125 ⇒ σ y = ±0.106
σ xy = (−0.15)⋅(0.15)⋅ 0.25 +(−0.15)⋅(0.15)⋅ 0.25 +(0.15)⋅(−0.15)⋅ 0.25 +(0.15)⋅(−0.15)⋅ 0.25 = φ

Se σxy è nulla significa che il determinarsi di un evento δx non condiziona l’evento δy, infatti
calcoliamo la probabilità condizionata che si verifichi δx = - 0.15, una volta che δy = 0.15 vale a dire

P(δ xδ y ) 0.25
P(δ x = −0.15 / δ y = 0.15) = = = 0.5
P(δ y ) 0.5

si vede così che la condizione δy = 0.15 non muta P(δx = - 0.15) che resta 0.5.

Esempio

Nella determinazione della v.c. (x, y) precedente la distribuzione degli scarti, sia la seguente:

δy \ δx -0.15 -0.05 0.05 0.15 ƒy


-0.15 0.25 0.25
-0.05 0.25 0.25
0.05 0.25 0.25
0.15 0.25 0.25
ƒx 0.25 0.25 0.25 0.25 1

Le varianze valgono:

σ x2 =(−0.15)2 ⋅ 0.25 +(−0.05)2 ⋅ 0.25 +(0.05)2 ⋅ 0.25 +(0.15)2 ⋅ 0.25 = 0.0125


σ y2 = = 0.0125
σ xy =(−0.15)⋅(0.15)⋅ 0.25 +(−0.05)⋅(0.05)⋅ 0.25 +(−0.05)⋅(−0.05)⋅ 0.25 +(−0.15)⋅(0.15)⋅ 0.25 = −0.0125

Calcoliamo ora la probabilità che δx = - 0.15 una volta che δy = 0.15, avremo:

P(xy) 0.25
P(δ x = −0.15 / δ y = 0.15) = = =1
Py 0.25
in effetti è praticamente certo che δx assumerà il valore –0.15

93