Sei sulla pagina 1di 277
Dipartimento di Informatica Corso di Laurea in Informatica Insegnamento di Calcolo delle Probabilita` e Statistica

Dipartimento di Informatica Corso di Laurea in Informatica Insegnamento di Calcolo delle Probabilita` e Statistica

Nicola Cufaro Petroni

Lezioni di

Calcolo delle Probabilita`

e

Statistica

anno

accademico

2015/16

Copyright c

Universit`a degli Studi di Bari Aldo Moro Dipartimento di Matematica via E. Orabona 4, 70125 Bari

2016 Nicola Cufaro Petroni

Prefazione

La struttura di queste lezioni riflette la ben nota complementarit`a delle discipline che vanno sotto il nome di Probabilit`a e di Statistica. Per essere pi`u chiari co- minceremo con un esempio: supponiamo di voler conoscere l’orientamento politico

`

E ben noto che in questo caso si

organizzano delle elezioni che consistono nel raccogliere il voto di tutti gli elettori.

Una volta esaurite le operazioni di voto si passer`a allo spoglio delle schede e alla

registrazione dei risultati. Tali risultati si presentano in generale come una grande quantit`a di dati numerici che possono essere esaminati, combinati e rappresentati

in diverse maniere in modo da estrarre l’informazione rilevante ai fini elettorali. Le

elezioni generali sono per`o tipicamente delle operazioni complesse e costose, e per

questo motivo spesso si preferisce affidarsi a dei sondaggi per avere delle informazio-

ni, almeno approssimative e provvisorie, sulla volont`a dei cittadini. Questi sondaggi

consistono nella registrazione delle opinioni di un piccolo numero di soggetti, a par- tire dal quale si ricavano delle indicazioni sulla volont`a generale della popolazione intera. Ovviamente i sondaggi non possono essere sostitutivi delle elezioni, e non solo perch`e bisogna dare a tutti i cittadini la possibilit`a di esprimere la propria opinione, ma anche per una profonda differenza fra i dati delle due operazioni. Il

risultato del sondaggio, infatti, `e aleatorio: siccome il campione di cittadini intervi- stato `e scelto casualmente, una ripetizione del sondaggio – per quanto eseguita con i medesimi criteri – porterebbe inevitabilmente a dei risultati numerici diversi, anche

se di poco. Viceversa nel caso delle elezioni l’indagine esaurisce l’intera popolazione

degli elettori: una eventuale ripetizione del voto – supponendo per semplicit`a che non vi siano ripensamenti o errori – non modificherebbe il risultato. Noi diremo che l’esame dei risultati elettorali complessivi `e compito della Statistica descrittiva, mentre le tecniche per ricavare informazioni su tutta la popolazione a partire dai risultati relativi a un piccolo campione sono parte della Statistica inferenziale. Natu- ralmente, come `e noto, l’uso dei sondaggi comporta dei rischi dovuti alla aleatoriet`a

dei loro esiti, per cui diventa essenziale per la Statistica inferenziale essere in grado

di misurare l’affidabilit`a dei risultati: in questo giocheranno un ruolo essenziale i

generale dei cittadini di un determinato paese.

concetti e le tecniche del Calcolo delle probabilit`a. Si noti che nel caso dell’esempio elettorale citato la possibilit`a di registrare il voto di tutti i cittadini esiste comunque: pertanto, in linea di principio, `e sempre possibile confrontare i risultati dei sondaggi con quelli delle elezioni generali e verificarne quindi l’attendibilit`a. Questa possibilit`a, per`o, non sussiste sempre: in molti casi

I

N. Cufaro Petroni: Probabilita` e Statistica

infatti un’indagine che esaurisca l’intera popolazione semplicemente non `e possibile,

e ci si deve accontentate invece di esaminare le misure eseguite su un campione

tentando di dedurne le caratteristiche generali del fenomeno studiato. Ad esempio in linea di principio la misura della massa di una particella elementare pu`o essere

eseguita infinite volte, e data la delicatezza della misura i risultati variano sempre in maniera aleatoria. In pratica il numero delle nostre misure sar`a sempre finito,

e d’altra parte, per quanto grande sia questo numero, non potremo mai dire di

aver esaurito l’intera popolazione teoricamente disponibile. Allo stesso modo la determinazione della lunghezza media degli insetti di una determinata specie non potr`a che essere effettuata su un campione casuale, visto che l’intera popolazione di insetti resta comunque praticamente inaccessibile. In queste occasioni, ovviamente,

il raffinamento delle tecniche probabilistiche diventa essenziale. Nasce da queste osservazioni la struttura – ormai classica – di queste lezioni divise in due parti. La prima introduce i concetti pi`u rilevanti del Calcolo delle Probabilit`a (variabili aleatorie, distribuzioni, attese) e le corrispondenti procedure di calcolo; la seconda esamina invece dapprima gli strumenti principali della Statistica descrittiva (tabelle, grafici, indici di centralit`a e dispersione, correlazioni), e poi le tecniche pi`u note della Statistica inferenziale (stime, intervalli di fiducia, test di ipotesi) per le quali si riveleranno essenziali le nozioni di probabilit`a che sono state premesse.

Per ovvie ragioni di spazio e tempo gli argomenti non saranno trattati in maniera esaustiva: in particolare la parte di Calcolo delle Probabilit`a `e principalmente rivolta

a fornire quanto necessario per una corretta comprensione della parte di Statistica

inferenziale. Lo scopo del corso rimane quello di mettere gli studenti in grado di usare gli strumenti pi`u semplici e pi`u noti della probabilit`a e della statistica, ma anche di stabilire alcuni pilastri concettuali che consentano loro – qualora se ne presentasse l’occasione – di estendere le loro capacit`a in maniera autonoma.

Bari, marzo 2016

Nicola Cufaro Petroni

II

Indice

Prefazione

I

I Calcolo delle Probabilit`a

 

1

1 Spazi di probabilit`a

3

1.1 Spazio dei campioni .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

3

1.2 Eventi

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

5

1.3 Probabilit`a

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

7

2 Condizionamento e indipendenza

 

11

2.1 Probabilit`a condizionata

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

11

2.2 Indipendenza

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

13

3 Variabili aleatorie

 

17

3.1 Variabili e vettori aleatori

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

17

3.2 Funzioni di distribuzione

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

20

3.3 Leggi discrete

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

22

3.3.1 Legge degenere

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

23

3.3.2 Legge di Bernoulli

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

3.3.3 Legge binomiale .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

24

3.3.4 Legge di Poisson

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

26

3.4 Leggi continue .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

27

3.4.1

Legge uniforme

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

3.4.2

3.4.3

3.5 Quantili

. Leggi del chi-quadro, di Student e di Fisher . .

.

Legge normale o Gaussiana

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

29

31

35

3.6 Leggi multivariate .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

39

4 Attesa, varianza e correlazione

 

43

4.1 Valore d’attesa

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

43

4.2 Varianza, covarianza e correlazione

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

45

4.3 Momenti .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

50

4.4 Esempi di attese e varianze .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

50

III

N. Cufaro Petroni: Probabilita` e Statistica

INDICE

 

4.4.1 Distribuzioni discrete .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

51

4.4.2 Distribuzioni continue

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

52

5

Teoremi limite

55

5.1 Convergenza

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

55

5.2 Legge dei Grandi Numeri .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

56

5.3 Teorema Limite Centrale .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

60

5.4 Teorema di Poisson

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

64

II

Statistica

67

6 Statistica descrittiva univariata

 

69

 

6.1 Dati e frequenze

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

69

6.2 Tabelle e grafici

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

73

6.3 Moda, media e varianza

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

77

6.4 Mediana, quartili e quantili

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

85

6.5 Momenti, asimmetria e curtosi .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

89

6.6 Medie generalizzate .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

90

7 Statistica descrittiva multivariata

 

93

 

7.1 Statistica bivariata

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

93

7.2 Covarianza, correlazione e regressione

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

96

7.3 Statistica multivariata

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 100

7.4 Componenti principali

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 101

8 Statistica inferenziale: Stima

 

109

 

8.1 Stima puntuale

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 109

8.1.1 Stima di parametri

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 112

8.1.2 Stima di distribuzioni .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 113

8.2 Stima per intervalli

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 120

8.2.1 Intervallo di fiducia per l’attesa µ

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 121

8.2.2 Intervallo di fiducia per la varianza σ 2

.

.

.

.

.

.

.

.

.

.

.

.

. 124

8.3 Stima di Massima Verosimiglianza .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 125

9 Statistica inferenziale: Test di ipotesi

 

131

 

9.1 Ipotesi, decisioni ed errori

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 131

9.1.1

Discussione dettagliata di un test

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 135

9.2 Test sulla media

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 139

9.2.1 Test di Gauss

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 141

9.2.2 Test di Student

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 144

9.3 Test per il confronto delle medie .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 146

9.3.1 Campioni accoppiati

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 147

9.3.2 Campioni indipendenti

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 150

IV

INDICE

INDICE

9.4 Test di Fisher sulla varianza

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 152

9.5 Test del χ 2 di adattamento .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 154

9.6 Test del χ 2 di indipendenza

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 160

III

Appendici

163

A Esercizi

 

165

A.1

Calcolo delle probabilit`a

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 167

A.2

Statistica Descrittiva

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 184

A.3

Statistica Inferenziale .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 205

B Schemi

 

241

B.1

Formulario di Statistica Inferenziale

 

.

.

.

.

.

.

.

.

.

.

.

.

.

. 243

C Domande

 

247

C.1

Calcolo delle probabilit`a

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 249

C.2

Statistica

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 252

D Richiami

 

255

D.1

Calcolo vettoriale

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 257

E Tavole

 

259

E.1

Legge Normale standard N (0, 1)

 

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 261

E.2

Legge di Student T (n)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 262

E.3

Legge

del chi-quadro χ 2 (n) .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 263

E.4

Legge di Fisher F(n, m)

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 264

E.5

Valori di e λ .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

. 266

Indice analitico

V

267

Parte I Calcolo delle Probabilit`a

1

Capitolo 1 Spazi di probabilit`a

1.1 Spazio dei campioni

L’origine del calcolo delle probabilit`a (verso la met`a del XVII secolo) `e strettamente legata a celebri problemi di gioco d’azzardo dai quali partiremo anche noi per in- trodurre i primi concetti, ma esso `e oggi largamente usato in ogni ambito scientifico per produrre modelli di fenomeni naturali e risolvere i problemi associati. Inoltre la probabilit`a diviene uno strumento essenziale per la statistica quando si considerano campioni estratti da una popolazione mediante procedure casuali. In questo caso, infatti, i calcoli non sono pi`u effettuati su tutta la popolazione esistente, e le sti- me saranno soggette a variazioni aleatorie quando il campionamento viene ripetuto. Consideriamo inizialmente degli esempi di esperimenti che diano luogo solo ad un numero finito di possibili risultati (o eventi elementari) casuali

Esempio 1.1. Il caso pi`u semplice `e quello del lancio di una moneta nel quale si osserva il verificarsi di uno dei due risultati possibili: la moneta cade mostrando la faccia con la testa (T ); oppure la moneta cade mostrando la faccia con la croce (C). Dire che la moneta `e equa vuol dire che essa `e non truccata, nel senso che nessuno dei due risultati `e favorito rispetto all’altro ed `e possibile attribuire loro le medesime possibilit`a di verificarsi; in tal caso diremo anche che i due eventi elementari T e C sono equiprobabili. Per dare una veste quantitativa a queste considerazioni si usa attribuire ad ogni evento elementare una probabilit`a intesa come frazione dell’unit`a, sicch´e nel nostro caso avremo:

p = P{T} =

1 / 2

q = P{C} =

1 / 2

Osserviamo che p + q = 1, dato che con certezza (ossia con probabilit`a eguale ad 1) uno dei due casi, T oppure C, si verifica, e non vi sono altre possibilit`a.

Esempio 1.2. Considerazioni analoghe a quelle dell’Esempio precedente applicate

al caso di un dado equo conducono alla seguente attribuzione di probabilit`a per le sei

facce che qui indicheremo con le cifre romane I, II,

.

, V I:

p 1 = P{I} =

1 / 6 ;

; p 6 = P{V I} =

1 / 6

.

.

3

N. Cufaro Petroni: Probabilita` e Statistica

Osserviamo che anche in questo caso si ha p 1 +

+ p 6 = 1.

Da quanto precede si ricava che, almeno per casi semplici, si possono attribuire delle probabilit`a mediante una enumerazione. Questa idea `e alla base della cosiddetta definizione classica della probabilit`a: per attribuire una probabilit`a ad un evento

A (in generale non elementare, cio`e non ridotto ad un solo risultato) si enumerano i

risultati possibili (se ritenuti, in base a qualche ipotesi, equiprobabili), e quelli favo- revoli all’evento A (quelli, cio`e, che danno luogo al verificarsi di A), e si attribuisce ad A la probabilit`a:

P{A} = numero dei casi favorevoli numero dei casi possibili

Notiamo che anche in questo caso la probabilit`a assegnata ad A `e un numero positivo compreso fra 0 ed 1.

Esempio 1.3. Nel lancio di un dado equo consideriamo gli eventi (non elementari)

A = “appare una faccia contrassegnata da un numero pari”, B = “appare una faccia

contrassegnata da un multiplo di tre”, C = “appare una faccia diversa da V I”. Una semplice enumerazione in base alla definizione classica ci porta a concludere che, essendo 6 i casi possibili, e rispettivamente 3, 2 e 5 i casi favorevoli ad A, B e C, si avr`a:

P{A} =

3 / 6 =

1 / 2 ;

P{B} =

2 / 6 =

1 / 3 ;

P{C} = 5 / 6

Consideriamo ora un lancio di due dadi non truccati. `e facile verificare che i risultati elementari possibili sono ora 36, cio`e quante sono le coppie ordinate (n, m) dove n

ed m possono assumere i 6 valori I,

dunque dire ora che i 36 eventi elementari (I, I) ; (I, II) ;

L’ipotesi che i dadi siano equi vuol

; (V I, V I) sono tutti

equiprobabili e pertanto si ha

, V I .

P{I, I} =

1 / 36 ;

P{I, II} =

1 / 36 ;

.

.

.

; P{V I, V I} =

1 / 36

Sempre per enumerazione si pu`o verificare allora ad esempio che all’evento A = “non appare la coppia (V I, V I)” si pu`o attribuire una probabilit`a P {A} = 35 / 36 .

Dalla discussione precedente segue che la probabilit`a di un evento pu`o essere pensata come un numero compreso tra 0 ed 1: il valore 1 indica la certezza del verificarsi, e il valore 0 la sua impossibilit`a; i valori intermedi rappresentano tutti gli altri casi. Queste probabilit`a possono essere calcolate nei casi semplici mediante una enumerazione di risultati equiprobabili, ma questo metodo non pu`o in nessun modo essere considerato come generale. Alla fine di questa sezione e nelle due sezioni seguenti riassumeremo queste con- siderazioni introduttive in alcune definizioni formali che preciseranno i principali concetti di base del calcolo delle probabilit`a

Definizione 1.4. Chiameremo spazio dei campioni o