Sei sulla pagina 1di 120

Universit degli Studi di Sassari Facolt di Agraria

DIPARTIMENTO DI SCIENZE ZOOTECNICHE


Corso di laurea in Scienze Zootecniche

APPUNTI DI STATISTICA
Prof. Giuseppe Pulina

Variabilit e regolarit sono due leggi di Natura

anno accademico 2003/2004

Caso e Necessit
La vita breve ma i conti possono essere molto, molto lunghi. J. Barrow Una fredda mattina di marzo il signor Caso incontr la signorina Necessit. Appena riconosciutola, egli si esib in un perfetto inchino, Buongiorno Signorina, che piacere incontrarla, squill con un largo sorriso. Buongiorno a lei, ribatt ella niente affatto sorpresa, A dirle la verit mi aspettavo questo incontro. Eh, fece con fare ammiccante lui, Da quando la conosco lei ha sempre previsto i nostri incontri che per me restano, mi lasci dire, cos sorprendentemente aleatori. Scusi, aggiunse facendosi serio, Dove starebbe il piacere della sorpresa nel vedere un conoscente se tutto fosse sempre rigidamente programmato? La signorina tacque quasi rapita dall'abbigliamento disarmante del suo interlocutore. Per quanto si sforzasse di ricordare, non l'aveva mai visto conciato con un minimo di raziocinio. Le scarpe spaiate facevano letteralmente a botte con la cravatta indossata in barba ai pi elementari principi di accostamento dei colori e delle forme. Non solo quest'uomo non ha uno stile ben definito, pens turbata, Ma semplicemente non ha uno stile. Sinceramente, mi riuscirebbe difficile formulare gli accostamenti strampalati che ogni volta gli ho visto indossare. Da parte sua lei sembrava l'immagine della perfezione. Non un ciuffo fuori posto, non un filo negli abiti, non un colore che non fosse perfettamente intonato con gli altri. Del modo di essere delluomo ci che lei sopportava meno era quel suo vizio di giocare perennemente con una monetina, lanciandola per aria e costernandosi ogni volta per la faccia che questa mostrava nel ricadergli sul palmo della mano. E la smetta un attimo! sbotto. Le ho detto tante volte che mi innervosisce... Scusi, davvero... rispose il signor Caso, riponendo velocemente la moneta nelle ampie tasche del soprabito. Ma anche la sua mana di giocare a scacchi non appena si trova sotto mano una scacchiera non meno fastidiosa. Tanto, sa, anche in un gioco cos rigorosamente determinato c un minimo di casualit. E quale sarebbe? ribatt piccata. Ma la scelta del colore con cui giocare, naturalmente, esattamente come per la faccia della mia moneta. La differenza che io poi non perdo altro tempo per sapere come va a finire! concluse ridacchiando. La signorina ammutol. Era inutile continuare a discutere con costui o sarebbe andata come le altre volte, cio male. Due corvi schioccarono laria rincorrendosi fra i tetti. Necessit si scosse da questi pensieri e decise di cambiare discorso, Cosa diceva a proposito dellincontro? Non ci sarebbe gusto? Lei, nel suo sommo disordine mentale e materiale che io paragono soltanto a quello di cui capace suo cugino il signor Caos che conosco bene, non capisce che questo mondo funziona soltanto perch siamo capaci di formulare previsioni certe circa il futuro. Cosa succederebbe se dato un appuntamento ci si scordasse sistematicamente ora e luogo da parte dei convenienti? Sarebbe il caos, appunto, concluse mentre scorgeva un'ombra sinceramente interrogativa sul volto di lui. Ah, mi scusi, aggiunse, Dimenticavo che lei non rispetta mai un appuntamento, ma si sa che lei un gran smemorato... Il silenzio si impadron della strada, mentre un grappolo di nuvole nere frastagliava il cielo in sprazzi di sole e di piovaschi. I due camminarono per un lungo tratto in silenzio riparandosi sotto i balconi per sfuggire agli improvvisi scrosci di pioggia. La signorina Necessit prese l'uomo sottobraccio, quasi per proteggersi dalle improvvise intemperie, e lui la vide per la prima volta, bellissima nella sua perfezione e, quasi, si vergogn del suo aspetto vagamente trasandato. Gli vennero in mente le parole della madre Alea, Figlio mio, tu hai bisogno di una donna ordinata. Cercala subito, altrimenti finirai come tuo cugino che tanto disordinato che non gli si avvicina pi nessuna ragazza per bene. Avrei bisogno di una donna, sussurr quasi fra se, e lei, che lo aveva gi scelto, gli strinse l'avambraccio. Finirono in un caff, a raccontarsi due vite diversissime e a capire come potesse vivere uno senza aspettarsi nulla dal futuro e l'altra sapendo esattamente quello che sarebbe successo comunque, ma l'amore unisce gli impossibili e finirono per sposarsi, non senza che lei producesse uno sforzo straordinario anche per averlo all'altare il giorno convenuto. Ebbero una figlia bellissima, alla quale misero il nome di Statistica .

LEZIONE n. 1

LA STATISTICA
1. Cosa la statistica e a cosa serve. Uno degli aspetti pi rilevanti di un corso di statistica di base quello di definire in modo comprensibile loggetto dello studio e lutilizzo dello strumento che si va ad acquisire. La mancata o imprecisa risposta a queste due domande porta ineluttabilmente da un lato a costruire una disciplina su un terreno paludoso (la non comprensione dei fondamenti della statistica) e dallaltro alla disaffezione degli studenti (la non finalizzazione dello studio). In questo nostro corso dedicheremo molto spazio alla discussione su cosa sia e a cosa serva la statistica. Innanzitutto cerchiamo di non confondere le due cose: non sufficiente sapere a cosa serve un oggetto per sapere che cosa loggetto. Per questo motivo iniziamo da capo (proprio da capo). Gli oggetti fondamentali di cui si occupa la statistica sono le entit. Queste sono le cose che popolano il mondo esterno e il mondo esterno ci che fuori di noi e che possiamo osservare. Di solito non facciamo distinzioni fra entit che popolano il mondo esterno e quello interno, ma le entit della nostra mente di solito ci servono per riconoscere quelle del mondo esterno. Il concetto di entit appreso di solito nella prima infanzia quando organizziamo gli stimoli che entrano dal mondo esterno nella nostra testa classificandoli in differenti tipi. Ad esempio, il bambino impara molto precocemente a conoscere entit che hanno due occhi, un naso, una bocca, dei capelli e che le entit madre, padre, fratello e altre simili hanno le stesse caratteristiche. Il bambino classifica cos tutte le entit simili per queste caratteristiche nel tipo persone e questa capacit di classificare (riconoscere) entit con tali caratteristiche non lo abbandoner per tutta la vita. Questo processo analogo per tutte le entit e rappresenta il livello pi profondo della capacit di apprendimento delluomo (e in parte anche degli animali superiori). Raggruppare le entit entro tipi, infatti, semplifica enormemente la vita in quanto siamo capaci di riconoscere che tutte le entit appartenenti allo stesso tipo hanno molte cose (propriet) in comune. Le entit non sono solo oggetti (o soggetti) materiali. Possono essere anche manifestazioni di fenomeni (febbre, file di internet, tempo metereologico, ecc) oppure qualsiasi altra cosa a cui possa essere attribuito un nome. Linsieme delle entit classificate entro lo stesso tipo prende il nome di popolazione. Questo termine molto importante: la statistica infatti si occupa non della singola entit, ma dellinsieme delle entit raggruppate per tipo, cio della popolazione.
3

Ma come facciamo a classificare le entit entro le popolazioni? A ciascuna entit associato un insieme di propriet. Ad esempio, a ciascuna persona sono associate migliaia di propriet, due delle quali sono il peso e laltezza. Per ogni particolare entit, ciascuna delle sue propriet ha un valore. Ad esempio, allentit Giuseppe Pulina, della popolazione uomini italiani, sono, tra le molte, associati i valori di 176 cm per la propriet altezza e di 74 kg per la propriet peso corporeo. Il valore di una propriet pu essere espresso in numeri, in parole oppure in simboli. Ad esempio, lentit succitata G.P. presenta i valori delle seguenti propriet: 43 per la misura di scarpe, Sardo per lappartenenza regionale, 0RH+ per il gruppo sanguigno. Noi possiamo individuare una entit mediante i valori delle sue propriet: maggiore la popolazione per ciascuna propriet, maggiori sono le propriet che dovremo considerare nel processo di individualizzazione di una entit. I valori delle propriet delle entit di solito variano da una entit allaltra, ma a volte anche nella stessa entit con il passare del tempo. Se una propriet non presenta valori che variano (sono costanti) essa non di alcun aiuto nel processo di individualizzazione dellentit. Un esempio (semiserio): una monaca si reca a trovare un monaco in un monastero, ma non ricorda il nome. Il padre portinaio le chiede di descrivere il soggetto per poterlo individuare. La monaca ci pensa e risponde che veste una tonaca bruna, ma il padre replica che tutti i monaci vestono una tonaca bruna (propriet costante)! Allora la monaca aggiunge che il monaco ha una cintura di corda, ma anche in questo caso non possibile individuarlo perch tutti i monaci portano cinture di corda. Anche le altre propriet via via riportate dalla monaca (capelli tagliati con la chierica, breviario in mano, barbetta rada sotto il mento) non sono utili, in quanto tutto i monaci presentano gli stessi valori di queste propriet. Alla fine, spazientita, la monaca sbotta ha 28 nei sulla schiena!!. A quel punto il padre portinaio si illumina: Ma padre Febbraio! Con 28 ce n uno, tutti gli altri ne hanno 31!. Questa storiella dimostra che ai fini delle conoscenza (in tal caso anche biblica) importante che le propriet delle entit oggetto di studio siano variabili. La determinazione del valore delle propriet viene eseguita mediante rilevazione empirica con gli strumenti di misura. Se lo strumento funziona correttamente, esso ci dar una stima del valore della propriet di una determinata entit al tempo della misurazione. Ad esempio se noi volessimo conoscere il (valore del) peso (propriet) di una persona (entit), noi applichiamo alla persona uno strumento di misura del peso (bilancia) e lo strumento ci restituisce il valore che (in kg) rappresenta la stima del peso della persona. Anche nel caso di propriet esprimibile come categorie (propriet categoriali) si applica uno strumento per ottenere una stima del valore. Ad esempio, nella misurazione del genere di una persona, si applica lo strumento vista e, dallinsieme delle
4

caratteristiche osservabili, si ottiene la risposta maschio o femmina. Ma anche in questo caso vi pu essere un (seppure remoto) errore, come dimostra una sterminata aneddotica sui travestiti. La conoscenza scientifica del mondo e la sua applicazione tecnologica, sono basate sulla ricerca empirica. La ricerca empirica ciascuna attivit in cui i valori delle propriet delle entit oggetto di studio, sono raccolti mediante lesperienza (esperimento) e le cui conclusioni sono tratte esclusivamente dai dati raccolti in quellarea di esperienza. La ricerca empirica usa gli strumenti per determinare i valori delle propriet. Linsieme dei valori raccolti per ciascuna propriet, chiamati anche dati (ossia ci che prima di qualsiasi manipolazione), appartiene ad una variabile. rappresentazione formale di una propriet di entit. Ad esempio, la propriet altezza delle persone una variabile detta appunto variabile altezza; la propriet genere di una parte degli esseri viventi la variabile genere (anche se assume solo 2 valori, maschio o femmina); la propriet colore della facciata delle case la variabile colore della facciata delle case che pu assumere infiniti valori nominali (tanti quanti sono i colori e le loro sfumature). Le variabili sono costituite da valori: esse sono definite continue se possono assumere qualsiasi valore nel campo della loro esistenza, discrete se possono assumere solo valori discontinui. Ad esempio, la variabile altezza di una persona adulta pu assumere qualsiasi valore nel campo della sua esistenza (da 50 ai 250 cm), ma non il valore di 1000 cm! La variabile appartenenza regionale di un italiano pu assumere solo uno dei 20 valori corrispondenti alle regioni dItalia, ma nessun valore intermedio. Gli statistici amano denominare variante il singolo valore di una variabile: il dato 176 cm di (misura della ) altezza (propriet) di Giuseppe Pulina (entit) una variante della variabile altezza. Ogni ricerca sperimentale produce dati. I dati possono essere utilizzabili se sono organizzati in tabelle. Ciascuna riga della tabella associata con una entit del tipo che stiamo studiando. Ciascuna colonna della tabella associata a una propriet delle entit costituenti la popolazione. Ad esempio, se stiamo studiando la produzione giornaliera di latte e il contenuto di grasso e proteine allo scadere del terzo mese di lattazione delle pecore di compare Bastiano (ovini di razza Sarda), possiamo programmare un esperimento in cui andiamo a rilevare la produzione individuale di ciascuna mungitura (raccogliamo il latte di ciascuna pecora in un contenitore a tara nota e lo pesiamo) e preleviamo un campione di latte su cui eseguiamo le analisi chimiche in laboratorio. Una variabile allora definibile come la

Popolazione di entit

variabili = valori delle propriet della popolazione

Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300

Grasso % Proteine % 6,54 5,18 7,44 5,75 7,62 5,69 8,55 5,42 7,57 5,77 5,81 5,26 8,34 5,78 7,11 6,09 6,46 5,16 6,59 5,23 7,53 5,24 6,97 5,34 5,98 4,82 6,39 5,3 7,49 6,04 7,4 5,24 7,16 6,11 7,41 6,24 8,56 5,69 7,76 5,73 6,41 5,45 8,05 5,04 6,43 5,03 6,99 5,66 7,17 5,46

Valori delle propriet della entit n. 1

Possiamo facilmente notare che la popolazione di 25 pecore (il gregge di compare Bastiano) e definita dalle propriet produzione di latte, grasso e proteine in % al terzo mese di parto degli animali. La tabella ci da una prima visione del fenomeno, ma ci informa anche sul piano sperimentale usato: il piano sperimentale, in questo caso, consistito nel rilevare le produzioni di latte, grasso e proteine di ciascuna pecora (vi sembrer banale, ma vedremo in seguito che non lo affatto). A questo punto possiamo dare una risposta alla domanda a che cosa serva la statistica? Lo scopo principale di una ricerca empirica quello di predire e controllare il valore delle variabili di determinate entit. Ad esempio, uno degli scopi dellalimentazione animale prevedere e controllare lingestione alimentare di una determinata specie e categoria per poter formulare la pi idonea razione alimentare. Ora, lingestione, per ciascuna popolazione animale, riflette un insieme di propriet (variabili) zootecniche quali il peso corporeo dellanimale, il livello produttivo, la qualit delle produzioni e altre misure dello stato degli animali. Se si capisce come prevedere e controllare lo stato degli animali che influenza lingestione alimentare, allora possiamo anche

formulare razioni alimentari corrette (con risultati notevoli in termini di economia gestione dellallevamento e di benessere degli animali allevati). Una volta giunti al controllo e alla possibilit di prevedere un fenomeno possiamo anche capirlo e spiegarlo: il primo scopo proprio della tecnologia, il secondo proprio della scienza. Ma, come recita la frase di Peter Van Soest (uno dei massimi esponenti dellalimentazione animale) riportata nel sito del nostro Dipartimento, utilizzare senza capire uneresia.. La statistica allora uno strumento per capire, spiegare, controllare e prevedere un fenomeno. In altri, e definitivi, termini, il principale scopo di una ricerca empirica quello di scoprire come prevedere e controllare (con la massima accuratezza possibile) i valori delle variabili (propriet) di entit di una popolazione ed essere in grado di spiegare e capire il fenomeno che esse rappresentano. 2. La relazione fra variabili la chiave per la previsione ed il controllo di un fenomeno. Una volta stabilito che il principale scopo della ricerca empirica quello di controllare e prevedere il valore delle variabili, dobbiamo ora capire come fare ci. La risposta : noi possiamo controllare e prevedere i valori delle variabili studiando le relazioni fra le variabili. Nella relazione fra variabili una (detta variabile risposta) dipende da una o da pi altre variabili (dette variabili predittrici). Tutta la statistica gira intorno a questa semplice idea: trovare (se esistono) le relazioni fra le variabili che stiamo studiando. Ma cosa significa relazione fra variabili?. Una semplice risposta : esiste una relazione se la variabile dipendente si muove in accordo (cresce o decresce al crescere o decrescere) con la (le) variabile(i) predittrice(i). La variabile predittrice anche chiamata variabile indipendente mentre quella risposta anche detta variabile dipendente. In matematica la prima anche contrassegnata con la lettera y, e le seconde con la lettera x (x1, x2,x3, ecc..). Riprendiamo lesempio delle pecore di compare Bastiano. Esiste una relazione fra produzione di latte e contenuto in grasso o in proteine del latte? Per capirlo iniziamo a disporre i dati su un piano cartesiano. La variabile grasso e quella proteina sono entrambi risposta e il latte predittrice. In questo caso, ciascuna coppia di dati (latte/grasso e latte/proteine) ha una coppia di valori associati a ciascuna entit. Ogni pecora, infatti identificata da due valori di tale coppia (la pecora 1, ad esempio, ha prodotto 1015 g/d di latte con il 6,54% di grasso ed il 5,18% di proteine). Vediamo ora i grafici che ne derivano.

Relazione fra produzione e grasso delle pecore di Bustiano


Contenuto di grasso (%) 9 8,5 8 7,5 7 6,5 6 5,5 5 500

700

900

1100

1300

1500

1700

Produzione di latte (g/d)

Relazione fra produzione e proteine delle pecore di Bustiano


Contenuto di proteine (%)

6,5 6 5,5 5 4,5 4 500 700 900 1100 1300 1500 1700

Produzione di latte (g/d)

Vediamo subito che per il grasso non c una tendenza evidente, mentre per le proteine possiamo scorgere una leggera tendenza di queste a diminuire quando il latte aumenta. Quando siamo interessati allo studio delle relazioni fra le variabili di solito non tendiamo a sottoporre a misura tutte le entit della popolazione perch ci pu essere impossibile o comportare
8

enormi spese (ricordiamo SEMPRE che la rilevazione di un dato ha un costo e pi dati raccogliamo pi spese sosteniamo). Per questo motivo i ricercatori sottopongono a studio una porzione della popolazione chiamata campione che varia in entit da un minimo di 6 ad un massimo di 2000 unit. Tuttavia, per quanto riguarda la variabile altezza della popolazione di italiani, esiste una notevole eccezione. Infatti laltezza dei maschi italiani nota per (quasi) tutta la popolazione attraverso la misurazione effettuata con la visita della leva militare, mentre per le donne questa variabile pu essere rilevata solo su un (per quanto ampio) campione. Lo scopo dei ricercatori allora quello di generalizzare quanto osservato sul campione alla popolazione a cui il campione appartiene (popolazione target). Affinch la generalizzazione sia valida, cio perch il controllo e la predizione del comportamento della variabile studiata possa essere esteso allintera popolazione, il campione impiegato per eseguire le misure deve essere rappresentativo della popolazione stessa. Per assicurasi che il campione sia rappresentativo occorre tenere presenti due aspetti: esso deve essere casuale (esso pu potenzialmente contenere ogni entit della popolazione) e deve essere numericamente consistente. Esportare alla popolazione le conclusioni che traiamo su un campione detto, in linguaggio statistico, compiere una inferenza dal campione alla popolazione. Ad esempio, se tentassimo di generalizzare le osservazioni compiute sulle pecore di compare Bastiano allintera popolazione delle pecore di razza Sarda (4 milioni di capi) dovremo tenere conto che si tratta innanzitutto di un campione non casuale (nel campione non possono capitare per caso le pecore di zio Pasquale, o di cugino Giacomo) e numericamente molto ridotto (solo 25 pecore). Quando non sono osservate queste due condizioni, il campione detto non rappresentativo e le stime che si fanno su esso sono distorte, valgono cio solo per il campione e non possono essere estese, se non con molta cautela, alla popolazione. Le tecniche statistiche, se applicate correttamente (cio ad un campione buono della popolazione) ci rivelano con quale fiducia possiamo estendere le stime ottenute sul campione (stime campionarie) alla popolazione a cui il campione appartiene: questo aspetto denominato dagli statistici accuratezza della stima e pu essere misurato. La gran parte del nostro corso sar impiegata ai problemi della stima e della sua accuratezza. In definitiva, la statistica ci aiuta a studiare una variabile e i suoi rapporti con altre variabili in un campione di una popolazione al fine di estendere i risultati ottenuti dal campione (stime campionarie) allintera popolazione con un certo grado di accuratezza. Arrivati a questo punto, tentiamo di riassumere: se qualche passaggio non vi chiaro, tornate indietro e cercate di capirlo prima di proseguire.
9

Dunque: la statistica si occupa di entit, in buona sostanza di tutto ci le cui propriet possono essere misurabili in qualche modo. Le misure delle propriet sono i valori i quali, se variano fra una entit ed unaltra, costituiscono una variabile. La statistica studia le variabili per controllare e predire il loro comportamento e per spiegare e capire il fenomeno rappresentato dalle entit studiate. Lo scopo della ricerca empirica ottenere delle informazioni da una variabile (stime) e studiare le relazioni fra le variabili. Normalmente i dati sono raccolti su una parte della popolazione che detta campione. Le stime ottenute sul campione possono essere estese alla popolazione con il procedimento dellinferenza. Esse sono affidabili solo se il campione rappresentativo della popolazione target, altrimenti sono distorte. Siamo giunti ,infine, a poter formulare una risposta alla seconda: cosa la statistica? La Statistica un set di tecniche generali ottimali che aiutano i ricercatori empirici nello studio delle variabili e delle relazioni fra variabili di campioni di entit, principalmente come mezzo per prevedere accuratamente e controllare i valori delle variabili (propriet) nelle entit delle popolazioni (D. Macnaughton).

10

Lezione n. 2 PROBABILITA

1. Perch ci interessa la probabilit In ogni corso di statistica che si rispetti, ad un certo punto compare la probabilit. In molti casi un argomento che trattato allinizio del corso come propedeutico agli altri, in altri costituisce uno dei capitoli principali di studio. Quale aspetto lega il calcolo delle probabilit con lo studio delle variabili cos come descritte nella lezione precedente? Diamo subito una prima risposta: poich una variabile (insieme di dati della propriet di una entit) pu assumere diversi valori, tali valori possono essere raggruppati in classi di frequenza relativa (le volte che i valori della variabile ricadono in quella classe) e la frequenza con cui una determinata classe di valori compare nella variabile segnala la probabilit con cui posso trovare tale valore nel campione (o nella popolazione) che ho in studio. Il calcolo delle probabilit nacque circa tre secoli fa per analizzare certe situazioni inerenti al gioco dazzardo. Attualmente una delle discipline pi diffuse negli insegnamenti universitari e trova molte applicazioni nelle scienze biologiche, mediche, fisiche, sociali. Tra le applicazioni a noi pi vicine possiamo ricordare la valutazione dei risultati di esperimenti condotti su un campione di animali ( esperimenti di alimentazione, di tecnica di allevamento, ecc..); la previsione dellandamento di un fenomeno legato alla biologia degli animali quale la curva di lattazione o la curva di accrescimento, lo studio delle relazioni fra i caratteri misurabili direttamente sugli animali (fenotipi) ed il loro determinismo genetico (genotipi), lo studio delle modalit con cui si diffonde una infezione o una parassitosi fra gli animali (epidemiologia). In genere, il calcolo delle probabilit rappresenta lo strumento che consente di rendere razionale il comportamento delluomo di fronte allincertezza. Esso viene infatti applicato in tutte quelle situazioni in cui gli sviluppi di un dato fenomeno non sono euristicamente prevedibili oppure quando occorre prendere decisioni in base ad ipotesi riguardanti eventi futuri.

11

2. La definizione classica di probabilit Se mescoliamo un mazzo da 52 carte e ne estraiamo 1, stiamo facendo una scelta casuale. Nessuna delle 52 carte ha (teoricamente = secondo un ragionamento) una probabilit maggiore rispetto alle altre di essere scelta. Un esperimento casuale d origine a pi risultati e quindi a pi eventi casuali. Un evento casuale pu essere: Certo: il caso dellestrazione da unurna piena di palline nere una pallina nera Impossibile: il caso dellestrazione da unurna che contiene solo palline nere una pallina bianca Possibile: il caso dellestrazione da unurna piena di palline bianche e nere di una pallina bianca. Tutti gli eventi possibili costituiscono lo spazio campionario: nel lancio di un dado gli eventi possibili sono 6, per cui lo spazio campionario composto da 6 eventi. La probabilit associata ad un evento esprime il grado di aspettativa circa il suo verificarsi e pu essere espresso da un numero compreso tra zero ed uno:

0 p 1
Ci porta alla definizione classica di probabilit: la probabilit di un evento il rapporto tra il numero di eventi favorevoli e il numero di casi possibili allevento, purch tutti i casi siano equamente possibili: p = numero di casi favorevoli numero di casi possibili

Nel caso del lancio di un dado, la probabilit che esca 4 p =

1 perch in un lancio il 4 pu uscire 6

solo una volta ed il numero di casi possibili sono 6. Esempio: unurna contiene due palline bianche, tre rosse e due nere. Qual la probabilit di estrarre al primo tentativo una pallina bianca? I casi possibili sono 7 mentre quelli favorevoli sono 2. La probabilit sar: p= 2 0.28 cio p 28% 7

12

3. La definizione frequentista di probabilit Come possibile osservare, nel caso della definizione classica, la probabilit definita a priori (= prima di aver eseguito gli esperimenti) come caso favorevoli sul totale dei casi possibili. Tale definizione deriva dalla conoscenza delle modalit con cui lavora la machina del caso con cui stiamo lavorando. Infatti, se utilizziamo come macchina del caso il dado e il dado non truccato, non vi alcun motivo razionale per ritenere che ad un lancio una faccia debba prevalere sulle altre: infatti, la definizione di dado truccato proprio quella di un oggetto dado in cui dopo un grande numero di lanci una faccia esce con maggiore frequenza delle altre! Ribadisco questo concetto: nella probabilit classica gli eventi favorevoli sui totali sono conosciuti a priori e derivano dalle modalit di costruzione della macchina del caso. Tuttavia, nel campo delle scienze empiriche, questa definizione non impiegabile in quanto non abbiamo a disposizione una macchina del caso le cui modalit di estrazione siano conosciute a priori. Possiamo conoscere i modi con cui la nostra macchina lavora se e solo se conduciamo una serie di esperimenti, analizziamo i dati e associamo a ciascuna modalit di presentazione della variabile una probabilit. Questa scelta (obbligata) detta scelta frequentista nel senso che noi associamo la probabilit di un evento alla frequenza con cui tale evento si verifica sperimentalmente. La nostra definizione operativa di probabilit allora la seguente: La probabilit di un evento A, P(A), il numero di volte in cui si verifica levento A (nA) sul numero totale di volte in cui lesperimento ripetuto (n) quando il numero totale tende allinfinito

P(A) = lim

n( A) n n

Secondo la nostra definizione empirica allora, definita la frequenza di a f(A) il rapporto fra casi positivi (A) e casi possibili (N), in un esperimento con un gran numero di casi, probabilit e frequenza coincidono: in termini tecnici, probabilit e frequenza di un evento coincidono asintoticamente. Utilizziamo come esempio, il genere dei nati della specie bovina ( un esempio analogo a quello del lancio della moneta). Noi sappiamo che la macchina del caso costituita dalla meiosi che segrega nelle cellule germinali maschili e demminili la met del corredo cromosomico (diploide) posseduto
13

dai genitori. Poich il sesso determinato dalla presenza del cromosoma Y (in questo caso, il sesso eterogametico il maschio con YX, mentre la femmina omeogametica XX), la macchina del caso costituita dalla meiosi paterna necessaria alla produzione dei nemaspermi che determina la presenza del cromosoma Y. Poich la separazione dei cromosomi sessuali casuale, met dei nemaspermi posseder il cromosoma Y e met quello X. Gli oociti materni possiedono solo il cromosoma X e la loro fecondazione pu avvenire indipendentemente con spermi che portano Y o X. Essendoci numerosissimi spermi in gioco nella fecondazione (alcuni miliardi), la probabilit che loocita sia fecondato con uno spermio portatore Y o X del 50%, per cui il futuro nato potr essere maschio o femmina con una probabilit teorica del 50%. In effetti, se osserviamo la serie delle nascite avvenute nella popolazione bovina in una annata possiamo verificare che questo meccanismo effettivamente lavora cos. Prendiamo la carriera riproduttiva di 100 vacche.
vacca n. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 vitello 1 parto f f m m m m m m m f f m f m m f f m f m m f m f f m f m f m m f vitello 2 parto m m m m f f f m m f m m m m f m f f m f f f f f f f m m m m m m vitello 3 parto m m f f f m f f m f m m m m m f m f m m m m f m m m f m m f m f 14 vitello 4 parto femmine maschi f 2 m 1 m 1 m 1 m 2 m 1 f 3 f 2 m 0 f 4 m 1 m 0 f 2 f 1 m 1 f 3 m 2 f 3 m 1 f 2 m 1 f 3 m 2 m 2 m 2 m 1 f 3 f 1 m 1 m 1 m 0 m 2

2 3 3 3 2 3 1 2 4 0 3 4 2 3 3 1 2 1 3 2 3 1 2 2 2 3 1 3 3 3 4 2

33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89

m f m m m m m m m m m m m m m m f m f f f m f m f f f f f f f m f m m m m f m f f f m f f f f m f f f f m m m m f

m m m f f f m f m m m m m m f m m f m f f m m f m f f m f m f m f f f f f f f f f f f m f f f m f f f m f m f m f 15

m f m m m f f m f f m f f m m m f f f m m m m m f m m m f f m m m m m m m m f m m f f f m f f m f m m f m m f m f

m m m m m f m f f m m m m m m f f m f f m m f f m m f m m f f f m m f f m f f m f f f m m m m m f m f m f f m m m

0 2 0 1 1 3 1 2 2 1 0 1 1 0 1 1 3 2 3 3 2 0 2 2 2 2 3 1 3 3 3 1 2 1 2 2 1 3 3 2 3 4 3 2 2 3 3 0 4 2 3 2 2 1 2 0 3

4 2 4 3 3 1 3 2 2 3 4 3 3 4 3 3 1 2 1 1 2 4 2 2 2 2 1 3 1 1 1 3 2 3 2 2 3 1 1 2 1 0 1 2 2 1 1 4 0 2 1 2 2 3 2 4 1

90 91 92 93 94 95 96 97 98 99 100

f f f m f m m m m f m

m f m f f f m m m f f

f f f f f m m m f f m

m m m m f f f m f f f

2 3 2 2 4 2 1 0 2 4 2

2 1 2 2 0 2 3 4 2 0 2

f= m=

46 54

53 47

42 58

42 58

183

217

Per ciascun parto (1, 2, 3 e 4) i maschi e le femmine sono risultati circa la met. Anche nel complesso il 45,7% del totale sono risultate femmine. Impareremo come testare lipotesi che il valore vero del rapporto riproduttivo dei sessi alla nascita sia del 50% in una lezione successiva. Per ora accontentiamoci di osservare che la frequenza osservata dellevento femmina abbastanza vicina a quella teorica dovuta al funzionamento della macchina del caso riproduzione.

4. Alcune propriet delle probabilit. Abbiamo detto che la probabilit dei un evento la frequenza con cui tale evento capita su tutti i possibili. Ne deriva che la somma degli eventi possibili il 100% per cui la somma delle probabilit di eventi indipendenti appartenenti allo stesso spazio campionario =1. Ad esempio, data la probabilit che in un dado esca una faccia 1/6, avendo il dado 6 facce (n. eventi possibili) la somma delle probabilit (1/6) + (1/6)+(1/6)+(1/6)+(1/6)+(1/6) = 1; in formula P(A1) + P(A2) + P(A3))+....+ P(An) = 1 infatti, se: P(A1) = n( A1) n ( A2 ) n( A3) ; P(A2) = ; P(A3)= ; n( A1) + n( A2) + n( A3) n( A1) + n( A2) + n( A3) n( A1) + n( A2) + n( A3)

la somma delle probabilit uguale a 1, anche se le singole probabilit sono diverse. Da ci deriva che, con eventi mutuamente escludenti, se P(A1) la probabilit di A1, la probabilit che A1 non si verifichi, P(non A1) data dalla:

16

P(non A1) = 1- P(A1) Probabilit di eventi indipendenti. Due (o pi) eventi sono detti indipendenti se il verificarsi di uno non influenza in nessun modo il verificarsi dellaltro. Ad esempio, la successione dei parti nelle vacche della tabella precedente considerata un insieme di eventi indipendente in quanto il verificarsi del primo non incide in nessun modo sul determinismo del secondo o del terzo, e cos via. Quale la probabilit che due eventi indipendenti si manifestino assieme? Contiamo ad esempio quante volte si verificato nei primi 2 parti levento maschio+maschio, maschio+femmina, femmina+femmina: il risultato che abbiamo osservato 27 m+m, 26 f+f e 47 m+f. La probabilit che due eventi indipendenti non mutualmente escludenti si verifichino assieme data dal prodotto delle loro singole probabilit: P(A eB) = P(A)*P(B) Nel nostro esempio, la probabilit teorica che in due parti consecutivi abbia entrambi maschi (o entrambi femmine) data 0,5 * 0,5 = 0,25 Quella di avere un maschio e una femmina dello 0,5 (in quanto non importa se sia nato prima il maschio o la femmina, essendo per ciascuna successione m+f = 0,25; f+m = 0,25). In ogni caso le probabilit cumulate hanno quale risultato 1. Nel caso pratico, le frequenze osservate non si discostano da quelle teoriche: infatti abbiamo osservato che P(m+m) = 0,27, P(f+f) = 0,26 e P(m+f) = 0,47 e la somma anche in questo caso fa 1. Nel caso in cui volessi trovare una probabilit combinata di due eventi indipendenti che si escludono mutualmente dovremo impiegare la somma delle singole probabilit. Ad esempio, sappiamo che il mantello (= coloro esterno) della razza Frisona italiana normalmente pezzato nero, ma in casi limitati (= 5%) pu anche essere pezzato rosso. Sono interessato a conoscere la probabilit, su 100 parti, di avere o un maschio (primo evento indipendente) o una femmina pezzata rossa. La probabilit di avere un maschio dello 0,5, quello di avere una femmina pezzata rossa dello 0,5*0,05=0,025. La probabilit di ottenere un animale alla nascita delle caratteristiche desiderate pertanto 0,5 + 0,025 = 0,525. In generale, con eventi escludentisi mutuamente
17

P(A o B) = P(A) + P(B) Nel caso in cui volessimo trovare invece la probabilit combinata di eventi non escludentisi mutuamente dobbiamo tenere conto di un fatto. Riprendendo il nostro esempio, se fossi interessato alla nascita di un animale maschio o a un animale pezzato rosso (compresi i maschi) se impiegassi la formula sudetta conterei i maschi rossi 2 volte (la prima come maschi e la seconda come maschi rossi). Allora dalla formula devo togliere i maschi rossi che hanno una frequenza uguale a quella delle femmine rosse (0,025). In formula

P(A o B) = P(A) + P(B) P(A)*P(B) Questa la formula da utilizzare sempre. Infatti, quella precedente si riduce a questa quando gli eventi si escludono mutalmente (non c nessuna femmina rossa fra i maschi!) per cui il prodotto delle probabilit = 0 (la probabilit femmina rossa nei maschi = 0).

Diamo ora un ultimo accenno alla probabilit condizionata. Diciamo che esiste una probabilit condizionata quando vogliamo sapere quale probabilit ha un evento congiunto di accadere conosciuta la probabilit di uno degli eventi condizionanti. Ad esempio, vogliamo sapere, dato il colore pezzato rosso del mantello di un nato, quanti maschi ci aspettiamo di ottenere. Allora, la probabilit di ottenere un maschio pezzato rosso 0,5*0,05 = 0,025. Ma la probabilit che un animale sia rosso dello 0,05. Allora 0,025/0,05 = 0,5 che la probabilit di trovare un maschio allinterno degli animali pezzati rossi. In formula P( A) * P( B) P( B)

P(A/B) =

Vediamo ora un caso particolare della probabilit condizionata. Se la probabilit che si verifichi A conoscendo B la stessa che di verifichi A senza conoscere B, allora i due eventi sono detti indipendenti. In formula, un evento A detto indipendente da uno B se
18

P(A/B) = P(A) Nel caso del sesso dei vitelli, levento sesso al secondo parto indipendente da quello sesso al primo parto (B) in quanto la probabilit che nasca un maschio al secondo parto non risente in alcun modo del fatto che conosco il sesso del vitello del primo parto: infatti, 0,5*0,5/0,5= 0,5!

19

Appendice (lettura obbligatoria)


Statistica e modelli

Elaborare i dati secondo una determinata procedura significa applicare un modello matematico. Un modello la rappresentazione di qualche cosa, ma non la cosa che rappresenta. La scelta di un modello sempre arbitraria e per molti versi pregiudiziale alla sua applicazione. Nel caso dei modelli statistici, quando trattiamo un insieme di dati ai fini di assumere una decisione (circoscriviamo un territorio per prevenire un contagio, riteniamo un apparecchio tarato per una determinata analisi, orientiamo i corsi di aggiornamento in base alle preferenze espresse dai colleghi, ecc..), siamo consapevoli che la scelta di un modello rispetto ad un altro non indifferente relativamente alla responsabilit conseguente agli esiti derivanti da tale scelta. Se le conseguenze di una scelta possono avere esiti catastrofici (cio provocare danni ingenti), il modello a cui mi affido sar molto conservativo (ad es. nel caso delle diffusione di una zoonosi, elaboro le informazioni a disposizione in modo tale da rendere operativi comportamenti anche in casi altamente improbabili) mentre nel caso opposto posso impiegare modelli ad alto rischio (se dispongo di una innovazione tecnologica da proporre al mercato devo accettare probabilit di fallimento elevate se gli utili che attendo da tele innovazione possono essere consistenti).
Le variabili statistiche

La statistica lavora con variabili casuali ossia con insiemi numerici o categoriali ordinati secondo un criterio casuale. Henr Poicar (1908, Science e Methode), criticando il punto di vista deterministico (esposto principalmente da Laplace) secondo cui il caso sarebbe semplicemente un nome per la nostra ignoranza, distingue fra tutti i fenomeni le cui cause ci sono sconosciute, i fenomeni fortuiti ai quali si applica il calcolo delle probabilit da quelli non fortuiti rispetto ai quali non possiamo dire assolutamente nulla fin tanto che non conosciamo le leggi che li governano. In particolare, egli afferma che esistono fenomeni in cui cause molto piccole oppure differenze irrilevanti nelle condizioni iniziali (tanto piccole da non poter essere registrate) producono differenze macroscopiche negli esiti finali e in tal caso la previsione diventa impossibile. In base a questa posizione possiamo inizialmente definire come casuale un fenomeno per il quale non siamo in grado di formulare previsioni. Questa impossibilit risiede, secondo Poicar, nella complessit dei fenomeni che costituisce lelemento fondante la loro casualit e imprevedibilit. La casualit assoluta o casualit operazionale stata per loggetto dellindagine di von Mises (1939, Probability, Statistics and Truth) che ha definito una variabile casuale come un insieme numerico infinito dotato della propriet della scelta di posto. Questultima tale se effettuata prima di
20

conoscere qualsiasi cosa circa il risultato della scelta medesima per cui il principio di casualit di von Mises lindifferenza delle successioni probabilistiche a tutte le scelte di posto che possono operarsi in esse. Questo principio espresso anche sotto forma della impossibilit di un sistema di gioco: negli ambienti degli statistici nota la definizione secondo la quale il cretino colui che afferma di aver scoperto un sistema per vincere ad un gioco aleatorio. Questa scelta operazionista di von Mises rende per praticamente impossibile generare variabili casuali. Infatti, se la scelta di posto di un elemento assolutamente indifferente rispetto a ci che lo precede e lo segue nella serie, non pu esistere una macchina perfetta del caso in grado di produrre un oggetto simile. Infatti, se fossimo in grado di generare insiemi numerici infiniti (ed pacifico che non lo siamo..), non saremo in grado comunque di generarli perfettamente casuali. Ora occorre un passo indietro. Utilizziamo a scopo esemplificativo un esempio numerico ristretto ad un piccolo insieme. Consideriamo una stringa di dati costituita, mettiamo, da 5 elementi. Diremo che la stringa casuale se non esiste alcuna altra possibilit di rappresentazione dei dati che non sia la stringa stessa. La stringa 2-4-6-8-10 non casuale perch rappresenta i primi 5 numeri pari ed essa pu essere espansa allinfinito con lalgoritmo 2n, dove n la serie dei numeri reali interi positivi. Il processo per cui insiemi numerici (anche infiniti) possono essere contenuti in rappresentazioni pi economiche rispetto alla mera ripetizione della serie stessa detto comprimibilit algoritmica: una informazione limitata pu espandersi in una pi grande. Una stringa numerica casuale quando incomprimibile algoritmicamente per cui per poter avere la completa informazione in essa contenuta dobbiamo scriverla tutta. Ritornando a von Mises, il suo concetto di casualit non consente la rappresentazione di variabili perfettamente casuali. Non esiste uno strumento di calcolo o un apparato fisico in grado di generare il caso perfetto: una macchina matematica del caso sempre costruita dalluomo ed essendo conosciuta a priori rende possibile la ricostruzione della serie da essa generata; una macchina fisica (rumore di fondo del computer, moto browinano, dado di Las Vegas ecc..) anche essa non perfettamente simmetrica rispetto alle frequenze di uscita dei singoli dati, per cui nelle lunghe serie possono essere percepite delle increspature di regolarit che tolgono alla serie stessa il suo carattere aleatorio. Per tali ragioni e per motivi pratico-applicativi, tutti, scienziati e filosofi, ormai sono concordi nel ritenere che la statistica applicata lavora con serie pseudo-casuali il cui comportamento del tutto soddisfacente dal lato pratico. Oggi le serie pseudoaleatorie, costituite da numeri da 0 a 9, sono generate al computer a partire da algoritmi basati, ad esempio, sullo scarto fra due numeri primi o sui decimali successivi di numeri irrazionali oppure su oggetti matematici pi complicati. Le serie di numeri a 2, 3 o pi cifre sono costruite a partire da 2, 3 o pi serie elementari accoppiate. Le serie semplici cos generate sono poi sottoposte ala analisi di frequenza: sono
21

giudicate positivamente (cio possono essere ritenute pseudo-casuali) se la frequenza con la quale compare ciascuna cifra decimale 1/10 (nei termini di approssimazione asintotica, cio come limite di frequenza relativa in una serie infinita). Le serie pseudo-casuali sono riportate nelle cosiddette tavole dei numeri casuali o tavole randomizzate stampate a corredo dei manuali di statistica. Questi strumenti, come vedremo, sono molto utili nella pratica del campionamento. Anche un foglio di calcolo comunemente impiegato, quale Excell, pu generare numeri casuali. La funzione da evocare CASUALE(); nella cella definita il programma genera un numero casuale fra 0 e 1. Per fare ci i software che dispongono di tale opzione utilizzano il cosiddetto "rumore bianco del computer. Le variabili statistiche sono costituite da dati. Il dato quanto presente nella conoscenza prima che essa vi applichi i suoi processi logici o di interpretazione. Dato si oppone di solito a costruito, anche se alcuni costrutti possono essere a loro volta considerati dati da elaborare successivamente. Nel caso delle scienze della vita, il dato rappresenta la misurazione fondamentale della realt fenomenica oggetto di studio. Qualora fossimo interessati ad una variabile che descrive una propriet delloggetto della nostra indagine (altezza, peso, et, numero di colonie batteriche, ecc..) il dato anche chiamato variante, per cui le variabili sono costituite da varianti. Ciascuna unit sperimentale pu essere definita da pi propriet simultaneamente e ciascuna propriet codificabile con una variabile. Ciascuna variabile definisce una dimensione dello spazio statistico, per cui, se descrivo lindividuo per tre propriet (peso corporeo, altezza, et = tre variabili) esso sar definito nello spazio a 3 dimensioni da 3 coordinate I(p; a; e). Consideriamo 4 individui:

individuo 1 2 3 4

peso (kg) 56 62 15 78

altezza (cm) 160 172 100 173

et (anni) 25 41 6 47

il primo individuo avr queste coordinate I1 (56; 160; 25) e sar rappresentabile, assieme agli altri, da punti nello spazio nel modo seguente.

22

peso

. . .

. .

et

altezza

Linsieme degli individui pu raggrupparsi in una o pi cluster in dipendenza della loro somiglianza. Se due delle tre variabili sono collegate fra loro (peso e altezza ad esempio lo sono) il grappolo assume una gibbosit orientata nel senso degli assi delle due variabili. La forma assunta dal grappolo rappresenta il legame fra le variabili che tanto maggiore tanto genera una gibbosit rilevante nella nuvola dei punti. Le variabili che descrivono loggetto dello studio possono essere pi di tre. In tal caso, pur non essendo rappresentabili graficamente, esse generano spazi di 4, 5... n dimensioni chiamati iperspazi. Ad esempio, se in una indagine per verificare la preferenza dei consumatori assumo sui singoli intervistati 10 informazioni (et, scolarit, preferenze culturali, abitudini alimentari, ecc...) il mio spazio statistico sar definito da un iperspazio a 10 dimensioni, ciascuna rappresentante una delle variabili che mi interessano ai fini della indagine.

23

Un aspetto pratico legato allimpiego dei dati nella elaborazione statistica il problema della precisione decimale. Se evidente a tutti che la media dei nati per donna fertile italiana nel 2001 pu essere di 1,21 senza significare con ci che a ciascuna donna nascono 1,21 bambini, altrettanto vero che se la precisione di misurazione dellaltezza negli uomini dellordine del cm, ossia rileviamo i dati arrotondati al centimetro, lespressione dellaltezza media con un arrotondamento al secondo decimale di centimetro (decimo di millimetro) non ha significato e rappresenta una finzione aritmetica. E buona norma pratica impiegare per la media lo stesso arrotondamento utilizzato per la rilevazione della variabile o al massimo un ordine di grandezza inferiore qualora sia ritenuto necessario per meglio esprimere le misure. Un altro aspetto pratico dato dalla risoluzione impiegata nella elaborazione. Se impiego valori numerici molto grandi devo aspettarmi problemi di arrotondamento numerico dovuti al fatto che i software di elaborazione impiegano algoritmi di calcolo matriciale in cui un passaggio obbligato linversa di una matrice data. Quando si inverte una matrice (se invertibile ossia non singolare) valori molto grandi possono originare valori molto piccoli e il computer taglia ad un predeterminato decimale (normalmente il 16) escludendo i successivi decimali necessari per rendere lo stimatore statistico calcolato pi robusto. In tal caso consigliabile impiegare uno scaling appropriato. Ad esempio, nel caso di produzione di latte per lattazione in pecore meglio impiegare i kg al posto dei grammi (213 kg vs 213.000 g) mentre per la produzione giornaliera meglio utilizzare i grammi. Con numeri grandi possono essere utilizzati i sistemi di notazione esponenziale: 123.456.789, pu essere espresso come 123,456789 x 106. In questo ultimo caso occorre che anche il software sia in grado di riconoscere la notazione ed impiegarla per i calcoli dei quadrati. Approfondiremo questo argomento in seguito.

24

Lezione n. 3 STATISTICA DESCRITTIVA


1. Prima di tutto, guardare i dati (EDA = exploratory data analysis) Una volta raccolti i dati relativi alla variabile (o alle variabili) che abbiamo intenzione di studiare, la prima azione da compiere quella di guardare i dati. La tecnica che ci aiuta in questo importantissimo passaggio, preliminare a tutte le altre analisi statistiche, detta EDA (exploratory data analysis) e si compie con lausilio di un computer. Infatti, anche locchio pi esercitato difficilmente riesce a cogliere le tendenze insite in serie numeriche di elevata consistenza; una persona normale di solito non riesce a dominare con lintuito pi di 10-15 dati per volta. LEDA una procedura di classificazione dei dati finalizzata ad una prima verifica della presenza di un andamento nei dati stessi. I dati relativi ad una variabile campionaria (= del campione in esame) possono essere sottoposti a EDA da soli (in tal caso si compie una EDA univariata = relativa a una sola variabile), oppure in relazione ad unaltra variabile ( EDA bivariata = relativa a due variabili). Se le variabili messe in relazione sono pi di due, lEDA detta multivariata. Approfondiamo per il momento sono lEDA univariata e rimandiamo le altre due alla lezione relativa alla regressione. Prendiamo in esame una delle variabili riportate nella lezione n. 1: la produzione giornaliera di latte di un campione di pecore Sarde:

25

Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300

Ripartiamo ora i dati in classi di ampiezza (= classifichiamo i dati). Prima di tutto dobbiamo definire il numero di classi: in genere con 10-15 dati, usiamo 4-5 classi, ma con data-set (insiemi di dati) molto numerosi, il numero di classi non eccede mai le 15-20. Un metodo di calcolo per orientare il ricercatore sul numero di classi (C) stato proposto da Sturges e si basa sul n. di osservazioni (N) C = 1+ 10 log10 ( N ) 3

Nel nostro caso N = 25, per cui C = 5,56 6. Una volta stabilito il numero delle classi, occorre calcolare lintervallo di variabilit, dato dalla differenza fra il valore minimo e quello massimo. Nel nostro caso il valore massimo 1560 g, quello minimo 796 g e lintervallo di variabilit 765 g. Lintervallo di classe dato allora da 765/ 6 = 127,5 g. Sommiamo questo valore al minimo (796 + 127,5) e poi di nuovo a quello ottenuto

26

(922,5 + 127,5) e cos via fino ad ottenere le 6 classi volute (se il conto corretto, dovremo avere lultimo valore pari a quello massimo). Con lopzione strumenti/analisi dati/ istogramma di Excell, costruiamo prima la tabella e poi il grafico:

Classe 922,5 1050 1177,5 1305 1432,5 1560 Altro

Frequenz % a cumulativ a 2 8,00% 5 28,00% 5 48,00% 6 72,00% 4 88,00% 3 100,00% 0 100,00%

Istogramma 7 6 5 Frequenza 4 3 2 1 0 922,5 1050 1177,5 1305 Classe 1432,5 1560 Altro 60,00% 40,00% 20,00% ,00% 120,00% 100,00% 80,00%

In ciascuna classe compare la frequenza assoluta (= numero di volte che il valore della variabile ha un valore compreso fra il minimo e il massimo della classe) e quella relativa (frequenza assoluta diviso il totale delle osservazioni). Tabella e grafico riportano anche la frequenza relativa cumulata cio la somma delle singole frequenze relative al crescere del valore delle classi. Nel caso del grafico realizzato con Excell, il valore delle classi riportato nella figura va inteso come il
27

limite massimo di classe! Il software Minitab, invece, riporta la classificazione con il valore centrale della classe:

Histogram of Latte g
5

Frequency

0 800 900 1000 1100 1200 1300 1400 1500 1600

Latte g

Minitab, inoltre, decide il numero di classi da impostare: in questo caso sono 9 (ma, come si vede, la classe 900 vuota!). Questo tipo di istogramma denominato istogramma delle frequenze. Due considerazioni: 1) da quanto detto nella lezione 2, noi adottiamo un approccio frequentista alla probabilit, per cui le frequenze relative rappresentano per noi la probabilit di trovare per caso un valore di produzione incluso in quella classe; 2) la distribuzione presenta una forma. Se tutte le classi fossero state uguali, saremo di fronte ad un fenomeno completamente casuale: tutti i valori hanno la stessa probabilit di essere estratti a caso. Le classi centrali tendono ad essere pi frequentate di quelle laterali. In altre parole, c una tendenza del fenomeno ad aggregassi intorno al valore centrale, ossia pi i valori di avvicinano al centro della distribuzione, pi sono probabili! Vediamo ora cosa succede se, invece di 25 dati, osservo la distribuzione di 4500 produzioni giornaliere di pecore della razza Valle del Belice.

28

Histogram of PG
200

Frequency

100

0 0 500 1000 1500 2000 2500

PG

Minitab suddivide il campione in mole pi classi e la tendenza delle frequenze ad addensarsi attorno ai valori centrali molto pi marcata. Questa distribuzione si approssima ad una curva continua, denominata distribuzione normale della quale diamo una rappresentazione sovrapposta ad diagramma precedente

29

Histogram of PG, with Normal Curve


200

Frequency

100

0 0 500 1000 1500 2000 2500

PG

Riprenderemo questo argomento in seguito. Vediamo ora cosa succede nel caso di una variabile categoriale quale la serie testa/croce del lancio contemporaneo di una serie di monete. Nel caso di due monete lanciate contemporaneamente, abbiamo visto che le probabilit degli eventi TT, TC e CC, sono rispettivamente del 0,25, 0,50 e 0,25. Vediamo ora cosa succede se andiamo al lancio contemporaneo di 10 monete. Le probabilit di ottenere gli 11 risultati possibili sono le seguenti:

10T 9T1C 8T2C 7T3C 6T4C 5T5C 4T6C 3T7C 2T8C 1T9C 10C

0,000977 0,009766 0,043945 0,117188 0,205078 0,246094 0,205078 0,117188 0,043945 0,009766 0,000977

30

Il diagramma delle frequenze il seguente:

Distribuzione delle teste e croci in 10 lanci di 10 monete


0,3 0,25 0,2 frequenze 0,15 0,1 0,05 0 10T 9T1C 8T2C 7T3C 6T4C 5T5C 4T6C 3T7C 2T8C 1T9C 10C eventi (T = testa; C = croce)

E possibile osservare che le maggiori frequenze sono addensate intorno alle classi centrali: anche in questo caso con un numero di monete molto alto e con un numero di eventi molto alto, la tendenza della curva verso una curva normale. La distribuzione vista in questo caso detta distribuzione binomiale (= in quanto risulta dallo sviluppo del binomio (p(a) + q(b))n), in qui p + q = 1. Questo risultato deriva dallapplicazione della relazione vista nella precedente lezione: P(A e B) = P(A)*P(B) Esaminiamo il caso della serie di 4 parti nelle vacche da latte riportato in lezione 2. Si tratta di eventi indipendenti, ciascuno dei quali ha una p = 0,5. Abbiamo ottenuto il seguente risultato: 4 maschi 0 femmina 11 (0,11, come frequenza relativa) 3 maschi 1 femmina 27 (0,27) 2 maschi 2 femmine 34 (0,34) 1 maschio 3 femmine 23 (0,23) 0 maschi 4 femmine 5 (0,05) Le frequenze teoriche si ricavano dallo sviluppo del binomio [p(M) + q(F)]2
31

Per trovare i coefficienti si impiega il triangolo di Tartaglia che qui sotto sviluppato fino alla potenza 10 del binomio
n 1 2 3 4 5 6 7 8 9 10 Coefficienti 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 6 15 20 15 6 7 21 35 35 21 7 28 56 70 56 28 36 84 126 126 84 36 120 210 252 210 120

1 1 1 1 1 10 9 45 8

1 1 8 9 45 10 1 1 1

I coefficienti di ogni riga derivano dalla somma di quelli a sinistra e a destra della riga precedente. Nel nostro caso il binomio da sviluppare : [p(0,5) + q(0,5)]4 0,54 (MMMM) + 4*0,53*0,5 (MMMF) + 6*0,52*0,52(MMFF) + 4*0,5*0,53 (MFFF) + 0,54(FFFF) che sviluppato ci da il risultato: 0,0625 MMMM oppure FFFF 0,25 MMMF oppure FFFM 0,35 MMFF queste probabilit (teoriche) sono molto vicine alle frequenze osservate nella sperimentazione con le vacche. Con un esponente molto alto, la distribuzione binomiale tende anche essa alla curva normale. I due tipi di distribuzione, la normale e la bionomiale, sono simmetriche, nel senso che la parte destra e sinistra della distribuzione sono speculari. Esistono tantissimi altri tipi di distribuzione non simmetriche (cio con una concentrazione delle frequenze sbilanciata da una parte o dallaltra), ma noi ci soffermeremo soltanto su una di particolare interesse nelle scienze zootecniche: la distribuzione asimmetrica. Esaminiamo il fenomeno del contenuto in lattosio del latte: la distribuzione riportata di seguito fortemente asimmetrica, in quanto si ha un cumulo delle frequenze verso le classi di valore massimo.

32

Histogram of lact.
140 120 100

Frequency

80 60 40 20 0 0 1 2 3 4 5

lact.

In questi casi la probabilit di estrarre un animale con lattosio basso di molto inferiore a quella di estrarre un animale con lattosio intorno al valore 4 (in realt questo fatto ha senso, perch la caduta della concentrazione del lattosio sintomo di mastite; gli animali sani sono la stragrande maggioranza del campione esaminato e della popolazione target). Prendiamo ora in esame lEDA bivariata. Esaminiamo il caso della relazione fra quantit di latte e di proteine prodotte al giorno da un campione di vacche da latte Frisone:

Relazione fra produzione di latte e di proteine in vacche Frisone


1600 1400
Proteine (g/d)

1200 1000 800 600 400 200 0 0 10 20 30 40 50 Latte (kg/d)

33

Il grafico mostra chiaramente che esiste una relazione stretta fra le due variabili esaminate: allaumentare della produzione di latte, aumenta anche la produzione di proteine per capo. Un situazione in cui non esiste una relazione evidente stata riportata nel grafico della lezione 1. Utilizzeremo questa analisi preliminare nella lezione della analisi della regressione.

34

Lezione n. 4 MISURE DI POSIZINO E DI DISPERSIONE


1. Le misure di posizione di una distribuzione. Con il termine misure di posizione di una distribuzione univariata si indicano quei particolari valori che racchiudono una informazione sulla variabile in esame. Esse sono nellordine: 1) la media, che la somma dei valori della variabile ponderata per la numerosit del campione (o della popolazione) in esame; 2) la moda, che il valore della classe di maggiore frequenza della distribuzione; 3) la mediana, che il valore della classe che divide la distribuzione in due parti uguali (50% degli eventi prima e 50% degli eventi ricadono dopo tale valore). Le distribuzioni univariate presentano una sola media e una sola mediana, ma possono presentare due (o raramente pi) valori modali: in tal caso sono dette distribuzioni bimodali (o plurimodali).

0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -3.98

-1.98

0.02

3.38

Esempio di distribuzione bimodale

La media la misura pi importante. Questo valore costituisce il perno di tutta lanalisi statistica in quanto di norma spiega una quota rilevante del fenomeno osservato. Ricordiamoci lasserzione: LA MEDIA SPIEGA

35

e cos avremo chiaro il senso delle analisi che costituiscono il cuore della statistica. Linformazione contenuta nella media uguale a quella della somma dei valori della variabile. Il suo calcolo semplice, ma il suo potere informativo grandissimo:

m=

x
n

in cui
m = media del campione xi = i-simo valore della variabile n= numero di osservazioni del campione.

Esistono altri tipi di media, impiegati in casi particolari; le ricordiamo per comodit: la media geometrica e la media armonica. La media geometrica utilizzata quando le variabili non sono rappresentate da valori lineari, ma ottenuti da prodotti o rapporti di valori lineari. Serve per il confronto di superfici o volumi, oppure di tassi di accrescimento o di sopravvivenza, valori appunto che sono espressi da rapporti. Per il calcolo della media geometrica, condizione necessaria che le quantit siano tutte positive. Se alcune fossero negative, si deve ricorrere al valore assoluto.
La media geometrica di n dati uguale alla radice di ordine n (solo positiva) del prodotto degli n dati: con simbologia matematica

m g = n x1 x 2 ... x n che pu essere scritta anche come


mg = n

x
i =1

Una propriet importante che il logaritmo della media geometrica uguale alla media aritmetica
dei logaritmi dei dati: log m = 1 n log xi n i =1

36

La media armonica la stima pi corretta della tendenza centrale, per distribuzioni di dati in cui devono essere usati gli inversi. E utilizzata quando i valori di X sono espressi come rapporti di un totale costante od in misure di tempi di reazione. La media armonica data da:
mh = n

x
i =1

1
i

Prendiamo ora in esame il campione rappresentato dalle oltre 4500 osservazioni di produzione giornaliera di latte di pecore Valle del Belice (vedi istogramma di frequenza). Con una opzione di Excell (strumenti/analisi dati/statistiche descrittive) possibile ottenere il seguente otput
latte in grammi al giorno

Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio

1625 11 1530 1250 715 511705 1,247175589 0,89944541 4790 210 5000 7424379,608 4569

Come possibile vedere, la media di 1625, la mediana di 1530 e la moda di 1250 grammi di latte per capo. Loutput ci fornisce anche altre informazioni circa la forma della curva. In particolare, la curtosi esprime il grado di schiacciamento della distribuzione in esame rispetto ad una curva nomale standard (vedremo in seguito il significato di questo termine). Se il valore della curtosi = 0 (o vicino allo zero) la distribuzione molto vicina a quella normale (normocurtica); se inferiore allo zero, pi schiacciata di quella normale standard (platicurtica) se superiore allo zero pi sfilata (stretta) di quella normale standard (leptocurtica) come nel nostro caso
37

La asimmetria ci indica la posizione della moda rispetto alla media: se il valore zero (o vicino) moda e media sono molto vicine, se superiore allo zero, la moda superiore alla media (distribuzione asimmetrica destra) se inferiore allo zero la moda inferiore alla media (distribuzione asimmetrica a sinistra). Altre misure di posizione utili sono i quartili, che rappresentano quei valori della variabile che dividono in quarti la distribuzione. Entro il primo quartile sono compresi il 25% dei dati, entro il secondo (che coincide con la mediana) il 50%, entro il terzo il 75%. Tutta la distribuzione comprende il 100% dei dati, ed il valore massimo riscontrato il quarto quartile. Nel caso del campione di produzioni delle pecore Valle del Belice, il primo quartile di 1108 grammi (il 25% del campione produce di meno) ed il terzo quartile di 2005 grammi (il 25% della popolazione produce pi). I quartili danno una rappresentazione immediata della mdalit con cui si distribuisce la variabile.

2. . La misura della dispersione dei dati


Come abbiamo detto in precedenza, la media aritmetica rappresenta linformazione pi importante che possiamo estrarre da una variabile. Ma non la sola!. Consideriamo 4 insiemi di dati: A 5 5 5 5 5 xi m 25 5 B 3 4 5 6 7 25 5 C 1 3 5 7 9 25 5 D 0 2 5 8 10 25 5

Questi insiemi sono isonumerici e isoquantitativi per cui hanno sommatoria e media uguali. Se non disponessimo di altre informazioni sulla distribuzione dei dati allinterno di ciascun insieme, il pi probabile valore di ciascun dato sarebbe 5 (la media cio il predittore pi affidabile). Questi insiemi non sono per costituiti da valori uguali, eccetto che nel gruppo A; la
38

media spiega tutto il fenomeno solo in questo insieme, ma il suo potere esplicativo va decrescendo man mano che si passa dal gruppo A a quello D (aumenta cio la dispersione dei dati attorno alla media, esistendo valori molto diversi da questa). I quattro gruppi sono diversi fra loro non nella somma (e nella media) ma per la dispersione interna dei dati: i gruppi sono caratterizzati infatti da una differente variabilit. La variabilit, ossia la modalit con cui i dati sono dispersi, rappresenta il secondo e pi importante oggetto di studio della statistica. Utilizzeremo un approccio intuitivo allo studio della variabilit di una variabile statistica. Poich somma dei valori e media rappresenta la stessa informazione (infatti i gruppi di variabilit differente hanno la stessa somma), verifichiamo se la somma dei quadrati dei dati pu costituire un indicatore della variabilit.. Nel nostro esempio si ha: A B

C
1 9 25 49 81 165

25 25 25 25 25 x2 125

9 16 25 36 49 135

0 4 25 64 100 193

Si pu notare che, a parit di media e di numerosit del campione, man mano che aumenta la variabilit aumenta anche la somma dei quadrati dei dati (x2 o SS, acronimo inglese che significa Sum of Squares); possiamo allora dire che la SS un parametro legato alla variabilit. C per un problema: con la SS ho una (presunta) misura della variabilit anche in un insieme di dati (il gruppo A) in cui non esiste variabilit. Dobbiamo allora esplorare la possibilit che esista qualche altra relazione che esprima meglio il fenomeno: se togliamo dalla somma totale dei quadrati, la somma dei quadrati della parte del fenomeno che inviariante (la media) otteniamo una misura idonea allo scopo. infatti, la vera misura della variabilit la somma dei quadrati (variabilit totale) meno la parte invariante (somma dei quadrati della media). Nel nostro esempio si ha: somma dei quadrati dei dati (SS) somma dei quadrati della media (uguale per tutti gruppi)
39

A = 125; B = 135; C = 165; D= 193;

SSm = ny2 = 5 x 52 = 125 differenze SS SSm A :125-125 = 0; B: 135-125 = 10; C: 165-125 = 40; D: 193-125 = 68. Le differenze ottenute prendono il nome di devianza (Dev o SS):

SS = SS SSm
da cui si ottiene la relazione fondamentale: la somma dei quadrati di un insieme di dati scomponibile nella somma dei quadrati della media e nella somma dei quadrati residua (dalla sottrazione) che prende il nome di Devianza.

SS = SSm + SS.
Si pu arrivare a questa relazione in un altro modo. Consideriamo ad esempio o gruppi A e D. Ciascuno dei dati pu essere scomposto in due parti, la media del gruppo di appartenenza e lo scostamento del dato dalla media secondo la relazione:

xi = + i
Nel caso del gruppo D, il secondo dato (2) pu essere anche scritto come media+deviazione dalla media del dato: 2 = 5 3; cos il quinto dato pu essere scritto come 8 = 5 + 3. Gli i sono chiamati deviazioni dalla media . La relazione illustrata sopra prende il nome di MODELLO LINEARE DELLA MEDIA. Facciamo ora i quadrati dei componenti il modello lineare dei dati dei gruppi A e D e li sommiamo.
A

+ 5+0 5+0 5+0 5+0 5+0 125+0 = 125

+ 5-5 5-3 5+0 5+3 5+5 125+68 = 193

5 5 5 5 5
SSm + SS

0 2 5 8 10

Abbiamo ottenuto lo stesso risultato. Ci significa che la devianza rappresenta la somma delle deviazioni quadratiche dalla media, cio:

40

SS = ( xi m) 2
ma che essa pu anche essere calcolata con la formula riportata in precedenza

SS = SS SSm
in cui SS la somma totale dei dati al quadrato e SSm la somma delle media al quadrato (che pu essere ottenuta facilmente con la relazione SSm = n*m2, in cui n = numerosit del campione). La misura cos ottenuta non per facilmente impiegabile in quanto riferita allintero campione. Se la devianza ponderata per la numerosit del campione, essa prende il nome di varianza, e rappresenta lo scarto quadratico medio del campione. In notazione indicata come MS, dallacronimo della definizione inglese mean square, quadrato medio. Nel caso in cui si calcoli la MS di un campione (e non della popolazione) il fattore di ponderazione non la numerosit totale del campione, ma sono i suoi gradi di libert: gl = n 1. Approfondiremo fra poco questo concetto. La formula per il calcolo della varianza allora:

( xi m) 2 MS =
n 1
oppure con la formula

MS =

SS SSm n 1

Anche in questo caso per il dato non immediatamente leggibile in quanto espresso in forma quadratica. Per riportarlo alla dimensione lineare (cio allo stesso ordine di grandezza della media) dobbiamo estrarre le radice quadrata: il risultato, caratterizzato dai due segni , prende il nome di deviazione standard (ds). La formula completa per il calcolo della ds la seguente

ds =

( xi m) 2
n 1

A titolo di esempio, prendiamo in esame le produzioni di latte delle 25 pecore riportate nella tabella allinizio della lezione, calcoliamo la media, le deviazioni dalla media, i quadrati e facciamo i conti.

41

Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Somme

Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 29635

media 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 29635

170 80 -180 100 345 225 55 0 -85 -200 -360 -290 -165 40 -10 0 185 390 80 -375 -155 180 -75 150 -115 0

2 29036 6464 32256 10080 119301 50805 3069 0 7157 39840 129312 83868 27093 1632 92 0 34373 152412 6464 140325 23901 32544 5565 22620 13133

971346

La devianza (SS) uguale a 971346, per cui la varianza (MS) uguale a 971346/24 = 40473. Se estraiamo la radice quadrata, otteniamo la deviazione standard (ds) che uguale a 201. Le informazioni che possiamo trarre da questo campione di dati sono che la produzione media campionaria (m) di 1185 grammi di latte per capo per giorno e che la deviazione standard di 201 grammi capo per giorno. Prima di procedere, dobbiamo sottolineare che quando calcoliamo media, devianza, varianza, deviazione standard o altre quantit sullintera popolazione, chiamiamo tali quantit parametri della popolazione; se esse sono calcolate invece su un campione della popolazione, le chiamiamo statistiche campionarie (media campionaria, varianza campionaria, ecc..). Poich nella statistica inferenziale ci che ci interessa realmente non sono le statistiche campionarie, ma i parametri della popolazione, utilizziamo le prime per stimare i secondi. Allora diremo sempre che la media campionaria una stima della media della popolazione, che la ds campionaria una stima della ds della popolazione, ecc.. Per quanto riguarda i simboli, quando ci riferiamo alle statistiche campionarie utilizziamo le lettere latine, quanto ai parametri della popolazione le lettere greche:

42

misura media devianza varianza deviazione standard

sulla popolazione o SS 2 o MS
2

sul campione m SSe MSe s o ds

La media e la deviazione standard rappresentano i parametri della curva di normale, o curva di Gauss o curva degli errori. Una disamina approfondita della storia della curva degli errori e lanalisi matematica della funzione sono riportate nellappendice di questa lezione. Lequazione della curva normale la seguente:
1 f ( x) = e 2

( x X )2
2 2

la cui forma :

La media rappresenta il valore di maggiore frequenza, mediadeviazione standard rappresentano i valori in cui si verificano i flessi della curva.

43

3. I gradi di libert
Abbiamo visto che se dalla somma dei quadrati totale (SS) togliamo la somma dei quadrati della media (SSm) otteniamo la devianza, la quale ci indica il grado di dispersione dei dati: SSe = SS SSm. Calcolando la media, abbiamo ottenuto una prima informazione dallinsieme dei dati per cui le informazioni disponibili nel gruppo di dati si riducono di una unit. Ad esempio, la media dellinsieme 2-5-9-7-4-3-2-0-1 m = 3,6, mentre la somma x = 33. Poich la media campionaria ottenuta una stima della media della popolazione di riferimento, dal nostro campione abbiamo estratto una informazione: con ci il nostro campione non pi completamente casuale (cio non pi composto da 9 entit estratte a caso dalla popolazione), ma la casualit di estrazione si ridotta di una unit. Infatti, una volta calcolata la media campionaria, solo 8 delle 9 entit possono essere estratte casualmente: la nona resta vincolata dalla somma dei dati del campione. Linsieme campionario ha cio 8 gradi di libert (possibilit di estrazione causale). Nel nostro esempio, la somma 33. Provate ad estrarre casualmente 9 numeri la cui somma sia 33. Vi torner difficile. Con 8 estrazioni tutto diventa pi semplice, in quanto il nono valore deriva dalla differenza fra 33 e la somma degli altri 8. Nelle stime campionarie della varianza, allora, si impiegano sempre i gradi di libert come divisore della devianza campionaria, in quanto il sistema in esame vincolato dallinformazione dovuta alla media (oppure alla somma che lo stesso). Naturalmente tanto pi grande il campione (n grande) e tanto meno pesano i gradi di libert perch n-1 si avvicina al valore di n. In statistica si distinguono quindi campioni grandi (n30) da campioni piccoli (n<30), nei quali i gradi di libert hanno un peso sempre maggiore rispetto a n (fino al caso limite di n = 2). In linea generale, i gradi di libert rappresentano lentit delle informazioni disponibili (o giustificate); le informazioni non giustificate rappresentano i gradi di libert dellerrore. Applichiamo questa definizione al modello lineare della media: xi = + i

SS = SSm + SSe
n = 1 + (n-1) I gradi di libert della somma dei quadrati totale sono n perch non abbiamo ancora estratto informazioni; i gradi di libert della media sono 0 (zero) in quanto una volta calcolato il suo valore non pu cambiare. I gradi di libert della somma degli scarti al quadrato sono n-1. E possibile allora osservare che i gradi di libert sono additivi.
44

4. Le media campionarie e la loro distribuzione


Se estraiamo diversi campioni da una popolazione e ne calcoliamo le medie campionarie, otterremo una serie di valori differenti. Linsieme delle medie campionarie rappresenta errore perci a sua volta una variabile. Ciascuna media campionaria m1 si scosta dalla media vera della popolazione di un errore mi. In analogia al modello della media, possiamo quindi scrivere: m1 = + m1 m2 = + m2 . . mn = + mn Sempre in analogia al modello della media, possiamo calcolare i quadrati degli scarti mi2 , dividere per i gradi di libert estrarre la radice quadrata. La deviazione standard della distribuzione delle medie prende il nome di errore standard (es) ed rappresenta la misura della variabilit delle medie campionarie. Lerrore standard dipende dalla numerosit del campione estratto ed calcolato con la formula:

es =

dove la deviazione standard della popolazione e n la numerosit del campione. Ovviamente, maggiore la numerosit del campione, minore les. Per campioni di numerosit vicina a quella della popolazione, les molto vicino allo zero: le medie campionarie sono vicinissime alla media della popolazione. La variabile medie campionarie tende sempre a distribuirsi normalmente. Questa propriet di grandissima importanza per tutta lanalisi statistica ed stata enunciata con il nome di teorema del limite centrale. Qualsiasi sia la distribuzione della variabile in esame, le medie campionarie si distribuiscono normalmente con media uguale alla media della popolazione quando il numero di campioni tende allinfinito

Espresso formalmente il teorema del limite centrale il seguente

45

nm

lim f (m) norm

in cui f(m) la funzione di distribuzione delle medie campionarie ed nm il numero di campioni estratti dalla popolazione. Nel caso della produzione di latte delle pecore riportata nella tabella dellesempio precedente, il valore dellerrore standard stimato di 201/25 = 40 grammi capo giorno.
5. La distribuzione normale standardizzata e lintegrale di probabilit

La curva normale un oggetto difficile da maneggiare. Tutte le distribuzioni normali possono essere uniformate attraverso una trasformazione chiamata standardizzazione. La standardizzazione consiste nel dividere gli scostamenti di ciascun dato dalla media per la deviazione standard. In formula; la nuova variabile prende il nome di z:
( xi m ) 2 s La variabile che risulta da questa operazione ha media uguale a zero e deviazione standard uguale a z= 1. Nel nostro esempio avremo:
Pecora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Somme s Latte g 1015 1105 1365 1085 840 960 1130 1185 1270 1385 1545 1475 1350 1145 1195 1185 1000 795 1105 1560 1340 1005 1260 1035 1300 29635 201 media 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 1185 29635
e e/s=z 0,8450 0,3977 -0,8947 0,4971 1,7149 1,1184 0,2734 0,0000 -0,4225 -0,9941 -1,7895 -1,4415 -0,8202 0,1988 -0,0497 0,0000 0,9196 1,9386 0,3977 -1,8640 -0,7705 0,8947 -0,3728 0,7456 -0,5716 0 1

170 80 -180 100 345 225 55 0 -85 -200 -360 -290 -165 40 -10 0 185 390 80 -375 -155 180 -75 150 -115 0

La distribuzione della nostra variabile trasformata, con le sue specifiche, apparir nel modo seguente
46

Descriptive Statistics
Variable: e/s
Anderson-Darling Normality Test A-Squared: P-Value: Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum -0,41476
-0,5 0,0 0,5

0,153 0,952 -0,00198 1,00000 1,00000 -7,1E-02 -4,3E-01 25 -1,86400 -0,79535 0,00000 0,79530 1,93860 0,41080 1,39116 0,47741

-2

-1

95% Confidence Interval for Mu

95% Confidence Interval for Mu 95% Confidence Interval for Sigma 0,78083 95% Confidence Interval for Median -0,54206 95% Confidence Interval for Median

E possibile notare che la nuova distribuzione standardizzata ha media zero, varianza e deviazione standard 1, curtosi e simmetria (skewness) molto vicine a zero. Come abbiamo detto, la nuova variabile standardizzata prende il nome di variabile z. Se sostituiamo il valore z allequazione della curva di Gauss, otteniamo la nuova equazione della variabile standardizzata:
z2

f ( z) =

1 2 e 2

Ricordiamoci che la curva di Gauss una distribuzione di frequenze. Poich abbiamo fatto una scelta frequentista, per noi la frequenza di un evento coincide con la probabilit che tale evento si verifichi. Possiamo allora calcolare la probabilit di eventi compresi fra due valori di x1= a e x2=b attraverso il calcolo dellintegrale della curva delle probabilit.
b

P (b a ) = f ( x)
a

Questo integrale risolto per valori uguali a mds ci da un risultato di poco superiore al 68%, e per valori uguali a m2ds ci da un risultato di poco superiore al 95%. Ci significa che il 68% della

47

popolazione compresa in un intervallo pari a ds dalla media e il 95% in uno con 2 deviazioni standard dalla media.

68% della popolazione

In sintesi: 1) la curva normale la seguente

f ( x) =
2) se poniamo

1 e h 2

( x )2
2h 2

(x ) = z

3) la curva di distribuzione diventa

f ( x) =

1 2

z2 2

48

4) e lintegrale di probabilit

P ( x) =

1 2

+z

z2 2

dz

5) comprende le seguenti aree Intervallo rispetto a da a + da -2 a +2 da -3 a +3 da 1,96 a +1,96 da 2,58 a +2,58 comprende 68,3% 95,4% 99,7% 95,0% 99,0% esclude 31,7% 4,6% 0,3% 5,0% 1,0%

49

(Testo a lettura obbligatoria) GLI ERRORI E IL LORO STUDIO Lerrore, inteso nel senso moderno di imprecisione fra una data misura e il valore vero della grandezza misurata, un concetto relativamente moderno. Infatti, nel mondo antico e medioevorinascimentale, la scarsa (o nulla) attenzione per la conoscenza empirica del mondo e la imprecisione degli strumenti di misurazione aveva generato una limitata quantit di dati osservativi e pertanto lerrore era connaturato al concetto morale di giusto, nel senso che ne rappresentava la negazione. Furono gli astronomi ad utilizzare il concetto di errare, nel senso di vagare nella volta celeste, per identificare quei corpi che non seguivano nel loro moto levoluzione delle stelle. Erano i pianeti e letimo del termine significa proprio erranti. Il primo che consider gli errori di misurazione nel senso moderno fu Tycho Brahe (1546-1601), danese di nascita e fondatore dellastronomia pratica. Astronomo a Praga, comp una mole di osservazioni di tale estensione e accuratezza che Keplero, il quale nel prese il posto alla morte nel ruolo di astronomo di corte di Rodolfo II, le utilizz per dedurre le sue fondamentali leggi sul moto dei pianeti intorno al sole. Tycho Brahe mise in crisi il sistema Aristotelico-Tolemaico con losservazione di una supernova nel 1572 della quale non calcol la parallasse. Ci collocava il nuovo astro nelle sfere esterne a quella della luna le quali, secondo Aristotele, dovevano essere fisse ed immutabili. Tycho comprese per primo che gli errori possono essere suddivisi in due grandi categorie, se si escludono quelli grossolani (sbagli) dovuti a scarsa perizia osservativa che possono essere eliminati facilmente: a) errori sistematici, dovuti ad ununica causa (nota o meno) che possono essere rimossi ricercandone la causa ed eliminandola oppure ripetendo pi volte le osservazioni in differenti condizioni in guisa che gli errori di segno opposto si annullano; b) errori accidentali o random, dovuti a cause sconosciute (o inconoscibili). Su essi (e di errori cos ne possedeva un bel repertorio...) osserv i seguenti fatti euristici: i) gli errori piccoli sono in numero superiore a quelli grandi; ii) gli errori sono compresi entro certi limiti; iii) gli errori con segno positivo sono circa uguali a quelli con segno negativo. In questa classificazione possiamo riconoscere in nuce il concetto di modello lineare che attualmente impiegato in analisi della varianza. Tycho fu probabilmente il primo che utilizz la media delle misurazioni ripetute come valore pi vicino a quello vero e trasmise questa tecnica alle generazioni successive di astronomi e geodeti. Ci che gli sfugg fu la relazione fra frequenza degli errori e probabilit che si verificassero: dovr passare un secolo e mezzo pech ci avvenga. Fu merito del francese ugonotto Abraham De Moivre (1667-1754), fuggito in Inghilterra a seguito delleditto di Nantes, il merito di legare la probabilit di trovare un errore con la sua entit. Egli fu infatti lautore di uno dei primi trattati di teoria della probabilit (Doctrine of chances, 1718) nel quale derivava risultati algebrici per induzione utilizzando osservazioni sulle frequenze di eventi. Introdusse in tal modo la probabilit composta di due eventi indipendenti (p(A) x p(B) = p(AxB)) e probabilmente fu il primo a operare con la formula delle probabilit
+

e
0

x2

dx =

/2

50

risultato che apparve con scarso rilievo in un opuscolo stampato privatamente nel 1733 (Approximatio ad summam terminorum binomii (a+b)n in serie expansi). Il risultato comunque fu tradotto in inglese ed inserito nella seconda edizione di Doctrine of chences (1738). Una svolta decisiva alla teoria degli errori fu per apportata da Adrien Marie Legendre ( 17521833) (che assieme a Condorcet, Lagrange, Monge, Laplace e Carnot, rappresenta il gotha dei matematici della Francia rivoluzionaria), il quale nella sua veste di componente della commissione dei pesi e delle misure incaricata di definire il metro ed il sistema di misurazione decimale ad esso collegato, si ciment con le misure geodetiche attraverso la triangolazione generale della Francia dalla quale ricav il metro provvisorio quale decimilionesima parte del quarto del meridiano terrestre. Quella definitiva, come noto, fu lesito delle misurazioni compiute in un quinquennio dai due astronomi geodeti Delambre e Mechain. Nel 1805 pubblic una Memoire nei quaderni dellInstitut des Sciences dove comparve per la prima volta il metodo dei minimi quadrati utilizzato per risolvere delle incongruenze in alcune equazioni lineari dedotte da osservazioni astronomiche. Ma fu Carl Friederich Gauss (1777-1855) ad utilizzare per primo il metodo dei minimi quadrati come dimostra una lettera spedita a Olbers nel 1802. Olbers era un astronomo che aveva scoperto Pallade (uno dei tanti pianeti minori del nostro sistema solare) e aveva chiesto a Gauss di calcolarne lorbita sulla base delle proprie osservazioni. Gauss part dal presupposto che ciascuna osservazione Oi poteva essere affetta da in errore casuale i. Il teorema afferma che il valore medio delle osservazioni Om il valore vero della grandezza misurata che minimizza la somma degli errori al quadrato. Diamo una dimostrazione algebrica del teorema.

Vogliamo dimostrare che il valore medio di n misure minimizza la somma degli scarti al quadrato. Sia Oi li-esima osservazione, Om il valore medio ed x il valore vero. Sia poi i lerrore di cui affetta li-esima osservazione. Allora ogni singola osservazione pu essere scritta:

O1 = Om + 1 O2 = Om + 2
. . . . . . .

On = Om + n
poich

Oi = nOm
i

segue che

i = 0 .
i

Consideriamo la somma degli scarti dalla media al quadrato:

51

S ( x) = ( x O1 ) 2 + ( x O2 ) 2 + .......... + ( x On ) 2 Viste le relazioni precedenti


2

questa

somma
2

pu

anche

essere
2

scritta:

S ( x) = [x (Om + 1 )] + [x (Om + 2 )] + ....... + [x (Om + n )] Sviluppando i quadrati si ottiene:


2 S ( x) = x 2 2(Om + 1 ) x + Om + 2Om1 + 12 + 2 2 x 2 2(Om + 2 ) x + Om + 2Om 2 + 2 +

......................................................
2 2 x 2 2(Om + n ) x + Om + 2Om n + n +

Sviluppando ulteriormente i calcoli ed ordinando si ha:


2 S ( x) = nx 2 2nOm x + nOm 2nx i + 2nOm i + i2 1 1 1 n n n

e raggruppando si ha S ( x) = n( x Om ) 2 + i2
1

in quanto i termini
2nx i + 2nOm i
1 1 n n

sono uguali a zero in quanto la somma degli errori uguale a zero. La funzione somma ha un minimo per x = Om da cui, sostituendo, S ( x) = i2
1 n

S (x)

2 i

52 Om

La figura mostra che per qualsiasi valore di xOm la somma dei quadrati degli scarti tende a crescere. La disputa prosegu per gli anni seguenti e fu risolta a Laplace che non prese le parti n delluno n dellaltro. La Storia per fa giustizia: Gauss mise a punto per primo il teorema; Legendre lo pubblic per primo. Va infine ricordato che fu Pierre Simon Laplace (1749-1827) a risolvere analiticamente per primo lintegrale di probabilit di De Moivre. Tale risultato servi con molta probabilit a Gauss per operare il collegamento fra la teoria degli errori e la curva normale. Questo passaggio gli valse il battesimo della curva che da allora conosciuta con il nome di GAUSSIANA.
Bibliografia essenziale Boyer, C.B. Storia della matematica. Oscar saggi Mondadori, 1990. Bell, E.T. I grandi matematici. Sansoni ed., 1950. Courant, R., Robbins, H. Che cos la matematica? Unversale Scientifica Boringhieri, 1985. Tazzoli, R. Gauss, principe dei matematici e scienziato poliedrico. Le Scienze, 5(28), 2002.

53

(Testo a lettura facoltativa)


La distribuzione Normale (Gaussiana) (C. Dimauro)

Il prototipo della funzione matematica che descrive la curva a campana : f ( x) = e

x2 h2

(1)

Il parametro h un parametro fisso che possiamo chiamare parametro di larghezza. Il grafico della (1) e:

Al variare del parametro h si ha:

allaumentare di h aumenta la larghezza della curva.


54

Dimostriamo che il punto di massimo coincide con il punto di coordinate (0,1) . Per fare ci calcoliamo la derivata prima della funzione:
2 ( x) = 2 xe h f h
x2

Il punto di massimo sar trovato per quel valore x che annulla la derivata prima: f ( x) = 0

2 h2 2 xe =0 h

x2

x2 h2

la quantit e deve essere

non si annulla mai per definizione di funzione esponenziale, quindi 2 x = 0 e cio x = 0 h2

Quindi nel punto di ascissa x = 0 si avr il massimo. Calcoliamo lordinata di tale punto sostituendo x = 0 nella (1):
f ( 0) = e
0 2 h
2

=1

Si avr quindi un massimo nel punto M di coordinate M (0;1) . Calcoliamo adesso la derivata seconda che ci permetter di ricavare il punto di flesso:
x2 x2 2 2 2 2 f ( x) = 2 e h + 2 xe h h h

da cui:
x2 x2 2 2 2 2 f ( x) = 2 e h 2 x 2 e h h h

ed infine:

2 2 2 f ( x) = 2 e h 1 2 x 2 h h Il punto di flesso sar trovato per quel valore x che annulla la derivata seconda:

x2

55

f ( x) = 0

2 e h2

x2 h2

2 2 1 h 2 x = 0

da cui, per gli stessi motivi legati alla derivata prima : 1 da cui 2 2 x =0 h2

x=

h 2

Otteniamo, come ci aspettavamo, vista la simmetria della funzione, due punti di h h flesso, il primo per x1 = , il secondo per x2 = . Le ordinate del punto di 2 2 2 h2 flesso si ricavano sostituendo nella (1): h2 1 2 2 h h h2 = e 2 f ( )=e =e h 2 1 h 1 2 ed F = In definitiva avremo: F1 = ;e ;e 2 2 2 Se modifichiamo la (1) si ha: 2
f ( x) = e
x2

2 h2

(2)

andando a svolgere i calcoli, i punti di flesso saranno:


1 h ;e 2 F1 =

ed

1 h ;e 2 F2 =

La (2) non ancora nella sua forma finale. Ogni distribuzione deve essere normalizzata, cio deve soddisfare la condizione:
+

f ( x)dx = 1

(3)

cio larea sottesa dalla curva deve essere uguale ad 1. Ci consistente con i nostri scopi, visto che la probabilit totale 1. Per fare ci poniamo: f ( x) = N e
x2

2 h2

(4)

56

cio moltiplichiamo la funzione per il fattore N che non cambia n la forma, n il massimo. Dobbiamo scegliere allora il fattore di normalizzazione N in modo che la funzione sia normalizzata come la (3):
+ per risolvere questo integrale poniamo: + x2

f ( x)dx = N e

2 h 2 dx

x = y da cui x = hy h dx = hdy per cui si avr: =N


+ y e 2
2

+ y h e 2

dy =

lintegrale

dy uno degli integrali standard della fisica matematica (che sar

risolto in appendice) e d come risultato:


+ y e 2
2

dy = 2

per cui si avr =


+ y Nh e 2
2

dy = Nh 2

Questo integrale deve essere 1 e quindi:


Nh 2 = 1 da cui N= 1 h 2

Sostituendo questo valore nella (4) si ottiene la distribuzione di Gauss o Normale, correttamente normalizzata: f ( x) = 1 e h 2
57
x2

2h2

(5)

Questa curva la curva normale con massimo in x = 0 . Nella pratica, il massimo di questa curva non sempre nello zero. Per renderla pi generale, sostituiamo nella (5) x con x X . La (5) diventer: f ( x) = 1 e h 2

( x X )2
2 h2

(6)

il cui punto di massimo avr ascissa x = X . Per cui al variare di X si avranno le curve:

Interpretiamo adesso le quantit X ed h. In generale, la media di un qualunque numero di misure la somma di tutti i diversi valori xk , ciascuno pesato per la frazione di volte in cui stato ottenuto: x = xk Fk
k

dove ovviamente Fk =

nk che rappresenta la frequenza con cui una data misura nk si N

presenta nelle N misure totali. Se, come nel nostro caso il numero di misure enorme ed abbiamo la distribuzione limite, il valore medio sar dato semplicemente da
+

= xf ( x)dx

58

per cui sostituendo si avr:

1 h 2

xe

( x X )2
2 h2

dx

Facciamo anche qui un cambio di variabili, ponendo y = x X , da cui x = y + X e differenziando dx = dy . Sostituendo nellintegrale si ottengono due termini:
2 + y 2 + y 1 2 2 h dy + X 2 h 2 dy ye = e h 2

Il primo integrale esattamente zero, perch il contributo di ogni y cancellato esattamente da quello di y. Il secondo integrale lintegrale di normalizzazione visto prima ed ha il valore h 2 . Questo valore si semplifica con h 2 al denominatore e si ottiene che il valore atteso, la media teorica, il risultato pi probabile

=X
Quindi il punto di massimo in cui centrata la gaussiana proprio la media attesa . Sostituendo nella (6) si avr:
1 f ( x) = e h 2

( x )2
2 h2

Sappiamo che la deviazione standard data dalla formula:

=
al quadrato

( xi ) 2
N 1

( xi ) 2 =
N

dove al posto di N 1 abbiamo messo N visto il numero grandissimo di misure. Si ha ancora:

( xi ) 2 =
N

59

che la media della deviazione standard. Con le stesse considerazioni fatte precedentemente si perviene allintegrale:
+

2 = ( x ) 2 f ( x)dx

cio 1 2 = h 2
+

(x )2 e

( x )2
2 h2

dx

Ponendo y = x e z = y h ed integrando per parti si ottiene:

2 = h2
per cui la forma finale della distribuzione normale : f ( x) = 1 e 2

( x )2
2 2

che per quanto visto avr il massimo nel punto di ascissa e flessi nei punti di ascissa

LA DEVIAZIONE STANDARD COME IL LIMITE DI CONFIDENZA DEL 68 PERCENTO Abbiamo visto che lintegrale della gaussiana d come risultato 1, cio
+

f ( x)dx = 1
b

allora si comprende bene che

f ( x)dx
a

la probabilit che una data misura dia un risultato nellintervallo [a, b]. In particolare, possiamo allora calcolare la probabilit che una misura cada entro una deviazione standard dal valore vero . Questa probabilit data da:

60

P(entro ) =

1 2

( x )2
2 2

dx

Lintegrale pu essere semplificato sostituendo ad ( x ) = z . Con questa sostituzione si ha dx = dz ed i limiti dellintegrale diventano z = 1 . Allora

1 P(entro ) = 2

+1 z e 2 1

dz

Questo integrale un integrale standard della fisica matematica noto come la funzione degli errori denotata con erf(t) o integrale normale degli errori. Pu essere valutato sia analiticamente che con una normale calcolatrice. Il calcolo in questo caso ci d 0,68 . APPENDICE: calcolo dellintegrale di probabilit: I =
+

x2 2

dx

Il primo a svolgere questo calcolo fu Laplace con una tecnica molto originale per quel tempo.

61

La funzione esponenziale simmetrica rispetto allasse delle ordinate, per cui possibile calcolare solo lintegrale da 0 a + e poi moltiplicare per 2:
x2 2

I = 2I 1 = 2 e
0

dx

Eleviamo al quadrato lintegrale I1 ed otteniamo:


2 I1 = + x e 2
2

+ y dx e 2

dy

dove nel secondo integrale la variabile x stata cambiata in y. Aggiustando i calcoli si ha:
2 I1 = + +
x2 + y2 2


0 0

dxdy

dove dx e dy rappresentano gli spostamenti infinitesimi su cui integrare. La quantit


x 2 + y 2 = r 2 rappresenta una circonferenza di centro lorigine degli assi cartesiani e

raggio r. Ci suggerisce una trasformazione delle variabili in coordinate polari. in tali coordinate lo spostamento orizzontale rappresentato dal raggio, per cui dx = dr; lo spostamento verticale avviene lungo un arco, per cui essendo un arco di lunghezza l uguale a l = r , lo spostamento in verticale sar dato da dl = rd . Si ha quindi:

2 I1 =

0 0

2 + r e 2

dr r d = d
0

re

r2 2

dr

Il primo di questi integrali d come risultato:

d = [ ]02
0

2
+

mentre il secondo:
+

r2 re 2

dr =

+ r e 2

r2 r 2 d = e = 1 2 0 2

quindi
62

2 I1 =

1 =

da cui estraendo la radice quadrata ad entrambi i membri si ha:

I1 =

Moltiplicando per due questo integrale si ottiene la soluzione dellintegrale di partenza:

I=2

= 4

= 2

63

Lezione n. 5
INFERENZA SULLA MEDIA E ANALISI DELLA VARIANZA

1. Linferenza sulla media (A. Nudda)


Abbiamo visto che lobbiettivo della statistica quello di stimare i parametri della popolazione basandoci sulle informazioni (statistiche) calcolate sul campione. Ricordiamo che la popolazione caratterizzata da misure numeriche descrittive chiamate parametri: la media () e la deviazione standard () I metodi di inferenza statistica sui parametri della popolazione sono fondamentalmente due: 1. 2. la stima del valore del parametro della popolazione il test di ipotesi (test statistico)

Nel primo caso (stima del parametro della popolazione) noi dobbiamo rispondere alla domanda qual il valore del parametro della popolazione mentre con il test statistico dobbiamo rispondere alla domanda il valore del parametro (es. ) considerato uguale o diverso da uno specifico valore (0)?

Ricordiamo ancora che nella curva della distribuzione normale


nellintervallo 1,96 ES. ricade il 95% dei valori nellintervallo 2 ES ricade il 95,44% dei valori nellintervallo 2,58 ES ricade il 99% dei valori dove ES (errore standard) = deviazione standard diviso la radice quadrata di n (numerosit dei dati)

Lintervallo 1,96 ES un intervallo di confidenza al 95%. Lintervallo 2,58 ES un intervallo di confidenza al 99%

64

Lintervallo di confidenza calcolato con la formula:

Z/2 ES
in cui z in valore inferiore (quello superiore +) dellintegrale della curva normale standardizzata. Il valore dellintegrale rappresenta il livello di significativit richiesto dal test. Il valore di corrisponde al livello di probabilit scelto, solitamente =5% (chiediamo al test in quale intervallo di valori della distribuzione delle medie campionarie comprende il 95% della popolazione delle medie campionarie). Nella formula usiamo /2 poich dobbiamo ricordare che le due code della distribuzione di frequenza sono simmetriche per cui ogni coda comprende il (/2) 100 dei casi. Per campioni grandi, con almeno 30 elementi (n >30), usiamo il valore di z per calcolare lintervallo di confidenza. Per campioni piccoli, di numerosit inferiore a 30 nei quali luso della distribuzione z potrebbe creare distorsioni nella stima, dobbiamo utilizzare come livello di probabilit quello della distribuzione t . Lai la formula per calcolare lintervallo di confidenza sar perci:

t/2 ES

Stima del valore del parametro della popolazione


Supponiamo di essere interessati alla stima dellaltezza media della popolazione studenti dellateneo di Sassari. Per fare questo lavoriamo su un campione (ad esempio un gruppo di studenti della facolt di agraria) di cui misuriamo la media (m) per poter stimare la media della popolazione ()

In un campione di n = 50 studenti della facolt di agraria di Sassari laltezza media (m) 168 cm, con una deviazione standard di 12 cm. Usiamo questo campione per costruire lintervallo di confidenza al 95% per (altezza media degli studenti universitari di Sassari).
Lintervallo di confidenza al 95% dato da: media1,96 ES: nel caso in esempio ES = (12 / 50 intervallo di confidenza al 95% dato da: = 168 1,96 x 1,70 = 168 3,33 limite inferiore dellintervallo di confidenza = 168 3,33 = 164,67 cm limite superiore dellintervallo di confidenza = 168 + 3,33 = 171,33 cm Pertanto laltezza media degli studenti dellateneo () con probabilit del 95% ricade nellintervallo compreso fra 164,67 e 171,33 cm. Gli intervalli di confidenza per dipendono dal coefficiente di confidenza scelto (ad es. 95%, 99%, ecc.), dalla deviazione standard campionaria (maggiore la variabilit stimata della popolazione e maggiore quella delle medie campionarie) e dalla numerosit del campione utilizzato per la stima (pi piccolo il campione, maggiore lintervallo di confidenza: campioni di numerosit limitata possono essere anche molto diversi dalla popolazione, mentre campioni grandi lo sono di meno).

) = 1,70. quindi

65

Test statistico per la media


Il test statistico (o test di ipotesi) ci permette di rispondere alla domanda la media della popolazione () uguale o diversa ad uno specifico valore m calcolato su un campione? Ad esempio: laltezza media degli studenti di Sassari (168 cm) uguale allaltezza media della popolazione di studenti del nord Italia (173 cm)? Un test statistico si compone delle seguenti parti: a) formulazione dellipotesi nulla, indicata con H0 Laltezza media degli studenti di Sassari uguale allaltezza media degli studenti del Nord Italia (ovvero 168 cm uguale a 173 cm); ovvero, con quale probabilit le differenze nelle medie campionarie che abbiamo trovato sono dovute allestrazione casuale di campioni dalla stessa popolazione?

b) formulazione dellipotesi di ricerca o ipotesi alternativa, indicata con Ha

Laltezza media degli studenti di Sassari diversa dallaltezza media degli studenti del Nord Italia (ovvero 168 cm minore di 173 cm; ovvero, la differenza fra i valori medi che abbiamo osservato sono dovute al fatto che i due campioni appartengono a popolazioni diverse?
c) applicazione del Test statistico

Calcolo del valore numerico, ricavato dai dati del campione, sulla base del quale si decide se accettare lipotesi nulla o rigettarla a favore dellipotesi alternativa. Questo valore numerico (Z, variabile standardizzata della distribuzione delle m2die campionarie) calcolato con la formula:

Z=

X / n

Utilizziamo i dati del campione di 50 studenti di Sassari di cui stata misurata unaltezza media di 168 cm (m) con una deviazione standard di 12 e il valore di 173 cm quale altezza media degli studenti del Nord Italia. Applichiamo la formula per calcolare Z

Z=

168 173 12 / 50

= - 2,94

d) Regione di rigetto

66

Individuazione della Zona della distribuzione di probabilit della statistica del test dove ricadono i valori che consentono di rigettare lipotesi nulla a favore di quella alternativa
- si sceglie la probabilit di errore pari ad (ad es. se vogliamo una probabilit di errore del 5% abbiamo = 0,05; se vogliamo una probabilit di errore inferiore, ad esempio dell1% avremmo = 0,01) - nelle tavole della distribuzione normale si individua il valore di Z tabulato corrispondente al valore di scelto. Supponiamo di aver scelto una probabilit di errore del 5% per cui = 0,05 (ricordiamo di cercare nella tabella della distribuzione normale il valore /2). Per la probabilit di errore del 5% (ovvero 95% di probabilit di non sbagliare) il valore di Z tabulato = 1,96. Siccome il valore assoluto di Z da noi calcolato (2,94) supera il valore di Z tabulato (1,96) si rigetta lipotesi nulla (H0 = laltezza degli studenti di Sassari uguale allaltezza degli studenti del Nord Italia) e si accetta lipotesi alternativa (H1 = laltezza degli studenti di Sassari minore dellaltezza degli studenti del Nord Italia) e) Conclusioni

Laltezza degli studenti di Sassari minore dellaltezza degli studenti del Nord Italia. Nel dire questo ho la probabilit di sbagliare del 5%. oppure nellaffermare questo ho la garanzia del 95% di NON sbagliare.

NB: Per ritrovare i valori di Z o di t tabulati ricordate di utilizzare le tabelle di densit di probabilit: quella della curva normale nel caso dei test che ricorrono al valore di Z quella del t di student normale nel caso dei test che ricorrono al valore di t

La lettura della tabella di t richiede come informazioni il valore di prescelto ed i gradi di libert (g.l.) g.l. = n -1

2. Lanalisi della varianza

Una generalizzazione del confronto fra medie campionarie lanalisi della varianza (ANOVA in acronimo che significa analisys of variance). Nonostante la denominazione, che deriva da Fisher e Snedecor che misero a punto questa tecnica negli anni 20 del novecento, lANOVA si occupa di confronti fra medie campionarie. Il quesito di fondo di questa tecnica : le medie campionare che ho ottenuto rappresentano una stima della media della stessa popolazione (ossia, i campioni che ho in esame sono diversi in quanto estrazioni casuali dalla stessa popolazione), oppure rappresentano stime di medie di popolazioni differenti? In altri termini, le differenze fra le medie che osservo sono dovute al caso oppure c un motivo? Prendiamo un insieme di dati senza scriverne il valore (16 dati in totale):

67

Poniamo di aver estratto questo campione dalla stessa popolazione. I dati sono distribuiti nelle celle casualmente: infatti, non conoscendone il valore non ho alcuna ragione per una collocazione preferenziale dei dati in una posizione particolare della matrice. Ora, classifico di dati per colonna: attribuisco a ciascuna colonna una lettera in modo tale che i dati della prima colonna siano ora distinguibili da quelli delle altre colonne: in questo modo ho operato una classificazione dei dati (li ho inseriti allinterno di una classe). Il motivo che mi ha spinto a formulare le classi in tal modo e non in uno alternativo detto criterio di classificazione. Sui dati cos ordinati posso calcolare la media di ciascuna classe (ma, mb, mc, md) e la media generale mt.

Abbiamo costruito in tal modo una matrice in cui esiste una variabilit verticale (la variabilit dei dati entro il gruppo di appartenenza) e una variabilit orizzontale (la variabilit delle medie fra gruppi). La misura di tutta la variabilit verticale pu essere stimata con la varianza entro i gruppi (VARENTRO), quella orizzontale con la varianza tra gruppi (VARTRA). Se abbiamo distribuito i dati veramente a caso, non dovrebbe sussistere alcuna ragione per cui una varianza debba essere maggiore dellaltra. Entrambe sono una stima del parametro varianza della popolazione (VARPOP), per cui con campioni molto grandi il rapporto VARTRA/VARENTRO tende allunit. Se invece questo rapporto molto lontano dallunit, significa che la variabilit fra i gruppi di gran lunga superiore a quello entro i gruppi, per cui molto probabile i gruppi rappresentino campioni estratti da popolazioni differenti per la (o le) propriet che abbiamo in studio.

68

E intuitivo che le varianze stimate tendano a cambiare il loro valore in funzione della numerosit del campione e di quella dei gruppi. Nellesempio appena accennato, la varianza fra gruppi stimata con (4-1) gradi di libert, mentre quella entro gruppi stimata con 12 gradi di libert (3 gdl per ciascun gruppo). In effetti, su 16 dati e 4 gruppi, la media generale mt porta via una informazione (libera) cio un grado di libert, le medie di gruppo portano via 3 informazioni (la quarta bloccata dalla media generale), e ciascuno dei k gruppi ha al suo interno nk-1 gradi di libert (4-1 nel nostro caso) in quanto la quarta informazione labbiamo gi usata per calcolare la media di gruppo. Riassumendo, su una numerosit totale n, divisa in k gruppi isonumerici nk1, nk2,n.nkn, la somma dei gdl da la numerosit dei gdl totali: n-1 = (k-1, gdl della VARTRA) + (n-k1, gdl della VARENTRO). Normalmente la VARTRA stimata con gdl inferiori rispetto alla VARENTRO (di solito i dati allinterno di ciascun gruppo, chiamati repliche, sono di gran lunga superiori al numero di gruppi. Al limite, sono uguali quando in ciascun gruppo collocato un solo dato), per cui VARTRA detta varianza maggiore (nel senso che assume sempre il valore maggiore) e VARENTRO detta varianza minore. Il rapporto VARTRA/VARENTRO prende il nome di F (da Fisher che lo ha codificato) ed una variabile con una distribuzione che dipende dai gradi di libert delle varianze. Riportiamo le distribuzioni dellF di Fisher generate dal software MINITAB per 100 gradi di libert per la VARENTRO e gdl da 1 a 50 per la VARTRA.

Distribuzione dell'F di Fisher con 1 e 100 gradi di libert


400

300

Frequency

200

100

0 0 5 10 15

F(1;100)

69

Distribuzione dell'F di Fisher con 10 e 100 gradi di libert


300

Frequency

200

100

0 0 1 2 3

F(10;100)

Distribuzione dell'F di Fisher con 20 e 100 gradi di libert

300

Frequency

200

100

0 0 1 2 3

F(20;100)

Distribuzione dell'F di Fisher con 50 e 100 gradi di libert

400

Frequency

300

200

100

0 0,5 1,5 2,5

F(50;100)

Vediamo che maggiori sono i gradi di libert, pi il grafico si avvicina ad una distribuzione normale. Con 5000 gdl per varianza maggiore e minore la distribuzione si assomiglia ad una normale centrata sul valore 1.
70

Histogram of F(5000;5000), with Normal Curve


600 500 400

Frequency

300 200 100 0 0,9 1,0 1,1

F(5000;5000)

Consideriamo 4 insiemi di dati (rilievi della produzione giornaliera di latte espressa in grammi di pecore Sarde): repliche 1 2 3 4 5 x x2 mk Dev Var d.s. TOTALE x x2 mt Dev A 1575 1860 1000 1140 925 6500 9095450 1300 645450 161362 401,7 = 28620 = 44656300 = 1431 = 3701080 B 1360 1910 1860 1470 1480 8080 19308600 1616 251320 62830 250,6 C 1280 1050 670 2020 915 5935 8107025 1187 1062580 265645 515,4 D 1430 2330 1750 1645 950 8105 14144825 1621 1006620 251655 501,6

Poniamo che il raggruppamento dei dati corrisponda a 4 differenti tipi di mangime somministrati agli animali (A = mais; B= orzo; C= avena; D = mais+soia). Dobbiamo verificare se le differenze
71

fra le medie campionarie ottenute sono causali (cio sono una stima campionaria della sessa media della popolazione ) oppure se i diversi tipi di mangime hanno creato popolazioni differenti di pecore e la media campionaria di ciascun gruppo la stima della media di popolazioni differenti. Ricordiamoci il modello lineare della media: yi = + i Come ricorderete, in questo modello vi una parte spiegata (le media) e una non spiegata o casuale (lerrore). Nel nostro caso, per, abbiamo aggiunto una fonte di spiegazione al fenomeno che rappresentata dallappartenenza delle pecore ai gruppi di alimentazioni differenti. Lerrore del modello della media pu quindi essere diviso in due parti, di cui una spiegata (G=gruppo) ed una residua non spiegata (i= errore casuale): = i + G Quindi il modello complessivo diventa: yji = + Gj + ji Questo modello pu essere letto nel modo seguente: ciascun dato uguale alla media generale + lo scostamento della media del gruppo a cui appartiene il dato + lo scostamento del dato dalla media di gruppo (il pedice j indica il gruppo di appartenenza del dato yji). Prendiamo come esempio il primo dato: 1575 (yji) = 1431( ) 131 (mk1-= Gj ) + 275 (yji mk1=ji) La parte spiegata dal modello il primo scostamento (Gj = -131): questa informazione giustificata dal fatto che quel dato inserito in un determinato gruppo (in questo caso A), il quale possiede una media che differisce di una quantit Gj dalla media generale. Lo sviluppo complessivo del modello lineare per i 4 gruppi sperimentali di pecore illustrata di seguito; sono anche calcolati i quadrati degli errori.
Gruppo A

i2 A1 A2 A3 1575 = 1431 - 131 + 275 1860 = 1431 - 131 + 560 1000 = 1431 - 131 - 300 75625 313600 90000

72

A4 A5

1140 = 1431 - 131 -160 925 = 1431 - 131 - 375


Totale

25600 140625 645450

Gruppo B

i2 B1 B2 B3 B4 B5 1575 = 1431 + 185 - 256 1860 = 1431 + 185 + 294 1000 = 1431 + 185 + 244 1140 = 1431 + 185 146 925 = 1431 + 185 - 136
Totale

65536 86436 59536 21316 18496 251320


Gruppo C

i2 C1 C2 C3 C4 C5 1280 = 1431 - 244 + 93 1050 = 1431 - 244 + 1370 670 = 1431 - 244 - 517 2020 = 1431 - 244 + 833 915 = 1431 - 244 - 272
Totale

8649 18769 267289 693889 73984 1062580

Gruppo D

i2 D1 D2 D3 1430 = 1431 + 190 191 2330 = 1431 + 190 + 709 1750 = 1431 + 190 + 129
73

36481 502681 16641

D4 D5

1645 = 1431 + 190 24 950 = 1431 + 190 - 671


Totale

576 450241 1006620

I calcoli sono corretti se la somma degli scarti i, uguale a zero e se anche la somma degli scarti delle medie di gruppo dalla media generale (Gj) uguale a zero. Pur se ovvio, vale la pena ricordare che le somma degli scarti uguale a zero in quanto la somma dei dati (yji) uguale alla somma.delle medie (= n) Ricordiamo che nel modello della media si toglieva da SS la parte invariante, cio SSm, per ottenere la devianza (cfr lezione n. 4). Vediamo se questo valido anche con la scomposizione dellerrore in due parti. SS = 44656300 SSm= n*m2= 20*14312 = 40955220 Somma dei quadrati degli scostamenti Gj SSAA = 5 SSAB = 5 SSAC = 5 SSAD = 5 *(-131)2 = *(185)2 = *(-244)2 = *(190)2 = 85805 171125 297680 180500

Se i calcoli sono stati fatti bene, la somma dei quadrati della media (SSm) pi la somma dei quadrati degli scostamenti di ciascun gruppo dalla media (SSG) deve essere inferiore o, al massimo, uguale alla somma totale dei quadrati (SS), in quanto tutti i valori di ciascun gruppo fossero uguali fra loro (e uguali alla media del gruppo) gli scostamenti interni al gruppo i assumerebbero il valore di zero. Riprendiamo ora i quadrati degli scostamenti i e la loro somma calcolata prima: A: B: C: D: Totale 645450 251320 1062580 1006620 2965970

Avremo allora nel complesso


74

SS = SSm = SSG = SS =

44656300 40955220 73510 2965970

Possiamo agevolmente notare che SS = SSm + SSG + SS; infatti ha:


44656300 = 40955220 + 735110 + 2965970

il che significa che la variabilit contenuta nellerrore pu essere scomposta in due parti, una spiegata (appartenenza degli animali al gruppo di alimentazione) e una non spiegata (la deviazione individuale rispetto alla media del gruppo). Per quanto riguarda i gradi di libert, la media generale prende una informazione, i gruppi 3 informazioni e per lerrore restano 16 gradi di libert: 16 (4 gdl per gruppop) + 3 (n gruppi 1) + 1 (media generale) = 20 (numerosit del campione) Calcoliamo ora le varianze (MS = mean square) che ci servono per effettuare il test statistico di Fisher MSG = SSG/3 = 735110/3 = 245037 MSE = SS/16 = 2965970/16 = 185375 Infine, poich la media la parte invariante del modello, non porta alcuna informazione alla variabilit. Possiamo allora sottrarre i quadrati della media a destra e a sinistra del modello e avremo:
3701080 = 735110 + 2965970

Il primo termine la devianza totale (SSt) gi incontrata nella lezione n. 3 che pu essere scomposta in una devianza fra i gruppi (SSG) ed una devianza entro i gruppi (SSe). Siamo ora in grado di ordinare i risultati nella classica tabella di ANOVA. Questa collocazione molto importante in quanto gli output dei software statistici sistemano i risultati generalmente in questo modo. Tabella dei risultati dellanalisi della varianza (ANOVA) a un fattore di classificazione

75

Fonte Tra gruppi (G) Entro gruppi (e) Totale (t)

Devianza (SS)
735110 2965970 3701080

gradi di libert
3 16 19

Varianza (MS)
245037 185375 **

F
1,32

(**) questo dato non viene di solito esposto in quanto non utile ai fini dellanalisi. Inseriamo il valore di F in MINITAB ed otteniamo il seguente output
Probability Density Function F distribution with 3 DF in numerator and 16 DF in denominator x 1,3200 P( X = x) 0,3048

Il che significa che la probabilit che le medie appartengano a popolazioni differenti (ovvero che i diversi tipi di mangime abbiano causato una produzione differente) del 30,5%. E una probabilit troppo alta di fare una affermazione sbagliata per cui rigettiamo lipotesi alternativa (il mangime provoca produzioni diverse) e accettiamo lipotesi zero (il mangime non crea differenze). Normalmente i livelli di potenza del test (cio la probabilit di commettere errore nellaccettare lipotesi alternativa) sono del 5% e, in casi particolari, dell1%. Se non disponessimo di un software, potremo consultare le tavole dellF sviluppate da Fisher (ne stata distribuita una copia a lezione). Da queste tavole si ricava che per (16 gd.l. per la varianza minore Sse e 3 g.d.l. per la varianza maggiore SSG) i valori per i prefissati limiti sono : F5% = 3,24 e F1% = 5,29. Poich il valore da noi trovato inferiore a quelli soglia tabulati, respingiamo lipotesi alternativa. Se fosse stato superiore, lavremmo accettata.

76

ANALISI DELLA VARIANZA (esercitazione a lettura obbligatoria. A. Nudda) Abbiamo visto in precedenza come confrontare le medie di due popolazioni estratte da due campioni casuali indipendenti. In effetti, questo spesso una semplificazione di ci che accade nelle situazioni pratiche. Per esempio se noi volessimo confrontare il salario medio orario di braccianti agricoli appartenenti a tre zone diverse, dovremmo estrarre tre campioni casuali dalle tre popolazioni e fare le medie. Sicuramente avremmo risultati diversi (sono medie campionarie), ma questo non vuol assolutamente dire che le medie delle tre popolazioni siano diverse. evidente che i metodi visti fino a questo punto non sono efficaci. A risolvere tale problema ci pensa lanalisi di varianza.

Lanalisi della varianza pi rapida ed ha un campo di applicazione molto pi ampio del test t
Cerchiamo innanzi tutto di capire la logica interna dellanalisi di varianza. Riprendiamo lesempio dei salari e supponiamo di aver estratto tre campioni dalle tre popolazioni ognuno di cinque unit campionarie:

Campioni estratti 1 5.90 5.92 5.91 5.89 5.88


x1 = 5.90

2 5.51 5.50 5.50 5.49 5.50

3 5.01 5.00 4.99 4.98 5.02

x2 = 5.50

x3 = 5.00

Questi dati presentano sufficiente evidenza per indicare se ci sono differenze fra le tre medie campionarie? Osservando i dati ci accorgiamo che la variabilit entro di ogni singolo campione piccola, mentre grande la variabilit tra le medie campionarie.

77

Poich la variabilit tra le medie campionarie grande in confronto alla variabilit entro ogni singolo campione, potremmo intuitivamente concludere che le medie delle corrispondenti popolazioni sono diverse.

Output di MINITAB che evidenzia gli intervalli di confidenza (Cis) al 95% delle medie basato su una deviazione standard comune (pooled).
Individual 95% CIs For Mean Level 1 2 3 N 5 5 5 Mean 5,9000 5,5000 5,0000 0,0135 StDev 0,0158 0,0071 0,0158 Based on Pooled StDev ----+---------+---------+---------+-( * ) ( * ) ( * ) ----+---------+---------+---------+-5,10 5,40 5,70 6,00

Pooled StDev =

Consideriamo adesso la seguente tabella:

Campioni estratti 1 5.90 4.42 7.51 7.89 3.78 2 6.31 3.54 4.73 7.20 5.72 3 4.52 6.93 4.48 5.55 3.52

x1 = 5.90

x2 = 5.50

x3 = 5.00

Essa illustra una situazione in cui le medie campionarie sono le stesse della precedente tabella, ma la variabilit allinterno di ogni singolo campione pi grande. Diversamente alla situazione di prima, qui la variabilit tra i campioni pi piccola in confronto alla variabilit allinterno dei campioni. quindi pi difficile arrivare a delle conclusioni. In questi casi occorre analizzare pi a fondo la variabilit, occorre cio fare una analisi di varianza.
78

Individual 95% CIs For Mean Level 1 2 3 N 5 5 5 Mean 5,900 5,500 5,000 1,527 StDev 1,819 1,417 1,296 Based on Pooled StDev -+---------+---------+---------+----(-----------*------------) (------------*-----------) (------------*-----------) -+---------+---------+---------+----3,6 4,8 6,0 7,2

Pooled StDev =

METODO: lanalisi della varianza consiste nella scomposizione della varianza totale in un insieme di varianze parziali corrispondenti a sorgenti di variazione differenti e ben determinate (varianza fra gruppi e varianza entro gruppi). Una volta individuate, queste varianze verranno confrontate tra di loro con un test statistico denominato test F.
Vogliamo confrontare 2 serie di dati Si parte sempre dallipotesi H0 cio che le medie dei due gruppi non siano tra loro diverse. Se lipotesi H0 viene contradetta dal test, si accetta lipotesi alternativa H1 e si conlcude che le 2 medie sono diverse Poich si parte sempre dallipotesi H0 cio che le medie dei due gruppi non siano tra loro diverse (ovvero rappresentino la stima di campioni estratti dalla stessa popolazione) consideriamo le due serie di dati come costituenti ununica serie di 6 misure e calcoliamo la VARIANZA TOTALE

A 2 3 4 9

B 4 5 6 15

24 =4 6 N =6 x=

xA = 3

xB = 5

Per calcolare la varianza totale occorre calcolare: 79

- la somma dei quadrati degli scarti dei dati individuali dalla media generale che indichiamo come SOMMA TOTALE DEI QUADRATI
N 1

SSt = ( xi xi ) 2
- i gradi di libert (g.l. = N-1)

In pratica per calcolare la Varianza Totale:


1. calcolare la media generale del gruppone

24 =4 6 N =6 x=

2. Calcolare lo scarto di ciascun valore dalla media generale

A 2-4=-2 3-4=-1 4-4=0

B 4-4=0 5-4=+1 6-4=+2

3. poich la somma degli scarti = zero, si fa il quadrato degli scarti

A (-2)2 (-1) 2 (0) 2

B (0) 2 (+1) 2 (+2)2

4. Fare la Somma Totale dei Quadrati SST

SST = 4 + 1 + 0 + 0 + 1 + 4 = 10

Tale variabilit totale , comunque, il risultato di due sorgenti di variazione. La prima dovuta alla differenza tra i gruppi A e B: si ha infatti x A = 3 ed x B = 5 . La seconda costituita dalle differenze fra le singole unit campionarie che compongono ogni gruppo (allinterno di ogni gruppo abbiamo infatti valori diversi). La variabilit totale si
80

pu allora scindere in due parti: variabilit fra gruppi (SSG) e variabilit entro gruppi (SS).
VARIABILITA FRA GRUPPI

Per poter isolare la variabilit fra i gruppi occorrer sopprimere la variabilit allinterno di ogni gruppo. Questo si pu fare sostituendo allinterno dei gruppi i valori originali con le medie di ogni gruppo: In questo modo le medie rimangono uguali, ma si annulla la variabilit allinterno di ogni gruppo. Inoltre facile vedere che la media totale rimane sempre 4:

x=
1.

9 +15 =4 6

A 3 3 3

B 5 5 5 15
sostituire allinterno di ciascun gruppo i valori originali con la media di ogni gruppo

somma

2.

A 3-4 = -1 3-4 = -1 3-4 = -1

B 5-4=+1 5-4=+1 5-4=+1 +3


Calcolare lo scarto di ciascun valore dalla media generale = 4
Poich la somma degli scarti = 0

somma

-3

3.

A (-1)2 (-1)2 (-1)2

B (+1) 2 (+1) 2 (+1) 2

Calcolare il quadrato degli scarti

81

4. Somma dei quadrati TRA gruppi (SSe): 1+1+1+1+1+1=6

VARIABILITA ENTRO GRUPPI Poich SST = SSG + SSe La variabilit allinterno dei gruppi (somma dei quadrati entro gruppi SSe) data semplicemente dalla differenza: SSe= SST SSG 10 - 6 = 4 SST = somma dei quadrati totale (o devianza totale) SSG = somma dei quadrati entro gruppo (o devianza entro) SSe = somma dei quadrati tra gruppi (o devianza tra) VARIANZA = devianza/g.l.

82

Varianza TRA gruppi


VarianzaTRA = SSG 6 = =6 k 1 1

g.l. = k -1 = 1 k = numero di gruppi

Varianza ENTRO gruppi


VarianzaEntro = SSe 4 = =1 N k 4

g.l. = N - k = 6 - 2 = 4 N = numero complessivo di dati k = numero di gruppi

83

IL TEST STATISTICO O TEST F DI SIGNIFICATIVIT

Il test statistico F confronta la varianza tra i gruppi e la varianza antro gruppi:

F=

MSG 6 = =6 MSe 1

ed caratterizzato da k 1 gradi di libert al numeratore e N k gradi di libert al denominatore. Per

= 0.05 le tabelle danno F = 7.71. Il F calcolato non supera quello tabulato: si

rifiuta lipotesi alternativa per cui si accetta quella zero. Riassumiamo il tutto in una tabella:
Ricordiamo che: (H0): 1 = 2 (le 2 medie sono relative a campioni che provengono dalla stessa popolazione) (H1): almeno due diverse, ovvero: 1 diversa da 2 (le due medie sono relative a campioni che provengono da popolazioni diverse) Se il valore di F calcolato minore del valore di F tabulato accetto lipotesi nulla H1 (le due medie non sono statisticamente differenti) Se il valore di F calcolato maggiore del valore di F tabulato rifiuto lipotesi nulla H0 e accetto lipotesi alternativa (le due medie sono statisticamente differenti) Nellesempio considerato k - 1 = numero di gruppi - 1 = 2 - 1 = 1 (g.l. al numeratore); n - k = numero di soggetti - numero di gruppi = 6 - 2 = 4 (g.d.l. al denominatore).

84

Sulla tavola di probabilit di F, all'incrocio tra 1 g.d.l. al numeratore e 4 g.l. al denominatore, troviamo:
F(1, 4) = 7,71 per = 0.05, F(1, 4) = 21.20 per = 0.01. Per = 0.05 (L.C. 95%; 1 e 4 g.l.) le tabelle dellF danno F = 7.71 Il F calcolato ( = 6) minore di quello tabulato (=7.71) per cui si accetta lipotesi nulla (H0) e si rigetta lipotesi alternativa Ha.

Ovvero le due medie non sono statisticamente differenti


Output da MINITAB

Analysis of Variance Source DF SS Factor 1 6,00 Error 4 4,00 Total 5 10,00

MS 6,00 1,00

F 6,00

P 0,070

Level A B

N 3 3

Mean 3,000 5,000

StDev 1,000 1,000

85

Uso delle tavole di F

Le tavole di F sono a doppia entrata: margine orizzontale (superiore) riporta i g.l. del numeratore margine verticale (laterale) riporta i g.l. del denominatore Nellesempio precedente: g.l. per il numeratore = 1 g.l. per il denominatore = 4 per 1 e 4 g.l. e per un livello di = 0.05 F tabulato = 7,71 per 1 e 4 g.l. e per un livello di = 0.01 F tabulato = 21,20

86

Lezione n. 6 TEORIA DELLA REGRESSIONE

1. La regressione

La regressione studia le modalit di interpretazione di insiemi di dati legati fra di loro da vincoli di causalit. Ad esempio, noto che lingestione alimentare in sostanza secca di un animale dipende (I espressa in kg) dal suo peso corporeo (PC).

Il fenomeno quantitativo studiato (variabile dipendente) pu essere collegato ad una sola causa (variabile indipendente) espressa in termini lineari (regressione lineare semplice). Linsieme delle osservazioni sullingestione (variabile dipendente) pu essere convenientemente espresso in funzione del peso corporeo (variabile indipendente) con una relazione del tipo:

[1]

I = a + bPC

in cui a e b sono i parametri dellequazione

Lo stesso fenomeno pu, per, essere interpretabile in termini esponenziali, linearizzabili o meno (regressione non lineare) Linsieme dei dati sullingestione rilevati su differenti specie legato al peso corporeo elevato alla potenza 0,75 per cui la relazione : [2] I = a + bPC0,75

linearizzabile elevando tutti i valori osservati del PC alla 0,75.

Altri fenomeni possono convenientemente essere espressi in termini polinomiali (anche essi linearizzabili o meno). Lingestione pu essere determinata oltre che da una componente lineare del peso anche da una quadratica, per cui lequazione del tipo:
87

[3]

I = a + bPC + cPC2

In tutti i casi la curva che interpreta questo insieme biunivoco di dati giace su un piano cartesiano.

Nel caso in cui invece il fenomeno quantitativo dipenda da pi variabili indipendenti, esso pu essere epresso in termini di regressione multipla rappresentabile in uno spazio a tre dimensioni (nel caso di sue sole variabili indipendenti) o in un iperspazio a n dimensioni (nel caso di n variabili indipendenti). Ad esempio, lingestione alimentare negli animali in lattazione dipende oltre che dal peso corporeo anche dalla produzione di latte (L) e dal contenuto in proteina degli alimenti PG) ed rappresentabile con la relazione (nello spazio quadridimensionale):

[4]

I = a + b1PC + b2L + b3PG

Un caso di equazione linearizzabile quella di Wood che descrive la curva di lattazione: [5 ] L(t) = atb e-ct

che pu essere espressa in forma logaritmica come: [6] logL = loga + blogt - ct

Lo stesso fenomeno pu anche essere descritto con una equazione non lineare secondo un modello biesponenziale del tipo:

[7]

L = A-k1t + B-k2t

In questo modulo tratteremo in particolare della regressione lineare semplice e multipla. Studieremo ladattamento del modello ai dati sperimentali secondo il metodo dei minimi quadrati , valuteremo la precisione della stima e la bont del modello matematico impiegato.

88

Un p di storia. Si discusso a lungo su chi abbia per primo scoperto il metodo dei minimi quadrati. Sembrerebbe che questo sia stato messo a punto simultaneamente ed indipendentemente da Carl Fiedrich Gauss (1777-1855) e da Andr Marie Legendre (1752-1833), ma che Gauss lo abbia utilizzato per primo nel 1803 anche se la prima pubblicazione di Legendre del 1805. Quando nel 1809 Gauss scrisse che egli utilizzava il metodo gi dal 1795, nacque la controversia.

89

2 La regressione lineare semplice

Prendiamo in esame questo data set ricavato da una prova sperimentale su pecore Sarde in asciutta.

Peso (kg) 45,0 44,0 35,0 41,0 42,0 43,4 46,9 45,2 39,8 50,1 49,2 45,3 46,2 44,2 41,2 52,1 47,7 48,2 38,1 49,0

Ingestione (kg)
1,189 1,151 0,915 0,944 1,127 1,031 1,223 1,129 0,888 1,193 1,194 1,095 1,146 1,189 1,045 1,308 1,185 1,202 0,843 1,270

Il fenomeno pu essere rappresentato in un piano cartesiano.

Lequazione in grado di interpretare landamento una retta del tipo

[8]

Yi = 0 + iXi + i

90

Il miglior luogo dei punti capace di descrivere il fenomeno quello che minimizza le distanze al quadrato da ciascun punto sperimentale (lettura facoltativa)

[9]

S = i2 =
i =1

i =1

(Yi - 0 - 1 Xi)2

Occorre stimare i valori di b0 e di b1 che sostituiti ai beta producano il minor valore possibile di S.

Inizialmente differenziamo lequazione [9] rispetto a ciascun e poniamo il risultato uguale a zero (troviamo cio il minimo delle funzioni, nello stesso modo in cui si trova un minimo relativo di una qualsiasi equazione, prima derivando e poi ponendo la derivata uguale a zero): S/0 = -2 ( Yi - 0 - 1 Xi)
i =1 n

[10]

[11]

S/1 = -2 Xi( Yi - 0 - 1 Xi)


i =1

per cui le stime di b0 e di b1 sono date dalle

[12]

i =1 n

( Yi - b0 - b1 Xi) = 0

[13]

i =1

Xi( Yi - b0 - b1 Xi) = 0

che riarrangiate diventano

[14]

i =1

Yi nb0 - b1 Xi = 0
i =1

91

[15]

i =1

XiYi b0 Xi b1 Xi2 = 0
i =1 i =1

oppure

[14]
n

nb0 + b1 Xi =
i =1

i =1 n

Yi

[15]

b0 Xi + b1 Xi2 =
i =1 i =1

i =1

XiYi

Queste ultime sono chiamate equazioni normali (Lettura obbligata) La soluzione delle equazioni normali per la pendenza (b1) della retta data dalla relazione

[16]

b1 =

XiYi [(Xi )(Yi )] / n Xi 2 (Xi ) 2 / n

= SXY/SXX

ovvero, il valore della pendenza della retta dato dal rapporto fra la codevianza fra le variabili e la devianza della variabile indipendente Ora possibile calcolare il valore di b0 che uguale a

[17]

b0 = Ym b1 Xm

dove Ym la media delle Y e Xm la media delle X

In pratica, i valori della b0 e della b1 si calcolano nel seguente modo con Excell: a) si moltiplicano ciascuna y per la rispettiva x; b) si fa la somma dei prodotti; c) si sottrae la il prodotto della somma delle x e delle y diviso n;
92

d) si divide la codevianza cos ottenuta per la devianza delle x calcolata come sappiamo. Un volta applicata la formula [16] calcoliamo il valore di b0 applicando lequazione ai valori medi della x e della y.

93

relazione fra ingestione e peso corporeo in pecore y = 0,027x - 0,0934 Sarde


R = 0,7998
2

1,35 1,3
Ingestione in kg

1,25 1,2 1,15 1,1 1,05 1 40 42 44 46 48 50 52 54 Peso in kg

Lequazione y = 0,093 + 0,027 stima che lingestione alimentare nel campione di pecore considerato aumenti di circa 27 grammi per ogni aumento di un kg di peso nelle pecore.

3. La valutazione delle regressione stimata

La valutazione della regressione stimata si attua con luso di 3 procedure: 1. il valore del coefficiente di determinazione R2; 2. il test F che deriva dallanalisi della varianza 3. il test t che si applica ai parametri;

Lanalisi della varianza. Ogni dato Yi ottenuto da una qualsiasi Xi pu essere considerato composto da due frazioni: la prima costituita dalla differenza fra il valore stimato dalla regressione Yis e quello medio delle Ym; la seconda dalla differenza fra il valore reale Yi e quello stimato dalla regressione Yis
94

[18]

(Yi Ym) =

(Yis Ym) + (Yi Yis)

da cui discende la somma dei quadrati

[19]

(Yi Ym)2 = (Yis Ym)2 + (Yi Yis)2

che significa: somma dei quadrati delle deviazioni dalla media = somma dei quadrati dovuta alla
regressione + somma dei quadrati delle deviazioni dalla regressione (o errore)

Lentit della variabilit spiegata dalla regressione

Si utilizza il coefficiente R2 = (SS dovuta alla regressione)/(SS deviazioni dalla media)

[20]

(Yis Ym)2/(Yi- Ym)2

che pu variare fra 0 e 1.

95

R2 misura la proporzione della variazione totale intorno alla media che spiegata dalla regressione

La radice quadrata R , in questo caso, il coefficiente di correlazione (r) variabile fra 1 e +1.

Analisi della varianza Ad ogni somma di quadrati in statistica associata una misura dei gradi libert; ci che si ottiene una stima della varianza.

[21]

SS/df = E(V)

La tavola dellANOVA della regressione pu essere costruita come segue

Fonte

gradi di libert df

somma quadrati SS

Varianza MS

Regressione Residua Totale

1 n-2 n-1

(Yis _- Ym)2 (Yi Yis)2 (Yi Ym)2

MS regr s2

Il coefficiente F di Fisher misura lentit della varianza spiegata su quella residua = MSregr/s2 e va confrontato sulle apposite tabelle.

96

Nel nostro caso loutput di MINITAB il seguente:

Regression Analysis
The regression equation is Ingestione (kg) (Y) = - 0,093 + 0,0270 Peso (kg) (X) Predictor Constant Peso (kg S = 0,05951 Coef -0,0934 0,027009 StDev 0,1429 0,003185 T -0,65 8,48 P 0,522 0,000

R-Sq = 80,0%

R-Sq(adj) = 78,9%

Analysis of Variance Source Regression Residual Error Total DF 1 18 19 SS 0,25459 0,06374 0,31834 MS 0,25459 0,00354 F 71,89 P 0,000

I risultati mostrano che lequazione da noi calcolata con excell giusta. Poich i valori dei parametri b0 (indicato con constant) e b1 (indicato con peso kg) sono campionari, cio sono una stima dei parametri veri della popolazione della popolazione, essi avranno una variabilit. La variabilit dei parametri campionari della regressione va letta analogamente alla variabilit della media campionaria delle statistiche univariate. Se infatti calcolassimo tutte le possibili regressioni campionarie di campioni estratti dalla popolazione avremo che linsieme dei valori di b0 e b1 coswtituiscono una variabile distribuita normalmente con la media che coincide con il valore vero dei parametri della regressione calcolata sullintera popolazione. Come sar meglio illustrato teoricamente in seguito, la deviazione standard dei parametri si impiega per calcolare lintervallo di confidenza degli stessi con il test t. Se in tale intervallo compreso lo zero, affermiamo che il parametro stimato non differisce significativamente da zero, altrimenti possiamo affermare che il parametro esiste nella popolazione e che il valore calcolato ne una stima. Nel nostro caso possiamo vedere che il parametro b0 ha un P=0,522 per cui non significativamente diverso da zero, mentre quello b1 ha un P=0,000 per cui diverso da zero. Lanalisi statistica ci dice ci che
97

biologicamente ha un senso. A peso corporeo zero non c ingestione, mentre al crescere del peso lingestione aumenta,.come abbiamo visto, di 27 grammi si sostanza secca per ogni kg in pi. Questa equazione pertanto pu risultare molto utile per prevedere lingestione di pecore Sarde una volta conosciuto il peso degli animali. Il valore di R2 dell80%: tale dato ci informa che l80% di tutta la variabilit dellingestione pu essere spiegato dal peso corporeo delle pecore. Detto in altro modo, la conoscenza del peso corporeo delle pecore riduce la variabilit dellingestione al solo 20% che rappresenta la variabilit residua non spiegata dal modello. LANOVE infine ci informa che la varianza spiegata dalla regressione non molto maggiore di quella residua (il P dellF di Fisher inferiore al 5%), per cui la regressione esiste e il modo con cui i dati si sono disposti nel piano cartesiano non casuale, ma dovuto ad una ragione: gli animali pi pesanti tendono a mangiare di pi.

4. Regressione e correlazione

Il coefficiente di correlazione misura lentit della variazione comune fra due variabili (covarianza) sulla variabilit complessiva (prodotto delle deviazioni standard); sarebbe:

[21]

r YX= cov(YX)/(dsY * dsX)

Esso stima la forza con cui due variabili sono legate fra di loro linearmente e varia da 1 a + 1. Se il valore di r >0 la correlazione positiva /le due variabili crescono nello stesso senso); se r<0 la correlazione negativa (al crescere di una variabile, laltra diminuisce). Prendiamo in esame questi dati riferiti alla produzione di latte di pecore Sarde che ingerivano razioni a diverso contenuto in proteina grezza (PG) e in fibra (NDF) sulla sostanza secca della razione.
PG in % ss NDF in % ss latte in kg 13,63 42,92 1,11 13,79 42,92 1,21 15,07 43,11 1,32 16,45 40,06 1,34
98

PG in % ss NDF in % ss latte in kg 15,25 45,04 1,39 18,50 60,72 0,51 18,01 48,60 0,73 21,14 60,72 0,73 20,65 51,42 0,78 19,98 45,21 0,76 13,11 35,00 0,70 13,30 34,22 0,59 13,20 34,62 0,92 12,86 35,77 0,47 12,74 38,50 0,48 13,47 34,50 0,92 12,54 37,64 0,48 16,57 36,50 1,16 12,22 62,74 0,17 12,05 58,24 0,17 11,88 53,54 0,27 13,44 57,00 0,49 15,10 49,60 0,73 16,53 43,33 0,77 10,50 51,53 0,55 11,47 48,45 0,58 12,59 31,13 0,47 15,00 46,02 1,12 20,17 42,95 1,15 20,41 43,10 1,04 13,93 37,88 0,94 14,63 34,80 0,86 14,70 34,48 0,87 15,45 31,15 1,01 11,45 43,86 1,30 13,40 36,92 1,42 14,32 40,92 0,48 14,17 43,21 0,64 17,48 40,52 0,85 16,91 42,27 0,84 13,95 18,05 0,89 16,10 61,00 0,70 15,00 61,00 0,76 12,30 61,00 0,89 16,10 61,00 0,97 16,10 61,00 1,14 16,10 61,00 1,06 16,10 61,00 1,25 15,00 61,00 1,21 15,00 61,00 1,24 20,42 43,08 0,89 17,51 38,00 0,98 17,49 38,00 1,57 17,50 38,00 1,59 9,78 44,06 0,87 11,80 60,34 0,84 21,35 33,10 1,07 21,24 34,20 1,11 15,24 46,78 0,44
99

PG in % ss NDF in % ss latte in kg 15,66 45,57 0,45 16,30 44,22 0,47 16,46 39,68 0,43 18,16 44,66 0,81 18,62 47,11 0,76 17,22 39,90 0,79 16,70 34,70 1,67 6,26 55,20 0,45 8,71 49,70 0,49 6,52 64,20 0,55 7,94 54,20 0,72 18,06 35,53 1,24 18,06 35,53 1,09 15,97 38,17 2,03 13,56 37,03 1,03 12,91 39,99 0,69 10,50 50,93 0,55 11,47 51,07 0,58 15,96 42,03 1,10 16,47 52,00 1,10 16,60 46,71 0,63 16,35 54,61 0,76 15,02 27,50 2,45 15,04 28,70 2,42 15,08 28,80 2,67 13,49 29,80 1,97 13,51 30,60 2,01 13,48 30,80 2,03 18,67 25,28 3,19 16,94 25,42 3,53 20,95 37,68 1,10

Vogliamo vedere come le tre variabili sono legate fra loro e calcoliamo i valori di r con MINITAB
Correlations (Pearson)
PG in % NDF in % NDF in % -0,183 0,083 latte in 0,244 0,021 -0,505 0,000

100

Loutput del computer ci mostra che la PG correlata negativamente con lNDF e positivamente con il latte; mentre latte e NDF sono correlati negativamente. In sintesi, allaumentare della PG diminuisce la fibra ed aumenta il latte, mentre allaumentare della fibra il latte si riduce. Anche in questo caso dobbiamo stare attenti che il valore del coefficiente di regressione lineare campionario ed una stima del vero valore sconosciuto della popolazione. Il numero che sta sotto il coefficiente di regressione campionario la probabilit (P) che il valore stimato sia diverso da zero. Nel nostro caso il valore della correlazione fra proteine e fibra ha un P superiore al 5%, per cui respingiamo lipotesi alternativa che esso sia, nella popolazione, diverso da zero e concludiamo che non esiste correlazione fra le due variabili. Nel secondo (Latte e PG) e terzo (latte e NDF) invece il valore inferiore al 5% per cui concludiamo che una correlazione esiste anche nella popolazione e che il valore da noi trovato ne una stima. Quando un valore del coefficiente da considerarsi elevato? In genere non esiste un sistema se non arbitrario. Normalmente si dice che la correlazione : a) molto bassa se r < 0,20 in valore assoluto; b) bassa se 0,20<r<0,40; c) media se 0,40<r<0,60; d) alta se 0,60<r<0,80; e) molto alta se r>0,80.

Un errore, purtroppo molto comune, da evitare affermare che una correlazione statisticamente significativa (intendendosi che buona e alta) anche con valori molto bassi del coefficiente se esso significativamente diverso da zero. Ripeto: il valore di P ci informa soltanto se la correlazione esiste, ma non significa che essa sia alta.

E possibile vedere che i coefficienti di correlazione e di regressione sono fera loro apparentati. Infatti, ricordando che il coefficiente b1 = cov(YX)/V(X), si ottiene

[22]

b1 = (dsY/dsX)*rYX
101

Test dei parametri

Per valutare se i parametri sono significativamente diversi da zero, si applica un particolare test t.

caso del parametro b1

[23]

t = b1/ ds(b1)

dove ds(b1) = radice quadrata[varianza residua/somma delle deviazioni quadrate delle X] = s/[(Xi Xm)2]1/2

caso del parametro b0 la formula un p pi complicata:

[24]

t =b0/ [Xi2/n(Xi Xm)2]1/2 * s

Analizziamo un momento queste due formule. Al denominatore della [23] compare la ds-residua (cio la radice quadrata della varianza residua) delle y divisa per la radice quadrata della devianza delle x. Ora, a parit di valore di s, minore la devianza delle x, maggiore la varianza del parametro b1.

In pratica significa che laddensamento dei valori delle x intorno alla media un fattore inflativo della varianza del parametro.

102

Il ragionamento per la [24] analogo, in quanto la devianza sempre al denominatore del denominatore.

La deviazione standard dellY.

E un parametro che consente di calcolare lintervallo di confidenza dellintera regressione.

[25]

s.d. (y) = s[1/n + (x0 xm)2/(xi xm)2]1/2

dove x0 un valore qualsiasi ed s la deviazione standard residua.

Il valore minimo quando x0 = xm e rappresenta di fatto lerrore standard della media della y e cresce con lallontanarsi di x0 dalla propria media.

Ci significa che pi ci si allontana dalla media maggiore lerrore che ci aspettiamo nel predire i valori delle y.

103

5. Richiami di algebra matriciale e il suo impiego nella regressione (facoltativo)

Una matrice un insieme ordinato di numeri. Consideriamo queste osservazioni sperimentali riferite ad un campione di pecore da latte di razza Sarda.

Ingestione Peso ProdLatte 2,838 45,0 2,514 44,0 2,146 35,0 2,205 41,0 2,847 42,0 3,086 43,4 2,504 46,9 2,726 45,2 2,252 39,8 3,176 50,1 2,974 49,2 2,743 45,3 2,951 46,2 2,347 44,2 2,300 41,2 3,187 52,1 3,148 47,7 2,792 48,2 2,243 38,1 2,409 49,0

1,7 1,4 1,2 1 2 2,1 1,2 1,5 1,2 2,2 1,9 1,5 2 1,2 1,24 2,05 2,11 1,75 1,1 0,9

Possiamo scrivere questo insieme di numeri sotto forma di matrice

104

M=
2,838 2,514 2,146 2,205 2,847 3,086 2,504 2,726 2,252 3,176 2,974 2,743 2,951 2,347 2,300 3,187 3,148 2,792 2,243 2,409 45,0 44,0 35,0 41,0 42,0 43,4 46,9 45,2 39,8 50,1 49,2 45,3 46,2 44,2 41,2 52,1 47,7 48,2 38,1 49,0 1,7 1,4 1,2 1 2 2,1 1,2 1,5 1,2 2,2 1,9 1,5 2 1,2 1,24 2,05 2,11 1,75 1,1 0,9

Le osservazioni sono gli elementi della matrice, le righe e le colonne sono lordine della matrice. M di ordine 20x3.

Consideriamo le prime 3 righe, per cui M(3x3) diventa


2,838 2,514 2,146 45,0 44,0 35,0 1,7 1,4 1,2

e sviluppiamo gli esempi su questo sub-set di dati.

Un vettore una matrice costituita da una sola riga o da una sola colonna

x=

45,0

x = 45,0 44,0 35,0

105

44,0 35,0

x la trasposta della matrice x. La trasposta di M

M =

2,838 45,0 1,7

2,514 44,0 1,4

2,146 35,0 1,2

una matrice cio in cui gli elementi di una riga diventano elementi di una colonna

Uno scalare un singolo numero, come 4, 12 oppure 0,12.

Addizione

Questa operazione possibile con matrici dello stesso ordine e si effettua sommando (algebricamente) gli elementi omologhi (stessa riga e stessa colonna)

A= 1 2

B= 4 5

C=A+B=5 7

3 4

6 7

9 11

Moltiplicazione

Un matrice moltiplicata per uno scalare una matrice con ciascun elemento moltiplicato per lo scalare

106

3 x A = 3x1 3x2 3x3 3x4

3 9

6 12

La moltiplicazione fra due matrici possibile se le colonne della prima sono uguali alle righe della seconda ed ha ordine uguale alle righe della prima ed alle colonne della seconda

Z(10x3) x W(3x5) = U(10x5)

Ciascun elemento della matrice prodotto ottenuto dalla somma dei prodotti degli elementi delle righe della prima matrice e delle colonne omologhe della seconda matrice

AxB= 1

2 4

4 5 = 1(4)+2(6) 1(5)+2(7) = 16 19 6 7 3(4)+4(6) 3(5)+4(7) 36 43

La trasposta del prodotto di due matrici la trasposta del prodotto delle due matrici in ordine inverso

(AxB) = B x A

Determianti

Il determinante di una matrice uno scalare ed esiste solo per le matrici quadrate (stesso numero di righe e di colonne)

107

La conoscenza del determinante importante per lottenimento della matrice inversa. Se il determinate nullo (= 0), la matrice non invertibile.

Inversa

Linversa di una matrice (M-1) lanalogo del reciproco in algebra scalare ed indispensabile per le operazioni di divisione.

s = 4; reciproco di s-1 = , per cui s x s-1 = 1

M x M-1 = I

in cui I la matrice identit, una matrice con gli elementi della diagonale principale uguali a 1 e tutti gli altri zero

I (3x3) =

1 0 0

0 1 0

0 0 1

Il calcolo dellinversa (se esiste) laborioso per matrici di ordine superiore al terzo, ma pu essere agevolmente ottenuto da una routine di computer

Il determinante nullo se una riga o una colonna sono la combinazione lineare di altre righe o colonne. Il rango della matrice il numero di linee e di colonne linearmente indipendenti. La matrice detta di pieno rango se tutte le righe e le colonne sono linearmente indipendenti.

108

Se non esiste una inversa per una matrice di rango pieno (il determinante nullo), possono essere trovate inverse di tango inferiore che sono dette inverse generalizzate; se A- linversa generalizzata di A, soddisfatta la relazione

A A- A = A

Anche in questo caso opportuno ricorrere alluso di un software per lidentificazione della ginversa.

In statistica una matrice speciale

A = XX

che sempre simmetrica, cio gli elementi sopra e sotto la diagonale sono simmetricamente uguali. Nel caso dei nostri dati sperimentali si ha:
143,0 2390,8 85,6 2390,8 40275,1 1414,1 85,6 1414,1 52,2

Luso dellalgebra matriciale nella regressione lineare

Definiamo Y il vettore delle osservazioni, X la matrice delle variabili indipendenti, il vettore dei parametri da stimare, il vettore degli errori, 1 vettore colonna di 1.

109

Nel nostro caso avremo

Y=

1,189 1,151 0,915 ...... ...... 1,270

X=

1 1 1

45,0 44,0 35,0 ..... .....

0 1

= 1 2 3

49,0

20

Lequazione pu essere scritta in forma matriciale nel modo seguente

[26]

Y = X +

che significa che

[27]

1,189 = 0 + 45,01 + 1 1,151 = 0 + 44,01 + 2 0,915 = 0 + 35,01 + 3 .......................................... 1,270 = 0 + 49,01 + 20


110

Dobbiamo trovare i valori incogniti 0 e 1 con la relazione dei minimi quadrati che si ottiene ponendo la matrice = min in questo modo:

1) si presuppone che E()=0 e che V()=I2 (il che significa che gli errori sono indipendenti cio non correlati) 2) E(Y) = X, per cui = (Y - X)(Y - X) 3) minimizzare la matrice somma degli scarti significa differenziare separatamente rispetto ad ogni elemento di messo in ordine e scrivere le derivate riarrangiate in forma di matrice; 4) il risultato ottenuto lequazione normale dei minimi quadrati:

[28]

XXb = XY

Se XX non singolare (cio se nessuna equazione normale dipende da qualche altra), pu essere invertita e la soluzione si trova dividendo per XX i due membri dellequazione [28]

111

(XX)-1(XX)b = (XX)-1XY

per ottenere una importantissima relazione: ogni regressione lineare normale pu essere scritta in
questa forma

[29]

b = (XX)-1XY

dove b il vettore colonna delle soluzioni (2,1, nel caso di regressione lineare semplice, k,1 negli altri casi, in cui k il numero di regressori).

Il vettore soluzione b gode delle seguenti propriet:

1) una stima di che minimizza il quadrato della somma degli errori indifferentemente alla loro distribuzione; 2) gli elementi di b sono funzioni lineari delle osservazioni (y) e forniscono un stima non distorta degli elementi di con la varianza minima 3) se gli errori sono indipendenti, b la stima di massima verosimiglianza di .

112

La potenza della relazione [29] risiede nella possibilit di applicazione alla regressione lineare multipla.

Consideriamo il data set relativo allingestione alimentare in funzione del peso e della produzione del latte. Le variabili indipendenti sono due, per cui i coefficienti di regressione da calcolare sono 3 (b0 , b1 e b2), per cui la relazione [27] diventa

[30]

2,838 = 0 + 45,01 + 1,72 + 1 2,514 = 0 + 44,01 + 1,42 + 2 2,146 = 0 + 35,01 + 1,22 + 3 ....................................................... 2,409 = 0 + 49,01 + 0,92 + 30

La soluzione ottenibile con la relazione [29] tenuto conto che la matrice X ha la forma

1
X=

2,838 45,0 2,514 44,0 2,146 35,0

1,7 1,4 1,2

1 1

........................................ 1 2,409 49,0 0,9

113

Il vettore degli Y ottenibile tramite la relazione

[31]

Y = Xb

per cui il vettore degli errori ricavato dalla = Y - Y

Analisi della varianza della regressione

Analogamente a quanto ottenuto con il calcolo scalare possibile effettuare lANOVA con le matrici con il prospetto seguente (k = numero di regressori)

Fonte

gradi di libert df

somma quadrati SS

Varianza MS

Regressione Residua Totale

k-1 n-k n-1

bXY nY2 YY bXY YY nY2

MS regr s2

114

Il coefficiente di determinazione (che rappresenta il quadrato della correlazione fra Y e Y) calcolabile con la seguente relazione

[32]

R2 = (bXY nY2)/(YY nY2)

Impiego della regressione lineare multipla per funzioni linearizzabili

Le equazioni linearizzabili sono quelle trasformabili in equazioni lineari multiple.

Ad esempio, il polinomio di secondo grado y = a + bx + cx2 calcolabile con la tecnica della regressione multipla ponendo x2= z per cui la funzione diventa y = a + bx + cz.

Una funzione interessante che pu essere linearizzata quella proposta da Wood per la descrizione della la curva di lattazione

[33]

y = axbexp(-cx)

in cui y la produzione di latte al tempo x e a,b,c sono i parametri dellequazione.

Se si passa ai logaritmi, la [33] pu essere scritta nel modo seguente

[34]

log y = log a + b log x - cx.

115

Ponendo log y = Y, log a = A, log x = z, lequazione [34] diventa la funzione lineare multipla

[35]

Y = A + bz + cx

che consente la stima diretta dei parametri b e c e quella di a = eA

La migliore regressione

Il ricercatore mosso da due esigenze:

1) avere la migliore equazione per gli scopi esplicativi e predittivi con tutte le variabili significative incluse nel modello;

2) avere un modello con il minor numero possibile di variabili (economicit dei rilievi).

I problemi che dobbiamo affrontare sono:

1) linterpretazione delle statistiche (R2, valori di b, valori dellF di Fisher);

2) la selezione della migliore equazione fra quelle disponibili e la correttezza del modello utilizzato;

3) la correlazione fra le variabili indipendenti (multicollinearit).

a) Linterpretazione delle statistiche (ovvero le TRAPPOLE della correlazione)

116

La bont di una regressione spesso stimata dal valore del coefficiente di determinazione R2 .

Il reale significato di questa statistica quello di misurare lutilit dei termini presenti nellequazione al di l del termine b0.

Lincremento del valore di R2 ottenibile semplicemente inserendo nuovi termini al modello (questo particolarmente pericoloso con osservazioni ripetute!!)

I singoli valori dei coefficienti del vettore b possono essere valutati con limpiego del test t (H0 = bj = 0). Si costruisce la matrice di varianze e covarianze di b

V(b) = (XX)-12

in cui il valore della varianza pu essere sostituito dalla sua stima s2 (se non c lack of fit)

La diagonale della matrice risultante contiene i valori delle varianze dei parametri che elevate a (cio ridotte alla deviazione standard) possono essere utilizzate nel test

t = bj/ds(bj)

Un altro aspetto legato ai singoli regressori riguarda lassorbimento dei quadrati (extra sum of squares).

Ciascuna somma di quadrati fornita in funzione dellordine in cui sono elencate le variabili x e la somma uguale alla MSregr.
117

Il significato quello di verificare lapporto della nuova variabile introdotta alla riduzione dei residui quadrati. Il test parziale F misura la significativit dellintroduzione della nuova variabile nella regressione

b) La selezione della migliore regressione

Esistono molti criteri per selezionare la migliore regressione.

a) luso della statistica R2 con linserimento delle variabili e la verifica dellaumento del suo valore (attenzione alla trappola n. 1)

b) luso della statistica Cp di Mallows data dalla relazione

Cp = RSSp/s2-(n-2p)

in cui RSSp la somma dei quadrati residui del modello con p parametri (incluso il b0) e s2 la somma dei quadrati residua del modello con il maggior numero di parametri.

Il valore di Cp tende al valore di p, per cui la migliore regressione (eccetto quella completa in cui ovviamente Cp=p) quella in cui tale circostanza verificata.

Una procedura che unisce i due criteri suesposti la Best Subset Regression che sceglie, fra quelle possibili, le equazioni con il massimo R2 e il Cp pi vicino al valore di p.

c) una procedura molto popolare la regressione della Stepwise che consiste nellinserimento delle variabili a turno finch non si ottiene una equazione soddisfacente.

118

Lordine di inserimento delle variabili determinato dai coefficienti di correlazione parziale che misurano limportanza delle variabili che non sono ancora state inserite nella regressione.

Un aspetto particolare riguarda la distorsione del modello utilizzato. La validit del modello pu essere testata con il lack of fit (LOF-test) applicabile soltanto se nel data-set sono presenti dati
ripetuti per alcuni valori di y.

d) La multicollienarit

La correlazione fra le variabili indipendenti comporta:

a) un valore dei singoli coefficienti differente se inseriti singolarmente o simultaneamente nella regressione;

b) lattribuzione del significato biologico piuttosto complessa (a volte regressori palesemente positivi possono assumere valori negativi nei parametri)

c) lo scarso peso informativo delle variabili aggiunte alla regressione;

d) linflazione della varianza dei parametri che rende altamente instabile la regressione (ne mina alla base il suo potere predittivo); come conseguenza non esiste una somma di quadrati che possa essere attribuita univocamente ad un regressore.

119

Una procedura idonea per correggere la multicollinearit la RIDGE-REGRESSION che consiste nellintrodurre in fattore deflattivo della varianza in modo da trovare una equazione subottimale ma che sia pi robusta.

120

Potrebbero piacerti anche