Sei sulla pagina 1di 195

Metodi statistici per la ricerca

28/02/2018

Dario.sacco@unito.it

Tel: 0116708787, 3290236780

Chiave accesso: statistica

Cosa studia la statistica?

Scienza che ha per oggetto lo studio dei fenomeni collettivi caratterizzati da una misurazione e descrizione
quantitativa di universi composti da individui, che per loro natura manifestano variabilità nelle
caratteristiche misurate.

È una scienza, quindi è un qualcosa che evolve. Con fenomeni collettivi si intende ad esempio che se il
problema è misurare il contenuto di zucchero inalterato all’interno di un mosto, voglio capire quanto
zucchero è presente, quindi si parla di statistica quando voglio definire qualcosa rispetto alla popolazione.

Non si ha sempre lo stesso numero, perché si ha ad esempio una variabilità volumetrica, una differenza di
localizzazione. Ogni volta che ci interfacciamo con una popolazione di individui dentro c’è sempre
variabilità. Di questa popolazione vediamo degli individui e questi sono misurati per la loro specifica
caratteristica, quale ad esempio altezza, peso, ecc. Quindi la statistica la utilizziamo tutte le volte che
dobbiamo fare misure, non su singoli soggetti ma per caratterizzare le popolazioni.

La ragione per cui abbiamo bisogno della statistica è perché abbiamo bisogno di misurare la variabilità, per
questo si parla di fenomeni collettivi.

La statistica inoltre è l’applicazione di metodi matematici standardizzati (metodi statistici) fondati sul
calcolo delle probabilità. Si perviene alla descrizione dei fenomeni studiati dandone una rappresentazione
numerica. La statistica è fatta di metodi, quindi bisogna essere capaci di scegliere sempre il metodo
statistico che risponde alla domanda che ci poniamo.

Quali sono i rami della statistica?

La statistica matematica si occupa di


sviluppare nuovi test, soluzioni.

I rami della statistica sono statistica


descrittiva e inferenziale.

• STATISTICA DESCRITTIVA 
significa partire dal grande e ottenere
una sintesi dei risultati. Questa statistica
nelle scienze agrarie si accoppia con i GIS
ossia i sistemi informativi territoriali,
dove quell’informazione è stata misurata.
Ci sono le righe, ogni riga è un soggetto e

1
ogni soggetto ha una colonna che sono degli attributi. Questo è un database e i GIS quindi
permettono di avere ad esempio una carta delle pendenze, ecc. Nelle scienze agronomiche si
stanno avendo degli aggiornamenti inserendo anche dove è stata effettuata queste misura.
• STATISTICA INFERENZIALE  è il contrario della precedente: si parte da poche informazioni e si
cerca di generalizzare queste informazioni. Si fa questo perché non si è in grado di dominare la
popolazione. Se parliamo del censimento delle aziende agricole italiane, sono tante ma sono
comunque un numero finito. Per limitatezza di risorse si lavora su sottogruppi, dovuto al fatto che
la popolazione è infinita e comunque non è approcciabile. Quindi da poche informazioni cerchiamo
di generalizzare.
È necessaria quindi la statistica inferenziale che permette di lavorare su sottogruppi, detti
“campioni”.

DEFINIZIONE DI UNIVERSO STATISTICO

Per universo statistico si intende l’insieme di tutte le unità (o individui) statistiche che compongono il
fenomeno collettivo considerato.

Nelle scienze agrarie l’individuo può essere una foglia di una pianta di un filare, può essere una pianta, un
filare, una porzione di un vigneto, un vigneto, strutture che stanno una dentro l’altra. Quindi gli individui a
cui faremo riferimento saranno spesso individui della medicina, proprio perché in campo agrario è più
difficile identificare l’individuo.

Dal punto di vista operativo, sebbene l’universo sia costituito dagli individui, a noi interessa per il fatto che
gli individui possiedono una o più caratteristiche misurabili che caratterizzano tale universo.

L’universo è l’insieme di individui finiti. Quando sull’individuo misuriamo una variabile, una caratteristica, si
parla di analisi univariata, quando invece sul singolo individuo misuriamo più variabili allora si parla di
statistica multivariata.

La statistica multivariata è molto complessa, infatti l’unico caso che tratteremo di analisi multivariata è la
regressione multipla, per il resto si parlerà di analisi univariata.

DEFINIZIONE DI POPOLAZIONE

La popolazione è definita come parte dell’universo, a volte come universo. La cosa importante è che la
popolazione deve essere omogenea, deve contenere individui che per alcune caratteristiche sono comuni.
Es. cittadini italiani, piante di mais appartenenti ad uno stesso ibrido e coltivati con la stessa tecnica,
grappoli di uva della stessa varietà, bovini della stessa razza trattati con la stessa alimentazione.

Quando si ha una popolazione graficamente è disposta come la curva gaussiana. Se abbiamo due
popolazioni si hanno due curve e non si analizzano come unico gruppo ma come sottogruppi. Se abbiamo
sospetto che ci sono più popolazioni conviene separarle e vederle singolarmente.

Le popolazioni possono essere finite o infinite:

• FINITE: gli individui appartenenti sono numerabili, anche nel caso siano molti. Numero finito di
elementi.
• INFINITE: gli individui appartenenti sono non numerabili perché infiniti o perché moltissimi.
Numero non finito di elementi.

2
I microrganismi nel suolo in un cm quadrato sono un numero finito, ma dato che sono tanti li trattiamo
come se fossero infiniti.

CARATTERIZZAZIONE DI UNA POPOLAZIONE

Per descrivere una popolazione abbiamo bisogno di:

• definire quella popolazione un conto è dire che la popolazione è costituita dai mosti di nebbiolo
nel comune di barolo, un conto è dire che si tratta di mosti di nebbiolo delle langhe e un conto è
dire che sono i mosti di vino nel Piemonte. Dobbiamo dire qual è la caratteristica che li accomuna.
Ovviamente più sono specifico e più chiudo il gruppo e lo definisco. Quindi quando definiamo una
popolazione dobbiamo sapere di chi stiamo parlando;
• la caratteristica che contraddistingue l’appartenenza degli individui;
• una variabile utilizzata per misurare una certa caratteristica che descrive gli individui;
• una più o meno accentuata variabilità della variabile;
• una forma della distribuzione che indica come la variabile si distribuisce in quella popolazione.

Parliamo della gaussiana perché molti dei fenomeni biologici, che derivano dalla somma di tanti
sottoprocessi assumono una forma gaussiana. Si parla del “teorema del limite centrale”, questo è vero
spesso ma non sempre.

L’UNITÀ STATISTICA

Le unità statistiche sono gli elementi costituenti l’universo statistico e normalmente raggruppate all’interno
della popolazione.

Le Unità statistiche possiedono una o più caratteristiche o proprietà (Caratteri statistici) sottoposte a
misurazione. Normalmente identifichiamo l’elenco delle unità statistiche attraverso un vettore (se la
misura riguarda una sola proprietà) o una matrice (se la misura riguarda più proprietà) che rappresenta
l’insieme dei valori al quale applicheremo la metodologia statistica.

Questi valori che misuriamo di che tipo possono essere? Le variabili sono oggetto delle nostre misure e
possono essere di vario tipo e riconducibili a due tipi di famiglie, qualitative e quantitative.

3
Le variabili quantitative sono
misurate da un numero, le
qualitative invece sono
sostanzialmente variabili
categoriche che studiano
l’appartenenza ad un gruppo o ad
una categoria, definita a priori.

Quindi ad esempio facciamo una


misura del livello di attacco di una
patologia su foglia di vite,
definiamo 5 classi di attacco e poi
non andiamo a misurare o a
quantificare la superfice, ma per
confronto diciamo che questo è un
livello di attacco 1-2-3-4-5. Oppure
alcune aziende agricole possono essere classificate come produzione barolo, barbaresco e quindi si tratta di
categorie. In questo caso la misura è l’assegnazione del singolo individuo alla categoria che ho specificato.

Queste variabili qualitative sono suddivise a loro volta in due gruppi e sono quelle nominali e ordinali.

Le nominali sono delle variabili qualitative dove le classi, l’ordinamento delle classi non è univoco, ad
esempio la mia misura è il vitigno di un vigneto, faccio la classificazione di tutti i vitigni (barolo, nebbiolo,
ecc) e per ordinarle non c’è un ordine intrinseco della variabile e quindi si parla di categorie nominali.

Le variabili ordinali sono quelle che possono essere messe in ordine ed è l’esempio del grado di attacco di
un fungo sulla pagina fogliare della vite, quindi per esempio abbiamo un grado di infezione basso-medio-
alto o è suddiviso in 5 classi da 1 a 5.

Progressivamente ci si avvicina verso un concetto numerico, ma se sono variabili ordinali non sono ancora
numeriche, vuol dire che non è quantificata la distanza tra una classe all’altra, ma si sa che basso è meno di
alto.

Le variabili nominali sono suddivise in dicotomiche e politomiche. Le dicotomiche sono rappresentate da


una variabile binaria per esempio infetto o non, maschio o femmina, irrigato o non, l’insetto ha trasmesso o
no. Le politomiche invece sono rappresentate da più variabili, per esempio il tipo di fertilizzante utilizzato,
tipo di erbicida, quindi abbiamo delle classi ma sono più di due.

Le variabili quantitative sono quelle numeriche che conosciamo (la maggior parte della nostra attività sarà
su queste variabili). Le quantitative possono essere suddivise in discrete e continue.

Le discrete sono quelle in cui la distribuzione della variabile non può assumere tutti i valori disponibili ma
solo alcuni valori specifici e distanziati dal costante passo di distanza. Di solito il passo di distanza è 1 e
quindi la variabile è un intero e questo ha a che fare con tutti i conteggi, ad esempio numero di insetti per
foglia (1,2,3..) o numero di parti per vacca. Non è detto che il passo nella progressione numerica sia sempre
1, anche se nella maggior parte dei casi è sempre 1.

Le continue sono variabili che hanno come insieme di riferimento R, ovvero l’insieme dei numeri reali,
quindi qualsiasi numero.
4
La differenza tra le variabili discrete e continue: la statistica parametrica è applicabile alle variabili continue,
perché la curva gaussiana si rifà alle variabili continue perché è una distribuzione continua. Le variabili
discrete non potrebbero essere descritte con la normale gaussiana.

Abbiamo detto cosa è una variabile continua, però veramente quando lavoriamo in questo settore abbiamo
delle variabili che sono davvero continue? Ad esempio in un mosto andiamo a misurare l’acidità totale
espressa in grammi/L. Quant’è l’acidità totale di un barolo? 5,5-6 g/L. Ma se è 5,55 o se è 5,555 o se è
5,5555, noi non lo sapremo quindi alla fine non lo determiniamo davvero perché noi abbiamo una
procedura di misura quale la titolazione e tipicamente abbiamo una goccia in più o la goccia in meno che
varia il volume. Quindi l’acidità risultante non può essere un qualsiasi numero ma dipende da quante gocce
del titolante abbiamo messo.

Se pesiamo il campione, lo mettiamo sulla bilancia che arriva al decimo di mg ma non al centesimo, quindi
comunque due numeri che differiscono per meno di un decimo di mg avranno lo stesso valore anche se non
sono uguali. Quindi c’è sempre un livello di approssimazione.

Nella statistica applicata, nell’analisi dati di fatto non avremo mai a che fare con delle variabili veramente
continue, saranno sempre discrete. Spesso non ci preoccupiamo di questo perché il passo che c’è tra un
valore e l’altro (ad esempio l’ultimo decimale della bilancia o l’ultima goccia nella titolazione) è molto
piccolo rispetto al range che misuriamo. Per cui se considerassimo ogni numero che otteniamo come una
classe, tra il valore minimo e il massimo c’è un elevato numero di classi (100, 1000…), quindi nel totale della
distribuzione, data la distribuzione e dato il numero di classi, la distribuzione totale diviso il numero di classi
fa un intervallo molto piccolo. Nella distribuzione continua, quella vera quindi quella matematica,
quell’intervallo tra i due valori successivi è un “differenziale” (de), cioè è una quantità piccolissima tendente
all’infinito.

Nel nostro caso questi non sono degli infinitesimi (de), sono dei “delta”, cioè sono delle ampiezze vere, ma
sono così piccole da poter essere confrontate con infinito. Quindi se nell’intervallo di acidità che va ad
esempio da 4 a 7, ma quell’intervallo ho 500 partizioni, ogni piccola partizione è un’ampiezza che è davvero
molto bassa e quindi può essere paragonata ad un infinitesimo anche se di fatto non lo è.

Quindi questo per dire che è vero che non avremo mai a che fare con le variabili continue, saranno sempre
discrete perché sono associate a dei valori reali, ma nella maggioranza dei casi l’intervallo di ogni singolo
valore è così piccolo che di fatto può essere accumunato ad una variabile continua.

Quindi abbiamo delle variabili che di fatto sono discrete ma che le facciamo diventare continue. Ma allora
le variabili discrete esistono davvero? Qual è la vera differenza tra le due variabili? Nel numero di classi,
quindi nel numero diverso di misure che noi otteniamo.

Una variabile continua misurata con uno strumento non appropriato ci da pochi risultati diversi dando una
variabile discreta. Quindi se voglio misurare ad esempio una variabile quale il numero di insetti per foglia e
mi aspetto di trovare 2-4-5 insetti per foglia, per risolvere il problema posso misurare tante foglie per
pianta o tante foglie per filare, calcolo la media che è molto più distribuita in modo continuo rispetto alla
variabile discreta. Cioè aumentando molto il numero di campioni si tende ad avere variabili continue.

Quindi l’aspetto pratico è molto diverso dalla teoria.

STATISTICA INFERENZIALE

5
Questo è lo schema logico della
statistica inferenziale.

Abbiamo la popolazione, quindi un


insieme di individui e dobbiamo fare
uno studio su questa popolazione.
Poiché la popolazione è molto grande
e quindi può essere considerato come
un numero infinito, devo effettuare il
campionamento e quindi estraggo il
campione. Si ha una teoria della
probabilità.

Infatti la relazione tra il campione e la


popolazione è che il campione che
estraggo è ragionevolmente il più probabile che posso estrarre.

Ma questo non è del tutto vero. E’ vero però che le cose poco probabili possano accadere, ma mi aspetto
che la cosa che capita sia la più probabile o che comunque sia molto vicina a quella più probabile. Quindi
sostanzialmente quando estraggo il campione dalla popolazione mi aspetto che quel campione sia
rappresentativo della popolazione, questo perché probabilisticamente è la cosa più facile che può accadere.

Il campione me lo aspetto rappresentativo della popolazione, tranne che ci sia una ragione che ha deviato il
campionamento per cui il campione non è rappresentativo. Le procedure di campionamento possono
essere selettive, questo ovviamente non deve accadere perché bisogna garantire che il campione sia
rappresentativo della popolazione.

La densità apparente del suolo è la massa di un’unità di volume prelevata nel suolo tal quale e che quindi
ha delle parti costituite da minerale, parti da sostanza organica, ma poi ci sono anche spazi vuoti, che
possono essere in parte riempiti d’acqua ma dato che prima di pesare il campione lo secco (105° C per 24
ore) c’è solo la parte solida, ovvero minerali e sostanza organica, e la parte vuota. Questa densità
apparente si differisce da quella reale. La reale considera solo la densità della componente solida,
l’apparente considera anche i vuoti.

Se facciamo una misura della densità apparente dell’interfilare di un vigneto, il vigneto può essere inerbito
e si va a fare la misura in un prato: si fa una buca di 50 cm e si prelevano i nostri campioni nel primo strato
(tra 10 e 25 cm ad esempio) dove c’è l’apparato radicale. Fare un prelievo della densità apparente del suolo
in questo strato è un problema, perché la presenza dell’apparato radicale e della sostanza organica rende il
suolo molto friabile. La misura si fa piantando un cilindro d’acciaio, si taglia il suolo prima e dopo e poi si
estrae il cilindro. Le superfici devono essere piane perché devo garantire il volume del cilindro. Se si riesce a
farlo si prende il campione, lo si secca e si ricava la densità apparente facendo massa/volume del cilindro. Il
problema è che è molto complicato tagliare l’inizio e la fine perché c’è tutta la superfice sconnessa delle
radici e quindi non si ha una misura precisa. Succede che chi va a campionare, se vede che nel profilo ci
sono zone più friabili e più compatte si va a piantare il cilindro nella zona più compatta così da avere una
misura più precisa e più veloce. Ma spesso il risultato è che si ha una sovrastima della densità, perché dove
è molto friabile non si riesce a fare il campione. Questa è una sottostima perché il meccanismo di prelievo
del campione favorisce valori più elevati a scapito di quelli minori. Il problema sta nella metodologia di
campionamento.
6
Il punto è che il campione non deve selezionare dalla popolazione, deve essere rappresentativo. Una
volta prelevato il campione, conosciamo il campione perché è il nostro oggetto di misura e quindi dal
campione arrivo a determinare le statistiche campionare, ad esempio la media, la varianza, la deviazione
standard.

Il campione è un fatto sperimentale, è uno strumento che utilizzo per avere i numeri, ma noi siamo
veramente interessati alla popolazione. È proprio qui che sta il processo inferenziale, ovvero il passaggio
che permette di passare dalle informazioni campionaria a quelle della popolazione. Questo è il processo
inferenziale che è un uso al contrario della procedura del campionamento e visto che il campionamento è
basato sulla teoria della probabilità, l’inferenza è lo strumento probabilistico che permette di passare dal
campione alla popolazione.

Per garantire che il campione sia rappresentativo della popolazione, quindi per garantire la correttezza
della procedura di campionamento, si usa la strategia della randomizzazione, ovvero estrarre in modo
causale.

Il fatto di estrarre in modo causale garantisce che la probabilità di estrarre individui nel campione è uguale
alla frequenza degli individui nella popolazione, in modo che gli individui più frequenti è più probabile che li
estragga e quindi saranno anche più frequenti nel campione. Ci sono situazioni particolari in cui per
esempio è difficile campionare l’intera popolazione, quindi la popolazione viene suddivisa in sottogruppi
omogenei fra loro, (anche questa suddivisione è fatta in modo randomizzato) e il campionamento viene
fatto per ogni sottogruppo. Questo introduce anche il concetto di stratificazione (disegni a blocchi
randomizzati o a split plot sono disegni stratificati).

STATISTICA DESCRITTIVA

7
Dati della regione Piemonte. La regione Piemonte ha preso tutti questi database. Per ogni parametro ci
sono una serie di indici statistici che dicono sostanzialmente di cosa è fatto il parametro.

Per esempio se vediamo la sostanza organica, l’informazione che abbiamo è che ci sono 25.000 punti dove
è stata misurata, la media di tutti questi valori è 2.08, quindi un contenuto medio su tutto l’areale
campionato di 2.08, con valore minimo di 0.08 e con valore massimo di 15.4. Queste informazioni ci
permettono di dare un’informazione generale di quali sono le caratteristiche dei suoli che andiamo a
vedere.

Ci servono tre tipi di informazioni che sono ricondotte a tre punti:

• la tendenza centrale o posizione, misurata con INDICI DI POSIZIONE,


• la dispersione o variabilità, misurata con INDICI DI DISPERSIONE,
• la forma, misurata con INDICI DI FORMA.

La tendenza centrale è una popolazione che sta sull’asse x dove si può cambiare il valore medio e
cambiando il valore medio sulle x le trasla da destra a sinistra andando da un valore 0 ad un altro. In questo
traslare si sposta sui valori x, quindi dire che la tendenza centrale della sostanza organica è 2.08 vuol dire
che nel spostare avanti e indietro si ferma con la media a 2.08. Per questo è una misura di posizione,
perché sull’asse x orientato ci dice la posizione sulla distribuzione ed è la prima informazione che abbiamo
rispetto a dei valori.

La tendenza centrale ci dice prima di tutto dove sta la popolazione. È quindi una concentrazione di valori
con delle code, dove la maggior parte di questi valori sta nella parte centrale.

La dispersione ci dice quanto è ampia la distribuzione, e questo lo dicono gli indici di dispersione. Questi
sono indici che ci dicono dove sta il grosso della popolazione tra minimo e massimo.

Infine, l’ultima proprietà che ci interessa è la forma, misurata dagli indici di forma. Questi sono indici che ci
danno l’informazione riferita alla normale e che ci dicono se la nostra distribuzione tende ad assomigliare
ad una normale oppure no. Abbiamo l’indice di simmetria, che ci dice se la popolazione è simmetrica o
asimmetrica. L’altro indice di forma è la curtosi, che ci dice se la popolazione è spostata più verso il basso o
più concentrata verso la media.

Queste misure descrittive sintetiche (indici di posizione, di dispersione e di forma), riassuntive dei dati
tabellari, sono chiamate:

8
• statistiche, quando sono calcolate su un campione di dati,
• parametri, quando descrivono la popolazione od universo dei dati.

Gli indici di posizione sono la media,


mediana e moda. La media può essere
di più tipi: aritmetica, ponderata e
geometrica. La mediana è un indice
che si utilizza nella statistica non
parametrica. La moda è il picco di
concentrazione massima (ma è poco
utilizzata).

Gli indici di dispersione sono costituiti


da due gruppi: il primo gruppo è
costituito dal campo di variazione e
dalla distanza interquartile e questi
sono per la statistica non parametrica.
Il secondo gruppo è costituito da
devianza, varianza e deviazione
standard e questi sono tre indici
diversi ma collegati matematicamente tra loro e sono alla base della statistica parametrica. Il coefficiente di
variazione è un derivato della deviazione standard.

Infine si hanno gli indici di forma che sono simmetria e curtosi.

STATISTICA PARAMETRICA

Quando utilizziamo un dataset dobbiamo immaginare se possiamo utilizzare la statistica parametrica o la


non parametrica. La statistica parametrica assume che possiamo immaginare che la popolazione sia
gaussiana. La maggior parte delle popolazioni sono gaussiane, quindi faremo spesso questa assunzione
immaginando che i dati che abbiamo a disposizione siano gaussiani o vicino ad una gaussiana.

Se possiamo fare questa assunzione, gli indici che ci interessano sono:

• MEDIA, per gli indici di posizione;


• DEVIANZA, VARIANZA, DEVIAZIONE STANDARD e COEFFICIENTE DI VARIAZIONE, per gli indici di
dispersione;
• NESSUNO, per gli indici di forma. Perché se facciamo un’ipotesi, immaginiamo che siano gaussiani.
Quindi non ci poniamo il problema di come è fatta la distribuzione, dobbiamo solo parametrizzarla.

Ricapitolando. La statistica parametrica si ha quando si suppone la conoscenza della funzione che esprime
la distribuzione di frequenza in funzione del valore della variabile. Occorre conoscere quali parametri
descrivono la funzione ed occorre avere una quantificazione di questi parametri.

STATISTICA NON PARAMETRICA

Se invece non possiamo fare delle assunzioni in normalità, si utilizzano misure diverse:

• MEDIANA e QUANTILI, per gli indici di posizione;

9
• RANGE e DISTANZA INTERQUARTILE, per gli indici di dispersione;
• INDICE DI SIMMETRIA e DI CURTOSI, per gli indici di forma. Per capire come è fatta la nostra
distribuzione.

Ricapitolando. Si ha la statistica non parametrica quando non si conosce la funzione che esprime la
distribuzione di frequenza in funzione del valore della variabile. Le statistiche calcolate hanno proprio
l’obiettivo di aiutarci ad acquisire informazioni sulla distribuzione.

07/03/2018

STATISTICA PARAMETRICA

Come già detto la statistica parametrica ci interessa soprattutto per gli indici di posizione, in particolare le
medie, per gli indici di dispersione (quali devianza, varianza, deviazione standard e coefficiente di
variazione) e gli indici di forma non ci interessano perché se assumiamo che la distribuzione abbia la forma
di una gaussiana, di fatto la forma la definiamo a priori.

1.INDICI DI POSIZIONE

MEDIA ARITMETICA
La misura di posizione più utilizzata, grazie alle sue proprietà. E’ facile da trattare matematicamente.
Utilizza tutte le informazioni disponibili sulle unità statistiche. E’ calcolata dalla seguente formula:

x i
x i 1
n
Il primo tipo di media è la media aritmetica: è la sommatoria dei valori diviso il numero dei valori.

Σ (sigma maiuscolo) in matematica è la sommatoria, quindi significa che si devono sommare tanti elementi,
quindi considero tanti e li sommo fra loro. Questi elementi sono gli xi. Gli elementi x che devo sommare
sono quelli che hanno un indice al pedice che va da 1 a n. Se ho il vettore x, x1 è il primo valore che occupa
10
la prima posizione del vettore e così via. Quindi “i” diventa l’indice della posizione e in questo caso questo
indice va da 1 a n dove n è il numero di elementi nel vettore.

Quindi questa simbologia significa che sommo tutti i valori del vettore che hanno un indice che va da 1 a n,
e poi divido per n. Media aritmetica somma di valori diviso la loro numerosità.

Questa formula nasce da origini diverse. Una definizione molto semplice che viene data è che la media
aritmetica è quel valore che se sostituito a tutti i valori della sommatoria ne mantiene inalterato il risultato.
Ovvero se ho i valori ad esempio 2 4 e 6, la media di questi valori è 4, la somma di questi tre valori è 12, se
sostituiamo al posto di 2 e di 6, 4 che è la media la somma di questi tre è 12.

Quindi sommare i valori o sommare n volte la media, mi da lo stesso risultato.

In realtà questa formula la immaginiamo derivata da un'altra strada in statistica. Per capire questa strada
dobbiamo definire quali sono le proprietà della media che ci interessano in statistica, perché della media
riconosciamo due proprietà che ci interessano moltissimo. Ci interessano molto perché non sono solo
proprietà della media ma sono proprietà di diversi parametri statistici.

La prima è la proprietà dell’equilibrio delle distanze, proprietà per cui la somma degli scarti dalla media fa
zero:

 x  x 
i 1
i 0

La somma degli scarti dalla media fa zero e questo è atteso perché la media è il baricentro fisico della
distribuzione. È una proprietà molto importante. La sommatoria degli scarti dalla media fa zero sempre.

L’altra proprietà è la proprietà del minimo degli scarti al quadrato ed è un po’ più complicata:

n

 ix  x 2
 min
i 1

Questa formula vuol dire che se sommo i quadrati degli scarti dalla media, ottengo un valore che sarà la
somma degli scarti al quadrato e questo valore che ottengo non è 0 ma è una quantità sempre positiva
(perché al quadrato). Questa quantità è il minimo di una funzione di somma di scarti al quadrato che potrei
calcolare riferendomi non al valore medio ma a qualsiasi altro valore.

Se esprimo questo valore di somma di scarti al quadrato in funzione di un valore che io metto al posto di x
medio, ottengo una funzione, che è una parabola. Questa parabola ha un minimo. Il minimo di una
funzione si fa facendo la derivata prima e ponendola uguale a 0, questo permette di ottenere il minimo
della funzione.

11
Scopro in questo modo che questo minimo corrisponde a quando metto come variabile, al posto del valore
medio, la media dei valori calcolati. Ovvero ad x medio mettiamo una variabile non un valore fisso,
spostando la variabile, ad ogni valore che assegno a questa variabile, ottengo una somma di scarti al
quadrato e, facendo lo studio di funzione, posso verificare che il valore che metto al valore medio è quello
che è definito come media dei valori e minimizza la somma degli scarti al quadrato.

ESERCIZIO SULLE PROPRIETA’ DELLA MEDIA ARITMETICA

Si ha la colonna del campione, dove ci sono numeri che abbiamo misurato per una variabile. Vogliamo
dimostrare che la somma degli scarti dalla media è 0 e che la somma dei quadrati degli scarti dalla media è
un minimo.

MEDIA

PROPRIETA’

Copiamo i file sul foglio 2, seleziono la colonna del campione “control+ C”, vado sul foglio 2 e premo
“control+ V”.

Sappiamo come si calcola la media, vogliamo dimostrare che la media ha quella proprietà, infatti
applicando quella proprietà avrei potuto calcolare la media. Al contempo, dimostriamo che utilizzando la
proprietà è possibile calcolare la media (vedi schema).

Facciamo questo perché se ho il campione e devo calcolarmi la media, la cosa è semplice, ma quando ho un
“modello” ( ovvero come voglio rappresentare i dati ottenuti in una sperimentazione) ci sono casi in cui
non ho solo la media, ma ho ad esempio delle medie di gruppo. A questo punto non saremmo capaci più di
calcolare questi parametri, ma sapendo che questi parametri hanno questa proprietà la sfruttiamo
ottenendo la media. Quindi in sostanza, data la media dimostro che ha questa proprietà e dalla proprietà
mi ricavo la media. A volte non sempre è possibile ricavare direttamente dalla media la proprietà, ma da
questa mi ricavo la media.
12
Ho quindi i miei 6 campioni e calcolo la media da Excel. Le formule in Excel:

• = o + seguito da ciò che dobbiamo calcolare. In questo caso: +MEDIA. Doppio clic e lui la riconosce
come media. Seleziono gli argomenti ovvero quelle informazioni che dobbiamo dare a una funzione
affinchè il software ci dia un risultato. Qui gli diamo l’elenco dei numeri e selezioniamo col mouse:

Quindi col mouse, prima cella clicco e trascino, diamo invio e mi da la media. La parantesi si chiude
da sola.

Se facciamo doppio clic sulla formula vediamo che l’area identificata è scritta in blu e per dire da B4
a B9 si utilizza :, B4:B9. La colonna può essere spostata prendendola dai bordi o ridurla o
aumentarla.

Quindi abbiamo usato le formule di Excel, le formule sono tutte strutturate così, chiedono elementi e
danno risultato. Il nome della formula è il nome che i programmatori hanno assegnato.

Per sapere quali parametri la funzione chiede, un modo è cliccare su fx e mi apre la funzione di
autocompletamento che mi aiuta a dire cosa devo mettere dentro:

Se ad esempio volessimo calcolare la media di questi valori: +MEDIA e al posto di selezionare le celle come
prima, apriamo direttamente fx e completiamo ciò che richiede.

13
La prima cosa che vogliamo dimostrare è che la somma degli scarti dalla media è uguale a 0, quindi
calcoliamo gli scarti. Questa è una differenza affrontiamo un concetto, ovvero riferimento relativo e
riferimento assoluto rispetto agli argomenti.

Supponiamo di voler conoscere il doppio dei valori:

• +2*(B21)

Vogliamo avere tutti i doppi di questi numeri, quindi copiamo questa formula e la
incollo in tutta l’area e diamo invio. Non esce di nuovo 4 perché Excel anche se c’è
scritto 2*B21 , ha detto fai il doppio della cella che sta a sinistra della cella dove sta
la formula. In questo caso si parla di RIFERIMENTO RELATIVO.

Se invece fosse stato fai il doppio di B21, fosse stato RIFERIMENTO ASSOLUTO.

Quindi Excel per suo default, per le sue impostazioni, usa i riferimenti relativi (e non
solo per la cella a sinistra ma per qualsiasi cella). Quindi se non si danno impostazioni diverse, lui fa così.

Per gli scarti (x campione meno media campionaria), quindi +cella B21 -valore medio e quindi cella B29,
quindi scriviamo +, clicchiamo sul 2 e poi scriviamo – e poi clicchiamo sulla media e invio.

Per avere gli scarti di tutti, facciamo copia e invio:

Ci da un risultato sbagliato perché si sposta di sotto anche alla media. Facendo questo non funziona perché
ha usato il riferimento relativo di entrambi, quindi mi sposta entrambi una cella giù.

In questo caso, il riferimento alla cella deve essere relativo, ma il riferimento alla media deve essere
assoluto.

Per creare il riferimento assoluto, si fa bloccando la media con il simbolo di dollaro.

14
La cella è indicata da due elementi, una coordinata x che è la colonna indicata
con una lettera e una coordinata y che è costituita da numeri. Se vogliamo
bloccare sia righe che colonne scriviamo $B$13. In questo modo faccio un
riferimento assoluto riferito solo alla media. Facciamo invio, copiamo e
incolliamo sotto e si ottiene il risultato giusto. Quindi possiamo copiare la
formula fino in fondo e abbiamo tutti i valori degli scarti.

Non bisogna scrivere il numero della media ma mi conviene cliccare


direttamente sulla cella, perché in questo modo sono più preciso e inoltre se
cambio i valori le formule vengono riaggiornate. Quindi facendo così se
cambiamo 3 al posto di 2, e sono tutte formule, tutto si aggiorna. Se invece abbiamo scritto il numero della
media direttamente (senza cliccare sulla cella) anche se cambiamo qualche numero la media non cambia
nella formula e quindi non si aggiornano i risultati.

Curiosità. Se abbiamo il cursore che lampeggia sulla cella, al posto di aggiungere dollari a mano, si può
premere f4, lui automaticamente da il dollaro o sulle righe ($B1) o colonne (B$1) o niente (B1) o tutto
($B$1).

Importante è che ogni volta clicchiamo su salva. Quando lavoriamo il file sta nella RAM, che è la memoria
volatile del pc, quando salviamo il contenuto della RAM viene trasferito sul disco e quindi in quel momento
quello che abbiamo fatto se non cancelliamo il file è salvato. Se cancellassi per sbaglio tre valori della media
perdiamo quello fatto, se sta il salvataggio automatico, quindi è meglio togliere il salvataggio automatico e
salvare tutto volta per volta.

Per dimostrare la prima proprietà della media, ovvero che la somma degli
scarti dalla media fa zero, scrivo su una cella +somma, doppio clic e
seleziono le celle da sommare e la somma sarà uguale a 0.

Adesso devo calcolare gli scarti al quadrato. Creo una nuova colonna “scarti ^2”. Per ogni cella scrivo +la
cella che sta a sinistra elevato al quadrato (es. +C21^2). Clicco invio e poi seleziono tutte le colonne e
otteniamo i valori. Per fare la somma dei quadrati degli scarti dalla media, dallo 0 spostiamo verso la
colonna degli scarti al quadrato.

15
Questo è calcolato rispetto alla media, questa è la somma degli scarti al quadrato dalla media. Questo
valore ottenuto, secondo la proprietà è un minimo.

La media è calcolata come la media dei campioni e quindi al posto di scrivere media scriviamo valore di
riferimento.

Ora proviamo a farci una tabellina in cui in una colonna ho il valore di riferimento e nell’altra SSQ (somma
degli scarti al quadrato). Sulla quarta riga della tabellina vado ad inserire il valore della media sulla colonna
val.rif e la somma degli scarti sulla colonna SSQ.

Se copiassi direttamente questi valori, esce l’errore. Così facendo copiamo NON IL
SOLO VALORE, MA LA FORMULA. Infatti si ha l’errore perché Excel vuole far la media
di valori che non esistono.

Noi vogliamo copiare non il contenuto della formula ma solo il risultato. Quindi
copiamo sul valore della media e andiamo sulla quarta riga della colonna. In generale
quando vogliamo incollare solo qualcosa della formula, andiamo su “incolla” su
home, usiamo il menù di “incolla speciale” e ci dice tutte le cose che possiamo incollare: possiamo incollare
la formula e non i risultati, i valori, il risultato della formula, il formato ovvero carattere grassetto.

Quindi mettiamo la spunta su valori e


incolliamo il valore sulla colonna val.rif.
Facciamo lo stesso per SSQ e lo copiamo
accanto.

Quello che vogliamo fare è vedere altri


punti per poter dimostrare la proprietà
della media.

Quindi sia sopra che sotto il valore della


media ci allontaniamo a passi di 0.5.

Quindi sopra la cella della media scrivo


+cellamedia-0.5 (+F24-0.5). Sotto la cella della media scrivo invece +cellamedia+0.5 (F24+0.5):

16
Adesso consideriamo la colonna SSQ per conoscere la somma degli scarti al quadrato. Al posto del valore
della media in B28, metto il primo valore della colonna val.rif F21. Per fare questo clicchiamo sulla ex
media, clicco +il valore che vogliamo (+5.666667) e se ho scritto tutte le formule bene vediamo che la
somma degli scarti è cambiata.

Copio il valore ottenuto su D30 in G21. Per annullare comunque l’evidenza spingiamo Esc. Adesso procedo
nello stesso modo per tutti gli altri valori. Alla fine ottengo:

Facciamo grafico. Utilizzo in questo caso il grafico scutterplot o dispersione xy. Per fare il diagramma x e y
bisogna avere le x e y. Per convenzione le x sono le ascisse e le y le ordinate, quindi seleziono l’area dove ci
sono i dati e i titoli compresi (val.rif e SSQ). Vado ad “inserisci” e clicco sul grafico a dispersione, scelgo il
grafico base quindi quello in cui i pallini sono senza linea di connessione.

Anatomia di un grafico. Abbiamo aree evidenziate e la prima cosa che vediamo è la rappresentazione di una
serie di dati. Clicchiamo su uno dei pallini della serie (i pallini hanno quattro angoletti intorno al rombetto)
e a fx noto una serie di dati:

17
Vogliamo capire la relazione tra la serie rappresentata sul grafico, le aree colorate e quello che c’è scritto in
alto. La prima cosa che ci chiediamo è quali sono gli argomenti di una funzione grafico? Secondo Excel il
grafico è una funzione di argomenti. Questa funzione quindi legge gli argomenti (input) e come output
restituisce un oggetto. Se la funzione è una funzione media, l’oggetto che ci restituisce è un oggetto medio,
se la funzione è una funzione serie ci restituisce un grafico, ma sono due oggetti.

Il grafico quindi che parte con serie ha quattro argomenti, separati da punto e virgola in Excel (in R sono
separati dalla virgola), quindi 3 punti e virgola e grazie alle parentesi abbiamo 4 aree:

=SERIE( ; ; ; )
Per fare un diagramma a dispersione abbiamo bisogno delle coordinate di x e y. Siccome queste non sono
le coordinate di un punto ma di una serie di punti non saranno due coordinate ma due vettori di coordinate
(vettoreun elenco numerato). I punti generano dai valori corrispondenti su due vettori: il primo valore x
dà la coordinata x del primo punto, il primo valore y dà la coordinata y del primo punto (e così via). È una
questione di ordinamento.

=SERIE( ; x ; y ; )
Il nome del foglio dove stiamo lavorando viene identificato mettendo punto esclamativo alla fine del nome
(Foglio2!). Qui basta fare riferimento al foglio, non c’è bisogno di fare riferimento al file. Poi ci sono
coordinata dei dati: le coordinate da F21 a F27 per le x (Foglio2!$F$21:$F$27) e le coordinate da G21 a G27
per le y (indicate nello stesso modo di prima e separata dalla x dal ;). Questi sono i due vettori x e y. Questi
due vettori non devono essere per forza uno accanto all’altro. I due centrali quindi sono dati in questo
modo.

=SERIE( NOME ; x ; y ; )
All’inizio si ha il nome che diamo alla serie. Questo è importante perché a volte su un grafico mettiamo più
di una serie. Il nome può essere messo con due modi: o in riferimento ad una cella (Foglio2!$G$20) ,
oppure sostituiamo questo tra virgolette e in mezzo alle virgolette ci mettiamo il nome della serie. Il nome
della serie può essere letto sul foglio o può essere digitato nella formula.

18
L’ultimo argomento è costituito dal numero d’ordine della serie. In questo caso abbiamo solo una serie
quindi è 1, se avessimo avuto più serie indica l’ordine in cui sono disegnate. Quindi tale argomento serve a
mettere l’ordine delle voci della leggenda, soprattutto quando ci sono più serie. L’ordine delle serie nella
leggenda è regolato da questi numeri e regola anche la sovrapposizione dei numeri.

Questa formula quindi identifica il grafico:

=SERIE( NOME ; x ; y ; n° ordine serie )


La cella del nome è rossa (o verde), quella delle x è sempre fucsia, quella delle y
sempre azzurro.

Il grafico parte da 0-0, a volte va bene altre no. Per modificare la scala, faccio il doppio clic sul grafico e si
apre un menù. Clicco sull’asse delle y sul grafico e vado a “opzioni assi” del menù. Cambio il minimo e il
massimo, inserendo come minimo 50.0 e come massimo 80.0.

Procedo nello stesso modo per l’asse delle x, mettendo come minimo 5.0 e come massimo 9.0.

Questo grafico ha la forma di una parabola, che ha un valore a positivo (a intesa come coefficiente della
componente quadratica, b quella lineare, c termine noto):

y = a x2 + b x + c

• Se a> 0 ha concavità verso l’alto (quindi assi verso su) e la funzione è un minimo (in questo caso il
minimo sarà il valore medio per le proprietà della media).

19
• Se a<0 ha concavità verso il basso (quindi assi verso giù) e la funzione è un massimo.

In questo caso a>0, quindi concavità verso l’alto e il minimo dovrebbe essere il valore medio.

Questo grafico quindi rappresenta la parabola che è la rappresentazione di come si comporta SSQ rispetto a
un valore x (valore di riferimento). Anche se aggiungiamo numeri aggiungiamo solo punti, ma il grafico ha
sempre lo stesso andamento. Questa parabola ha un minimo e il minimo coincide esattamente al valore
medio.

Tutto questo per dire che quando la somma degli scarti al quadrato è calcolata rispetto al valore medio, la
SSQ prende il valore minimo.

Quindi noi abbiamo la media e la proprietà della media e abbiamo dimostrato che
quando mettiamo la media la SSQ raggiunge un minimo (questa è la proprietà).

Lo strumento di adattamento dei modelli funziona al contrario: se non sapessi


calcolare la media e abbiamo come obiettivo quello di minimizzare la somma degli
scarti al quadrato, il parametro che ha questa proprietà è la media. Quindi noi ora
siamo andati nel senso MEDIA PROPRIETA’: abbiamo generato la tabella e poi il grafico e grazie al grafico
abbiamo dimostrato la proprietà che conoscevamo già.

In altre situazioni faremo al contrario (PROPRIETA’ MEDIA). Ovvero voglio cercare il parametro da
mettere come valore di riferimento, quello da cui calcolerò la SSQ, prendendo come obiettivo che questa
SSQ è il minor valore possibile. Quindi sceglierò il valore che mi permette di minimizzare la SSQ, che in
questo caso in riferimento ad un campione è la media.

Siamo partiti da scartare dei valori dalla media e dimostrare che la SSQ da qualsiasi altro valore che non sia
media ci porta ad avere una SSQ maggiore. La media nell’esempio fatto prima è al minimo. Se ci
allontaniamo dalla media gli SSQ è sempre maggiore (ve sempre più in alto) e quindi dimostriamo la
proprietà della media. La SSQ è il minor valore possibile che possiamo ottenere.

Noi con la statistica faremo il contrario, che è esattamente quello che fa R: R adatta i parametri del nostro
modello puntando a minimizzare SSQ e quindi R ci trova i valori che minimizzano gli SSQ.

20
Perché vogliamo minimizzare gli SSQ? Perché quando abbiamo un campione il risultato del grafico dipende
da che numeri siamo partiti. Con altri numeri avremmo avuto sempre una parabola, sempre lo stesso
andamento, ma il fatto che il valore minimo sia 7.16667 è perché io ho dato questi valori. Perché a noi di
questi valori del campione ci interessa minimizzare gli SSQ rispetto a un valore che poi scopriamo essere
la media? Se stiamo facendo la misura di un parametro, come tutte le misure facciamo una serie di
campioni. Quindi prendiamo 6 campioni e misuriamo 6 volte il parametro da noi scelto. Se la media deve
essere 0.35 perché ci aspettiamo questo valore, ci piacerebbe di più che le medie fossero intorno a quel
valore (quindi 0.34, 0.36..) e non che fossero distribuite molto (0.1, 0.6..). A noi servirebbe che ci fosse
variabilità ma che sia in un range poco ampio.

In realtà dobbiamo avere delle dispersioni, dei valori che siano molto contenuti. La dispersione dei valori
dipende sia dalla caratteristica della popolazione che stiamo analizzando (visto che ci sono alcune più
disperse e altre meno), però dipende anche dal valore che utilizziamo per esprimere quella variabile. Noi
normalmente usiamo la media, ma perché dobbiamo usare la media e non un altro indicatore? Perché la
media è il valore che rappresenta meglio tutti i valori, è il valore che favorisce che la dispersione sia il
minore possibile.

Il valore ottenuto e che abbiamo indicato come somma degli scarti al quadrato dalla media (58.8333) è la
DEVIANZA. Questo è il primo valore di indicatore di dispersione della popolazione che utilizziamo.

Il valore minimo ci serve perché se non fossimo partiti da definire questo valore, ma fossimo partiti
dall’intenzione di avere la minima variabilità, questo valore ci dice che la minima variabilità l’abbiamo
utilizzando la media (percorso al contrario dello schema fatto prima). Noi normalmente calcoliamo la
media, ma se abbiamo modelli più complicati facciamo il contrario, cioè minimizziamo il valore con una
funzione e il risultato di questa minimizzazione ci dà il parametro della popolazione che in questo caso è la
media.

METODO DI ADATTAMENTO DEI PARAMETRI

Esiste questo metodo di adattamento dei parametri che è la funzione dei minimi quadrati che di tutto
quello che è il modello lineare (LM linear model). La maggior parte della statistica che facciamo noi è
riferita al modello lineare che è basato sul modello dei minimi quadrati. Questo vuol dire che l’adattamento
dei parametri avviene grazie al metodo dei minimi quadrati. Con adattamento dei parametri intendiamo
calcolare i valori medi nei disegni sperimentali e le componenti regressive (cioè le pendenze) quando
abbiamo delle componenti di tipo regressione e non la varianza.

Nel modello misto (che non vedremo) il modello è detto modello di massima verosimiglianza.

Funzione di adattamento ai minimi quadrati Il metodo dei minimi quadrati è una tecnica di
ottimizzazione che permette di trovare i parametri di una funzione che si avvicini il più possibile ad un
insieme di dati misurati. I parametri trovati sono quelli che minimizzano la somma dei quadrati delle
distanze tra i dati osservati e quelli della funzione stessa.

TIPI DI MEDIE

21
In realtà quando diciamo media esistono varie
tipologie, 3 in particolare.

MEDIA PONDERATA
La media ponderata non è un'altra media
rispetto all’aritmetica ma è più o meno la stessa
cosa, solo che ha una differenza.

Come si calcola la media aritmetica ponderata?


C’è una quantità chiamata frequenza o peso e
quindi non faccio la somma di xi e divido per n,
ma faccio la sommatoria delle quantità, quindi
ogni xi moltiplicata per il suo peso o frequenza fi
e divido per la sommatoria dei pesi o delle frequenze.

ESERCIZIO SUL CALCOLO DELLA MEDIA PONDERATA

Dobbiamo calcolare la media ponderata di questi valori.

Considero gli CFU come peso o frequenza fi


e i VOTI sono xi.

Quindi in base alla formula, devo calcolare


il prodotto di fi*xi. Per applicare la formula
su tutta la colonna faccio doppio clic su +
che esce al bordo della cella.

Successivamente effettuo la somma dei


prodotti e la somma dei CFU (ovvero le frequenze).

Per la media ponderata devo fare la divisione della sommatoria dei prodotti fratto la sommatoria delle
frequenze:

22
Consideriamo un altro esempio. Ho 10 aziende e per ogni azienda ho calcolato la produzione media ad
ettaro. Per far ciò ho preso la produzione totale e l’ho divisa per gli ha di superfice (prod. t/ha risone). Ho
un’altra colonna dove ho la superfice.

Ho quindi queste due informazioni. Se voglio il dato medio della produzione di riso a partire da questa
tabella, calcolo la media aritmetica della colonna della produzione o calcolo la media ponderata per la
superfice delle aziende? In realtà ciò che dobbiamo porci è per quale unità statistica vogliamo sapere la
produzione media del risone. Se voglio sapere la produzione media di risone per azienda calcolo la media
aritmetica, se voglio sapere la produzione media per superfice calcolo la media ponderata.

Anche qui bisogna fare lo


stesso ragionamento.

Ricapitolando. In sostanza, la media ponderata è la media della misura di ogni singola unità di cui si misura
la frequenza e non dei gruppi di cui si riporta la frequenza. Operativamente, per decidere se usare la media
aritmetica, o la media ponderata, occorre decidere quale è l'unità statistica alla quale si vuole riferire la
media. Esempio: data la produzione media per capo di aziende da latte ed il numero di capi medi in
lattazione:

• Se l’unità statistica che si considera è l’azienda, si effettuerà la media aritmetica dei valori aziendali;
• Se l’unità statistica che si considera è il singolo capo, si effettuerà la media ponderata dei valori
aziendali usando come peso il numero di capi in lattazione.
n

f i  xi
x i 1
n

f i 1
i

23
MEDIA GEOMETRICA

n
xg  n xi 1
i

Il logaritmo è l’esponente a cui devo elevare una base per ottenere un certo valore.

La media geometrica indicata con x mediog, non è una sommatoria di valori ma è una produttoria di valori.
È lo stesso concetto di sommatoria, quindi ho tutti i valori del vettore: solo che nella sommatoria li
sommiamo, qui invece li moltiplichiamo tra loro. Altra differenza è che nella media aritmetica dividiamo
tutto per n, nella media geometrica estraiamo la radice ennessima: se abbiamo moltiplicato 10 valori
facciamo la radice decima.

Se la media aritmetica è quel valore che essendo sostituito ad ogni singolo valore x mantiene inalterata la
somma dei valori, la media geometrica è quel valore che se sostituito ad ogni valore x mantiene
inalterato il prodotto dei valori. Se ad ogni valore x sostituiamo il valore della media geometrica, la
produttoria dei valori originali e dei valori misurati non cambia e ciò che rimane invariato è il prodotto. È
quel valore che sostituito ad ogni valore misurato permette di mantenere invariata la produttoria dei valori.
Questo tipo di media serve molto nella matematica finanziaria.

Il teorema del limite centrale dice che se sommiamo tante variabili indipendentemente da come sono
fatte, ma le sommiamo tra loro, la rappresentazione della distribuzione che deriva da questi valori tende ad
avere una forma gaussiana.

Prendiamo un certo numero di variabili, che non mi importa come sono fatte, ma si sommano tra di loro
dando un risultato come somma di queste variabili, la tendenza è che se sommo diverse variabili tra di loro
il risultato di queste è gaussiano, indipendentemente da come erano fatte le variabili. Ci interessa questo
perché tutte le variabili (biomassa che si accumula in campo, quantità nutriente, di acqua,
approvvigionamento idrico, sviluppo apparato fogliare), tutte le varie componenti sono dei pezzettini che
messi insieme possono dare una spiegazione sulla produzione agraria. Il concetto produzione agraria è una
variabile perché la misuro ed è una variabile risultante di tutto un insieme complesso di effetti (misurabili)
che insieme danno origine alla produzione agraria. Normalmente questi aspetti componendosi danno
origine ad un risultato, che essendo un risultato che deriva dall’unione di tanti fenomeni, tende ad avere
una distribuzione di tipo gaussiano.

I processi biologici spesso sono rappresentati dalla gaussiana. Ci sono casi in cui la distribuzione che
descrive il processo complessivo non è una gaussiana ma è l’esponenziale di una gaussiana. L’esponenziale
di una gaussiana di solito non è una campana ma è un qualcosa che ha un grosso picco iniziale e poi una
coda lunga. Si ha questo quando i processi anziché sommarsi, tendono a moltiplicarsi fra loro. In questi casi
qui avremo una distribuzione che non è una gaussiana e se a queste distribuzioni non vediamo il dato così
com’è ma lo trasformiamo in log, lo riportiamo alla forma di gaussiana.

Due tipici esempi di questo sono la conducibilità idrica del suolo e il contenuto della sostanza organica nei
suoli (il range della sostanza organica è così piccolo che anche se la variabile è distribuita come una

24
gaussiana, spesso il range è così piccolo che si fa finta che è una normale). Se si ha più variabilità si
trasforma con il log.

Considero la formula della media geometrica xg e a questa applico il logaritmo ad entrambi i membri:

n
ln x g  ln n x
i 1
i

La radice ennessima può essere vista anche come tutto l’argomento elevato a 1/n. Per le proprietà dei log,
l’esponente può essere portato avanti a ln e si ha:

n
1
 ln  xi
n i 1
Altro passaggio, sempre per le proprietà dei log, il prodotto degli argomenti è uguale alla somma dei log,
quindi:
n

1 n  ln x i
  ln xi  i 1
n i 1 n
A questo punto metto n come denominatore e ho:

1 n  ln x i
  ln xi  i 1
n i 1 n
Questa rappresenta la media aritmetica dei logaritmi ed è uguale al logaritmo della media geometrica.
Possiamo quindi affermare che il logaritmo della media geometrica è rappresentato dalla media
aritmetica dei logaritmi.

Questo per dire che ci capiterà di usare la media geometrica ma non ce ne accorgeremo: avremo dei valori,
li trasformeremo in log, faremo dei calcoli su questi valori, calcoleremo la media aritmetica dei valori
trasformati e in realtà ciò che stiamo facendo è calcolare la media geometrica dei valori originali.

Abbiamo quindi visto i vari tipi di media, queste sono misure di POSIZIONE della STATISTICA PARAMETRICA.
Vedremo altre misure di posizione, ma della statistica non parametrica.

2.INDICI DI DISPERSIONE

DEVIANZA o SSq
La devianza è la somma degli scarti al quadrato dalla media ed è il valore visto nell’esercizio di prima,
ovvero quello che si minimizza nel momento in cui scegliamo il miglio parametro per rappresentare il

25
dataset. Usando la media, quindi calcolando la somma degli scarti al quadrato dalla media, ciò che
otteniamo è proprio la devianza. Questo è un indice di dispersione, perché ci dice quanto i dati sono
dispersi rispetto al valore centrale di posizione che è la media.

La formula empirica non si usa più.

Quindi si tratta di un indice di dispersione con riferimento a un centro, che per essere minimizzato questo
centro deve essere la media. E’ la base delle misure di dispersione dei dati, utilizzate in tutta la statistica
parametrica. Da essa discendono la Varianza e la Deviazione Standard o scarto quadratico medio.

VARIANZA o QUADRATO MEDIO


Perché per commentare la dispersione dei valori non si usa tanto la devianza? Immaginiamo di avere due
campioni e ciò che ci chiediamo è se questi due campioni hanno la media più o meno uguale, quindi
calcoliamo la media dei due e poi confrontiamo le dispersioni, quindi se uno è disperso più dell’altro, per
sapere se uno è più concentrato o più disperso. Immaginiamo di avere due campioni che misurano la stessa
variabile, uno di 10 valori e uno di 20. La devianza maggiore tra i due è quella di quello che ha più valori,
perché essendo solo una somma, quello che ha a parità di dispersione più valori, lì si sommano 20 valori
mentre alla prima solo 10.

Quindi la devianza oltre a darmi una misura sulla dispersione si porta dietro il fatto che è solo una somma di
componenti. Succede che più valori abbiamo e maggiore è la dispersione, quindi non funziona tanto bene
come indice di dispersione. Ci viene in mente di dividere per il numero di valori, ottenendo così lo scarto
quadratico medio per ciascun valore. Tutto questo è la varianza.

La varianza è una devianza media ossia la devianza rapportata al numero di osservazioni campionarie (n)
o di popolazione (N). Media aritmetica dei quadrati degli scarti delle singole osservazioni dalla loro media
aritmetica (media di X).

Quindi se ho un dataset, faccio la somma degli scarti al quadrato dalla media, divido per N e questa
quantità è detta sigma quadro, che è la varianza della popolazione. Questo funziona in una popolazione.

26
Il sigma quadrato è riferito alla popolazione, invece la formula accanto è detta formula inferenziale.
Abbiamo visto l’inferenza statistica, ovvero la procedura da cui abbiamo informazioni da un campione e le
estendiamo ad una popolazione.

La differenza fra queste due formule dal punto di vista del campionamento: la grossa differenza è che se
parto dal sigma quadrato succede qualcosa. Immaginiamo che dalla popolazione estragga 10 individui,
ognuno di questi 10 viene scartato rispetto alla media generale, mi stima la quantità dello scarto, elevo al
quadrato questi 10 scarti, la somma degli scarti al quadrato diviso n mi dà lo scarto quadratico medio.

Questi 10 scarti scartati dalla media della popolazione ci aspettiamo che la loro somma faccia 0? La somma
di questi 10 scarti ottenuti da 10 elementi di una popolazione, la media della popolazione, questi 10 scarti
sommati fanno 0? Quindi ho una popolazione che è infinita, faccio un campionamento e quindi misuriamo
una variabile in un certo numero di campioni, di unità. Se conosco la media del valore di quella popolazione
ed estraggo 10 campioni casuali da quella popolazione, per ognuno di questi 10 calcolo questo scarto
(valore misurato meno il valore medio della popolazione), se ho 10 valori ottengo 10 scarti. La somma di
questi 10 scarti fa 0? La risposta è no, perché la somma di tutti gli scarti da una media fa 0, quindi se prendo
tutti gli scarti di tutti gli individui da una media la loro somma è 0. Ma se prendiamo solo un certo numero,
per quel certo numero non fa 0, esiste una distribuzione di probabilità che ci darà dei valori probabili di
quanto valgono quegli scarti. Non fa 0 perché il fatto che la somma degli scarti fa 0 è una proprietà della
media nel momento in cui la media è la media di quei valori lì (non una media calcolata su infiniti valori e io
ne sto calcolando solo 10).

Quindi i valori di scarto che ottengo hanno la stessa distribuzione di probabilità dei valori degli individui,
sono scalati semplicemente, perché togliamo a tutti i valori la stessa quantità, ma la distribuzione resta la
stessa.

Ma a me capita spesso di conoscere la media della popolazione? No, ci sono solo pochi casi in cui conosco
la media µ, perché l’attività statistica spesso è orientata a quantificare quanto vale la media µ. Se vogliamo
conoscere la concentrazione di zuccheri in un mosto, prendiamo campioni e la misuriamo, a priori
immaginiamo solo quanto è il valore, ma il valore medio è una quantità che non conosciamo.

Nella norma dell’attività sperimentale, questo valore µ (la media della popolazione) noi non lo conosciamo.

27
Quindi questa formula non la possiamo applicare.

Quindi applichiamo l’altra formula che è sostanzialmente il termine


inferenziale:

Questo vuol dire che mentre sigma quadrato è un dato vero della varianza della popolazione, noi
calcoleremo solo una statistica del campione, quindi non avremo il parametro della popolazione ma
avremo una statistica del campione. Questa sarà una stima di quel valore della popolazione, ma è solo una
stima (anche se è il miglior dato che possiamo avere).

Nel calcolare la formula della varianza corretta, scartiamo ogni valore misurato da una media che non è la
media della popolazione ma è anch’essa la miglior stima che possiamo avere ed è la media di quei 10
individui estratti. Qui la somma degli scarti è 0.

Se ci riferissimo alla media reale, la somma degli scarti non sarebbe 0: pescheremmo 10 dati che sono
indipendenti che portano 10 valori di scarto che sono dipendenti, cioè quei 10 valori possono essere
qualsiasi valore di scarti. Nel momento in cui estraiamo i 10 valori capita che dalla popolazione non stiamo
estraendo solo quei 10 valori, ma estraiamo anche la media dei 10 valori. È come se estraessimo 2
grandezze, la prima è composta dai 10 valori e la seconda è la media ed è vincolata ai 10 valori (è un’altra
grandezza ma dipende dai 10 valori estratti).

A causa di questo, quando calcoliamo questi scarti gli scarti sommano 0, perché sono stati calcolati dalla
loro media, non dalla media della popolazione. Quindi la media che usiamo per calcolare gli scarti è frutto
dell’estrazione tanto quanto l’estrazione degli elementi stessi. Questo porta a far sì che non abbiamo più 10
scarti indipendenti, ma 9. Il decimo è vincolato al fatto che stiamo scartando da una media non vera ma che
costringe l’ultimo scarto a fare 0 come somma. Non per forza l’ultimo ma tutti sono vincolati da ciò.

Se li sommo devono dare 0, quindi avendo sommato i primi 9 casualmente il decimo non può essere più
qualsiasi valore, perché c’è un vincolo che alla formula del sigma quadro non c’è.

Nell’estrazione campionaria, dato che dobbiamo scartare dalla media campionaria perché non conosciamo
la media della popolazione, quanti valori indipendenti in realtà abbiamo? Se abbiamo 10 valori,
considerando che 1 è la media (l’11esimo), di questi 10 solo 9 sono i valori indipendenti, perché la media è
stata estratta cosi come i 10 valori. I valori indipendenti sono solo 9, tutti e 10 sono vincolati.

Questi valori indipendenti prendono il nome di gradi di libertà. Quindi il grado di libertà è il numero di
valori indipendenti che sono liberi di assumere il valore che vogliono.

Gli statistici dimostrarono che se applichiamo sigma quadro, assumendo come µ xmedio, noi abbiamo una
sottostima della varianza, perché costringiamo la media a stare lì in mezzo. Nel momento in cui estraiamo
10 valori, potrebbero essere tutti parti della stessa distribuzione e quindi si può avere la media spostata. Se
noi questa quantità qui la dividiamo per 10 abbiamo una sottostima della varianza reale della popolazione.
28
Quindi non bisogna dividere per n (ovvero il numero di osservazioni campionarie), ma n-1 e questi sono i
gradi di libertà. Concetto di grado di libertà che si avrà sempre in statistica e deriva dal processo di
campionamento.

Il vincolo è che la somma degli scarti dalla media fa 0.

Ricapitolando. I gdl (degrees of freedom - df) rappresentano il numero di osservazioni indipendenti del
campione (n -1), dal momento che sui dati disponibili è già stata calcolata una statistica (X medio).

Se da una popolazione vengono estratti n individui per costituire un campione, con gli individui viene
estratta anche la media campionaria degli individui stessi. Mentre il calcolo degli scarti di ogni individuo
dalla media della popolazione porta alla determinazione di n scarti indipendenti, il calcolo degli scarti di
ogni individuo dalla media campionaria porta ad n-1 scarti indipendenti, poiché l’ultimo scarto è vincolato
dalla somma del valore degli scarti che deve essere zero. Per questo il numero di gradi di libertà degli scarti
da una media campionaria è n-1.

OSSERVAZIONI SULLA VARIANZA

• La varianza è quindi un indice di dispersione, nasce dalla devianza ed è molto utilizzata sulla
distribuzione simmetriche, infatti noi stiamo parlando della statistica parametrica. In una statistica
non parametrica questo valore lo sostituiamo con altri indici.
• Tiene conto di tutte le osservazioni ed è dunque influenzata da eventuali osservazioni anomale
(outliers). La varianza, come tutte le misure parametriche, parte dal fatto che i valori misurati sono
estratti da una popolazione fatta in un certo modo e l’estrazione è condizionata dalla distribuzione
di probabilità. Quindi una gaussiana dice che c’è un’elevata probabilità di pescare i valori vicini e via
via sempre meno probabilità di pescare quelli lontani. Questo vuol dire che quando misuriamo una
proprietà, ad esempio la concentrazione zuccherina in un mosto, noi immaginiamo di trovare i
valori misurati in un certo range ed è difficile che troviamo il campione che ha un valore che è 10 o
100 volte più grande.
Immaginiamo questo perché immaginiamo che la forma della distribuzione sia quello della
gaussiana. Il valore che misuriamo noi lo aspettiamo in un certo rane. È possibile che si vada a
pescare un valore fuori dal range, ma è poco probabile. È più facile che i valori siano concentrati
vicino alla zona intermedia, ovvero al picco di probabilità o di frequenza.

Gli outliers sono quei valori molto diversi dal resto del dataset. Misuriamo un dato che è l’acidità
volatile dovrebbe essere 0.35 e troviamo un dato che è 1.2. Come è possibile? Le ragioni degli
outliers sono tre:
➢ la prima è che c’è un errore di procedura, abbiamo sbagliato a fare misura o conti e quindi
c’è un errore,
➢ la seconda è che il dato è corretto ma si riferisce ad un'altra popolazione,
➢ la terza è che non capiamo come mai otteniamo questo dato fuori dal dataset.

La presenza di questo valore dentro il dataset, che per qualche ragione non butto, cambia di molto
gli indici statistici o no? Se le statistiche sono robuste la risposta è no. Ci sono indici statistici,
soprattutto quelli della non parametrica che sono molto robusti, ovvero la presenza di outliers non
interferisce o interferisce poco sui valori delle statistiche. Quando questo accade si parla di
statistiche robuste, ad esempio la mediana è robusta, la media poco robusta.

29
La varianza non è robusta. Normalmente tutti gli indici di posizione e di dispersione della statistica
parametrica sono poco robusti, perché gli outliers sono difficili da trovare. Questo accade perché
assumiamo distribuzioni fatte in un certo modo e se questo è vero non dovremmo avere degli
outliers, capitano a volte.
La conclusione è che la varianza in quanto indice parametrico è un indice tendenzialmente poco
robusto (quindi è molto influenzato dagli outliers).
• Non è direttamente confrontabile con la media o altri indici di posizione in quanto le unità di
misura sono elevate al quadrato (valore teorico). La varianza infatti ha questo problema. Se
misuriamo dei valori di altezza o di lunghezza dati in metri quindi, la varianza ha metri quadri come
unità di misura: se la variabile è misurata in metri la varianza è misurata in metri quadri, perché è
una somma di scarti quadrati diviso n. Quindi gli facciamo la radice quadrata.

L’indice più utilizzato per descrivere la dispersione non è tanto la varianza quanto la deviazione standard.

DEVIAZIONE STANDARD o SQM (scarto quadratico medio)


Questa non è altro che la varianza, sia per la popolazione che per il campione, ma sotto radice quadrata
proprio perché questo permette di ottenere le unità di misure originaria.

OSSERVAZIONI SULLA DEVIANZA

• La deviazione standard, è una misura di distanza della media, e quindi ha sempre valore positivo. È
una misura che ci dice la dispersione dei valori intorno alla media. Così come la varianza, anche la
deviazione standard è utilizzato in distribuzioni che assumiamo come simmetriche.
• Ha il vantaggio di essere confrontabile con le misure di posizione, perché ha la stessa unità di
misura: la varianza è al quadrato, la deviazione standard no.
• È di gran lunga più utilizzata della varianza (che ha un forte valore teorico) nelle pubblicazioni
scientifiche per la sua “praticità d’uso” e immediata confrontabilità con la media.

COEFFICIENTE DI VARIAZIONE
Poiché la deviazione standard ha come unità di misura una confrontabile con le variabili misurate, la
conseguenza è che possiamo anche calcolare il rapporto tra deviazione standard dalla media. Questo per
poter dare un indice adimensionale che ci dice quanto è la deviazione standard di variabili che sono anche
misurate in modi diversi.
30
Se ho una variabile in kg e una in metri e voglio confrontarle, divido la deviazione standard con la media:


C.V . 

Così facendo ottengo questo coefficiente di variazione, che è il rapporto tra deviazione standard e media
(ho µ perché è immaginato per la popolazione, per il campione sarebbe stato CV= S/X medio). Questo
coefficiente ci dice quanto è la variabilità in % rispetto al valore medio, è quindi un modo per normalizzarlo.

La variabilità attesa sulle popolazioni


dipende dalle variabili che stiamo
misurando. Per molte di queste ci
aspettiamo variabilità intorno al 10 %.

Questo è abbastanza vero tranne per


variabili caratterizzate da elevata
variabilità (ad esempio il contenuto di
sostanza organica nel suolo ha elevata
variabilità e il CV può essere anche del
250%).

Conosciuta una variabile, se CV è molto inferiore all’atteso vuol dire che non stiamo campionando bene la
variabile: stiamo riducendo la variabilità, abbiamo una deviazione che per qualche ragione ci sta facendo
misurare meno variabilità di quella reale. Se invece è molto alto vuol dire che stiamo lavorando male,
ovvero stiamo introducendo dell’ulteriore variabilità.

Se è troppo basso vuol dire quindi che non stiamo campionando a sufficienza la popolazione.

STATISTICA NON PARAMETRICA

A differenza della statistica parametrica dove assumo che le distribuzioni siano di tipo normale, nella
statistica non parametrica non so come sia fatta la distribuzione e quindi uno dei miei obiettivi è proprio
quello di capire come è fatta la distribuzione.

Quindi non si conosce la funzione che esprime la distribuzione di frequenza in funzione del valore della
variabile. Le statistiche calcolate hanno proprio l’obiettivo di aiutarci ad acquisire informazioni sulla
distribuzione. L’obiettivo è quello di fare questo passo, tenendo conto che nella maggior parte dei casi è
difficile partire dalla parametrica, di solito si parte dalla non parametrica perché non si sa la distribuzione e
quindi non posso assumere che la distribuzione sia normale. Sugli esperimenti invece per il fatto che lavoro
in ambiente confinato, normalmente consociamo meglio i numeri che sto esaminando e quindi si parte
dalla parametrica.

Anche nella statistica non parametrica abbiamo gli indici di posizione e di dispersione, ma qui si aggiungono
anche quelli di forma. La forma nella parametrica è quella di una gaussiana, nella non parametrica invece
non è conosciuta la forma.

31
Come indici di posizione usiamo la mediana e i quantili, di dispersione usiamo il range (poco utilizzato) e la
distanza interquartile, di forma usiamo indice di simmetria e di curtosi.

1.INDICI DI POSIZIONE

MEDIANA
La mediana è quel numero che divide a metà
il numero di individui ordinati in modo
crescente. Prendiamo i valori misurati, li
ordiniamo in modo crescente e dopo aver
fatto questo quel valore che divide a metà il
nostro elenco di numeri è la mediana.

Se abbiamo un elenco dispari la mediana


coincide con l’intermedio: ho 11 valori e dopo
averli ordinati in modo crescente, il 6esto
sarà la mediana (perché ha 5 valori prima e 5
dopo).

Se l’elenco è pari la mediana coinciderà con la media aritmetica dei due valori centrali: ho 10 valori e dopo
averli ordinati in modo crescente, la mediana è la media aritmetica del 5 e 6 valore.

La mediana essendo un indice non parametrico è usato molto nelle distribuzioni asimmetriche e in generale
in quelle in cui non possiamo assumere che sia una gaussiana. Quando usiamo la statistica non parametrica
spesso non sappiamo come sono fatte le distribuzioni. Ricorriamo alla mediana quando non sappiamo
come sono fatte le distribuzioni.

QUANTILI
La mediana permette di avere 50 % di valori
prima e 50 % dopo, indipendentemente da
come sono fatte. Se noi vogliamo estrarre più
informazioni dal nostro dataset possiamo
dividerlo non solo in due, ma anche in più
frazioni: quindi vedere dov’è il primo 25% e il
restante 75, il primo 50% e il restante 50, il
primo 75 % e l’ultimo 25. Se facessimo questo
stiamo suddividendo la popolazione in 4 parti
e non in due (la mediana la divide
esattamente in 2).

Se dividiamo la distribuzione in 4, si parla di QUARTILI. Questi sono quei valori nella distribuzione che
possono coincidere con i valori misurati o no, così come la mediana, che divide la nostra distribuzione in 4
parti. Si parla poi di DECILI quando si divide la distribuzione in 10 (il primo decile avrà il 10 % della
distribuzione prima e 90 dopo, e così via) e di CENTILI quando la si divide in 100 parti.

32
Ciò che si usa è sicuramente la mediana, spesso anche i quartili, i decili qualche volta. Se si usano i centili si
definisce bene quali sono i percentili di interesse.

Il 25esimo percentile è il primo quartile, il secondo quartile è la mediana e il 75esimo percentile è il terzo
quartile.

CALCOLO QUANTILI

Per calcolare i quantili si usa questa formula.


Questa formula oltre ad essere banale è anche
inutile, perché in R o Excel c’è una formula che si
chiama percentile, per cui non ci interessa tanto
capire come si calcola.

Ciò che ci interessa capire è perché quando il


valore capita tra due numeri, prendiamo un
valore diverso in mezzo.

Procedura: partiamo da un primo elemento che è


il numero di individui, ovvero n la dimensione
campionaria, poi dobbiamo capire che quantile
stiamo cercando nella distribuzione, quindi se è il primo, il secondo, il terzo o il quarto quartile o il 7imo
percentile e così via.

Chiamiamo n il numero di individui e Px il quantile espresso tra 0 e 1. Quindi tra 0 e 1 il primo percentile
sarà 0.25.

Questa formula ci permette di trasformare il numero


del percentile che è riferito a 1 o a 100 dove 1 o 100
dipende se stiamo esprimendo in frazione o in
percentuale. Quindi il nostro n è considerato essere il
100%, ma se abbiamo 26 valori, il 50esimo percentile sta a 13.5.

Questa formula ci permette passare da base 1 o 100 a n, che è il numero di valori.

R è la posizione che occupa quel percentile nella distribuzione (dopo averli ordinati dal più piccolo al più
grande). R è fatto da una parte intera e una decimale e R sta per rango ovvero in un vettore ordinato il
rango è la posizione che occupa un certo numero. Se ho 10 valori e li metto in ordine, il terzo rango è 3 e
così via.

Una volta calcolato R lo separiamo in due parti, in una intera e una decimale: la parte intera è l’intero di R,
la parte decimale è la differenza tra R e I. Se ho R che è il numero complessivo e tolgo I che è la parte intera,
il risultato sarà la parte decimale (vedi Fase 2 e 3).

A questo punto vado nel dataset, cerco quel valore che ha come rango I: se mi è venuto 8.2 cerco il valore
che ha posizione 8, quindi il rango 8, e il valore dopo è il rango 9. Della distanza tra il valore che ha rango 8
e il valore che ha rango 9, prendo una quota proporzionale che è pari alla frazione decimale espressa
nell’intervallo 1. Se ho ad esempio 6.35, partiamo dal 6esto valore e nell’intervallo tra il 6esto e il 7imo
facciamo la proporzione prendendo di quell’intervallo il 35%, ovvero se in quell’intervallo il rango 6 vale 7 e

33
il rango 7 vale 9 in mezzo c’è un intervallo di 2 e io prendo il 35 % dell’intervallo 2 (prendo
proporzionalmente in questo intervallo).

ESERCIZIO SUL CALCOLO PERCENTILE

Ho nel database 10 valori di produzione media di risone per azienda. Copio questi dati in un foglio nuovo. In
questo caso n vale 10. Supponiamo di voler calcolare il primo quartile, quindi mettiamo 0.25.

La prima cosa da fare è calcolare R, quindi uso la formula Fase 1.

Dopo aver applicato la formula di R, ottengo R=


3.25.

I vale quindi 3, però usiamo le formule.

Quindi applico la formula Fase 2:

Applico la formula Fase 3 per trovare D e ho di nuovo 3:

Adesso dobbiamo ordinare i dati. Per ordinare un elenco di valori, vado su Home, vado a ordina e filtra e
clicco su “ordinamento personalizzato”. Le opzioni “ordina dal più piccolo al più grande” e “ordina dal più
grande al più piccolo” funzionano solo o su un’unica colonna o su più colonne ordinate in funzione della
prima. In questo caso abbiamo 2 colonne e vogliamo ordinarle in funzione della seconda e quindi vado su
“ordinamento personalizzato”.

Se ho selezionato anche le intestazioni, clicco su “dati con intestazioni” (in questo caso l’ha fatto
automaticamente). Avendo preso come prima colonna i nomi di campo, ho nel menù a tendina di “ordina
per” azienda e produzione di risone. Vogliamo ordinare per produzione di risone e quindi clicco su
quest’ultimo nel menù a tendina. “Ordina in base a” valori. E “ordine” dal più piccolo al più grande.

34
Quindi ha messo in disordine i valori dell’azienda, ma ha ordinato il livello produttivo in modo crescente. In
Excel c’è una funzione che permette di trovare i ranghi anche senza ordinare e si chiama RANGO. Adesso
partiamo dal rango I (I=3), quindi partiamo dal terzo valore che è 7.16, di questo intervallo tra 7.16 e 7.31
prendiamo solo il 25%. Faccio questo perché D vale 0.25 e non perché Px vale 0.25.

Quindi parto da 7.16 e a questo intervallo aggiungo il 25 % di questo intervallo, ovvero faccio (7.31-
7.16)*0.25:

Ottengo 0.0375.

A questo punto la somma di 7.16+0.0375= 7.1975 che è il primo quartile di questa distribuzione. Il nostro
obiettivo è calcolare il 25esimo percentile di questa distribuzione.

Se vado nella parte disordinata e scrivo la funzione percentile, questa mi chiede qual è la matrice di cui
voglio calcolare il percentile e che percentile voglio. Come matrice metto quella disordinata (così fa anche il
lavoro di ordinare), metto il ; e poi scrivo 0.25. faccio invio e ho esattamente lo stesso valore di Q1:

35
A noi di questo 7.19 ci interessa sapere che ¼ dei valori sta prima di 7.19 e ¾ dopo. La mediana da sola ci
dà un’informazione, perché ci dice metà stanno prima e metà dopo. Il primo quartile non ci dice tanto, è
importante quando lo accompagno con la mediana e il terzo quartile: infatti se calcolo il primo quartile, la
mediana e il terzo quartile, so come è fatta la distribuzione, so che il 25% dei valori sta prima del primo
quartile, un altro 25% dei valori sta tra il primo e il secondo quartile, un altro 25% sta tra il secondo e il
terzo, e l’ultimo 25% sta tra il terzo e il massimo. Quindi i quartili hanno senso quando li calcolo tutti e 4.

Avere un rango decimale vuol dire che la parte intera punta ad un valore misurato, la parte decimale
prende proporzionalmente l’intervallo tra due numeri. La mediana o sta in mezzo o coincide con il valore,
perché se abbiamo scritto le formule e a Px scriviamo 0.5, uscirà sempre nel caso di numeri dispari R è
intero 5, nel caso di numeri pari R diventerà 5.5. R riferito alla mediana (che in questo caso è 5):

MODA
Ultimo indicatore di posizione (che non utilizziamo). È poco utilizzata nel caso di variabili continue;
rappresenta il valore caratterizzato dalla massima frequenza; ha più senso calcolarlo quando si parla di

36
variabili categoriche e aiuta ad individuare la presenza di più popolazioni intersecate quando si evidenzia
una tendenza plurimodale.

2.INDICI DI DISPERSIONE
Gli indici di dispersione nella statistica non parametrica più utilizzati sono il range e la distanza (o range)
interquartile.

RANGE o CAMPO DI VARIAZIONE


Il range non è altro che l’intervallo
complessivo coperto dai valori
campionari, ovvero è la differenza tra il
massimo e il minimo.

Poiché è basato sui valori estremi, è una


statistica poco robusta. Una statistica
robusta è una statistica poco influenzata
dai valori estremi.

Questa è basata sui valori estremi e


quindi è molto poco robusta.

Ovviamente al crescere del numero di osservazioni cresce, quindi non è un buon indicatore e grosso modo
ci dà un’idea dell’intervallo coperto dai due estremi. Se non so assolutamente niente sulla concentrazione
di terpeni nel vino, dò un range che è proprio la differenza tra massimo e minimo.

RANGE o DISTANZA INTERQUARTILE


Molto più utilizzato.

Ha il vantaggio di eliminare tutto il


primo 25% e tutto l’ultimo 25%, quindi
sono sicuro di aver fatto fuori gli
outliers, che nella statistica non
parametrica sono molto a rischio.
Nella statistica parametrica non mi
aspetto gli outliers.

Per cui ci dice dove sta il 50% di metà


della distribuzione. Metà perché se ho
100% di valori e togliamo il primo 25 e
l’ultimo 25, rimane il 50% centrale.

È molto robusta e funziona molto bene nelle distribuzioni asimmetriche. Sulle simmetriche è meglio usare
varianza, devianza e deviazione standard.

3.INDICI DI FORMA

37
ASIMMETRIA O SIMMETRIA
Vogliamo capire se la distribuzione è simmetrica o non lo è. Il primo elemento che ci dà l’informazione sulla
simmetria della distribuzione è la relazione che c’è fra media e mediana (anche moda, ma è meno
regolata).

Se di una distribuzione calcolo media e mediana, queste insieme mi danno un’informazione importante.
Questo perché la mediana è robusta, la media è poco robusta, quindi dal confronto delle due ottengo
l’informazione di quanto è l’influenza dei valori estremi, perché se gli estremi influenzano tanto sulla media
e poco sulla mediana, la differenza di questi valore mi dice quanto pesano sugli estremi.

Distribuzione di
TIPO NORMALE
e SIMMETRICA.
Se non ci sono
outliers oppure
sono distribuiti
uniformemente
a destra e a
sinistra (quindi di fatto non sono outliers), vuol dire che media e mediana coincidono.

Quindi se media o mediana molto simili o coincidenti vuol dire che ci aspettiamo una distribuzione di tipo
simmetrico. Questa informazione è di tipo qualitativo.

Se ho una
distribuzione di
questo tipo, la chiamo
ASIMMETRICA
POSITIVA. È detta così
perché ho una coda
(ovvero l’allungarsi
dei valori) che va nella direzione positiva dell’asse X. L’asse x cresce a destra sempre per convenzione.

Qui invece i valori si


allungano verso la
direzione negativa
dell’asse X, quindi la
coda va verso sinistra
e si parla di
ASIMMETRIA
NEGATIVA.

Gli outliers, ovvero i valori che si allontano molto, tirano la media di più di quanto tirano la mediana. Quindi
se la coda va a destra la media si sposta più avanti di quanto non faccia la mediana, se la coda va a sinistra
anche qui la media è più tirata rispetto alla mediana.

• MEDIA e MEDIANA SIMILI distribuzione SIMMETRICA


• MEDIA>MEDIANA distribuzione ASIMMETRICA POSITIVA
38
• MEDIA< MEDIANA distribuzione ASIMMETRICA NEGATIVA

INDICE DI SIMMETRIA o Coefficient of Skewness


Tutto ciò visto fino ad ora, viene anche
espresso dall’indice di simmetria, detto
anche coefficiente di Skewness. Ho due
formule, una riferita alla popolazione e
una al campione.

Quella della popolazione è da ricordare:


somma degli scarti al cubo diviso n
(simile alla varianza ma gli scarti sono al
cubo), il tutto è rapportato alla
deviazione standard al cubo.

Il fatto che la sommatoria degli scarti sia al cubo, fa sì che questo valore può essere sia positivo che
negativo. La deviazione standard anche se è elevata al cubo è sempre positiva, l’indice di simmetria può
essere sia positivo che negativo:

• y1>0 simmetria A DESTRA


• y1<0 simmetria A SINISTRA

Quindi ci dice l’intensità di simmetria e anche da che parte va la simmetria.

Si ha poi la scala della VALUTAZIONE DEL GRADO DI SIMMETRIA, in cui se ho l’indice di simmetria nel valore
assoluto sotto 0.5 la distribuzione è simmetrica, se è tra 0.5-1 è moderatamente asimmetrica, se è
maggiore di 1 è proprio asimmetrica.

INDICE DI CURTOSI
Anche qui si ha una formula
generale sulla popolazione e una sul
campione. Vediamo quella della
popolazione e notiamo che è uguale
all’indice di simmetria, ma qui
l’esponente è alla quarta e non alla
terza.

Mentre il l’indice di simmetria di una


normale è 0, l’indice di curtosi di
una normale (senza considerare il -3
della formula) è 3. Visto che non è
comodo avere come indice 3, si sottrae 3. In questo modo il rapporto, che ha gli esponenti 4, è sempre
positiva, ma togliendo poi 3 l’indice può essere negativo se il rapporto è più piccolo di 3 o positivo se il
rapporto è più grande di 3.

39
Ci dà queste informazioni:

La nera è una gaussiana (curva


normale), questa curva per
definizione ha curtosi pari a 0.

Le altre due curve, la rossa e la


blu, sono due distribuzioni che
hanno media uguale alla
gaussiana e deviazione
standard uguale alla
gaussiana. Quindi come
parametri stimati sono uguali
alla gaussiana nera: tutte e 3
le curve hanno la stessa
media e la stessa deviazione
standard.

Quello che cambia è la concentrazione di probabilità:

• la blu ha più probabilità vicino alla media e meno vicino alla mediana, per questo è detta CURVA
IPERNORMALE o LEPTICURTICA;
• la rossa ha più probabilità vicino alla mediana e meno vicino alla media, per questo è detta CURVA
IPONORMALE o PLATIICURTICA.

Non possiamo confrontare due gaussiane dicendo che una è platicurtica e l’altra è lepticurtica, perché
questo concetto è fatto confrontando una curva con una gaussiana e la curva deve avere la stessa media e
deviazione standard della gaussiana. Due gaussiane possono essere diverse, ma solo perché hanno media e
deviazione standard diverse.

Quindi il confronto di una curva in termine di curtosi, viene fatto con una curva che ha la stessa media e
deviazione standard della gaussiana.

40
Lo strumento della
statistica non parametrica
più utilizzato per vedere la
forma delle distribuzioni è il
grafico boxplot.

Ho sull’asse y azoto totale


di un suolo, sull’asse x 3
trattamenti gestiti.

Questi grafici sono molto


utilizzati nella non
parametrica e ci
permettono di vedere
determinate cose.

Prendiamo l’esempio
centrale: la riga nera
centrale, che si legge
sull’asse y, ci dice il valore della mediana della distribuzione.

I limiti della scatola sono il primo e il terzo quartile, sempre da leggere sull’asse y. I baffi, quello che va
verso il basso e verso l’alto, sono i valori minimo e massimo della distribuzione.

Si parla di scatole e baffi, perché i boxplot possono essere chiamati anche come diagrammi a scatole e baffi.

Di queste 3 distribuzioni quale è simmetrica? La terza scatola, ovvero la tradizionale è simmetrica. Il reg
2078 è asimmetrico positivo, perché la coda si allunga verso valori alti. Excel, ora, fa anche i boxplot. Si usa
in genere anche R per fare bloxplot.

Esistono grafici fatti allo stesso modo dove linea centrale è la mediana, questo è 2 volte la deviazione
standard e questo è 3 volte la deviazione standard. Esiste uno standard di mettere le barre d’errore sui
grafici. Se metto deviazione standard su un istogramma o un grafico è statistica parametrica, se uso i
bloxplot è non parametrica. Se tutte le distribuzioni sono simmetriche, in quel caso lì forse non sono
bloxplot ma sono delle rappresentazioni.

41
14/03/2018

Vai al file “Analisi suolo” e vediamo cosa si può fare con un database. I GIS sono gli strumenti per l’analisi
dei dati territoriali. Questo è un dataset che deriva dall’incrocio di due informazioni. È stata presa una
cartografia su tutte le analisi dei suoli disponibili a livello piemontese (è una informazione che si può
scaricare su geoportale regione Piemonte). Si ha questo database che all’interno ha un insieme di dati.

A livello di GIS, queste informazioni sono riferite su diverse tipologie di diversi suoli e si ha l’anno,
coordinate e varie caratteristiche quali pH, sostanza azotata, rapporto C/N e così via. Nel dataset non tutti i
campi sono pieni perché non sempre si effettuavano tutte le analisi. In questo dataset, infatti quando non
c’è l’analisi si ha 0 e questo ovviamente influisce con la media. Gli zero sono dati da eliminare.

Questo dataset è stato incrociato con la cartografia dei comuni così assegnando i vari punti ai comuni.
L’informazione che ci sono il pH dell’acqua, sostanza organica, azoto totale, ecc. L’ultimo campo è la
profondità di dove è stato preso il campione. Noi assumiamo che tutti i valori che non sono indicati “nd”
sono stati prelevati sul primo orizzonte e quando ci sono casi che sono stati prelevati a diversa profondità li
escludiamo.

Di questi valori noi vogliamo costruire delle statistiche descrittive, quindi vogliamo usare gli indicatori della
statistica descrittiva per arrivare a fare una tabella di sintesi delle informazioni qua contenute. Ha 212
righe, quindi è molto ampia.

Vediamo due strumenti:

• la procedura Analisi dati di Excel, componente aggiuntiva che si integra in Excel e una volta che si
attiva ci mette a disposizione una serie di procedure statistiche;
• l’altro strumento è la tabella pivot, strumento molto utile in Excel per fare elaborazioni di diverso
tipo. È uno strumento molto potente perché ci permette di progettare una tabella, ma è lui che si
preoccupa di farlo, quindi è veloce e non si sbaglia.

PROCEDURA ANALISI DATI IN EXCEL


È necessario, innanzitutto attivare l’analisi dati.

Step 1: Clic utente con pulsante sinistro su "Dati (Elemento di scheda)" in " Excel". Si vede che nella barra
delle icone non è presente l’oggetto per analisi dati. Significa che occorre attivarlo.

Step 2: Clic utente con pulsante sinistro su "Scheda File"

Step 3: Clic utente con pulsante sinistro su "Opzioni (Voce di menu)"

42
Step 4: Clic utente con pulsante sinistro su "Componenti aggiuntivi (Elemento di elenco)" in "Opzioni di
Excel"

Step 5: Clic utente con pulsante sinistro su "Vai... (Pulsante)" in "Opzioni di Excel"

Step 6: Clic utente con pulsante sinistro su "Strumenti di analisi (casella)" in "Componenti aggiuntivi"

Step 7: Clic utente con pulsante sinistro su "OK (Pulsante)" in "Componenti aggiuntivi". Ora è possibile
verificare che nella scheda “Dati” è comparsa l’icona “Analisi dati”.

43
Sulla procedura analisi dati, c’è un menu con scritto “statistica descrittiva”, strumento che ci permette di
avere risultati che avremmo avuto utilizzando formule.

Nell’intervallo input seleziono la colonna “sostanza organica”, poiché ho selezionato anche il nome della
colonna clicco su “etichetta nella prima riga”, l’output nel nuovo foglio di lavoro e poi “riepilogo di
statistiche”.

Ora nel nuovo foglio vediamo la media, errore, mediana e altri valori. Quindi questa procedura altro non è
che uno strumento che applica una serie di formule e invece di calcolare le varie formule, questa procedura
ce le calcola in automatico con una tabellina di sintesi.

In questo dataset però ci sono diversi problemi, come ad esempio che la moda è zero. Quindi la prima cosa
da fare è fare pulizia. Adesso abbiamo dimostrato che l’analisi dati funziona, quindi posso anche eliminare il
foglio1, cliccando su “foglio1” e poi elimina.

Il problema di questo dataset è che ci sono dati molto diversi. Ad esempio ci sono dati che appartengono
all’orizzonte 30-60 e altri a 0-30 e non si può fare la media con 2 profondità diverse (quindi non possiamo
mettere tutti gli orizzonti insieme). Un obiettivo è eliminare i valori sopra i 0-30. Anche nel caso della S.O. è
strano avere valori 0, questi indicano dei valori mancanti, quindi dobbiamo eliminare anche questi.

44
Per eliminare solo ciò che mi interessa, devo applicare un filtro. Come si applica? La prima cosa che
conviene fare è quella di selezionare l’area del dataset.

NB! Non devo selezionare tutto il foglio, quindi non clicco sulla freccetta in figura, ma devo
selezionare solo l’area dove ci sono colonne e righe che a me interessano.

Quando si ha un dataset con tante righe e colonne, per selezionare prima clicco “shift+tasti direzionali” e in
questo modo seleziono una ad una riga e colonna. Oppure cliccando “control+tasti direzionali” si sposta
fino al fondo delle celle scritte. Quindi per selezionare ciò che ci interessa, nel caso di dataset con tante
righe e colonne, usiamo entrambe le funzioni: clicco “control+shift+tasti direzionali” e selezioniamo l’area
del nostro dataset.

Una volta aver selezionato, bisogna applicare il filtro. Clicco su Home e sulla destra si ha Ordina e filtra,
clicco su “Filtro” e in questo modo sulla intestazione di ogni colonna è comparso un simbolo (una
freccetta).

Il filtro permette di filtrare i dati. Andando su Sostanza Organica, clicco sulla freccetta e tutti i dati hanno la
spunta, clicco su 0 in modo da eliminare tutti gli 0. Stessa cosa per la colonna delle profondità, dove vado
ad eliminare (quindi tolgo le spunte) i 30-60 e i 60-100.

Dopo aver deselezionato i dati che non ci interessano,


sull’etichetta uscirà questo simbolo:

In realtà i dati non sono stati eliminati completamente, ma sono stati solo nascosti (infatti nelle righe si può
notare che saltano alcune righe, da 2 passa direttamente a 4 ad esempio). Una complicazione di Excel è che
ci sono operazioni che lavorano solo su celle visualizzate e altre che lavorano su tutto il dataset includendo
anche i dati nascosti.

45
Quindi seleziono tutto il foglio (con la freccetta vista prima) e uso la funzione copia. Questa funzione mi
permette di copiare solo ciò che è visibile. Vado su un altro foglio e incollo solo i valori. Questo è il dataset
aggiornato, privo di 0 nella sostanza organica e privo di orizzonti profondi (30-60 e 60-100). Su questo
nuovo dataset posso applicare la procedura di analisi dati.

Seleziono l’area del nuovo dataset, vado su analisi dati, statistica descrittiva, e lo imposto come prima:
seleziono la sostanza organica (control+shift+tasti direzionali), etichette nella prima riga, nuovo foglio di
lavoro, riepilogo statistiche. Adesso avrò una tabella con le statistiche descrittive, ma senza errori.

Ho 202 valori. Noto che media e mediana sono molto simili tra di loro, quindi si parlerà di distribuzione
simmetrica, infatti l’asimmetria è 0.37 (fino a 0.5 è trascurabile). La deviazione standard è 0.74.

Mi posso calcolare il coefficiente di variazione (dev stand/media):

In percentuale è 31% ed è tanto.

I valori minimi e massimi ci dicono che sono sensati:


il massimo per una sostanza organica è troppo alto
5.74, ma anche il minimo è troppo basso 0.37 e
l’intervallo tra minimo e massimo è abbastanza
ampio.

Il fatto che abbiamo code cosi grandi ci porta a dire che si tratta di una distribuzione lepticurtica e questo lo
conferma anche il coefficiente di curtosi, che in questo caso è >0.

Per avere altre informazioni sulla forma di questa distribuzione ci possiamo calcolare il primo e il terzo
quartile (informazioni che l’analisi dati non ci da).

Clicco +quartile. Mi chiede la matrice, ovvero l’area dove ci sono i


numeri per cui si calcola il valore del quartile. Vado sul foglio 2 e
seleziono la colonna della sostanza organica (control+shift+tasti
direzionali) e clicco invio, poi inserisco il ; e mi chiede infine come ultima
informazione il quarto che in questo caso è 1.

46
Stessa cosa per il terzo quartile (dove come quarto avrò 3 e non 1).

I valori di Q1 e Q3 ci confermano che si tratta di una lepticurtica, infatti hanno


valori vicino alla mediana e alla media, mentre hanno valori distanti dal
minimo e dal massimo.

RIEPILOGO. Nel caso della normale ho il minimo che dista da Q1 25%, Q1 da mediana dista 25%, mediana
da Q3 dista 25% e Q3 dal minimo 25%. Nel caso della platicurtica ho che l’intervallo tra minimo e Q1 e tra
Q3 e massimo è piccolo, l’intervallo tra Q1 e mediana e mediana e Q3 è ampio. Nella lepticurtica l’intervallo
tra minimo e Q1 e tra Q3 e massimo è ampio, l’intervallo tra Q1 e mediana e tra mediana e Q3 è piccolo
(come in questo caso). La differenza tra Q3 e Q1 mi dà il range interquartile, che contiene il 50 % dei valori
(e qui in mezzo sta anche la mediana).

Adesso creiamo estetica alla tabella per metterla in un articolo, o una tesi. Copio la tabella sotto (sempre
sul foglio 3). Normalmente ogni colonna in tabella ha un titolo, ad esempio statistica e valore. Per dividere
le celle clicco su home, unisci e formatta celle e clicco su dividi celle. Altra cosa da fare è eliminare un po’ di
decimali, nel della sostanza organica lasciamo due cifre dopo la virgola (seleziono i valori e clicco su
diminuisci decimali). La cosa che manca ancora è l’unità di misura: media, mediana e moda in % di sostanza
organica nel suolo, deviazione standard ha la stessa unità di misura di media, mediana e moda (infatti il CV
è adimensionale), la varianza è al quadrato, curtosi e asimmetria sono adimensionali, minimo, massimo,
intervallo e somma hanno la stessa unità di misura (di solito la somma in queste tabelle non si mette).

Si mette la didascalia, scrivendo “Tab.1 Statistiche relative alla concentrazione di sostanza organica nella
pianura Vercellese”. A volte nelle tabelle si possono mettere anche le note in basso.

47
Tabelle e figure si numerano separatamente, possono essere progressive in tutto il documento oppure
progressive per capitolo (1.1, 1.1.2 ecc).

Abbiamo sintetizzato tutti i dati del database e l’abbiamo analizzato interamente, ma noi potremmo avere
l’interesse ad esempio di fare la statistica per comune o per ogni unità territoriale.

PROCEDURA TABELLA PIVOT


Adesso consideriamo sempre la statistica della sostanza organica, ma suddivisa per comune. In questo caso
possiamo decidere di riportare il valore della media e della deviazione standard. Partiamo dal foglio 2, dove
abbiamo eliminato gli zeri e gli orizzonti.

Step 1: Seleziono l’area del dataset, vado su inserisci e clicco sulla “tabella pivot”. Sulla finestra che esce ci
dice dove leggere i dati e dove mettere risultati.

Nell’input si ha il database che ho selezionato e l’output lo mettiamo in un foglio nuovo. Siamo in nuovo
foglio 4 e sostanzialmente non vediamo nulla.

48
In basso a destra abbiamo 4 aree e sono 4 aree di una tabella: a “righe” vado a
mettere le informazioni che voglio sulle righe, stessa cosa per le “colonne”,
l’incrocio tra righe e colonne mi dà l’area in basso a destra, ovvero
“sommatoria dei valori”. Esiste poi una terza dimensione della tabella che non
vediamo e in questo caso è rappresentata dall’area dei “filtri”.

Potremmo avere una tabella stratificata con più livelli, questa non è
rappresentabile su uno schermo piano e quindi vediamo solo una tabella con uno strato e decidiamo quale
strato rappresentare (mettendo le informazioni sull’area dei filtri).

Step 2: Partiamo dal caso più semplice, dove mettiamo i comuni sulle righe e sulle colonne diverse
statistiche (come ad esempio conteggio di valori, media e deviazione standard). Le scritte che vediamo in
alto a destra sono le scritte che nell’altro foglio compaiono come campi. Prendiamo “comune_nom” e lo
trasciniamo nell’area delle “righe”. Inizia a crearsi una tabella e ce li mette in ordine alfabetico.

Step 3: Vogliamo riportare anche la sostanza organica. Trasciniamo la sostanza organica nell’area dei
“valori”, ovviamente per ogni comune abbiamo diverse analisi.

49
Step 4: A noi però la somma (come quella che fa in questo caso) non interessa, ci interessa il conteggio, la
media e la deviazione standard. Riporto 3 volte la sostanza organica nell’area dei valori e sul menù a
tendina (che esce cliccando sulla freccetta vicino al nome) vado a cliccare su “impostazioni campo valore”.

Qui notiamo una serie di sintesi statistiche disponibili, mancano però alcune della statistica non
parametrica. Clicchiamo quindi prima su conteggio, poi su media e poi su deviazione standard.

Step 5: Abbiamo ottenuto questa tabella pivot.

Per migliorare l’estetica della tabella, seleziono la tabella pivot, copio e la incollo (solo valori) su un altro
foglio di lavoro.

50
Scrivo l’intestazione, ovvero “sostanza
organica”. Cambio le etichette, scrivendo
comuni, conteggio, media e deviazione
standard. Riduco i decimali a 1 per la media e a
2 per la deviazione standard. Regolo la
larghezza delle colonne cliccando sulla freccetta
che esce al bordo (+) due volte.

Osservazione. Come notiamo i comuni hanno


dei valori medi, quelli che hanno il valore più
alto 2.8 sono Albano Vercellese e Greggio,
mentre il valore più basso 2.1 è Buronzo.
Considerando gli estremi, possiamo dire che Albano Vercellese ha un contenuto di sostanza organica medio
del suolo più alto di quello di Buronzo? Cioè questi due comuni hanno un contenuto di sostanza organica
medio diverso? Se considero Casanova e Formigliana, che hanno un conteggio simile (33 e 32 campioni),
posso dire che i valori medi sono uguali? Si possono fare varie osservazioni. Il primo punto di partenza è che
non deve essere successo il fatto che se ho valori diversi è perché sto confrontando 2 comuni diversi, ma
anche perché sto confrontando 2 usi del suolo diversi: la rappresentatività dei campioni deve essere
sempre vero (quindi escludo questa supposizione). Quando faccio cioè delle indagini i campioni devono
essere rappresentativi e non devono essere deviati rispetto a quello che sto confrontando. Assumiamo a
priori quindi di aver fatto un metodo di campionamento e di analisi omogeneo e che il campione è
rappresentativo.

Se tornassi a campionare a Formigliana e prendo altri 32 campioni, mi viene lo stesso valore medio e la
stessa deviazione standard? La media che otterrò prelevano questi nuovi 32 campioni sarà più o meno
vicina a quello di prima in base alla deviazione standard. Questo perché la deviazione standard mi dice
quanto sono dispersi, quanto è la variabilità progressiva: maggiore è la deviazione standard dei valori e più i
valori medi che vado a calcolare sono tra loro diversi. Se la deviazione standard fosse 0, vuol dire che tutti e
32 campioni che ho preso erano uguali e quindi probabilmente quando torno gli altri campioni che prendo
saranno di nuovo uguali: non c’è variabilità, ma questo non capita mai.

Quindi quando devo andare a confrontare se 2.8 è diverso da 2.1, la vera domanda da pormi è se in base
alla deviazione standard di quelle due aree, questo 2.8 è saltato fuori per caso? Si, perché se misurassi tutti
gli appezzamenti di Albano Vercellese la media di tutti gli appezzamenti probabilmente non è 2.8. questa è
la migliore stima che si può avere, sarà un numero vicino a 2.8 ma non sarà proprio 2.8. Questo perché nel
campionare solo una parte degli appezzamenti, il valore che ottengo è condizionato dagli appezzamenti che
ho campionato.

Quindi quando vado a vedere se questi punti sono uguali o diversi, la domanda è “data questa distribuzione
di Buronzo, avrei potuto trovare un numero pari a 2.8?”. ho trovato 2.1, ma campionando altri
appezzamenti a caso, avrei potuto trovare 2.8? Stessa per 2.8: avrei potuto trovare a 2.8 un valore uguale a
2.1? La risposta è certamente sì, il punto non è tanto se è possibile o no, ma è quanto è probabile.

Possiamo dire se questi due valori sono uguali o diversi solo chiedendoci qual è la probabilità: se la
probabilità è elevata, i due numeri sono uguali; se la probabilità è bassa, i due numeri sono diversi. Una
probabilità è alta o bassa a seconda del livello che ho settato. Questo limite per settare se la probabilità è
bassa o alta lo inseriamo a 0.5: se<5% è bassa, se>5% è alta.

51
Stiamo considerando che questi due valori medi non sono quelli veri, ma vicini a quelli veri. Questi numeri
se campioniamo tutti gli appezzamenti di Albano Vercellese e Buronzo, avremmo un valore medio che non
è quello, ci andrà vicino ma non è quello. Cioè questo valore medio è una stima del valore reale. Stessa cosa
per la deviazione standard, cosi come è una stima per la media anche la deviazione standard è una stima
del valore vero. Quindi l’altra domanda da porci non è solo se i valori della media sono uguali o diversi, ma
anche se quelli della deviazione standard sono uguali o diversi. La domanda ce la poniamo prima sulla
deviazione standard e poi sulla media. Se sulla deviazione diciamo che i due numeri sono uguali e che
cambiano solo per il fatto che campionando casualmente otteniamo valori diversi, di questi due numeri
non prenderemo nessuno dei due, ma la media dei quadrati, ovvero la media delle varianze. Non si
possono mediare le deviazioni standard, si possono invece mediare le varianze. Poi dovremmo uguagliarle
in modo ponderato. Le informazioni disponibili sono i gradi di libertà, quindi il conteggio-1. Se invece
concludiamo che le due varianze sono diverse, allora abbiamo due popolazioni diverse sia nella media che
nella varianza e li confrontiamo ognuno con la propria varianza. Per cui potrebbe risultare che Buronzo è
uguale a Albano Vercellese, ma che Albano Vercellese non è uguale a Buronzo. In statistica questo è
possibile, perché se una popolazione è molto diversa può includere un altro pezzo, ma se la popolazione è
stretta non includono altri valori. I valori di Buronzo quindi potrebbero stare all’interno di quelli di Albano
Vercellese, viceversa no perché la distribuzione è piccola. Questa è la statistica non parametrica.

Adesso torniamo sul foglio 4. Voglio ottenere una tabella pivot a doppia entrata. Quindi vado a togliere la
deviazione standard e il conteggio dall’area dei “valori” (solo per comodità) e considero gli anni. Se ho tanti
anni e pochi comuni, vado ad inserire i comuni sulle colonne e gli anni sulle righe. Ottengo così una tabella
a doppia entrata.

In questa tabella i trattamenti non sono bilanciati, quindi la tabella non è satura ovvero non c’è un valore
per ogni combinazione e questo deriva dal fatto che non è un esperimento.

I valori del totale, sia sulle righe che sulle colonne, sono dette medie marginali, perché le medie delle righe
dipendono dagli anni ma non dal comune, le medie delle colonne dipendono dai comuni e non dagli anni.
Noi ci aspettiamo differenza tra i comuni, ma non negli anni.

52
Adesso facciamo lo stesso esercizio, ma considerando il pH. Partiamo dal dataset originale, togliamo gli zeri
del pH, togliamo il filtro dalla sostanza organica e lasciamo il filtro alla densità della profondità
(considerando solo 0.30).

Senza fare l’analisi dati, dopo aver messo il filtro al dataset sul pH, seleziono tutto e copio solo i valori su un
nuovo foglio. Seleziono l’area del nuovo dataset e inserisco la tabella pivot. Vado a calcolare conteggio,
media e deviazione standard:

Copio questa tabella sul foglio 5 e miglioro l’estetica.

Sul foglio 5 ho le tabelle complete della sostanza organica e del pH. Di solito quando si hanno questi dati si
possono utilizzare due tipi di rappresentazioni. Una rappresentazione è di tipo parametrico dove
sostanzialmente possiamo dire che questi dati hanno una distribuzione normale o almeno simmetrica.
L’altra invece è una rappresentazione di tipo non parametrico dove abbiamo dati che sono fortemente non
normali, hanno una distribuzione non simmetrica.

L’analisi fatta sul dataset iniziale sulla sostanza organica ci diceva che la distribuzione era abbastanza
omogenea, simmetrica. Per questo motivo possiamo decidere di usare una rappresentazione parametrica,
quindi possiamo utilizzare istogrammi e come indice di dispersione la deviazione standard (spesso si usa
l’errore standard).

Per fare un grafico in Excel dobbiamo individuare 2 colonne, che rappresentano 2 vettori (x e y). Quando
abbiamo una variabile numerica e una categorica tipicamente facciamo la rappresentazione su istogrammi.
Ogni istogramma è riferito a una categoria (quindi ad una variabile categorica) e l’altezza dell’istogramma è
riferita alla variabile numerica. In questo caso la variabile categorica è i comuni (tralasciando il totale), la
variabile numerica è la media. Selezioniamo comuni e conteggi, poi spostiamo la colonna delle y di una
colonna (alla media). Avendo selezionato il vettore dei nomi e dei conteggi, vado ad inserisci e diciamo che

53
è un grafico ad istogramma. Per cambiare l’asse y, clicchiamo sulle barre e cambiamo dal conteggio alla
media, spostando il vettore selezionato. Abbiamo così ottenuto l’istogramma.

Adesso inseriamo le barre d’errore. Queste sono due baffetti che si staccano dal valore medio e si allontano
per una quantità che in una distribuzione simmetrica è uguale da entrambe le parti. Si può fare la media + o
– la deviazione standard (o la media + o – l’errore standard). In questo caso consideriamo la media + o – la
deviazione standard.

Si clicca sulla serie (sulle barre), vado a progettazione (o layout) e clicco su “aggiungi elemento grafico”, poi
clicco su “barra di errore”. Altre opzioni ed esce un menu: clicchiamo su personalizzato e poi su specifica
valori e vado ad inserire i valori della deviazione standard selezionandoli.

Questo grafico (istogramma) rappresenta delle statistiche che abbiamo calcolato prima. Il boxplot invece
rappresenta tutta la distribuzione, quindi dobbiamo fargli vedere l’elenco dei dati.

Andiamo sul foglio 6 dove abbiamo il dataset pulito dai valori di pH. Per comodità, apriamo una colonna
vicino a quella del pH in modo da mettere i nomi dei comuni vicino ai valori di pH. Per fare questo clicco su
inserisci colonna vicino alla colonna del pH, aggiungiamo la colonna dei comuni. A questo punto seleziono
le due colonne dei comuni e del pH, vado ad inserisci grafici consigliati. Clicco poi su “tutti i grafici” e qui
abbiamo tutti i grafici che fa Excel e clicchiamo su “scatole e baffi” (inserisco come scala sulle y da 4 a 8).

54
Questo grafico fa vedere i comuni e per ogni comune fa vedere il box plot che ha gli elementi già visti:
valore minimo e massimo, primo e terzo quartile, riga in mezzo che è la mediana e la croce è la media (in R
non viene rappresentata la media). I puntini che sono fuori dal box plot sono gli outliers. Esiste una regola
di definizione dell’outliers per cui i valori che distano dalla mediana per più di 1.5 volte la distanza
interquartile sono outliers. Questi valori outliers non sono rappresentati con il baffo, perché il box plot non
arriva al massimo se il baffo dista più di 1.5 volte la distanza interquartile dalla mediana. Questa è
l’identificazione degli outliers fatta con strumenti non parametrici. Nella scatola blu abbiamo il 50% dei
valori.

CREARE BOXPLOT IN R
Per vedere come creare boxplot su R, dobbiamo seguire lo script (per scaricarlo bisogna fare salva con
nome).

Il pacchetto da usare è “readxl”, se non c’è in “Packages” bisogna installarlo e attivarlo: “install”, si cerca
readxl e poi lo si attiva.

Una volta attivato il pacchetto, tra le virgolette mettiamo il nome del file (Analisi suolo1.xlsx) e a sheet
andiamo ad inserire il numero di foglio che vogliamo considerare (Foglio6). Cambio le impostazioni e clicco
poi, sulla riga 2, control invio. È importante avere entrambi i file nella stessa cartella o nello stesso posto.

55
Notiamo che ad Environment esce DB.

Per fare un boxplot con una variabile seguo le istruzioni della riga 4, se seguo le istruzioni della riga 5 e 6 ho
un boxplot secondo una chiave di raggruppamento, se seguo le istruzioni della riga 7 ho il boxplot con il
contenuto di colesterolo in relazione a due chiavi di raggruppamento.

A questo punto, vado sulla riga 4, copio le informazioni sulla riga 5 e al posto di colesterolo inserisco
PH_ACQUA:

Clicco su PH_ACQUA1, clicco su Run e ottengo sull’area dei Plots il bloxplot ad una variabile (senza
raggruppamento):

Adesso seguo le istruzioni della riga 6, considerando il PH e il comune:

Clicco su Run e ottengo un boxplot secondo una chiave di raggruppamento:

56
Il fatto che non ci siano tutti i nomi deriva dalla dimensione dei caratteri. Ci sono poi diversi strumenti che
ruotano in verticale i nomi, in modo da avere tutti i nomi.

21/03/2018

PROBABILITÀ E FREQUENZE

Le distribuzioni di frequenza sono distribuzioni che ci dicono come è costruita una popolazione dal punto di
vista della frequenza di individui per i valori della variabile che noi stiamo misurando. Quando diciamo
popolazione di individui, ma la popolazione di individui è interessante per la misura di una variabile su
57
quelli individui, quindi quando immaginiamo una popolazione abbiamo un elenco di individui ma ci
interessano per la misura fatta sugli individui.

Quando diciamo distribuzione di frequenza o di probabilità, stiamo dicendo rispetto alle variabili misurate
quali sono i valori che troviamo più frequentemente o meno? Questa cosa qui è espressa da un grafico, che
ha sulle x la variabile e sulle y la concentrazione di frequenza o di probabilità.

La frequenza è il numero di individui che gode di una proprietà rispetto al totale di una popolazione. Se il
numero di individui ha una certa probabilità nella popolazione la esprimiamo come numero di individui e
stiamo parlando di frequenze assolute, se lo dividiamo per il totale degli individui della popolazione si parla
di frequenze relative.

La probabilità è l’altra faccia della frequenza, perché se estraggo un individuo da una popolazione la
probabilità che questo individuo sia caratterizzato dalla variabile con un certo valore dipende dalla
frequenza nella popolazione. Ovvero se si ha 25% femmine e 75% maschi e pesco a caso una persona ho il
75% di probabilità di pescare maschio e 25% di pescare una femmina.

Quindi frequenza e probabilità sono due concetti collegati.

LEGGE DEI GRANDI NUMERI

Bernoulli formulò la legge dei grandi numeri ed è proprio la legge che lega questi due concetti: “Un evento
che ha probabilità costanti P, in una serie di prove tende a P, al crescere del numero di tentativi.”

Questa legge quindi dice che c’è un evento di cui conosciamo la probabilità che è costante, in una serie di
prove cioè ripetendo tante volte quell’evento, quell’evento tende a P al crescere di numero di tentativi. Se
io so che la probabilità di ottenere 1 dal lancio di un dado è di 1/6, perché ho un evento su sei possibili, se
ripeto tante volte il lancio di un dado è ragionevole che 1 uscirà un sesto delle volte. Questo però bisogna
ripeterlo molte volte perché la realizzazione tende a P (probabilità) al crescere di numero di lanci. Questo
perché se lanciamo il dado una volta sola ho o il 100 % di frequenza di 1 o lo 0%. Se lo lanciamo due volte
abbiamo un po’ di possibilità combinate che o ho il 100% di 1 quindi esce due volte 1, o lo 0% ovvero che 1
non esce mai, oppure 50 % quindi una volta è uscito e una volta no.

La probabilità di frequenza dell’1 comincia ad assomigliare ad 1/6, quando aumentiamo il numero di lanci.

Quindi possiamo confondere questi due concetti di probabilità e di frequenza nella misura in cui stiamo
parlando di eventi ripetuti molte volte.

Possiamo definire il concetto di probabilità in 2 modi: probabilità classica o a priori, probabilità frequentista
o a posteriori (entrambe collegate alla legge dei grandi numeri).

➢ Probabilità classica o a priori (Bernouilli, Laplace): “la probabilità di un evento casuale è il rapporto
tra il numero di casi favorevoli ed il numero di casi possibili, purché siano tutti equiprobabili.”
Questa è la definizione di probabilità che parte dall’ipotesi che conosciamo il meccanismo di
generazione di dati. Con tale meccanismo intendiamo il capire quale è il processo che ci permette
di ottenere dei numeri. Siccome sappiamo come è fatto il dado (ovvero ha numeri progressivi sulle
facce), l’evento che mi interessa per esempio è 1, so che gli eventi possibili sono 6 e sapendo come
funziona un dado automaticamente sono in grado di capire qual è la probabilità degli eventi dal

58
lancio di un dado. Quindi la probabilità di ottenere 1 è di un sesto (considero favorevoli 1 e possibili
6).
➢ Probabilità frequentista, probabilità a posteriori (von Mises): “la probabilità di un evento casuale è
il limite a cui essa tende al crescere del numero delle osservazioni, in una serie di esperienze
ripetute nelle stesse condizioni.” Questa seconda definizione di probabilità è quella che parte dal
presupposto che non sappiamo come è fatto il meccanismo generatore dei dati, quindi guardo
quali sono i risultati dell’evento, sulla base della generazione dell’evento e sulla base delle
frequenze che ottengo capisco come è fatto il meccanismo che genera dati. Quindi la frequenza che
determiniamo in un certo range è uguale alla sua probabilità di verificarsi.

Guardando le due definizioni, notiamo che ci sono i due passaggi del processo inferenziale. In tale processo
data una popolazione vogliamo conoscerla, la popolazione è ad esempio l’insieme dei microrganismi nel
mosto, dei campioni, l’insieme di tutte le macchine, ecc. Questa popolazione non la conosciamo, perché è
quella che vogliamo conoscere perché conoscendola abbiamo la risposta del nostro esperimento: non
conosciamo la gradazione del vino, quindi la misuro. Non conoscendo la popolazione, estraggo il campione
che è quello che possiamo dominare, quello che finisce in HPLC ad esempio. Da questa popolazione non
conosciamo il meccanismo generatore dei dati perché non sappiamo come è fatta la distribuzione di questa
variabile all’interno della popolazione, quindi il campionamento o la conoscenza del campione parte dal
presupposto che si utilizza la definizione frequentista o a posteriori. Non conosco il meccanismo generatore
dei dati.

Dietro tutto questo c’è un'altra ipotesi ovvero che quando estraggo un campione e lo misuro è come se
avessi lanciato un dado. Questo perché il fatto del lancio del dado ha dietro un processo randomizzato,
quindi è casuale. Quando estraggo un campione di vino anche lì c’è un processo di randomizzazione perché
ho una curva di distribuzione di quella proprietà ma non so dove pescherò. Quindi lanciare il dado e
estrarre il campione, dal punto di vista statistico, è la stessa cosa.

Quindi nel passare dalla popolazione al campione noi stiamo applicando la teoria frequentista, ovvero
vediamo la frequenza con cui otteniamo i numeri e sulla base di questa ci facciamo un’idea sulla
popolazione. Una volta costruite le statistiche generalizziamo dal campione alla popolazione, e quindi
attraverso la teoria a priori della probabilità noi immaginiamo di conoscere anche le realizzazioni future.
Quindi conoscendo la distribuzione di frequenza del campione, con la definizione a priori di probabilità
riesco a trasferire le informazioni dal campione alla popolazione.

DEFINIZIONI
• La probabilità che si verifichi un evento A è detto P(A); dove P(A) è compresa fra 0 e 1. P(A) è la
probabilità di quell’evento.
• Due eventi che si escludono a vicenda sono detti mutamente esclusivi, quindi si escludono a
vicenda (ovvero se al lancio del dado è uscito 1, certo non è uscito 2).
• La somma di tutti gli eventi mutuamente esclusivi deve essere pari a 1 (nel lancio del dado ci sono
6 possibilità, ognuna è mutuamente esclusiva, ciascuna ha la probabilità di 1/6 e la somma è 1).
• Definiamo P di A negato, la probabilità di non A che è complemento a 1 della probabilità di A
(ovvero se la probabilità di lanciare il dado e prendere 1 è di 1/6, la probabilità di non prenderlo è
di 5/6). Si definisce complemento di un evento la probabilità che esso non si verifichi e si indica con:

59
• Due eventi sono detti indipendenti se la probabilità che si verifichi A non condiziona la probabilità
che si verifichi B (ad esempio quando diremo che nell’analisi della varianza, gli epsilon sono
indipendenti vuole dire che la probabilità che noi misuriamo un certo valore in un punto non
dipende della probabilità di aver misurato un altro valore in un altro punto). Se lancio il dado 2
volte, i due eventi sono indipendenti, il secondo lancio non è influenzato dal primo. Sulla tombola
non è così.

OPERAZIONE SULLE PROBABILITÀ


Qui abbiamo due eventi, A e B, i B sono
legati da due operatori logici, and e or.
“And” vuol dire che gli eventi devono
accadere entrambi, quindi il primo
punto mi dice che ho l’attesa che si
verifichino due eventi
contemporaneamente. La probabilità
che si verifichino due eventi
contemporaneamente, se sono
indipendenti, è il prodotto delle due probabilità.

Le probabilità sono numeri decimali, perché la totale è 1 quindi ogni pezzo di probabilità è un valore
inferiore a 1. Moltiplicare due valori inferiori a 1 vuol dire avere un risultato più basso dei valori di partenza.
Ecco perché è difficile vincere al superenalotto perché la probabilità di prendere tutti e 6 i numeri è il
prodotto della probabilità di ogni numero e quindi alla fine ci da un numero molto basso.

Se invece ho “or” allora in questo caso aumento le probabilità: va bene che esca uno o l’altro, mi aspetto di
avere più possibilità di vincita. In questo caso si fa la somma e non il prodotto.

DISTRIBUZIONI DI FREQUENZA

Si definisce distribuzione di frequenza un modello matematico che collega i valori di una variabile casuale
con la probabilità che questi siano osservati. Le distribuzioni di frequenza vengono utilizzate per
modellizzare il comportamento di un fenomeno descrivendo la casualità con cui uno sperimentatore
osserva un dato campione a partire da una popolazione.

Un modello matematico generico può essere y= fx, che è una funzione generica. Non importa tanto quanto
siano fatte queste distribuzioni. La cosa importante è che collega la variabile casuale, ovvero la proprietà
che misuriamo su quel certo individuo, quindi può essere la concentrazione di antociani totali o la
produzione per ettaro del vigneto, ecc.

Lega questa variabile casuale alla probabilità o alla frequenza di ottenere quel valore. La variabile causale si
trova nell’intervallo: nell’intervallo ci sarà la distribuzione di probabilità che dirà ad esempio che su quel
vino, nel campionarlo otterremo un valore o più alto o più basso ma sempre in un certo range ed è proprio
in questo range che si ha la variabile casuale.

Le distribuzioni possono essere discrete o continue. A seconda del tipo di variabile, possiamo distinguere
due tipi di distribuzioni di probabilità:

60
• distribuzioni discrete: la variabile viene misurata con valori numerici interi (es: numero di insetti
per foglia)
• distribuzioni continue: la variabile viene espressa su una scala continua (es: la produzione per unità
di superficie del mais da granella)

La grossa differenza tra queste due distribuzioni è un concetto complicato. La distribuzione di frequenza di
una variabile discreta rappresenta effettivamente la probabilità, cioè sull’asse delle y c’è la probabilità p(x).
La distribuzione di frequenza di una variabile continua non rappresenta la probabilità, ma la densità di
probabilità f(x).

Qui abbiamo due esempi:


una distribuzione discreta
(a sinistra) quindi
abbiamo la probabilità di
estrarre un certo numero
di foglie infette su 10
foglie per pianta sapendo
la probabilità di infezione
di quella malattia è del
20%.

La probabilità di non
avere nessuna foglia
infetta sulla pianta è 11%,
la probabilità di trovarne
1 27%, la probabilità di
trovarne 2 30 % (questi
dati in base al grafico di sinistra). Questa è una rappresentazione di una distribuzione binomiale.

La cosa importante è che sull’asse delle x ho la variabile misurata, che in questo caso è il conteggio di foglie
infette su 10 foglie per pianta, sull’asse delle y c’è la probabilità di trovare quello specifico numero di foglie
infette. Questa non è una distribuzione continua ma discreta, perché si tratta di un conteggio. Poiché
questa è una distribuzione discreta associo una probabilità a quello specifico numero di foglie, che è un
numero ben preciso ma non ci sono altri numeri in mezzo. Quindi il fatto che la variabile sia discreta e
quindi ci sono valori chiari e precidi, fa sì che posso associare una probabilità proprio a quel certo valore.

A destra invece c’è la distribuzione di una variabile continua. Lo capiamo dal fatto che abbiamo una
rappresentazione di una linea (una gaussiana) dove ci sono dei valori sull’asse x, ma questi valori
rappresentano dei punti dove è rappresentata la funzione. Posso estrarre un valore in una variabile
continua che è un numero definito? Per noi tutte le variabili sono discrete, non esistono quelle continue
perché ogni valore ha un intervallo attorno che dipende dalla precisione strumentale dello strumento che
stiamo usando.

La precisione strumentale riduce tutte le variabili a variabili discrete. Questa a sinistra però è la
rappresentazione di una distribuzione continua, fra due valori possiamo sempre infilarci un altro valore.
Questa è la rappresentazione reale (e non strumentale) della variabile continua, per cui la larghezza del
valore y che stiamo analizzando non è un intervallo ma un numero preciso, con un numero di decimali

61
infinito. Infatti sulle funzioni continue le variazioni le misuriamo sui differenziali (che sono intervalli x così
piccoli a immaginarli uguali a 0).

Non ci interessa questo dal punto di vista pratico, anzi quello che ci interessa è che su questa distribuzione
continua l’asse y non ci interessa tanto perché l’altezza y non è la probabilità, ma è la densità di
probabilità. Questo vuol dire che su questo grafico dobbiamo sempre guardare degli intervalli x, mai dei
valori x. Il valore x che guardiamo, essendo molto piccolo ed essendo un differenziale, genera una colonna e
quindi un rettangolo (perché un intervallo sulle x sotteso dalla curva genera una specie di trapezio) e l’area
di quella figura sarà l’altezza (colonna y) per una larghezza piccolissima. Quindi qualsiasi numero che
andremo a vedere moltiplicato per 0 è 0. Quindi la probabilità associata a quel valore è sempre 0, ciò non
toglie che la y cambia e questa y è la densità di probabilità (rappresentata appunto sull’asse delle y).

Questa è la teoria. Ma la pratica ci dice che poiché la rappresentazione di probabilità di una distribuzione
continua rappresenta la densità di probabilità e non la probabilità. Quando vediamo sul grafico a destra la
probabilità, in realtà non possiamo guardare la coordinata y ma dobbiamo sempre calcolare l’integrale
sotto la funzione e l’integrale è l’area sottesa dalla curva in un certo intervallo.

Ad esempio tra 5 e 10 alziamo due colonne:


tutta questa aria ha per base l’asse x, per asse
sinistro un segmento verticale che sale da 5 e
incontra la curva, per il lato destro un
segmento che sale da 10 e incontra la curva e
noi dobbiamo calcolare l’integrale qui dentro,
che rappresenta la probabilità.

L’integrale quindi su una distribuzione


continua (su una gaussiana in questo caso) è
la probabilità. Non guardiamo la coordinata y
ma l’integrale in un determinato intervallo.

In statistica avremo sempre delle variabili continue, ma le nostre misure non saranno mai un punto su una
variabile continua, ma un intervallo. Quindi comunque usiamo le variabili continue, infatti usiamo più le
distribuzioni a destra che non quelle a sinistra. Le variabili continue le analizziamo solo su intervalli perché
ci interessa solo la probabilità e non la densità. Dal punto di vista operativo, quando ho una variabile
discreta a un valore ho una probabilità, su una distribuzione continua ad un intervallo di valori ho una
probabilità (RICORDA).

62
La binomiale la vediamo ma non ci serve
ed è molto utilizzata in patologia e
entomologia (dove ci sono dei conteggi,
non nella microbiologia perché il conteggio
è di numeri molto piccoli). Quindi la
binomiale è l’esempio di una distribuzione
discreta.

Ciò che ci interessa maggiormente sono le


4 evidenziate (la distribuzione normale
delle medie campionarie cambia un po’ nei
parametri ma è uguale alla normale).

Il Chi quadrato si usa nella statistica non


parametrica.

DISTRIBUZIONE BINOMIALE
La distribuzione binomiale o
bernoulliana è una distribuzione
discreta e finita. Discreta vuol
dire che andiamo a calcolare la
probabilità per eventi specifici,
non abbiamo una variabile
continua sull’asse delle x ma una
variabile discreta.

Finita, vuol dire che calcoliamo la


probabilità di un certo numero di
eventi su un totale che vogliamo
definire. Ad esempio quante
foglie infette trovo su 10 foglie?
10 foglie vuol dire che abbiamo definito il totale di foglie che analizziamo e questo rende la distribuzione
finita.

La distribuzione binomiale ci permette di stimare la probabilità che si verifichi un certo evento p, che si
verifichi i volte in n prove identiche e indipendenti. Viene detta binomiale perché riguarda una variabile
binaria.

Ad esempio se S. titanus ha volato su una pianta infetta da FD, si è infettato o no. Quindi vogliamo studiare
la capacità di acquisizione del fitoplasma, prendiamo un certo numero di insetti, li lasciamo su germogli di
vitigni infetti e vediamo quanti si infettano oppure si prende un certo numero di insetti infetti e vediamo
quanti di questi trasmettono la malattia. La variabile è binaria perché o trasmette o no o è infetta o no, è
finita perché prendo un certo numero di insetti finiti e sapendo che la percentuale di infezione è del tot %
immagino quanti sono gli insetti che si infettano. In realtà faccio il contrario, perché sapendo quanti insetti
si infettano vado a parametrizzare la popolazione.

63
Chiamo p la probabilità di infezione (il numero di infetti na sul totale di insetti n), q è il complemento a p
quindi è il non p. Se la % di infezione è del 20% (p), quella di non infezione è dell’80% (q).

La probabilità per ogni singolo numero di eventi si calcola con questa formula, che poco ci interessa.

Il risultato è questo. Con una


percentuale di infezione del 20 %,
partendo da 10 foglie o individui,
abbiamo l’11% di probabilità che
nessuno sia infetto, il 27% che ce ne
sia uno infetto e così via fino ad
arrivare a 10.

R si ferma a 7 (perché dopo 7


sicuramente la % di probabilità è
quasi 0).

Questa quindi è una distribuzione


binomiale e mi dice, data la
probabilità dell’evento, qual è la
probabilità di trovar quel certo
numero di individui sul totale di 10.

La binomiale non è utilizzata molto, in realtà tutte le volte che fissiamo una soglia, la frequenza di
eccedenza di quella soglia è una variabile binomiale. Per cui ad esempio nel disciplinare di un certo vino c’è
scritto che un certo parametro deve essere sotto quel livello, il numero di bottiglie sotto o sopra quel livello
è una variabile binomiale (anche se stiamo parlando di variabile continua).

La rappresentazione grafica Nel caso di variabili discrete, ogni probabilità è riferita ad uno specifico
evento. La rappresentazione grafica avviene per classi, con il valore dell’evento sull’asse x e la
probabilità/frequenza dell’evento sull’asse y. La rappresentazione grafica utilizzata è l’istogramma.

Nel caso di variabili continue il numero di valori ottenibili, anche in un intervallo definito, è teoricamente
infinito. La rappresentazione grafica può essere in primo luogo immaginata per classi. Nuovamente con
l’uso di istogrammi. La probabilità calcolata per una classe dipende dalla probabilità dei valori della classe,
ma anche dall’ampiezza della classe.

64
DISTRIBUZIONE NORMALE O GAUSSIANA
La maggior parte dei fenomeni che ci
interessano hanno una distribuzione che ci
si aspetta sia gaussiana, a volte non lo è
proprio ma ci assomiglia. Quindi se
mettiamo insieme i casi dove ci assomiglia
anche se non è proprio gaussiana e quelli in
cui è gaussiana riempiamo un grande range
di casistica.

La gaussiana descrive bene la variabilità


degli errori di misura e la prima sorgente
che abbiamo di variabilità è quella
strumentale. Se stiamo guardando variabili
di una certa importanza, ad esempio contenuto totale di antociani nel vino che si fa con uno
spettrofotometro, si tratta di misure con una certa complessità che introducono una variabilità strumentale
che ha una distribuzione degli errori di tipo gaussiano.

Molti fenomeni naturali sono descritti dalla gaussiana. Ci sono delle distribuzioni non gaussiane ma se le
trattiamo da tali l’errore è basso, quindi è un’approssimazione fattibile.

Distribuzioni non gaussiane se spinte con popolazioni finite anche queste hanno distribuzione gaussiana e
questo capita soprattutto grazie ad un teorema che è il teorema del limite centrale.

TEOREMA DEL LIMITE CENTRALE


Questo teorema è molto importante
perché ci da tante informazioni e
soprattutto perché è quello che ci dice che
abbiamo ragione ad usare la gaussiana.

Il teorema del limite centrale dice che noi


guardiamo un certo numero di variabili
distribuite in un certo modo, non ci
interessa come sono distribuite, se noi di
queste variabili non guardiamo i singoli
valori ma guardiamo la somma delle
variabili, la somma delle variabili è asintoticamente normale.

L’asintoto è quella linea a cui tende una funzione avvicinandosi sempre più andando verso infinito. La
funzione non incontra mai l’asintoto, ma da un certo punto in poi è così vicina che è come se l’avesse
incontrato (parlando dal punto di vista pratico).

Questo ci dice che se abbiamo una variabile non normale e le sommiamo un’altra non normale, la somma
delle due variabili sarà anche non normale, ma assomiglia di più a una normale rispetto alle singole di
partenza. Se poi aggiungiamo un certo numero di variabili e quindi diventa la somma di 3, 4, 5 ecc variabili,

65
alla fine la somma di queste si avvicina sempre di più ad una normale tante più variabili mettiamo nella
somma. Questo vuol dire che è asintoticamente normale.

Poi ci sono altre due componenti che sono meno interessanti, ovvero che la media generale è uguale alla
somma delle singole medie e che la varianza generale è uguale alla somma delle singole varianze. Questo
ultimo concetto è complicato, perché vuol dire che con questo processo la varianza tende a crescere (ciò la
dispersione tende a crescere).

La cosa che ci interessa è che la somma delle variabili tende ad essere normale indipendentemente da
come sono fatte le variabili, quindi anche se quelle iniziali non sono normali. Ci interessa perché parliamo di
processi biofisici che non sono facili da definire e proprio per questo tendono ad avere una distribuzione
normale (e questo teorema del limite centrale ci dimostra questo).

ESERCIZIO SU R

Vado sullo script di R e seguo le istruzioni:

Prima cosa da fare è pulire le variabili. La funzione rm significa rimuovi e ls indica tutta la lista. Vado sulla
seconda riga e clicco su Run.

Notiamo Environment che è vuoto.

Adesso andiamo sulla riga 5 e provo a lanciare dei dadi usando R. si tratta di un’istruzione non assegnata
ad un oggetto e questo fa sì che ci dia subito un risultato (che vediamo nell’area di sotto a sinistr) ma non lo
salva da nessuna parte.

Sample (significa campione) campiona in questo intervallo 1:6 e quando in R


mettiamo i due punti significa da 1 a 6, quindi scrivere 1:6 significa tutti numeri
interi che stanno da 1 a 6. Campiona nell’intervallo da 1 a 6.

Size vuol dire quanti numeri devo campionare, in questo caso 1.

Replace TRUE o FALSE: true vuol dire che i valori una volta estratti rientrano nella popolazione e possono
essere estratti di nuovo (come il meccanismo di un dado), false vuol dire che quando estraggo un valore
non compare più la prossima volta (nel caso della tombola).

Quindi questa riga significa campiona in modo casuale un numero che va da 1 a 6, ne estrai un solo valore.
Se facciamo girare questa istruzione è come lanciare un dado:
66
Stessa cosa nelle righe di sotto, dove però voglio estrarre prima 2 numeri e poi 10:

Ora facciamo tirare 1 milione di dati. Questa volta però li mettiamo in una variabile chiamata “dado”,
quindi non guardiamo il risultato ma lo mettiamo dentro un contenitore chiamato “dado” che avrà il
milione di uscite.

Nell’Environment vediamo che ha creato variabile “dado”, integer variabile intera, a 1 milione di
elementi.

Adesso però vogliamo sapere quante volte sono usciti i vari numeri, quindi voglio fare una tabella di
frequenze e la distribuzione di probabilità. Se valutiamo un evento per un elevato numero di volte, la
probabilità e la frequenza tenderanno a coincidere.

La funzione table crea una tabella di frequenze (che in questo caso è anche di probabilità), quindi table di
dado ci dà la distribuzione di frequenze di dado. Anche qui la salviamo in un oggetto detta tabella, che dopo
lo richiamo. Lo salvo in un oggetto perché dopo lo vediamo graficamente.

Ora cliccando sulle altre righe vediamo tutto:

Quindi pur con poca variabilità, ci attendiamo un 16% di uscite per ogni valore.

Adesso seguiamo l’ultima istruzione. Divido per 1 milione per avere le


frequenze relative e non assolute.

Noteremo poi nell’area dei plots il grafico:

67
Sull’asse y non abbiamo le frequenze assolute ma quelle relative, perché ho diviso i valori della tabella per
un milione.

Adesso vogliamo dimostrare il teorema, vogliamo vedere che cosa ha a che fare questa distribuzione con la
gaussiana. Questa è una distribuzione discreta e limitata, e non ha niente a che fare con una gaussiana, in
quanto quest’ultima è continua, illimitata e ha una forma a campana.

Però adesso facciamo la stessa cosa lanciando un altro dado. Selezioniamo le 4 righe del dado due.

Ora ho la tabella di frequenza della tabella 2, le frequenze del dado2 sono altri numeri ma siamo sempre
intorno al 16%. Il grafico è simile a quello di prima.

Abbiamo creato un vettore, cioè come se avessi una colonna di numeri in Excel, che complessivamente ha
un milione di righe nel caso del primo dado (1 colonna 1 milione di righe). Adesso ne abbiamo creata
un’altra con un altro dado, che è uguale, lo mettiamo di fianco e ho di nuovo una colonna fatta da un
milione di altre righe. Quindi abbiamo gli elementi in corrispondenza uno con l’altro.

Adesso creo un nuovo vettore che


sarà anche lui lungo 1 milione di
valori, ma dentro avrà come valori la
somma dei primi due. Quindi creiamo una roba che è il risultato di un milione di lanci di coppie di dadi, il
primo sarà il primo lancio del primo con il primo lancio del secondo, sommo i valori e ottengo la somma dei
primi due, poi la somma dei secondi e così via.

Quindi creo la variabile somma dadi (dado1+ dado 2), che avrà anche lui 1 milione di valori dentro perché
sommo come se fossero colonne di Excel. Creo questo vettore, calcolo la tabella di somma dadi, faccio la
tabella di frequenza e succede che i valori non vanno più da 1 a 6, perché la somma dei due dadi è una
variabile che va da 2 a 12.

68
L’altra informazione importante è che non è più vero che i valori da 2 a 12 hanno tutti la stessa frequenza. Il
valore 7 ad esempio è intorno al 16%, ma se guardiamo il valore 2 o il 12 siamo intorno al 2%. Andando dal
2 al 7 cresce, andando dal 7 al 12 decresce (andamento simile ad una gaussiana). Infatti andando a
guardare il grafico avremo:

Ha un picco di concentrazione sul 7 e una concentrazione minima su 2 e 12. Ce l’aspettavamo perché


mentre il 2 capita solo quando esce 1 + 1, quindi ha la probabilità di 1/36 (perché la probabilità che esce 1
su 1 dado è 1/6 e la probabilità che esca 1 sull’altro dado è 1/6 1/6 x 1/6 = 1/36). 1/36 è 2,8% e qui infatti
se dividiamo per un milione ho la probabilità che esca 2 del 2.8%.

Il 7 è più frequente perché nasce dalla combinazione di tutti i numeri, ci sono sei combinazioni che danno 7:
6 combinazioni per 1/36 di ognuna di queste combinazioni 1/36 x 6 = 6/36 ovvero 1/6. Infatti la
probabilità di 7 è del 16%.

Abbiamo sommato due dadi, ma ora sommiamo il lancio di 100 dadi. Per fare questo al posto di scrivere il
codice tante volte, usiamo un “ciclo for next”.

Questo è quello che uso nelle parentesi graffe (e ha le due righe in immagine), l’istruzione for (i in 1:98) ci
dice quante volte far ciclare quel ciclo. Creo un indice i, in indica nell’intervallo da 1 a 98 e questo vuol dire
69
che il primo giro mi vale 1, il secondo 2 e così via. Il 98esimo giro vale 98, dopo 98 il ciclo si ferma. Questa
cosa qui gira per 98 volte.

Queste due righe crea un altro dado detto dadon, che è fatto come gli altri ovvero estrae numeri da 1 a 6,
quindi crea una colonna con un milione di valori. La riga dopo prende la somma dadi di prima e aggiunge a
questa la quantità del dado estratto. Quindi la prima volta che gira nella somma dadi ce ne sono già 2,
aggiunge a questo il terzo, poi al terzo giro aggiunge il quarto e così via, quindi ad ogni giro aggiunge il
nuovo giro. Alla fine quando usciamo dal giro, somma dadi sarà una colonna sola ma che rappresenta la
somma di 100 dadi, ogni riga rappresenta la somma di 100 dadi e questo viene fatto per un milione di volte.

Facciamo andare tutte le istruzioni.

Notiamo il grafico ed è una gaussiana. Abbiamo dimostrato ciò che volevamo.

Ora prendiamo l’equazione di una gaussiana e disegniamola sopra, non in modo empirico ma con la sua
equazione. Dobbiamo disegnare la curva gaussiana sul grafico fatto per vedere se combacia e per farlo
dobbiamo seguire le istruzioni in R.

Per avere la gaussiana devo calcolare la media e la deviazione standard e si tratta della media e della
deviazione standard dei valori usciti ma ognuno con la propria frequenza, quindi è una media ponderata.
Anche il calcolo della deviazione standard deve tener conto che ci sono frequenze diverse e quindi è anche
lei in un certo senso ponderata.

weighted.mean media ponderata

Faccio girare tutto il codice.

70
Notiamo che la media di tutti i valori è quasi 350 e che la deviazione standard è 17.

Il fatto che la media sia 350 è logico, perché se sommiamo 100


dadi il valore minimo che può uscire è 100 (esce 100 volte 1),
dall’altra parte c’è la probabilità che esca 100 volte 6 quindi il
massimo è 600. Sulla tabella di frequenza non notiamo né 100
né 600 perché sono molto poco probabili.

La media tra 100 e 600 è proprio 350, quindi anche la media ponderata è circa 350 perché è una
distribuzione simmetrica.

Se facciamo girare queste ultime due righe, la penultima crea il vettore per poter disegnare la gaussiana,
l’ultima invece ha dentro l’equazione della gaussiana:

Facciamo girare la prima riga e poi la seconda:

Compare esattamente la gaussiana disegnata secondo l’equazione (linea rossa) e notiamo che segue
esattamente il profilo della somma dei dadi.

71
Questo ci dice che sommando 100 variabili distribuite secondo la distribuzione di frequenza del lancio di un
dado, che è una distribuzione discreta, limitata e completamente diversa da una gaussiana, nonostante
questo la somma di 100 variabili distribuite in modo non normale ha come risultato una normale o molto
simile a una normale.

Tutto ciò è esattamente ciò che abbiamo detto prima quando abbiamo enunciato il teorema del limite
centrale: la somma di due variabili non normali è asintoticamente normale.

La media di un generale lancio di un dado è 3.5 (21/6), infatti lanciando 100 dadi questo 3.5 diventa 350.
Quindi è anche vero che la media è uguale alla somma delle singole medie.

DISTRIBUZIONE NORMALE O GAUSSIANA

72
La prima informazione è che questa è la
forma, le code vanno a più e meno
infinito e l’equazione della curva è quella
di sotto.

Questa equazione è y=f(X). I parametri


sono quei numeri che ne regolano la
forma. In questo caso sono 2, ovvero la
media e la deviazione standard .

 si conosce il valore, e è la base dei


numeri naturali ed è circa 2.78. Quindi gli
unici parametri sono media e deviazione
standard (che al quadrato è la varianza).

La curva ha questa forma a campana, è


convessa al centro e concava sui due lati, vuol dire che ci sono dei flessi (ogni volta che c’è un cambio di
curvatura indica che c’è un flesso). Il punto di flesso sta a  ± :più indica il valore a destra e meno quello a
sinistra e questi rappresentano i due punti di flesso.

Se la deviazione standard è più grande, la posizione dei flessi si allarga e quindi i punti di flesso si
allontanano curva più larga (e viceversa).

La probabilità di tutti i valori che compongono una distribuzione danno come somma di probabilità 100 % o
1. Questo vuol dire che la gaussiana ha un campo di esistenza tra + infinito e – infinito, quindi esiste su
tutto l’intervallo da meno a più infinito, l’integrale della gaussiana è 1. Quindi se stringo la curva, ovvero se
riduco la dispersione della gaussiana, l’area da qualche parte cambia e quindi aumenta la concentrazione
della media. L’integrale deve essere sempre 1.

Ovviamente il picco di densità di probabilità è in corrispondenza della media e la funzione è simmetrica.

ESERCIZIO SULLA GAUSSIANA

Disegniamo la gaussiana usando Excel. Apro un nuovo foglio e copio solo la formula. Abbiamo detto che i
parametri della gaussiana sono  e . Scriviamo m ed s, per farle diventare lettere greche usiamo il
carattere “symbol”. Scrivo come media 5 e come deviazione standard 0.5.

A questo punto creiamo due colonne x e y. Ora creiamo una tabellina e scriviamo valori crescenti che vanno
da 0 a 10, con passi di 0.1. Partiamo con 0 e nella cella dopo scriviamo una formula che è +cella di prima+
0.1. Copio fino sotto fino ad arrivare a 10.

Ora vogliamo scrivere la funzione y, quindi la formula della gaussiana dentro la cella di y. Questa formula ha
tre pezzi importanti: 1, il denominatore (ovvero la radice) e l’esponente. Per mettere la radice quadrata in

73
Excel si eleva a ½ oppure uso la funzione RADQ. Questa funzione può essere utilizzata solo con la radice
quadrata, quando si ha una radice ennesima si eleva a 1/n. RADQ() e qui inserirò l’argomento.

 è una costante, possiamo inserirlo come 3.14 oppure usiamo la costante in Excel ovvero PI.GRECO(). Qui
non si ha l’argomento perché è una costante.

 è il parametro della funzione e lo peschiamo dalla cella.

e^a si chiama EXP(). Nell’argomento abbiamo un meno. Quando Excel ha un meno fuori dalla parentesi
espone anche il meno al quadrato, quindi scriviamo EXP(– ()) così da tenere il meno fuori dal quadrato.

Struttura generale della formula della gaussiana.

Dentro RADQ scriviamo 2*PI.GRECO()*sigma. Su sigma premiamo f4 in modo da mettere il dollaro e quindi
creare un riferimento assoluto e lo elevo al quadrato.

Adesso completiamo l’esponente (anche qui con i riferimenti assoluti).

Ora copiamo e doppio clic nell’angolo, in modo da completare tutte le celle.

Selezioniamo le due colonne e facciamo il grafico. Usiamo come grafico quello a dispersione con linee
smussate:

74
stiamo facendo un grafico a dispersione con
rappresentazione a linee, non un grafico a linee.
Non sono la stessa cosa perché il grafico a linee
non legge l’asse x come se fosse una variabile, la
legge come se fosse una categoria.

Ora dobbiamo bloccare gli assi altrimenti ci


aggiorna gli assi e non capiamo cosa si sta
spostando (quando andiamo a cambiare i
parametri per vedere cosa fa la gaussiana). Per
spostare la scala degli assi andiamo sull’asse y,
doppio clic e mettiamo minimo 0 e massimo 1,
sulle x da 0 a 10.

Adesso andiamo a giocare con i parametri della


gaussiana, andando a cambiare i valori della
media e della deviazione standard e vediamo
l’effetto che fa sulla gaussiana.

Quindi se cambiamo il valore medio il picco di densità di probabilità si sposta verso destra e sinistra. Se
metto 7 anziché 5 ho:

Se metto 2 anziché 5 si sposta dall’altro lato.

Questo ci spiega il perché definiamo la media


come misura di posizione perché ci dice dove
è la posizione del picco di probabilità.

Adesso rimetto 5 alla media e vedo che succede se cambio la deviazione standard. Se anziché 0.5 metto
come deviazione standard 2 ho:

75
L’integrale deve essere sempre 1 e
quindi la curva si appiattisce (si abbassa
sulle code). Se mettiamo 1 la curva sarà
meno piatta.

Questo ci dice come si comporta la


gaussiana al variare di questi parametri
e ci spiega anche la funzione di questi
parametri, ovvero che la media ci dice
dove si sposta il picco di concentrazione
di probabilità, la deviazione standard ci
dice quanto è larga o stretta (e quindi alta o bassa).

Excel ha già in sé la formula della gaussiana. La formula è +DISTRIB.NORM.N(). Tutte le formule di


distribuzione di probabilità iniziano con DISTRIB (infatti sul menu c’è tutta una serie di distribuzioni). A noi
interessa la distribuzione normale (quindi +DITRIB.NORM.N):

Dobbiamo inserire 4 parametri: x, media, deviazione


standard e cumulativo.

Mettiamo la x (cliccando sulla cella a sinistra), poi


inseriamo la media e la deviazione standard, sempre cliccando sulle celle e in questo caso ad entrambi i
valori dobbiamo inserire il riferimento assoluto (quindi li blocchiamo con il $).

Il valore cumulativo è un valore logico, ovvero che ci si aspetta 0.1 vero o falso. Vero o falso è la risposta
alla domanda se è cumulativo o no. Questo vuol dire che per come è stata progettata questa formula, la
formula ci dà o la densità di probabilità se vogliamo disegnare il grafico o l’integrale della gaussiana cioè la
probabilità, a seconda se rispondiamo vero o falso a questa domanda:

• VERO vuol dire che vogliamo cumulare e quindi vogliamo fare l’integrale,
• FALSOvuol dire che vogliamo la densità di probabilità.

In questo momento dato che vogliamo disegnare il grafico, quindi vogliamo la densità, mettiamo falso.
Clicco invio ed esce lo stesso risultato di prima (doppio clic e copiamo tutta la colonna).

CALCOLO DI PROBABILITA’ DALLA GAUSSIANA


76
Sulla funzione di densità di probabilità (come la gaussiana), a noi non interessa tanto calcolare la densità di
probabilità ad uno specifico valore, ma calcolare gli integrali su certi intervalli. Vediamo gli integrali sulla
gaussiana che a noi capiterà più spesso di calcolare.

E’ detto
INTERVALLO AD
UNA CODA (in
questo caso si ha
una coda a destra
ma può essere
anche a sinistra). È l’intervallo su una sola coda (o a destra o a sinistra), quindi fissato un valore limite
l’integrale che ci interessa è da quel valore limite fino a più infinito se siamo a destra o da meno infinito fino
a quel valore limite se siamo a sinistra.

La seconda ipotesi
è detta
INTERVALLO A
DUE CODE. È
l’insieme delle due
probabilità,
ovvero quella sulla coda di destra più quella sulla coda di sinistra tra loro sommate. Vengono sommate
perché sono due probabilità mutamente esclusive ma che può stare o a destra o a sinistra e quindi
l’operazione che dobbiamo fare per unire queste due aree rosse è la somma. La distanza dei limiti rispetto
alla media è simmetrica: questo è quello che ci capiterà nella distribuzione a due code.

L’ultimo caso è
detto
INTERVALLO
INCLUSO. È
praticamente
uguale al caso
precedente, solo che al posto di essere interessati all’area sulle code, siamo interessati all’intervallo incluso
su due limiti. Anche in questo caso i limiti che definiscono l’area di interesse sono limiti simmetrici rispetto
alla media.

La gaussiana è una curva simmetrica, ovvero che per esempio nel secondo caso le due aree hanno la stessa
superfice, o meglio le due superfici hanno la stessa area.

Vediamo che senso hanno. Noi se sappiamo che una popolazione è fatta in un certo modo (ad esempio
come nei 3 grafici visti prima) ed estraiamo un individuo da quella popolazione, quel valore che estraiamo
quanto varrà? Non lo sappiamo ma forse sarà 7.5, ovvero probabilmente estraiamo un valore che è la
media o vicino alla media. Normalmente non è vero, però verso 7.5 abbiamo più possibilità di trovarlo, è
più probabile. Più mi allontano dalla media e più la probabilità di trovare quei valori si riduce (perché meno
probabili). I valori possono uscire tutti ma non con la stessa frequenza.

La statistica si basa su un’assunzione ovvero che le cose probabili capitano, le cose poco probabili è poco
probabile che capitino. La statistica parte da un presupposto e ha fissato un limite quasi sempre utilizzato: il
95% incluso nella popolazione, guardando l’ultimo grafico, corrisponde al 5 % sulle code del secondo
77
grafico. Cioè se l’area centrale del terzo grafico è 95%, le aree sulle code del secondo grafico sono in totale
il 5% che resta. Ognuna delle due aree del secondo grafico vale 2.5%. Lo possiamo dire perché la curva è
simmetrica, inoltre sono uguali quindi 2.5.

Il ragionamento da fare in statistica quindi è che tutto quello che c’è al centro del terzo grafico è qualcosa
che probabilmente capita, quello che sta fuori (quindi le aree rosse del secondo grafico) è qualcosa che
probabilmente non capita.

Si considera 5% perché ad un certo punto si è fissato questo limite, si possono fare scelte diverse, ma se si
fanno scelte diverse bisogna spiegare. Può capitare di fare scelte diverse allargando ad esempio l’area, cioè
da 95 a 99 o a 99,9. Se si stringe l’area, da 95 a 90 non c’è bisogno di giustificare.

Parto dal presupposto di avere una distribuzione e se quello che testiamo casca nel 95% della popolazione
stiamo nella norma (quindi il campione appartiene alla popolazione), se lo prendiamo da fuori il 95% non fa
parte della popolazione. Tutto ciò perché se ci chiediamo se un individuo appartiene o no alla popolazione
significa che ipotizzo che c’è un'altra popolazione che non so come è fatta.

La domanda è se appartiene a questa popolazione o ad un’altra, quindi il ragionamento finisce solo per
pormi una domanda. Se pesco il campione in una popolazione, questo può uscire nell’altra ma con una
probabilità bassa, quindi concludo che forse non è uscito dalla popolazione considerata ma da un'altra
popolazione che non conosco ed è più probabile che appartenga a questa popolazione.

Questo è il ragionamento che si fa su tutta la statistica, quindi un aspetto importante è capire dove sono i
due punti perché rappresentano i limiti che ci dicono se stiamo dentro o fuori.

Nei test a due code la domanda che ci poniamo è se questo individuo sta dentro o fuori alla popolazione. Se
sta fuori non ci interessa da che parte, diciamo solo che sta fuori e lo definiamo diverso. Quindi l’aggettivo
nel test a due code è uguale o diverso. Diverso vuol dire che dista dalla media più di una certa quantità, ma
non ci interessa se è diverso perché sta a destra o perché sta a sinistra.

Quando invece facciamo un test a una coda non possiamo usare l’aggettivo diverso. L’individuo può essere
uguale e questo indica che sta dentro, ma se è fuori dobbiamo dire da che parte sta fuori, quindi usiamo
maggiore se consideriamo la coda a destra o minore se consideriamo la coda è sinistra.

Ad esempio come reagente di una certa reazione dobbiamo comprare un sale, come il KCl, utilizzato per
estrarre nitrati dal suolo. A seguito della reazione si misura l’ammonio (tramite reazione colorimetrica).
Cosa succede se il cloruro di potassio è sporco di ammonio? L’estraente che uso va ad alterare i risultati
analitici. Quindi si comprano reagenti chimici che sono meno sporchi. Se mi sono sempre fornito da un
distributore e ad un certo punto non me lo da più, comincio a comprare da un altro distributore e la prima
analisi che devo fare per garantirmi è essere sicuro che la concentrazione di residui di ammonio della nuova
sostanza non è superiore alla precedente. Se fosse superiore avrei analisi sballate. In realtà anche se fosse
minore potrei avere dei risultati sballati. Quindi voglio che non sia diverso e faccio un test a due code.

Quando si fa un test a due code o ad una? Dipende dalla domanda che ci poniamo, ovvero se su due lati o
su un lato solo.

Dobbiamo imparare a calcolare gli integrali sulla gaussiana, quindi probabilità, oppure dato l’integrale sulla
gaussiana dobbiamo trasformarlo nel valore limite.

78
Questa ci da gli integrali definiti su
intervalli simmetrici rispetto alla
media di valori interi progressivi di
sigma.

L’intervallo più stretto è quello di +


e – 1 volta  (quindi da  ae
questo intervallo ha dentro il 68.27%
di probabilità.

L’intervallo di + e – 2 volte  (quindi


da  a contiene il 95.45%
di probabilità.

L’intervallo di + e – 3 volte  (quindi


da  a contiene il 99.73%
di probabilità (cioè lascia fuori lo 0.27%).

Come abbiamo già detto un intervallo che a noi interessa è quello del 95%, questo perché c’è l’ha detto
Fisher, vuol dire che probabilisticamente una volta su 20 pesco fuori. L’intervallo di + e – 2 volte ha un
integrale che è 95.45, cioè rispetto al 95% c’è una piccola differenza. Quindi l’intervallo che ha il 95% dentro
non è + e – 2 volte , ma è + e – 1.96 volte  1.96 è quel valore che se sostituito a  e
aquindi se consideriamo l’intervallo da  a non ho 95.45%, ma 95%.

Riprendo il file di Excel di prima e considero questa equazione. Mi chiedo quale è la probabilità su una coda
che sta sotto 4? Quindi mi chiedo l’integrale a sinistra di questa coda che è su 4:

Uso la funzione di prima e quindi +DISTRIB.NORM.N, il valore x è 4, per la media e la deviazione standard
clicco sulle celle e a cumulativo clicco vero, perché voglio l’integrale tra meno infinito e x.

Il valore che ottengo, espresso in percentuale è 2.28%.

A Excel basta dare solo un limite dell’integrale perché l’altro è fissato nella formula ed è sempre meno
infinito, quindi in questo caso uso come valore limite 4 e ottengo l’integrale da meno infinito a 4. Quando
79
calcoliamo un integrale dobbiamo sempre dare due estremi, a Excel ne diamo solo uno perché l’altro è fisso
ed è meno infinito.

Questo è quello che succede quando


considero come cumulativo VERO (curva
rossa) o FALSO (curva blu).

La curva rossa quindi è l’integrale ed è


quello che si ottiene quando considero
come cumulativo vero. Mi fa vedere
progressivamente man mano che
aumenta x, l’integrale della gaussiana e
passato un determinato punto (dove non
c’è più niente) praticamente la curva è
asintotica verso 1. Questa si chiama CDF
(cumulativ distribution function).

A noi però non ci interessa fare il grafico di questa funzione, ma calcolarci solo l’integrale.

Tornando al grafico di prima, l’integrale da meno infinito fino a 4 è 0.02275. Facciamo finta che la coda sia a
6:

quindi sono interessato a ciò che sta destra e non sinistra.

L’integrale di questo sarà simmetrico, però dato che Excel


mi dà l’integrale che va da meno infinito a 6, per calcolare
l’integrale da 6 a più infinito faccio la sottrazione: 1 (che è
l’integrale della gaussiana) meno DISTRIB.NORM.N
(6;media;dev_standard;vero).

ottengo
lo stesso valore, ovvero 0.02275.

Come facciamo a calcolare un integrale incluso? Consideriamo l’intervallo tra 4.5 e 5.5 e calcoliamo
l’integrale

Quindi faccio l’integrale a 5.5 e poi tolgo l’integrale a


4.5.

Se volessimo il limite che contiene dall’altra parte il


97.5%, come facciamo? Consideriamo il 97.5 perché
abbiamo detto il 95 in mezzo, restano 2.5 a destra e 2.5 a sinistra. Quindi 95+2.5 (di sinistra) è 97.5. Voglio
sapere sull’asse delle x quale è il punto che ha prima di sé 97.5 e dopo 2.5. La formula da usare non sarà più

80
DISTRIB.NORM.N ma sarà l’inversa. Distrib ci dà la probabilità, la funzione inversa restituisce il limite (data
la probabilità).

La funzione è +INV.NORM.N:

La probabilità la scrivo in decimali, quindi in questo caso 0.975 e poi completo cliccando sulle celle della
media e della deviazione standard. Ottengo come valore 5.98. Abbiamo ottenuto il limite fino al quale
l’integrale arriva a 97.5. Questo valore ottenuto non è altro che la media + 1.96 volte la deviazione
standard: media(5)+1.96*dev.standard(0.5)=5.98.

Quando si misura la gaussiana in unità di deviazioni standard dalla media è sempre uguale a se stessa. Nel
grafico di prima (“integrali di probabilità sulla normale”) non sono riportati dei numeri, ma è riportato un
andamento simmetrico rispetto alla media e la quantità che aggiungiamo o togliamo non è espressa come
numeri ma è espressa in unità di deviazione standard. Nella misura in cui ci riferiamo alla gaussiana per
unità di deviazioni standard simmetrici rispetto alla media le gaussiane sono sempre uguali.

Se non parliamo di numeri ma di unità di misura espresse in deviazione standard, gli intervalli rispetto alla
media hanno sempre la stessa quantità di probabilità all’interno.

NORMALE STANDARDIZZATA Z
La normale standardizzata Z ha la
caratteristica di avere particolari
parametri:  =0 e  =1.

Qualsiasi valore su una qualsiasi


gaussiana può essere ricondotto a
questa gaussiana calcolando il valore Z,
dove Z è un punto sulla normale
standardizzata ed è dato da x meno
media fratto deviazione standard (vedi
formula).

Il fatto di sottrarre la media da X vuol


dire che trasliamo la curva in modo che sia simmetrica e che abbia la media 0 e il fatto di dividere questi
scarti dalla media per la deviazione standard è detto SCALATURA. Questa operazione ci permette di avere
la gaussiana standardizzata.

Questa standardizzazione esiste per studiare la relazione tra due variabili che non hanno la stessa unità di
misura. Se vogliamo calcolare la relazione, ad esempio, tra il contenuto di antociani tot nel vino e lo
spessore della buccia, che vengono espressi con diverse unità di misura, uso la standardizzazione: quando
facciamo il rapporto si semplifica l’unità di misura e Z diventa un numero adimensionale e può essere
relazionato con qualsiasi altra cosa.

81
DISTRIBUZIONE DELLE MEDIE CAMPIONARIE
Questa è un’altra gaussiana
ed è quella delle medie
campionarie.

Perché per caratterizzare


qualcosa, facciamo più
campioni? Per minimizzare
l’errore. L’errore però non è
un errore di misura, ma è la
variabilità di popolazione
(che c’è comunque).

Due acini d’uva dello stesso


vitigno non sono uguali,
perché sono individui diversi
e se misuro un qualsiasi
parametro avrò numeri simili
ma con delle differenze. Quindi è importante non associare la variabilità dei dati solo all’errore (inteso
come variabilità dello strumento), ma anche alla variabilità degli individui. Quindi noi facciamo le repliche
per quantificare la variabilità della popolazione, per ridurre l’errore ovvero lo scarto tra la media che noi
stimiamo e la vera media della popolazione. Più individui estraiamo e più la media del nostro campione si
avvicinerà alla media della popolazione. Quindi più grande è il campione e più stimiamo bene la
popolazione della media.

Questo per la distribuzione delle medie campionarie. Se abbiamo una popolazione gaussiana di individui e
da questa estraiamo tanti campioni, tutti di n individui e studiamo come si distribuiscono le medie
campionarie di quegli individui che abbiamo estratto (cioè estraiamo il primo campione di 5 individui e
calcoliamo la media, poi prendo il secondo campione di 5 individui e calcolo la media e così via) scopriamo
questo:

N ( ; ) Ovvero la popolazione degli individui è una normale N, con una media  e una
deviazione standard  e se sappiamo come è fatta questa popolazione sappiamo che
stiamo campionando 5 campioni per volta e sappiamo anche come è fatta la
distribuzione delle medie campionarie. La quale è ancora una gaussiana, ha una media che è , la
dispersione poiché è una dispersione di medie campionarie non è sigma ma è una quantità inferiore, sigma
fratto radice di n, dove n è la dimensione del campione (quindi se estraggo 5 elementi sarà /√5). La curva
è più stretta e ci permette di stimare meglio la media. La media delle medie, se le medie pesano tutte nello
stesso modo, è uguale alla media degli individui.

82
Se ho una popolazione di individui come la
blu e pesco dei campioni di 5 elementi, le
medie campionarie non hanno più la
dispersione della curva blu, ma sarà più
bassa (come nella rosa).

Lavoriamo con i campioni perché


stimiamo meglio la popolazione.

La quantità scritta come sigma fratto


radice di n si chiama errore standard ed è
la deviazione standard della distribuzione
delle medie campionarie ma si chiama
errore standard.

In inglese quella quantità prende il nome di SEM (standard error of the mean, errore standard della media).
Esiste un altro errore che è il SED (standard error difference, errore standard della differenza). Questi due
errori si assomigliano ma non sono uguali, hanno formule diverse. L’errore standard visto in questo caso,
che è la dispersione della media campionaria, è detto SEM.

n è la dimensione campionaria e la larghezza della gaussiana si stringe perché stiamo usando un certo
valore di campioni n, n potrebbe essere 2,3 a volte 5. Per ipotesi n potrebbe essere il valor più piccolo
possibile che è 1 e se fosse 1 vuol dire che non stiamo facendo campioni, ma che il campione è l’individuo
della popolazione. Succede che se faccio sigma su radice di n e sto pescando campioni grossi quanto un
individuo, la radice di 1 è 1 e quindi mi trovo a lavorare di nuovo con una gaussiana di individui.

Il campione più grande che mi posso immaginare è la totalità degli individui e poiché la popolazione intera è
grande quanto infinito, vuol dire che ogni campione stima la vera media e quindi la media ottenuta da tutti
i campioni è sempre uguale perché è l’unico valore di vera media. A questo punto la dispersione sarebbe
zero, infatti facendo sigma fratto radice di infinito ho 0 e quindi non ci sarebbe più dispersione.

83
28/03/2018

Ricapitolando la distribuzione delle medie campionarie, se estraggo infiniti campioni da questa popolazione
abbiamo sempre una gaussiana ma differisce dall’altra per una dispersione che è l’errore standard.

 Abbiamo la gaussiana con i parametri  e , se non guardiamo la dispersione degli


N (; ) individui ma delle medie dei campioni che possiamo estrarre dalla popolazione la
n dispersione sarà una normale N,  indica che ha la stessa media della popolazione degli
individui, /√n è il nuovo parametro di dispersione ovvero l’errore standard. Le medie campionarie sono
meno disperse degli individui ed è il motivo per il quale lavoriamo sulla media e non sui singoli individui
visto che è più attendibile. L’errore standard è detto anche SEM.

Se vediamo questo confronto fra le due


popolazioni notiamo che la curva blu è la
distribuzione degli individui per una certa
proprietà riportata sull’asse delle x, la curva
viola è la distribuzione delle medie
campionarie di campioni che hanno 5
elementi al suo interno ed è più stretta e
meno dispersa. Questo vuol dire che la media
di quei 5 individui casca più facilmente sul
valore medio di quanto non facciano i singoli
individui. Lavoriamo con i campioni perché
estrarre una media dai campioni ci permette
di stimare meglio la popolazione.

DISTRIBUZIONE T di STUDENT
Quando non conosciamo il
parametro della popolazione ,
allora le nostre stime sono meno
precise rispetto a quelle che
facciamo quando lo conosciamo.
Possiamo però usare la stima
campionaria di sigma che si
chiama s.

Lavoreremo con una quantità chiamata T, questa è una standardizzazione:

x medio è la media campionaria,


 è la media della popolazione,
la dispersione non è più /√𝑛
ma è s/√𝑛 dove s è la stima
campionaria della deviazione standard della popolazione ovvero s è la deviazione standard del campione. Il
campione lo conosciamo, quindi s la possiamo sempre calcolare, però lo svantaggio è che s è una stima di 
e quindi usare s al posto di  vuol dire introdurre un nuovo parametro di incertezza.
84
Il fatto che s introduce incertezza rispetto a  lo notiamo sul fatto che dobbiamo usare la distribuzione t di
student invece che la normale. Se noi non conosciamo  e quindi usiamo s dobbiamo calcolare le
probabilità non sulla normale ma sulla distribuzione t di student.

Queste sono tutte distribuzioni


t di student tranne la più alta
che è una gaussiana.

Questo grafico che confronta


diverse distribuzioni t di student
contro una normale, ci dice che
t di student ha meno
concentrazione di probabilità
sulla media e ne ha più sulle
code, quindi è più dispersa. Se è
più dispersa è anche meno
precisa. È ovvio che sia meno
precisa perché stiamo
lavorando con un parametro  che non conosciamo e che lo sostituiamo con una stima s. Questo s
introduce incertezza perché è una stima e non il parametro vero.

L’integrale da + a – infinito è 1. Il
t di student ha un ulteriore
parametro rispetto alla gaussiana
ovvero i gradi di libertà, questi
normalmente nella stima di un
campione sono n-1, dove n è la
dimensione campionaria.

Il t di student è meno preciso della gaussiana e ha meno densità di probabilità sulla media e più sulle code,
ma all’aumentare dei gradi di libertà il t di student tende ad essere uguale alla gaussiana.

Quindi dal punto di vista del calcolo dell’integrale come facciamo a decidere se calcolare l’integrale sulla
gaussiana o sul t di student? Semplicemente vedendo quale deviazione standard è stata utilizzata: se è
stata utilizzata la vera deviazione standard  utilizziamo la gaussiana, se invece non abbiamo questo
parametro e quindi utilizziamo s (la stima) allora utilizziamo il t di student.

DISTRIBUZIONE LOGNORMALE
La distribuzione lognormale, o log-normale, è la distribuzione di probabilità di una variabile aleatoria X il cui
logaritmo log X segue una distribuzione normale. Questa distribuzione può approssimare il prodotto di
molte variabili aleatorie positive indipendenti.

Nelle trasformazioni logaritmiche è importante la base scelta? Il cambio di base di un logaritmo dalla base c
alla base a implica la moltiplicazione per un coefficiente fisso uguale a: 1/logc a

Tale per cui loga b = logc b * 1/logc a

85
Ne deriva che si tratta di una trasformazione costante che quindi non implica variazioni di risultato per la
maggior parte dei test di statistica parametrica.

DISTRIBUZIONE F DI FISHER
Questa distribuzione è un po’ diversa
dalle altre, sia per la forma sia per il
fatto che differisce per l’asse delle x
rispetto alle 3 distribuzioni viste
(normale, normale delle medie
campionarie e il t di student). Infatti
sull’asse delle x delle altre 3
distribuzioni si ha una variabile
misurata o nella forma originaria
(come valore effettivo) o nella forma
standardizzata (Z), ma comunque è la
variabile misurata.

Nella distribuzione F di Fischer sull’asse delle x c’è un'altra quantità ovvero il rapporto di due varianze
calcolate su due campioni estratti entrambi da una popolazione normale.

La distribuzione F è la distribuzione che utilizzeremo di più nel corso e nei test della statistica parametrica.
Ce ne sono diverse e questo dipende sostanzialmente dal fatto che nella distribuzione F non è detto che i
due campioni di cui calcolo la varianza abbiano gli stessi gradi di libertà, possono anche avere gradi di
libertà diversi, e quindi a seconda dei GL del numeratore e del denominatore mi trovo ad avere curve
diverse:

Di tutte queste consideriamo


quella viola. Se da una
popolazione che ha i suoi
parametri estraiamo due
campioni, ci aspettiamo che le
varianze di questi due
campioni ci diano un rapporto
simile ad 1, vicino ad 1. Infatti
le varianze campionarie sono
due stime che vengono dalla
stessa popolazione e siccome
stimano lo stesso valore di
varianza si assomiglieranno e
quindi il loro rapporto sarà
simile ad 1.

Se il picco è vicino a 1 cosa fa differenza nel trovare il rapporto da 1 verso destra e da 1 verso sinistra? Se so
che sono simili, il rapporto sarà vicino a 1 e perché potrebbe essere a destra o a sinistra di 1? Dipende da
chi metto al numeratore e al denominatore. Quindi ogni coppia può originare un valore a destra o a sinistra
di 1.

86
Il rapporto tende a infinito, cioè la distribuzione ipotizza che la varianza di un campione possa essere
infinite volte più grande dell’altra. È ovvio che questo sia molto poco probabile, è impossibile che una
varianza sia infinite volte più grande dell’altra. Quindi metto una varianza sopra che è infinite volte più
grande di quella del denominatore. Se questo rapporto lo inverto e quindi metto la varianza infinite volte
più grande al denominatore, il rapporto tenderà a zero e non a meno infinito. In questo intervallo che va tra
il picco che è 1 e più infinito c’è la stessa variabilità che c’è tra l’intervallo che va da 1 a 0. Infatti se
rappresentiamo il log in base 10 di questo rapporto va da meno a più infinito, ma il log che è un valore
molto piccolo.

Perché a noi serve questa distribuzione? Innanzitutto questa distribuzione F la usiamo sempre sulla coda di
destra e mai su quella di sinistra, cioè a noi le probabilità interessano solo quelle che vanno dal picco verso
destra. Per interessarci a questo diciamo che la varianza che ci aspettiamo sia più grande la mettiamo al
numeratore. Quindi cercheremo di avere dei rapporti che vanno da 1 a + infinito e non da 1 a zero, perché
è più facile leggere i valori.

Quindi usiamo la distribuzione F perché ci dirà se possiamo considerare due varianze calcolate su due
campioni possono essere considerate uguali, ovvero se possiamo considerare che i campioni vengono dalla
stessa popolazione. Ho due campioni e non so se, in termini di varianze, questi due campioni sono stati
estratti dalla stessa popolazione o no, per saperlo faccio il rapporto delle varianze e se queste varianze sono
molto diverse posso ritenere che non siano state pescate dalla stessa popolazione, probabilmente vengono
da due popolazioni differenti.

Quando pesco i campioni dalla gaussiana, non importa dove sono ma quello che ci chiediamo è che se io ho
un campione con una varianza di 5 e uno con una varianza di 15, faccio il rapporto delle varianze mettendo
al numeratore la più grande, il rapporto è 3, F=3 e la probabilità che pescando i campioni dalla stessa
popolazione ci sia uno che ha una varianza 3 volte più grande dell’altra è abbastanza probabile. Invece se
ho F=6 è poco probabile che un campione abbia una varianza 6 volte più grande dell’altra e quindi forse
non vengono dalla stessa popolazione. Il fatto che pescando i campioni dalla stessa gaussiana, abbiano un
rapporto molto distante da 1 è poco probabile, non impossibile. Quando disegniamo la gaussiana siamo
sicuri che i due campioni vengono dalla stessa popolazione. Ma quando mi pongo una domanda su un
esperimento, non so se i campioni vengono o no dalla stessa gaussiana e quindi farò un’ipotesi con il test
delle ipotesi.

Abbiamo visto la definizione e la rappresentazione grafica di F, l’integrale tra 0 e più infinito (non andiamo
da meno a + infinito) è 1, come per tutte le distribuzioni di frequenza di probabilità.

ESERCIZIO (simulazione) SU EXCEL

Apro un foglio Excel, vado ad Analisi dati. Clicco su generazione di


un numero casuale, clicco ok e faccio generare due volte 5
variabili di 10000 numeri e li estraggo da una gaussiana normale
con media 20 e deviazione standard 2 e decido dove mettere
l’intervallo di output.

Ottengo così una serie di valori casuali e consideriamo che


ognuno di questi valori sia un campione estratto da una
popolazione con  20 e  2 (campione 1 con 5 elementi,
campione 2 con 5 elementi ecc).
87
Ne facciamo un altro uguale a questo, con lo stesso sistema di generazione, scegliendo un nuovo intervallo
di output e ovviamente i numeri non sono gli stessi.

Adesso scriviamo var 1, var 2 e F. Var 1 è la prima varianza del primo campione, quindi scrivo +VAR.C e mi
calcolo la varianza dei primi 5 valori. Stessa cosa per var 2:

Ora calcoliamo F: +var1/var2 (quindi ho il rapporto dei due valori). Adesso calcoliamo questi tre valori per
tutti i 10.000 numeri. Dato che il doppio clic non funziona in questo caso, seleziono le 3 colonne di var1,
var2 e F e le copio. Vado dove ci sono i numeri e faccio control+ freccia in basso, seleziono la colonna N alla
cella 10001 e faccio control+shift+freccia in alto e do invio. Ho così calcolato tutti i valori.

Adesso inserisco un
grafico, seleziono tutti i
valori F vado su inserisci,
tutti i grafici e clicco su
istogramma. Notiamo che
il grafico ci da le classi di
frequenza e si ha il picco di
frequenza nei valori bassi
e man mano che si
aumenta la probabilità
scende sempre di più.
Faccio doppio clic sulle x e
limito i numeri di bin da
200 a 50. Notiamo che ho
sostanzialmente la forma della distribuzione F. Abbiamo un picco di frequenza verso valori bassi e man
mano che ci allontaniamo diminuisce la probabilità.

Se uso la funzione +MAX e seleziono la colonna di F, mi dà il valore massimo di rapporto che è circa 175. C’è
un caso in cui la varianza del primo campione è 175 volte più grande della varianza del secondo campione.
Il picco in ogni caso è molto più vicino a 0.

Quindi con questo esercizio abbiamo visto che il test F ha il rapporto delle varianze sull’asse x, che le
varianze vicino a 1 sono più frequenti, che esistono valori anche molto alti (175), ma questi sono molto rari.

88
TEST DELLE IPOTESI

Alla base di tutto c’è una domanda scientifica e poi dobbiamo rispondere a questa domanda. Quindi tutta
l’attività che porta alla conoscenza scientifica è basata su questo processo, mi pongo una domanda e
rispondo in base alle evidenze che sono misure fatte su dei soggetti. La domanda è:

“Un ricercatore è interessato alla concentrazione di antocianine nelle uve di Cabernet-Sauvignon. Su un


campione di 50 acini a circa 40 giorni dall’invaiatura trova una concentrazione di antocianine totali di 905
mg/kg di uva. In letteratura sono riportati i risultati di un'indagine, precedentemente condotta su uve
appartenenti al medesimo vitigno, che dà media 883 mg/kg e deviazione standard 55,6 mg/kg. Ci si chiede
se è ragionevole pensare che il campione provenga da una popolazione con media pari a 883 mg/kg o se
proviene da una diversa popolazione”.

Non ci interessa tanto sapere da che popolazione provengono gli acini del Cabernet, ma popolazione
diversa significa sapere se quei 50 acini che ho campionato sono provenienti da qualcosa che ha favorito o
no l’incremento.

Questo è un esempio di un problema, il ricercatore si è posto una domanda e a questo punto prende dei
numeri per rispondere. Una cosa molto importante è che non si decide come analizzare i dati dal punto di
vista statistico dopo aver preso il campione, il processo è al contrario: abbiamo una domanda scientifica,
organizziamo l’esperimento per rispondere a questa domanda e dopo avremo una risposta. Non funziona
che prendiamo i dati e poi decidiamo che domanda scientifica porci.

Il meccanismo che sta dietro per


rispondere alla domanda è perverso, non
si sa il perché funzioni così.
Sostanzialmente noi abbiamo una
domanda, formuliamo un’ipotesi e
prendiamo dei dati per vedere se quei dati
confermano questa ipotesi o dimostrano
che questa ipotesi non è vera e accettiamo
un’altra ipotesi, detta IPOTESI
ALTERNATIVA. L’ipotesi che formuliamo si
chiama ipotesi nulla: se accettiamo
l’ipotesi nulla vuol dire che è vera, se
rifiutiamo l’ipotesi nulla vuol dire che
accettiamo altre ipotesi dette ipotesi
alternative.

Normalmente l’esperimento lo facciamo per dimostrare che l’ipotesi è falsa. Nella maggior parte dei casi, il
nostro obiettivo sperimentale è dimostrare con i dati che l’ipotesi nulla è falsa, non vera.

Noi facciamo un esperimento per creare un’innovazione, ovvero vuol dire fare qualcosa che è diverso
rispetto a quello fatto fino adesso.

Supponiamo di avere un lievito che deve produrre esteri e il nostro obiettivo è dimostrare che il contenuto
di esteri ottenuto nel nuovo fermentato è maggiore rispetto allo standard. Quindi vogliamo dimostrare che
questo dato è fuori dalla popolazione e se questo rappresenta un’innovazione come facciamo a dire quanto
89
sarà maggiore? Non sappiamo prima di fare l’esperimento quale sarà il risultato, quello che sappiamo è
come era fatta la distribuzione del contenuto di esteri in quel vitigno in quel che si è fatto fino adesso.
Conosciamo come è fatta la popolazione sullo standard non sull’innovazione. L’ipotesi nulla che facciamo è
che se usiamo un nuovo ceppo di lieviti avremo un risultato uguale a ciò che abbiamo fatto fino adesso. Noi
però vogliamo sostenere il contrario, quindi facciamo questa ipotesi per una popolazione che ha dei
parametri (media, deviazione standard e errore standard), ma l’obiettivo non sarà quello di accettare
l’ipotesi nulla ma sarà quello di avere elementi sufficienti per dire che posso rifiutare questa ipotesi, cioè
questo ceppo di lieviti mi porta veramente ad avere una concentrazione maggiore di esteri.

Non si può fare questa ipotesi all’inizio perché non sappiamo all’inizio come si comporta, ovvero non
sappiamo che l’incremento era del 10-15 % per esempio. Quindi all’inizio testiamo contro la popolazione
che conosciamo nella speranza di dimostrare che c’è un miglioramento (quindi rifiutiamo l’ipotesi nulla e
accettiamo l’ipotesi alternativa). Se vogliamo fare all’inizio l’ipotesi dell’incremento degli esteri, devo dire il
valore medio della popolazione fermentata con il nuovo ceppo di lieviti. Ma se non ho ancora fatto la
sperimentazione, come faccio a sapere la media del risultato che mi aspetto? Non si può. Noi conosciamo
solo il vecchio e vogliamo dimostrare che questa innovazione è un miglioramento.

Quindi sostanzialmente noi formuliamo l’ipotesi nulla, vediamo se i risultati finiscono nell’intervallo dello
spazio parametrico definito. Spazio parametrico vuol dire una funzione parametrizzata, definito perché
non possiamo dire che tutto ciò che sta in una gaussiana è stato pescato da una gaussiana. Questo perché
la gaussiana va da meno a + infinito e qualsiasi numero può essere pescato da una gaussiana, perché
matematicamente hanno un campo di esistenza da meno a + infinito. Noi non prenderemo tutta la
gaussiana ma quella più vicina alla media, in modo che se quello che abbiamo pescato è probabile va bene,
se è spostato sulle code allora forse viene da un'altra parte. Quindi di quella gaussiana dobbiamo definirne
la quantità, che è simmetrica rispetto alla media ed è dove le cose capitano più probabilmente.

Questa differenza fra più probabile e meno probabile è da discutere: Fisher ha detto 95% dentro e 5% fuori.
A volte si usa 99 dentro e 1 fuori, altre volte 99.9 dentro e 0.1 fuori. Questi 3 valori non vanno giustificati
(sono degli standard), ma se usiamo 90 dentro e 10 fuori allora dovremo giustificare.

Qualsiasi affermazione noi facciamo è a rischio


di errore, infatti la statistica è quella scienza
che permette di scegliere e prendere decisioni,
(è quindi uno strumento pratico) ma non è
immune da errori. Semplicemente quando
scegliamo e prendiamo una decisione
sappiamo qual è il rischio di errore associato,
quindi su base statistica non possiamo fare
affermazioni con 100% di certezza.

I concetti per capire questo discorso, sono i


concetti di significatività e potenza di un test.

90
Questa tabella è alla base della statistica inferenziale.

Torniamo all’esempio di prima, dove abbiamo preso i nostri 50 acini, ci aspettiamo una media di 883 ma
troviamo una media di 905 e quindi ci chiediamo se è solo per il caso che è più alta o c’è una ragione per cui
è più alta?

Ho una gaussiana delle medie campionarie, con media di 883 e


dispersione che non è 55.6 ma è 55.6/√50 (consideriamo quindi
l’errore standard perché sto considerando le medie
campionarie, dove n=50). Quando peschiamo campioni di 50
elementi in modo casuale, può succedere che lo pesco vicino
alla media, vicino alle code e quindi lontano dalla media.

La differenza tra pescarlo vicino o lontano dalla media è la


probabilità: la probabilità di pescarlo vicino alla media è alta,
quella di pescarlo lontano dalle medie è bassa. Quindi la grande differenza di pescare vicino o lontano dalla
media è proprio la probabilità di essere estratti.

Se dovessi accettare anche i campioni poco probabili, allora direi che anche un campione pescato sulla coda
con un valore grande appartiene a quella popolazione, ma con una probabilità bassissima, praticamente 0.
Quindi questo campione non viene da un'altra popolazione, ma ha una bassa probabilità di essere pescato.

Queste due linee fucsia dicono quello che probabilmente viene da questa popolazione e quello che
probabilmente non viene. Si tirano queste due righe in modo che dentro ci sia il 95% di probabilità e fuori il
2.5% (per parte sulle code) di probabilità di pescare. Con il test ad una coda avrò fuori il 5% di probabilità e
sarà tutto su una coda. In ogni caso il fatto di tirare due righe non indica che non troveremo mai il
campione all’esterno o che il campione pescato lì non appartiene alla popolazione, ma semplicemente
indica che la probabilità di pescare il campione lì è molto bassa (5% o 2.5%). Se dovessi allargare l’intervallo
tra le righe fucsia e lascio l’1% in totale sulle righe, vuol dire che ho una probabilità di 0.5% per coda di
pescare il campione fuori dall’intervallo. Ho aumentato l’area di accettazione in questo modo e quindi ho
diminuito la capacità di vedere le differenze.

91
Considerando un altro grafico, è
rappresentata la popolazione di prima,
quella della mia ipotesi nulla. Facciamo finta
che esista un’ipotesi alternativa (curva
fucsia) che però non conosco. Quindi noi non
possiamo fare il test sull’ipotesi alternativa,
ovvero la curva fucsia, ma sull’ipotesi nulla
ovvero la curva blu.

Se pesco un campione sulla coda della curva


blu (area blu), questo campione può
appartenere ad entrambe le popolazioni (o
alla curva blu o alla curva fucsia). Il problema è che le popolazioni sono in parte sovrapposte e quindi il fatto
di essere sovrapposte comporta che il campione può appartenere alla popolazione blu con bassa
probabilità o alla popolazione viola con alta probabilità.

Quindi ad un certo punto tiro una linea che rappresenta il mio limite (5, 1 o 0.1%) e poiché il campione è
uscito da questa area dico che non appartiene alla popolazione blu e rifiuto l’ipotesi nulla. Il fatto che il
campione sia sulla coda e quindi sia dentro il 5% di probabilità (e non il 95%) mi porta a rifiutare l’ipotesi
nulla. Se il campione viene dalla popolazione blu sto sbagliando, se il campione viene dalla popolazione
fucsia ho fatto bene a rifiutare l’ipotesi nulla. Il problema è che non so da che popolazione viene, quello che
posso sapere è che se viene dalla popolazione blu sbaglio, ma è un errore che compio al massimo 1 volta
ogni 20 (5%), 1 volta ogni 100 (1%) o 1 volta ogni 1000 (0.1%). Nel grafico è evidente che è più probabile
che venga dalla popolazione fucsia, ma questo dipende da come sono messe le popolazioni.

Stessa cosa vale nel caso in cui pesco il campione nell’area fucsia, mi farò le stesse domande. Questa volta
però è più probabile che il campione faccia parte della popolazione blu e quindi accetto l’ipotesi nulla, ma
anche qui non sono sicuro al 100%. Se appartiene alla popolazione fucsia, sto sbagliando.

Adesso torniamo sulla tabella, che ha due


colonne e due righe: sulle colonne c’è la
realtà, sulle righe c’è il risultato del test.
Le due colonne sono alternative e sono la
verità assoluta, cioè il fatto che l’ipotesi
nulla sia vera o falsa. Questa è la verità
assoluta che non ho modo di conoscere.

Nella pratica sperimentale possiamo


applicare un test e ci dirà se l’ipotesi nulla
sia vera o falsa. Se il test non sbagliasse
mai starei tranquillo perché conoscerei la
verità tramite il risultato del test. Questo è vero ma il test fa degli errori, il punto è quanto è grande l’errore
che può fare il test. Quello da scegliere in un test statistico è decidere quanto vale la probabilità su quelle
due code azzurre (viste nel grafico di prima). Quello da decidere è dove mettere limiti della popolazione, lo
spazio parametrico definito, oltre il quale dico che se esce dall’intervallo del 95% rifiuto l’ipotesi nulla.

Questa scelta di determinare l’area sulle code, quello che rifiuto, prende il nome di significatività. La
significatività è espressa in termini probabilistici, quindi alfa è una probabilità P=, si chiama significatività
92
ed è la probabilità, il rischio, che mi assumo di rifiutare l’ipotesi nulla anche se essa è vera. Infatti lo
capiamo dalla tabella anche: l’ipotesi che il test mi dice che H0 è falsa quando H0 è vera, l’incrocio tra
colonna e riga si chiama SIGNIFICATIVITA’. Questo rischio è il rischio di compiere un errore e questo errore
prende il nome di errore di primo tipo o di prima specie, ovvero l’errore che c’è dietro la scelta di
significatività (ed è l’errore di rifiutare l’ipotesi nulla quando essa è vera).

Il complemento a questa probabilità, nel caso in cui l’ipotesi nulla sia vera prende il nome di protezione. La
protezione è la probabilità di accettazione del test, quindi è l’area di accettazione della gaussiana (il 95%
interno). Ovviamente è una probabilità in cui il test è esatto perché accetto che l’ipotesi sia vera ed è
essendo il complemento della significatività è P=1-.

Questi due casi quindi si hanno quando H0 è vera. Se è falsa e rifiuto perché il test dice che devo rifiutare
(H0 nel test è falso, seconda riga), il test ha indovinato e la probabilità che questa accada si chiama potenza
del test. Quindi la potenza è la probabilità di essere capaci di rifiutare l’ipotesi nulla quando essa è falsa
(P=1-). Questa quantità è il complemento ad un altro errore, definito con beta e che è l’errore di secondo
tipo o di seconda specie, ovvero l’errore che si compie quando si accetta un’ipotesi nulla che in realtà è
falsa.

Se il campione finisce nell’area bianca della


curva fucsia (dal limite del 5% sotto la
curva fucsia) e l’ipotesi nulla è falsa, ho
fatto bene a rifiutare e quell’area è la
potenza del test: sulla curva fucsia, il
complemento all’area fucsia è la zona dove
rifiuto e faccio bene a rifiutarla quindi
questa area è la potenza del test.

L’area bianca sotto la curva blu invece è la


protezione del test, ovvero l’area in cui
accetto l’ipotesi nulla. L’area fucsia è il
rischio di compiere l’errore di secondo tipo, l’area blu è il rischio di compiere l’errore di primo tipo
(significatività).

Nell’area della protezione del test, è compreso un pezzo di area fucsia così come nell’area di potenza del
test ho un pezzo di area blu. Non devo fare differenza tra le due, perché nella realtà l’ipotesi nulla o è vera
o è falsa, non posso avere contemporaneamente area blu e area della potenza perché l’ipotesi nulla o è
vera o falsa. Sono casi esclusivi, uno esclude l’altro.

Nell’area di protezione se l’ipotesi nulla è vera, la curva fucsia non esiste perché è l’ipotesi alternativa,
quindi esiste solo l’area blu che è l’errore di primo tipo. Se l’ipotesi nulla è falsa e quindi è vera l’ipotesi
alternativa, l’area blu non esiste perché fa parte dell’ipotesi nulla, quindi rimane solo la potenza del test e
l’errore di secondo tipo. Quindi non si tratta di aree sovrapposte o che si sommano, perché l’esistenza di
uno esclude l’esistenza dell’altra.

93
STANDARDIZZAZIONE DEI LIVELLI DI SIGNIFICATIVITA’

Quindi alfa può essere 5, 1 e a volte 0.1 %.


In realtà il fatto di fissare i livelli di
significatività a questi valori era un
problema quando si doveva scegliere il
limite critico, noi non lavoriamo più così
perché sappiamo esattamente la
probabilità del nostro test.

È ancora un po’ in uso, soprattutto quando


si devono mettere tanti dati in tabella,
mettere gli asterischi (ma di solito è meglio
non utilizzarli): se ne metti uno si è sotto il 5%, 2 sotto 1%, 3 sotto 0.1%. Questo universalmente
conosciuto, inoltre R usa anche il punto sotto il 10%.

Dire che un effetto è significativo non vuol dire che è importante, nella letteratura tecnica scientifica il
termine significativo quando ha una connotazione statistica vuol dire che ho fatto un test statistico e mi ha
dato un P del test inferiore al 5%, poi si usa molto significativo se è sotto l’1%, e altamente significativo se è
sotto 0.1%.

TEST A 1 O A 2 CODE

I test possono essere fatti a due code o ad


una coda sola. La differenza è dove
concentriamo l’area di rifiuto del test e di
conseguenza dove c’è l’area di
accettazione. La forma di test più utilizzata
è quella a due code (ovviamente parliamo
di una gaussiana, sul test F abbiamo quella
ad 1 coda perché il campo di esistenza va
da 0 a più infinito).

Sulla gaussiana, sul T di student, il test deve


essere scelto se è a una o a due code,
tipicamente è a due code, ma si può anche
scegliere un test a una coda. La differenza che ci porta a scegliere una o l’altra soluzione è dovuta alla
domanda che ci poniamo, quindi dipende dalla domanda scientifica. Quando la domanda è il campione
viene da una popolazione uguale o diversa da quella che sto esaminando (il concetto è ugualeipotesi
nulla, diversa ipotesi alternativa), diverso non spiega se è diverso verso valori alti o diverso verso valori
bassi, ma dice solo che è fuori dalla popolazione. In questo caso è un test a due code. Quando invece la
domanda che mi pongo è viene da una popolazione inferiore oppure viene da una popolazione superiore,
quindi nella domanda è chiaramente specificata da quale parte me l’aspetto la popolazione (parlando
sempre di ipotesi alternativa, in questo caso si fa un test a una coda. L’esempio fatto sul ceppo che mi
permette di aumentare il numero di esteri è un test ad una coda, perché io mi chiedo se lo fa aumentare.

94
Esiste una concorrenza tra errori di primo e
secondo tipo.

Considerando il grafico di prima, se aumento la


posizione del limite e quindi passo da 5% a 1% a
0.1%, sposto avanti la riga blu (quella del limite).
Così facendo allontano il limite dalla media della
popolazione blu, però, nel caso in cui l’ipotesi
alternativa sia vera, riduco la potenza del test e
aumento il rischio dell’errore di secondo tipo.

Quindi cercare di ridurre l’errore di primo tipo, a


parità di popolazioni, vuol dire aumentare quello
di secondo, perché i due sono in concorrenza.

Facendo un esempio, se ho popolazioni troppo sovrapposte la potenza del test bassa. Stiamo parlando non
di popolazioni di individui ma di popolazioni di medie campionarie, quindi la loro dispersione è data
dall’errore standard che dipende dalla dimensione campionaria e dalla deviazione standard. Non posso
agire molto sulla deviazione standard, quindi agisco sulla dimensione campionaria ad esempio se prendo
campioni più grandi, aumento la dimensione campionaria e le curve diventano più alte (quindi più
disperse). Questa situazione sarà diversa da quella iniziale, ma la distanza tra le medie non è cambiata: è
aumentata la dimensione campionaria, a parità di deviazione standard si è ridotto l’errore standard e
quindi pur con significatività del 5% sono riuscito a ridurre l’errore beta e ad ottenere alta la potenza del
test.

TEST “MEDIA DI UNA POPOLAZIONE” CON  e  NOTI


Confronto del test di una media contro una popolazione: la domanda è se il campione proviene o no da
quella popolazione. A questo punto risolviamo l’esercizio dell’inizio (quello del ricercatore).

Questo test serve a verificare se un campione può essere stato ragionevolmente estratto da una data
popolazione o se più probabilmente esso differisce in maniera significativa da essa. Di questa popolazione si
conoscono il valore medio 883 e la deviazione standard 55.6. Quindi il primo esempio che facciamo è il più
semplice, dove conosco tutto della popolazione e mi chiedo se il campione che estraggo appartiene alla
popolazione o no.

L’ipotesi nulla (H0:  = 0), quindi che il campione proviene effettivamente da quella popolazione, è: la
media della popolazione da cui abbiamo estratto il campione è 0, cioè il campione è stato estratto da una
popolazione di media 0 (0 è la media della popolazione che conosco,  è la media della popolazione da cui
abbiamo estratto il campione). Dal punto di vista teorico c’è una differenza. In realtà non confrontiamo il
campione con la popolazione, noi facciamo l’inferenza sul campione cioè dal campione generiamo la
popolazione da cui è stato estratto il campione e poi vediamo se la popolazione da cui è stato estratto è la
stessa di quella che noi vogliamo testare. Questo è il processo corretto, noi ci limitiamo a dire solo se il
campione viene o no dalla popolazione. Ecco perché il confronto è fatto tra due , cioè la popolazione da
cui è stato estratto il campione e la popolazione in riferimento è la stessa? Se non sono uguali, allora

95
accetto l’ipotesi alternativa (H1:  ≠ 0), ovvero che il campione viene da un’altra popolazione. L’ipotesi
alternativa è: la media della popolazione da cui abbiamo estratto il campione è diversa da 0.

La prima domanda che ci poniamo è


se il test è a una coda o a due code.
Poiché il ricercatore si è chiesto se il
campione proviene dalla popolazione
considerata o da una diversa, si tratta
di un test a due code.

La domanda sperimentale che ci


fissiamo dipende da quello che
vogliamo dimostrare,
indipendentemente da quello che
abbiamo ottenuto, poi vedremo se i
risultati rispondono o no alla
domanda.

Si risponde usando una distribuzione normale, perché conosciamo la deviazione standard della popolazione
(ricordando che il valore di dispersione non è la deviazione standard ma è l’errore standard quindi
55.6/√50). 905 è una media campionaria, quindi la dispersione sarà data dall’errore standard. Quindi a
questo punto dobbiamo vedere se 905 è nell’area di accettazione della gaussiana o no.

Adesso il vantaggio che abbiamo è che ho il 905 che sta da qualche parte sulla gaussiana, quindi calcolo
l’integrale da 905 a più infinito sulla coda di destra e aggiungo quello che sta dall’altra parte. Il simmetrico
di 905 della popolazione che ha media 883 è 861 (che sta sulla coda di sinistra). Faccio la somma di quello
che sta sopra 905 e di quello che sta sotto 861 (si tratta ovviamente di aree uguali) e quindi mi chiedo se
quell’area che sta sulle code oltre i valori limite sono maggiori o minori di 5%. Se l’area è maggiore del 5%
vuol dire che 905 è dentro l’area di accettazione, se l’area è minore del 5% vuol dire che 905 è fuori l’area di
accettazione.

Se è sotto il 5% (o 1% o 0.1%) diremo che avremo differenze significative (o molto o altamente


significative), rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa. La conclusione è che la pratica che
abbiamo messo in atto in quel vigneto per rendere quella popolazione diversa ha funzionato perché ha
fatto sì che abbiamo ottenuto un valore diverso da quello della popolazione. In ogni caso non siamo sicuri
di questo, c’è comunque il rischio di compiere un errore del 5%: se faccio 100 di questi esperimenti, su 5 di
questi avrò un risultato sbagliato.

Se invece l’area è maggiore del 5%, accetterò l’ipotesi nulla perché 905 casca nell’area di accettazione.

96
Il numero di campioni che ho preso dalla popolazione che sto
testando, quindi il vigneto, deve essere uguale al numero di
campioni che prendo dall’altra popolazione? In realtà in questo test
non è così, ma fa parte di un altro test ovvero quello del confronto
tra due campioni indipendenti. Qui ci limitiamo a confrontare un
campione con una popolazione, la quale è definita perché ci siamo
fatti un’indagine bibliografica.

Ho la gaussiana, parametrizzata con la sua media e la sua


deviazione standard e fisso i limiti al 5%, quindi l’intervallo di
accettazione è al 95%. Sull’asse delle x c’è la variabile misurata, mg/kg delle antocianine, ma x1 e x2 che
sono i limiti di accettazione sono misure fatte con la stessa unità di misura del contenuto di antocianine
(mg/kg). Non diciamo solo se 905 è dentro o fuori l’intervallo, ma calcoliamo l’area sulle code e quindi
l’area dell’intervallo di accettazione è definita dal 95%.

Se facciamo un’altra gaussiana uguale, so dove casca 905 e il suo simmetrico 861. Abbiamo detto che i limiti
sono fissati per avere almeno 95% dentro, quindi se la somma delle code è 12%, concluderemo che questo
905 è dentro l’area di accettazione. Se la somma delle code fosse 4%, vuol dire che 905 è fuori l’intervallo di
accettazione.

Concludendo se P del test è maggiore del 5% accettiamo l’ipotesi nulla, altrimenti rifiutiamo l’ipotesi nulla.
Se accettiamo l’ipotesi nulla sappiamo che è dentro l’intervallo di accettazione e quindi non importa dove
sia esattamente. Ma se sta fuori è importante sapere se è fuori al 4% o al 1%, perché una cosa è stare fuori
leggermente, una cosa è stare super fuori ed essere molto lontano dall’ipotesi nulla. Quindi quando è fuori
so anche di quanto è fuori, ovvero quanto è distante dalla media.

Calcolando l’esempio del ricercatore, l’errore standard è 55.6/√50=7.7. Questo valore moltiplicato per 1.96
(ovvero il limite della gaussiana che ha dentro il 95% dei valori) mi da 15.4. I due limiti che contengono il
95% dei valori saranno x1=867.6 (883-15.4) e x2=897.4 (883+15.4). In questo caso 905 è fuori, quindi rifiuto
l’ipotesi nulla e la risposta alla domanda dell’esercizio sarà che il campione ragionevolmente proviene da
un’altra popolazione.

Ricapitolando 1.96 è il numero di volte che in una gaussiana devo prendere la deviazione standard per
avere il 95% dentro ( ± 2 ha dentro il 95.45%,  ± 1.96 ha dentro il 95%).

P(H0) fa riferimento ad entrambe le aree delle zone delle code perché stiamo facendo un test a due code.

ESERCIZIO SUL TEST “MEDIA DI UNA POPOLAZIONE” CON  E NOTI

Apro un foglio Excel, foglio1. Scrivo popolazione, campione e medie campionarie sulle colonne e sulle righe
media, deviazione standard, n ed errore standard. La media della popolazione e delle medie campionarie è
883 (la stessa media dell’inizio). La media del campione è 905, la deviazione standard della popolazione è
55.6, n del campione è 50 e per le medie campionarie considero l’errore standard (non la deviazione
standard), quindi 55.6/√50= 7.86:

97
Ho la mia gaussiana, con dispersione di 7.86, media di 883 e i due limiti di 861 (simmetrico di 905) e 905.
Vogliamo conoscere gli integrali esterni a 861 e a 905.

Iniziamo con l’integrale esterno di 905. Come funzione uso +DISTRIB.NORM.N e ad x metto il valore rispetto
al quale calcoliamo l’integrale, quindi 905, la media è 883, la deviazione standard è 7.86, quindi l’errore
standard. Considero l’errore standard perché Excel non ha distribuzioni diverse, entrambe sono normali,
quindi se parametrizzo la normale o la normale delle medie campionarie lo so solo io, quindi userò l’errore
standard al posto della deviazione. A cumulativo rispondiamo vero:

Excel ci da l’integrale tra meno infinito e valore x, quindi ci da tutta l’area da meno infinito a x (quindi ci dà
tutto x<905). Noi vogliamo calcolare x>905, quindi l’altra parte e la calcoliamo con la formula inversa 1-
(formula della cella di prima):

Abbiamo così calcolato l’integrale dell’area di 1 coda, quella esterna a 905.

Poiché è una gaussiana e le code sono simmetriche, per sapere il valore di P finale (quindi la somma delle
due code) basta utilizzare il valore della cella 11 e moltiplicarlo per 2 (e lasciamo il risultato con 3 decimali):

Questo è il risultato del test. In R basterà parametrizzare la formula e uscirà direttamente il risultato di P 2
code.

L’esercizio ci chiede se è ragionevole pensare che il campione provenga dalla popolazione con media 883 o
da una diversa. Questa è la mia ipotesi nulla. Poiché siamo sotto al 5% rifiutiamo l’ipotesi nulla e accettiamo
l’ipotesi alternativa, ovvero che il campione proviene da una popolazione diversa da quella di origine.
P=0.005 è minore di 1%, ma non di 0.1%, quindi consideriamo il test molto significativo.

98
Se volessimo sapere il valore limite oltre il quale doveva essere la media campionaria per avere differenze
significative, useremmo la formula inversa. Il valore limite del 5% è 1.96 e lo conosco, quindi se facciamo
+media+1.96*errore standard ho il valore critico a 5%:

In realtà poiché conosciamo solo 1.96 come integrale della gaussiana, per gli altri valori uso la formula:
+INV.NORM.N. Come probabilità scrivo 0.975, come media quella delle medie campionarie e come
deviazione standard uso l’errore standard. Il valore sarà uguale:

La funzione INV, essendo inversa, dato l’integrale


cioè la probabilità da il valore x. Quindi ci siamo
chiesti quale è quel valore che ha a sinistra il
97.5% di probabilità ed è 898.4.

L’integrale tra meno infinito e la x vale 0.975 e


uso questa come probabilità perché lascio fuori
l’altro 2.5 (95+2.5).

In questo caso abbiamo visto differenze


significative.

Adesso invece calcoliamo i limiti critici per il caso


in cui vogliamo vedere differenze molto significative (<1%) e altamente significative (<0.1%).

Nel caso del limite 1% uso come valore di probabilità 0.995, nel caso del limite a 0.1% uso come probabilità
0.9995:

Noi per ora stiamo vedendo il limite destro, il limite sinistro è simmetrico rispetto a questo. Il valore critico
è un modo più vecchio per fare il test e invece di avere la probabilità sulla coda abbiamo il valore sull’asse x
per ragionare se siamo a destra o a sinistra. Infatti considerando il P 2 code, questo diceva che siamo al 5
per mille, cioè siamo sotto l’1% ma sopra 0.1% e quindi usiamo l’espressione molto significativo. Questo lo
notiamo anche dal grafico:

99
Infatti il nostro campione è a 905 ed è
compreso tra 99% e 99,9%.

Per conoscere i valori critici per l’altra coda,


uso come probabilità della funzione inversa 0.025, 0.005, 0.0005 rispettivamente per i valori critici di 5%,
1% e 0.1%:

TEST “MEDIA DI UNA POPOLAZIONE” CON  NOTO e  IGNOTO


Questo test è uguale al precedente, ma è un po’ più reale perché  della popolazione è ignoto. Ho una
popolazione come quella di prima, estraiamo un campione, ci chiediamo se il campione viene da quella
popolazione con quella media, ma non sappiamo la deviazione standard della popolazione,  è ignoto. Si
usa la deviazione standard campionaria, perché sul campione sappiamo tutto e quindi stimiamo s che è un
valore campionario. Questo implica di avere i gradi di libertà, di avere meno precisione perché usiamo un
dato stimato e che dal punto di vista applicativo uso il T di student (non la normale delle medie
campionarie). Usiamo T di student quando non conosciamo sigma e dobbiamo conoscere s. Questo ha
un’altra implicazione su Excel, per come è stato progettato.

La domanda del test è:

100
“La percentuale di allegagione per il vitigno Nebbiolo dovrebbe essere 0,43. Essa viene testata in 14 località
differenti. Si riscontra un valore medio di allegagione di 0,40 mentre la deviazione standard campionaria è
di 0,07. Al livello 0.05 il campione è significativamente inferiore all’atteso?”

Rispondiamo facendo il test come prima, solo che in questo caso la deviazione standard non è il dato di
popolazione ma è il dato campionario e questo ci induce a usare T di student. L’altra differenza è che
questo test è un test a una coda perché ci chiediamo se è inferiore, non diverso.

Essenzialmente è uguale a prima, la cosa importante è che abbiamo ipotesi nulla e alternativa e che usiamo
il T di student.

La popolazione originaria, quella degli individui, è sempre


una normale. Ha media 0.43 e deviazione ignota.

Peschiamo il campione con media 0.40, n 14 e s di 0.07.

Andiamo a calcolare questa probabilità, che ha un


aspetto peculiare legato a come Excel gestisce la
distribuzione. La distribuzione T di Excel (DISTRIB.T) viene
calcolata solo su una standardizzata, quindi per entrare
con un valore t in una formula di Excel dobbiamo
standardizzare, ovvero sottraggo la media e divido per
l’errore standard o la deviazione standard (a seconda che sia una standardizzazione su individui o su
medie). Il valore di t a questo punto lo cerchiamo sulla distribuzione T.

ESERCIZIO SUL TEST “MEDIA DI UNA POPOLAZIONE” CON  NOTO e  IGNOTO

Vado sul foglio “sigma ignoto” e ho la tabella dei valori dell’esercizio:

L’errore standard (deviazione standard, in questo caso s, fratto radice di n, dove n non è il grado di libertà
ma il numero di individui che ha contribuito al calcolo della media):

101
s è la deviazione standard del campione, dove qui è data. Ma se abbiamo un
database di numeri, in questo caso 14, s è la deviazione standard di quei 14
campioni, quindi è una deviazione standard campionaria che al
denominatore ha n-1. L’errore standard invece tiene conto sempre di n e
non di n-1.

X medio è la media campionaria e  è la media della popolazione. Al denominatore


abbiamo l’errore standard.

C’è un problema, ovvero che se abbiamo t che viene positivo o negativo a seconda di
dove sta, dopo dobbiamo cercare nella distribuzione a una coda o a due code se il valore è a destra o a
sinistra. Quindi per semplificare tutto, usiamo l’espressione per calcolare l’assoluto e prendiamo solo il
valore positivo.

In Excel la funzione per calcolare l’assoluto è ASS, quindi scrivo +ASS(media campione – media
popopolazione/errore standard):

Ottengo quindi un valore positivo. Ora calcoliamo P(t) ovvero l’integrale su t, dove t è un valore che ha
sull’asse x la variabile standardizzata (non più la variabile misurata).

La calcoliamo usando +DISTRIB.T. A questo punto si apre un menu,


dove 2T si usa per fare le due code, DS la coda a destra, N la coda a
sinistra. Prima abbiamo messo l’assoluto per non avere problemi
ora, per cui se vogliamo fare due code uso 2T, se vogliamo fare una
sola coda uso DS.

Poiché è un test ad una coda uso DS. Anche se la domanda del test
mi chiede se il valore è inferiore, uso la coda di destra e non quella di
sinistra perché a t ho usato il valore assoluto. A x metto il valore t e i
gradi di libertà, n-1, sono 13.

Se il test è a due code mi interessa sapere solo se il valore è fuori o dentro. Se invece ho un test ad una
coda devo capire se guardare la coda di destra o quella di sinistra. Guardo la coda di destra quando sto
testando qualcosa che è meglio se è maggiore, es. ceppo di lievito che mi permette di aumentare gli esteri
nel vino. L’obiettivo è averne di più, quindi se il test che faccio è aumentare, cosa succede se faccio un test
per aumentare e il mio campione ha diminuito? Non ha senso fare il test se il campione ha diminuito. Se
invece l’attesa è che aumenti ed effettivamente l’ha aumentato, mi chiedo se l’ha aumentato per il caso o
perché ha causato miglioramento.

Se mi chiedo, ad esempio nel caso dell’acidità, se è meglio diminuire, faccio sempre un test ad una coda ma
ho come strategia il diminuire. Il test lo faccio comunque sulla coda destra, perché sulla coda sinistra il
vecchio Excel non funziona. Se volessimo fare il test sulla coda sinistra, con il nuovo Exce,l basta non
102
mettere il valore assoluto e P(t) sarà lo stesso valore (anche se t dovesse essere negativo). In ogni caso R ci
darà il risultato finale.

In questo caso il risultato P(t) è maggiore del 5% (0.066) quindi dice che il campione sta dentro il 95%. La
strategia che abbiamo messo in atto anche se ha fatto scendere la % di allegagione non ha ridotto
l’allegagione perché non ci sono differenze significative tra questo campione e la popolazione (0.40 non è
diverso da 0.43).

11/04/2018

Riprendiamo questo grafico. Abbiamo detto che


quando affrontiamo un test abbiamo una
popolazione che è l’ipotesi nulla (curva blu) e poi
esiste un’ipotesi alternativa che non conosciamo
(ma viene comunque rappresentata, curva
fucsia) ed è l’ipotesi che dice che non sia vera
l’ipotesi nulla. Quindi succede che se il campione
casca nell’area blu diciamo che non appartiene
all’ipotesi nulla. Questo può essere nella realtà
vero o falso: se è vero che non appartiene
all’ipotesi nulla vuol dire che appartiene
all’ipotesi alternativa, quindi il test ci sta dando un risultato giusto, e la probabilità che questo accada è pari
alla potenza del test ovvero l’area sotto la curva fucsia e che va dal limite di significatività fino alla curva
fucsia (l’ipotesi alternativa). La potenza è la probabilità di rifiutare l’ipotesi nulla dicendo il giusto. Se invece
il campione capita nell’area fucsia concludiamo che il campione appartiene all’ipotesi nulla, quindi
accettiamo l’ipotesi nulla. La nostra conclusione sarà che se è vero che appartiene all’ipotesi nulla, il test ha
dato un risultato giusto e questo avviene con il 95% di probabilità, se invece questo capita in quest’area
solo perché la curva dell’ipotesi alternativa è troppo sovrapposta con l’ipotesi nulla, facciamo un errore di
seconda specie perché le differenze ci sono ma non le vediamo.

103
Questi ragionamenti li abbiamo fatti applicando 2 test: il test Z lo applichiamo quando la deviazione
standard  è nota ed usiamo la normale, il test T quando la deviazione standard  è ignota e usiamo il T di
student.

INTERVALLI DI CONFIDENZA

Questo intervallo non riguarda il


test delle ipotesi, è una piccola
parentesi su un altro argomento. Lo
facciamo ora perché si avvicina al
test delle ipotesi, ma è diverso.

L’intervallo di confidenza fa parte


della STIMA DEI PARAMETRI. Se
noi estraiamo il campione verde
nell’area blu e abbiamo formulato
questa ipotesi nulla, quindi di
questa popolazione conosciamo la
media che usiamo per fare il test e
la deviazione standard, a questo
punto la domanda che ci poniamo è se questo campione appartiene o no alla popolazione. Questo è un test
che ha come risposta accetto o rifiuto l’ipotesi nulla.

C’è un altro modo di ragionare. Facciamo finta di aver estratto il campione verde nell’area fucsia, perché
sto facendo una misura dove ho 10 campioni di mosto, vado a misurare la concentrazione di un certo lievito
e ci interessa andare a vedere la sua concentrazione. Prendiamo quindi questi 10 campioni di mosto,
misuro questo valore e trovo che è un valore di concentrazione. Non ho un’ipotesi nulla da cui partire, la
mia domanda non è chiedermi se questa concentrazione appartiene o no a questa popolazione, noi
vogliamo sapere quanto è la concentrazione. Come faccio? La cosa più banale da dire è vedere la media
campionaria, ma la media campionaria per definizione è riferita a quel determinato campione. A me
interessa invece avere un’indicazione più ampia di quanto è la potenziale concentrazione del lievito nei
mosti. Quindi il problema è capire quanto vale la concentrazione campionaria ma anche quella della
popolazione che ha generato quel campione, perché è questo che vuol dire fare inferenza statistica. Quindi
mi chiedo qual è il valore della popolazione che ha generato questo campione e questa è la domanda da cui
partiamo.

104
Parliamo di stime per intervalli perché la
conclusione di questo discorso non è e
non potrà essere che la concentrazione
della popolazione che ha prodotto quel
valore è tot, cioè non riusciamo a dare un
valore specifico e preciso perché io
conosco solo il campione. Quindi riesco a
dare un intervallo in cui con una certa
probabilità esiste la media di questa
popolazione.

Quindi:

• test delle ipotesil’informazione campionaria viene utilizzata per decidere se accettare o rifiutare
una certa ipotesi concernente uno o più parametri incogniti del modello scelto per X.
• stima dei parametri, puntuale o per intervallo l’informazione campionaria viene utilizzata per
stimare uno o più parametri incogniti del modello scelto per X. Se il modello scelto per la X è che
questo campione vede una distribuzione normale, i parametri da conoscere sono la media e la
deviazione standard, quindi dovrò dire in un certo intervallo dove casca la media della popolazione
che ha generato quel campione.

Parliamo quindi di un intervallo definito intorno al parametro campionario, avrò un intervallo calcolato
intorno al valore certo che abbiamo, ovvero la media campionaria. Quindi daremo un intervallo attorno alla
media campionaria. L’intervallo che daremo non è la certezza che la media sia li dentro, perché un
campione può essere estratto da meno infinito a più infinito di una popolazione, quindi se ho un campione
non posso dire la media precisa che l’ha prodotto. Posso dire con una certa probabilità dove si trova la
media che l’ha prodotto, quindi il valore dell’intervallo è dato secondo una probabilità che come il solito è
vicino ai soliti numeri considerati, dove però i numeri che abbiamo considerato, quali 5%,1% e 0.1%, sono i
valori di significatività, ovvero i valori dove rifiuto l’ipotesi nulla (e quindi il campione non appartiene alla
popolazione). Qui invece dobbiamo parlare degli intervalli di protezione, quindi di accettazione dell’ipotesi
nulla. Ecco perché non saranno 5%, 1% e 0.1%, ma saranno i complementi, ovvero 95%, 99% e 99.9%.

L’intervallo è dato intervallo fiduciale o di confidenza e i limiti che definiscono l’intervallo sono detti limiti
fiduciali.

105
Questa rappresentazione ha
l’asse x orientato crescente verso
destra (riga rossa orizzontale), la
media campionaria (riga rossa
verticale). Tutte le popolazioni
sono rappresentate separate, ma
in realtà dobbiamo considerare
che siano tutte appoggiate alla
linea rossa orizzontale, ovvero
sull’asse x.

Partiamo dalla seconda


popolazione e ci chiediamo se, in
termini di test, il campione può
essere stato estratto con una
probabilità del 95% dalla
popolazione? Le linee blu
disegnate sulla popolazione sono i limiti dell’area di accettazione dell’ipotesi nulla (quindi rappresentato la
protezione). Questo campione che sulle x in un certo punto, se facessi il confronto del campione contro la
popolazione accetterei o rifiuterei l’ipotesi nulla? Accetterei. Rispetto all’ultima, invece rifiutiamo.

Immaginiamo una popolazione che progressivamente trasla rispetto al valore medio verso destra, quindi
sempre con la stessa ampiezza ma con media della popolazione diversa. Quindi se parto da sinistra, ovvero
da valori bassi, e vado verso destra, ovvero verso valori alti, succede che la prima popolazione (quella in
alto) è la prima per cui rispondo che il campione appartiene alla popolazione (il campione è proprio sul
limite della popolazione). Stessa cosa succede per la terza popolazione che rappresenta l’ultima
popolazione per la quale rispondo che il campione appartiene alla popolazione (anche qui il campione è
proprio sul limite della popolazione).

Quali sono tutte le popolazioni, che sono infinite, per le quali rispondo si il campione può essere stato
generato da quella popolazione? Sono tutte le popolazioni che stanno tra la prima popolazione, che è il
limite a sinistra, e la terza popolazione, che è il limite a destra. Tutte quelle in mezzo queste due
popolazioni, questi due limiti, sono popolazioni per cui se mi ponessi la domanda se il campione appartiene
o no, direi che appartiene. Tutte quelle a destra o a sinistra avranno come risposta no, cioè ci sono delle
differenze significative.

Quali sono i limiti di stima della media della popolazione data questa ampiezza? I limiti sono la media della
prima popolazione e la media della terza popolazione (le due linee verdi). Il nostro intervallo di confidenza
di questa media campionaria, ha come limiti fiduciali questi due valori medi. Queste due linee verdi
coincidono esattamente con limite sinistro del valore della media e il limite destro del valore della media e
rappresentano i limiti fiduciali, cioè i limiti dell’intervallo di confidenza di questa media campionaria.

Sono legati alla probabilità perché l’ampiezza dell’area di accettazione (l’intervallo tra le due righe blu) è
definita dopo che abbiamo definito il valore di significatività. Quindi l’intervallo di confidenza dipende
dall’area di accettazione. Numericamente quanto vale questa ampiezza? Vale esattamente quanto vale la
distanza tra la media campionaria e il limite di accettazione, quindi vale di fatto per ogni lato la metà
dell’area di accettazione del test. Infatti, la distanza che c’è tra i limiti di accettazione e la media è la stessa

106
che c’è tra la media campionaria e quella della popolazione, è semplicemente misurata al contrario, cioè
andiamo dal limite verso la media anziché dalla media verso il limite, ma l’ampiezza è sempre quella per
ogni lato.

Quindi l’intervallo di confidenza è uguale in ampiezza all’area di accettazione dell’ipotesi nulla (perché 2
metà fa 1). L’ampiezza dell’intervallo di confidenza è la stessa dell’ampiezza dell’area di accettazione.
Questo però non vuol dire che siano la stessa cosa. L’area di accettazione è un’area simmetrica disegnata
attorno alla media della popolazione dove mi aspetto di trovare la media campionaria. L’intervallo di
confidenza è l’opposto, cioè ha la stessa ampiezza numericamente ma è disegnata non intorno alla media
della popolazione ma intorno alla media campionaria ed è dove mi aspetto di trovare la media della
popolazione.

(media della popolazione) X medio (media campionaria) TEST DELLE IPOTESI

X medio(media campionaria)  (media della popolazione) STIME PER INTERVALLI

Se dalla media della popolazione disegno l’intervallo che chiamo area di accettazione, mi aspetto di trovare
dentro la media campionaria, stiamo parlando del test delle ipotesi. Se invece parto dalla media
campionaria e disegno l’intervallo di confidenza, dentro mi aspetto di trovarci , stiamo parlando delle
stime per intervalli. Alla fine ciò che conta per risolvere questo problema è capire quanto è grande
l’intervallo. In termini di test daremo la risposta in termini di probabilità. In termini di stima di intervallo
daremo l’ampiezza dell’intervallo.

Ricapitolando, nel primo caso, attorno alla media della popolazione  disegno un intervallo (due mezzi
intervalli, 1 a destra e 1 a sinistra), costruisco l’area di accettazione ed è dove, sotto l’ipotesi nulla, mi
aspetto di trovare la media campionaria. Se questo non è vero rifiuto l’ipotesi nulla, infatti è un test
dell’ipotesi: se Xmedio è in quell’intervallo accetto l’ipotesi nulla, se è fuori la rifiuto. Nel secondo caso
conosco la media campionaria, disegno questo intervallo intorno alla media campionaria (e non intorno alla
media della popolazione), questa area si chiama intervallo di confidenza e mi dice dove con la probabilità
del 95% trovo la media della popolazione.

La stima per intervalli serve per fare inferenza, perché dopo aver preso 10 campioni di mosto e ho misurato
la concentrazione di quel lievito succede che posso restituire l’informazione legata al valore medio
campionario, quindi dirò che la media trovata è stata tot mg/l. Questo è un numero, ma il numero
campionario è riferito a quei 10 campioni, non tiene conto che in quell’areale c’è variabilità. Quindi al
lettore non interessa sapere solo il valore medio ma anche sapere l’ampiezza dell’intervallo in cui potrebbe
cadere il valore medio. Un conto è dire 25±2.5, quindi vuol dire che la media era 25 ma potrebbe essere
23.5 ma anche 27.5. Un conto è dire 25±10, quindi è un 25 che vale da 15 a 35. Tutti e due i valori medi
sono 25, ma è diverso avere un 25 che va da 23.5 a 27.5 da un 25 che va da 15 a 35.

Questo non mi da la probabilità perché la probabilità non si calcola sui campioni. Non si può dire che
costruisco l’area di accettazione intorno alla media campionaria, perché non è possibile. L’area di
accettazione si può costruire solo intorno alla media di una popolazione su una gaussiana. Il campione non
è al centro della gaussiana, perché se il campione fosse il centro avrei risolto tutto perché la media
campionaria sarebbe anche la media della popolazione. Ma questo non posso mai saperlo, posso sapere
che il campione sta dentro quella popolazione, quindi le probabilità non sono legate alla popolazione ma
sono le probabilità di aver estratto quel campione. Di lì non stimo la probabilità della popolazione, perché
la popolazione è una sola, io dico che se il campione viene da quella popolazione ha una certa probabilità,
107
se viene da un’altra popolazione ha un’altra probabilità. Ma la probabilità è sempre quella campionaria,
non è mai quella della popolazione.

L’intervallo di confidenza è quell’area, quell’intervallo costruito attorno alla media campionaria dove con
una certa probabilità definita si trova la media della popolazione che ha generato il campione.

Questa formula la conosciamo già.

𝑋𝑚𝑒𝑑𝑖𝑜 −µ
Z = 𝜎
√𝑛

Il valore Z che deriva dalla normalizzazione è il


valore della media campionaria meno la
media della popolazione fratto l’errore
standard. Questa è la formula di
standardizzazione.

Se Zα (Z della significatività) la fisso al 95%


che sulla gaussiana è 1.96, a quel punto fisso
la distanza di x meno mu che corrisponde al
limite dell’area di accettazione.
𝜎
Z x = Xmedio - 
√𝑛

Questa quantità può essere positiva o negativa perché x medio può essere maggiore o minore della media
. Se X medio lo spostiamo, cambiando un po’ i segni e ipotizzando che appunto questa quantità può
essere a destra o sinistra (±), mi arriva fuori quella formula in immagine, dove  ovvero la media della mia
popolazione sta nell’intervallo tra Xmedio più o meno questa quantità di Z per l’errore standard.

Qui parliamo di Z perché conosciamo la deviazione standard,  è noto.

Se non conoscessimo la deviazione standard,


quindi  è ignoto, la formula è la stessa, solo
che abbiamo la distribuzione T di student.

Al posto di Z abbiamo t e al posto di 


abbiamo s,  è sempre al 5% e in più ci sono i
gradi di libertà.

Su R le formule usate per fare un test di


appartenenza di un campione ad una
popolazione, nell’output ci dava anche
l’intervallo di confidenza.

Quindi in R possiamo fare il test e l’intervallo


di confidenza usando la stessa formula (z.test e t.test).

108
CONFRONTO FRA DUE CAMPIONI APPAIATI O INDIPENDENTI

In termini di test veri e propri abbiamo visto il test di confronto di un campione contro una popolazione
(dove ci chiedevamo se il campione derivasse o no da quella popolazione) e poi abbiamo costruito
l’intervallo di confidenza attorno alla media campionaria (questo non è un test). Adesso facciamo un test
che comincia ad avere un risultato applicativo (poco utilizzato però).

Vediamo il test di confronto fra due campioni appaiati o indipendenti. Innanzitutto questo vuol dire che
non abbiamo un campione contro la popolazione ma abbiamo due campioni e che, dal punto di vista
sperimentale, stiamo entrando nell’ottica di fare confronti. Bisogna fare questi confronti perché sia in
ricerca sia nella parte di applicazione aziendale, quello che si può fare è vedere se apportare delle
innovazioni. Questo vuol dire che sostanzialmente voglio provare una nuova tecnica e definisco un
esperimento in cui metto a confronto due pratiche (posso mettere a confronto più di due pratiche, ma qui
faccio l’analisi della varianza) e quindi confronterò una tecnica innovativa contro una tecnica tradizionale,
che rappresenta il nostro controllo.

Ovviamente quando faccio un confronto in metodologia sperimentale la cosa importante è che io metta
tutto nella stessa situazione tranne che per ciò che voglio confrontare. Se io voglio confrontare due
tecniche di vinificazione e quindi nell’azienda A fermento in un modo e nella B fermento in un altro, stiamo
facendo il confronto tra due tecniche specifiche ma in situazioni diverse. Quando troverò dei risultati
diversi, come faccio a dire che tutto il resto era esattamente nello stesso modo? Al meglio posso garantire
ciò che conosco, ma come posso garantire che tutte le altre situazioni intorno che non conosco, non hanno
influito in modo diverso sulla stessa situazione? Il fatto che ci siano delle altre componenti che influiscono
sui risultati, ma non sono ciò che voglio confrontare, si chiama CONFUSIONE DEGLI EFFETTI. Ovvero
assegno un effetto ad un certo fattore ma ne ho altri di disturbo, inoltre la variabilità delle popolazioni, che
è quella che fornisce l’errore, per lo più è sconosciuta perché una popolazione omogenea dovrebbe dare
sempre lo stesso valore. Ci sono dei fattori influenti che mi danno risultati diversi e sono questi quelli che
devo garantire che non influenzano la situazione, pur non conoscendoli. Per far ciò uso la
RANDOMIZZAZIONE, per ogni confronto statistico e per non avere la confusione degli effetti.

A seguito di un esperimento fatto sul riso, ottengo


questi risultati. Dove ho la media dell’aratura e
quella del sodo e la media tra le due.

Guardando questo direi che l’aratura è migliore


del sodo. Però se avessi arato tutte e 12 le parcelle
e le avessi divise per bianche e rosse, ovviamente
non avrei avuto risultati uguali a quelli in figura.
Allora perché il fatto di averle arate o di averle
seminate su sodo, dovrebbe darmi un risultato
diverso? Quindi noi partiamo comunque da
un’ipotesi nulla in cui non c’è differenza. La
differenza tra chiamarle arate o sodo e chiamarle bianche e rosse è quando sono diversi, perché comunque
arrivo a due risultati diversi.

Se ho 12 campi e li taglio in due, metà arato e metà no, ho quindi 12 metà arate e 12 metà non arate. Se
faccio questo sono sicuro e funziona meglio. Ovvero quando prendo delle unità statistiche, che in questo
109
caso sono dei campi, le divido in 2 dove a metà applico la tecnica 1 e all’altra metà la tecnica 2. Facendo
così, dentro ogni individuo, posso fare il confronto dentro ogni unità statistica delle 2 tecniche. Questo è un
esempio di confronto tra due campioni appaiati.

Ci sono casi in cui è difficile fare questo. Immaginiamo una sperimentazione medica, dove ad esempio, si
vuol verificare il contenuto ematico su certi individui a seguito della somministrazione di un certo
contenuto di alcol. In questo caso, ovviamente non posso tagliare in due gli individui, misuro la
concentrazione prima e dopo la somministrazione. Quindi quello che è dividere in due può anche essere
prima e dopo. Questo è alla base delle misure ripetute, ovvero sulle stesse unità statistiche sono applicati
gli stessi trattamenti e o divido in due gli individui o faccio il prima e il dopo.

A volte però anche questo non è possibile, ad esempio nel caso di fermentatori in questo caso non posso
fare sullo stesso fermentatore il prima e il dopo, quindi posso prendere in questo caso 10 fermentatori
dove in 5 faccio fare una cosa e in altri 5 un’altra cosa.

Quando parliamo del test T di confronto tra due campioni, abbiamo due casi: il test t di confronto tra
campioni appaiati e quello tra campioni indipendenti. Questa cosa è importante perché da origine all’analisi
della varianza tradizionale o per misure ripetute (che corrispondo ai test appaiati).

DEFINIZIONE DI CAMPIONI APPAIATI ED INDIPENDENTI


• Due campioni sono detti APPAIATI se le misure appartenenti ai due trattamenti che rappresentano
i due campioni sono effettuate sulle stesse unità statistiche (individui). Consegue che la numerosità
dei due campioni deve essere la stessa.
• Due campioni sono detti INDIPENDENTI se le misure che costituiscono i due trattamenti sono
effettuate su unità statistiche differenti, che pertanto devono essere randomizzate. In questo caso
la numerosità campionaria può essere differente.

Confronto tra due campioni APPAIATI

OBIETTIVO Confrontare la media di due popolazioni con elementi appaiati 1 a 1 avendo due campioni
per capire se è possibile accettare l’ipotesi nulla secondo la quale le popolazioni sono uguali. Quindi
vengono confrontate due tecniche, che di solito sono un controllo (quello di riferimento) e un trattato
(quello da dimostrare).

ASSUNZIONI i due campioni sono appaiati, le distribuzioni delle medie campionarie sono normali e le
due popolazioni hanno la stessa varianza. Il fatto che i due campioni abbiano la stessa varianza è dato per
scontato, perché le unità statistiche sono le stesse e quindi variano allo stesso modo.

IPOTESI NULLA. La prima ipotesi è quella che accade normalmente ed è quella in cui le medie delle due
popolazioni (trattato e non trattato) sono uguali: H0: 1=2. Ovviamente questa è un’ipotesi nulla e devo
dimostrare che in realtà c’è stata una differenza. L’inferenza la faccio sulle popolazioni, parto dall’ipotesi
nulla che la media è unica, quindi che le medie sono uguali e l’ipotesi alternativa sarà che queste medie
sono diverse.

L’altra ipotesi nulla è quella in cui la differenza vale una certa quantità conosciuta: H0: 1 - 2 = k. Ovvero
qui conosco a priori la differenza attesa (l’incremento o la riduzione attesi) e quindi l’ipotesi nulla non è

110
partire dal fatto che siano uguali, ma partire dall’ipotesi nulla che l’incremento sia di una certa entità,
quindi vediamo se è vero. Questa però si usa poca.

Generalmente si usa l’ipotesi nulla che i due campioni sono uguali, ovvero non c’è stato un miglioramento e
voglio dimostrare che effettivamente ci sia stato un miglioramento.

Visto che ho due campioni appaiati, su ogni


unità statistica sono in grado di vedere le
misure, quindi per ogni unità statistica
posso fare una differenza fra trattato e non
trattato. Riesco ad avere una stima
dell’effetto trattamento non solo a livello
di popolazione, ma riesco ad averla su ogni
singolo individuo perché su ogni singolo
individuo posso fare la differenza uno
meno l’altro.

Alla fine non facciamo differenza fra due


campioni ma potendo fare la differenza dentro ogni individuo posso già generare un campione di differenze
perché dentro ogni individuo posso stimare la differenza del trattamento 1 e del trattamento 2.

Ad esempio ho 10 fermentatori e per ogni fermentatore misuro la concentrazione di un certo ceppo di


lievito prima e dopo il trattamento con ozono. Su ogni singolo fermentatore posso avere la differenza che
ha provocato il trattamento con ozono, quindi è vero che parto da due campioni, ma in realtà alla fine ho
un solo campione di valori di differenza di concentrazione di questa popolazione a seguito del trattamento
con ozono. È come avere un solo campione che è il campione di differenze. Se l’ozonizzazione la effetto nel
variare queste concentrazioni, quanto mi aspetto che sia la media di popolazione di queste differenze? Mi
aspetto la media di popolazione di queste differenze pari a 0. Il fatto che i due trattamenti siano uguali fa si
che, vista in termini di differenza, la media di questi valori di differenza sia 0. È vero che si chiama test di
confronto tra due campioni appaiati, ma non è altro che un test di confronto fra un campione e una
popolazione, dove ho una popolazione di differenze e vado a testare se la media di questa popolazione di
differenze è zero. Di fatto è un test di un campione contro una popolazione, non un test tra due campioni.

Confronto tra due campioni INDIPENDENTI

Nel caso di campion dipendenti questo non è possibile, perché non ho le misure appaiate sulle stesse unità
statistiche e quindi come faccio a fare questo calcolo delle differenze? Dovrei associare l’individuo 1 del
primo campione con l’individuo 1 del secondo campione e quindi non posso fare differenze 1 a 1 quando i
campioni sono indipendenti, ma posso fare la differenza tra le popolazioni, tra gli insiemi numerici. Ho due
campioni che sono indipendenti e caratterizzo quei due campioni solo per una variabile e quindi vado a
misurare come variabile solo l’effetto di una singola variabile. Se volessi guardare più variabili, farei un test
multivariato. Noi qui partiamo dal presupposto che vogliamo misurare sempre una sola variabile.

Il punto è che non misuro la variabile due volte sullo stesso individuo dove ho applicato e non applicato il
trattamento, ma questi ultimi due sono due individui diversi, quindi il conto lo faccio su popolazioni diverse,
su campioni diversi.

111
OBIETTIVO Confrontare la media di due popolazioni avendo a disposizione due campioni da esse estratti,
al fine di verificare se le popolazioni sono uguali.

ASSUNZIONI i due campioni sono appaiati, le distribuzioni delle medie campionarie sono normali e le
due popolazioni hanno la stessa varianza. Le assunzioni sono le stesse dei campioni appaiati. Abbiamo però
un problema ovvero che il fatto che abbiano la stessa varianza non è più scontato: qui abbiamo individui
diversi e quindi per essere sicuri che abbiano la stessa varianza dobbiamo testarlo.

IPOTESI NULLA. La prima ipotesi è quella che accade normalmente ed è quella in cui le medie delle due
popolazioni (trattato e non trattato) sono uguali: H0: 1=2. L’altra ipotesi nulla è quella in cui la differenza
vale una certa quantità conosciuta: H0: 1 - 2 = k. Anche qui l’ipotesi nulla è la stessa di prima.
Normalmente si parte dall’ipotesi che il trattamento non ha avuto effetto e poi la rifiutiamo (prima ipotesi).
Anche qui c’è la possibilità di partire a priori aspettandoci una certa differenza numerica.

Dobbiamo lavorare anche qui su una popolazione di differenze, perché l’obiettivo è confrontare due
popolazioni e dimostrare che siano diverse. Come facciamo a calcolare i parametri di una popolazione di
differenze? Sui campioni appaiati era più semplice e in realtà alla fine ho degli individui con un unico
numero misurato (ovvero la differenza). Qui non possiamo appaiarli uno ad uno.

La statistica ci dice che c’è un teorema e che deriva


dal teorema del limite centrale. Il teorema dice che
se prendo due popolazioni normali e voglio fare la
somma o la differenza, la popolazione di differenza
avrà una media che è la somma o la differenza tra le
medie. Noi stiamo facendo differenza, quindi diremo
che la differenza dei valori delle nostre popolazioni
campionarie è la miglior stima della differenza delle
popolazioni medie.

In termini di varianza succede che se facciamo la differenza o la somma, la varianza complessiva è sempre
la somma.

Quindi la popolazione di differenze ha una media che è la differenza delle due medie e ha una varianza
che è la somma delle due varianze. Questo perché dobbiamo ricombinare tutti contro tutti e quindi
aumenta la varianza (e la variabilità). Se noi facciamo l’ipotesi che le due popolazioni abbiano la stessa
varianza e questo lo dobbiamo verificare, la varianza della popolazione di differenze sarà il doppio delle
varianze dei due campioni.

Se invece di varianze ragioniamo in termini di errori


standard al quadrato, ovvero l’indice di dispersione
𝜎
delle medie campionarie, l’errore standard che è ,
√𝑛
𝜎^2
al quadrato sarà 𝑛
, però dato che è l’errore
standard della popolazione di differenze è il doppio,
2∗𝜎^2
quindi 𝑛
. Quindi l’errore standard al quadrato,
che è la varianza della popolazione di medie
campionarie della popolazione di differenze è 2 volte
sigma quadro su n (SE2). Se vogliamo esprimerlo come
112
errore standard normale usiamo la formula SE. La radice di 2 si ha perché abbiamo il 2 sulle varianze,
perché abbiamo detto che la varianza è il doppio (devo sommare le due varianze delle due popolazioni) e
quindi le deviazioni standard, che in questo caso sono errori standard, hanno nella formula radice di 2.
Possiamo vedere questa formula in 3 modi:

2 2∗ 𝜎^2 𝜎
√ 𝜎 oppure √ oppure √2
𝑛 𝑛 √𝑛
𝜎
√𝑛
questo è l’errore standard che conosciamo ed è il SEM. Moltiplicando il SEM per radice di 2 vuol dire
renderlo più grande.

2
√ 𝜎 questo invece è quello che non conosciamo, è il SED (standard error of difference).
𝑛

A parità di dati, il SED è 1.41 volte più


grande del SEM.

A questo punto ho parametrizzato la


popolazione di differenze e sotto
l’ipotesi nulla mi aspetto che questa
popolazione di differenze N abbiamo
come media 0 e come dispersione il
SED. Quindi testerò la differenze di
medie contro questa popolazione qui.

Quindi non conosco la deviazione


standard della popolazione, conosco
solo quelle campionarie, uso s e non σ
e quindi uso il T di student.

Il vero e proprio test si risolve, nel caso in cui i


due campioni abbiano gli stessi numeri, usando la
formula t in figura, ovvero la differenza delle
medie diviso il SED. Ho un t e con la funzione
DISTRIB.T ho il P(t) e se è sotto 5% rifiutiamo
l’ipotesi nulla, se è sopra il 5% accettiamo
l’ipotesi nulla.

In realtà al numeratore non abbiamo la


differenza delle medie campionarie, meno la
media della popolazione. Abbiamo detto che la
media della popolazione è 0, quindi è come se avessi X1-X2-0 e quindi scrivo solo X1-X2. Questa formula
funziona quando i campioni sono uguali.

C’è un problema però su s. Il primo campione ha la sua deviazione standard e anche il secondo campione
ha la sua deviazione standard, quindi che s uso? È vero che ho come assunzione l’omogeneità delle
varianze, ma perché ci metto la somma? Parliamo non di somma delle devianze, ma delle varianze. Però noi
abbiamo detto che il 2 indica già il doppio, quindi se metto la somma delle varianze dovrei togliere il 2.
113
Noi abbiamo due campioni con due varianze diverse, che
sono entrambe la stima di un’unica varianza.
L’assunzione è l’omogeneità delle varianze, infatti noi poi
la tesiamo. Se noi vogliamo stimare una misura e
facciamo passare due campioni dentro l’HPLC, dei due
valori che ottengo prendo la media di questi due. Faccio
questo perché da due misure, la media è la miglior stima
e quindi come varianza prendo la media delle varianze.

È vero che la media di due valori moltiplicata per 2 mi da la somma dei due valori, quindi potevamo usare la
somma, ma dato che il 2 lo vogliamo lasciare usiamo la media delle varianze.

Cosa è questo valore medio di varianza? È il fatto che io voglio stimare la varianza di una popolazione ma
non ho solo una misura della varianza di questa popolazione ne ho due. Quindi questa quantità che io stimo
come media di due valori è più precisa di ogni singolo valore perché è la media di due valori. Questa
quantità prende il nome di “pooled variance”, dove pooled indica il fatto che si prende tutto insieme. È un
concetto molto importante perché se è vero che le varianze sono omogenee sto stimando molto meglio la
varianza, perché la sto stimando con due valori e non con uno. Questa roba qui tradotta nell’analisi della
varianza, ovvero dove avrò tanti campioni, sarà ciò che mi porterà ad avere una stima della varianza
d’errore molto forte, perché avrò molti campioni.

Dove diciamo che questa stima è migliore di una normale? In questa formula dove capiamo che sto
lavorando con stima campionaria della varianza e non con il vero valore? Lo capiamo dal tipo di
distribuzione e dal fatto che in questo caso ho una t e non una z. Infatti la distribuzione del t è meno precisa
della distribuzione z. Dove nella formula capiamo che, p vero che ho una stima, ma è una stima molto
buona? Dai gradi di libertà. Questi gradi di libertà non sono di un solo campione ma di tutti e due i
campioni. Ricordiamo che un t più gradi di libertà ha e più assomiglia alla normale, diventa più preciso. Il
fatto che faccio la stima con più campioni e quindi sommo i gradi di libertà, fa sì che quel t è vero che non è
uno z, ma più gradi di libertà ci sono dentro t e più si avvicina a z. Io qui sto considerando i gradi di libertà di
tutti e due i campioni che hanno permesso la stima di quel . Ricapitolando, più sono i campioni e più sono
grandi i campioni, più la stima è buona e più il t è vicino al valore z.

Quello visto fino ad ora va bene quando i due


campioni hanno lo stesso numero di individui.
Se non abbiamo lo stesso numero di individui,
ovvero un campione è più grande dell’altro
succede che s2 non è più la media delle due
varianze, ma è la media ponderata delle due
varianze.

Ponderata in funzione dei gradi di libertà.


Infatti al numeratore dovremmo avere
varianza1*GDL1 + varianza2*GDL2 tutto diviso
gradi di libertà totali. Ma var1*GDL1 non è
altro che la devianza 1 (stessa cosa per la
devianza2).

Quindi ho la somma delle due devianze campionarie diviso i gradi di libertà totali.
114
Nel caso del T di student, dove i
campioni non hanno la stessa
numerosità, ho questa formula.

Il SED è calcolato in modo diverso.

Quindi ho sempre la differenza tra


le medie con i gradi di libertà
n1+n2-2, ma cambia la formula
del SED perché tiene conto del
fatto che le due varianze non pesano uguale.

VERIFICA DELL’OMOSCHEDASTICITÀ
Noi dobbiamo ipotizzare che le traslazioni indotte dai trattamenti siano traslazioni delle medie, ma
confrontiamo le medie su popolazioni che traslano e che non cambiano forma. Quindi dobbiamo verificare
il fatto che le varianze siano omogenee, ovvero che le stime campionarie sono diverse ma sono tutte stime
di una stessa quantità di valore di varianza della popolazione.

Il test di omogeneità delle varianze che si usa


nell’analisi della varianza è un test che deve
tenere conto di più campioni. Per adesso
introduciamo un altro test che serve a vedere se
due stime di varianza sono uguali o no e che
lavora solo su due varianze. Si parla di test di
omoschedasticità, che parte dall’ipotesi nulla che
le due stime di varianza sono uguali e nell’ipotesi
in cui rifiutiamo l’ipotesi nulla accetteremo
un’ipotesi alternativa diversa che ci dice che le
due varianze non sono uguali.

Il test viene fatto attraverso un test F, test basato sulla distribuzione F che noi vedremo molto nell’analisi
della varianza e nell’analisi della regressione, ma legato all’esecuzione dell’analisi della varianza (e non
legato all’omoschedasticità).

Qui il test F lo vediamo come


test di omoschedasticità.

È un test banale e implica che


noi calcoliamo il valore F come
rapporto di due varianze. Noi
abbiamo la varianza del
campione 1 e del campione 2,
calcoliamo il rapporto di
queste due varianze e,
nell’ipotesi che mettiamo al
numeratore il campione con la
varianza maggiore, ci viene un

115
rapporto atteso di 1. Sotto l’ipotesi nulla che le varianze sono uguali il rapporto sarebbe 1. Ovviamente le
varianze sono campionarie e non danno 1 come rapporto, ma se mettiamo la varianza maggiore al
numeratore il rapporto sarà comunque superiore a 1. Questo rapporto può essere molto o poco superiore
a 1.

Questo valore di rapporto lo mettiamo su una distribuzione F e calcoliamo l’integrale sulla distribuzione F
sulla coda di destra. Se questo integrale è maggiore del 5% accettiamo l’ipotesi nulla che le varianze
omogenee, se invece valore è minore del 5% rifiutiamo l’ipotesi nulla perché vuol dire che questo valore è
molto a destra e quindi essendo tale ci dirà che le varianze non sono omogenee.

Se le varianze risultano omogenee e quindi accettiamo l’ipotesi nulla facciamo il test T di student
assumendo le varianze omogenee. Cosa capita se le varianze non sono omogenee? Nel caso del T di
student di confronto tra due campioni indipendenti esiste un test che è uguale al test T di student, in cui si
assumono le varianze omogenee, ma che semplicemente non fa questa assunzione e che corregge i gradi di
libertà del confronto secondo una formula, riducendoli e quindi aumentando la probabilità di accettare
l’ipotesi nulla e quindi diminuendo la probabilità di rifiutare l’ipotesi nulla.

Nell’applicare la formula del t.test in R bisogna rispondere alla domanda se le varianze sono omogenee o
no. Di default R assume che le varianze siano non omogenee. Se invece diciamo che le varianze sono
omogenee lui farà il test di varianze omogenee. Nella formula la parte che esprime questo è var.equal
(false varianze non omogenee, true varianze omogenee).

ESERCIZIO SULL’INTERVALLO DI CONFIDENZA

Apriamo uno script in R. Come in tutti i codici, iniziamo con rm(list=ls()), per rimuovere tutto l’elenco degli
oggetti.

Adesso carichiamo i dati, per calcolare gli intervalli di confidenza. Vado ad import dataset, from Excel e
carico il file “test media della popolazione”. Cambio il nome e scrivo dati e a sheet decidiamo quale foglio
aprire, in questo caso “Sigma noto_2”.

116
Abbiamo così l’oggetto chiamato dati. In questo caso il sigma è noto = 2.3 e =16. Devo calcolare
l’intervallo di confidenza e mi serve il z.test. Questa formula fa parte del pacchetto BSDA e quindi cerco
questo pacchetto, lo attivo, vado a Help e cerco z.test. Copio e incollo l’usage di z.test nello script e lo
parametrizzo.

A x dobbiamo dare il nome


del vettore che vogliamo
utilizzare per i valori, y è da usare se volessimo fare il confronto tra due campioni (ma noi il confronto tra
due campioni lo faremo con t.test). Questo che stiamo facendo ora è il test contro una media (e non il
confronto tra due campioni), ma non facciamo questo calcolo ora, ci calcoliamo solo l’intervallo di
confidenza. Quindi y=null e volendo possiamo cancellarla, alternative e mu non ci interessano perché non
stiamo facendo il test e quindi possiamo cancellare anche queste. Ci interessa il sigma.x , questo è il dato
della deviazione standard della popolazione e non quella campionaria, quindi scriviamo 2.3.

Altra informazione che ci interessa è conf.level ed è l’informazione che ci costruisce l’intervallo di


confidenza. Lasciamo in questo caso l’intervallo di confidenza al 95%, parametrizziamo la formula e
vediamo la risposta. L’informazione è data da t/ha nel dataset dati, quindi al posto di x scrivo dati$t/ha,
sigma di x vale 2.3.

Nella risposta abbiamo avuto la media di x che è 16.34 e come intervallo di confidenza al 95% abbiamo LCL
15.33 e UCL 17.34.

117
Adesso vediamo la risposta mettendo come intervallo di confidenza, prima 99% e poi 99.9%.

Ovviamente la media sarà uguale in tutti e 3 i casi, ciò che cambia è l’ampiezza dell’intervallo di confidenza.

Adesso calcolimo l’intervallo di confidenza usando il dataset del foglio “sigmaignoto_2”. Quindi uso la
stessa procedura di prima, vado ad import dataset, from Excel, lo chiamo dati1 e come sheet metto
Sigmaignoto_2. Poiché il  è ignoto, uso il T di student. Quindi vado ad Help, cerco il t.test e copio e incollo
nello script l’usage.

Parametrizzo la formula. A x
metto dati1$transresveratolo, y
è null, alternative è two sided,
mu è 0, paired e var.equal non ci
interessano perché abbiamo un solo campione e quindi lasciamo il default così com’è o li cancelliamo. A
conf.level considero prima il test al 95%.

118
Adesso usiamo la stessa formula, cambiando però l’informazione di conf.level e vedo prima la risposta al
99% e poi quella al 99.9%. dove anche qui ciò che cambia è l’ampiezza dell’intervallo di confidenza, la
media è sempre la stessa.

Se il t.test lo assegno ad un oggetto “a”, quando poi chiedo a, ovvero il risultato del t.test, e metto il $, ho
una serie di opzioni che corrispondono a tutto il contenuto del risultato. Quindi se di questa tabellina mi
interessa solo l’intervallo di confidenza, dopo aver assegnato il t.test ad un oggetto, posso scrivere
a$conf.int e quando faccio girare l’istruzione ottengo come risposta solo le informazioni sull’intervallo di
confidenza.

Il fatto di assegnare una formula ad un oggetto, ci serve soprattutto quando abbiamo risultati grandi e
vogliamo sapere solo dei pezzettini.

119
POTENZA DI UN TEST

Ricapitolando, ho la curva blu che è


l’ipotesi nulla e la curva fucsia è l’ipotesi
alternativa, la linea blu è il limite di
significatività sulla prima popolazione. La
potenza del test è l’area che parte dal
limite di significatività e va verso sinistra
(l’area sotto la curva dell’ipotesi
alternativa).

La potenza è la probabilità di rifiutare


l’ipotesi nulla qualora essa è
effettivamente falsa, quindi nei test noi
facciamo la significatività, ovvero il rischio di errore di primo tipo, e ci mettiamo al sicuro con la protezione
che è la probabilità di accettare l’ipotesi nulla vera e quindi dire che il test è giusto. Parliamo di potenza
quando ipotesi alternativa è vera. L’area fucsia è l’errore beta ed è il rischio di accettare l’ipotesi nulla
quando essa è falsa. L’area sotto la curva fucsia è la potenza del test e noi vogliamo che sia più grande
possibile così da rifiutare l’ipotesi nulla quando essa è falsa. Questo perché quando montiamo un
esperimento normalmente è per rifiutare l’ipotesi nulla (testando un trattato contro un controllo e dicendo
che il controllo è sbagliato e quindi rifiutiamo ipotesi nulla), ci sono casi dove facciamo esperimenti per
dimostrare l’ipotesi nulla ma sono pochissimi casi.

Se ci troviamo nella situazione in cui le due aree sono addossate tra di loro, quindi l’area fucsia è molto
grande, la potenza del test si riduce. Non si vede la differenza e questo perché le due popolazioni non sono
sufficientemente distanti.

Se la curva dell’ipotesi alternativa è molto spostata, stiamo tranquilli. Il problema si verifica quando tutti i
campioni che vengono dall’ipotesi alternativa finiscono sull’ipotesi nulla e noi non vediamo le differenze,
perché il test dirà che accettiamo l’ipotesi nulla. Tuttavia ci siamo anche detti che aumentando molto la
numerosità campionaria, questa riduce l’errore standard (la deviazione standard della popolazione resta
uguale). Quindi dal punto di vista probabilistico a parità di distanza tra le medie ho aumentato la
dimensione campionaria e ho ristretto la distribuzione delle medie campionarie e a questo punto l’area di
sovrapposizione è molto più piccola.

Nel fare un trattamento a dei soggetti, questi variano il loro valore medio ma devono variare di una certa
quantità che abbia un’importanza rispetto alla variabile che sto guardando e non decido a priori il risultato
dell’effetto trattamento perché comunque si riesce a fare un esperimento sensibile a queste differenze.

FATTORI INFLUENTI SULLA POTENZA DI UN TEST


Quali sono gli elementi che dobbiamo tenere in considerazione?

1. Il livello di significatività scelto perché più prendiamo un livello di significatività basso, quindi al
posto del 5% prendiamo l’1%, e più ci spostiamo verso le code. Allarghiamo l’area di accettazione
spostando il limite di significatività verso le code e quindi riduciamo l’errore alfa ma aumentiamo
l’errore beta.

120
2. La dimensione della differenza di cui si vuole verificare la significatività tanto più vogliamo
rendere significativo un numero grande e tanto più il test ci aspettiamo sia potente, perché il livello
di sovrapposizione delle popolazioni è più basso.
3. La dispersione dei dati più la variabile che noi analizziamo ha un’elevata dispersione e meno sarà
la potenza del test perché le popolazioni sono più disperse, quindi più ampie, e a parità di distanza
tra le medie sarà maggiore la sovrapposizione.
4. La dimensione campionaria(n) non ha effetto sul sigma della popolazione ma ha effetto
sull’errore standard (/√𝑛 o s/√𝑛), perché radice di n sta al denominatore.
5. La direzione dell’ipotesi (unilaterale oppure bilaterale) perché se io faccio un test a due code la
quantità di probabilità che avrò su entrambe le code è la metà della significatività complessiva (5%
su due code vuol dire 2.5 ai due lati, il famoso 1.96 della normale). Se scelgo di fare un test ad una
coda sola quel 5% finisce tutto a un lato, quindi la probabilità rimane tale ma essendo tutta
concentrata da un lato mi permette di mettere il limite dell’area di accettazione verso il valore
medio.

Questi sono i punti che guardando la formula di z o di t le ritroviamo anche spiegate dalla formula.

Facciamo alcune considerazioni pratiche legate a questi fattori. Partiamo dal livello di significatività scelto.
Prendiamo di solito come riferimento il 5%, ma ci sono dei casi in cui questo non è vero. Facciamo degli
esempi per capirlo. Ad esempio consideriamo l’effetto dei biostimolanti, ovvero prodotti che vengono dati
in agricoltura, prodotti con una loro variabilità all’interno, prodotti che possono avere degli effetti, spesso
sono effetti fisiologici indotti sulla pianta e a volte si possono vedere differenze quantitative e qualitative.
Sono però degli effetti che ancora non sono così studiati e quindi siamo in una fase iniziale di queste analisi.
Se siamo molto rigidi nel dire cosa serve e cosa no, quindi restiamo con dei limiti molto contenuti,
rischiamo di scartarli sbagliando. In queste situazioni, a volte, quando gli effetti sembrano che ci siano ma
sono incerti, si fanno i test al 10% (e deve essere giustificato). Se noi spostiamo il limite al 10 (quindi 5% per
parte o 10% a una coda) significa spostare molto il limite verso la media, aumentiamo l’errore di prima
specie alfa e quindi c’è il rischio di vedere differenze anche se non ci sono (questo c’è sempre ma al 5% vuol
dire vederle una volta su 20, al 10 una volta su 10). Tuttavia riduciamo l’errore di seconda specie beta,
ovvero l’errore di accettare l’ipotesi nulla quando è vera l’ipotesi alternativa, quindi non essere capace di
vedere differenze che magari ci sono.

Stesso discorso può essere fatto per la selezione massale in genetica, dove normalmente sulle prime
generazioni si faceva il test, per vedere se le progenie fossero diverse dai genitori, al 20% di significatività,
quindi è vero che c’era un elevato rischio di sbagliare ma è anche vero che così facendo evitavano di
eliminare cose che inizialmente sembravano sbagliate ma in realtà erano corrette.

Questi sono casi in cui aumentiamo il rischio di prima specie, ma per proteggerci da quello di seconda
specie (che infatti lo riduciamo).

In merito al secondo punto non ci sono molte considerazioni da fare, perché ognuno conosce le sue
variabili e sa praticamente quale è la differenza che è significativa e quale no.

Un’altra considerazione che possiamo fare è sulla dispersione dei dati. La dispersione dei dati, ovvero
l’errore residuo, è creata da componenti legati alla variabilità naturale dei processi. La variabilità può essere
aumentata o da misure improprie o da inaccuratezze nel lavoro (ad esempio apparecchiature poco pulite o
non idonee, lavoro in modo non accurato). Tutto questo può indurre un incremento di variabilità. Quindi la
dispersione dei dati è fatta da una componente che è presente nella variabile stessa, ma la dispersione può
121
essere aumentata da inaccuratezza nel lavoro. Bisogna cercare di essere molto accurati non per azzerare la
variabilità ma per ridurla al minimo, dove il minimo è quella naturale della popolazione. Al di sotto di
questa variabilità naturale non possiamo andare, perché altrimenti vorrebbe dire che non stiamo
campionando bene la popolazione.

L’ultima considerazione da fare è sulla direzione delle ipotesi. È abbastanza comune fare sempre test
bilaterali, tutti fanno questi test. Vale però la pena fare un passo in più e ogni volta che facciamo un test
statistico chiederci se effettivamente va bene fare il test bilaterale o se è meglio fare quello unilaterale. È
importante chiederselo perché fare un test unilaterale rispetto ad uno bilaterale riduce la quantità di
risposta di informazione che io traggo, perché sul test bilaterale ho la risposta su due code e sul test
unilaterale ho la risposta su una coda sola. Quindi otteniamo meno informazioni del test ma se metto in
atto una pratica che ha il compito di aumentare ad esempio esteri nel vino, questo lo faccio per vedere se
aumento e non è per vedere se è diverso.

Dal punto di vista del calcolo il ragionamento da


fare è questo e lo rivedremo meglio nell’analisi
della varianza. La domanda che ci poniamo, dal
punto di vista sperimentale, è quali sono gli
elementi da conoscere al fine di avere protezione
del test? Noi dobbiamo conoscere quanto è
dispersa la popolazione e quindi la deviazione
standard della popolazione da cui partiamo.
L’aspetto importante è che la pianificazione
sperimentale la si fa quando l’esperimento non è
stato ancora fatto.

In ogni caso la prima importante informazione è conoscere quanto è dispersa la popolazione. Come
facciamo a saperlo se non abbiamo fatto l’esperimento? O abbiamo già dei dati o magari ci sono in
bibliografia, magari abbiamo altre indicazioni.

L’altra cosa da definire è capire quale è la distanza tra le medie che ci aspettiamo per poter dire se uno è
meglio di un altro. Devo decidere la minima differenza significativa che è la distanza tra le due medie tale
per cui possa dire che una prova è migliore dell’altra.

Altra informazione di cui abbiamo bisogno è il livello di significatività del test, che di solito è scelto al 5%.
Quello da scegliere è anche la potenza. Spesso la
potenza viene scelta il doppio della significatività
perché la potenza la vediamo solo da un lato.
Quindi se 5% è metà ad una coda e metà all’altra,
la potenza spesso sta tutta su una coda sola e
quindi per avere il 5% da un lato devo
considerare un 10% complessivo.

La distanza tra le due medie è la somma di due


segmenti. Il primo segmento è il limite tra la
media della prima popolazione e il limite dell’area
di accettazione. Il secondo segmento è la distanza

122
tra il limite dell’area di accettazione (ma anche il limite di beta) e la media di questa popolazione.

Se prendiamo 5% da tutte e due le parti (quindi 2.5 e 2.5) queste due distanze sono in realtà uguali e quindi
su una normale sono 1.96 volte l’errore standard. Per la potenza potremmo scegliere un valore diverso, ad
esempio 10 al posto del 5. Ricordiamo che la distanza tra le due medie è uguale alla somma di questi due
segmenti.

Se torniamo sulle formule cosa possiamo dire? Per ogni lato a (distanza tra la prima media e il limite
dell’area di accettazione) e b (distanza tra la seconda media e il limite dell’area di accettazione), possono
essere scritti come:

 
 a  Z  b  Z 
n n
Le sigma delle popolazioni sono considerate omogenee perché il trattamento ha solo l’effetto di traslare le
popolazioni e non di variare l’ampiezza. Assumiamo che i due campioni abbiano la stessa numerosità. Se
alfa e beta sono entrambe al 5%, Z è 1.96 e Z è 1.96 (ampiezza sulla normale standardizzata).

a+b è la distanza tra le due medie (che è quello che voglio rendere significativo) e raccogliendo viene
questa quantità:

( Z  Z  )    (Z  Z  )  
2

 a b  n  
n   a b 
Nel test t di confronto tra due campioni indipendenti si parla di SED e non di SEM e il SED ha nella formula
un 2. Quindi se da questa formula, ci ricaviamo n e teniamo conto del 2sigma abbiamo che n deve essere
maggiore di questa:

 ( Z  Z  )  2 
2

n  
  a b 
Quindi n è la numerosità campionaria che mi permette di garantire questi livelli di alfa e di beta. In realtà
sulla significatività non c’è niente da garantire perché la scegliamo prima, ma l’impatto è su beta. Quindi ci
permette di garantire beta, dato alfa, per avere quel certo livello di protezione sul test.

I numeri richiesti per garantire la protezione del test sono sempre molto alti, 1.96 serve per rifiutare
l’ipotesi nulla, ma qui vogliamo spostare la media della popolazione.

Ricapitolando. La situazione nel grafico di prima è la situazione che ci piacerebbe avere, perché abbiamo
l’area che è il rischio di compiere l’errore di prima specie e l’altra area che è il rischio di compiere l’errore di
seconda specie. Se così vale ci stiamo garantendo una grande area di potenza. La potenza è fare in modo
che il grosso della popolazione sia fuori dall’area di accettazione dell’ipotesi nulla. Questa situazione è
l’ideale, perché se fossimo nella situazione in cui le popolazioni fossero troppe sovrapposte, non saremmo
in grado di notare differenze. Quest’ultima situazione dipende dalla dimensione campionaria, perché una
123
situazione così grave, la posso correggere aumentando la dimensione campionaria. Così facendo stringo la
dispersione, perché quelle non sono popolazioni di individui, ma sono popolazioni di medie campionarie e
quindi dipendono dalla dimensione campionaria. Si tratta di fare semplicemente un esperimento più
grande in modo da ridurre l’errore standard.

Se aumento il livello di significatività, quindi prendo 10% anziché 5%, aumento il rischio di errore di prima
specie e aumento la potenza, ovvero riduco il rischio di errore di seconda specie. Se voglio dimostrare una
differenza più grande, aumento la potenza perché le popolazioni sono più lontane. Maggiore è la
dispersione dei dati e più ho bisogno di numerosità campionaria. Più è grande il campione e maggiore sarà
la potenza, perché si riduce la dispersione delle medie campionarie, i test unilaterali sono più potenti dei
test bilaterali, perché concentrano l’area di rifiuto solo da un lato.

124
18/04/2018

Ricapitolando. Come affronto i vari step per fare un test t? in termini generali faccio un test t di confronto
tra due campioni quando ho due campioni, ovvero ciò che prima di tutto mi dice che devo fare il test t è il
fatto che devo confrontare due campioni. Questa è la prima informazione.

La seconda informazione è, volendo confrontare questi due campioni, cosa voglio confrontare in questi due
campioni? Di solito, le medie perché voglio vedere se i trattamenti a cui ho sottoposto i due campioni
hanno dato origine a una differenza in termini di valore medio. Se questa è la ragione per cui sto testando i
due campioni va bene il test t di confronto tra due campioni. Altra domanda da porci è se ci sono differenze
in termini di varianza, questo è molto meno frequente e lo si fa per la verifica delle assunzioni.

Quindi ho due campioni e voglio confrontare le medie. Il passo successivo è chiedersi se l’esperimento è
stato impostato bene? Vuol dire chiedersi se ho adottato tutte le procedure necessarie affinchè l’unico
elemento che differenzia le misure fatte sui campioni sono imputabili al trattamento. Cioè questi due
campioni differiscono solo per ciò che voglio confrontare o ci sono anche altri elementi che vanno ad
influenzare su questa differenza di medie? Se la risposta è che ci sono altri elementi che influenzano la
differenza di medie, quei dati non mi potranno più servire a sostenere ciò che voglio sostenere. Se ad
esempio voglio confrontare le caratteristiche tra gli acini d’uva di due vitigni in due comuni diversi coltivati
in maniera diversa, come faccio ad imputare le differenze solo al vitigno, se ci sono altre cose che
influenzano? Noi dobbiamo essere sicuri che l’unica differenza che ho è il parametro che sto analizzando.
L’importante è non imputare la differenza di un trattamento quando ci sono altri trattamenti che
influenzano.

A questo punto, faccio un test di confronto tra campioni appaiati o indipendenti? Dipende dall’esperimento
e per sapere se i campioni sono appaiati o indipendenti, bisogna vedere se le misure che appartengono ai
due campioni sono state fatte entrambe sulle stesse unità statistiche (si parla di campioni appaiati e di
solito si ha questo caso quando si fanno misure nel tempo, misure ripetute). Se invece sono state fatte su
unità statistiche diverse (c’è un gruppo di trattati e un gruppo di non trattati oppure trattati A e trattati B) si
parla di campioni indipendenti.

Parlando di R, possiamo applicare un test t di confronto tra due campioni appaiati o indipendenti, ciò che
cambia sarà la parametrizzazione della formula. Se “paired” è TRUE vuol dire che ho campioni appaiati, se è
FALSE vuol dire che sono indipendenti. Altra informazione da dare è al “var.equal” ovvero all’informazione
che ci dice se assumo le varianze omogenee o no: se rispondiamo TRUE fa il T di student e quindi vuol dire
che le varianze sono omogenee, se rispondiamo FALSE assume le varianze non omogenee e fa un altro test.
Per rispondere alla domanda se le varianze sono o no omogenee, faccio il test F, test che in R si chiama
var.test, questo è un test F delle omogeneità delle varianze per due campioni. Quando ho più varianze uso
l’ANOVA, se ne ho due uso il test F e se questo test ci dice che le varianze sono omogenee, accettiamo
l’ipotesi nulla, ovvero ho P(F) maggiore del 5% e quindi alla risposta var.equal rispondiamo TRUE.

Dopo aver fatto tutto ciò, a questo punto c’è da scegliere il numero di code sul t.test, la maggior parte delle
volte è un “two sides” quindi a due code, ovvero ci chiediamo se le due medie sono uguali o diverse (non
stiamo assumendo da che parte è diversa). L’ipotesi nulla è sempre la stessa, ovvero che le popolazioni
hanno la stessa media. Nel test ad una coda, “greater” o “less” scegliamo l’ipotesi alternativa, ovvero se le
popolazioni non sono uguali, ci chiediamo se la media di uno è maggiore o minore dell’altra.

125
Dopo aver fatto girare le formule, avremo diverse informazioni, tra cui il P(t), ovvero la probabilità di quel t
in termini di significatività (integrale sulle code). Se questo P(t) è maggiore del 5% accettiamo l’ipotesi nulla,
se è minore rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa che dice che c’è differenza. In termini
di risultato riportiamo il P(t), di solito con 3 decimali e questo ci dice se c’è una differenza significativa o no.

A livello di commento della sperimentazione, riportiamo la tabella con le due medie, l’indicazione di quale è
la variabilità e poi il P(t). Se accettiamo l’ipotesi nulla diremo che il trattamento non ha comportato
differenze nelle due medie che pertanto possono essere considerate uguali, se rifiutiamo l’ipotesi nulla
diremo che il trattamento ha indotto una differenza significativa, molto o altamente significativa. Tutte le
altre conclusioni sono osservazioni indotte dalla nostra competenza scientifica di quello che ci stiamo
occupando.

ANALISI DELLA VARIANZA, ANOVA

Facciamo un esempio nel campo


agronomico. Vogliamo confrontare il
livello produttivo di 4 varietà di
frumento, 4 trattamenti sperimentali e
poi abbiamo bisogno di repliche per
esplorare la variabilità delle
popolazioni.

Se prendiamo solo 4 valori, 1 per ogni


trattamento, abbiamo la stima del
valore di ogni trattamento ma non
avremmo informazioni sulla variabilità.
Quindi per ogni trattamento abbiamo
bisogno di avere delle repliche che ci permettono di esprimere anche la variabilità di risposta, quindi
decidiamo di prendere un certo numero di repliche, in questo caso 5 repliche per trattamento.

Se abbiamo 4 trattamenti e 5 repliche per trattamento, alla fine abbiamo 20 unità sperimentali, unità
statistiche, individui, che in questo caso sono parcelle, cioè sono superfici di suolo che coltiviamo in modo
omogeneo per tutti gli aspetti e per tutti gli aspetti che noi non vogliamo confrontare la gestione è la
stessa, l’unica cosa che differisce è che stiamo seminando 4 varietà diverse.

Questo è uno schema di 4 colonne di parcelle per 5 file e quindi si potrebbe pensare di mettere 5 di varietà
1, 5 di varietà 2 e così via. Per trattamento non intendiamo il trattamento fitosanitario, semplicemente che
io ho gestito le unità sperimentali con la differenza che sto analizzando (quindi trattamento o varietà in
questo caso sono le stesse cose).

Quindi partiamo dal presupposto che abbiamo 4 varietà. Se facessi questo, ovvero di avere da una parte
tutta la varietà, poi tutta la varietà 2 ecc, avrei un problema. Questo è un appezzamento e può avere una
variabilità interna. Quindi se fossi in una situazione del genere succede che tutte queste variabilità che ho
sulla superficie influenzano in modo diverso le parcelle da una parte rispetto a quelle dall’altra parte, quindi
avrei questi fattori esterni che influenzano in modo diverso le varietà e quindi avremmo degli effetti
sovrapposti al trattamento che sto analizzando.

126
Se fossimo in questa situazione il problema è che rischieremmo di avere delle componenti che influenzano
il fattore che stiamo analizzando, per esempio effetto varietà sulla produzione. Noi stiamo confrontando le
varietà per la produzione, o per la produzione di proteine, quindi costruiamo un modello causa-effetto. Nel
caso della produzione ho produzione= f(varietà), quindi sto costruendo un modello matematico y=fx.
Abbiamo bisogno di essere sicuri che è solo quella la componente influente, lo facciamo con la
randomizzazione. Randomizzare significa disporre casualmente, in questo caso disporre casualmente le
parcelle su questa superfice. Qual è il miglior modo per randomizzare? Essere sicuri che sia casuale,
qualsiasi strumento che io usi per scegliere una randomizzazione, se in qualche modo mi allontana dalla
randomizzazione vuol dire che non va bene, perché la randomizzazione per definizione è una distribuzione
casuale. Perché questo effetto casuale mi garantisce rispetto ad avere altri fattori influenti che stiamo
guardando? Perché fa sì che l’influenza dei parametri su quello che stiamo guardando è casuale, quindi non
vuol dire che non c’è un effetto indotto, questi effetti indotti continuano ad esserci ma c’è bisogno che
questi colpiscono in modo casuale e omogeneo tutti i trattamenti. Quindi quello che mi garantisce che
l’influenza dei fattori esterni sulle unità sperimentali non mi causa una sovrapposizione di effetti è perché
randomizzo sulla superfice.

Se le parcelle 3 fossero finite tutte nella zona più fertile e la 4 nelle zone meno fertili, come gestisco
questo? La statistica afferma che questo può succedere e non c’è modo di risolverlo. Se c’è una parcella più
fertile e una meno fertile, c’è per forza una varietà che sarà su quella fertile e una su quella meno fertile. La
statistica però dice che questo è poco probabile e quindi poiché è tale non succederà, se dovesse succedere
è perché in statistica lavoriamo con popolazioni.

Quando io so che c’è un trend di variabilità sulla superfice non gestiamo normalmente la randomizzazione
in questo modo. Per esempio se so che c’è un trend di fertilità più alto nella parte di sopra e più basso
sotto, se sapessi questo su questa rappresentazione avremmo un problema: gli 1 sono disposti
omogeneamente, ma i 2 sarebbero più affetti dalla parte meno fertile e meno affetti dalla parte più fertile.
Se sapessi già questo quando imposto un esperimento, vedo di randomizzare dove c’è omogeneità e non
randomizziamo nell’altra parte. Quindi se so che c’è un trend di variabilità in una certa direzione, faccio la
randomizzazione perpendicolare e sfrutto la conoscenza di quella variabilità a mio vantaggio: se so che ho
una zona più fertile nella parte di sopra e una meno fertile nella parte di sotto, farei la randomizzazione
nella zona di omogeneità e non nell’altra. Quando si fa questo si parla di misure randomizzate di blocchi
randomizzati.

La randomizzazione completa ha senso perché la variabilità che ho non è solo quella che conosco, ma è
anche quella che non conosco. Infatti anche in una camera di crescita a condizioni controllate, ad esempio,
ho bisogno di gestire la variabilità perché il problema non è la variabilità che conosco ma è quella che non
conosco.

Su questo appezzamento, dove c’è casualità e dove abbiamo un


effetto indotto dai 4 trattamenti, cosa succederà? Avremo due
casi, o le 4 varietà sono varietà che portano a produzioni diverse
e quindi io troverò una base di variabilità complessiva, per cui
tutte le parcelle non producono lo stesso e anche le parcelle con
stessa varietà hanno una variabilità. Questa è la variabilità di base. Su questo può innestarsi o no un effetto
trattamento che deriva dal fatto che c’è la varietà che può indurre delle differenze produttive.

127
La domanda che noi ci poniamo non è se i semi che abbiamo seminato appartengono a varietà diverse, ma
è se il fatto di avere diverse varietà ha un effetto sulla produzione. Perché noi potremmo avere 4 varietà
con nomi diversi ma geneticamente sono uguali e quindi se c’è variazione, questa non è indotta dalla
varietà.

Abbiamo 4 medie di trattamento e una media


generale. A questo punto il problema è ma se
avessi seminato la stessa varietà
sull’appezzamento e casualmente avessimo
messo colori diversi sulle parcelle e avessi
radunato quelli con lo stesso colore, quindi in
realtà non sono 4 diverse varietà,
semplicemente la differenza è il colore
assegnato alla parcella, e le organizzo in
questo modo, comunque queste 4 medie non
sarebbero uguali perché esiste una
distribuzione di medie campionarie. Noi
abbiamo detto che se questi valori sono generati da una gaussiana con una sua media generale e una
deviazione standard, non è che noi ci aspettiamo che questi 4 valori medi di questi 4 campioni siano tra loro
uguali. Ci aspettiamo che abbiano meno variabilità di sopra, infatti la loro dispersione non è più  ma è
/√n (dove n in questo caso è 5), quindi sarà almeno la metà di quella prima. Infatti la dispersione di
queste 4 medie è inferiore rispetto a queste e vuol dire che non esiste. Anche questi 4 valori hanno una
loro dispersione. Quindi ciò che mi chiedo è ma questi 4 valori differiscono tra di loro solo perché sono 4
campioni presi a caso da un'unica popolazione che non ha nessun effetto trattamento interno ma ha solo la
variabilità naturale indotta dalle parcelle oppure queste medie sono tra loro diverse perché le varietà sono
diverse e quindi c’è un effetto varietà che porta a popolazioni diverse? Questa è la domanda che noi ci
poniamo in termini statistici e a cui vogliamo rispondere per dire se esiste un effetto trattamento legato a
queste 4 varietà.

Questi campioni qui e questi valori


sono i 20 valori misurati sulle parcelle
rappresentate sull’asse x, per cui li
troviamo nella stessa posizione x del
grafico di sopra e di sotto. Ma la
domanda è questi sono stati
campionati da un'unica popolazione o
da popolazioni diverse?

Se è vero che sono stati campionati


dalla stessa popolazione (grafico
sopra) è vera l’ipotesi nulla cioè che le
medie delle 4 varietà sono uguali. Se
questo non è vero è vera l’ipotesi
alternativa che però non è un’unica
ipotesi alternativa.

128
La differenza tra ANOVA e gli altri test è che gli altri test avevano un’ipotesi nulla e una alternativa,
nell’ANOVA invece abbiamo un’ipotesi nulla e più ipotesi alternative. Quindi rifiutare l’ipotesi nulla non
significa accettare l’alternativa, significa accettare UNA ipotesi alternativa che però non sappiamo quale sia.
Ad esempio le ipotesi alternative possono essere che o le medie sono tutte diverse o due medie sono uguali
e due diverse, o a due a due uguali, o 3 uguali e 1 diversa, tutte le combinazioni possibili. Tuttavia l’ANOVA
non risponde a questo, ma si limita a dire se accettare o no l’ipotesi nulla. Se rifiutiamo l’ipotesi nulla, non
abbiamo informazioni su quale ipotesi alternativa accettare.

Quando si parla di modello di analisi della varianza,


tradizionalmente si tende ad associare questo in
figura alla rete unica del test. Quindi il test
semplicemente deve rispondere alla domanda
presentata, ovvero se le medie sono fra loro tutte
uguali o differiscono.

Oggi la statistica va verso una direzione che è intanto


quella di permettere di stimare i parametri. I primi
parametri sono le medie delle varietà, per cui se
queste sono diverse prima di tutto vogliamo sapere
quanto valgono, vogliamo prima di tutto costruire
l’intervallo di confidenza di quelle 4 medie campionarie, e poi vogliamo confrontare queste 4 medie per
vedere se tra loro sono diverse e uguali.

Questo discorso qui nell’ANOVA è molto complicato, nel senso che l’analisi stessa è complicata perché
magari non basta un solo confronto. Magari su quelle 4 varietà vogliamo vedere più parametri, ad esempio
posso dire che voglio costruire un modello che mi analizza il contenuto di proteina in base alla varietà ma
anche in base alla quantità di azoto che ho estratto. Oppure vogliamo analizzare una caratteristica del vino
in funzione del ceppo che fermenta ma anche in base alla temperatura di fermentazione. Quindi si possono
avere modelli più complicati di questi, non per forza c’è solo una via di confronto.

Per specificare questo bisogna capire cosa è un modello dell’ANOVA, perché ciò che vogliamo confrontare
nell’analisi della varianza è sostanzialmente quello che costruiamo nel modello.

La rappresentazione nell’immagine sopra è un modello base ed è il più semplice di tutti, ci serve per capire
come è fatto un modello ANOVA. Abbiamo detto che una distribuzione normale è una distribuzione dove i
valori sono condizionati da un valore medio e da una dispersione, per cui il valore medio è , la dispersione
è . Nel modello di ANOVA invece alla base di tutto noi vogliamo fare una differenziazione tra questi due
elementi, perché vogliamo separare la componente legata alla dispersione dalla componente caratteristica
della popolazione. Quindi noi non diciamo che i nostri dati sono dispersi secondo una normale che ha
media  e deviazione standard . Separiamo queste due componenti dicendo che tutti gli individui che noi
misuriamo ci aspettiamo che abbiano come valore , noi ci aspettiamo che tutti gli individui che misuriamo
poiché appartenenti a quella popolazione abbiano come media , poi però sappiamo che esiste una
componente di variabilità che è lo scarto rispetto a questo valore atteso 

Quindi noi se all’inizio eliminassimo questo +, e formulassimo


solo il nostro modello solo come Yi=, dove i è l’indice
dell’individuo quindi è un numero che va da 1 a infinito, sono tutti gli individui della popolazione, e se la

129
popolazione fosse omogenea avremmo un modello che è Yi=, cioè qualsiasi valore misurato appartenente
a quella popolazione ci aspettiamo che abbia un valore . Questo non è vero perché è vero che da tutti gli
individui della popolazione ci aspettiamo che questi valgano , ma è anche vero che c’è una componente di
variabilità indotta da altri effetti che è ciò che genera la variabilità e chiamiamo questa componente casuale


Quindi ogni Yi ha il suo i, sapendo che gli i hanno come media 0 quindi non influenzano il valore medio
generale, su ognuno si ma prendendoli tutti insieme fanno in modo che la media della popolazione è  e
non hanno niente di additivo. Sul singolo individuo sì, ma sul totale la media rimane a 0.

Se  è costante per tutti, la variabilità di Y sarà la variabilità degli  cioè dei . Quindi ogni Y è generato da
 che è uguale per tutti, più  che ha media 0 e deviazione standard . Quindi  (può essere sia positivo che
negativo proprio perché la media è 0) è la componente casuale che determina la dispersione della
popolazione.

La componente costante è  e non varia, la componente variabile la assegno ad una componente di


disturbo che è . Quindi tutti i valori hanno come media  ma si distribuiscono con la distribuzione di
probabilità intorno a valore  e questa dispersione è data dagli . È un modello interpretativo, ma perché la
rappresentiamo cosi?

A questo punto facciamo un passo in più ovvero quello di dire che ipotizziamo di partire da questa
popolazione, fatta con infiniti individui tutti connotati da  e con una dispersione rappresentata dagli 
media 0 e deviazione standard .

Adesso prendiamo casualmente metà degli


individui di questa popolazione, non con un
carattere che li identifichi, li scelgo in modo
casuale ma separo la popolazione in due. A
metà popolazione sottopongo il trattamento
a1, l’altra popolazione al trattamento a2 e
facciamo finta che il trattamento abbia un
effetto solamente additivo sulla media,
ovvero il trattamento non interagisce in
nessun modo con la variabilità dei dati.

Se in un’aula ho ad una metà maschi in piedi sui banchi e ad una metà maschi in piedi, noi ci aspettiamo
che la distribuzione degli  sia la stessa, solo che i maschi di un lato sono diventati più alti di 85 cm. Questi
85 cm non hanno effetto sulla loro variabilità, chi è più alto continua ad essere più alto e chi è più basso
continuerà ad essere più basso. Quindi la dispersione è la stessa, ciò che cambia è che chi sale su un banco
alto 85 cm sarà più alto di quei 85 cm.

Se noi facessimo questo, accadrebbe che metà della popolazione a cui aggiungiamo qualcosa si sposta più
in alto e spostandosi più in alto si tira su anche la , che a quel punto sarà a metà tra le due popolazioni. La
cosa importante è che questo ha avuto un effetto additivo sulla misura ma non ha interagito con la
variabilità.

Se facessi tutto questo avrei quello che abbiamo in figura, per cui continuo ad avere ancora una  che non
è più quella di prima perché se metà popolazione si è spostata anche  medio si sposta. La dispersione degli
130
individui sulla metà popolazione a cui è stato aggiunto qualcosa e l’altra metà popolazione che è rimasta
dove era, continua ad essere la stessa perché la quantità additiva non ha interagito in nessun modo con la
distribuzione. Però c’è differenza tra i due valori medi,  è quello che non si è mosso, sopra invece ho  più
una quantità fissa, però se facciamo questo  non è più la media generale ma è la media solo di una metà.

Quello che noi preferiamo dire è che a questo punto il fatto di aver spostato metà popolazione ha spostato
anche  e rispetto al nuovo  questa media della metà popolazione che ha subito l’effetto è più una
componente additiva detta 1 e la vecchia parte della popolazione è  meno una quantità 2. Essendo due
trattamenti 1 e 2 sono uguali ma con segno opposto. Gli alfa differenziano le popolazioni in termini di
media, ma non avendo effetto sulla dispersione, gli epsilon continuano ad avere la stessa distribuzione di
prima, cioè media 0 e deviazione standard sigma. Gli epsilon non vengono toccati da questo effetto qui
perché gli alfa (la traslazione) hanno un effetto puramente additivo.

Se fossero più trattamenti, più casi come le 4 varietà, il vincolo è che questi alfa fanno somma 0 perché
sono scarti delle varie medie dalla media generale, ma l’altra cosa importante è che gli epsilon non sono
cambiati, gli epsilon continuano ad avere deviazione standard pari a sigma e media 0.

Questo modello dove ogni valore misurato è dato dalla media generale , dalla
componente dispersa secondo una variabile casuale , e da eventuali effetti
trattamento  è il modello base dell’analisi della varianza a una via, il quale modello assume che la
dispersione dei dati è la stessa su tutti i gruppi perché è quella originaria della popolazione e che gli effetti
additivi introdotti dai trattamenti non hanno nessun effetto sulla dispersione dei dati se non per la
componente additiva di traslazione della popolazione.

Cosa facciamo nel fare un’analisi della varianza? Siccome queste popolazioni non le conosciamo, usiamo
tutti i campioni per stimare la variabilità di epsilon, quindi stimare la componente della variabilità della
popolazione, per stimare non tanto  ma per stimare +perché a noi interessano queste medie di
sottogruppi che sono le conseguenze dell’applicazione del trattamento. Quando ci interessa  e non +?
Quando crea l’ipotesi nulla, che ci dice che non è vero che la popolazione è stata traslata e il trattamento
non ha avuto nessun effetto.

A noi sostanzialmente interessano i , ma se l’analisi della varianza ci dice che ci sono differenze
significative allora ci interessano i +, ovvero le medie dei trattamenti e intorno a questi + ci interessa
disegnare le popolazioni attraverso l’intervallo di confidenza. è la distanza tra  e +, la linea
tratteggiata è la media del gruppo a seguito del trattamento.

A seguito dell’applicazione dell’anova avremo due informazioni principali, la prima è se abbiamo o no


differenza tra i trattamenti che è quello che vogliamo sapere, cioè l’introduzione dell’innovazione. Però
oltre a sapere se è migliorata o no, voglio anche sapere di quanto è migliorata. Queste sono informazioni
che mi aspetto a seguito dell’analisi della varianza.

Se io ho una popolazione di individui normalmente distribuiti e estraggo dei gruppi della stessa quantità da
quella popolazione, è come se estraessi campioni con la stessa dimensione. Se descrivo la variabilità delle
medie di quei campioni, le medie si distribuiscono di nuovo secondo una gaussiana come quella di
partenza, la media della nuova distribuzione gaussiana è la stessa di quella di partenza, l’unica cosa è che
meno dispersa, è più stretta, ha una minore dispersione.

131
Quanto si è ristretta? Di una quantità ben nota: se la dispersione dei valori originali era , la dispersione
delle medie campionarie è /√n, dove n è la numerosità dei campioni quindi quanti individui ci sono nel
campione. Quindi se ho una distribuzione di campioni che hanno dentro 20 individui, questa dispersione
sarà stretta e se i campioni non hanno 20 individui ma ne hanno 3, sarà più larga ma comunque sarà più
stretta della popolazione iniziale: più i campioni sono grandi e più la gaussiana si restringe, tuttavia dipende
anche dalla radice di n.

Questo vuol dire che se da una popolazione estraggo individui e poi faccio varianza e deviazione standard
ho una stima e quindi un s e non un , calcolo gli scarti rispetto alla media e quindi calcolo la deviazione
standard quello mi stima la deviazione standard, quindi ho una stima campionaria della deviazione
standard della popolazione che è un s e non un sigma.

Se da una popolazione di medie campionare estraggo delle medie campionarie, dei gruppi di individui e poi
calcolo la dispersione delle medie campionarie di quei campioni rispetto alla media generale (alla media
delle medie), questo mi da la dispersione delle medie campionarie, che è più piccola ed è il SEM, errore
standard della media, s/√𝑛. Quindi se io stimo la dispersione degli individui c’è un s che è la stima di sigma,
se guardo la dispersione delle medie campionarie ho un s/√𝑛 che stima , /√𝑛.

Apriamo Excel e facciamo un esercizio per capire. Andiamo ad analisi dati, generazione di un numero
casuale e ok. Completo la tabella, mettendo le varie informazioni:

Otteniamo così una generazione casuale di 10000 numeri. Adesso dobbiamo calcolare la media e la
deviazione standard della popolazione e dei campioni. La media della popolazione è la media di tutti i valori
e la deviazione standard è la deviazione standard campionaria di tutti i valori (notiamo che entrambi i valori
calcolati sono vicini a 9 e 1).:

132
Ora estraggo i campioni, facciamo la media dei primi 10 campioni.

Adesso queste 10 celle con media in alto e niente sopra, le evidenzio e le copio. Vado
sulla colonna popolazione, vado verso il fondo con controll+freccia in basso, ci
spostiamo una cella a destra facciamo controll+shift+freccia in alto e do invio.
Succede che ogni 10 campioni abbiamo la media di quei 10 campioni.

Nella colonna “campioni” abbiamo dei campioni estratti (1000) casualmente di 10


elementi. Adesso calcoliamo la media e la deviazione standard di queste medie
campionarie. La media delle medie campionarie è uguale alla media della
popolazione degli individui. Quindi sposto a destra la formula della media della
popolazione e ottengo lo stesso valore:

Le medie anche se non leggono gli stessi numeri (una legge 1000 numeri e una 10000) sono
numericamente uguali.

Faccio la stessa cosa per la deviazione standard delle medie campionarie, che ovviamente sarà più piccolo:

Il valore di deviazione standard sarà piccolo quanto l’errore standard, ovvero deviazione standard fratto
radice quadrata di n, che è 10.

Quindi errore standard e deviazione standard campionaria non sono numericamente uguali solo per
approssimazione. Sono entrambe le deviazioni standard dei campioni. Quella dei campioni anche se
calcolata con la formula deviazione standard, è un errore standard perché la deviazione standard della
popolazione di medie campionarie si chiama errore standard. Da qui notiamo però che ciò che chiamiamo
errore standard (sigma/radice di n) altro non è che la deviazione standard dei campioni di 10 elementi.

La prima colonna è una popolazione infinita, abbiamo generato una popolazione di 10000 valori che ha
media di 9 e deviazione standard di 1 più o meno. Poi da questa popolazione prendiamo infiniti campioni

133
tutti di 10 elementi e quindi abbiamo nella seconda colonna un elenco di mille campioni estratti
casualmente da questa popolazione.

Se dalla popolazione di individui generiamo una popolazione delle medie campionarie vedremo che le
medie campionarie avranno media uguale alla media degli individui e deviazione standard pari a
sigma/radice di n, quest’ultima quantità è chiamata errore standard.

Ciò che abbiamo fatto ora con questo esercizio è dimostrare ciò che abbiamo appena detto in maniera
numerica. Infatti abbiamo la popolazione di individui e la popolazione di medie campionarie. La media della
popolazione di individui è 8.99, la media della popolazione di medie campionarie è la stessa. Quindi la
prima osservazione, ovvero che gli individui e le medie campionarie hanno la stessa media, è stata
dimostrata.

Se 0.99 è la deviazione standard della popolazione, quanto vale l’indice dispersione che si chiama errore
standard ma che di fatto è la deviazione standard delle medie campionarie? L’abbiamo fatto applicando la
formula e viene approssimato 0.32, l’abbiamo fatto calcolandola veramente sui campioni e viene
approssimato 0.32. Questi due numeri non sono proprio uguali e la differenza deriva dal fatto che abbiamo
preso 1000 campioni, che sono tanti ma non sono infiniti. Questo dimostra che se calcoliamo la deviazione
standard delle medie campionarie viene l’errore standard.

Consideriamo questo grafico, se faccio una


rappresentazione del genere dove l’asse y ha i
valori misurati e l’asse x ha solo la progressione dei
valori e facciamo sostanzialmente la stessa cosa
che abbiamo fatto prima con l’esercizio, cosa salta
fuori? Salta fuori che invece di 10000 valori ne
abbiamo 20 e invece di dividerli in 1000 campioni
da 10 elementi ciascuno, li dividiamo in 4 campioni
da 5 elementi ciascuno. Stiamo lavorando quindi
con molti meno numeri rispetto a prima, ma la
logica dovrebbe essere la stessa. Quello che
confrontiamo è la stessa cosa di prima, quindi
andiamo a confrontare, non tanto le medie ma se la deviazione standard data dai 20 campioni coincide con
l’errore standard ottenuto dalle 4 medie campionarie.

Praticamente dal punto di vista dei calcoli calcoliamo la dispersione, la deviazione standard degli individui
attorno alle medie campionarie e la dispersione delle medie campionarie attorno alla media generale.

134
Quando vediamo gli individui e vediamo la loro
dispersione intorno alle medie campionarie
facciamo lo scarto di ogni singolo valore
misurato dalla media campionaria e dividiamo
per i gradi di libertà e otteniamo una stima di
varianza, quindi non sono arrivato alla
deviazione standard (non ho messo sotto
radice) ma ci fermiamo alla varianza. Questo è
fatto sulla popolazione degli individui rispetto a
. In realtà lo facciamo non proprio rispetto a 
ma rispetto alla media campionaria.

A destra, guardiamo la distribuzione delle medie campionarie e quindi scartiamo le medie campionarie
dalla media generale che non è  ma che non lo conosciamo.

Quindi il primo calcolo lo facciamo considerando i


segmenti neri, che collegano i valori misurati alle
medie di trattamento. Il secondo calcolo lo
facciamo guardando la distanza delle medie del
trattamento dalla media generale.

Il primo calcolo (a sinistra) ci stima la varianza


complessiva della popolazione, sono solo 20 numeri
ma comunque ci da una stima della varianza di
popolazione. Il secondo (a destra) ci da una stima
dell’errore standard della popolazione, in realtà è
elevato al quadrato quindi ci da la varianza.

Quindi di fatto, passando dalla strada a sinistra vediamo una stima della varianza di s2, invece passando
dalla strada a destra, ovvero quella delle medie del trattamento, arriviamo alla stima della varianza delle
medie campionarie s2/n, che deriva dall’errore standard.

Guardando gli scarti dei valori misurati dalla media di trattamento (passando dagli individui e dai loro scarti
dalla media del trattamento) con la formula della varianza otteniamo la varianza della popolazione
(sinistra), se facciamo lo stesso conto passando dalle medie campionarie otteniamo il quadrato di un errore
standard e al posto di essere s/√n sarà s2/n. Quindi al numeratore ci sono gli scarti di ogni valore misurato
dalla media di trattamento che sono i segmenti neri nella rappresentazione, nell’altra formula ci sono gli
scarti dalla media di trattamento alla media generale. Numericamente abbiamo tutti i parametri per
calcolare davvero la stima di queste due varianze. Abbiamo quindi due varianze, quella degli individui e
quella delle medie campionarie che passa attraverso l’errore standard.

La formula di destra, quindi s2/n ci aspettiamo che numericamente non sia uguale al s2 (anche prima infatti
abbiamo detto la deviazione standard degli individui è 1 e quella dei campioni è inferiore a 1), però noi
nella formula di destra sappiamo quanto vale n, che è la numerosità dei campioni. Per ogni campione
abbiamo 5 valori, quindi quell’n che sta al denominatore sappiamo quanto vale. Allora perché non
moltiplichiamo questa quantità s2 per n (quindi prendo n lo tolgo dal denominatore e lo moltiplico per
l’altra parte dell’uguaglianza)? Stiamo guardando due formule diverse per calcolare la varianza della

135
popolazione, anche quella che passa dalle medie campionarie ci da la varianza di popolazione, perché l’n
che sta al denominatore l’abbiamo portato a destra al numeratore.

Questi due valori ci aspettiamo che siano uguali, ma non proprio numericamente uguali, ci aspettiamo che
nella sostanza siano uguali poi numericamente non saranno uguali perché sono due stime indipendenti e
quindi si assomigliano. Per vedere se due varianze sono uguali, usiamo il test F, quindi per capire se due
varianze indipendenti sono tra loro uguali o no. Facciamo il test F delle due varianze e il P(F) ci dirà se
accettare o no l’ipotesi nulla, ovvero che le due varianze sono uguali.

In tutto questo c’è un problema, ovvero che queste due varianze non dovrebbero essere uguali, perché una
è la stima della varianza della popolazione e una è la stessa stima della varianza della popolazione ma che
passa dalle medie campionarie. In realtà c’è un problema.

Consideriamo la rappresentazione grafica, ho la


media generale da cui abbiamo estratto i 4
campioni e sotto l’ipotesi nulla che questi campioni
siano distribuiti in questo modo solo per la
casualità, effettivamente queste 4 medie sono
distribuite così come medie campionarie. Noi prima
abbiamo fatto l’ipotesi di un trattamento che
spostava i valori di quel sottogruppo in alto, per
esempio ho dato più concime al frumento e ha
prodotto di più oppure ho usato una varietà diversa
più produttiva.

Questi sono trattamenti che hanno l’effetto di spostare le medie, i valori di una quantità nota, ma la loro
dispersione non cambia (es. dei ragazzi che salgono sul tavolo ma la loro altezza non cambia, aumenta a
tutti di 85 cm).

Ad esempio Il gruppo 1 (con i 4 campioni sopra e 1 sotto), si trova per una certa ragione traslato verso l’alto
di una quantità nota ma rimanendo cosi come è: tutti questi valori vengono spostati in alto quindi al posto
di avere la media in un punto ce l’hanno più sopra, quindi si spostano i pallini blu e la riga fucsia, ma si
sposta anche la verde. Quindi la loro dispersione, ovvero i segmenti neri, non cambia.

La varianza degli individui che dipende dalle medie di trattamento, cambia? Se si sono spostati i valori ma si
sono spostate anche le medie di trattamento della stessa quantità, la stima della varianza degli individui
non cambia e rimane come prima. Il fatto che la media sia andata in alto, ha spostato l’entità dello scarto,
ma si è portato anche la linea verde quindi anche gli scarti dei valori misurati (di sopra) diventano grandi,
l’unico che diminuisce è probabilmente lo scarto del valore misurato che sta sotto. Quindi il fatto di aver
spostato un trattamento complessivamente abbiamo più variabilità di trattamento.

Un effetto trattamento uguale a quello visto prima, cioè con le componenti traslative alfa sono componenti
che se esistono vanno a spostare la varianza stimata dalle medie, ma non la varianza stimata dagli individui.
Se la variabilità delle medie è indotta solo dalla naturale variabilità della dispersione delle medie
campionarie, queste due stime di varianza risultano uguali.

136
Se per qualche ragione c’è un effetto
trattamento che ha spostato la media in
alto o in basso, succede che non è più
vero che le varianze sono uguali, perché la
prima resta uguale a sè stessa, la seconda
diventa più grande, mai più piccola perché
essendo una somma degli scarti al
quadrato è sempre positiva e può sempre
e solo crescere. Quindi alla fine quando
facciamo il test F per vedere se le varianze uguali, abbiamo detto innanzitutto che la più grande va al
numeratore e la più piccola al denominatore, in questo caso la varianza della formula di destra è sempre
più grande o uguale: quindi facciamo il test mettendo s2/n (quella delle medie campionarie) al numeratore
e s2 al denominatore (quella degli individui). Se questo valore di F ci dice che le due varianze sono uguali
allora significa che le medie sono disperse solo secondo la distribuzione delle medie campionarie e quindi
non c’è nessun effetto trattamento. Se il test F ci dice che le due varianze sono uguali vuol dire quindi che la
dispersione è indotta solo dalla dispersione delle medie campionarie. Se invece la varianza delle medie
campionarie è maggiore di quella degli individui, allora c’è un effetto trattamento e i componenti alfa non
sono dovuti solo alla distribuzione delle medie campionarie ma esistono davvero perché un pezzo di
popolazione si è spostato perché abbiamo applicato trattamento.

Abbiamo due informazioni, la prima risponde alla domanda del perché in un test dove confrontiamo delle
medie uso un test tipico per testare le varianze: perché guardo traslazioni di medie ponendomi il problema
in termini di varianza? Perché la differenza tra trattamenti causa un incremento di varianza.

(X i  X )2
s2  i 1
n
a 1
La varianza degli individui (a sinistra) è detta VARIANZA IN, quella delle medie campionarie (a destra) è
detta VARIANZA TRA.

La seconda informazione importante è che queste due stime sono stime di varianza indipendente perché
quella a destra passa attraverso le medie campionaria, quella a sinistra attraverso gli individui e passa
attraverso gli individui di tutti i campioni e non è influenzata dal valore campionario, perché gli scarti li
calcoliamo dalla media campionaria e quindi indipendentemente da dove sono messe le medie
campionarie, a noi interessa solo la dispersione attorno alla media campionaria quindi l’effetto di
traslazione alfa lo perdiamo (rimangono solo gli epsilon).

Quindi questa parte qui del ragionamento è molto importante perché la formula di sinistra è quella che ci
da la distribuzione degli epsilon, ovvero la dispersione della nostra popolazione. Quindi se vogliamo
calcolare gli intervalli di confidenza delle medie abbiamo la dispersione degli epsilon, sappiamo quanto vale
s o s2. Però s è una stima campionaria, tuttavia il t di student per campioni indipendenti questa è una
pooled variance, non è la varianza calcolata dentro un solo gruppo, infatti facciamo la somma dei j che
vanno da 1 a n (tutti gli individui del singolo gruppo), ma anche degli i che vanno da 1 ad a (ovvero tutti i

137
gruppi). Quindi tutti gli elementi contribuiscono all’analisi della varianza, quindi è la varianza stimata da 20
elementi, non solo da 5.

È quindi una pooled variance che continua ad essere s2, ma è stimato molto bene perché è stimato da 20
elementi. Più è grande l’esperimento, non solo perché aumenta la numerosità del singolo campione ma
anche perché aumenta l’insieme complessivo di individui utilizzati nel campione, e più aumenta la bontà di
stima della varianza a sinistra e quindi la bontà di stima degli intervalli di confidenza e la bontà di stima del
test.

Operativamente facciamo riferimento a questo


modello. La cosa che dobbiamo capire è che
nell’anova ad una via adottiamo il modello Yij.

Il singolo valore misurato Y che ha indice ij, dove i è


l’appartenenza al gruppo e j è il numero dentro il
gruppo, è dato dalla somma di tre componenti che
non componenti teorici ma sono 3 numeri che si
sommano (10=5+1+4).

Queste tre componenti sono  media generale


dell’esperimento,  scostamento di ogni valore
misurato dalla sua media di trattamento,  scostamento della media di trattamento dalla media generale.

Nell’esempio abbiamo 20 valori, un’unica media quindi  è solo una,  ce ne sono tante quanto i
trattamenti (quindi sono 4), solo di  ce ne sono 20. Quindi questo vuol dire che epsilon saranno 20 valori
diversi, ogni y avrà il suo epsilon, di mu uno solo che vale per tutti (tutti gli y avranno la stessa quantità mu),
di alfa ce ne sarà una per tutti gli elementi appartenenti allo stesso gruppo, per gli elementi di un altro
gruppo ci sarà un altro alfa. Epsilon è lo scostamento casuale, quindi è la differenza tra ogni valore misurato
e la media di trattamento.

Quindi alla fine concludiamo il nostro test facendo un test F, facendo varianza tra fratto la varianza in,
perché la varianza tra è sempre maggiore della varianza in. Se il rapporto è statisticamente non differente
da 1, diremo che non ci sono effetti trattamenti, se invece è maggiore di 1 ci sarà l’effetto trattamento
(perché P(F) sarà minore di 0.05). Tuttavia è possibile che la varianza in sia maggiore della varianza tra, non
ha senso ma è possibile. Questo vuol dire che nel fare delle stime campionarie questi due valori al minimo
sono uguali, quindi se facciamo due stime di una quantità uguale è possibile che uno faccia una stima più
bassa dell’altra (ecco perché è possibile che la varianza in sia maggiore della varianza tra), solo legata al
caso.

138
Quindi noi la parte di distribuzione F che considera la varianza tra minore della varianza in non la
guardiamo, perché se questo succede è solo la conferma che non ci sono differenze, cioè che i due numeri
sono uguali, e se una stima è minore dell’altra vuol dire che sono due stime uguali perché la tra non può
essere minore della in teoricamente parlando. Se invece la tra è maggiore della in, dal 5% (il limite critico) in
poi ci sono differenze significative per i trattamenti.

ESERCIZIO SULL’ANOVA ad 1 VIA su Excell

Andiamo dal foglio “dati” e copio le 4 varietà con i rispettivi pesi su un


nuovo foglio organizzandole in modo diverso, mettendo su una
colonna tutte le varietà e sulla seconda i valori e chiameremo questa
colonna peso:

Per calcolare le 3 componenti di Yij, ho bisogno di  ovvero la media generale, e le medie dei trattamenti.
Quindi mi creo la colonna delle medie generali e delle medie dei trattamenti.

139
Per calcolare la media generale, che è la media di tutte le celle
della colonna peso, uso la formula normale +MEDIA e seleziono
tutte le celle della seconda colonna. Poiché questa media è
uguale per tutti, sulla seconda cella scrivo +cella di sopra (+D2) e
poi invio e poi copio tutto fino giù. In questo modo, ogni cella
copia il valore della cella di sopra.

Per la colonna delle medie del trattamento, ovvero la media dei


6 valori per ogni varietà. Quindi scrivo +MEDIA e evidenzio le
celle della varietà 1. Faccio lo stesso procedimento di prima,
ovvero +cella di sopra e copio fino all’ultima riga della varietà 1.
Adesso per velocizzare e fare la stessa cosa nelle altre celle,
evidenzio i 6 valori appena ottenuti, li copio e li incollo nelle
celle delle altre varietà e in questo modo mi da i valori 6 per
volta.

Adesso calcoliamo gli scarti e quindi creo la colonna degli alfa e


degli epsilon. Per quanto riguarda alfa è la differenza tra la media
del trattamento (sottogruppo) e la media generale (popolazione) e
copio il risultato anche qui fin giù.

Per calcolare epsilon faccio la differenza tra il valore misurato e la meda del trattamento, anche qui copio
fino giù.

Adesso per verificare se abbiamo fatto i calcoli giusti, sommiamo i tre valori di mu, di alfa e di epsilon. Creo
la colonna ctrl (controllo) e notiamo che i risultati di questa colonna uguali alla colonna peso, ovvero quella
dei valori misurati.

Adesso creiamo la sezione degli scarti al quadrato, elevando al quadrato le colonne


degli alfa e degli epsilon.

Faccio gli scarti al quadrato perché per calcolare le devianze e quindi le varianze e le
deviazioni standard bisogna avere gli scarti al quadrato.

140
Nella tabella anova abbiamo gli effetti tra gruppi e
in gruppi, poi ci sono le devianze SQ, I gradi di
libertà gdl, la media dei quadrati MQ (in inglese
MS) ovvero la varianza (devianza fratto i gradi di
libertà), F che è il rapporto tra le varianze e infine il
P(F) che è il valore di significatività.

Nell’esempio fatto prima avevamo 4 varietà con 5


repliche, quindi avevamo 20 numeri misurati.
Questi 20 valori misurati danno origine ad un
totale gdl di 19. Nell’analisi della varianza esiste una proprietà importante, ovvero l’additività dei gradi di
libertà. I gradi di libertà dei trattamenti sono semplici da calcolare, quelli dei residui invece non è così facile
soprattutto nei modelli complessi, quindi i gradi di libertà dei residui li possiamo calcolare anche per
differenza.

Avevamo 4 varietà e quindi 4 gruppi e sui gruppi avevamo 3 gradi di libertà, questo vuol dire che le 4 medie
di gruppo costruiscono un’unica media generale (la media generale è anche la media dei gruppi, se i gruppi
hanno la stessa numerosità). Se ho 19 gradi di libertà totali e ne ho 3 per i gruppi, i gradi di libertà
dell’errore saranno 16 (19-3=16). Un altro modo per calcolare questi gradi di libertà è che se ho 5 repliche
dentro ogni gruppo, vuol dire che ho 4 gradi di libertà dentro ogni gruppo: 4 gradi di libertà dentro ogni
gruppo per 4 gruppi fa 16. Dentro un’analisi della varianza i gradi di libertà sono additivi e assommano al
totale. Questo vale anche per le devianze ma ci importa meno.

Adesso creiamo questa tabellina nel foglio di Excel di prima.

La devianza degli alfa e degli epsilon è la somma degli scarti al quadrato e


visto che sono già al quadrato, sommandoli avrò la devianza. Mi calcolo la
devianza di alfa e poi copio la formula a destra, mi calcolo così la devianza
degli epsilon.

I gdl dei trattamenti sono 3 perché abbiamo 4 varietà (gdl di alfa), per
epsilon me li calcolo per differenza. Abbiamo 24 valori misurati, uno lo perdiamo per la media generale e
quindi i gdl totali sono 23, epsilon (l’errore) avrà 20 gdl (23-3).

La varianza è la devianza fratto i gdl (sia per alfa che epsilon). La varianza degli epsilon è la pooled variance
ed è l’indice di dispersione della nostra popolazione. F è il rapporto tra le due varianze, quindi varianza di
alfa fratto varianza di epsilon.

Il P(F) si calcola usando la formula +DISTRIB.F.DS e a x metto il


valore di F, a gdl1 metto i gdl del numeratore e quindi 3, a gdl2
metto i gdl del denominatore e quindi 20.

Ho un valore di P(F) pari a 0.007 (si esprimono sempre con 3


decimali). Poiché è un valore minore del 5% rifiutiamo l’ipotesi nulla.

L’ipotesi nulla del test F è che le due varianze siano uguali, tradotto dal punto di vista operativo l’ipotesi
nulla è che queste medie di trattamento (72,85,76,62) siano uguali. Rifiutiamo l’ipotesi nulla e quindi
diciamo che le medie sono diverse perché appartengono a 4 varietà diverse.

141
Quindi varianza tra è maggiore della varianza in, perché quelle medie non differiscono solo per la
distribuzione delle medie campionarie, ma perché ci sono degli effetti significativi indotti dalle 4 medie di
trattamento ovvero le 4 medie di varietà.

L’anova si ferma qui, non ci dice chi è diverso da chi, ma ci dice solo che sono diversi.

Siamo arrivati al punto in cui diciamo che le 4 medie sono diverse e l’anova ci da pure un altro valore
importante ovvero la pooled variance che è 100.9. Abbiamo detto che partiamo da una distribuzione che ha
una sua certa dispersione, a pezzi di popolazione applichiamo delle componenti traslative, che in questo
caso sono le varietà, ma questa componente di dispersione dei dati rimane la stessa. Quindi si spostano le
medie ma la distribuzione degli epsilon, che ha media 0 e deviazione standard , rimane la stessa. Adesso
abbiamo fatto l’anova, abbiamo detto che le medie sono diverse, ma non sappiamo ancora chi è diverso da
chi.

Adesso ci creiamo un’altra tabella, per calcolarci LCL e UCL:

LCL e UCL sono rispettivamente il limite inferiore e superiore dell’intervallo di confidenza. SI è il


semintervallo, poi ho t che è un t al 5% con 20 gradi di libertà, SEM che è l’errore standard, s è la stima della
deviazione standard di errore e n è il numero di repliche che sostiene il calcolo della media di trattamento.

Quindi n=6, s è la radice quadrata della varianza 100.9 e blocchiamo entrambi (sia n che s) con il $ e quindi
riferimento assoluto. Il SEM è s/√n. Per calcolare t uso la funzione inversa (perché conosco la probabilità e
voglio sapere il valore), quindi +INV.T.2T dove alla probabilità metto 0.05 e ai gradi di libertà 20. Il SI (quella
quantità che dobbiamo togliere o aggiungere alla media) è il prodotto tra t e SEM.

Adesso possiamo calcolarci LCL e UCL, dove LCL è la differenza tra la media di trattamento e il semintervallo
e UCL è la somma tra media di trattamento e semintervallo.

Questo ci dice che le 4 medie sono diverse, non abbiamo ancora capito chi è diverso da chi, ma abbiamo
stimato le medie in termini inferenziali (cioè sulle popolazioni e non solo sui campioni). Ad esempio il 72 è
un valore che va da 63.4 a 80.5 e così via. Questi sono gli intervalli della popolazione dove si trova
ragionevolmente, ovvero con una probabilità del 95%, la media che ha generato questo 72. Quindi nel
nostro esperimento abbiamo ottenuto 72 ma è una media campionaria, la popolazione sta negli intervalli
63.4 e 80.5. LCL lower confidence limit, UCL upper confidence limit.

142
ASSUNZIONI DI VALIDITA’ DELL’ANOVA
Tutto ciò fatto fino ad ora è vero e funziona solo se sono vere le assunzioni di validità quando applichiamo
l’analisi della varianza. Le assunzioni di validità dipendono dal test F:

143
1. Gli errori  devono essere tra loro indipendenti, cioè l’esperimento deve essere basato su un
disegno sperimentale organizzato in modo da garantire che non esiste correlazione fra errori  e
trattamenti sperimentali.
Questi epsilon devono essere indipendenti dai trattamenti. Come già detto se mettessi tutte le
varietà 1 da una parte e le altre varietà da altre parti, non garantirei più l’indipendenza degli
epsilon, rischierei di avere degli effetti sovrapposti tra gli errori e stima degli effetti trattamento.
Questo mi porterebbe ad avere stime errate, perché definirei effetto trattamento componenti di
variabilità che non sono dovute all’effetto trattamento ma che sono altre varietà. Io invece per
poter separare gli effetti trattamento e la variabilità della popolazione devo garantire che queste
componenti siano indipendenti. Faccio questo in generale con la RANDOMIZZAZIONE, più nello
specifico lo si fa adottando dei disegni sperimentali corretti.
2. Gli errori  devono essere distribuiti normalmente (deve essere verificata la normalità e nel caso
che non mostrino distribuzione normale, i dati devono essere trasformati).
La base dell’analisi della varianza è vedere se la distribuzione delle medie campionarie e quella
degli individui seguono la logica che abbiamo espresso e che poi testiamo con il test F. Noi abbiamo
una stima della varianza della popolazione che passa attraverso le medie campionarie e andiamo a
vedere se queste varianze sono uguali o diverse con un test F. La distribuzione F deriva dal fatto di
estrarre campioni su cui calcoleremo le varianze, ma estrarli da una distribuzione normale. Se la
distribuzione iniziale non fosse normale i rapporti delle varianze non seguono una distribuzione F.
Per garantirci che il rapporto delle varianze segue la distribuzione F, dobbiamo esser sicuri che
partiamo da una normale.
Non è richiesto che gli individui siano normalmente distribuiti. Nel modello di partenza  e  sono
delle componenti additive, sono gli  che devono essere distribuiti con media 0 e deviazione
standard  e seguire una distribuzione normale. I valori non sono gli epsilon, ma sono gli alfa (senza
considerare  che è uguale per tutti e vale solo come traslazione) che sono diversi per sottogruppo.
Potremmo trovarci delle distribuzioni bi o tri modali a causa delle traslazioni dovute agli alfa,
magari avendo gli epsilon distribuiti normalmente. Quindi gli alfa li vogliamo togliere dal test di
normalità, la normalità la facciamo solo sugli epsilon. Per cui l’assunzione dell’anova non è che i
valori sono normali, ma che gli epsilon sono normalmente distribuiti.
3. Le varianze fra i vari gruppi devono essere omogenee (occorre anche qui una verifica ed
eventualmente una trasformazione).
Dobbiamo verificare l’omogeneità delle varianze tra due gruppi, perché stimiamo un'unica
varianza, ovvero la pooled variance (stima corretta della varianza) che funziona solo se le varianze
stimano lo stesso valore. Se le varianze non stimassero lo stesso valore, quindi avremmo
popolazioni diverse dal punto di vista della varianza, la pooled variance non varrebbe nulla e ci
sarebbero alterazioni sul test F.

Queste sono le 3 assunzioni che facciamo per l’anova. L’assunzione 1 (gli epsilon devono essere
indipendenti) la verifichiamo adottando semplicemente un disegno sperimentale corretto. La 2 (gli epsilon
devono essere normalmente distribuiti) è dimostrata usando un test in R, detto Shapiro-Wilk. L’assunzione
3 (le varianze devono essere omogenee) è la più importante.

Come facciamo a garantire l’omogeneità delle varianze? Cosa è la varianza? La varianza è la somma degli
scarti al quadrato diviso i gradi di libertà (n-1). Di questa varianza possiamo estrarre la radice quadrata e
avere la devianza. Quindi ho le variabili che prima elevo al quadrato, le medio e poi le riporto alle unità di
misura di prima. Grosso modo diremmo che è una media quadratica di scarti, sostanzialmente è qualcosa
144
che riguarda la media degli scarti. Quindi dentro ogni gruppo mi aspetto di avere uno scarto medio
equivalente. Se io guardo gli scarti di ogni gruppo, lo scarto medio dentro questi gruppi più o meno
dovrebbe essere delle stesse entità. Se lo scarto medio è più o meno della stessa entità anche la varianza è
più o meno della stessa entità e quindi posso assumere l’omogeneità delle varianze. Al posto di guardare il
raggruppamento in 4 gruppi del vettore numerico, ovvero i pesi ettolitrici, posso guardare il
raggruppamento in gruppi e non in pesi ma in scarti (ovvero gli epsilon).

L’epsilon medio nei 4 gruppi è più o meno lo stesso? Se ho 4 gruppi e voglio dire se il valore medio di una
variabile di quei 4 gruppi è uguale o diverso, uso l’analisi della varianza (che serve a vedere se 4 gruppi
hanno la stessa media o hanno medie diverse). Quindi per testare l’omogeneità delle varianze nell’anova,
faccio un’altra anova solo che anziché farla sui valori misurati, la faccio sugli scarti e quindi testerò la media
del primo gruppo, del secondo, del terzo e del quarto e dirò se sono fra loro uguali o diversi. La media degli
epsilon di ogni gruppo è 0. È ovvio perché gli epsilon sono scarti da una media e la somma, quindi la media,
degli scarti alla media è 0.

Levene disse che bisogna vedere la media degli scarti, ma gli scarti li devo prendere in valore assoluto.

Quindi il test di omogeneità della varianza


sull’anova si fa applicando la stessa analisi
della varianza non ai valori misurati ma agli
scarti presi in valore assoluto. Quindi la
prima cosa da fare è ricavarci un’altra colonna di scarti presi in valore assoluto, usando la funzione +ASS e
cliccando sulla cella degli epsilon.

Ora ho gli scarti in valore assoluto e su un nuovo foglio Excel copiamo la colonna delle varietà e degli scarti
in valore assoluto, e facciamo incolla valori. Adesso seguendo lo stesso schema di prima, quindi
calcolandoci le medie, gli scarti e gli scarti al quadrato, facciamo l’analisi della varianza su questi valori.

Questa analisi fatta sugli scarti epsilon in valore assoluto prende il nome di Levene e ha il compito di dirci se
le varianze sono omogenee o no.

145
Otteniamo la tabella Anova e alla fine vado a guardare il P(F). Questo è 0.78,
poiché è maggiore del 5% accetto l’ipotesi nulla, ovvero che gli scarti medi nei
gruppi sono uguali e quindi che le varianze sono omogenee. In questo modo
capisco di aver fatto bene l’anova.

Se avessi rifiutato l’ipotesi nulla, avrei accettato l’ipotesi alternativa ovvero che gli scarti medi nei gruppi
sono diversi e quindi che le varianze sono diverse.

ESERCIZIO SU R

Facciamo lo stesso esercizio appena visto, ma su R. Mettiamo la solita istruzione di rimuovere tutto ciò che
sta nell’Environment. Adesso su Excel mi creo un nuovo foglio dove ho solo due colonne, ovvero varietà e
valore. Carichiamo i dati su R.

Per comodità conviene salvare la formula dell’analisi della varianza in un oggetto (perché l’analisi della
varianza contiene un output molto complesso), che chiameremo Anova.Model. Nell’oggetto diamo
l’istruzione per fare l’analisi della varianza e gli assegniamo la funzione, ovvero il valore in funzione della
varietà e gli diciamo dove prendere i valori, quindi data=dati. La funzione dell’analisi della varianza è lm,
ovvero linear model e tra parentesi metto il valore in funzione della varietà e il nome del dataset.

La funzione lm è la stessa che useremo per l’analisi della regressione. Oltre alla funzione lm si può usare
un’altra funzione che è l’AOV, che funziona
nello stesso modo ma da un output diverso
rispetto a lm. Quest’ultimo come già detto
sta per modello lineare e questo vuol dire
che noi consideriamo solo componenti
additive, quindi traslative. L’effetto degli
alfa su mu è che le componenti spostano
rispetto a mu. Questo vuol dire che è un
modello lineare e non hanno nessuna
influenza sugli epsilon.

Quindi abbiamo creato l’oggetto Anova.Model, che richiamo per vedere la tabella.

Questo oggetto è però un contenitore con


dentro tanta roba, la cosa più banale che
possiamo chiedere è la tabella dell’analisi della
varianza, quella tabella che abbiamo fatto in
fondo al foglio di Excel. Per far questo scrivo
come istruzione anova e tra parentesi metto
l’oggetto Anova.Model. La facciamo girare e ci
esce fuori una tabella che è esattamente quella
che abbiamo fatto noi su Excel.

Questa tabella ci dice che stiamo analizzando il


valore (response valore) e abbiamo le varie informazioni che ci siamo calcolati anche noi su Excel (gdl,
devianza, varianza, F e P(F)).

146
Adesso dobbiamo verificare se abbiamo fatto bene o no l’anova, quindi verifichiamo se siamo dentro le 3
assunzioni di validità dell’anova (la garanzia che
l’esperimento è stato condotto bene, la normalità
degli epsilon e l’omogeneità delle varianze).

Gli epsilon sono dentro l’oggetto Anova.Model e


sono chiamati “resduals”. Quindi scrivendo
Anova.Model$residuals ho un elenco di 24 valori,
ovvero gli epsilon.

Adesso voglio verificare la normalità degli epsilon,


per farlo usiamo il test di normalità di Shapiro-Wilk. Il test di Shapiro-Wilk è considerato in letteratura uno
dei test più potenti per la verifica della normalità, soprattutto per piccoli campioni. La statistica W può
essere interpretata come il quadrato del coefficiente di correlazione in un diagramma quantile-quantile,
dove vengono confrontati i quantili del campione e quelli di una distribuzione normale che ha la stessa
media e la stessa deviazione standard del campione.

Se abbiamo 20 valori il primo rappresenta il quinto percentile, il secondo il decimo, il terzo il quindicesimo e
così via. Verifico se i quantili di una distribuzione normale che ha la stessa media e la stessa deviazione
standard coincidono con i quantili della mia distribuzione, calcolo il coefficiente di correlazione e da lì viene
fatto questo test. Dobbiamo vedere in pratica se la distribuzione che abbiamo, in termini di quantili
coincidono con i quantili di una normale. Tutto il resto del test interessa poco, infatti su grandi campioni i
test funzionano male, perché avendo tanti campioni gli intervalli di confidenza si restringono molto e quindi
rifiutiamo sempre le ipotesi nulle. Con grandi campioni la normalità non si testa con il test, ma guardando
un grafico e si fa un’analisi visiva, ma questo non è il nostro caso.

Tornando all’esercizio, il test su R è chiamato


shapiro.test, con cui testo la normalità degli
epsilon. Quindi scrivo
shapiro.test(Anova.Model$residuals). Come
risultato avrò W, che è molto elevato perché è
quasi 1, infatti il p-value è 0.72. Quindi accetto
l’ipotesi nulla.

L’ipotesi nulla è che i dati siano distribuiti


normalmente, accettiamo e quindi i nostri dati
sono normali e abbiamo soddisfatto la seconda assunzione cioè che gli epsilon siano normalmente
distribuiti.

Adesso dobbiamo verificare la terza assunzione, ovvero l’omogeneità delle varianze e per farlo uso il test di
Levene. Il test di Levene consiste nell’applicare l’analisi della varianza ad un criterio agli scarti in valore
assoluto di ogni individuo dalla rispettiva media di trattamento. Alcuni altri test invece di usare gli scarti in
valore assoluto, usano gli scarti al quadrato ma sono molto meno utilizzati. L’ipotesi nulla indica che le
varianze dei vari gruppi sono tra loro omogenee. H0 = a2 = b2 = c2. Se viene rifiutata risulta che le
varianze sono disomogenee e quindi i dati devono essere trasformati.

In R serve un levene test ma funziona solo in condizioni specifiche. Facciamo l’analisi della varianza sugli
epsilon presi in valore assoluto. Dobbiamo quindi prendere gli epsilon in valore assoluto e analizzarli
147
secondo lo schema dell’analisi della varianza. Si possono fare tante cose, ma la più facile è prendere
l’elenco degli epsilon in valore assoluto, aggiungerli al dataset e analizzarli come un'altra colonna.

La prima operazione è aggiungere al dataset una colonna degli epsilon in valore assoluto, l’altra è far girare
l’analisi della varianza su quei dati.

Chiamiamo questo nuovo dataset dati1 e creiamo un oggetto di questo dataset. Si usa come funzione il
cbind(), ovvero legare
(bind) colonna (c) e
gli diciamo l’insieme
dei 2 gruppi che devono essere collegati. Da una parte mettiamo il dataset dati e dall’altra parte mettiamo
gli epsilon in valore assoluto. Le due quantità vengono separate dalla virgola. Dove inserisco “dati” vado a
specificare di prendere dal dataset dati solo le prime 24 righe (perché nel foglio oltre ad esserci le
informazioni che ci servono ci sono anche altre righe e quindi non funzionerebbe l’istruzione). Per indicare
di prendere le prime 24 righe scrivo [ , ]. Prima della virgola vengono indicate le righe e quindi scrivo 1:24 e
dopo la virgola vengono indicate le colonne e scrivo 1:2.

Adesso per l’informazione degli epsilon, vogliamo che questi residui siano messi in valore assoluto e si usa
la funzione abs, chiamo la colonna degli epsilon in valore assoluto res_abs= e adesso posso far girare
l’informazione. Copio le istruzioni fatte prime per il Shapiro test, modificando solo i nomi e faccio girare il
tutto.

Ho così fatto il test di Levene, ottengo un P(F) di 0.78 e quindi accetto l’ipotesi nulla, ovvero che le varianze
sono omogenee.

L’ultima cosa che facciamo è fare la stima delle medie con gli intervalli di confidenza. Per fare questo
dobbiamo installare un pacchetto che si chiama emmeans (estimated marginal mean, ovvero la stima delle
medie marginali), lo attiviamo.

148
Dentro l’istruzione mettiamo l’oggetto che è
Anova.Model e dopo la virgola si ha la media e
devo specificare per che cosa voglio le medie e lo
indichiamo con funzione di varietà, ~varietà.

Quindi questa funzione emmeans tira fuori dal


modello le medie marginali e bisogna dire per cosa
tirarle fuori.

Nella risposta ho le medie marginali, l’errore


standard, i gdl e i LCL e UCL.

Se mettessi ~1 avrei la media generale di tutto


(overall) seguito dalle informazioni di prima, quindi
SE, gdl e LCL e UCL. Nel caso non ci fossero effetti
significativi.

02/05/2018

CONFRONTI

149
Quando arriviamo alla fine dell’ANOVA, possiamo avere due risultati, ovvero che o ci sono differenze
significative tra le medie o non ci sono differenze. Se non ci sono differenze significative il test è finito,
ovvero concludiamo che i nostri trattamenti appartengono tutti alla nostra popolazione e il test finisce lì. Se
la conclusione è diversa, ovvero ci sono differenze tra le medie, capita che se abbiamo solo due trattamenti
e rifiutiamo l’ipotesi che siano uguali implica che siano diversi (A diverso da B). Ma l’analisi della varianza la
usiamo perché abbiamo più trattamenti (A, B, C). Se constatiamo con l’anova che ci sono differenze
significative a questo punto non sappiamo dove, nel senso che potremmo avere un’ipotesi in cui A, B, C
sono tutti diversi; oppure che A, B sono uguali ma diversi da C, ecc. Nell’analisi della varianza a una via
capita che il fatto di rifiutare l’ipotesi nulla non induce direttamente ad accettare l’ipotesi alternativa,
perché ho più ipotesi alternative e non so quale accettare.

Gli statistici hanno inventato altri test con l’obiettivo di rispondere a questa domanda, chiedendosi cioè
quale ipotesi alternativa accettare. Le soluzioni trovate sono 2 ed entrambe sono famiglie di soluzioni e non
singole soluzioni. La prima famiglia include i confronti a priori o pianificati, la seconda include i confronti a
posteriori.

• CONFRONTI A PRIORI O PIANIFICATI. Sono delle ANOVA operate su sottogruppi di trattamenti.


Sono più potenti di quelli non pianificati poiché operano su sottogruppi che non si sovrappongono
mai, quindi non si traggono mai conclusioni combinate e non si devono mai calcolare probabilità
combinate. La significatività è garantita. Permettono di verificare differenze fra medie come
logicamente attese.
I confronti a priori non sono chiamati così perché vengono fatti prima dell’ANOVA, in quanto devo
fare per forza l’anova al massimo prima di essa posso fare la pianificazione di quali trattamenti
confrontare. Per questo pianificati invece che a priori chiarisce meglio le idee. NON SI POSSONO
FARE PRIMA DELL’ANOVA. Prima faccio l’ANOVA e se ho differenze significative allora procedo con
i confronti.
• CONFRONTI A POSTERIORI (DETTI POST HOC o CONFRONTI MULTIPLI). Permettono di effettuare
tutte le possibili combinazioni al fine di vedere quali medie hanno provocato la significatività. Sono
stati studiati differenti metodi per garantire la significatività prevista.

Due alternative, ognuna con pregi e difetti. I confronti a priori, poco utilizzati prima, sono test che
permettono di mantenere sull’intero gruppo di trattamenti confrontati sempre la significatività al 5% (o al
livello che scegliamo). Se abbiamo 4-5-10 trattamenti, alla fine vorremo tirare una soluzione che è la scelta
di un’ipotesi alternativa che deriva dalla lettura combinata di più confronti. Prendendo l’esempio di prima
di A,B e C, abbiamo due tipi di riposte, una risposta sul singolo confronto (A e B sono uguali o diversi) e una
risposta complessiva (A e B uguali e C diverso). La seconda risposta è un quadro di tutti i trattamenti, la
prima risposta coinvolge una singola coppia di trattamenti.

Ognuno di questi confronti si porta dietro un errore di prima specie. Individuiamo nel fare questi confronti i
due tipi di errori: l’errore sul singolo confronto e l’errore complessivo che commettiamo nel restituire un
quadro totale delle differenze tra tutti i trattamenti.

L’errore di prima specie (cioè significatività sul singolo confronto) legato al singolo confronto è detto
ERRORE PAIRWISE. L’altro errore riguarda tutto l’insieme dei confronti e prende il nome di ERRORE
EXPERIMENT WISE. Quindi ho due tipi di errori e due livelli di significatività.

Nei confronti a priori riusciamo a tenere il livello di entrambi gli errori al livello di significatività che
vogliamo (5% per ogni pair wise e 5% per experiment wise). Nei post hoc il problema, nell’avere tanti
confronti è che ci può essere il rischio di avere una significatività non dichiarata e quindi di avere un
experiment wise che non è quello dichiarato.
150
Nei confronti a priori questo non succede, cioè riusciamo a mantenere entrambi gli errori al livello di
significatività scelto (per esempio al 5%) e questo è il vantaggio del confronto a priori. Possiamo fare questo
perché nel confronto a priori, tutti i confronti che facciamo sono indipendenti quindi non cadiamo mai nel
calcolo della probabilità combinata che ci porta a moltiplicare i rischi uno per l’altro. Nel confronto a priori
quindi ogni singolo confronto è indipendente, quindi ogni singolo confronto rimane al 5% e così anche la
lettura combinata. Es: lancio un dado e poi un altro dado. Se non mi interessa il primo n, la probabilità di
avere un certo numero è 1/6. Se voglio 2 sul primo e 5 sul secondo, voglio 5 dopo che è uscito 2, la
probabilità di questa combinazione è 1/36. Così ho la dipendenza di un test sull’altro e sono costretto a
moltiplicare le protezioni e quindi riduco la protezione aumentando il livello di significatività. Se riesco a
mantenere i confronti ognuno indipendente, non devo moltiplicare perché ogni confronto è al 5%.

Purtroppo, non tutto funziona, perché l’unico modo per tenerli indipendenti è che i test non superino il
numero dei gradi di libertà e una volta individuato un gruppo testato contro un altro non facciamo mai altri
confronti a cavallo. I CONFRONTI A PRIORI FUNZIONANO BENE MA NON CI PERMETTONO DI FARE
CONFRONTI TUTTI CONTRO TUTTI, ma solo di separare via via i trattamenti in sottogruppi.

Es: 3 trattamenti, gradi di libertà 2. Quindi posso fare solo due confronti: A contro B e poi A contro C;
oppure la media di A e B contro C e al livello successivo fare A contro B e quindi separarli. In questo modo
ho a disposizione solo due trattamenti e riesco a fare i confronti mantenendo sempre il livello prescelto del
5%.

Vantaggio: statisticamente funzionano bene. Svantaggio: non posso confrontare tutti contro tutti.

I confronti a priori si è sempre saputo quanto andavano bene, non si usavano mai, ma negli ultimi anni si
utilizzano di più perché è stato introdotto un maggior rigore statistico. Quindi non si dicono a priori perché
sono fatti prima, ma solo perché sono pianificati prima.

I confronti a posteriori, detti anche POST HOC, sono un modo di fare confronti di tutti contro tutti, quindi
non sono protetto sui due errori pairwise ed experimentwise. Diversi autori negli anni hanno prodotto una
serie di test post hoc che servono a confrontare le medie dei trattamenti, ad esempio Tukey, Bonferroni,
Dunn Sidak ecc. Tutti questi sono test post hoc che hanno tutti il problema di avere l’errore pair wise
diverso dall’experiment wise. Quindi se il pair wise è il 5% l’experiment wise sale troppo. Se l’experiment
wise è 5%, il pair wise deve essere più basso.

Consideriamo il caso più banale, dove ho A B e C, che sono i 3 livelli del mio esperimento (anova ad una via
a 3 livelli). Faccio alla fine il confronto tra A e B, il confronto tra B e C e il confronto tra A e C. Su ognuno di
questi confronti l’errore pair wise è del 5%, che corrisponde ad una protezione del 95%. Quindi su ogni test,
rispetto all’errore di prima specie, ho la certezza di accettare l’ipotesi nulla quando essa è vera del 95%. Se
faccio 3 confronti e restituisco un risultato che è l’insieme dei tre, succede che la probabilità che quei 3 test
siano tutti e 3 corretti è di 0.953 = 0.8573 ed è la protezione complessiva. Se questa è la protezione
complessiva, quant’è la significatività, cioè il rischio di commettere un errore di prima specie? È il
complemento a 1 della protezione complessiva, cioè 0.1427 (la protezione è del 86% e la significatività è del
14%). Quindi stiamo restituendo un risultato finale che non è a una significatività del 5%. L’errore di primo
tipo, ovvero di rifiutare un’ipotesi nulla che era vera sale quasi al 15%. Questa è un’ipotesi in cui abbiamo
bloccato il pair wise al 5% e l’experiment wise è andato al 14%.

Altra ipotesi è dire che X3 = 0.95 dove X= radice cubica di 0.95 = 0.98. Quindi se fisso il pairwise al 5%
l’experiment wise va al 14%, ma se fisso l’experiment wise al 5% vuol dire che faccio ogni confronto al 2%.
Non posso fissare entrambi al 5%, o uno o l’altro. Se fisso il pairwise al 5%, mi scappa l’experiment; se fisso
l’experiment al 5% sono tranquillo, ma ogni confronto lo sto facendo al 2%. Fare ogni confronto al 2% vuol
dire allargare l’area di accettazione dell’ipotesi nulla sul singolo confronto e quindi vedere meno differenze.

151
CONFRONTI A PRIORI
Parliamo di confronto a priori per il fatto che non possiamo confrontare tutti ma possiamo confrontare
meno trattamenti rispetto all’esigenza e quindi ci deve essere una struttura di variabilità che ci renda
interessante fare alcuni confronti
piuttosto che altri.

Esempio ANOVA a una via con 4 livelli,


dove abbiamo un livello di fungicida A
dose alta, A dose bassa, B dose alta e B
dose bassa. Potremmo prima separare la
media dell’effetto di A dalla media
dell’effetto di B e quindi confrontiamo A
contro B, dove sia A che B sono il risultato
medio delle due dosi alta e bassa. Poi
abbiamo un secondo confronto che
separa A1 da A2 e il terzo separa B1 da
B2.

Quando strutturiamo un confronto del genere, se tiro una riga che separa l’elenco dei trattamenti in due
sottogruppi, non dobbiamo più andare a cavallo dei gruppi fatti. Cioè potrei fare A1 e A2 contro B1 e B2.
Come secondo confronto potrei fare i livelli bassi contro i livelli alti e per far questo dovrei mettere insieme
A1 con B1 e A2 con B2, scavalcherei la riga centrale che è quella che mi ha separato in due sottogruppi.
Quindi anche rimanendo nei 3 confronti avrei comunque scavalcato. In questa situazione i 3 confronti non
sono più indipendenti e quindi nonostante i 3 confronti non mi sono garantito l’indipendenza dell’errore.

Ricapitolando, i confronti a priori permettono di


mantenere il livello di significatività ad alfa, per
esempio al 5%, sia sul pairwise che
sull’experimentwise, per il fatto che tutti i confronti
sono indipendenti. Per mantenerli indipendenti
esistono delle regole un po' complicate basate sui
coefficienti polinomiali, per cui la somma di riga e la
somma dei prodotti di colonna è pari a 0.

A noi però ciò che ci interessa è che ho il mio dataset,


confronto qualcuno contro qualcun altro. Se al primo livello scelgo di fare A contro B, quindi un’ANOVA a 1
via, cioè intanto li scrivo nell’ordine come sopra (A1,A2,B1,B2), tiro una riga che separa gli A dai B e vuol
dire che il primo confronto sarà la media degli A contro la media dei B. La logica ci direbbe poi di
confrontare la media dei livelli bassi (A1 e B1) e la media dei livelli alti (A2 e B2), ma così costruirei dei
gruppi che vanno a cavallo della linea di separazione che ho tracciato. Quindi vuol dire che il secondo
confronto non è più indipendente dal primo e se i confronti non sono indipendenti perdo tutta la
potenzialità che ho sui confronti.

Quindi ho l’ipotesi in cui confronto la media di


A1 e A2 contro la media di B1 e B2. Al secondo
livello separo A1 e A2 e quindi confronto A1
contro A2. Al terzo livello confronto B1 con B2.

In questo modo ho 3 confronti indipendenti.

152
Nel caso in cui avessimo avuto un’ANOVA a due vie, potevamo fare A contro B sulla prima via e alto contro
basso sulla seconda via. C’è però il problema dei controlli. Esempio: LI (liquame bovino) e LT (letame
bovino) in dosi di 200 e 300 kg di azoto per ha, quindi ho LI200, LI300, LT200 e LT300. Quindi ho trattamenti
con 2 tipologie di azoto e 2 tipologie di fertilizzanti. Se uno analizzasse questi dati potrebbe fare una prima
via di confronto, liquame contro letame, e una seconda via di confronto, 200 contro 300. Quindi si farebbe
un’anova a due vie, dove faccio LI contro LT e 200 contro 300. In questo modo ho ridotto il numero di
trattamenti, ovvero da 4 ne confronto 2. Il problema è che ho anche un trattamento zero, in cui non metto
azoto ed è il riferimento. Essendo zero non può essere né 200 né 300 ma neanche liquame o letame,
perché non metto azoto. In questo caso, non riesco a fattorializzare e quindi ho 5 trattamenti che non
possono essere ridotti su un incrocio a 2 vie. Qui posso fare un confronto a priori: prima lo zero contro tutti
i trattati, poi LI contro LT, poi LI200 contro LI300 e poi LT200 contro LT300. In questo modo abbiamo 4
confronti (per 5 livelli).

Ci sono riviste scientifiche che non accettano più confronti post hoc. In conclusione, i confronti a priori sono
fantastici, permettono di garantire il livello di significatività su tutti i confronti, ma non mi permettono di
confrontare tutti contro tutti, non mi permettono di pianificare i confronti. Quindi i confronti a priori si
usano quando è possibile pianificare i confronti.

CONFRONTI A POSTERIORI

I confronti a posteriori invece permettono di confrontare tutti contro tutti e possono essere applicati solo
dopo aver effettuato l’analisi della varianza.

Hanno le stesse condizioni di validità dell’ANOVA, ma l’allontanamento dalle assunzioni ha effetto


differente sui vari test.

I test spesso sono del tipo confronto fra campioni indipendenti, ma gli autori hanno scelto soluzioni
differenti per:
• garantire  complessivo (non alterare troppo l’alfa sul singolo confronto)
• gestire il numero totale di confronti
• gestire l’inferenza simultanea
Obiettivi:
• massima potenza sul singolo confronto
• conservazione  complessivo

I test sono molteplici, ma possono essere ricondotti ad alcune categorie:


• test eseguiti sui confronti diretti 1 contro 1 (pair wise)
• definizione di sottogruppi di trattamenti fra loro non differenti (experiment wise)

LSD (list significant different)


Test più semplice che si possa fare.

153
L’LSD non è altro che l’applicazione multipla del t
di Student di confronto tra due campioni
indipendenti. Quindi è un confronto di tutte le
coppie possibili e immaginabili. Ha il problema già
detto, ovvero mi permette di avere il 5% sul
singolo confronto ma non mi garantisce
sull’errore complessivo.

Riportando i risultati di questo test post hoc, non


riportiamo le letterine.

Ad esempio se ho una media A, media B e media


C e la A ha il valore più alto metto A a. C è diversa
da A quindi metto b e B sarà ab. Queste letterine servono a dire quali medie sono uguali e quali diverse, se
due medie hanno la stessa lettera sono fra loro uguali, se hanno lettere diverse (A e C) sono diverse.
Questo è il modo che si usa per restituire i risultati complessivi di un test post hoc.

A, B e C sono 3 numeri di 3 trattamenti diversi, quindi ho T1 16, T2 14 e T3 12. Se ho 16a, 14ab e 12 b, vuol
dire che il trattamento T1 che ha media 16 è statisticamente diverso da quello T3 che ha media 12 e questo
lo diciamo perché le letterine affianco sono diverse. Il trattamento T2 che ha come letterina ab, vuol dire
che 14 non è statisticamente diverso da 16 e da 12.

Se avessimo avuto 16a, 14a e 12 b, avrebbe indicato che T1 e T2 sono uguali e sono diversi da T3. Stessa
cosa se avessi avuto 16a, 14b e 12 b, avrei detto che T2 e T3 sono uguali e sono diversi da T1.

Queste lettere sono lo strumento utilizzato per riportare un test post hoc, ma nel test LSD non si può fare.
In questo test si può riportare la distanza minima per rendere significativa le due medie (infatti
LSDminima differenza significativa) e si confronta quella. Non usiamo le lettere perché non possiamo
avere un risultato complessivo. LSD è molto usato nella letteratura americana.

TEST DUNN SIDAK


Questo è il test rigoroso che fa quello
che abbiamo detto prima di fare la
radice. Ovvero se abbiamo 3 confronti
anziché fare 0.95 alla terza, si fa la
radice cubica di 0.95 e poi si applica la
formula 1- (radice cubica di 0.95)=0.02 e
ci da la significatività sul singolo
confronto (alfa) che è al 2%.

Questo test penalizza l’errore pair wise


per mantenere matematicamente corretto l’experiment wise.

TEST BONFERRONI

154
Molto usato nelle scienze agronomiche.
Questo test è un test T di confronto tra
due campioni indipendenti e anziché
usare la formula complicata di Dunn
Sidak, divide l’alfa totale per il numero di
confronti.

È un metodo più semplice per ottenere


risultati simili a quelli di Dunn Sidak.

TEST TUKEY

Complicato (non imparare la formula). È


molto usato nella patologia.

Garantisce molto bene l’experiment wise (è


un’alternativa a Bonferroni).

TEST DUNNET

Basato sulla variabile t di Student testa tutti i trattamenti contro un controllo. È quindi un test che
garantisce il 5% per entrambi gli errori perché confronta tutti i trattamenti contro uno solo. Ovvero se ho i 4
insetticidi e ho il controllo, mi permette di fare il confronto di ogni insetticida contro il controllo. Anche lui è
un t di Student, ma ha uno schema ben preciso e mi dice quali trattamenti sono diversi dal controllo e quali
non lo sono.

TEST REGW

Molto utilizzato per chi usa l’altro


software statistico SPSS. Poco usato nel
mondo R dove si usa più Bonferroni.

È un tipo di test che si usa quando ci


sono tanti trattamenti a confronto. Se ad
esempio ho 10 trattamenti, come faccio
a sapere quanti confronti faccio? Uso la
formula n*n-1/2, dove n è il numero di
livelli, quindi con 10 trattamenti (livelli)
ho che 10*9/2= 45, quindi con 10 livelli
abbiamo 45 confronti.

155
Quindi questo test, che fa parte di un’altra famiglia, mette i 10 trattamenti dal più piccolo al più grande, poi
se ci sono differenze significative vuol dire che il primo e l’ultimo che sono i più distanti saranno tra loro
diversi. Poi comincia a confrontare il primo con il penultimo e l’ultimo con il secondo. Questi sono fra loro
diversi? Se la risposta è no, le letterine saranno a sul primo, b sull’ultimo e tutti gli altri ab e quindi
sostanzialmente abbiamo finito i confronti e con 3 confronti abbiamo sostituito i 45 che dovevamo fare. Se
così non fosse scaliamo verso il centro.

Il vantaggio di questo test è che per confrontare 10 medie non deve veramente fare 45 confronti perché
quando non vede più differenze non entra più nei sottogruppi e quindi finisce con il fare un numero di
confronti inferiore a quello dichiarato.

Di fatto in R per i test post hoc si può usare Tukey o Bonferroni (di più Bonferroni) quando si hanno pochi
trattamenti, sennò usiamo il test REGW (già con 6-7 trattamenti). Il pacchetto che si usa per i test post hoc
in R è “agricolae”.

ANOVA a 2 o più fattori SENZA INTERAZIONE


Ma l’analisi della varianza può essere più complicata. Ciò che abbiamo visto fino ad ora è un’anova ad una
via, ovvero che i diversi livelli del fattore si confrontano per un certo aspetto. Ad esempio uso più prodotti
insetticidi per controllare gli insetti. Quindi ho più soluzioni, riferite però tutte allo stesso problema. Questa
è un’ANOVA ad una via, differisce dal test t di confronto tra due campioni indipendenti per il fatto di avere
più trattamenti a confronto (e non 2) e ci dice
se accettare o rifiutare l’ipotesi nulla. Se
accettiamo l’ipotesi nulla finiamo li. Se
rifiutiamo facciamo i test post hoc per
confrontare i diversi trattamenti. Schema più
o meno riportato a fianco.

Ho un trattamento e confronto 4 livelli di quel


trattamento, es. 4 inoculi e ho tre repliche
per ciascuno. Faccio quindi l’anova ad 1 via
che mi confronta questi 4 livelli, ogni livello
ha 3 repliche e quindi ho 12 unità
sperimentali divise in 4 gruppi, poi confronto
le 4 medie per vedere se sono uguali o
diverse.

Questa quindi è l’anova ad una via, dove ho Y


che è la variabile che ottengo, scomposta in
mu, alfa e epsilon. Calcolo poi le varianze di alfa e di epsilon e vedo se stimano o no la stessa varianza.

Succede però che ho 3 repliche di a1 e se a1 è un certo inoculo, vuol dire che 3 repliche per quell’inoculo e
lo stesso vale per a2 a3 e a4. Tutti questi sono gestiti nello stesso modo per tutti gli altri aspetti. Posso però
anche adottare una soluzione diversa. Ad esempio guardo il comportamento dei 4 inoculi, che sottopongo a
3 temperature diverse di fermentazione. Continuo a testare i 4 inoculi ma le tre repliche che dovrebbero
essere uguali, le faccio diverse per un altro livello di confronto, quale la temperatura.

156
Il sistema funziona, perché se avessi solo una via
di confronto, avrei X = mu + alfa (specifico per
quell’inoculo) + epsilon e alla fine della tabella ci
sarebbe un valore medio. Questo valore medio
avrebbe dentro il mu generale della tabella, le 3
componenti (b1,b2,b3) di a1 hanno tutte alfa1
che è la componente traslativa dovuta a
quell’inoculo. Li sommo e fa 3 volte alfa 1 quindi
alla fine quella media marginale sarà 3mu + 3
alfa1 + 3 epsilon. Gli epsilon non sono tra loro
uguali perché sono però specifici per ogni valore. La media divide per 3 i mu, quindi 3 volte mu diviso 3 fa
mu. I tre alfa1 diviso 3 fa alfa 1. Nella media non trovo gli epsilon perché la loro somma, essendo loro degli
scarti dalla media, fa zero. Quindi in ogni cella avrò: mu + alfa1 + epsilon1 ; mu + alfa1 + epsilon2 ; mu + alfa1
+ epsilon3. La media sarà mu + alfa1 priva delle componenti epsilon perché i 3 epsilon essendo scarti da una
media sommandoli fanno zero.

Quindi la media marginale della prima colonna è mu + alfa1. Poi avrò mu + alfa2, mu + alfa3 e mu + alfa4. La
media complessiva di tutti è mu. Gli scarti delle medie dei trattamenti dalla media generale mi permette di
calcolare alfa. Questo funziona perché essendo degli scarti dalla media, la somma degli epsilon è 0. Quindi
sui totali marginali non abbiamo più le componenti epsilon e questa è la ragione per cui facciamo le
repliche. Le quantità marginali alfa 1, alfa 2, alfa 3 e alfa 4, sommate tra loro fanno zero, perché son di
nuovo 4 scarti da una media generale: quindi se la media delle medie marginali fa mu, vuol dire che la
somma delle 4 componenti alfa è 0.

Se questo discorso dalle colonne lo spostiamo sulle righe: ad es. mettiamo 3 temperature diverse, avremo
mu + beta1, mu + beta2, mu + beta3. La loro media
fa mu. Quindi anche beta 1, beta2, beta3 sommati
fanno zero.

Es. Inoculo 1 con 3 repliche a temperature diverse.


Quindi non avrò più X = mu + alfa1 + epsilon ma X =
mu + alfa1 + beta1 + epsilon, cioè ci sarà un effetto
additivo dovuto al tipo di inoculo ma anche un
effetto additivo dovuto alla temperatura di
fermentazione. Mentre nella colonna 1 la
componente additiva è sempre a1 quindi posso
stimare alfa 1, le componenti beta nella stessa
colonna variano, sono presenti tutte e 3 le temperature. Quindi ho nella stessa colonna sempre alfa1, ma
varia beta e nella stessa riga ho sempre beta1 ma varia alfa.

Per fare una media faccio le somme e divido per 3 ma le somme mi trovano rappresentate le tre
componenti beta diverse, ma la somma dei beta di ogni colonna fa zero. Quindi il fatto di fermentare a 3
temperature diverse mi influenza la stima di alfa1? No, quindi dalla media marginale continuo a stimare
una componente alfa. Come faccio a sapere quanto valgono beta1, bet2 e beta3? Non mi interessa nel
calcolo della colonna (dove mi interessa solo che sommate fanno 0), per stimarle le stimerò sui totali
marginali. Sulle righe, avrò una quantità complessiva che è mu+beta1, mu+beta2 e mu+beta3 e scartandole
da mu, avrò i valori delle 3 componenti beta.

157
In uno schema del genere ho il vantaggio che stiamo
incrociano due esperimenti diversi, cioè stiamo usando le
repliche di un trattamento per applicargli un altro tipo di
trattamento, ovvero ci sono gli inoculi, nelle repliche degli
inoculi facciamo l’esperimento con temperature diverse
oppure nelle repliche di temperature diverse stiamo
analizzando inoculi diversi. Le repliche delle colonne sono le
temperature, le repliche delle righe sono gli inoculi.

Abbiamo fatto un disegno a due vie, perché testiamo due


sorgenti di variazione, inoculo e temperatura, quindi in un unico esperimento stiamo testando due vie.
Questo funziona, ma stiamo assumendo che le componenti beta, cioè le diverse temperature, inducano un
effetto additivo sulla variabile che stiamo valutando (es. produzione di esteri) che è costante e
indipendente dal tipo di inoculo. Inoculo A di suo fa 10, alzi la T di 2°C fa 15. Inoculo B di suo fa 12, alzo T e
fa 17. Questo effetto additivo di 5, è costante su tutti e 4 gli inoculi.

Questo schema lo possiamo adottare tutte le volte che voglio testare componenti puramente additive dove
non ho l’effetto combinato delle due vie.

Sull’esempio dei 4 inoculi, quando aumentano o diminuiscono gli esteri lo quantifico sulle medie e assumo
che questa quantità additiva sia così com’è indipendentemente dalla temperatura.

ANOVA con più fattori e CON INTERAZIONE


Altro disegno dove ho qualcosa in più e aggiungo la componente di interazione alfai*betaj

È la componente che mi permette di dire


che il ceppo a1 che ha un’interazione
positiva con la temperatura produce più di
a2: a 10 gradi produce 3 in più ad a2; a 20
gradi produce 5 in più. Ma nel disegno di
ANOVA questa componente non è inclusa
in a e b, è una componente additiva, cioè il
modello base parte dagli effetti costanti di
a e b e poi gli scostamenti da essi vengono
isolati.

Così come vado a testare se le componenti


alfa significative, cioè davvero i ceppi mi
portano ad una diversa produzione di esteri? Le temperature davvero mi portano ad una diversa risposta in
produzione di esteri? Mi chiedo se rimane un modello completamente additivo o se i ceppi agiscono
diversamente alla temperatura. In quest’ultimo caso diventa una deviazione dal modello additivo e me lo
dirà questa componente di interazione. Se  sarà statisticamente significativo vuol dire che il modello non
è additivo; se  non sarà significativo vuol dire che rientra nella variabilità dei dati, quindi rimarrà vero il
modello additivo.

La somma in termini di devianza di tutte le componenti nella formula fa la devianza totale, che è lo scarto
da ogni singolo valore misurato dalla media generale. La devianza totale è un dato certo e non dipende dal
modello che assumo. Il modello che assumo mi divide le quantità spiegate dalla quantità di errore (epsilon)
e la devianza totale non cambia; quindi se tolgo un pezzo di devianza spiegata questo finisce nell’errore.

158
(Nell’anova ho variabili categoriche). In questo modello ho due componenti spiegate, la componente di
interazione e la componente di errore perché ho due variabili (caso più semplice). Per poter isolare la
componente di interazione devo avere delle repliche.

X ij    i   j   ij Anche in questo modello c’è l’interazione, ma se non la includo


nel modello la ritrovo dentro epsilon.

Se il disegno ha 4 livelli per a, il ceppo, e 3 livelli per b, la temperatura, se faccio solo 12 unità sperimentali
significa che sono capace di stimare le componenti a legate al primo trattamento, le componenti b legate al
secondo trattamento, mi rimane il residuo, epsilon, che ha dentro anche l’interazione (cioè lo scostamento
dal modello puramente additivo) ma non ho gli strumenti matematici per tirarlo fuori. Lo strumento per
separare uno dall’altro è il fatto che nella combinazione ad es. ceppo1 a 15 gradi ho almeno 2 unità
sperimentali. Quindi da 12 devo avere 24 unità sperimentali, cioè ad ogni incrocio devo fare almeno due
unità sperimentali, così posso estrarre l’interazione e epsilon (per far questo ho bisogno di repliche dentro
la cella).

Disegno che non serve quindi, disegno che non si realizza mai (ovvero fare due vie reali senza interazione),
in realtà è uno dei più usati nelle scienze agronomiche perché a volte l’interazione pur ipotizzando che
esista può essere scelta a priori come inutile e comunque componente di errore. Perché si fa questo?

Facciamo finta che siano parcelle in campo, dove ho


due trattamenti e facciamo finta che voglia testare solo
il trattamento A. Però c’è una fila di pioppi su un bordo
che sposta il trend delle parcelle in una direzione,
quindi chiamo tutta la fila in alto B1, la fila in mezzo B2,
la fila in basso B3 seguendo il trend.

Potrebbero essere anche 3 piani di una camera di


crescita termostatata. So che c’è una differenza di T tra
i gradi ma l’omogeneità del piano è superiore
dell’omogeneità fra piani.

Cosa faccio? Non metto tutto il trattamento A1 su un


piano, sennò la differenza mi inficia anche i trattamenti. Quindi metterò le prime repliche dei 4 trattamenti
sul primo piano (A1,2,3,4), la seconda replica sul secondo piano (B1,2,3) e sul terzo piano la terra replica.

Ho introdotto la componente B perché se non


prendo in considerazione l’influenza ad es. della
temperatura va dentro epsilon e mi aumenta la
varianza di errore. Avendo disposto così i
trattamenti avrò fatto in modo che la differenza
abbia inficiato su tutti allo stesso modo, quindi
ho creato una maggiore distribuzione all’interno
dei trattamenti. Ma se ho regolarizzato questo
aspetto, con beta sono in grado di estrarre la
componente di errore indotta dalla piccola
differenza di temperatura sui piani e, invece di
lasciarla dentro epsilon, riesco ad estrarla come
componente spiegata dalla differenza di
temperatura. Nell’esempio di ora le differenze
di T non sono volute ma sono indotte dalla
variabilità nella camera di crescita.
159
Estraggo la componente betaj e non mi finisce nell’errore. Questo mi serve a controllare un errore atteso.
L’interazione tra trattamento e questo fattore se c’è è solamente un fatto di errore e non mi interessa
studiarlo.

Si chiama disegno a blocchi randomizzati, ho randomizzato ma invece di averlo fatto su tutte le unità
statistiche l’ho fatto per blocchi, per unità stratificate e non per unità statistiche.
Il trattamento B lo si fa per ridurre la varianza di errore e per estrarre una componente di variabilità
sperimentale che non posso eliminare.
Nella camera di crescita non sto lavorando a diverse T ma ho messo a 20°C, le differenze sono minime tra i
piani. In questo caso non è necessario fare repliche entro cella.

Consideriamo un altro esempio. Sono state analizzate le emissioni di ammoniaca (NH3) su terreni con
liquame come fertilizzante. Liquame suino quando viene buttato sul suolo, perde azoto in forma
ammoniacale nel terreno. Hanno fatto 2 misure di 2 tipi di liquami suini + controllo (quindi in tutto 3). Si
sono scelti poi due tipi di suoli a 2 pH diversi. Le unità statistiche di base erano 6 (2 suoli per 3 tipi di
fertilizzante). Replicate sarebbero state 12 ma il macchinario che avevano ne faceva al massimo 8. Quindi
hanno replicato 4 volte  6 esperimenti il primo giorno, uguale dopo 1 settimana, fino alla quarta
settimana; quindi avevano il disegno di due suoli per 3 tipi di fertilizzante, ma come hanno gestito le 4
settimane? Con le tarature riesco a garantire che le condizioni al contorno siano sempre le stesse? Per
risolvere hanno usato le 4 settimane come blocco, quindi c’era suolo * fertilizzante * blocco. Che interazioni
sono andati a vedere? Fert * suolo. Nei blocchi randomizzati non servono repliche perché già i blocchi sono
repliche.

I blocchi randomizzati sono molto utilizzati e non servono repliche, perché già i blocchi sono repliche.

Tornando al primo esperimento, ho un disegno a


due vie, senza interazione e ho la stima degli
epsilon.

Abbiamo una devianza dovuta alle componenti


alfa che dà la devianza dei trattamenti A, la
devianza delle componenti beta ci da la devianza
dei trattamenti B; il resto è la devianza di errore
e la somma di questi 3 fa la devianza totale.

I gdl: su A abbiamo 4 livelli quindi gdl 3 per il


trattamento A e due per il trattamento B. per i gdl
dell’errore, parto da 12 unità statistiche, quindi ho
11 gdl totali, a questi tolgo 5 (3 di A e 2 di B) e ci
rimangono 6 gradi di libertà dell’errore.

I rapporti tra le devianze SQ e i gdl, mi danno le 3


varianze MQ (la varianza dovuta ad alfa, quella
dovuta a beta e quella dovuta all’errore). Essendo
questi due fattori indipendenti, entrambi vengono testati contro un’unica varianza di errore, quindi ho due
test F indipendenti. Avendo due test F indipendenti, posso avere risultati molto diversi, ad es. il fattore A ha
portato differenze non significative (18%) e il fattore B ha portato differenze significative (2%).
160
Quindi dobbiamo accettare su A l’ipotesi nulla quindi i 4 trattamenti A non hanno avuto differenze
significative. Sui 3 trattamenti B rifiutiamo l’ipotesi nulla e facciamo test post hoc solo su B (perché su A
accetto l’ipotesi nulla). Su B o uso post hoc oppure, se è possibile farlo, faccio il confronto a priori.

Nel caso dell’interazione testiamo anche il terzo termine: la varianza dell’interazione AB. Quindi facciamo 3
test F separati, tutti contro la stessa varianza di errore. Anche qui i risultati possono essere diversi, infatti
può essere significativo A, significativo B o significativa l’interazione. Se l’interazione è significativa vuol dire
che il modello non è additivo, guardiamo solo l’interazione. Quindi se ho significativo A e AB, non
guardiamo più A ma solo AB.

Per sapere se il modello è additivo o no, dipende se l’interazione è significativa: se è significativa il


modello non è additivo e quindi non guardo le componenti A e B separate indipendenti, ma guardo
l’interazione.

Abbiamo visto il significato del modello con e


senza interazione e abbiamo visto come si
opera. Abbiamo detto che abbiamo il nostro
disegno sperimentale con 4 trattamenti e 3
repliche ciascuno, organizziamo in tabella. È
un modello a 2 via per ora senza interazione.
Su questo schema calcoliamo le medie
marginali facendo la media dei 3 valori, entro
cella non ci sono repliche quindi non posso
calcolare l’interazione. Se ho le repliche posso
calcolare l’interazione altrimenti no. Facciamo
la media per colonna, quindi abbiamo le 4
medie delle colonne e le 3 medie delle righe e
abbiamo anche la media generale (mu). La media generale 14.8 è la media delle 3 medie delle righe ed è la
media delle 4 medie delle colonne (perché abbiamo solo una misura entro cella).

Abbiamo anche detto che dentro ogni cella il valore è mu+alfa+epsilon+beta. I 3 epsilon e i 3 beta
sommando fanno zero. Quindi la media marginale delle colonne deriva da 3 mu + 3 alfa1 (ìalfa2, +alfa3,
+alfa4) fratto 3 che di fatto fa mu + alfa. Se questo mu + alfa lo scartiamo dalla media generale otteniamo
mu + alfa – mu = alfa. Quindi dalle medie marginali delle colonne ricaviamo le 4 componenti alfa che di
nuovo sommate fanno zero. Lo stesso discorso vale sulle righe, dove le medie marginali saranno 4mu + 4
beta1 (+beta2, +beta3) fratto 4 che di fatto è mu+beta (nel caso delle righe oltre agli epsilon che sommati
fanno 0, anche gli alfa sommati fanno 0). Quindi in questo caso dalle medie marginali delle righe ricaviamo
le 3 componenti beta.

Abbiamo stimato in questo modo i valori marginali. Nella cella di combinazione A1 B1 mi sarei aspettato di
misurare 14.8 più l’effetto additivo dovuto al fatto di essere sulla prima riga (-1.55) più l’effetto additivo di
essere sulla prima colonna (-0.1). quindi facendo 14.8-0.1-1.55 il risultato atteso è 13.15 ma non è quello
che ho ottenuto. Nella cella dove mi aspettavo di misurare 13.15 ho misurato 13.8, questo è dovuto agli
epsilon.

Dal punto di vista del modello questo 13.8 è mu + alfa1 + beta1 + alfabeta + epsilon. Invece 13.15, dal
punto di vista del modello è mu+alfa1+beta1. Il calcolo senza epsilon prende il nome di valore atteso, cioè il
valore che mi sarei immaginato di misurare in quella situazione in assenza di errore sperimentale. La
differenza tra il valore con epsilon (13.8) e il valore atteso (13.15) ci permette di costruire la tabella degli
epsilon (i segni nella tabella sono al contrario, perché si fa VALORE MISURATO-VALORE ATTESO=epsilon).

161
Mu + tutti gli alfa (da 1 a 4) + tutti i beta (da 1 a 3) + i 12 valori epsilon. Abbiamo quindi le 4 medie marginali
mu, le 4 componenti di scarto alfa, le 3 componenti di scarto beta e le 12 componenti di epsilon quindi
abbiamo tutto quello che ci serve per calcolare le devianze di epsilon che si ottengono mettendo al
quadrato i 12 valori e sommandoli; le devianze di alfa che sono i 4 valori elevati al quadrato e sommati ma
sommati per ciascun valore, cioè prendo ciascuno 3 volte (-0.1^2 lo prendo 3 volte). Uguale per i beta ma li
prendo 4 volte. Quindi poi mi posso calcolare tutte le varie informazioni della tabella anova e i test F
saranno test indipendenti.

Il discorso è lo stesso nel caso in cui avessimo il disegno sperimentale a blocchi randomizzati.

Il discorso cambia se compare la componente dell’interazione alfa*beta. Ho la distanza dal valore misurato
e dal valore atteso, cioè la differenza attribuibile a epsilon ma non solo; è attribuibile a epsilon +
l’interazione ma non sono in grado di separare queste due componenti perché non ho repliche entro cella.
Quindi avrò la devianza degli epsilon e la devianza dell’interazione, ma non essendo in grado di separarle
assumo che sia tutta devianza d’errore e quindi assumo che non ci sia devianza di interazione (o che se c’è
la devianza d’interazione fa parte della devianza di errore).

Il vincolo per poter calcolare l’interazione è avere le repliche entro cella.

Sono in questa situazione, in cui ho 4


colture diverse (parcelloni) sotto 3
trattamenti diversi, al loro incrocio ho
almeno due misure (posso averne di più
ma devo averne ALMENO 2).

Dal punto di vista dei calcoli degli scarti


alfa e beta non succede niente. Avrò
medie marginali delle righe e medie
marginali delle colonne, entrambe le
scarto dalla media generale mu e mi
daranno rispettivamente le 3
componenti beta e le 4 componenti alfa.
Quindi quando calcolo le componenti alfa e beta, indipendentemente da quanti valori misurati ho nelle
celle, stimo allo stesso modo le medie marginali, la media generale e gli scarti da mu.

Costruendo i valori attesi entro cella, ho che la prima


cella è data da mu generale + l’effetto di scarto di prima
riga + l’effetto di scarto di prima colonna e allo stesso
modo costruisco un valore atteso nella cella. Mi calcolo
quindi la tabella dei valori attesi (vedi tabella).

In questa prima cella (quella in alto a sx) mi aspettavo di


misurare 2 volte 0.875. mi aspettavo di misurare due
valori uguali, perché tutti i valori nella cella sono repliche
(così anche nelle altre celle). Quindi mi aspettavo di
avere risultati simili perché sono state sottoposte allo
stesso trattamento alfa e stesso trattamento beta, quindi
la variazione indotta dall’obiettivo sperimentale non ci
dovrebbe essere. I due valori attesi sono ovviamente
uguali, ma perché non sono quelli che ho misurato e
perché se misuro due volte la stessa quantità non
ottengo due valori uguali? Per effetto della variabilità del residuo, della misura, ecc.
162
Dentro la cella posso calcolarmi una media di questi due valori, che è la media di cella (0.902). questi due
valori però discostano dalla media a causa degli epsilon. Questo valore misurato 0.903 è mu + alfa + beta +
alfabeta +epsilon. La media di 0.903 e 0.901 è la media senza epsilon (0.902), ovvero mu+ alfa+ beta +
alfabeta (la media di cella). Alfa*beta c’è perché non stiamo assumendo l’assenza di interazione, quindi il
valore della cella può avere l’interazione. Ma il fatto che questi due valori discostano dalla loro media è per
epsilon e quindi per sottrazione posso ottenere epsilon (come sopra).

Se non ci sono epsilon, perché il valore doveva essere 0.875 (mu + alfa + beta) e invece ho 0.902? La
differenza è la distorsione dal modello completamente additivo, chiamata interazione.

Il fatto di avere almeno due misure entro cella mi


permette di separare le due componenti interazione e
epsilon (quando ho repliche nella cella). Lo scarto tra i
valori misurati e la media di cella diventa l’errore
epsilon, la vera variabilità; l’altra diventa una
componente spiegata che deriva dal fatto che il modello
non è completamente additivo.

Tra 0.903 e 0.901 ottengo 0.902 (media della cella) e


0.001 (scarto dalla media e dal valore atteso). Questo
0.001 è l’errore epsilon.

Facendo invece lo scarto tra media cella e valore atteso


0.902-0.875 = 0.027, ottengo la componente di
interazione.

Alla fine, ho 24 valori epsilon che mi daranno la varianza


di errore. Ovviamente i valori epsilon devono essere
elevati al quadrato, sommati tra di loro e ho la devianza
che dividendola per i gdl ho la varianza. Poi ho le
componenti dell’interazione che sono uguali a due a due
e anche qui elevandoli al quadrato e sommandoli ho la
devianza e dividendola per i gdl ho la varianza. E poi ho
gli scarti marginali per gli alfa e per i beta, che anche loro
elevandoli al quadrato e sommandoli e moltiplicandoli
(per 8 e per 6) mi da la devianza, che dividendola per i gdl ho la varianza.

Ognuna di queste componenti alfa, beta e alfa*beta vengono testate contro l’errore epsilon, con un
normale test F e ci dirà se è significativo o no. Se non è significativo, accetto l’ipotesi nulla e quindi mi
fermo lì. Se è significativo, quindi rifiuto l’ipotesi nulla, passo ai test post hoc per separare le componenti
alfa, le componenti beta ed eventualmente le componenti alfabeta (ricorda che l’interazione è detta
alfa*beta ma non è il prodotto).

163
Dal punto di vista grafico vediamo
questa rappresentazione. È un
disegno a due vie, dove una via di
confronto è la tecnica di
lavorazione e un’altra via di
confronto è l’irrigazione, fatto su
una produzione granellare di
mais.

Faccio una rappresentazione


grafica delle medie
dell’interazione, quindi ho due
tecniche di lavorazione per due
tecniche di irrigazione (come
componenti spiegate) quindi mi
aspetto 4 medie dell’interazione.
Qui non c’è scritto quante sono le
repliche, le repliche sono un’altra dimensione. Questi sono i risultati in termini di medie di trattamento e
invece di fare la tabella con le righe e colonne, faccio una rappresentazione ad istogrammi.

Per cui ho aratura e sodo e in entrambi ho irriguo e non irriguo (disegno 2x2). Rappresentazione per
istogrammi. Quanto è l’effetto di differenza tra sodo e aratura? Senza guardare l’effetto irrigazione, la
media dei due valori è 9, guardando solo sodo (10+8/2). Nell’aratura la media è 13 (14+12/2). Quindi
guardando così, sembra che l’aratura mi permetta di produrre 4 tonnellate in più rispetto al sodo (sulle
medie).

Se vado a vedere nell’irriguo, l’effetto che si ha nell’arare anziché fare semina su sodo, noto che va da 10 a
14 e quindi anche qui ho un incremento di 4 tonnellate. Se vedo sul non irriguo, passo da 8 a 12 e anche qui
ho l’incremento di 4 tonnellate. L’effetto medio misurato sulle medie dei sodi contro gli arati
indipendentemente dall’irrigazione è lo stesso che io vado a misurare nei sottogruppi. Questo è il caso che
mi dice che non c’è interazione. Anche facendo al contrario ho gli stessi risultati. Cioè se faccio la media
degli irrigui ho la media 12 (14+10/2), nel non irriguo ho media 10 (8+12/2) e quindi sulle medie ho effetto
di 2, ovvero che l’irrigazione aumenta di 2. Questo lo vediamo sia nel sottogruppo dei sodi e sia in quello
dell’aratura, dove l’irriguo è 2 volte più grande del non irriguo.

Le componenti additive calcolate sulle medie si ripetono dentro ogni sottogruppo. Questo è il caso in cui
non c’è interazione e il modello è completamente additivo.

Adesso consideriamo il caso in cui ci sia interazione. La media del sodo è 10 (10+10/2), la media dell’aratura
è 13 (14+12/2). L’effetto aratura rispetto sodo è di 3 tonnellate, ma nell’irriguo la differenza è di 4 (da 10 a
14), nel non irriguo la differenza è di 2 (da 10 a 12). L’effetto medio non si mantiene nei sottogruppi ma
cambia. C’è interazione e il modello in questo caso non è additivo.

164
23/05/2018

TRASFORMAZIONE DEI DATI

Quando verifichiamo le assunzioni, se queste non


sono verificate vediamo che succede. Per fare
l’analisi della varianza devo vedere che la
distribuzione sia normale e che le varianze siano
omogenee, cosa succede se questo non capita?

Quando diciamo che le assunzioni non vengono


rispettate, parliamo della seconda e della terza,
perché la prima è un fatto sperimentale e quindi
vuol dire che abbiamo impostato bene
l’esperimento. La seconda e la terza assunzione non vengono rispettate spesso e questo è perché la
distribuzione che analizziamo non è di tipo normale. Quando accade questo, bisogna ricondurla a una
normale e per farlo si usano le trasformazioni matematiche dei dati.

Noi vedremo una serie di trasformazioni che sono quelle più utilizzate e servono proprio a rendere o
avvicinare la distribuzione a una distribuzione normale. In corsi più avanzati si fa un0analisi della varianza
che non è basata su una normale ma su altre distribuzioni.

Se la distribuzione non è normale cerchiamo di ricondurla a una normale. Si fa la trasformazione dei dati
per diversi scopi, quali:

• stabilizzare le varianze,
• linearizzare le relazioni fra le variabili quando non sono lineari ma moltiplicative consideriamo la
misura Y come la somma di vari componenti, quali Y=  e quindi si parla di componenti
additive. Può capitare di avere un modello di componenti moltiplicative e in quel caso bisogna
ricondurle ad additive e per farlo si usano le trasformazioni dei dati.
• normalizzare le distribuzioni.

Teoricamente come trasformazione dei dati possiamo utilizzare qualsiasi formula. Se sappiamo che la
variabile che stiamo analizzando è un quadrato di una variabile, perché magari è un’area allora, se le
dimensioni lineari sono distribuite normalmente, un’area sarà distribuita secondo il quadrato di una
normale e allora per portare alla normalità facciamo la radice quadrata. Se sappiamo che una formula è un
rapporto, facendo l’inverso lo portiamo alla normalità. Quindi sapendo come sono fatte in natura è facile
portarle alla normalità.

In altri casi si testano alcune trasformazioni che sono quelle più comuni, quali quella lineare, logaritmica,
potenza e angolare (sono tutte comuni tranne la prima). In questo modo si rifanno i test sui dati trasformati
e si vede se rientriamo nelle assunzioni o per lo meno se ci siamo avvicinati (non siamo proprio normali ma
ci avviciniamo al dataset di origine).

TRASFORMAZIONE LINEARE DEI DATI

165
La lineare non serve a trasformare i dati, però la trattiamo lo stesso perché se applico la varianza ad una
certa variabile e per qualche ragione questa la trasformo secondo una equazione lineare, l’analisi della
varianza applicata ai dati trasformati mi darà lo stesso risultato che ho avuto sulla variabile originaria.
Quindi come trasformazione non serve a niente, lo facciamo perché possiamo trasformare linearmente i
dati senza cambiare i risultati della varianza.

Ad esempio se faccio un’analisi della varianza su dei dati espressi in ppm, e poi vedo che questi numeri
sono grandi, allora al posto di usare dei ppm uso dei per mille o dei per cento, ossia divido tutti i numeri per
mille (se voglio esprimerli in %ₒ) o divido per 10000 (se voglio esprimerli in %). In ogni caso il risultato non
cambia. Se per esempio esprimo una variabile in cm e poi la rianalizzo espressa in metri ho ancora gli stessi
risultati, certo che tratta numeri diversi ma il risultato dell’analisi della varianza è lo stesso.

Questo è importante perché capita di poter trasformare dei dati secondo una lineare e per farlo devo
sapere che la trasformazione non mi altera la statistica della varianza. Questa trasformazione lineare può
essere:

• moltiplicativa, quindi moltiplico o divido per la stessa quantità


• additiva, quindi sommo o sottraggo per la stessa quantità
• moltiplicativa e additiva.

Questa trasformazione ha effetto di traslare e scalare la distribuzione, ma non cambia la forma della
distribuzione. È inutile quando si vogliono modificare le proprietà della distribuzione.

Perché queste trasformazioni lineari non cambiano il risultato dell’analisi della varianza? Per quella
additiva, la ragione è che se prendo tutti i valori e li sposto di una quantità fissa, capita che anche la media
si sposta della stessa quantità fissa. Se aggiungo 10 a tre valori e faccio la media rimane lo stesso anche
senza l’aggiunta, quindi gli scarti rimangono ancora tali. Questo perché spostando i valori si sposta la media
e questo non altera in nessun modo gli scarti e poiché l’anova è basata tutta sugli scarti ne consegue che gli
scarti non sono cambiati e quindi anche l’anova sarà uguale.

Per la trasformazione moltiplicativa, se anziché aggiungere una quantità moltiplico o divido per una
quantità, succede che in questo caso anche gli scarti saranno moltiplicati per quella stessa quantità. Se
moltiplico tutti i numeri per 10 anche gli scarti saranno 10 volte più grandi. Le varianze che dipendono dagli
scarti al quadrato, se i valori sono moltiplicati per 10, saranno 100 volte più grandi. Ma saranno 100 volte
più grandi le varianze dei trattamenti, quindi le varianze spiegate al numeratore e saranno 100 volte più
grandi le varianze d’errore al denominatore. Quindi farò un rapporto F con varianze che sono 100 volte più
grandi sia al numeratore che al denominatore, ma essendo ad entrambi questo moltiplicatore si semplifica,
diventa 1, e quindi il test F rimane come prima.

Queste sono le ragioni per cui diciamo che quelle lineari non servono a nulla, perché possiamo moltiplicare
o traslare il dataset senza alterare gli effetti interni sull’anova.

TRASFORMAZIONE LOGARITMICA DEI DATI

166
La trasformazione più comune è
quella log. Abbiamo dei dati,
facciamo il test di normalità dei
residui e di omoschedasticità e
vediamo che la nostra
distribuzione non è normale. La prima cosa da fare, per capire come è fatta la distribuzione, è disegnare il
grafico dei residui e calcolare l’indice di Skweness. Se questo indice ci dice che la distribuzione è
asimmetrica positiva (e questo è il caso più frequente che capita), allora è un’indicazione che noi dobbiamo
trasformare i dati e quindi calcolare Xt, ovvero X trasformata, partendo dal log della X iniziale X0. Quindi noi
trasformiamo una Xt e poi usiamo questa variabile per fare l’analisi della varianza e non più X0. Le
trasformazioni log si usano in molti casi, in idraulica o idrologia, ma anche per microbiologia. Se sono
esponenziali o le trattiamo con la statistica di tipo esponenziale oppure con i log.

Quale base usiamo per il log? Quella che vogliamo, questo perché se abbiamo un log di una certa base e
vogliamo trasformarlo in un'altra base (logb in base alogb in base c) dobbiamo moltiplicare il log in base a
per il rapporto del logb in base c e il loga in base c. È una costante, quindi di fatto noi trasformiamo tutti i
log espressi in una base in log espressi in un'altra base, moltiplicandoli tutti per uno stesso valore e quindi
per una costante. Come detto prima nella trasformazione lineare, se moltiplichiamo tutti numeri per la
stessa quantità l’analisi della varianza non cambia. Quindi se lavoriamo con i log che siano espressi in base
naturale o in base 10 e che siano espressi in qualsiasi altra quantità, non importa. Non diciamo che i numeri
sono gli stessi, ci vengono numeri diversi, ma sono numeri linearmente correlati e quindi ci portano ad
avere la stessa analisi della varianza (non della trasformata rispetto alla non trasformata, stiamo parlando
di quella in base 10 rispetto a quella in un’altra base).

È importante saperlo, e lo sappiamo perché l’abbiamo fatto noi, ma è importante dichiarare che
trasformazione abbiamo fatto, perché una volta avuti i risultati facciamo le back transformed. Se noi
sappiamo il log di una misura, allora trasformo in log, faccio analisi della varianza sulla trasformata, faccio le
mie statistiche per vedere chi è diverso da chi e poi quando faccio la tabella dei risultati faccio il back
transformed per portarlo alla variabile originaria. Sugli articoli scientifici troviamo sia la variabile originaria
(perché il lettore vuole trovare un numero che capisce), sia il dato trasformato (perché è stato fatto su
questo dato e non sul dato originale). Lo standard sarebbe quello di metterli entrambi.

Quanto vale il log in base 10 di 100? 2. Il log in base 10 di 1? 0. Il log in base 10 di -1? Non esiste perché
l’argomento deve essere sempre positivo e diverso da 0. Tutti i valori tra 1 e il limite che tende a 0 stanno
nella parte positiva.

Quello che si fa quando abbiamo a che fare con valori negativi, prima di fare la trasformata, si aggiunge a
tutti una stessa quantità nota. Si aggiunge questa quantità per far sì che non sia 0 ma sia positivo. Detto
questo, se facciamo l’aggiunta, l’aggiunta è lineare e quindi non cambia risultato, ma la trasformazione che
facciamo è log e questa fa cambiare il risultato. La logica quindi è aggiungere a tutti il numero più piccolo in
modo da averli tutti positivi e appena sopra lo 0.

TRASFORMAZIONE ANGOLARE (IN ARCOSENO) DEI DATI

167
Questa trasformazione si usa
soprattutto per i dati percentuali
o quando ho dei rapporti che al
denominatore non hanno un
valore comune per tutti
(altrimenti se dividessi tutto per
la stessa quantità avrei avuto una trasformazione lineare). Se ho valori % che coprono un intero range, si
vede che ho una maggiore distribuzione dei valori al centro e una minore distribuzione verso gli estremi
(quindi la distribuzione è più schiacciata agli estremi e meno all’interno). Questo perché nel mezzo ho tutta
la variabilità possibile, ma guardando gli estremi, per forza mi trovo bloccato e non posso oltrepassare il
limite e le distribuzioni si schiacciano.

È tipico allora usare questa funzione arcoseno per linearizzare questo valore. L’arcoseno ha come campo di
esistenza tra 0 e 1 e linearizza questa trasformazione in radianti.

Se guardiamo delle distribuzioni limitate agli estremi, ad esempio esprimere il risultato per superfice
aziendale irrigata, noi abbiamo variabilità sull’intero range, ci sono aziende allo 0%, al 100% e poi tutte le
casistiche. In quel caso la variabilità che troviamo al centro è superiore rispetto a quella che troviamo al
primo 5%, perché nella parte dei valori alti può essere qualsiasi numero, dalla parte dello 0 non può
scendere sotto lo 0%, stesso discorso per il 100%. Tutto si blocca, perché sono distribuzioni che non hanno
un campo di esistenza illimitato, ma limitato. Per evitare tutto ciò si usa la funzione arcoseno.

TRASFORMAZIONE DI ELEVAMENTO A POTENZA DEI DATI

Ci sono diversi tipi di questa


trasformazione. È una grande famiglia
perché a seconda della trasformazione
che utilizziamo abbiamo risultati
diversi. Le trasformazioni qui
rappresentate sono 4 ma potrebbero
essere anche di più.

La prima trasformazione è quella che


considera come esponente -1 e in
questo caso avremo come Xt il
reciproco. Questa si usa spesso nei tempi di reazione, perché sono espressi 1/t e quindi sono dei rapporti.
Poi abbiamo la trasformazione con esponente ½ o 1/3, radice quadrata e radice cubica. Queste si usano
spesso quando abbiamo dati che sono al quadrato o al cubo. Ad esempio le conte di cellule di lieviti in un
mosto, le esprimiamo in ml3. Anche se si usa il log, se guardiamo come è distribuito il dato è un numero di
cellule per dimensione cubica che linearizzata non vuol dire questo, ma che devo trasformare con la radice
cubica.

Infine abbiamo la trasformazione quadratica, quando l’esponente è 2. Questa ha una caratteristica


particolare. Se le precedenti erano trasformazioni che tendono a normalizzare, la trasformazione
quadratica è l’unica che risolve le asimmetrie negative (perché le asimmetrie negative sono poco frequenti
nelle scienze biologiche).

EFFETTO DELLA TRASFORMAZIONE DEI DATI


168
Se noi capiamo la ragione per cui i dati non sono normali spesso riusciamo a capire quale è la
trasformazione da utilizzare. Sostanzialmente si fa il contrario della funzione che mi ha dato una
distribuzione non normale. Se guardiamo lo sviluppo lineare della vite coltivata a spalliera in una
dimensione sola, mi aspetto una dimensione di tipo lineare. Quindi capendo come è fatta la variabile,
spesso si capisce anche come trasformarla. Ci sono delle variabili che si trasformano a priori senza
nemmeno testare, ad esempio in idraulica i valori si trasformano perché è piena la letteratura che quella
variabile è di tipo esponenziale e si applica log, lo stesso per le popolazioni microbiche, il fatto di fare il log
dei tratti di DNA lo si assume in partenza e lo si fa cosi. Queste sono situazioni conosciute in letteratura.

Se abbiamo dei dati che hanno assunzioni che non sono valide, come faccio a trovare la migliore
trasformazione? Quella che minimizza l’errore, quindi quella migliore è quella che minimizza. Poiché non
posso confrontare le varianze d’errore (perché hanno unità di misura diverse e quindi non sono
confrontabili), sostanzialmente la migliore trasformazione è quella che mi rende più alto il test F, perché
questa è la misura relativa che mi permette di dire quale è la minimizzazione della varianza d’errore. Visto
che si vogliono vedere i test significativi, si aggiustano i dati, perché si fa la trasformazione che minimizza la
distanza d’errore e cosi vediamo i test più significativi.

Quando facciamo il fitting ai minimi quadrati minimizziamo la somma degli scarti al quadrato, perché quello
che facciamo non è testare trattamenti tra loro ma è trovare il modello che più di tutti si adatta ai dati che
stiamo guardando e questo è quello ha il minimo errore (questo sempre). Quando vogliamo costruire un
modello esplicativo è questo quello che facciamo. Se facciamo un modello di previsione dello sviluppo di
oidio sulla vite o un modello previsionale di peronospora su pomodoro o patata, puntiamo ad avere il
modello che ci azzecca il più possibile e questo è proprio quello che ha un errore tra i dati misurati e i dati
modellizzati il più piccolo possibile. Più il modello è fatto bene, più si adatta ai dati e più piccolo è l’errore.

L’analisi della varianza è una forma di modellizzazione. Se nell’anova ad 1 via vogliamo spiegare i nostri dati
dicendo y=mu più alfa più epsilon, i dati che ho misurato dipendono dalla media generale, da scostamenti
indotti solo dal trattamento effettuato e da scostamenti che noi non siamo in grado di capire. Tutto ciò vuol
dire che stiamo cercando di modellizzare i dati nel miglior modo possibile, cioè diminuendo l’errore e
attribuendo il più possibile l’effetto all’alfa, cioè alle componenti traslative legate ai trattamenti. Il punto
non è come io modellizzo i dati, ma quanto i dati si lasciano modellizzare. Un dataset che ha degli errori
sperimentali elevati, perché magari uno ha lavorato male o altro, alla fine non riesco ad avere un modello.
All’opposto più il modello che costruisco è corretto, più si adatta ai dati e più capisco dai dati e se capisco i
dati posso dire se il trattamento ha avuto effetto o no. Se i dati hanno una distribuzione non normale e li
tratto con una normale è ovvio che ci azzecca poco perché non è un modello corretto.

Se invece ho un modello che si adatta meglio ai miei dati, questo ha come conseguenza che mi stima
meglio l’errore e sono più capace di vedere le differenze tra le medie che poi siano statisticamente
significative o meno, è ovvio che voglio che siano significative perché in questo modo capiamo che siamo
capaci di discretizzare tra due trattamenti. Alla fine il risultato importante è la stima delle medie perché
anche dopo aver dimostrato le differenze statistiche quello che conta è di quanto sono traslate le medie.

Quindi scelgo la trasformazione che minimizza le varianze d’errore e quindi mi rende più elevato il test F.

Concludiamo dicendo che l’opportuna trasformazione dei dati rende minima la varianza d’errore e quindi
rende i test più significativi e con ciò più potenti. Quindi si conclude che la trasformazione più adeguata è
quella che minimizza la varianza d’errore.

169
Esiste un'altra impostazione molto più rigida ed è la TRASFORMAZIONE DI BOXCOX. Questa trasformazione
è un algoritmico matematico che dato un dataset univariato o plurivariato, trova l’esponente da applicare
ad una certa distribuzione che rende le nostre varianze il più omogenee possibile. È un test che ha come
soluzione l’omogeneità delle varianze e che ottimizza l’esponente facendo in modo che le varianze siano il
più omogenee possibile e quindi ci da come risultato il fatto di dire che per renderle omogenee bisogna
elevare i dati alla potenza di 2.65 e se le varianze non erano omogenee non è detto che siano cosi, ma si
avvicinano molto di più. Chi usa questa trasformazioni dice che questo 2.65 è 3, ma ha senso che i dati
vengono elevati al cubo? È una modellizzazione empirica. Noi non la usiamo.

Trasformazione in ranghi (rang trasformation), cioè metto in ordine i numeri dal più piccolo al più grande. È
una trasformazione che trasforma i dati in ranghi, si fa la statistica parametrica tanto tutto si normalizza e
poi si applica il modello alla trasformata in ranghi, ovvero quello che fa la statistica non parametrica. La
statistica non parametrica sono test basati sulle mediane e non sulle medie e la mediana è una misura per
ranghi e non è altro che il rango medio. Quindi se non si riesce a rendere normali le distribuzioni, si fa
l’analisi della varianza e poi la rang trasformation. Funziona, normalizza le distribuzioni e poi in tabella
riportiamo le mediane e non le medie, perché analizziamo i ranghi. Il grosso problema è che non è possibile
fare back trasformation, non si può riportare i ranghi alla posizione iniziale. Anche questo non lo usiamo.

ANALISI DELLA REGRESSIONE E DELLA CORRELAZIONE


A differenza dell’analisi della varianza dove studiavamo la relazione esistente fra due variabili di cui una
risposta era una variabile numerica di tipo continuo, come variabile dipendente, e una variabile causale che
era di tipo categorico, adesso invece entriamo nel mondo delle divariate. Vediamo la relazione esistente fra
due variabili entrambe di tipo continuo, ne guardiamo due perché parliamo di sistemi divariati.

Questi sistemi possono essere studiati


sostanzialmente in due modi per
quello che ci interessa.

Primo caso, rappresentato dal grafico


in basso a sinistra, ho la variabile che
possiamo immaginare essere una
risposta, in questo caso produzione di
frumento, e una variabile che
immaginiamo essere causa perché è
una pratica agronomica, la quantità di
azoto fornita alla coltura attraverso la
fertilizzazione per favorire la
produzione.

In una situazione del genere abbiamo chiaro che esiste una variabile che sta sotto il nostro controllo, che è
per esempio la quantità di fertilizzante che noi distribuiamo e una variabile che è conseguenza dell’azione
che noi abbiamo operato. Quindi è vero che è un sistema divariato ma una variabile è dipendente e una è
indipendente.

Un altro modo di vedere i sistemi divariati è quello rappresentato dal grafico in basso a destra dove, di
queste unità statistiche che sono delle foglie, andiamo a misurare una variabile che è la concentrazione di
clorofilla espressa in mg per foglia, e il contenuto di azoto proteico sull’utile, anche questo misurato mg per
170
foglia. La relazione ci mostra che chiaramente c’è un trend per cui queste due variabili sono tra loro legate,
per cui al crescere di una cresce anche l’altra, questa proprietà la si sfrutta. In questa fase però nessuna
delle due variabili è sotto il nostro diretto controllo, certo che dipendono dalle nostre azioni ma noi non
possiamo direttamente calcolare l’azoto proteico solubile e la clorofilla per foglia. Cosa ci interessa? In
questo ambito ci interessa vedere se queste due variabili hanno una risposta collegata.

Una situazione analoga dove noi possiamo gestire con azioni ma non completamente, è quella del grafico in
alto dove noi a diversa densità di piante per metro quadro abbiamo una diversa risposta per semi per
pianta. Anche questa è una relazione che ci mostra come variano queste due variabili in relazione una
all’altra ma senza il nostro diretto controllo. Se noi andiamo a mettere questi due tipi di relazione insieme a
questi due nomi, come ci stanno?

La regressione è una tecnica statistica che ci permette di costruire una relazione funzionale che definisce il
comportamento di una variabile, detta dipendente o regressa, al variare di un’altra variabile che è quella
che sta sotto il nostro controllo che è la variabile indipendente, o variabile causa o varabile regressore. Le
due variabili sono chiaramente una la causa e una l’effetto, se fertilizzo di più produco di più. Se noi in
questo ambito andiamo a studiare la risposta causa-effetto, stiamo costruendo un’analisi di tipo
regressione (esempio del grafico in basso a sinistra).

Nel caso del grafico in basso a destra, il nostro interesse è vedere se queste due variabili sono correlate,
non tramite un meccanismo causa-effetto, ma tramite un meccanismo in cui entrambe sono dipendenti da
un’altra situazione che le fa evolvere insieme secondo un certo legame. In questa situazione non ci
interessa tanto la relazione funzionale tra queste due variabili, ma ci interessa capire se queste due
variabili hanno un comportamento in qualche modo comune e quindi al crescere di una cresce anche
l’altra oppure diminuisce, quindi se c’è legame, e questo rientra nel capitolo della correlazione.

Questo è importante per capire che fare l’analisi della regressione dipende da cosa vogliamo studiare noi.
In base alla risposta che vogliamo avere l’importante è porsi la giusta domanda.

ANALISI DI REGRESSIONE

Questa analisi determina la forma della relazione funzionale tra variabili, secondo una relazione causa-
effetto. La regressione esiste genericamente in due forme:

171
• la regressione semplice che determina la forma della relazione tra 2 variabili (una indipendente ed
una dipendente). Questa ha il vincolo di avere una variabile regressa e una variabile regressore,
quindi abbiamo una dipendente e una indipendente.
• la regressione multipla che determina la forma della relazione tra più variabili (più indipendenti ed
una dipendente). Qui abbiamo una variabile regressa ma abbiamo più variabili regressori. La
variabile risposta che è dipendente dipende da più variabili indipendenti.

L’analisi della regressione permette di costruire un modello funzionale della risposta di una variabile
(effetto) rispetto ad un’altra (causa). Cioè noi andiamo a parametrizzare una formula matematica che ci
permette di calcolare la risposta in funzione della variabile regressione.

La forma dell’equazione che andiamo ad utilizzare fa parte della costruzione del modello ed è un modello
che dobbiamo scegliere noi. Non c’è nessun strumento matematico che ci permette di decidere qual è il
modello da utilizzare per spiegare una variabile in funzione di un’altra o di altre. Gli strumenti che abbiamo
a disposizione sono strumenti che ci permettono di confrontare più modelli. Quindi se noi scegliamo più
modelli abbiamo degli strumenti che ci dicono fra questi modelli qual è il migliore, abbiamo diversi
indicatori a disposizione. Ma non abbiamo uno strumento a disposizione che ci dica in questa situazione usa
questo modello. Esistono dei software, tipo il tabcure, in realtà ne esisteva anche un altro. Entrambi i
software adattano i nostri dati un modello elevatissimo di funzioni diverse, circa 12-13.000 funzioni diverse
e poi di queste ci da l’elenco delle prime funzioni con gli indicatori più elevati. Ci da un suggerimento di
quello che è il modello migliore, ma comunque lo da sempre in termini comparativi. Detto questo vedremo
le relazioni lineari e diremo qualcosa sulle polinomiali.

La regressione è uno strumento particolarmente interessante perché una volta parametrizzato il modello ci
permette di stimare il valore della variabile risposta a partire dalla conoscenza della variabile effetto anche
in punti che non sono stati misurati.

Se torniamo all’equazione di prima in basso a sinistra, quando ho


adattato una funzione in mezzo ai punti ovvero ho parametrizzato
la funzione, a 75 kg di azoto io non una parcella sperimentale che
mi da la risposta, non l’ho misurata, perché avevo ad esempio 4
parcelle a 50 e 4 a 100. Se io ipotizzo a 75 posso calcolare questo
valore e dire a questo livello ho una produzione che è poco
superiore ad esempio a 6 tonnellate ad ettaro. Questo lo posso
fare dopo che ho costruito il modello funzionale.

Questa procedura prende il nome di interpolazione, ovvero significa comunque che sto lavorando
nell’ambito dei valori misurati, ovvero sto facendo delle predizioni nell’intervallo dei valori x che ho usato
per generare la regressione. Conoscendo la forma della relazione funzionale tra variabile indipendente e
dipendente è possibile stimare il valore della variabile dipendente conoscendo quello della variabile
indipendente (interpolazione) nell’intervallo dei valori di X usato per la regressione.

Questo perché dal punto di vista statistico, la risposta è garantita nell’intervallo dei dati misurati.
L’estrapolazione è possibile, ma l’estrapolazione non ha più un significato statistico ha significato
modellistico dove assumo che questo modello funzioni oltre i valori x misurati. Questa però è
un’assunzione che faccio su base fisiologiche, su base di conoscenze di processo, ma non è la statistica che
mi permette l’estrapolazione. Semplicemente perché non sapendo come il modello si comporta dopo quel
punto, non posso sapere se oltre quel punto la retta continua dritto o ad un certo punto la retta si piega.
172
ASSUNZIONI DELL’ANALISI DELLA REGRESSIONE
Le assunzioni sono più o meno le stesse
dell’analisi della varianza. L’omogeneità della
varianza non può essere verificata tranne nel
fatto che ci sono più repliche dello stesso
valore x (non capita sempre). La normalità
dei residui effettivamente può essere testata
e lo faremo con gli stessi strumenti usati per
verificare la normalità delle distribuzioni
sull’anova. Le caratteristiche degli epsilon,
ovvero che non ci sono fattori che influenzano gli epsilon, continua ad essere un elemento importante per
come abbiamo impostato l’esperimento. Niente di nuovo rispetto all’anova.

REGRESSIONE LINEARE
Questo è un output non
inferenziale che ci restituisce
un’analisi di dati, con una retta
che passa dai valori con
quell’equazione e un R2. Questo è
l’output dell’analisi della
regressione.

Se la regressione che stiamo


analizzando è una regressione
lineare, quindi stiamo parlando di
regressione semplice lineare, ciò
che adattiamo è una retta.

La retta è y=a+bx, dove a prende il nome di intercetta e


b prende il nome di coefficiente angolare. L’intercetta è
definita come il valore che assume la variabile y nel
momento in cui x vale 0: y=a se x=0. Il coefficiente
angolare b corrisponde all’incremento della variabile y o
meglio alla variazione della variabile y per ogni
incremento della variabile x.

Spesso trascuriamo il fatto che a e b hanno un’unità di


misura e hanno un significato biofisico. Anche y e x hanno un’unità di misura. In questo esempio Y ha come
unità di misura kg di granella/ha, X ha come unità di misura kg di azoto/ha. Considerando l’equazione in
figura, y= a (4317)+ b(20.6)x, possiamo dire che a avrà la stessa unità di misura di Y e quindi kg di
granella/ha. Per quanto riguarda b, questa avrà come unità di misura kg di granella/kg di azoto. La b può
essere considerata in questo caso come l’efficacia del mezzo produttivo. La a invece è la quantità di
produzione che ottengo senza fertilizzare, quindi è la fertilità naturale del suolo. Quindi questi numeri non
sono numeri qualsiasi, ma sono numeri che hanno un chiaro significato.

173
Quindi devo considerare che sia a che b hanno delle unità di misura e in secondo aspetto hanno un
significato biofisico nel senso che bisogna vedere questi numeri cosa mi dicono.

Questo è il modello dell’anova, dove ho una


media generale (linea nera), ho delle traslazioni
alfa (linee rosse, in questo caso solo due perché
ho ipotizzato 2 trattamenti) dalla media generale
a quelle di trattamento.

Nell’analisi della varianza dopo aver stimato i


parametri e aver deciso quanto valgono, quindi il
primo passo è determinare le medie dei
trattamenti e quantificarle. Sappiamo quali
sono, non abbiamo bisogno di fare l’analisi della
varianza per conoscerli perché sono le medie dei
trattamenti. Allora perché ci facciamo una domanda per dirci se queste medie sono uguali o diverse. Basta
guardarle eppure la domanda ce la facciamo lo stesso. Questo perché così come i valori sono dispersi
intorno alla media di trattamento, quindi se misuro le repliche di questo trattamento non misuro per tutti
mu+ alfa 2. Quindi se faccio delle repliche sul trattamento 2 o 1, non è che misuro sempre lo stesso ma ho
una dispersione di questi valori, proprio perché ho una dispersione della popolazione.

Allo stesso modo se non prendo un individuo, ma prendo dei campioni di più elementi anche se non ci
fossero differenze tra trattamenti, queste medie di trattamento non stanno tutte sulla media generale, ma
sono disperse non secondo la gaussiana che sta qua ma secondo un'altra che è quella delle medie
campionarie, perché così come gli individui si distribuiscono intorno alle medie, le medie campionarie si
distribuiscono intorno alla popolazione.

Quindi quando faccio l’anova, alla fine mi chiedo se le medie dei due trattamenti non le ho pescate sulla
riga nera solo perché esiste una dispersione delle medie campionarie o perché effettivamente sono due
trattamenti diversi. Le differenze sulle medie ci sono, ma alla fine ciò che voglio sapere è se queste
differenze sono dovute solo da dove ho pescato il campione o c’è un effetto indotto dalla pratica che ha
funzionato più o meno. Questa è la domanda che ci poniamo nell’anova ed è quella parte che rientra nel
nome di inferenza statistica, cioè quando passiamo dai campioni presi a voler analizzare l’informazione.

Questa è l’analisi della regressione


lineare. Anche qui ci poniamo la
stessa domanda, è esattamente lo
stesso discorso che facciamo
nell’analisi della varianza: abbiamo
più valori, qui solo 3 per semplicità,
campionati su diversi valori presi
sull’asse x in punti diversi, abbiamo
ancora una media generale dei valori
che è la riga nera, la variabile
misurata è sempre la Y. La grossa
differenza rispetto all’analisi della
varianza è che sull’asse delle x non ci

174
sono delle categorie che identificano dei gruppi e quindi gruppi t1 trattati in un modo, gruppi t2 trattati in
un altro modo, ma abbiamo una variabile ovvero si ha un effetto che condiziona il valore medio che è
proporzionale in qualche modo all’asse x (che visto sul grafico di prima è più azoto metto più produco). In
questo grafico più x metto e meno ho la risposta, ma esiste questo collegamento lineare tra il valore atteso
e l’asse x. Ecco la differenza tra regressione e l’analisi della varianza, tutto il resto è uguale.

Nell’analisi della varianza quantifico le traslazioni alfa dalla media generale e le chiamiamo varianza
spiegata, la dispersione dei valori attorno ai valori attesi (che sono le medie del trattamento) ci danno la
varianza d’errore. Quindi c’è una varianza d’errore che deriva dalla componente non spiegata epsilon, e una
varianza spiegata dovuta ai trattamenti che sono le differenze tra le medie attese e la media generale.

Nell’analisi della regressione stesso discorso, abbiamo una quantità spiegata che è la distanza tra il valore
sulla retta e il valore generale e questa è la quantità spiegata (in rosso, betaX) e una distanza del valore
misurato dal valore predetto sulla retta che prende il nome di errore epsilon.

Alfa è la componente generale (mu dell’anova), betaX è la componente spiegata (alfa dell’anova), epsilon è
la componente d’errore. La linea rossa è betaX e la linea blu è epsilon. Se scompongo il dataset in questo
modo l’unica differenza è la componente spiegata, che nell’anova è la distanza tra la media del trattamento
e la media generale, nell’analisi della regressione è la distanza tra il valore predetto sulla retta e la media
generale dei valori.

Se consideriamo questo esempio,


possiamo dire che il grafico a non lo
usiamo, il grafico b e c sono quelli che
usiamo. In pratica il grafico a
rappresenta la devianza totale e viene
scomposta in due componenti, ovvero
la devianza spiegata e d’errore (grafico
b e c). Nel grafico c ho la devianza
d’errore non spiegata, epsilon, ovvero la
distanza da ogni valore misurato e la
retta (ovvero valore predetto). Questi
valori sulla retta c sono quelli che mi
sarei aspettato, perché se la retta è la
mia interpolante di tutti i valori quella
retta è la risposta che io mi attendevo.
Però in questi punti ci sono dei valori
che non stanno sulla retta, a causa di
errori sperimentali dovuti a epsilon.
Epsilon sono le differenze tra i valori misurati e lo stesso punto sulla retta (nell’anova erano le differenze tra
il valore misurato e la media del trattamento).

Nel grafico b ho la devianza spiegata, betaX, ovvero la distanza di ogni valore predetto sulla retta e la media
generale. Questa quantità è il dovuto alla regressione.

La logica è che quando assumo un modello e lo parametrizzo poi ci devo credere in quel modello nel senso
che quel modello magari è una retta di regressione, quindi credo che la retta di regressione sia la risposta
giusta e la ragione per cui i miei valori misurati non stanno sulla retta è perché esiste l’errore sperimentale
175
(grafico c). Anche nell’anova succede la stessa cosa, dove prendo 5 repliche, non credo che siano quelle 5
medie i valori giusti ma i valori giusti sono la media di quelle 5 repliche. I valori non stanno esattamente sul
valore medio sempre per l’errore sperimentale.

Questa è la modellizzazione che si costruisce in statistica per poi darci delle risposte.

Se ho un dataset e faccio passare una retta. La


domanda che mi posso fare è perché proprio questa
qui? Perché ho scelto questa retta? Perché le
proprietà della retta di regressione sono le stesse
proprietà della media. La media infatti ha due
proprietà ovvero che la somma degli scarti dalla
media fa 0 e la somma degli scarti al quadrato dalla
media rappresenta un valore minimo (minimo di
tutte le altre somme di scarti al quadrato che avrei potuto calcolare per qualsiasi altro valore che non sia la
media). Definiamo il cosiddetto LSF, adattamento ai minimi quadrati.

La retta di regressione è trovata con la stessa logica dell’adattamento dei minimi quadrati. La funzione è
trovata usando gli stessi
principi della media, cioè
minimizzando la somma degli
scarti al quadrato.

Il coefficiente b è la
codevianza di x,y fratto la
devianza di x. La devianza di x
è la somma degli scarti al
quadrato. La codevianza è il prodotto tra gli scarti di x e gli scarti di y. Una volta calcolato b e conoscendo le
coordinate medie delle x e y, possiamo ricavarci a= Y-bx.

La retta di regressione ha un’altra proprietà. Mentre il valore medio di una distribuzione rappresenta il
baricentro fisico della distribuzione stessa, la retta di regressione PASSA PER il baricentro fisico della
distribuzione. Il baricentro fisico della distribuzione, che è quel punto che ha coordinate x medio e y medio,
è un punto della retta di regressione e questo lo si dimostra (risolvendo la funzione dei minimi quadrati).
Quindi sapendo che y medio e x medio sono punti che appartengono alla retta vuol dire che soddisfano la
retta di regressione quindi uso questa regola al contrario. Partendo dal presupposto che passa per il
baricentro, b l’ho calcolato prima e a lo ricavo grazie a questa proprietà. A questo punto ho parametrizzato
la retta avendo calcolato sia la y che la x.

Se ho solo una x non posso avere una retta, perché avrei y=k e questa non è una retta di regressione. Devo
avere almeno due valori x, con le loro repliche. Per definirla bene devo avere più di 2 x.

176
Abbiamo quindi stimato la retta e abbiamo visto quali sono le componenti della retta. Ma la regressione è
significativa o no? Usiamo la stessa
tecnica di analisi della varianza, cioè
usando questo grafico

vado a calcolare le componenti che hanno spiegato dalla regressione lo scarto tra il predetto e la media
generale. Questa quantità è spiegata dalla regressione, cioè y predetto – y medio è la componente spiegata
della regressione. Lo scarto tra valore predetto e il valore misurato, mi da la componente d’errore epsilon.
Entrambi vengono elevati al quadrato, sommati fra loro, danno origine alle due devianze (devianza spiegata
e devianza d’errore) e divido per i gradi di libertà.

La devianza spiegata, essendo


spiegata da un regressore ha un
grado di libertà, la devianza di
errore ha perso un gdl per la
media generale, un gdl per il
regressore e quindi nella
regressione semplice ha n-2 gdl.
Il totale dei gdl è n-1.

Con le due varianze, faccio il


rapporto F (varianza
spiegata/varianza d’errore) e
calcolo il P(F). Successivamente
vedo la significatività e decido se
rifiutare o accettare l’ipotesi nulla, ovvero che la retta esiste o no.

177
BONTA’ DEL MODELLO
Ho una regressione che deve essere significativa, ma poi cosa è che mi dice che il modello è migliore o
peggiore? Noi costruiamo due modelli e diciamo con un indicatore che si chiama coefficiente di
determinazione, R2, che è il rapporto
fra la devianza spiegata e la
devianza totale. La devianza totale è
la somma della devianza spiegata più
la devianza d’errore, quindi se io
faccio la devianza spiegata diviso una
quantità che contiene la devianza
spiegata posso avere due estremi:

• la devianza spiegata
rappresenta tutta la devianza totale,
perché ad esempio quella d’errore non esiste. In questo caso R2 =1.
• all’estremo opposto possiamo avere il caso in cui la devianza spiegata non rappresenta niente della
devianza totale, e in quel caso avremmo 0/1, quindi R2 =0. Questo capita quando o i punti sono
molto lontani dalla retta o quando la retta è perfettamente orizzontale.

Quindi R2 è un indicatore di bontà del modello, ci dice quanto i punti stanno vicino al modello ed è un
valore compreso tra 0 e 1: 0 significa nessuna funzione predittiva il modello, 1 significa che il modello è
fantastico, ossia che ci dice tutto del processo.

Tra 0.95-0.98 per i gascromatografi.

Sui modelli biologici sappiamo di avere variabilità, la biologia non è uno strumento, quindi sui modelli
biologici bisognerebbe che ci fosse almeno un 0.65-0.70. Sui modelli territoriali, ad esempio quando
mettiamo in relazione consumi idrici di un territorio con caratteristiche evapotraspirative, ci si accontenta
di avere anche 0.40- 0.45. Quindi il valore di R2 dipende da che modello stiamo considerando.

178
30/05/2018

Ricapitolando. La regressione lineare significa far passare l’equazione di una retta, y=a+bx. Il modello è una
retta e occorre parametrizzare la retta ossia dare un valore ad a che è l’intercetta e un valore a b che è la
pendenza.

Le proprietà di questa retta sono:

• la funzione deve passare dal baricentro della distribuzione, quindi la retta passa per un punto che
ha coordinate x medio e y medio,

• la devianza dell’errore deve risultare minima cioè si usa il metodo dei minimi quadrati (least
squares), quindi minimizzare la somma degli scarti al quadrato.

Questa è la procedura che adattiamo nel modello lineare. Poiché la distanza della somma dei quadrati tra i
punti misurati e la predizione è detta la devianza d’errore, significa che sostanzialmente stiamo
minimizzando la devianza d’errore e quindi la varianza d’errore. Quindi noi stiamo adattando il modello che
minimizza l’errore del modello stesso.

Questa è la procedura per calcolare i


parametri a e b, che ci servono per
calcolare poi l’equazione della retta. È
una procedura utile a minimizzare la
somma degli scarti al quadrato.

Grazie al fatto che noi sappiamo che il


baricentro passa dalle coordinate di soluzione, a questo punto x medio e y medio li conosciamo perché
abbiamo il valore della nostra distribuzione, b lo conosciamo perché l’ho calcolato, e va da sé che possiamo
calcolare l’intercetta. Il primo passo, dato un dataset bivariato, quindi è quello di ricavarci la retta che passa
per il nostro dataset. Come facciamo a farlo?

Il primo passo è parametrizzare


la retta attraverso la scelta di a
e b. Fatto questo è possibile
scomporre le devianze, quindi
partendo dalla devianza totale
che è lo scarto del valore
misurato meno la media
generale, possiamo calcolare la
quantità spiegata dalla
regressione e quella non
spiegata ovvero la residua. La
quantità spiegata è la distanza
del modello dalla media
generale. Questo perché la
media generale è l’ipotesi nulla. La funzione che non è dipendente da x ha equazione Y=K, dove K costante,
quindi in qualsiasi punto x noi ci aspettiamo lo stesso valore K e se è vero questo vuol dire che non c’è
dipendenza tra y e x. Però il fatto che y deve passare dal baricentro è vero ed è Y medio. Quindi l’ipotesi

179
nulla è che beta, coefficiente angolare, valga 0, quindi la retta è orizzontale, e se questa è così, per godere
della proprietà del fatto di passare dal baricentro, sarebbe fissata in y medio. Questa è l’ipotesi nulla.
Attraverso questo test separando la componente spiegata calcoliamo la devianza spiegata dal modello,
invece la distanza tra i punti misurati e quelli proiettati dalla retta, ci da l’errore generale del modello stesso
(cosi come abbiamo fatto per l’analisi della varianza, solo che qui lo scarto non è della media di trattamento
ma dalla retta).

Una volta che abbiamo le due devianze dividiamo per i gradi di libertà. Ogni regressore ha sempre 1 gdl, per
cui in questo caso in cui abbiamo una regressione semplice, quindi solo un regressore, la devianza spiegata
ha un solo grado di libertà e quindi la devianza che calcoliamo è uguale alla varianza spiegata (visto che
dovremmo dividere per 1). Invece nella componente residua troviamo gdl n-2, perché nel dataset abbiamo
perso un grado di libertà per la media generale per cui da n, i totali sono n-1 perché perdiamo 1 della
media, togliamo il secondo che è quello spiegato ovvero quello del regressore. Quindi ne rimangono n-2
gradi di libertà. Uno lo perdiamo per il calcolo generale e poi ai totali n-1 dobbiamo togliere quelli spiegati e
in questo caso, quelli spiegati sono uno solo e quindi ne abbiamo n-2. Nella regressione multipla ne
perderemmo di più, se abbiamo 5 regressori, nell’errore ci sarà n-6.

Tutto questo lo usiamo per calcolarci il test F, abbiamo la varianza spiegata e la varianza d’errore. Facendo
il rapporto tra le due varianze, calcolo F e il P(F) per vedere la significatività e capire se accettare o no
l’ipotesi nulla. Questa ipotesi è che il modello nel suo complesso non esista perché beta, secondo l’ipotesi
nulla, è uguale a 0. In realtà nella regressione semplice abbiamo solo questa ipotesi nulla perché il modello
complessivo coincide con l’unico regressore che c’è. Quindi parlare di significatività del regressore o del
modello è la stessa cosa perché il modello ha solo un regressore. Fare la significatività dell’F significa testare
il modello nella sua interezza ma anche testare il regressore. Quindi nella regressione semplice non c’è
differenza tra testare modello e testare il regressore.

Abbiamo calcolato la retta, test di significatività e l’altra cosa che possiamo fare è calcolare il coefficiente di
determinazione R2, che può essere tra 0 e 1. Quando i punti sono allineati sulla retta, non c’è la devianza
d’errore quindi la devianza totale è solo devianza spiegata. In questo caso devianza spiegata/ devianza
spiegata=1, quindi R2=1. Questo è possibile quando i punti sono sulla retta e quando i punti misurati
appartengono tutti al modello, è la situazione migliore che possiamo avere. Normalmente la devianza
d’errore c’è sempre. Si parla di errore, ma si intende la variabilità naturale delle popolazioni, causata da
variabilità genetica e dell’ambiente. Quindi l’R2 ci dice quanto è buono il modello, ma ce lo dice in termini di
dirci quanto il nostro modello è capace di spiegare la variabilità. Un modello con R2 basso non è
necessariamente un modello sbagliato, è semplicemente un modello che prende in considerazione tutti gli
elementi che portano variabilità al sistema. R2 pari a 0 si ha solo quando abbiamo una retta orizzontale. Più
si hanno valori di R2 vicini a 0, più vuol dire che la quantità d’errore è elevata e quindi si arriva a valori bassi.
Questo ci dice che il nostro modello spiega poco il processo che ha generato i dati.

Nell’anova ad 1 via, oltre ad aver valutato la significatività e aver fatto i post hoc, in R abbiamo usato anche
il pacchetto emmeans e valutare gli intervalli di confidenza dei parametri. L’intervallo di confidenza è
quell’intervallo in cui con una certa probabilità, che normalmente assumiamo al 95%, sta la media della
popolazione stimata dalla nostra media campionaria. Cioè la nostra media campionaria ci dice un certo
valore, l’intervallo di confidenza costruito intorno a quella media campionaria ci dice che con il 95% delle
probabilità, la media della popolazione da cui ho estratto il campione sta in questo intervallo. Di
conseguenza più è largo l’intervallo e più la stima è imprecisa, più l’intervallo è stretto e più la stima è
precisa. L’intervallo di confidenza è costruito sulla variabilità  o s, dove s è la variabilità campionaria. Se
180
facciamo un’analisi della varianza, questa s è la devianza d’errore, è la deviazione standard che deriva da
una pooled variance, che è stimata da tutti i campioni (non solo da un campione, dovuto al fatto che
facciamo l’omogeneità delle varianze). È una stima più precisa. Tutto questo per calcolare l’intervallo di
confidenza delle medie.

Così come stimo i valori a e b, a questo punto posso anche


attaccare un intervallo di confidenza alle stime a e b. Per cui a
e b hanno anche loro degli intervalli di confidenza. Non
vediamo come si calcolano, perché è una cosa complicata, ma
li studiamo perché in R ci saranno gli intervalli di confidenza
dei parametri.

Gli intervalli di confidenza dei parametri sono dati sempre da


t*l’errore standard, dove t è molto banale calcolarlo, lo si fa
in Excel usando la funzione INV.T e se voglio un intervallo al
95% metto come probabilità 5% e poi inserisco i gdl. Più
complicato è calcolare l’errore standard calcolare, ma non è
un problema perché è un output di R.

Per gli intervalli di confidenza possiamo fare il test t sui parametri a e b.

Qui bisogna distinguere se siamo nella regressione semplice o multipla. Per ora stiamo in quella semplice e
quindi abbiamo solo un regressore. Il test t è fatto sempre come lo conosciamo, ovvero la differenza tra il
valore b e il b dell’ipotesi nulla (che di solito è 0) tutto fratto l’errore standard. Avremo un valore t e
facendo poi la significatività di questo t ci dirà se quel b è significativo o no, ovvero se differisce dall’ipotesi
nulla o no. L’ipotesi nulla è che il valore b atteso valga un valore b che è 0. Messa cosi è la stessa ipotesi
nulla dell’analisi della varianza, anche facendo il test F abbiamo fatto l’ipotesi nulla che b sia uguale a 0. Se
noi facciamo questo test, mettendo come H0 che b sia uguale ad un b0 che è 0, risolviamo un test t, anziché
un test F, sul singolo parametro ma il risultato è lo stesso. Quindi è inutile fare questo test se l’ipotesi nulla
è 0. Questo nel caso della regressione semplice, con un unico regressore.

L’interesse di questo test nella regressione semplice è legato al fatto che questa ipotesi nulla è generica,
beta = ad un certo valore b0, ma questo b0 non è detto che sia 0 può essere anche un altro valore. Il test t,
non quello F (che ha solo come ipotesi nulla che beta sia uguale a 0), non è fatto sul modello ma solo sul
coefficiente angolare e ha il vantaggio che può esprimere come H0 anche un altro valore di b0, quindi posso
chiedermi ma b atteso vale 5 o qualsiasi altro numero? Che utilità ha questo? Permette di risponderci se la
pendenza che vediamo nel nostro dataset è uguale o no ad un'altra attesa.
181
In un processo di fermentazione noi sappiamo che nelle prime 3 ore se blocchiamo la quantità di zucchero
in funzione della temperatura, noi a partire dallo zucchero sappiamo quanto cresce il grado alcolico nelle
prime tre ore di fermentazione. Quindi quello che faccio è che ho diverse batterie di mosti, di questi calcolo
la quantità di zucchero presente e la quantità di alcol prodotta nelle prime tre ore di fermentazione. La
pendenza mi dirà il coefficiente di trasformazione. Se io so che questo vale 0.2 nelle prime due ore, questo
0.2 è il valore atteso, ovviamente in relazione con la temperatura. Se a un certo punto so che è questo il
valore di attendersi e metto su un esperimento con delle batterie di fermentatori con mosti dentro e vedo
che il coefficiente angolare di questa retta nelle prime tre ore non è 0.2 ma è solo 0.1, io quello che mi
chiedo è se mi è venuto 0.1 solo per la variabilità esistente o perché abbiamo un processo meno efficiente
di quello atteso. Se 0.1 non è diverso da 0.2 è solo questione di variabilità, ma se 0.1 è significativamente
diverso da 0.2 vuol dire che ho un problema. La regressione non ci dice qual è il problema ma ci dice che il
processo va più piano dell’atteso.

Con questo abbiamo finito la regressione semplice. Quindi ricapitolando abbiamo i dati, ricaviamo
l’equazione di una retta, poi possiamo testare il modello nel suo complesso del test F, il valore dell’Rquadro
e possiamo testare separatamente i coefficienti alfa e beta, cioè a e b, contro delle attese. Questi sono i tre
aspetti che giudico in una regressione semplice. Vado a testare la significatività dei coefficienti a e b contro
delle attese, contro ipotesi nulle che non necessariamente sono 0.

REGRESSIONE MULTIPLA

Da un punto di vista concettuale la differenza che c’è è simile a quella che c’è tra anova a una via e una
anova a due vie. Nella regressione multipla quello che succede è che abbiamo più regressori, la regressione
multipla è la relazione tra una variabile dipendente e diverse variabili indipendenti (almeno 2).

Sulla regressione multipla abbiamo prima di tutto un problema legato alla rappresentazione perché avendo
più variabili x e una variabile y è complicato fare i grafici. Se abbiamo una varabile y e due x che è il caso più
semplice possiamo ancora fare i grafici tridimensionali, quindi rappresentiamo la variabile dipendente
sull’asse verticale e mettiamo le due dipendenti sul piano. Se andiamo su più dimensioni ovvero abbiamo
tre-quattro regressori a quel punto non abbiamo gli strumenti perché conosciamo un sistema fatto a 3
dimensioni, quindi grafici con più dimensioni sono impossibili da fare. Tuttavia bisogna fare da quello
teorico, dobbiamo differenziare da ciò che è teorico e ciò che possiamo rappresentare. L’iperspazio è uno
spazio che ha più dimensioni, più di tre dimensioni. L’iperspazio è una cosa che non siamo capaci di
disegnare, ma matematicamente siamo capaci di gestirlo perfettamente, solo che non siamo in grado di
disegnare.

Quindi la regressione multipla è


semplicemente un grafico di una
repressione non disegnato in uno spazio
planare, in un piano, ma è disegnato nello
spazio tridimensioni. La regressione
multipla quindi è una y che è una variabile
risposta che è in funzione di un intercetta
(continua ad essere una sola) a cui
dobbiamo aggiungere tutte le nostre
variabili indipendenti x ciascuna con il suo

182
coefficiente angolare b. Quindi avremo coefficiente b1*x1, b2*x2, bp*xp dove p è il numero di regressori
che abbiamo.

Cosa significano questi coefficiente? a è


l’intercetta ed è il valore che assume y sul
modello quando tutte le x sono pari a 0. Quindi
quando tutte le variabili indipendenti sono
uguali a 0 il modello prende il valore y pari
all’intercetta e quindi è ancora vero che l’unità
di misura di a è la stessa di y.

b è invece la variazione di y conseguente al


fatto che noi teniamo ferme tutte le variabili x
e ne facciamo muovere una sola di un’unità, ovvero analizziamo l’incremento di un’unità di una x. Quindi se
tutte le x mantengono il loro valore, una sola cresce di unità, la y cresce di una quantità che corrisponde a b
che è il coefficiente angolare di quella variabile x. Dal punto di vista matematico questo concetto lo
possiamo definire derivata, se noi avessimo solo una x e in seguito al fatto che facciamo aumentare di un
infinitesimo la x la y aumenta di una certa quantità. Qua in realtà non basta dire derivata, ma dobbiamo
aggiungere derivata parziale, significa che abbiamo tante variabili indipendenti, noi ne facciamo variare una
sola, per cui b è quanto varia y al variare solo di x2 per darci b2. Questa si chiama derivata parziale.

Questo per vedere il contributo alla y ad ogni singola variabile. Nelle funzioni non lineari, le derivate parziali
non sono costanti, ma dipendono dai valori dei regressori. Abbiamo detto di tener fermo x1, x3 fino a xp e
lasciamo fermo solo x2. Se il modello non fosse lineare, b2 che è la derivata parziale dipenderebbe dai
valori a cui abbiamo fermato gli altri x. Se li abbiamo fermati a 0 o a 10, avremo un valore diverso da b. Per
fortuna noi stiamo guardando una regressione lineare, quindi i valori di b non sono dipendenti dai punti
dove ho fermato gli altri x, cioè i valori b sono costanti. Quindi b2 vale indipendentemente dai valori di tutti
gli altri x2, cioè se b2 vale 0.8 varrà sempre 0.8, perché abbiamo la regressione multipla lineare.

Questi coefficienti angolari ci dicono il contributo della y derivante da quella x. Cioè se avessimo il
coefficiente angolare 1, se x1 passa da 7 a 8, incrementa di un’unità e anche y incrementa di un’unità. Se b1
vale 0,5, quando x1 aumenta di un’unità, y aumenta di 0,5 unità perché devo fare 0.5*1. Questo è il
significato di coefficiente angolare. Quindi in qualche modo questi coefficienti mi dicono le variabili
qualcosa, ma quello che io non posso fare è andare a vedere, a giudicare quale variabile pesa di più nel
modello analizzando i coefficienti angolari. Infatti il peso di ogni variabile non è misurata dal valore del
coefficiente di regressione. Questo perché y ha le sue unità di misura, ma anche le x hanno le loro unità di
misura, i coefficienti angolari oltre che rappresentare il peso di ogni variabile hanno in sè anche un
coefficiente di conversione tra unità di misura. Ad esempio, se x1 fosse radiazione solare, megajoul al
giorno, watt per metroquadro, e Y è grami di biomassa, ovvero grammi per metroquadro, succede che b è
in watt per metro quadro.

Se la variabile x al posto di esprimerla in watt la esprimo in kw, succede che se x è 1000 watt e lo
esprimiamo in kw quindi diventa 1 kw, diventa 1000 volte più grande o più piccolo, ma questo non mi
cambia il valore di y che è la produzione. Quindi la variazione di x come fa a darmi sempre la stessa y?
Facendo cambiare il valore di b.

183
Se b ha dentro due componenti, il peso
della variabilità e l’unità di misura, come
faccio a costruire un modello che abbia un
b che non ha più la componente dell’unità
di misura ma solo quella di peso? Devo
fare in modo che non ci siano le unità di
misura. Per togliere le unità di misura le
standardizzo: scarti dei valori misurati
dalla media fratto la deviazione standard.

Standardizzo tutto, la z che è una sola, cioè


faccio ogni valore z – z medio/ la dev
standard di y o la deviazione standard di x
(vedi formule in figura).

A questo punto faccio ripassare la regressione multipla e quindi i coefficienti angolari b fatti girare sui valori
standardizzati diventano il peso delle variabili perché non contengono più la componente di conversione
dell’unità di misura. I beta hanno la conversione e il peso delle variabili, se li facciamo girare sugli
standardizzati abbiamo solo la componente di peso sulle variabili.

Che significato ha l’intercetta sulle variabili standardizzate? Se io standardizzo, i coefficienti beta diventano
quelli standardizzati e ci dicono il peso dei vari regressori nel determinare il valore finale. L’intercetta a che
valore assume dopo la standardizzazione? La media della variabile standardizzata è 0 perché se a tutti i
valori sottraggo la media sto traslando i punti in modo che questi siano simmetrici allo 0. Dopo la
standardizzazione, sia la y che tutte le x, avranno come media 0.

Quindi il baricentro fisico della distribuzione, con coordinate y medio e tutte le x medie, sarà l’origine del
sistema. Dopo la standardizzazione la retta di regressione passa dall’origine, l’intercetta in questo caso vale
0. Quindi dopo standardizzazione l’intercetta non c’è più.

I coefficienti standardizzati nella regressione multipla non significa che sono i coefficienti ad essere stati
standardizzati. Questi coefficienti standardizzati sono quelli calcolati su un modello applicato alle variabili
standardizzate: non derivano dalla standardizzazione dei coefficienti ma derivano dall’applicazione dello
stesso modello alle variabili standardizzate. Si calcolano per vedere il peso delle variabili nel determinare il
valore finale, in termini comparativi. Se voglio capire pesa di più uno o l’altro, quindi se voglio fare il
confronto lo faccio solo se abbiamo i coefficienti standardizzati perché non si possono paragonare dei
numeri con unità di misura diverse.

I coefficienti di standardizzazione ci permettono di confrontare il peso dei vari regressori in una


regressione multipla. Anche se si chiamano coefficienti standardizzati non derivano da standardizzazione
di coefficienti, ma derivano dal fatto che noi stiamo applicando lo stesso modello di regressione multipla
alle variabili standardizzate.

184
BONTA’ DEL MODELLO
R2 del modello è definito come il
rapporto tra devianza spiegata fratto
quella totale. Quindi anche parlando
di regressione multipla questo calcolo
non cambia, ovvero anche per un
modello di regressione multipla l’R2 è
il rapporto tra devianza spiegata
(dove ovviamente non sarà spiegata da un solo singolo regressore ma da tutti i regressori) fratto la
devianza totale che include anche la devianza d’errore. L’ R2 nel modello è la stessa cosa.

Anche quando dobbiamo applicare delle tecniche di data mining, ovvero scavare all’interno dei dati per
costruire il miglior modello significativo dei dati. Quando io faccio questo ho bisogno di indicatori che mi
dicano che un modello è meglio di un altro, provo ad applicare ai dati più modelli, alcuni vanno meglio altri
vanno peggio ma io devo avere degli strumenti per dire se uno strumento è migliore di un altro. Ci sono
diversi strumenti per fare questo.

L’ R2, il coefficiente di determinazione non è un buono strumento per fare questo perché se io ho un
modello che ha un certo valore di R2 e dentro questo modello provo ad aggiungere un regressore, per
vedere se questo regressore mi permette di spiegare meglio i dati, cosa succede? Questo nuovo regressore
che io aggiungo al mio modello può sostanzialmente servire niente, poco tanto. Questo è quello che ci
aspettiamo. Se il regressore serve tanto, mi farà alzare il valore dell’R2 fino a quando l’R2 arriva a 1 con un
andamento asintotico. Se il regressore serve poco farà alzare un pò l’R2, ma questo poco è difficile da capire
perché un conto è se siamo vicini a 1 un conto e un conto è se siamo lontani da 1. Se il regressore non serve
a niente l’R2 non scende, ma rimane cosi.

Quindi il coefficiente di determinazione che è un ottimo strumento per dirmi quanto il mio modello è
capace di spiegare i miei dati, non è invece un buono strumento per aiutarmi a decidere se un modello con
dentro un regressore in più o in meno è migliore di un altro.

Per porre rimedio a questo gli statistici hanno fatto modifica del coefficiente di determinazione che è il
cosidetto R2 adjusted (adj), ovvero l’R2 corretto.

La formula dell’R2 corretto rispetto all’R2 è


questa. Si parte dall’R2, si sottrae una
quantità che ha al numeratore p che è il
numero di regressori presenti nel modello
moltiplicati per la quantità di devianza di
errore espressa in frazione. 1-R2 (dove l’R2
ci dice quanto pesa la devianza spiegata sul
totale) questa sottrazione ci dice la quota di devianza di errore. Quindi moltiplica p per la devianza di errore
e divide per i gradi di libertà del modello.

Come faccio a calcolare l’R2 che di fatto è la devianza spiegata? Al denominatore della formula dell’R2 ho la
devianza totale, che è lo scarto tra i valori misurati e la media generale e questo è un calcolo che non ha
bisogno di nessun regressore, cioè ho un dataset, ho la media del dataset, faccio la somma degli scarti al
quadrato, ho la devianza del dataset e quindi il denominatore non ha bisogno di nessun modello, perché è
185
un dato che dipende dal dataset. La domanda quindi è, come faccio a calcolare la devianza spiegata nella
regressione multipla?

In quella semplice la devianza spiegata è la distanza tra il valore predetto, cioè il valore ottenuto dal
modello, e la media generale. Nel caso di regressione multipla questa definizione non cambia, rimane cosi
com’è: la DEV SPIEGATA=valore predetto del modello-la media generale. Ciò che cambia è che in quella
multipla la componente predetta è una y che dipende da tutti i regressori x ognuno con il suo coefficiente.
Quindi cambia il modo di calcolare il valore predetto, ma comunque la devianza spiegata è sempre la
distanza tra valore predetto e la media generale. Il test F della regressione multipla non ci dice niente sui
singoli regressori, ci dice solo se il modello è significativo o no.

Quindi tornando alla formula 1-R2 ci dice il peso relativo della devianza d’errore sul totale, questo viene
moltiplicato per il numero dei regressori p. Quindi più regressori ho nel modello e più il numeratore è
grande, quindi questo fa diminuire di più l’R2. Al denominatore c’è N-1-p, dove N sono i punti misurati, 1 è
la media generale, p è il numero dei regressori. Questa formula indica i gdl dell’errore.

La quantità che sottraggo all’R2 (quindi la frazione) è tanto più grande, quindi penalizzo di più l’R2 corretto,
tanto più sono lontano da 1 (quindi l’R2 è piccolo), tanto più ho tanti regressori p, ma questa quantità è
proporzionata ai gradi di libertà che ho. Visto che i regressori non possono essere 50 (i regressori saranno
comunque pochi rispetto al numero di punti), al denominatore mi aspetto sempre un N grande e un p più o
meno grande ma sempre più piccolo rispetto a N. Quindi il denominatore mi penalizza quanti più regressori
voglio mettere nel modello, soprattutto se non ho tanti punti.

Quindi un modello con tanti punti regge tanti regressori, un modello con pochi punti regge meno i
regressori e questo lo traduciamo in termini di R2 corretto. Un modello che ha tanti punti e pochi regressori
è poco penalizzato (e viceversa, un modello che ha pochi punti e tanti regressori è molto penalizzato).

Teniamo conto che l’estremo di tutto è avere tanti punti quanti sono i regressori, che non ha più senso
statistico perché diventa un sistema lineare con una soluzione matematica e non più statistica. Se ho 5
punti e 5 regressori, in statistica non posso farlo ma i valori dei coefficienti sono determinati dalle equazioni
e non sono più minimizzati dall’errore, perché l’errore è 0.

Questo R2 corretto è uno strumento che mi permette di dire, se considero un regressore in più nel mio
modello, l’R2 sicuramente cresce, ma l’R2 corretto cresce o diminuisce? Cresce o diminuisce in funzione di
quanto il nuovo regressore che ho aggiunto è utile al modello stesso: se apporta tanto, va bene, se apporta
poco rischio di avere un R2 corretto che diminuisce.

Ogni regressore non è uguale agli altri. Il primo regressore funziona bene o male, il secondo aumenta
l’effetto della regressione, ma si arriva a un certo punto che in funzione dell’apporto che da ciascuno e in
funzione dell’apporto che daranno insieme si trova un numero ottimale del regressore. Quindi se vado oltre
perdo efficienza ma se mi fermo prima non ho raggiunto il picco. Il modo di ottimizzare si può fare con l’R2
corretto perché può crescere ma anche diminuire, l’R2 normale non mi permette di fare questo, perché
questo mi dice che cresce sempre fino a che arriva a 1.

L’R2 corretto è uno strumento che mi permette di confrontare un modello rispetto ad un altro perché è
capace di ridursi oltre che aumentare. La frazione è sempre positiva. A parità di N, se aggiungo un
regressore in più succede che riduco il denominatore, quindi il numeratore cresce e quindi l’R2 corretto
dovrebbe ridursi. All’aumentare di p la quantità di R2 aumenta, perché abbiamo detto che più aggiungo i

186
regressori e più l’R2 aumenta, si riduce 1- R2 e il denominatore diminuisce. Il rapporto in ogni caso può
essere 0 ma non potrà essere mai negativo, quindi il rapporto è sempre qualcosa che sottraggo dall’R2.

Non confrontiamo l’R2 corretto con l’R2, noi confrontiamo l’R2 corretto senza il nuovo regressore con l’R2
corretto con il nuovo regressore.

Qui c’è scritto che bisognerebbe avere 10-20


osservazione. È molto ottimistico. È difficile infatti
seguirlo.

Nelle scienze agrarie si è più tranquilli quindi bisogna


avere almeno 5-6 punti per ogni regressore.

Ricapitolando. Nella regressione semplice calcolo la retta coi coefficienti della retta e sulla retta calcolo la
significatività del modello complessivo, l’R2 ed eventualmente la significatività dei singoli parametri se
cambio l’ipotesi nulla. Questo con la semplice. Nella regressione multipla perché abbiamo più punti, si
calcola in modo diverso l’intercetta e i coefficienti angolari, ma come lo valutiamo? L’R2 rimane ma gli
mettiamo vicino quello corretto, i coefficienti rimangono ma vicino ci mettiamo i coefficienti standardizzati,
la significatività complessiva del modello cioè il test F (ovvero varianza spiegata diviso la varianza d’errore)
rimane e continua a dirci se il modello è significativo o no. C’è il problema di valutare la significatività di
ogni singolo regressore. Nella regressione multipla non c’è più un singolo regressore, quindi va bene che il
modello è significativo, ma i regressori sono significativi tutti o no? Avendo più di uno può succedere che
uno è significativo e uno no, come nell’anova.

Ma c’è una grande differenza con l’anova. Infatti, nell’analisi della varianza i regressori sono considerati
indipendenti, tranne che per la presenza dell’interazione. L’interazione è il fatto che il modello che sto
analizzando non è completamente additivo ma oltre ad avere questa componente additiva ha una
componente che non è additiva perché i fattori tra loro interagiscono. Nell’analisi della regressione multipla
noi abbiamo i diversi regressori e ancora possiamo avere una componente che assomiglia all’interazione,
ma non la chiamiamo interazione. Nell’analisi della varianza l’interazione è quell’ulteriore componente
additiva che fa si che l’effetto di un fattore non sia costante ai livelli dell’altro fattore. Ciò che si chiama
interazione nell’analisi della varianza prende il nome di correlazione tra regressori nell’analisi della
regressione.

Rappresentiamo graficamente un esempio. Faccio un


insieme che rappresenta la devianza spiegata R1, il modello
è quindi y= f(R1). Facciamo finta che considero un altro
modello con y= f(R2) ed R2 ha una minore quantità spiegata
e quindi è più piccolo.

Adesso faccio un modello y= f(R1,R2). Succede che ho le


stesse quantità spiegate da R1 e da R2 (i cerchi sono uguali).
Questa quantità 10 è la componente correlata, ovvero è
quella componente che se metto entrambi nel modello,

187
non so se la quantità al centro (quella di 10) la spiega R1 o R2.

Quindi se R1 spiegava 100 e R2 80, quando metto nel modello R1 e R2 questi non spiegano 180, ma se la
quantità correlata è 10, allora il modello con R1 e R2 spiega complessivamente 170. Maggiore è la
componente correlata e minore è l’R2 perché è condivisa. È la stessa quota presente in entrambi.

Finchè ragiono con R1 da solo o con altri regressori, questo problema non salta fuori. Il problema della
correlazione si ha quando metto insieme R1 con R2. I due regressori sono correlati tra loro o no, prima
ancora di costruire il modello. R1 e R2 sono correlati o no anche se io non arriverò mai a costruire questo
modello y= f(R1,R2), non è la costruzione del modello che determina la correlazione. Questi fattori sono
correlati o no di per sè e quantifico la correlazione con l’analisi della correlazione. Il problema è che se sono
correlati, nel momento in cui li metto nel modello la devianza che spiegano complessivamente è meno del
totale. Se i datti sono correlati, inficiano nel modello nel momento in cui li ho messi insieme. Questo
problema salta fuori tutte le volte che due regressori sono tra loro correlati.

Il problema è che tutti i regressori sono fra loro correlati. Il fatto di trovare due regressori che fra loro non
sono correlati è possibile, ma è molto raro. Un certo livello di correlazione tra regressori è sempre presente,
quindi la situazione di R1 e R2 non è l’eccezione ma è la normalità.

Partendo da questo presupposto, vediamo come affrontare questo aspetto. L’aspetto viene confrontato nei
modi seguenti:

• è interessante sapere la quantità della devianza spiegata dal modello e quella spiegata dai
regressori perché non sono la stessa cosa
• visto che le componenti correlate sono comunque incluse nel modello complessivo, a me interessa
sapere quante sono le quantità di devianza spiegate solo da quel regressore senza componenti
correlate.
In questo modello che ha dentro due regressori, a me interessa sapere
quanto vale R1 senza la componente correlata per attribuirla ad R1 e
mi interessa sapere quanto è la componente R2 senza la componente
spiegata per attribuirla ad R2 (quindi le parti segnate).

Questo lo calcolo solo per sottrazione e per farlo faccio la devianza


spiegata dal modello intero, tolgo R2 e togliendo R2 questa quantità
correlata non viene persa, perché rimane nel modello (c’è ancora R1).
Quindi la differenza di devianza spiegata tra il modello in cui c’è R2 e il modello in cui tolgo R2, la perdita di
devianza spiegata che ho nel modello è la quota di devianza spiegata solo da R2 in quel modello. Ma lo
devo fare per differenza, perché se io facessi un modello che ha solo R2, stimerei una quantità di devianza
che è maggiore perché include la componente correlata. Invece se prendo il modello in cui c’è R1 e R2 e
tolgo R2, ciò che perdo è privo della componente correlata e questa rimane nel modello perché c’è R1.

Facciamo un po’ di riflessioni, la prima è che


questa quantità di devianza spiegata da un
regressore calcolata per differenza si chiama
contribuito marginale della variabile o del
regressore. Il contributo marginale di un
regressore è la differenza di devianza
spiegata dal modello incluso quel regressore
188
e la quota di devianza spiegata dello stesso modello dove è stato tolto quel regressore. Rappresenta la
quota di devianza spiegata in assenza delle quote dovute alla correlazione con altri regressori del
modello.

Questo ci dice anche che il contributo marginale di R2 non dipende solo da R2 ma da quanti regressori ho
nel modello. Infatti, se R2 spiegasse oltre il pezzo con R1 ma magari anche il pezzo con R3, avrei questa
situazione.

Ovviamente cambia il contributo marginale di R2. Perché oltre a perdere il


pezzo condiviso con R1, perdo anche il pezzo condiviso con R3.

Quindi il contributo marginale del regressore non dipende solo da ciò che fa
quel regressore, ma anche da chi altro c’è dentro e da quanto è correlato
quello con gli altri.

Dopo aver capito la devianza spiegata con il contributo marginale, ci viene un punto interrogativo. Cosa me
ne faccio di questa devianza spiegata dal regressore? Di solito le devianze spiegata le divido per i gdl e le
faccio diventare varianze. Queste le confronto con le varianze d’errore e ho F e poi il P(F) per dire se il
regressore è significativo o no. Come faccio in un modello di regressione multipla a testare la significatività
dei singoli regressori? Usando i contributi marginali.

La devianza che ottengo la divido per i gdl, dove ogni regressore ha 1 gdl e ottengo la varianza spiegata che
la divido con la varianza d’errore e faccio il test F di quel regressore.

Quando io tolgo R2 dal modello per fare la differenza e quindi per calcolare il contributo marginale, le
quote correlate rimangono nel modello, ma la quota di R2 che rappresenta il suo contributo marginale,
quando tolgo R2 dal modello e la devianza spiegata si riduce, che fine fa quella quota di devianza? Diventa
devianza non spiegata, quindi me la ritrovo nell’errore. Quindi quando diciamo che il contributo marginale
di R2 lo divido per la varianza d’errore, ci dobbiamo chiedere se questa varianza è quella del modello in cui
R2 c’è o quello in cui non c’è? Quella in cui R2 c’è, io voglio calcolare il contributo di R2 nel modello in cui
R2 è presente.

Quando facciamo la regressione multipla in R e abbiamo la tabellina della significatività del modello ma
anche la significatività dei regressori ognuno con appunto la significatività del singolo regressore, da dove
saltano fuori? Dai contributi marginali. Quindi R ce li calcola già. La regressione multipla è basata sulla
valutazione dei regressori per il contributo marginale dei regressori.

SCELTA DELLE VARIABILI DA INCLUDERE NEL MODELLO

Queste sono le 3 tecniche usate in “data


mining” per scegliere le variabili da
includere nel modello. Spesso la Forward
è poco utilizzata ed è sostituita dalla
Stepwise, ma per capire questa bisogna
capire la seconda.

Iniziamo dalla BACKWARD ELIMINATION.


Abbiamo costruito un dataset, ho dei
numeri dove ho misurato una serie di
189
variabili, dove ho una variabile che voglio predire e le altre sono variabili esplicative. Io voglio vedere se
riesco a costruire un modello per predire bene la mia variabile, usando al meglio il regressore che ho a
disposizione. Faccio un modello dove metto tutto dentro, faccio la mia y spiegata da tutte le x a
disposizione, a questo punto vado a verificare la significatività di tutti i regressori.

Se tutti i regressori hanno una significatività sotto il 5% sono tutti significativi e il modello va bene. Se ho un
modello che ha dei regressori significativi e altri non significativi, non butto via tutti quelli non significativi
perché potrebbe essere che un certo numero di regressori non sono significativi perché hanno delle
componenti correlate anche con quelli che non sono significativi. Quelli non significativi hanno delle
componenti correlate con i significativi, ma magari hanno anche delle componenti correlate insieme agli
altri non significativi. Quindi se butto via tutto insieme queste componenti correlate fra loro se fossero utili
le perderei.

Per evitare questo le butto via uno per uno e parto dal peggiore. Il peggiore è quello meno significativo
quindi è quello che ha il test F più basso e il P(F) più alto. Lo butto via e rifaccio girare il modello con tutti
meno quello che ho eliminato e vediamo il modello. Mi chiedo nuovamente se sono tutti significativi e se
non sono tutti significativi rifacciamo la stessa operazione. Continuo questa procedura passo per passo e mi
fermo quando tutti i regressori sono significativi e questo sarà il mio modello.

In queste procedura non cambia la numerosità del dataset, noi abbiamo 100 unità statistiche su queste ho
1 variabile y e 10 variabili x, quello che teniamo o buttiamo sono le x. Ci fermiamo quando tutti i regressori
sono tutti significativi.

Vediamo la seconda procedura, la FORWARD SELECTION. La filosofia è la stessa ma al posto di partire dal
modello complessivo e togliere, parto dal modello minimo e aggiungo. Quindi parto da un modello con solo
un regressore e poi aggiungo. Se ho 10 regressori avrò 10 modelli ognuno con un unico regressore. Il punto
è da quale modello parto? Ho 10 modelli diversi che hanno tutti un regressore. Di questi 10 modelli con un
regressore, prendo quello che ha la significatività più bassa, cioè il test F più alto e il P(F) più basso. Ho
così il mio modello di partenza con un solo regressore, a questo modello aggiungo un secondo regressore.
Gli aggiungo a turno tutti gli altri 9 e di ciascuno vedo il contributo marginale del nuovo regressore
introdotto e tengo quello con P(F) più piccolo e il test F più alto.

Il forward può avere un problema ovvero che l’aggiunta del nuovo regressore mi fa diventare non
significativo un regressore che era stato aggiunto prima. Un regressore può essere stato inserito nel
modello perché al suo turno era significativo, poi è diventato parte del modello, però poi nei passi
successivi inserisco un regressore che evidentemente è correlato con questo e la conseguenza è che questo
è entrato ma mi ha fatto diventare non significativo uno che era già dentro (quindi era significativo perché
era già dentro ma poi è diventato non significativo). Quindi il modello complessivo della Forward di per sé
può trovarsi dentro dei regressori non significativi e questo non è bello.

Per ovviare a questo problema, è stata inventata la procedura STEPWISE REGRESSION. Questa funziona
come la Forward, ma ogni volta che si inserisce un nuovo regressore nel modello si torna indietro e si va a
vedere se quelli presenti sono ancora significativi o se qualcuno ha perso di significatività. È come se ogni
volta che aggiungo il regressore con la Forward poi rifacessi la Backward su quel modello li. Garantisce la
significatività di tutti.

Normalmente la Backward porta ad un modello più grande quindi con più regressori, la Stepwise porta ad
un modello con meno regressori.
190
I risultati delle due procedure sarebbero identici se i regressori fossero non correlati fra loro, quindi se i
modelli non fossero correlati le due procedure porterebbero allo stesso risultato (ma è raro). La migliore
delle 2 procedure è quella che ha l’R2 più alto.

ANALISI DELLA CORRELAZIONE

L’analisi della regressione è pronta quando c’è una variabile dipendente, una o più variabili dipendenti e noi
vogliamo costruire un modello funzionale che spiega la variabile dipendente in funzione della variabile
indipendente e quindi quello che si cerca sono i coefficienti, l’intercetta (ovvero i parametri che
permettono di costruire il modello y).

Nell’analisi della correlazione invece l’idea è quella di andare a studiare la relazione esistente tra due
variabili. La correlazione è fra due variabili, non è fra più variabili. Se facessimo una correlazione tra più
variabili sarebbe comunque un insieme di correlazioni di più bivariate.

Inoltre la correlazione è sempre lineare, cioè ci dice se c’è un


legame lineare fra le due variabili. Se noi andiamo a vedere
questi grafici, di quattro possibili correlazioni, vediamo che
nel grafico A c’è un legame per queste due variabili,
chiamate x e y (non sono le y dipendenti). Nel grafico in A c’è
una tendenza per cui al crescere della variabile x anche la
variabile y cresce. L’idea non è quella di creare un modello,
una variabile in funzione dell’altra, ma è vedere se queste
due variabili sono legate fra loro o no, in termini lineari. Nella
situazione di A abbiamo che al crescere del valore dato dalla
prima variabile anche la seconda variabile cresce, quindi ci
aspettiamo con correlazione positiva che le due variabili
sono collegate fra loro, non sono una dipendente dall’altra,
ma quello che talvolta possiamo identificare è che entrambe le variabili derivano da ragioni comuni.

Anche nel grafico B esiste il legame tra due variabili ma porta all’incremento di una variabile al ridursi
dell’altra, quindi è definita negativa, perché pur esprimendo il legame, il legame esiste ma è in senso
opposto di una variabile rispetto all’altra.

In un caso come il caso C, sostanzialmente noi abbiamo una nuvola di punti, cioè questa nuvola di punti è
dispersa sia sull’asse x che y in modo casuale e questo identifica che non c’è nessun legame tra le due
variabili e quindi non c’è correlazione. Nel grafico D ci chiediamo se c’è o no correlazione, perché sembra ci
sia una tendenza ma abbiamo bisogno di uno strumento quantitativo.

Lo strumento che ci permette di quantificare con


un numero questa relazione è il coefficiente di
correlazione. Questo coefficiente di correlazione è
un numero dotato di segno con un campo di
esistenza che va in termini assoluti da 0 a 1.
Quindi se in valore assoluto va da 0 a 1 ed è
dotato di segno, potremmo dire che il campo di
esistenza va da -1 a 1. Ma è meglio dire che va da

191
0 ad 1 e che è dotato di segno, perché il segno e l’intensità ci danno due valori diversi. Il fatto che sia
positivo o negativo sta ad indicare se la relazione esistente tra le due variabili è positiva o negativa (dove
il significato di positivo o negativo è dato dai grafici A e B). Il valore assoluto invece che va da 0 a 1 ci indica
il grado di intensità, dove 0 è nessuna correlazione e 1 invece è perfetta correlazione (i grafici C e D).

Non confondiamo il coefficiente di correlazione con la pendenza della retta di regressione. La pendenza
della retta di regressione, ovvero il coefficiente angolare, ha un significato matematico che permette di
calcolare la y sulla x (come abbiamo visto un delta y su delta x diventa un dy/dx, in termini di differenziale).
Sulla retta, quindi un coefficiente angolare pari a 1 ha un significato ben preciso, infatti vuol dire avere una
pendenza di 45 gradi, se le due scale sono rappresentate con le stesse unità di misura. Se avessimo la
pendenza uguale a 1 con l’intercetta uguale a 0 abbiamo la bisettrice del primo e terzo quadrante.

Avere invece un coefficiente di correlazione uguale a 1 vuol dire che esiste una perfetta relazione lineare
tra x e y, cioè che i punti stanno esattamente sulla retta indipendente dalla pendenza della retta. È vero
che se la pendenza è positiva la correlazione è positiva (e se la pendenza è negativa la correlazione è
negativa), ma dal punto di vista del coefficiente angolare non c’è relazione tranne che sapere che il
coefficiente di correlazione è la media geometrica dei due coefficienti angolari.

Quindi il coefficiente di correlazione ci dice quanto le due misure sono legate fra loro, ovvero correlate. La
grossa differenza tra correlazione e regressione è che la correlazione non assume la dipendenza di una
variabile sull’altra, si limita a chiedere se le due variabili variano insieme avendo un elemento che li
condiziona in modo comune. L’analisi della regressione invece punta a spiegare una variabile sull’altra.
L’analisi statistica che noi facciamo e come interpretiamo i dati, è legata a ciò che vogliamo dimostrare.

COEFFICIENTE DI CORRELAZIONE DI PEARSON r

Le assunzioni sono:

• entrambe le variabili devono essere continue


• i dati devono essere secondo una scala a intervalli o razionale
• entrambe le variabili devono seguire una distribuzione normale
• la relazione tra le variabili è lineare
• il valore dipende dalla scala delle variabili cioè è sensibile alle unità di misura utilizzate

Quelle evidenziate sono le più importanti. Le variabili devono essere continue perché la correlazione di
Pearson è per le variabili continue, quindi ha l’ipotesi che tutti i valori di scarto siano possibili. Questo
perché quelle discrete non possono avere una distribuzione normale. Ma soprattutto perché se abbiamo
una esponenziale contro una normale non possiamo studiare una relazione di tipo lineare, e comunque la
correlazione studia una correlazione di tipo lineare.

Se ho una variabile banale che cresce,


e ho un'altra variabile che cresce dello
stesso passo e riportiamo le variabili
sul grafico ci viene una cosa lineare.
Quindi testo una variabile in una
direzione contro un'altra nell’altra
direzione e sono più o meno la stessa
entità.

192
Se io invece studio queste altre due variabili,
dove la y è il quadrato di x+1, noto che x ha
un andamento lineare e y un andamento di
tipo esponenziale, quadratico. Ovviamente la
nuvola di punti mostra una curva, ma poi
studio con una correlazione lineare.

I dati devono essere trasformati, perché devo avere due distribuzioni normali. Quindi se ho una quadratica
o esponenziale, prima si fa il test di normalità su tutte e due le variabili per vedere se sono normali: se
entrambe sono normali procedo con il test, se una non lo è indago per capire come trasformala e solo
quando ho entrambe normali posso studiare la correlazione. Può capitare che entrambe non siano normali
e poi l’andamento è lineare.

La correlazione è r= √R2. Questo r è la


media geometrica dei due coefficienti di
regressione calcolati da X1 e da X2.

Ciò che è interessante è la relazione tra r e


R2, quindi R2 è di fatto il quadrato del
coefficiente tra le due variabili. Non
funziona al contrario perché non vediamo
qual è il segno. Il valore r, il coefficiente di
correlazione, visto cosi è un dato non
inferenziale, è un indice di legame interno
al nostro dataset. Il coefficiente di
correlazione r di nuovo è un indice di correlazione all’interno del nostro dataset ma non è inferenziale,
ovvero vuol dire che è una misura dei dati campionaria che abbiamo ma non è estendibile alla popolazione,
è una misura campionaria del dataset che stiamo analizzando ma di per sé non ha un valore cosi com’è per
essere esteso alla popolazione. Può essere esteso alla popolazione attraverso le procedure inferenziali.

Le procedure inferenziali che si fanno su r sono il test t e il test F (la procedura è 1 ma si può fare con 2
strumenti).

Si parte da un’ipotesi nulla che è ro, dove ro è


il parametro della popolazione che nasce dalla
statistica campionaria r. Quindi come a
diventa alfa, b diventa beta, x medio diventa
mu, s diventa sigma, r diventa ro. L’ipotesi
nulla è che ro sia uguale a 0, ovvero quel
valore di r trovato nel campione sia dovuto
solo al caso, questa è l’ipotesi nulla che
formuliamo. Facciamo il test, se l’ipotesi nulla
viene accettata si conferma il fatto che non
esiste correlazione tra le due variabili a livello
di popolazione o meglio che a livello di popolazione non esiste correlazione fra le variabili, perché il nostro
dato campionario è comparso solo per caso. Se invece rifiutiamo l’ipotesi nulla perché il p del test è sotto
5% allora la correlazione esiste, quindi è significativa e quindi è diversa da 0.

193
Si può usare anche il test F, dove mettiamo in
relazione F1,n-2 con l’ultimo rapporto (in
mezzo c’è solo un passaggio matematico).

Partiamo da un presupposto, F critico dato n


è un valore certo, cioè se io decido quanto è
grande n, quanto è grande il dataset, una
volta definito n, F è fisso. Il valore critico al
5%, che mi pone il limite tra ciò che è
significativo e ciò che non lo è, è definito. F è
sempre definito, ma dipende dalla
dimensione campionaria che dipende da quanti gdl ho al numeratore e quanti ne ho al denominatore.

Nella correlazione questo non è vero, perché i gdl al numeratore è sempre 1, perché ho 2 variabili e quindi
ho 1 grado di libertà, quindi il numeratore ha sempre 1 gdl. Al denominatore i gdl sono sempre n-2. Quindi
se io decido quanto è grande il campione, quanti punti ho misurato in modo bivariato, automaticamente so
dire quanto è l’F critico perché un F fissato al 5%, uso la formula INV.F.DS dove a p metto 0.05 i gdl del
numeratore saranno 1 e i gdl del denominatore saranno n-2. Quindi in questo sistema F critico dipende solo
dalla dimensione campionaria n.

Quindi in questa formula, se non guardo il valore F che salta fuori dal rapporto, ma fisso il valore F, in
termini di essere valore critico sopra al quale è significativo e sotto al quale non è significativo, succede che
l’F dipende da n, ma se fisso n ho fissato automaticamente F. In qualche modo se fisso n e fisso F, ma F è
funzione di n, succede che io riesco a calcolare l’r che mi porta a quell’F. Quindi assumendo il fatto di
determinare il test F, se P(F) deve essere sempre al 5%, automaticamente succede che n ed r sono correlati,
l’r che da significatività al 5%.

Nell’analisi della correlazione è possibile, non lo si fa perché è fuori dai test, ma di fatto nell’analisi di
correlazione esiste r critico sopra al quale la correlazione è significativa e viceversa.

Per il legame esistente, posso tradurre F limite in r limite, con una variabile che è la dimensione
campionaria.

Se partiamo da un campione con 5 elementi il limite per dire che la correlazione è significativa è avere un F
di 10.12. Per il P(F), usando la formula DISTRIB.F ho x che è F, i gdl1 che sono i gdl del numeratore quindi 1 e
194
i gdl2 che sono i gdl del denominatore, quindi n-2 (in questo caso 3) e ottengo il 5%. E se la formula la copio
sotto, è sempre il 5%. Quindi ho calcolato gli F che fossero degli F critici calcolati su 5%. Quindi se ho un F
minore di 10.12 dirò che le differenze non sono significative, se l’F è maggiore di 10.12 dirà che ho
differenze significative.

Quindi ho il dataset, calcolo r e vedo se è significativo o no. Per rispondere a questa domanda faccio il test
F. Una volta ottenuto F faccio il P(F). Prima si calcolava F, si sapeva il valore di F al 5% e si vedeva l’F limite.

Quindi posso calcolare r sapendo F limite e disegno la curva, che è la curva degli r limite (in realtà non esiste
ma dato che r è correlato ad F, ho trasformato F in r). Tutto ciò vuol dire che se ho un dataset con 5
elementi e r di questo modello è maggiore di 0.878 la correlazione sarà significativa, se è minore la
correlazione non sarà significativa. È possibile trasformare il concetto di significatività in livello di
correlazione limite. Se cresce la dimensione campionaria cresce F limite e diminuisce l’r limite.

Nella correlazione questi 2 indici sono molto collegati tra loro. Quindi se ho un campione di 100 elementi,
mi basta una correlazione di 0.196 perché sia significativa. Ovviamente il risultato che diamo è sempre P(F)
e non il p di r.

195

Potrebbero piacerti anche