Sei sulla pagina 1di 17

Statistica Medica

Lezione due
Il primo obiettivo quando si lavora con dei dati è sintetizzarli. Effettuare una sintesi per poter
cogliere l’informazione di rilievo all’interno del dataset.
Nella lezione precedente abbiamo visto che ci sono tre modi per effettuare una sintesi, di
seguito ricapitolati:
1. Riarrangiare i dati  passare da una distribuzione unitaria in cui abbiamo tutte le unità
statistiche e valori delle variabili ad una distribuzione di frequenza in cui si creano delle
classi di valori. Facendo così si riduce la tabella da un numero di righe pari alle unità
statistiche al numero righe ridotto corrispondenti alle classi o categorie.
2. Grafici  i diversi tipi di grafici dipendono dalle variabili che si hanno a disposizione.
Sul grafico non ci devono essere elementi che abbiano solo funzioni estetiche, ma
devono essere informativi, darci informazioni in più rispetto alla tabella di dati.
3. Indici sintetici  valori che sintetizzano le caratteristiche della distribuzione. Quando si
parla di distribuzione di valori si intendono tutti i valori osservati rispetto ad un
determinato insieme di unità statistiche.
Esempio  altezza degli studenti del corso di statistica medica. Variabile quantitativa.
Le caratteristiche che si possono valutare:
 Posizione  intesa come tendenza centrale. Individuare il centro della
distribuzione (media aritmetica – moda – mediana).
 Variabilità  se tutti hanno indicativamente la stessa altezza, oppure se ci sono
delle differenze rilevanti e, in tal senso, se ci sono persone molto basse rispetto ad
altre o molto alte.
 Forma  allontanandoci dalla media, per difetto e per eccesso, trovo una
proporzione di soggetti che decresce allo stesso modo o meno? In tal caso si parla
di distribuzione, rispettivamente, simmetrica o asimmetrica.
Ricapitolando:
 Indici di tendenza centrale e posizione
 Indici di variabilità
 Indici di forma
Esempio  distribuzione di valori  1 2 3 2 4 3 12 5  variabile quantitativa
Indici di tendenza centrale e posizione
Moda
Il valore che compare più spesso all’interno di una distribuzione. Nell’esempio soprastante è
rappresentata dal 2 e dal 3.
Precisazione  la moda si può applicare anche a variabili categoriche, in quanto ci può essere
una categoria che compare più spesso all’interno della distribuzione.
Media aritmetica
La media aritmetica di due o più numeri, o semplicemente media, è la somma dei valori
numerici divisa per il numero di valori considerati. Quindi, per calcolare la media aritmetica tra
due o più numeri ci basta sommarli e dividere il risultato ottenuto per il numero dei valori.
In accordo con tale definizione, se disponiamo di n valori numerici
x1, x2,….,xn
allora la formula della media aritmetica è semplicemente

Nel caso dell’esempio soprastante, la media è 1+2+3+2+4+3+12+5/8, ovvero 32/8=4.


In matematica quando si ha la somma di più elementi, si utilizza un operatore che si indica con
la sommatoria. In particolare, la formula prevede:
 Una lettera sigma maiuscola (Σ)
 Una lettera chiamata indice della sommatoria (spesso si usano le lettere k, i, j o n
minuscole)
 un intervallo di valori (interi) in cui può variare l'indice da indicare sopra e sotto la
lettera sigma
 un'espressione algebrica alla destra della lettera sigma in cui può comparire l'indice della
sommatoria
Nel caso dell’esempio soprastante, piuttosto che scrivere nuovamente x1+x2+….+xn diviso n,
scriviamo il simbolo della sommatoria, sotto il simbolo della sommatoria da dove si parte,
ovvero i (indice che, oltre alla i, può essere indicato anche con altre lettere come j, k, h, etc. ) =1
e sopra il simbolo della sommatoria dove arriva, mediante la lettera n; poi indichiamo cosa
sommiamo a destra della sommatoria x(i), il tutto diviso il n degli elementi.
Tutto ciò per riscrivere la formula della media in una forma più compatta, facendo uso del
simbolo di sommatoria.

Importante è indicare il punto di partenza e di arrivo dei valori che il nostro indice assumerà.
L’xi rappresenta l’insieme dei valori, il totale delle unità statistiche a disposizione che, secondo
la formula della media, va necessariamente diviso per n, ovvero il numero degli elementi.
Dunque, si somma prima tutto e poi si divide per n. La costante della formula sarà 1/n e viene
portata al di fuori della sommatoria. In genere una costante viene indicata con k.

Esempio
Se abbiamo questa distribuzione  3 3 3 3 3 3, nel caso in cui si volesse fare la media,
bisognerebbe scrivere:
La formula soprastante si legge sommatoria di 3 per i che va da 1 ad n. Il che equivale a dire
che si deve sommare per sé stesso 6 volte il 3. Ci sono due casi:
 Scrivere 3+3+3+3+3+3/6, ovvero18/6=3
 (3x6)/6, in quanto si tratta di una costante (k)
Quindi, in generale, quando si somma per sé stessa una costante, e si somma n volte, questo
concetto si può esprimere come
n(k)
Esempio calcolo media con dati organizzati in frequenze assolute (nj)
Prendiamo in analisi un’ulteriore distribuzione  1 2 1 1 2 5
Calcoliamo la media 1+2+1+1+2+5/6, ovvero 12/6=2. Notiamo, però, che ci sono valori,
evidenziati in grassetto, che si ripetono più volte:
1+2+1+1+2+5. Dunque, l’1 si può moltiplicare 3 volte per sé stesso, in quanto si ripete 3 volte,
il 2 si può moltiplicare 2 volte per sé stesso, in quanto si ripete 2 volte. Il 5 compare una sola
volta. Questa distribuzione si può scrivere in tal modo:
(3x1)+(2x2)+5=3+4+5=12
3, 2 e 1 sono il numero di volte che si ripetono, rispettivamente, l’1, il 2 e il 5 e sono definite,
così come la scorsa volta, frequenze assolute (nj).
Dunque, per passare alla distribuzione unitaria a quella di frequenza posso scrivere in tal modo

Dove:
 x  rappresenta tutte le unità statistiche
 xj  le modalità che compaiono almeno una volta nella distribuzione
 nj (frequenze assolute) il numero di volte che si ripetono le modalità
Il totale di valori osservati sarà dato sempre dalla somma delle frequenze assolute, in questo
caso 3+2+1=6. Il totale delle unità statistiche, ovvero 1+2+1+1+2+5, sommato darà 12, dunque
la media si trova, in quanto è sempre 12/6=2.
Questa formula ci dice che possiamo risparmiare se abbiamo i valori già organizzati in
frequenza. Allora scriveremo:

sempre una sommatoria, in quanto sommiamo costantemente, per j che va da 1 al numero di


valori distinti, in questo caso 3 (1 – 2 – 5) di xj moltiplicato nj, il tutto fratto n. Questa è la
formula della media in presenza di dati organizzati in frequenza. Si sommano soltanto i valori
distinti, moltiplicando ciascuno di essi per quante volte compare.
Esempio calcolo media con dati organizzati in frequenze relative (fj)
Adesso vediamo un altro esempio del calcolo della media per dati organizzati in frequenza.
Nb  La distribuzione è rappresentata dalla colonna con tutti i valori; a partire da questi valori
siamo noi che ci adoperiamo e facciamo le diverse operazioni di sintesi.
N di stanze di 10 appartamenti di un condominio.
Alcuni valori si ripetono, si passa così dalla distribuzione unitaria che comprende tutti i
valori, anche quelli che si ripetono  (xi) a quella di frequenza che comprende valori distinti
presi una volta  (xj). Successivamente si riporta quante volte ogni singolo valore compare,
mediante le frequenze assolute  (nj). Per verificare che non è stato mancato alcun valore, il
numero degli elementi, in questo caso 10, dovrà corrispondere al totale della somma dei valori
di nj, in questo caso sempre 10, quindi si trova.
Si aggiungono, poi, le frequenze relative (fj). Le frequenze relative, altro non sono, che le
frequenze assolute fratto il totale.
La frequenza relativa, dunque, ci dice la proporzione di volte che compare una determinata
modalità al netto del collettivo. È fondamentale utilizzare i valori relativi quando si vuole capire
l’ordine di grandezza.
Ad esempio, se io prendo in considerazione due comuni e affermo che in uno ci sono 10 asili
nido e nell’altro 25, non possono concludere che nel secondo c’è più disponibilità rispetto al
primo perché devo stabilire ciò in rapporto al numero di abitanti: con le frequenze relative
misuriamo l’impatto di una determinata modalità sull’intero collettivo.
In genere le frequenze relative si riportano in termini percentuali (frequenze relative
moltiplicate per 100 = frequenze relative percentuali).
Della distribuzione appena riportata, possiamo calcolare
1. Media sulla distribuzione unitaria
2. Media sulla distribuzione di frequenza in
a) frequenze assolute
b) frequenze relative
Vediamolo nel dettaglio:
Questo formalmente (formule soprastanti). In termini pratici, per ricondurci al nostro esempio,
invece:

Molto spesso i dati sono già organizzati in distribuzione di frequenza, piuttosto che in
distribuzione unitaria. A tal proposito, gli accorgimenti utilizzati dipendono da come sono
organizzati i dati, ma in realtà pur in modalità diverse si applica sempre la stessa formula,
ovvero somma il valore di tutti gli elementi e dividi per il numero degli elementi.
Nb  La differenza tra la frequenza assoluta e quella relativa è che nel primo caso sommo tutto
moltiplicando ciascuna modalità per la frequenza assoluta e divido per il n. degli elementi. Nel
secondo caso, invece, le frequenze relative hanno il fratto n incorporato e, dunque, devo solo
fare la somma di xj moltiplicato fj.
Ricapitolando, non sono tre formule, bensì è una formula: SOMMA IL VALORE DI TUTTI
GLI ELEMENTI E DIVIDI PER IL N. DEGLI ELEMENTI.
Ovviamente le diverse modalità si scelgono a seconda di come sono organizzati i dati
(distribuzione unitaria – distribuzione di frequenza  assolute o relative).
Esempio calcolo media con intervalli di valore
Se invece di avere modalità singole, avessimo intervalli di valore, per calcolare la media prendo
il centro dell’intervallo, passando così dall’intervallo al valore singolo.

A questo punto si procede come gli esempi precedenti. Nel caso delle frequenze assolute
procediamo 2x2+6x3+10x3+….etc., tutto fratto n; nel caso delle frequenze relative faremo
2x0.2+6x0.3+10x0.3, etc.
Questa è la situazione più complessa che potrebbe capitare, in quanto non abbiamo già i valori
ma bisogna prima calcolarli mediante il centro dell’intervallo e, successivamente, calcolare
frequenze assolute o relative a seconda dello scopo dello studio. Quindi, le modalità diventano i
centri di ciascun intervallo (cj). In questo caso sulla sommatoria scriveremo fino a 5 intervalli,
che diventano le nostre modalità. Nel nostro caso se la variabile è continua, un intervallo può
finire, ad esempio con 4 e ricominciare da 4 nell’intervallo successivo. Ciò non si può verificare
se la variabile è discreta.
La media aritmetica è sempre un valore compreso tra il minimo e il massimo della
distribuzione.
Esempio
54254
La media aritmetica è 20/5=4
Se, invece, per errore, sbagliassimo a digitare, ad esempio, su Excel le cifre e digitassimo al
posto del 4 finale 44:
5 4 2 5 44
La media aritmetica è 60/5=12, cioè molto più grande rispetto al valore precedente.
In termini tecnici, per questo motivo, si dice che la media è sensibile ai valori anomali. Quando
in una distribuzione ci sono valori particolarmente piccoli o grandi, la media cerca di
approssimare quei valori e ne è attratta, cioè sensibile a valori anomali.
Esempio
Se vogliamo vedere quanto siamo ricchi in quest’aula, tutti avremo tra 20-30-40-50 euro e poi
uno che ha 50 mila euro in una valigetta, risulterà che siamo tutti più ricchi di quanto non lo
siamo per colpa di quel valore anomalo. Non è un errore, è una caratteristica della media per
come viene calcolata.
Un indice più robusto, ovvero che non risente della presenza di valori anomali è la mediana.
Mediana
È il valore che suddivide la distribuzione in 50 e 50, ovvero due metà (destra – sinistra). Ciò
vuol dire che metà della distribuzione sta alla sinistra della mediana, mentre l’altra metà a
destra. Dal punto di vista teorico la mediana (Me) di una distribuzione corrisponde alla modalità
osservata sull’unità statistica centrale nella distribuzione ordinata delle osservazioni.
Per calcolare la mediana il primo step è creare una classifica, ovvero ordinare i valori della
distribuzione in maniera crescente.
Esempio con ripetizione
Nel caso dell’esempio precedente, ovvero della distribuzione 5 4 2 5 4, la prima cosa da fare è
ordinare i valori dal più piccolo al più grande. Avremo, quindi, 2 4 4 5 5 e il valore mediano
sarà il 4 evidenziato in grassetto, in quanto ci sono due numeri a sin, minori e uguali a 4, e due a
dx, maggiori di 4.
Esempio senza ripetizioni
La nostra distribuzione è 1 10 3 7 8 4. La prima cosa da fare, come già spiegato, è ordinare i
valori in maniera crescente, quindi diventerà 1 3 4 7 8 10. In tal caso, la distribuzione è pari e ci
sono, per tale motivo, due valori centrali in grassetto per i quali abbiamo una metà della
distribuzione più piccola a sinistra e metà della distribuzione più grande a destra. Per calcolare
la mediana si fa la media tra il 4 e il 7 che rappresentano i due valori centrali e sarà (4+7):2,
ovvero 5,5. La differenza con l’esempio di prima è che in quel caso erano 5 valori, ovvero un
numero dispari e per tale motivo riuscivamo a prendere il valore esattamente al centro.
Concettualizzando il tutto, possiamo affermare che la posizione della mediana si calcola in due
modi diversi, a seconda che n sia dispari o pari. In quest’ultimo caso si fa la media dei due
valori centrali, in particolare:
 n dispari  posizione mediana  (n+1):2
Esempio (n dispari)
Dato un collettivo di 15 unità statistiche, si consideri la seguente serie di osservazioni:
{29, 7, 18, 15, 27, 23, 14, 1, 25, 13, 18, 24, 28, 22, 5}
che ordinata in modo crescente diventa
{1, 5, 7, 13, 14, 15, 18, 18, 22, 23, 24, 25, 27, 28, 29}
La mediana è data dalla modalità che occupa la posizione n+1/2 = 16/2 = 8, vale a dire Me = 18
 n pari  posizione mediana  n/2 e (n/2)+1
Esempio (n pari)
Dato un collettivo di 12 unità statistiche, si consideri la seguente serie di osservazioni:
{34, 42, 1, 34, 19, 42, 25, 35, 21, 15, 9, 10}
che ordinata in modo crescente diventa
{1, 9, 10, 15, 19, 21, 25, 34, 34, 35, 42, 42}
La mediana è data dalla semi somma delle modalità che occupano le posizioni n/2 = 12/2 = 6 e
(n/2) + 1 = (12/2) + 1 = 7, vale a dire Me = (21+25) /2 = 46/2 = 23
Attenzione a fare differenza tra valore della mediana e posizione della mediana.
Sostanzialmente, si ordinano i numeri in senso crescente, si contano quanti numeri ci sono,
nella fattispecie dell’esempio con n. pari mi servono i numeri che, in seguito ai calcoli,
occupano la posizione 6 e la posizione 7, ovvero 21 e 25. Questa è la posizione, non la mediana.
Mediante la posizione di questi due numeri, si calcola la media e si ottiene il valore della
mediana.
Nel caso dell’esempio precedente, 1 3 4 7 8 10, abbiamo visto che la mediana è 5,5. Se un
errore di battitura mi avesse portato a scrivere 100 al posto di 10, il valore della mediana
sarebbe rimasto invariato; al contrario, quello della media sarebbe cambiato, come visto in
precedenza, in quanto sarebbe stata attratta dal valore 100. Nel caso della mediana si dice,
appunto, che è robusta poiché non è sensibile a valori anomali. Questo per gli estremi, se invece
sbagliassimo a scrivere 77 al posto di 7, la mediana cambierebbe ma di poco, piuttosto che
essere 5,5 diventerebbe 6; questo perché la mediana è resistente e in tal caso tutt’al più si scala e
si prende il valore immediatamente successivo rispetto a quello che avremmo preso in assenza
di errori di battitura.
Se bisogna calcolare la mediana di dati organizzati in frequenza, il principio è lo stesso ma
meno immediato. Nel caso dell’esempio di prima (immagine sottostante), si riportano i dati
organizzati in frequenza in distribuzione unitaria.

Essendo una distribuzione pari di n 10 elementi, rilevo le due posizioni centrali mediante le
formule n/2 e (n/2)+1. Quindi, 10/2 e (10/2) +1, rispettivamente la posizione 5 e 6 che
corrispondono ai valori 6 e 10 della distribuzione unitaria. La mediana sarà, quindi, (6+10)/2=8.
Nel caso in cui avessimo una distribuzione più consistente di valori, ovvero se invece di averne
10 ne avessimo 1000, sarebbe complicato scrivere tutti e 1000 i valori. Un modo che potrei
utilizzare è cumulare le frequenze relative, ovvero si parte da 0.2 e il secondo valore sarà
0.2+0.3, ovvero 0.5; il terzo valore sarà 0.2+0.3+0.3, ovvero 0.8; il quarto valore sarà
0.2+0.3+0.3+0.1, ovvero 0.9; il quinto valore sarà 0.2+0.3+0.3+0.1+0.1, ovvero 1. Qual è il
valore di F(xj) tale che il 50% delle osservazioni sono minori e uguali di quel valore? La
risposta del professore è 6.
Nb. Noi alunni non ci troviamo con il professore, dovrebbe essere 10, ovvero la classe
compresa tra 8 e 12 che corrisponde a 0.8). Il professore sostiene che va bene ragionare come
abbiamo ragionato noi, ma questo è un caso speciale.
Esempio

All’interno della tabella il totale dei valori della distribuzione è pari a 911. Essendo molti valori,
non si può passare alla distribuzione unitaria. Ciò che facciamo è calcolare le frequenze relative,
per poi calcolare le relative cumulate, ottenendo la funzione di ripartizione F(x). Quest’ultima ci
dice, per ciascuna classe di valori, quant’è la proporzione di osservazioni che abbiano un valore
minore o uguale a quella classe.
Le frequenze assolute rappresentano, come descritto in precedenza, il numero di volte che le
singole modalità compaiono nella distribuzione. Per ottenere le frequenze relative bisogna
dividere la frequenza assoluta per il totale degli elementi, in questo caso 911. Una volta ottenute
le frequenze relative, si calcolano quelle relative cumulate F(x) che si ottengono aggiungendo al
valore di partenza, quello successivo e così via a mano a mano che si va avanti con i valori, fino
ad arrivare all’ultimo che è dato dalla somma di tutte le frequenze relative.
La classe 60-80 è tale che il 39% delle osservazioni ha valori fino a 80. Se facciamo 1-0,39
otteniamo che il 61% delle osservazioni ha valori superiori. In particolare, 0.3897 che
arrotondato viene 0.39 e in percentuale 39% mi dice che il 39% delle osservazioni presentano
valori fino a 80 che è l’estremo superiore di quella classe. Poiché in totale sono 100%, se il 39%
ce l’hanno inferiore, il 61% è superiore.
Da non confondere è la classe mediana rispetto al valore della mediana. In particolare, la classe
mediana è la classe in cui si trova la mediana.
In questo caso la classe mediana è rappresentata dalla classe in cui si trova il valore che occupa
metà classifica, ovvero 0,5.
Nb. Se la distribuzione di frequenza dei dati è divisa in classi, possiamo calcolare la classe
mediana e la mediana usando la frequenza cumulata: la classe mediana è la prima classe la cui
frequenza cumulata supera la metà del numero dei dati, in questo caso 1,0000/2=0,5.
Fino alla classe 60-80 ho i valori che arrivano fino a 0.39, oltre, ovvero nella classe successiva
avrò il valore che arriva fino a 0,52. La posizione 0,5 sta nella classe 80-100. Se vogliamo
utilizzare, quindi, un valore rappresentativo della classe mediana possiamo prendere il centro.
Si può essere, però, più precisi di così notando che a me serve il valore 0,5 e quella classe parte
da 0,38 e arriva a 0,52 quindi la mediana è più spostata verso l’estremo superiore.
Esempio
Si consideri la distribuzione di frequenze relativa alla variabile peso in chilogrammi.

Graficamente, questo è l’andamento delle frequenze cumulate:


Sull’asse delle x troviamo la distribuzione in classi, mentre sull’asse delle y la frequenza
relativa cumulata associata a quella classe. Fino a 50 arriviamo ad un’altezza di 0,20, quindi
parte da 0 e a 50 arriva a 0,20 in quel tratto di retta. Da 50 a 55 sale da 0,20 a 0,35. Da 55 a 60
sale da 0,35 a 0,45. Si dice che la mediana è quella che occupa metà classifica. In termini
tecnici si dice il 50esimo percentile, in questo caso 0,5.
Ipotizziamo che a noi interessi il 72esimo percentile, ovvero quello che occupa la posizione 72
(ha scelto un numero a caso) in classifica, invece della posizione 50  identifichiamo la classe
e per sapere su quale tratto di retta siamo, si torna alla tabella e ci facciamo una domanda “Qual
è la frequenza che arriva prima di 0,72?” Nel nostro caso è 0,65. Quindi, il punto di partenza è
il valore 70 sull’asse delle x e 0.65 sulle y. Il punto di arrivo è 75 sull’asse delle x e 0,80
sull’asse delle y. Dal punto di vista geometrico, poiché per due punti passa un’unica retta,
calcoliamo l’equazione della retta passante per quei due punti. La formula esplicita
dell’equazione della retta passante per due punti è:

Nel caso del nostro esempio x1 e x2 sono le x del punto di partenza e di arrivo, mentre y1 e y2
sono le y del punto di partenza e di arrivo. Se noi sostituiamo i valori alle incognite, otteniamo
che al posto della y mettiamo 0,72, al posto di y1 mettiamo l’ordinata del punto di partenza,
ovvero 0,65, mentre al posto di y2 mettiamo l’ordinata del punto di arrivo, ovvero 0,80. Stessa
cosa per le x, quindi sostituiamo rispettivamente con 70 e 75.
Quindi, il 72esimo percentile è 72,33. Quando ci serve la mediana piuttosto che, ad esempio, il
72esimo percentile, al posto di 0,72 si mette 0,5. In tal caso si sostituiscono le incognite in base
al tratto della retta che si vuole calcolare, 50esimo percentile e avremo che x1 corrisponde a 60
e y1 a 0,45, x2 corrisponde a 65 mentre y2 a 0,55 e la y a 0,50. Il valore del 50esimo percentile
ottenuto dalla formula soprastante, corrisponde a 85.
Ci sono altri indici, definiti quartili i quali suddividono la distribuzione in quattro parti:
 1° quartile  separa il primo 0.25 dal restante 0.75 della serie ordinata
 2° quartile  rappresentato dal 50% (25+25) % e, dunque, può essere identificato con la
mediana
 3° quartile  rappresentato dal 75% (25+25+25) %
 4° quartile  rappresentato dal 100% (25x4) %
Oltre ai quartili, possiamo sentir parlare di decili. Se ad esempio parliamo del terzo decile è
quel valore tale che il 30% è più basso e il 70% è più alto.
Per completezza, la classe mediana è quella che va da 80-100, riferendoci alla tabella blu
(esempio precedente). Dunque F(X2) è 0,52. F(x1) è 0,38.
Nb  x2 è 100, mentre x1 è 80. A questo punto abbiamo tutti gli elementi, compreso alfa che
corrisponde a 0.5, per metterli nella formula e calcolarci la mediana.

Trovati i valori xi, xi−1, F(xi) e F(xi−1) possibile ricavare il valore approssimato di Me:
A proposito del box plot, accennato la lezione precedente, adesso possiamo trarre più
informazioni.

Nel grafico la prima linea a sinistra rappresenta il minimo, dopodiché, in successione, abbiamo
1°-2° e 3° quartile ed infine il massimo, rappresentato dall’ultima linea a destra.
C’è una regola empirica che mi dice se il valore minimo (rappresentato dal baffo sinistra della
scatola) è lontano dall’estremo inferiore della scatola più di una volta e mezzo della larghezza
della scatola si tratta di un valore anomalo, in quanto ci porta a pensare che il 25% più piccolo
sia così distante da tutti gli altri ed è solo colpa di x minimo. Quello che si fa è prendere il
secondo valore più piccolo, isolato e tolto quello minimo. Stessa cosa per il valore massimo,
ovvero per l’estremo opposto. Se il valore massimo è distante di più di una volta e mezzo della
scatola, dall’estremo superiore della scatola rappresentato dal 3° quartile il valore massimo è
grande. Se x max è maggiore di 1/3+1.5 la larghezza della scatola data da +3-1. Questo
formalmente vuol dire. Se sono grandi in difetto o in eccesso più di una volta e mezzo della
scatola, il minimo e il massimo sono da considerarsi anomali. Ciò che si può fare è utilizzare
dei metodi robusti rispetto alla frequenza di valori anomali.

Potrebbero piacerti anche