Sei sulla pagina 1di 8

Applicazioni sulle caratteristiche bidimensionali

89

Applicazioni sulle caratteristiche bidimensionali


5.1 Richiamo di alcune operazioni di analisi statistica in MINITAB
In questo paragrafo sono riportati il significato e la sintassi di alcuni comandi di MINITAB che
verranno utilizzati in questo capitolo.
La costruzione di tabelle di frequenza assoluta pu essere eseguita mediante il comando Stat
Tables Tally. Dati, ad esempio, i vettori colonna x e y contenenti le osservazioni di due
caratteristiche X e Y in un campione, possibile ottenere le tabelle delle frequenze marginali
assolute delle due caratteristiche:
1) Scegliere Stat Tables Tally.
2) Alla voce Variables, scegliere le colonne da analizzare, nel caso in esame: x e y.
3) Sotto la voce Display selezionare la voce relativa al tipo di analisi che si vuole: Counts, per la
frequenza assoluta, Percents, per la frequenza relativa, Cumulative counts e Cumulative
percents, per le cumulate. Il risultato sar riportato in una tabella nella finestra sessione.
4) Cliccare su OK.
Inoltre possibile ottenere la tabella a due entrate delle frequenze congiunte assolute delle
caratteristiche in esame, eseguendo i seguenti passaggi:
1) Scegliere Stat Tables Cross Tabulation.
2) Alla voce classification variables, scegliere le colonne da analizzare, nel caso in esame: x e y.
3) Sotto la voce Display selezionare la voce relativa al tipo di analisi che si vuole: Counts, per la
frequenza assoluta, Column percents, per la frequenza relativa allinterno di ogni variabile, Row
percents, per la frequenza relativa tra le variabili, Total percents, per la frequenza relativa. Il
risultato sar riportato in una tabella nella finestra sessione.
4) In via opzionale cliccare sul bottone Summaries.
5) Selezionare le voci dei parametri che MINITAB pu calcolare marginalmente per ognuno dei
vettori colonna. Tutti i risultati saranno riportati in una unica tabella nella finestra sessione.
6) Cliccare su OK.
7) In via opzionale cliccare sul bottone Options, e selezionare le opzioni relative al modo con cui
selezionare i dati per i vari vettori colonna.
8) Cliccare su OK.
9) Cliccare su OK.
Qualora si volesse definire un vettore contenete degli elementi ripetuti un certo numero di volte in
maniera regolare, loperazione pu essere semplificata agendo in uno dei due modi seguenti:
 Con il comando Autofil
1) Evidenziare una o pi celle in una o pi colonne.
2) Posizionare il cursore del mouse sullangolo in basso a destra della zona selezionata
(comparir una crocetta [+]).
3) Cliccare sulla crocetta e trascinare verso il basso il mouse (al di fuori della selezione) per
tutte le celle che si vogliono riempire. Se si trascina il mouse allinterno della selezione
vengono automaticamente cancellate le celle escluse.
 Con il comando Make Patenered Data
1) Scegliere Calc Make Pattern Data Simple Set of Numbers.
2) Nella finestra di dialogo che compare, inserire alla voce Store patterned data in il nome della
colonna (nuova o gi esistente) in cui si vuole inserire il nuovo set di dati.
Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

90

Applicazioni sulle caratteristiche bidimensionali

3) Inserire i valori desiderati alle voci From first value, To last value e In steps of, per indicare
rispettivamente il dato iniziale, quello finale e lincremento tra due valori successivi.
4) In linea opzionale possibile inserire dei valori alle voci List each value e/o List the whole
sequence, per indicare rispettivamente quante volte ripetere lo stesso valore e/o la stessa
sequenza.
5) Cliccare su OK.

5.2 Esercizi sulle caratteristiche bidimensionali in MINITAB


5.2.1 Esempio n.1: connessione
Si consideri la tabella a doppia entrata Tabella 6.3 di [1], i cui dati riguardano unindagine svolta
tra 250 dipendenti, con et compresa tra 35 e 45 anni, che lavorano in aziende medie di una
determinata area industrializzata, i cui padri erano o sono tuttora dipendenti della stessa o di altre
aziende. Lo scopo quello di investigare su una eventuale relazione tra la posizione ricoperta dai
figli e quella ricoperta dai padri. I dati compaiono nel foglio di lavoro padre-figlio.mtw nella
forma seguente:

Si supponga che i dati siano stati inseriti secondo le 250 osservazioni di coppie padre/figlio,
ottenendo un vettore colonna che definisce le posizioni dei padri e un relativo vettore colonna che
definisce le posizioni dei figli. Quindi, per ciascuna coppia, nel vettore padre inserita la
posizione del padre e nel vettore figlio inserita la posizione del figlio (foglio di lavoro: padrefiglio-dati.mtw).
Il foglio di lavoro padre-figlio-dati.mtw pu essere costruito con MINITAB, utilizzando le
informazioni contenute nel file padre-figlio.mtw, nel modo seguente:
1) Creare un nuovo foglio di lavoro e nominarlo: padre-figlio-dati.mtw.
2) Nominare la colonna C1 col nome padre e la C2 col nome figlio.
3) Digitare nella prima casella della colonna padre la parola OPERAIO e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 98.
4) Digitare nella casella 99 della colonna padre la parola IMPIEGATO e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 213.
5) Digitare nella casella 214 della colonna padre la parola DIRIGENTE e, cliccando col
mouse sullangolo destro in basso della casella, trascinarla in basso fino alla riga 250.
6) Digitare nella prima casella della colonna figlio la parola OPERAIO e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 70.
7) Digitare nella casella 71 della colonna figlio la parola IMPIEGATO e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 90.

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

91

Applicazioni sulle caratteristiche bidimensionali

8) Digitare nella casella 91 della colonna figlio la parola DIRIGENTE e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 98.
9) Digitare nella casella 99 della colonna figlio la parola OPERAIO e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 113.
10) Digitare nella casella 114 della colonna figlio la parola IMPIEGATO e, cliccando col
mouse sullangolo destro in basso della casella, trascinarla in basso fino alla riga 201.
11) Digitare nella casella 202 della colonna figlio la parola DIRIGENTE e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 213.
12) Digitare nella casella 214 della colonna figlio la parola OPERAIO.
13) Digitare nella casella 215 della colonna figlio la parola IMPIEGATO e, cliccando col
mouse sullangolo destro in basso della casella, trascinarla in basso fino alla riga 236.
14) Digitare nella casella 237 della colonna figlio la parola DIRIGENTE e, cliccando col mouse
sullangolo destro in basso della casella, trascinarla in basso fino alla riga 250.
A questo punto possibile calcolare la tabella della frequenze congiunte assolute eseguendo i
seguenti passaggi:
1) Scegliere Stat Tables Cross Tabulation.
2) Alla voce Classification variables, selezionare le colonne C1 (padre) e C2 (figlio).
3) Selezionare solo la voce Counts.
4) Cliccare su OK.
Nella finestra sessione si ottiene la seguente tabella, che analoga a quella contenuta nel foglio di
lavoro padre-figlio.mtw:
Rows: padre

Columns: figlio

DIRIGENT IMPIEGAT
DIRIGENT
IMPIEGAT
OPERAIO
All

14
12
8
34

OPERAIO

All

1
15
70
86

37
115
98
250

22
88
20
130

Le frequenze congiunte relative si possono ottenere in maniera analoga:


1) Scegliere Stat Tables Cross Tabulation.
2) Alla voce Classification variables, selezionare le colonne C1 (padre) e C2 (figlio).
3) Selezionare solo la voce Total percents.
4) Cliccare su OK.
Nella finestra sessione si ottiene la seguente tabella:
Rows: padre

Columns: figlio

DIRIGENT IMPIEGAT
DIRIGENT
IMPIEGAT
OPERAIO
All

5,60
4,80
3,20
13,60

8,80
35,20
8,00
52,00

OPERAIO

All

0,40
6,00
28,00
34,40

14,80
46,00
39,20
100,00

Come si vede le due tabelle, ottenute relativamente alle frequenze congiunte assolute e relative,
riportano entrambe, nellultima colonna a destra e nellultima riga in basso, le frequenze marginali
per ognuna delle due voci (cio padre e figlio).

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

92

Applicazioni sulle caratteristiche bidimensionali

Le frequenze relative della posizione occupata dal figlio condizionate alla posizione occupata dal
padre, possono essere calcolate nel modo seguente:
1) Copiare nel foglio di lavoro i valori ottenuti nella tabella precedente (frequenze congiunte
relative). In particolare, copiare le frequenze congiunte, cos come sono elencate in tabella,
rispettivamente nelle colonne C4, C5 e C6, e le frequenze marginali relative alla posizione
ricoperta dal padre nella colonna C7.
2) Scegliere Calc Calculator.
3) Alla voce Store result in variable, selezionare la colonna C8.
4) Alla voce Expression, digitare: C4 / C7.
5) Cliccare su OK.
6) Scegliere Calc Calculator.
7) Alla voce Store result in variable, selezionare la colonna C9.
8) Alla voce Expression, digitare: C5 / C7.
9) Cliccare su OK.
10) Scegliere Calc Calculator.
11) Alla voce Store result in variable, selezionare la colonna C10.
12) Alla voce Expression, digitare: C6 / C7.
13) Cliccare su OK.
I risultati che si ottengono sono riportati rispettivamente nelle colonne C8, C9 e C10, e possono
essere riassunti nella seguente tabella:
Righe: padre

Colonne: figlio
DIRIGENTE

DIRIGENTE
IMPIEGATO
OPERAIO

IMPIEGATO

0,378378
0,104348
0,081633

0,594595
0,765217
0,204082

OPERAIO
0,027027
0,130435
0,714286

Le frequenze condizionate relative sono state ottenute dividendo le frequenze congiunte relative per
le frequenze marginali relative della caratteristica condizionante.
Per stabilire se c indipendenza o connessione tra la posizione ricoperta dal figlio e quella ricoperta
dal padre occorre eseguire un test di Pearson. Per effettuare questa operazione, con MINITAB
necessario agire nel modo seguente:
1) Scegliere Stat Tables Cross Tabulation.
2) Alla voce Classification variables, selezionare le colonne C1 (padre) e C2 (figlio).
3) Selezionare solo la voce Chi-Square Analysis.
4) Selezionare la voce Show count.
5) Cliccare su OK.
Nella finestra sessione si ottiene la seguente tabella, in cui sono riportate le frequenze assolute
congiunte e marginali e, al fondo, i valori ottenuti con il test di Pearson:
Rows: padre

Columns: figlio

DIRIGENT IMPIEGAT
DIRIGENT
IMPIEGAT
OPERAIO
All

14
12
8
34

22
88
20
130

OPERAIO

All

1
15
70
86

37
115
98
250

Chi-Square = 116,578; DF = 4; P-Value = 0,000

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

Applicazioni sulle caratteristiche bidimensionali

93

Il termine denominato Chi-Square il valore cercato, il termine DF indica i gradi di libert e il


termine P-Value indica il livello di rischio con cui pu essere scartata lipotesi di una relazione tra i
due vettori. Nel caso in esame, essendo P-Value uguale a zero (in realt risulta uguale a zero per via
dellarrotondamento alla terza cifra decimale, comunque molto basso), si pu rifiutare lipotesi
con un livello di rischio prossimo a zero.
Il valore dellindice di Pearson normalizzato pu essere ottenuto dal valore precedente mediante
una divisione per il termine min[n(h-1), n(k-1)], dove n il numero totale delle osservazioni
effettuate, h il numero delle modalit della caratteristica sulle righe (nel caso in esame, la
posizione del padre) e k il numero delle modalit della caratteristica sulle colonne (nel caso in
esame, la posizione del figlio).
Il valore dellindice normalizzato pu, dunque, essere calcolato cos:
1) Scegliere Calc Calculator.
2) Alla voce Store result in variable, selezionare la colonna C11.
3) Alla voce Expression, digitare: COUNT('padre') * (COUNT(C4)-1).
4) Cliccare su OK.
5) Scegliere Calc Calculator.
6) Alla voce Store result in variable, selezionare la colonna C12.
7) Alla voce Expression, digitare: COUNT('padre')*(RCOUNT(C4;C5;C6)-1).
8) Cliccare su OK.
9) Scegliere Calc Calculator.
10) Alla voce Store result in variable, selezionare la colonna C13.
11) Alla voce Expression, digitare: 116,578 / RMIN(C11;C12).
12) Cliccare su OK.
Il valore che si ottiene (0,233156), riportato sulla prima casella della colonna C13, rappresenta il
valore del coefficiente di Pearson normalizzato. Questo calcolo, cos impostato, pu essere eseguito
in maniera pi rapida trasformando la tabella delle frequenze congiunte in una matrice e utilizzando
i parametri della matrice stessa.
Il valore che si ottiene per il coefficiente, confrontato con i valori teorici dati dalle tavole [1]
consente di rifiutare lipotesi di relazione, con un livello di rischio prossimo a zero.

5.2.2 Esempio n.2: correlazione


Qualora si voglia studiare lesistenza di uneventuale relazione lineare tra due variabili quantitative
sotto analisi, si usa l'indice di correlazione. Due grandezze si dicono correlate se esiste una
relazione lineare che le lega tra loro.
Si consideri a tal proposito la "Tabella 6.19" di [1] che riporta il numero di ore di collegamento ad
Internet rilevate in 20 famiglie nel periodo dall1 gennaio al 30 aprile 2000 in funzione del numero
di figli con et superiore ai 15 anni. I dati sono riportati sul foglio di lavoro internet.mtw sotto
forma di due vettori colonna che determinano gli abbinamenti tra le due variabili. Essi possono
essere riassunti nel modo seguente:
Numero di figli (x)
0
1
2
3
4

Ore di collegamento (y)


105,5 118 121,4 99,8
88 108 100,2 94,3 85,6 86,6 89,2
98,5 86,2 96 86,8
78,8 94,2 82,5 - 92
87,8

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

94

Applicazioni sulle caratteristiche bidimensionali

Esiste una relazione lineare che spiega le ore di collegamento (variabile y) con il numero di figli
(variabile x)?
Si tracci, innanzitutto, un diagramma di dispersione (Fig. 1).

Fig. 1

Grafico di dispersione ottenuto con i dati del file internet.mtw.

Con MINITAB ci pu essere fatto eseguendo i seguenti passaggi:


1) Scegliere Graph Plot.
2) Alla voce Graph variables: Y, selezionare la colonna C2 (ore di collegamento).
3) Alla voce Graph variables: X, selezionare la colonna C1 (numero di figli).
4) Cliccare su OK.
Dal diagramma di dispersione in Fig. 1 non emerge lesistenza di una chiara relazione lineare tra le
caratteristiche y e x. Si provino, allora, a calcolare i coefficienti della retta interpolante:
1) Scegliere Stat Regression Regression .
2) Alla voce Response, selezionare la colonna C2 (ore di collegamento).
3) Alla voce Predictors, selezionare la colonna C1 (numero di figli).
4) Cliccando opzionalmente il bottone Graphs, possibile richiedere una serie di grafici che
descrivono landamento dei residui (ossia la differenza tra i valori sperimentali e i valori previsti
mediante la retta interpolante). Selezionare solo la voce Regular.
5) Cliccare su OK.

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

95

Applicazioni sulle caratteristiche bidimensionali

6) Cliccando opzionalmente il bottone Results, possibile richiedere una serie di risultati


riguardanti lanalisi statistica effettuata sui dati relativamente alla retta interpolante. Selezionare
la voce Regression equation, table of coefficients, s, R-squared, and basic analysis of variance.
7) Cliccare su OK.
8) Cliccando opzionalmente il bottone Options, possibile richiedere una serie di opzioni sul tipo
di regressione e sui risultati da fornire. Selezionare solo la voce Fit intercept.
9) Cliccare su OK.
10) Cliccando opzionalmente il bottone Storage, possibile richiedere una serie di parametri che
possono essere salvati sulle prime colonne libere del foglio di lavoro corrente. Selezionare solo
la voce Coefficients. In questo modo, MINITAB salver i due coefficienti della retta nella colonna
C3, che la prima disponibile.
11) Cliccare su OK.
12) Cliccare su OK.
I risultati compariranno nella finestra sessione (oltre ai valori dei due parametri della retta, che,
come richiesto, saranno anche riportati nella colonna C3) nella forma seguente:
The regression equation is
ore di collegamento = 104 - 6,07 numero di figli
Predictor
Constant
numero d

Coef
104,372
-6,066

S = 8,956

SE Coef
3,341
1,725

R-Sq = 40,7%

T
31,24
-3,52

P
0,000
0,002

R-Sq(adj) = 37,4%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
18
19

SS
991,56
1443,87
2435,42

MS
991,56
80,21

F
12,36

P
0,002

Come si pu vedere sono riportati:

nella prima e seconda riga: lequazione della retta interpolante;

nella prima tabella: i due coefficienti (Coef), le corrispondenti deviazioni standard (SE Coef), i
corrispondenti valori della variabile di Student (T) e i relativi livelli di rischio (P) nel rifiutare
l'ipotesi nulla che i coefficienti ottenuti siano uguali a zero;

nella riga successiva: la radice quadrata della varianza residua (S) ed i coefficienti di
determinazione lineare (R-Sq e R-Sq(adj));

nella seconda tabella: i risultati dellanalisi della varianza.


Tramite le impostazioni menzionate nella procedura di calcolo possibile richiedere a MINITAB altri
parametri relativi a tale analisi, per approfondire tale argomento si rimanda allHelp di MINITAB.
Il valore molto basso del coefficiente di determinazione lineare sottolinea che il modello spiega una
quantit molto modesta della variabilit contenuta nei dati.
Il termine lineare ha un coefficiente di segno negativo. Inoltre, il coefficiente di correlazione
lineare, dato dalla radice quadrata del coefficiente di determinazione lineare, assume un valore non
molto elevato. Questo vuol dire che esiste una relazione lineare (di segno negativo) tra le due
caratteristiche, anche se molto debole.

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB

96

Applicazioni sulle caratteristiche bidimensionali

Maurizio Galetto Esercitazioni di statistica con luso di MINITAB