Sei sulla pagina 1di 13

ANALISI BIVARIATA

Lanalisi bivariata vede se esistono legami tra due o pi fenomeni sulla stessa
popolazione.
DISTRIBUZIONE DI FREQUENZA
Quindi date due o pi modalit sulla stessa popolazione si costruir una tabella a
doppia entrata o tabella di contingenze dove si andr a vedere quante volte una
particolare coppia di valori si presenta nel campione . queste coppie si chiamano
distribuzione di frequenza e vengono indicate con nij.
n11 : frequenza congiunta nij
n.j : frequenze marginale di colonna
ni. : frequenze marginali di riga



n.j =

= n totale frequenze relative congiunte


ni. =

= n totale fij = nij/n tot la somma delle freq. Marg. Di riga o


di colonna devono

sempre sommare a 0. Se invece le moltiplichiamo


per 100% otteniamo
frequenze marg. Percentuali Fij .
questa tabella pu essere costruita anche limitatamente ad una modalit
limitatamente al sottogruppo del campione che presenta laltra modalit, abbiamo
quindi una distribuzione condizionata che indicheremo con Y|X ovvero le frequenze
della modalit Y rispetto ad una sola modalit X.
DISTRIBUZIONI CONDIZIONATE

Y
X
Y1 Y2 Yj Yk
X1 n11 n12 n1j n1k n1.
X2 n21 n22 n2j N2k n2.
.. .. . ..
Xi ni1 ni2 nij nik ni.
..
Xh nh1 nh2 nhj nhk nh.
n.1 n.2 n.j n.k n tot
Le frequenze relative condizionate si ottengono dividendo ogni frequenza
condizionata per il totale di riga o di colonna
Freq. Condizionate relative = fi|j =1 =


Mentre le distribuzioni marginali prevedono il rapporto tra le frequenze marginali di
riga e il numero totale delle osservazioni.



INDIPENDENZA STATISTICA

Se tutte le distribuzioni condizionate sono uguali per riga e conseguentemente per
colonna allora il presentarsi di una particolare modalit di un fenomeno, non
influenzata dal presentarsi dellaltro.se tutte le distr.cond di X sono uguali, allora sono
necessariamente uguali alle distribuzioni marginali di X. Viceversa questo vale anche
per Y.
Quindi

cone


Se questa relazione vera allora anche



Otteniamo quindi che la frequenza di indipendenza attesa nij* =



Se c indipendenza allora le frequenze interne della tabella dipendono dalle
marginali e soddisfano questa operazione di indipendenza .
Se in una tabella di distribuzione vi proporzionalit tra le varie frequenze congiunte
allora vi indipendenza statistica se invece compare anche un solo 0 non vi
indipendenza .
In una tabella di dati osservati le frequenze dipendono da una forma di attrazione o
di repulsione dalle modalit.
Quando non vi indipendenza allora bisogna costruire una tabella delle contingenze
in cui date due modalit come frequenze andremo ad inserire la frequenza di
indipendenza meno il valore osservato rispettando il segno del valore rispettato
nij* -nj = +/- contingenza
in questo modo andremo a scoprire quanto pi una frequenza attratta da una
modalit o meno .
- Se la somma delle contingenze 0 abbiamo attrazione verso una data
modalit
- Se la somma delle contingenze 0 abbiamo repulsione verso una data
modalit
- Se la somma delle contingenze pari a 0 allora vi indipendenza e quindi n
repulsione ne attrazione.

CONNESSIONE
Quando tra due fenomeni non vi dipendenza c connessione ovvero la presenza di
un legame che lega due fenomeni senza per spiegare la natura del legame che pu
essere di causa effetto, oppure possono essere legati tra loro da una terzo carattere
che non appare direttamente.
Ponendo a confronto nij* e ni pi grande la distanza tra questi valori minore il
legame tra le osservazioni .

Calc. Rapido


- 1

= 0 : num =0 , in ogni cella le freq osservate sono uguali alle contingenze


indipendenza

0 assume valori sempre pi grandi tanto pi 0 e ci si allontana


dallindipendenza

dipende numerosit infatti quando n aum.

aumenta
Numero di colonne h e righe k
Per questo difficile stabile la forza del legame ed anche difficile confrontare
direttamente con le modalit , bisogna allora introdurre lindice normalizzato .


0 quando il num 0 e quindi non c connessione
1 quando il num 1 e quindi c massima connessione ovvero
quando ad una modalit ne
Ne corrisponde unaltra e solo unaltra
MASSIMA CONNESSIONE
- K=h tabella quadrata ad ogni mod y corrisponde 1 sola modalit x e
viceversa
y1 y2 y3
x1 10 0 0 10
x2 0 0 3 3
x3 0 20 0 20
10 20 3 33
- K h tabella rettangolare quando ad ogni y corrisponde 1 e 1 sola x ma non
viceversa
A y1 corrisponde 1 e una sola x x1
A x2 corrisponde y2 e y3



In questi casi

= n [ min( k-1) (h-1)] ovvero devo prendere il valore minire


tra k-1 e h-1 .
Questo indice normalizzato utile al confronto, bisogna per tenere in
considerazione che sar sempre un valore basso avendo al denominatore un
numero grande. Il calcolo del

fa rifermento alle frequenze attese e


osservate senza prendere in considerazione le modalit, e questo fa in modo
che si possano prendere in considerazione anche fenomeni qualitativi percui
almeno una modalit pu essere qualitativo.

INDIPENDENZA IN MEDIA


Quando almeno un fenomeno quantitativo e non c indipendenza
statistica possiamo calcolare lindipendenza in media o indice

.
y1 y2 y3
x1 10 0 0 10
x2 0 20 10 30
10 20 10 40
Quindi se le medie condizionate di y al variare x sono uguali tra loro e uguali
alla media di y abbiamo lindipendenza in media
Y1med = y2med = yimed = ykmed = ymed ymed|x
Indipendenza statistica : vi proporzionalit tra le
freq condizionate
Simmetria
Ym= 1 yf=1 ytot =1 indipendenz in media

Se c indipendenza statistica c anche indipendenza in media, ma non
necessario il contrario
Non c ind. Statistica : manca proprorzionalit
Ym= 1 yf=1ytot=1 indipendenza in media


Se non ce indipendenza in media c dipendenza in media e le medie
condizionate sono differenti quindi per calcolare quanto la dipendenza delle
medie viene usata la formula della var. between
misura assoluta della dipendenza in media essendo la varianza delle medie di
gruppo :

* ni normalizzato

^2


b max = var. totale
= 0 quando il numeratore 0 e la varianza between = indipendenza in
media
0 1 il numeratore minore di 0 o uguale al denominatore
= 1 la varianza between uguale alla varianza totale quindi non c
varianza tra i gruppi e ogni val x corrisponde ad un solo valore y e
quindi c dipendenza perfetta


{ {

.

. IN MEDIA E CONNESSIONE
Se = 0 allora = 0
Ind. Stat. legata allind. In media e connessione
es 0 1 2
m 10 20 10 40
f 20 40 20 80
30 60 30
es 0 1 2
m 10 20 10 40
f 40 20 40 100
50 40 50 140
Se 0 non c ind. Stistica ma pu esserci dipendenza in media , su per
non si pu dire nulla
Se = 1 si ha la massima dipendenza delle medie e = 1 abbiamo la
massima dipendenza statistica e quindi ad ogni x corrisponde una sola y.
La connessione si valuta tra frequenze e pu essere analizzata su qualsiasi
fenomeno
La dipendenza in media prevede che almeno un fenomeno deve essere
quantitativo in quanto lavora sulle medie.

COVARIANZA COV.

Per il calcolo della covarianza occorre lavorare su fenomeni
esclusivamente quantitativi e potremo verificare cosa accade
allaumentare di x a y e quindi bisogner{ prendere in considerazione non
pi la singola osservazione, ma la coppia di osservazioni xi,yi.

COV. (X,Y) =


Altra form. COV. (X,Y)



y + + II +-

I (xmed , ymed)
III -,- IV -+


X
Diagramma di dispersione
Ogni punto corrisponde ad una coppia di osservazioni e formano una nuvola di punti.
(xmed, ymed) punto medio che divide la popolazioni in quattro gruppi di cui
conosciamo le caratteristiche :
I contribuiscono con scarto ++ +
II contribuiscono con scaro +- -
III contribuiscono con scarto +
IV contribuiscono con scarto -+ -

Cov xy



Codevianza formata dagli scarti presi con segno di x e y
Cov. positiva quando prevalgono scarti di I e III quadrante si ha un legame diretto tra
le due modalit al crescere di cresce anche y al diminuire di x diminuisce anche y.
Cov. Negativa quando prevalgono scarti del II e IV quadrante non si ha un legame
diretto tra le modalit e quindi al crescere di x possiamo avere il diminuire di y e
viceversa .
COEFFICIENTE DI CORRELAZIONE
Con lindice relativo non si perde il segno
Cov xy
- varx * vary+ covxy + covx * covy

-

+
Dove

coefficiente di correlazione ovvero lindicatore del legame che


intercorre tra x e y , il quale esprime un valore compreso tra -1 e +1 passando da
0.
= +1 legame diretto lineare perfetto esprimibile attraverso una retta
ascendente
=-1 legame inverso lineare perfetto esprimibile attraverso una retta
discendente
= 0 incorrelazione nessun andamento n crescente n decrescente
nessun legame diretto ma quando x aumenta y tende ad aumentare
- nessun legame diretto ma quando x diminuisce y tende a diminuire




















MODELLO DI REGRESSIONE LINEARE
Quando si hanno x e y variabili quantitative , possiamo inserire le coppie di
osservazioni dentro un diagramma di dispersione e ottenere quindi una nube di
punti che rappresentano le osservazioni.
Ne l caso una variabile dipenda direttamente dallaltra e quindi :
x variabile indipendente quantitativa
y variabile indipendente quantitativa
si ha una funzione continua in cui si ha con cui si pu sapere come varia x
ad ogni variare di y con valori osservati (interpolazione ovvero la funzione della
retta appartiene ai punti delle osservazioni), oppure possiamo estendere il
modello oltre alle osservazioni (estrapolazione).
Y a +bx equazione lineare della retta
F di dipendenza semplice , i parametri sono facilmente interpretabili in quanto :
a il valore dellintercetta allorigine ovvero da dove parte la retta
b il coefficiente angolare ovvero ci dice grazie al segno se la retta ascendente (
quando ha segno positivo) o discendente ( quando ha segno negativo) e di quanto
varia la x per ogni unit in pi.
Se la nube di punti allineata la retta subito manifesta , normalmente per
bisogna trovare la retta che passa pi vicino ai punti quindi si avr invece del
semplice y osservazione un teorico che corrisponde al valore pi vicino
allandamento della retta teorica La differenza tra y osservato e lerrore ed e
pensabile come una distanza. Scegliamo quindi la retta dei minimi quadrati per
cui la somma delle differenze dei valori osservati e quelli teorici rende minimi gli
errori :


Bisogna quindi trovare i valori a e b che andranno a formare lequazione della
retta che rende minimi i quadrati :

= ( +)


b =

=



la varianza sempre positiva quindi la covarianza dar il segno al coefficiente
angolare :
b se cov xy
b se cov xy
b =0 se cov (xy) = 0 retta piatta e nessun andamento di y in funzione di x

a = ymed bxmed ymed -



la retta avr formula :
= ymed -


+


* x
PROPRIETA
-

= 0 gli errori positivi annullano quelli negativi


- Retta dei minimi quadrati passa per (xi; yi)
= ymed -


* xmed+


* x = ymed
SCOMPOSIZIONE DELLA VARIANZA


Dev tot dev residua dev spiegata

: costituisce il contributo del punto iesimo alla devianza totale



: costituisce il contributo del punto iesimo alla devianza residua



: costituisce il contributo del punto iesimo alla devianza spiegata




DR : errore che il modello non spiega; se coincidessero tutti i punti quindi DS fosse
la retta sarebbe perfetta se invece ds fosse maggiore sarebbe la distanza e
tanto meno il modello spiegherebbe i dati
DS : indica la bont del modello
La retta dei minimi quadrati ci dice che la migliore possibile , ma perci non vuol
dire che passi vicino ai punti di osservazione dobbiamo quindi valutare la bont di
adattamento della retta ai dati tramite la devianza spiegata , la quale un numero
assoluto da normalizzare in modo da poter fare valutazioni , portando la devianza
spiegata al suo valore massimo avremo la devianza totale quando per la
devianza residua uguale a 0.

ci indica la dipendenza pi il valore vicino ad 1 pi il legame stretto e


viceversa pi il valore lontano da 1 meno il legame stretto.

ymed y non dipende linearmente da x

= 1 DS = DT yi y dipendenza lineare perfetta da x

= 1 se

=1 quindi se i punti sono allineati e quindi abbiamo un legame


lineare perfetto.
DR misura lerrore commesso in quel punto assumendo invece che yi
Standard deviation =


RELAZIONI UTILI

DS =

* DT
Es. Se

= 0.7 il 70% della devianza totale devianza spiegata mentre il 30 %


non spiegato dalla retta.
DT DR =

* DT
DR = ( 1-

) * DT .
Spesso la variabile indipendente potrebbe essere il tempo si va cos a creare una
serie temporale, in questo caso bisogna spostare lorigine degli assi verso quello
che la serie temporale considera lanno