Sei sulla pagina 1di 6

I RAPPORTI STATISTICI

rapporti numerici tra due dati statistici, tra cui esista una relazione logica, che permette di confrontare l'intensità di un fenomeno in tempi,
luoghi e situazioni diverse.
1. RAPPORTI DI COMPOSIZIONE (O DI PARTE AL TUTTO)
si ottengono dividendo l’intensità̀ o la frequenza di un carattere per l’intensità̀ o la frequenza globale.
Specificamente, il rapporto tra frequenze dà origine a frequenze relative. (ni/N)
2. RAPPORTI DI DENSITÀ
si ottengono dividendo l’intensità̀ o la frequenza complessiva di un dato carattere per una dimensione spaziale o temporale. Esempi
di tali rapporti sono: il grado di affollamento delle abitazioni, la densità̀ della popolazione, etc.
3. RAPPORTI DI DURATA
essi esprimono la durata media di permanenza e si ottengono dividendo la somma delle consistenze iniziali (C1) e finali (C0) per la
somma delle entrate (E) e delle uscite(U)
4. RAPPORTI DI DERIVAZIONE
Dove il denominatore deriva anche dal numeratore (denominatore= n° popolazione, numeratore= n° morti)
5. RAPPORTI DI COESISTENZA
Nei quali due quantità che esistono congiuntamente (genere/età)
6. I NUMERI INDICE
Che permettono di confrontare le intensità̀ o frequenze di un fenomeno in situazioni temporali e/o spaziali differenti. Si costruisce
ponendo al denominatore un’intensità̀ (detta base) della stessa natura del fenomeno che è al numeratore. Si distinguono tra:
 numeri indice a base fissa se il periodo di riferimento è costante al variare del tempo;
 numeri indice a base variabile se per ciascuno di essi si fa riferimento al periodo precedente.

LE FREQUENZE
1. LA FREQUENZA ASSOLUTA 
è il numero di tutte le unità statistiche che assumono un certo valore o modalità in relazione ad un carattere. Per calcolare la
frequenza assoluta basta contare tra tutti i dati statistici raccolti, quelli che assumono quel determinato valore o modalità. 
Si osservi che la somma di tutte le frequenze assolute di un carattere è uguale alla numerosità della popolazione o del campione
statistico.
2. LA FREQUENZA RELATIVA 
si definisce come rapporto tra la frequenza assoluta e la numerosità della popolazione o del campione statistico. (ni/N)
Si osservi che la somma di tutte le frequenze relative di un carattere è uguale ad uno.
3. LA FREQUENZA PERCENTUALE 
è uguale al prodotto della frequenza relativa moltiplicata per 100. 
Si osservi che la somma di tutte le frequenze percentuali di un carattere vale 100.
L’insieme delle frequenze associate alle modalità di un carattere prende il nome di distribuzione di frequenza (assolute, relative o percentuali).
4. LA FREQUENZA CUMULATA
Somma crescente delle frequenze utilizzata per calcolarci la funzione di ripartizione (racchiude le informazioni su un fenomeno
riguardanti la sua presenza o la sua distribuzione prima o dopo un certo punto)

LE MEDIE
forniscono dei valori intorno ai quali si può̀ ritenere concentrata la variabile statistica in esame, dando così un’idea sintetica del fenomeno cui
si sta indagando.
Tra le condizioni che devono essere soddisfatte, abbiamo:
 Condizione di Cauchy: secondo cui il valore medio di una serie ordinata di valori è un valore compreso tra il più̀ piccolo ed il più̀
grande dei valori osservati.
 Condizione di Chisini: secondo la definizione di Chisini, si chiama valore medio di Y quel valore medio tale che, sostituito ad ogni dato
soddisfa l’eguaglianza
Possiamo dividere le medie in due parti:
 indici di posizione o medie lasche: sono gli indici di tendenza centrale nella cui determinazione intervengono solo alcuni valori o
modalità̀ del carattere. Esse sono:
o la moda: definibile per ogni tipo di carattere
o la mediana e i quantili: riferibili a caratteri misurabili in una scala ordinale, cioè̀ caratteri quantitativi, per i quali mediana e
quantili sono sempre determinabili, o caratteri qualitativi ordinabili, per i quali sono determinabili in alcuni casi

La moda è la modalità̀ o valore del carattere che ha la frequenza assoluta maggiore, e quindi anche la frequenza relativa e la frequenza
percentuale maggiore. La moda non esiste se tutte le modalità̀ hanno la stessa frequenza e abbiamo zero modale se la maggiore frequenza è
agli estremi della distribuzione, poiché essa deve essere maggiore del valore precedente e maggiore del valore che lo segue. Essa è l'unico
degli indici di tendenza centrale a poter descrivere caratteri QUALITATIVI.

Se ci troviamo davanti ad una variabile statistica continua si divide in due casi:

1) classi di stessa ampiezza: In tal caso la classe modale coincide con la classe a cui corrisponde la frequenza più̀ alta: infatti le densità̀ si
ottengono dalle frequenze assolute dividendole tutte per lo stesso numero (l’ampiezza comune a tutte le classi) e quindi sono
proporzionali alle frequenze.
2) classi con diversa ampiezza: in tal caso la classe modale è quella con la densità di frequenza più alta
Il concetto di mediana è riferito ai valori di un carattere quantitativo o alle modalità̀ di un carattere qualitativo ordinabile: essa è, in prima
approssimazione, il valore o la modalità̀ che occupa il posto centrale nell’allineamento in ordine crescente (o decrescente) di tutti i valori o
tutte le modalità̀ rilevate. Una definizione precisa di mediana deve tener conto della tipologia del carattere e del numero n dei casi osservati.

Per calcolare la mediana si ordinano i dati in ordine crescente o decrescente. Se:


 il numero di dati è dispari la mediana corrisponde al valore centrale;
 se il numero di dati è pari la mediana è stimata utilizzando i due valori che occupano la posizione centrale e facendo la loro media
aritmetica.

Se le modalità sono raggruppate in classi non si definisce un valore univoco, ma una classe mediana. La determinazione di tale classe avviene
considerando le frequenze cumulate.

la mediana non può essere sempre calcolata poiché richiede un preciso criterio che permetta di ordinare i valori e ciò non sarà possibile con
variabili qualitative che non possiedano un ordine intrinseco.

I quantili possono essere considerati come generalizzazioni della mediana. I quantili sono quei valori che ripartiscono i dati, disposti in ordine
crescente, in parti uguali. In particolare, si considerano:
 i quartili che suddividono i dati in 4 parti uguali aventi ognuna il 25% della quantità̀ totale (in particolare il secondo quartile coincide
con la mediana);
 i decili che suddividono i dati in 10 parti uguali (in particolare, il quinto decile coincide con la mediana);
 i centili che suddividono i dati in 100 parti uguali (in particolare, il cinquantesimo centile coincide con la mediana).

Tra le medie lasche abbiamo anche il VALORE CENTRALE che è dato dalla semisomma dei valori estremi della distribuzione e dipende
unicamente dai due valori estremi (il più piccolo e il più grande)

 medie analitiche: utilizzate per variabili di tipo quantitativo, esse si dividono in:
 media aritmetica: Si definisce media aritmetica quel valore che, sostituito ai dati, lascia invariata la loro somma. Essa è
data dalla somma dei valori divisa per il totale dei dati e si distinguono i casi semplice e ponderata, la prima da applicarsi a
distribuzioni unitarie e l'altra a distribuzioni di frequenze.
Le sue PROPRIETÁ sono:
A. di scarto o scostamento della media: La somma degli scarti dei valori dalla media aritmetica è nulla.
B. Di minimo: La somma del quadrato degli scarti xi da un valore K è minima quando questo è uguale alla media ed
è maggiore quando k≠
C. Traslativa: Sommando con una costante "a" i termini di una serie di valori, anche la media risulta sommata alla
costante "a".
D. Cambiamento di scala: Moltiplicando con una costante "b" i termini di una serie di valori, anche la media risulta
moltiplicata per la costante "b".
E. Associativa: la media generale è uguale alla media delle medie parziali
 media geometrica: si chiama media geometrica di “n” numeri positivi, il numero positivo espresso dalla radice n-essima
del prodotto dei numeri. Il concetto di media geometrica è strettamente collegato a quello di media aritmetica, come si
evince dalle seguenti proprietà:
A. Il logaritmo della media geometrica: calcolo la somma dei logaritmi dei dati divisi per il totale dei dati e
successivamente calcolo l’antilogaritmo.
B. Cambiamento di scala
 Media armonica: è il reciproco della media aritmetica dei reciproci

MEDIE DI POTENZA
Le medie analitiche sono dette anche di potenza perché il calcolo di queste medie derivano da un’unica formula generica, in cui cambia il
valore dell’esponente di ordine t t^yi^t/N
 t=-1 == Mar
 t=0 == Mg
 t=1 == 
 t=2 == Mq
 t=3 == Mc

VARIABILITÁ
È l’attitudine di un fenomeno ad assumere diverse modalità.
Essa è misurata mediante indici di variabilità che si distinguono in indici di:

1. dispersione: misurano la distanza delle osservazioni rispetto ad un valore medio


 scarto semplice medio: indice di variabilità dato dalla media aritmetica dei valori assoluti degli scarti della media
 Scarto quadratico medio: misura il grado di dispersione medio di una variabile attorno alla propria media aritmetica ed
è espresso nella stessa unità di misura del carattere osservato.
 Varianza: indice quadratico e il suo campo di variazione è compreso tra 0 e +. il suo valore esprime il quadrato dell’unità
di misura della variabile oggetto di studio.
 Devianza: La somma dei quadrati degli scarti dalla media aritmetica.
Elevando al quadrato uno scostamento si ottiene infatti un numero positivo sia che lo scostamento sia positivo sia che sia
negativo. Il quadrato permette infatti di sommare gli scarti negativi a quelli positivi senza che i segni influenzino il risultato
rendendolo nullo.

2. disuguaglianza: misurano la diversità tra le varie osservazioni


 indice di differenza media di Gini: esaminano le differenze esistenti, in valore assoluto, fra ciascun dato e tutti gli altri
│xi - xj│ e ne operano una sintesi tramite una opportuna media.
Le distanze sono calcolate in valore assoluto, in quanto considerando i valori algebrici la sommatoria si annullerebbe.
Si usa per problemi legati alla disuguaglianza, come per esempio le differenze di reddito tra uomini e donne, oppure tra
diverse nazioni.
ha senso solo per caratteri trasferibili come, per esempio, il reddito, mentre non può essere utilizzata in presenza di
caratteri qualitativi (come, per esempio, il colore dei capelli).
- Quando il confronto tra tutte le modalità è fatto non considerando la differenza di ciascuna modalità con se stessa, per cui i confronti
sono n(n-1),e la sintesi è effettuata facendo la media aritmetica delle differenze si ottiene la differenza semplice media
- Quando il confronto tra tutte le modalità è fatto tenendo conto anche della differenza di una modalità con se stessa, per cui i
confronti sono n^2, e la sintesi è effettuata facendo la media aritmetica delle differenze allora si parla differenza semplice media con
ripetizione

3. indicatori sull’ordinamento dei dati


 Il campo di variazione: indice assoluto di variabilità dato dalla differenza tra il valore massimo e il valore minimo assunti
dalle modalità di un carattere;
 Differenza interquartilica: Rappresenta la differenza tra due diversi quartili della distribuzione. Ad esempio lo scarto tra
il terzo ed il primo quartile di una distribuzione è l’intervallo che comprende il 50 per cento delle osservazioni e quindi è
una misura di variabilità della parte centrale di una distribuzione statistica.

MISURE DI VARIABILITÁ CONGIUNTE


La codevianza è un indice di associazione tra X e Y basato sulla concordanza. Infatti, la codevianza fa una sintesi della concordanza:
• se prevale il contributo delle unità concordanti è > 0
• se prevale il contributo delle unità discordanti è < 0
Essa ha il difetto di dipendere dal numero di osservazioni: ogni osservazione in più̀ comporta un aumento della codevianza. Si rimedia
facilmente a questo difetto dividendo la codevianza per il numero di osservazioni N, ottenendo così la covarianza (ci indica la variazione delle
varianze per X ed Y) : non si limita a contare concordanti e discordanti, ma utilizza i prodotti degli scarti dalle medie e dunque risente dei valori
anomali.

MOMENTI
- momenti dall’origine: Si ricavano dall’espressione generale dei momenti (t=(yi-k)^t/N) ponendo t=0. Ottenendo: yi^t/N
 t=1 == media aritmetica
 t=2 == media quadratica al quadrato
 t=3 == media cubica al cubo

- momenti centrali
misurano la distanza degli scarti centrati sulla media aritmetica sostituendo alla formula dei momenti t per ogni grado
 t=1 == 0
 t=2 == varianza
 t=3 == simmetria
 t=4 == indicatore di forma (anche 3)
un altro modo per poterci calcolare la distanza degli scarti dalla media è lo SCARTO STANDARDIZZATO
secondo cui, partendo da z=a+by e ponendo a= -/ e b=1/ avremo che z=(y-)/, la cui media di z sarà sempre uguale a 0 e la sua varianza
uguale ad 1.

VARIABILITÁ RELATIVA E ASSOLUTA


Gli indici relativi di variabilità̀ sono gli indici di variabilità̀ assoluta rapportati, ad esempio, al proprio valor medio (es. il coefficiente di
variazione) oppure al proprio massimo (/Max, /Max, e così via per tutte le misure di variabilità)
COEFFICIENTE DI VARIAZIONE= definito dal rapporto tra lo scarto quadratico medio e la media aritmetica.

DISTRIBUZIONE MASSIMANTE
Data una generica distribuzione di un carattere con modalità̀ ordinate e con un totale di N frequenze, si definisce distribuzione massimante
della variabilità̀ una nuova distribuzione con due sole modalità̀, di cui la prima è la modalità̀ più̀ piccola (y1) e la seconda quella più̀ grande (yN),
con frequenze assolute rispettivamente pari a p e q , la cui somma corrisponde al totale delle frequenze osservate nella distribuzione di
partenza. In tal caso, mantenendo inalterata la media della prima distribuzione, si ha che la distribuzione massimante assume il massimo della
variabilità̀.

FENOMENI TRASFERIBILI
Un carattere quantitativo trasferibile e ordinato in senso crescente, si definisce più̀ o meno concentrato se l'ammontare dello stesso è
posseduto da un numero più̀ o meno equo di unità.
Quando tutte le unità di un collettivo possiedono lo stesso ammontare del carattere si ha una misura della concentrazione nulla (o
equidistribuzione del carattere trasferibile) mentre se una sola unità possiede l'intero ammontare del carattere si parla di concentrazione
massima. La misura della concentrazione è data dal rapporto di concentrazione (R).

Per poter rappresentare il grado di concentrazione di un carattere quantitativo trasferibile e ordinato in senso crescente utilizziamo la Curva di
Lorenz che si ricava ponendo, in un sistema di assi cartesiani, sulle ascisse i valori pi e sulle ordinate i valori delle qi , ottenendo una serie di
punti che uniti formano la curva di concentrazione di un dato carattere.

La retta di equidistribuzione è, evidentemente, la retta che congiunge l’origine (0,0) con il punto (1,1). L’area compresa tra la curva di
equidistribuzione e quella di concentrazione è denominata area di concentrazione.

Quando la concentrazione del carattere analizzato è massima, tutto l’ammontare del carattere risulta concentrato in una sola unità; quindi,
tutti i punti della curva di Lorenz cadono sull’asse delle ascisse tranne l’ultimo di coordinate (1,1).

Tra gli indici di concentrazione proposti, consideriamo l’indice R di Gini, tale indice vale:
 0 in caso di equidistribuzione;
 1 in caso di massima concentrazione;
 è compreso tra 0 e1 nelle situazioni intermedie.

MUTABILITÁ
In questo caso calcoliamo la variazione dei caratteri qualitativi.
Misuriamo così l’omogeneità e l’eterogeneità, avremo il primo se le unità presentano la stessa modalità del carattere e avremo il secondo
quando le unità non presentano tutte le stesse modalità del carattere.
Per poter calcolare la dispersione dei caratteri di frequenza utilizziamo:
 l’indice di eterogeneità: che misura la dispersione della distribuzione delle frequenze.
Esso è uguale a 0 se c’è massima omogeneità ed è uguale ad s-1/s se si ha Max eterogeneità
Il suo indice relativo è dato da indice di eterogeneità/il suo massimo ed è =0 max omo =1 max ete
 l’indice di entropia: misura la diversità di una popolazione.
esso è uguale a 0 se la diversità è nulla ed è uguale a logs se c’è massima diversità
il suo indice relativo è dato da indice di entropia/il suo massimo ed è =0 max omo =1 max ete
 l’indice relativo di concentrazione di Gini (R’) se =0 maz omo =1 max ete

SIMMETRIA
Gli indici di forma di una distribuzione riguardano due caratteristiche: la simmetria e la curtosi.
Nelle distribuzioni unimodali si ha simmetria quando media, moda e mediana coincidono; se la distribuzione è bimodale, possono essere
coincidenti solamente la media aritmetica e la mediana.
In una distribuzione l'asimmetria è detta
 positiva: quando i valori che si allontanano maggiormente dalla media sono quelli più elevati, collocate a destra dei valori centrali; la
successione delle tre misure di tendenza centrale da sinistra a destra è: moda, mediana, media;
 negativa: quando i valori estremi, quelli più distanti dalla media, sono quelli minori. Nell’asimmetria negativa, la successione delle tre
misure di tendenza centrale da sinistra a destra è: media, mediana, moda.
La misura che indica se c’è simmetria o asimmetria positiva o negativa è il momento centrale 3, esso se è =o simmetria, <0 asimmetria neg, >0
asimmetria neg.
Le misure di ASIMMETRIA sono:
 skewness: dato dalla differenza tra media e moda divisa per lo scarto quadratico medio, poiché possiamo avere 0modale tale indice
può essere calcolato moltiplicando per 3 la differenza tra media e mediana diviso lo scarto quadratico medio.
Esso è =0 simm, <0 asimmettria neg, >0 asimmetria pos
 Coefficiente di asimmetria (o di PEARSON): definito come la media aritmetica delle terze potenze: 1= c3/varianza
Esso è =0 simm, <0 asimmettria neg, >0 asimmetria pos

CURVA
La distribuzione normale è una distribuzione della probabilità continua di un fenomeno statistico intorno alla media.
descrive con discreta efficacia gran parte dei fenomeni naturali. Le probabilità più elevate di un fenomeno si concentrano intorno alla media.
Le probabilità si riducono man mano che ci si allontana dal valore medio a destra o a sinistra.
La distribuzione normale delle probabilità rappresentata sul piano cartesiano da una curva a campana, continua e mesocurtica, detta curva
gaussiana o curva normale.

Una curva normale è definita in maniera univoca da due soli parametri: la media e la varianza della distribuzione stessa.
La funzione f(x) descrive, al variare dei valori assunti dai due parametri, una famiglia di curve normali:
 Se varia la media ci si sposta orizzontalmente all’asse di simmetria della curva
 Se varia la varianza la curva si allarga e appiattisce al crescere del valore della varianza stessa
Essa è data da una funzione matematica complessa (1/*2)*e^ -(y-)/2*^2), per questo, per poter misurare l’area sotto la curva
utilizziamo la curva normale STANDARDIZZATA che si ottiene quando la media =0 e la varianza=1. Per determinare il valore dell’area sotto la
curva utilizziamo le tabelle di conversione:
1. (z)= definito da b e - di f(z) dz -> tabella della funzione di ripartizione della normale standardizzata
2. p(z)=definito da t a 0 di f(z) dz -> integrale della curva normale standardizzata

la curva può essere anche:


 IPERNORMALE O OLEPTOCURTICA, ha variabilità maggiore rispetto alla normale, il momento centrale 4>0 e momento 3=0
 IPONORMALE O PLATICURTICA, ha una variabilità minore rispetto alla minore, il momento centrale 4>0 e momento centrale3=0

Per calcolarci l’allontanamento dalla curva normale, detta DISNORMALITÁ utilizziamo il coefficiente di disnormalità di Pearson (2) = c4/^4
Tale coefficiente se è =3 abbiamo curva normale, >3 oleptocurtica o ipernormale, <3 platicurtica o iponormale.
Per osservale la forma della curva, invece, facciamo riferimento a 2=2-3, =0 normale, >0 ipernormale, <0 iponormale

NUMERI INDICI COMPLESSI


 INDICE DEI PREZZI DI LASPEYRES: È un indice composto dei prezzi; è espresso dal rapporto tra le medie di prezzi di m beni (o servizi)
diversi calcolati nei due periodi 0 e n, ponderati con le quantità al tempo 0.
Per tale indice non varia nel tempo il paniere dei beni e servizi di riferimento, il che agevola di molto il calcolo ripetuto.

 INDICE DEI PREZZI DI PAASCHE: È un indice composto dei prezzi; è espresso dal rapporto tra le medie di prezzi di m beni (o servizi)
diversi calcolati nei due periodi 0 e n, ponderati con le quantità al tempo n.
Per tale indice muta costantemente il paniere dei beni e servizi di riferimento. Se ciò lo rende aggiornato e fedele ne complica il
calcolo, per cui, solo nelle situazioni ove si dispone congiuntamente e simultaneamente di prezzi e quantità (come nelle
contrattazioni borsistiche, per esempio), è conveniente utilizzare l’indice di Paasche.

 INDICE DEI PREZZI DI FISHER: È un indice composto dei prezzi; è espresso dalla media geometrica fra l’indice dei prezzi di Laspeyres e
l’indice dei prezzi di Paasche.
L’indice di Fisher è anche detto numero indice ideale poiché soddisfa molti requisiti formali, ma è raramente applicato perché
richiede il calcolo preliminare di altri due numeri indice.

RELAZIONI TRA VARIABILI (DIPENDENZA E INDIPENDENZA IN MEDIA)


Una variabile Y si dice indipendente da una variabile X se la prima rimane costante al variare dei valori assunti dalla seconda. In caso contrario
si dice che Y è funzione di X.
L’assenza di una qualsiasi relazione tra due caratteri X e Y desumibili da una distribuzione doppia di frequenza è detta indipendenza assoluta.
La stessa si evince esaminando le distribuzioni condizionate che derivano dalla distribuzione doppia.
Esattamente, il carattere Y è indipendente dal carattere X, se al variare di X le distribuzioni condizionate Y|(X = xi) sono costanti per i = 1, .., N.
Analogamente, il carattere X è indipendente dal carattere Y, se al variare di Y, le distribuzioni condizionate X|(Y = yj) sono costanti per j = 1,...,
N.
Il concetto di indipendenza è simmetrico per cui, se Y è indipendente da X, allora anche X è indipendente da Y.
L’indipendenza tra due caratteri si verifica esaminando le frequenze con cui si presentano le modalità̀ di entrambi i caratteri. Infatti, affinché́
esista indipendenza tra i due caratteri è necessario che le frequenze relative delle distribuzioni condizionate siano uguali tra loro e uguali alle
frequenze marginali relative;

INDICI DI CONNESSIONE
Per accertare l’esistenza di una relazione tra due caratteri X e Y si confronta la distribuzione doppia osservata con la distribuzione teorica sotto
l’ipotesi di indipendenza.
Gli indici statistici in grado di evidenziare l’indipendenza di un carattere statistico da un altro sono basati sulle frequenze osservate e teoriche,
e sono denominati indici di connessione. Essi assumono valori tanto più piccoli quanto più esiste indipendenza tra i caratteri investigati.

L’INDICE χ2 (quando entrambi qualitative o quando antecedente(X) quantitativa e conseguente (Y) qualitativa)
L’indice di Pearson, o χ2, costituisce un criterio di valutazione della differenza esistente tra frequenze teoriche e frequenze osservate;
È un indice assoluto, ammette: valore minimo 0 se nij = n'ij, ossia se esiste indipendenza tra i caratteri, ma non ammette valore massimo in
senso matematico, ovvero ammette il massimo relativo che dipende dalla dimensione n (Nmin((s-1),(t-1)))
(INDIPENDENZA DISTRIBUTIVA)

INDIPENDENZA IN MEDIA
Per distribuzioni di frequenza di due caratteri, di cui almeno uno quantitativo e uno qualitativo, se invece di considerare le frequenze con cui si
presentano la modalità̀ di un carattere X e la modalità̀ di un carattere Y, se ne considerano le medie condizionate, è possibile misurare
l’indipendenza in media, detta anche connessione in media.
Un carattere Y è indipendente in media da un carattere X se, al variare delle modalità̀ di X, le medie condizionate di Y risultano costanti e uguali
alla media generale del carattere Y.
Analogamente, un carattere X è indipendente in media da un carattere Y se, al variare delle modalità̀ di Y, le medie condizionate di X restano
costanti.
Se entrambi i caratteri investigati sono quantitativi, ha senso considerare sia l’indipendenza in media di Y da X sia l’indipendenza in media di X
da Y.

Per verificare l’eventuale indipendenza in media di un carattere Y da un carattere X, si ricorre ad un indice basato sulla decomposizione della
devianza del carattere Y
INDICE DI CORRELAZIONE DI PEARSON (ETA^2) (quando antecedente (X) qualitativa e conseguente (Y) quantitativa)
Esso assume:
- valore minimo pari a 0, nel caso in cui la differenza tra le medie di Y al variare delle modalità̀ di X siano tutte costanti, e dunque la
devianza entro i gruppi al numeratore del rapporto sia nulla; in tal caso si ha indipendenza in media di Y da X;
- valore massimo pari a 1, nel caso in cui l’intera variabilità̀ di Y sia attribuibile alla variabilità̀ tra i gruppi, ed è tale che ad ogni
valore di X corrisponde un solo valore di Y; in tal caso si ha massima dipendenza di Y da X.
(INDIPENDENZA IN MEDIA)

INDICE DI CORRELAZIONE DI BRAVAIS-PEARSONE ((XY)) (quando entrambi quantitative)


In questo caso utilizziamo RO(XY) esso se è =0 vi è incorrelazione, =-1 dipendenza lineare decrescente, =1 dipendenza lineare crescente

LA REGRESSIONE
è un indicatore statistico che indica l'esistenza o meno di una relazione significativa tra due o più variabili quantitative. La regressione studia il
tipo e il grado di dipendenza tra due variabili quantitative ossia di "quanto" varia.
L'obiettivo della regressione è quello di trovare l'equazione di una curva che meglio interpreta il meccanismo con il quale una variabile è
relazionata ad un'altra.
L’equazione della retta di regressione è uguale a y=+x

Una volta individuata la retta di regressione si dispone di diversi indici per valutare il grado di affidabilità del modello.
Tra questi assume particolare rilievo l’indice di determinazione lineare (R^2). Trattasi di un indice della bontà di accostamento della retta di
regressione alla nuvola di punti osservati; misura, infatti, la parte di variabilità totale spiegata dalla retta di regressione.

L’indice di determinazione lineare è dato dal rapporto tra devianza di regressione e devianza totale.
Il coefficiente di determinazione può assumere valori compresi tra 0 e 1. Quando vale 0 la retta di regressione e la retta
coincidono, di conseguenza, la variabilità dei valori di Y non risulta affatto spiegata dalla regressione. Quando vale 1 tutti i punti
sperimentali giacciono sulla retta di regressione, per cui la regressione spiega una gran parte della variabilità dei valori di Y e quindi
il modello di regressione è appropriato.

ANALISI DEI RESIDUI


Al fine di valutare l’affidabilità della regressione lineare che abbiamo condotto, risulta utile fare l’analisi dei residui, ossia delle distanza fra ogni
punto osservato e la retta di regressione.
Questi residui dovrebbero avere il più̀ possibile una media nulla (perché́ sommando le distanze “positive” sopra la retta e “negative” sotto la
retta dovremmo avere un valore vicino a 0) e dovrebbero essere incorrelati fra di loro.
L’analisi dei residui è rappresentata da i=yi-yi*

Per poter verificare quanto la relazione tra le variabili sia lineare facciamo riferimento all’indice di non linearità () = Dev(L)/Dev(Y)
Esso è =0 se è perfettamente lineare ed è tendente ad 1 la retta non risulta essere un buon modello

COGRADUAZIONE
si dice che tra due variabili vi è cograduazione, ovvero che esse sono cograduate, se hanno la massima associazione, nel senso che al crescere
dell’una cresce (o non decresce) l’altra.
Xi ed yi vengono trasformati in una graduatoria:
- ri= i-esima posizione in una graduatoria crescente in xi
- si= i-esima posizione in una graduatoria crescente in yi
- si’ = (N+1)-s= posizione i-esima unità yi in una graduatoria decrescente
abbiamo MAX COGRADUAZIONE quando le graduatorie di muovono ugualmente
abbiamo MAX CONTROCOGRADUAZIONE quando si muovono nel senso opposto

per vedere il tipo di cograduazione che intercorre, utilizziamo:


- indice di cograduazione di Spearman (RO)-> =1 max cogra =-1 max controcogra
- indice di cograduazione di Gini (G) -> =1 max cogra =-1 max controcogra

Potrebbero piacerti anche