Sei sulla pagina 1di 30

La STATISTICA è un insieme di metodi per:

• Pianificare ricerche su basi empiriche (campioni, popolazioni)


• Ottenere dati e poi:
o organizzarli
o riassumerli
o presentarli
o analizzarli
o interpretarli
0 trarne conclusioni appropriate

Empirico: Fondato sui dati


dell'esperienza immediata e della pratica

In Psicologia:
• Ricerche condotte su individui o gruppi di individui
• Le caratteristiche variabili oggetto di indagine sono tratti e stati psicologici, atteggiamenti e
comportamenti
Ma non solo: le unità possono anche essere oggetti, come domande di un questionario, stimoli di un test, di
cui vogliamo a studiare le proprietà

Struttura ciclica della ricerca empirica: il ruolo della Statistica

Induzione Teoria / Deduzione

Formulazione
Risultati
Delle I potesi

Operativizzazione
Interpretazione / \ (disegno della
ricerca)

Analisi dati

i
Organ izzazione dati
Davide Marengo, davide 1 re 1 .lt 14

Due facce della statistica:


DESCRITTIVA INFERENZIALE

Obiettivo: Sintetizzare e descrivere i dati raccolti Obiettivo: Generalizzare i risultati dell'analisi condo
su un collettivo. su un gruppo limitato di soggetti (campione
rappresentativo)all'intero collettivo (popolazione, o
Descriviamo la distribuzione di variabili universo).
demografiche, sociali e psicologiche nell'intera
popolazione, o sottogruppi della stessa 1. Identifichiamo una popolazione di riferimento.
(organizzazioni, istituzioni, gruppi sociali).-> 2. Sulla base di una lista di campionamento,
CENSIMENTO. reclutiamo individui rappresentativi della
popolazione.

Attenzione: Il reclutamento è probabilistico (casuale


random) al fine di per garantire la rappresentatività
campione rispetto alla distribuzione nella popolazion,
variabili come: genere, età, titolo di studio, professioni
reddito, etc.

Tipi di ricerca:

RICERCHE OSSERVATIVE RICERCHI

Uso di strumenti (questionari e interviste) per la rilevazione di • 11 campione rappresentai


variabili come: gruppi che vengono sott,
• Variabili demografiche (genere, età, titolo di studio, reddito etc.) controllo e gruppo sperim
• ComRortamenti (comportamenti a rischio come uso di sostanze, • Approccio fondamentale~
gioco d'azzardo, bullismo, etc.) effetto molto utilizzato in ;
• Atteggiamenti (atteggiamento nei confronti degli immigrati, trial) e in psicologia gener
intenzioni di voto, etc.) • In genere, i costrutti indag
• Stati e tratti RSicologici (sintomi depressivi, o caratteristiche di e comporamenti, messi in
personalità) (trattamenti psicoterapeu·
• Abilità (abilità matematica, velocità di lettura e comprensione di
un testo)

INFERENZA: Attraverso un processo di inferenza, la distribuzione dei fenomeni osservati nel campione (ed
eventuali relazioni emerse tra gli stessi), è generalizzata alla popolazione generale.
Il processo di inferenza basato su dati campionari è necessariamente affetto da una fonte non interamente
conoscibile di errore dovuta a:
• Errori nella operativizzazione delle variabili
• Errori nel processo di rilevazione delle variabili
• Errori nel processo di inserimento dei dati
• Errori nella selezione dei partecipanti
Ciò che è misurabile è l'errore di campionamento: calcolo dell'errore provocato dal fatto di operare su un
campione di numerosità ridotta invece che sull'intera popolazione sotto esame. Un altro elemento che
incide sulla capacità di fare inferenze in modo affidabile è la variabilità del fenomeno studiato.
Tratteremo questi aspetti in modo approfondito quando studieremo i contenuti relativi alla statistica
inferenziale

Costruzione della base empirica:


Costruire la base empirica significa assemblare il supporto sul quale si basa la verifica di un certo asserto, o
ipotesi.
Esempio di Ipotesi: Usare lnstagram è associato a maggiori sintomi depressivi
Devo costruire una base dati che mi consenta di confrontare lo stato psicologico di soggetti che
differiscono in base al grado di utilizzo di lnstagram.

Definizione operativa {casi):


Dalle unità ai casi.

UNIVERSO
Campione
Popolazione/Collettivo Definizione e)
o erativa Casi effettivamente
Insieme di unità o oggetti a cui si osservati
interessa la ricerca

Da un universo (o popolazione), ad un campione.


Definizione operativa: Insieme delle regole che permettono di passare da una definizione di popolazione
di riferimento, ai casi di un campione
ex-> Universo: Utenti attivi di lnstagram
Definizione operativa: Individui che possiedono un account di lnstagram, e che sono attualmente attivi
sulla piattaforma
Campione: Campione rappresentativo di utenti lnstagram (casi)

La definizione di misurazione secondo Stevens:


Per Stevens "la misurazione, nel senso più ampio, consiste nell'attribuzione di numeri a oggetti o eventi
seguendo determinate regole. li fatto che si possano assegnare dei numeri seguendo regole differenti porta
a differenti tipi di scala e differenti tipi di misurazione" (Stevens, 1946)

Definizione operativa {variabili)


Una proprietà è una caratteristica di un evento reale.
Se una nronrietà nuò assumere almeno 2 stati diversi da caso a caso nello stesso momento. si dice che nuò
-- ---- r · -r ·· --- r-- --- -··· - · - --· ·· - ·· - - ----- - -- ---- - - - - -- - ---- ·· -· -- ------ ··· - ·· ·-·· --, - · - ·-- - ·· - .---
variare.
La capacità di variare non è sufficiente perché una proprietà possa essere definita una variabile ed essere
oggetto di ricerca scientifica.
È anche necessario stabilire in che modo questi stati differenti devono essere rilevati e registrati, dando
una definizione operativa della proprietà in questione.

Proprietà
.________ Definizione operativa
Ri levare gli stati di una proprietà
Attribuire un codice a cia scu no stato

~
-i--v-a-r-
ia-b-ile--
Davide Marengo, dav1de.marengo@umto.1t

La funzione di corrispondenza
Una variabile di scala o di misura è un sistema che mette in relazione di corrispondenza, utilizzando una
funzione f gli stati di oggetti (ad es., individui) su proprietà (sistema empirico o SE), e numeri reali (sistema
numerico o SN).
Esprimiamo questa relazione attraverso la funzione di corrispondenza: SN = f (SE)
f: funzione che fa corrispondere a ogni elemento di SE uno di SN
ex: PAZIENTE 1 (SE)-> OTTIENE 3 PT (SN)

Misurazione: dal sistema empirico al sistema numerico


Ad esempio immaginiamo di rilevare il titolo di studio dei 3 soggetti che si presenta con queste modalità:
1. licenza media;
2. diploma;
3. laurea;
La relazione che deve essere rispettata in questo caso è quella d'ordine: f(c) > f(b) > f(a)
Per rappresentare il SRE può essere usata qualsiasi terna di numeri che rispetti la relazione d'ordine.
Ad es. f { licenza media=l; diploma=S; laurea=l0}
f' {licenza media=l; diploma=25; laurea=l00}
è il frutto di una trasformazione dei valori di scala di f, in particolare: f'=f2
dove f'=T(f) la nuova scala
ATTENZIONE! Per ogni SE possono esserci più rappresentazioni numeriche. La funzione f scelta è in genere
arbitraria (la scala assoluta fa eccezione, vedi slides successive)
J
Quoziente Intellettivo
m

Dai costrutti alle variabili

Proprietà Variabile
Definizione
Caratteristica oggetto Insieme dei codici
della ricerca
o erativa
inseriti in matrice

Dalle proprietà (o costrutti), alle variabili:


Definizione ORerativa: Insieme delle regole che permettono di riportare nella matrice dati lo stato di un
individuo su una ben definita proprietà
ex->Proprietà: Frequenza di utilizzo di lnstagram
Definizione operativa: Tempo medio giornaliero passato su lnstagram nell'ultima settimana
Variabile: Numero medio di minuti passati su lnstagram al giorno

Dato oggettivo (lnstagram) Dati

X Your Activity

Time on lnstagram

Casi Minuti lnstagram

..
1 13
Oaily Aver ge
Average time you spent per day us ng th lnstagram 2 90
app on thls devlce ,n th last week
3 27
4 32
5 240

~ .. Todty

EX2->Proprietà: Sintomi depressivi


Definizione operativa: Numero di sintomi depressivi rilevati in modo frequente nelle ultime due settimane
Variabile: Punteggio costruito come trequenza di risposte a domande da questionario che rilevano i
sintomi osservati almeno qualche volta nel corso delle ultime settimane

Scala PHQ-8 (Patient Health Questionnaire 8)

I, Du,.,,nl I uh m du ~• - • ,

.
,
o J
Casi PHQ-8

..
o 1 2
o l 2 3
o 3 o
o
4 8
o 2 3
5 5
o 2

MATRICE Casi X Variabili

Casi Minuti lnstagram PHQ-8

1 13 2
2 90 3
3 27 o
4 32 8
5 240 5

La codifica delle proprietà in dati numerici permette di studiare la distribuzione delle singole variabili, e
le loro relazioni reciproche con gli strumenti della statistica descrittiva (e inferenziale, se campione
rappresentativo).

Operazioni
Le operazioni che permettono di passare dalle proprietà alle variabili sono:
• Classificazione: suddivisione di un concetto in sottoinsiemi, chiamate classi di equivalenza su cui
valgono le proprietà: esaustività (capacità delle categorie di coprire il dominio della proprietà, tutti i casi
devono poter essere attribuiti alla categoria) e esclusività (l'impossibilità che un caso possa essere
attribuito a più categorie) .
• Ordinamento: partizione del dominio di una proprietà che gode anche della relazione di ordine, oltre
che di equivalenza. ex. A>B B>C C=D, ma non si può quantificare in numeri la distanza.
• Misurazione: presuppone l'esistenza di una unità di misura
• Conteggio: enumerazione degli oggetti posseduti, delle attività possedute .. . (numero di figli)
CLASSIFICAZIONE IN LIVELLI DI SCALA DI STEVENS:
Stevens distingue 4 tipi di scale di misura in base alle famiglie di trasformazioni ammissibili:
• Variabili nominali
• Variabili ordinali
• Variabili ad intervalli o intervallari (misurazione)
• Variabili a rapporti o razionali (misurazione)

Trasformazioni ammissibili:
Le diverse scale di misura sono formalmente definite attraverso le classi di trasformazioni ammissibili, ossia
quelle funzioni T che consentono di passare da una misura del sistema empirico ad una qualsiasi altra
misura dello stesso sistema.
Per trasformazione ammissibile si intende l'insieme delle trasformazioni che alterano solo gli aspetti
convenzionali di una scala.

SCALE QUALITATIVE SCALE QUANTITATIVE o CARDINALI


Misurano delle proprietà qualitative e Misurano delle proprietà quantificabili;
danno luogo a delle categorie disgiunte o esiste una unità di misura o di conto e
ordinabili danno luogo a dati di tipo numerico

CATEGORIALI NOMINALI I AD INTERVALLI


CATEGORIALI ORDINALI A RAPPORTI
ASSOLUTA

SCALA NOMINALE:
Sistema empirico di tipo classificatorio in cui la realtà può essere suddivisa in categorie distinte e
mutualmente esclusive (classi di equivalenza).
Classificare vuol dire attribuire numeri uguali agli elementi della stessa categoria e numeri diversi ad
elementi appartenenti a categorie diverse.
I sistema numerico ha la sola proprietà di simbolo.
Qual è la tua piattaforma socia l media preferita? Scegli tra le opzioni di seguito :
1. lnstagram
2. Facebook
3. TikTok
4. Twitter
5. Snapchat
6. Altro _ _
Matrice Casi x Variabili

Casi Piattaforma social


Lucia 1
Marco 2
Andrea 3
Paolo 1
Il Il Il Il lfDav,de Marengo, davide.marengo@unlto.it
sa_ra _ __._
._l 14_ ______.
42

La trasformazione ammissibile per questa scala è la TRANSCODIFICA {o corrispondenza biunivoca)


y'=t{y) tale che dati due oggetti i e j yi =yj ->y'i =y'j e yi :ty j ->y'i :ty'j
Quindi ex: gli 1 diventano 8 etc

Trasformazione Trasformazione
Casi Piattaforma social
Ammissibile (T) Ammissibile (T)

Lucia lnstagram 1 8
Marco Facebook 2 2
Andrea TikTok 3 1
Paolo lnstagram 1 8
Sara Twitter 4 6

SCALA ORDINALE:
In un sistema empirico ordinabile gli elementi godono della stessa caratteristica ma in quantità o grado
diverso, ordinabile rispetto a tale grado (relazioni di ordine). li sistema numerico rispecchia le stesse
caratteristiche del sistema empirico di ordinabilità.
Ad uno stesso numero è associata la stessa quantità di caratteristica e i numeri indicano solo una
graduatoria.
EX->Scala Moh della durezza dei minerali, Voti ottenuti negli esami, Grado militare, Titolo di studio, Graduatorie
in un concorso

li mio titolo di studio attuale (completato, non in corso) è:


1. Licenza elementare
2. Licenza media inferiore
3. Licenza media superiore
4. Laurea o titolo superiore
Matrice Casi x Variabili

Casi Titolo di studio

- • • ..
Lucia 3
Marco 3
Andrea 2

I ' Davide Marengo, dav1de.marengo@umto.1l


Paolo
Sara
3
4
46

Esempio con domande LIKERT:

Mi vedo come una persona che:


In compie o é 111 accordo D'accordo completamente
4 .... è rilassata, sopporta bene lo stress disaccordo né IO
dsaccordo
d'accordo
Matrice Casi x Variabili
~
~ Casi ltem4

- ..
Lucia 1

- Marco
Andrea
3
4

I '
Davide Marengo, dav1de.marengo@unito.it
Paolo
Sara
2
4
47

Trasformazione ammissibile per la scala ordinale è trasformazione monotona strettamente crescente


y'=m(y) esiste una funzione m() tale che dati due oggetti i e j.
yi < yj -> y'i < y'j e yi = yj -> y'i = y'j

Oggetti V = Titolo di studio V' (dati trasformati) V' (dati trasformati)


Elementare= 1 Elementare = 1 + 1 Elementare= (1) 2
Media inferiore= 2 Media inferiore= 2+ 1 Media inferiore= (2) 2
Media superiore= 3 Media superiore = 3+ 1 Media superiore= (3) 2
Laurea= 4 Laurea= 4+ 1 Laurea = (4) 2

Marco 4
Andrea 2 3 4
Paolo 3 4 9
Sara 4 5 16

MISURAZIONE:
Quando nel sistema empirico è possibile stabilire una relazione di uguaglianza degli intervalli (o delle
distanze) tra gli stati di una proprietà, allora possiamo parlare di misurazione in senso stretto. Nel sistema
numerico corrispondente è possibile stabilire l'entità delle differenze di intensità della caratteristica.
L'intervallo costante a cui viene attribuito il valore"l" all'interno di una scala di misura si chiamaunità di
misura.

SCALA CARDINALE E A INTERVALLI:


Per parlare di scala ad intervalli deve esistere:
• uno strumento di misura dotato di unità di misura, che è convenzionale
• uno "zero" fissato arbitrariamente (cambia in base all'unità di misura scelta)
• I rapporti tra i valori attribuiti agli elementi non sono costanti al variare dell'unità di misura con cui
esprimiamo la nostra variabile
• Possibili operazioni di somma e differenza, ma non divisione e moltiplicazione
Operazioni per la scala a intervalli equivalenti:
Possiamo dire, per esempio, che la distanza tra gli individui/oggetti a e b è la metà o il doppio della distanza tra
gli individui ce d. Oppure che la distanza tra gli individui a e b è uguale alla distanza tra gli individui ce d. Non
possiamo dire, però, che l'individuo/oggetto a possiede la proprietà misurata in quantità doppia rispetto
all'individuo b. Non possiamo cioè stabilire dei rapporti diretti tra le misure ottenute da singoli individui.ù

Trasformazioni ammissibili:
1. Dilatazione y' = my, dove m > O
Tale che dati tre oggetti i, j , k - (yi - yj)/(yj - yk) = (y'i - y'j)/(y'j - y'k)

m: coefficiente angolare
Non bisogna alterare lo Zero convenzionale

QI
Oggetti Età mentale/età cronologica (Età mentale/età
cronologica)* 100

. . I •
Il
Claudia-Marco 0.45

Francesca 1.02 102 Claudia-Luca 0.20


Claudia 1.40 140 Confronto tra
intervalli 2.25
Carla 1.03 103
Sergio 1.60 160
Luca 1.20 120
Matteo 0.89
Udv1d1 MarenQO. dav,d marenQol6lunlt ,t
89 53

2. Traslazione y' = a + y, dove a ~ O


Tale che dati tre oggetti i, j, k - (yi - yj)/(yj - yk) = (y'i - y'j)/(y'j - y'k)

a: intercetta
Altera lo zero convenzionale.

QI
QI centrato sulla media
Oggetti (Età mentale/età
(QI -100)
cronologica)*l00

Marco 95 -5
Claud ia-Marco 45
Francesca 102 2
Claudia 140 40 Claudia-Luca 20
Confronto tra
Carla 103 3 intervalli 2.2s
Sergio 160 60
Luca 120 20
Matteo 89 -11

3. Trasformazione lineare (o affine) y' = my + a, dove m > O e a~ O


Tale che dati tre oggetti i, j , k ~ (yi - yj)/(yj - yk) = (y'i - y'j)/(y'j - y'k)

m = coefficiente angolare
a= intercetta
Altera lo zero convenzionale

Trasformazione
Temperatura Ammissibile (T)
Oggetti
Celsius Fahrenheit Il
m = 9/5, a= 32 Roma -Milano 6

• • I Roma -Torino 4

Milano -2 28.4 Confronto tra


intervalli 1.5
Roma 4 39.2
Napoli 5 41
Palermo 10 so

->Consideriamo la seguente affermazione: oggi è il doppio più caldo di ieri, dato che la temperatura di ieri era
di 20° centigradi e la temperatura di oggi è di 40° centigradi. Questa affermazione è priva di senso dato che una
misura (40) è il doppio di un'altra (20) solo in una certa arbitraria scala di misura (scala Celsius). Se avessimo
misurato queste medesime temperature usando un'altra scala, la scala Fahrenheit, per esempio, i due valori
sarebbero stati 68° F e 104° F. Questo significa che la relazione "il doppio di" che avevamo individuato in
precedenza si applicava ai numeri della scala centigrada, ma non alla proprietà che è stata misurata
(temperatura).

SCALA CARDINALE RAZIONALE O DI RAPPORTI:


Quando nel sistema empirico è possibile identificare, oltre all'unità di misura, anche un elemento di
intensità nulla, il sistema viene chiamato additivo.
• Il sistema numerico godrà di tutte le proprietà dei numeri reali e la regola di trasformazione
comprenderà anche l'uguaglianza del rapporto tra due elementi
• Zero assoluto (non arbitrario)
• Unità di misura convenzionale
• I rapporti tra i valori attribuiti agli elementi rimangono costanti anche cambiando unità di misura
Alcuni esempi di variabili a rapporti sono il peso, i tempi misurati, il reddito.

Trasformazioni ammissibili:
1. Trasformazione di similarità y' = m*y dove m>O
Tale che dati due oggetti i e j __. yi /yj = y'i/y'j

Trasformazione Trasformazione
Ammissibile (T) Ammissibile (T)
Peso Kg
tonnellata libbre
m = 1/1000 m = 2.20462262185


100 0.100
• •
220.4622622
325 0.325 716.5023521
60 0.060 132.2773573
91 0.091 200.6206586
45 0.045 99.20801798
78 Davide Mar O.Oi78 ,, go@un,to t 171.9605645 59

SCALA ASSOLUTA:
Deriva dall'operazione di conteggio, in essa nessun elemento è convenzionale e di conseguenza l'unica
trasformazione ammissibile è la trasformazione identica: y'=y tale che y'i= yi
->Esempi: il numero di libri letti in un mese, il numero di figli, numero di followers su lnstagram
Si tratta quindi di unità non ulteriormente scomponibili!

SCHEDA RIASSUNTIVA DELLE SCALE:

Nominale Ordinale Intervallo Rapporto


uguaglianza SI SI SI SI

ordine no si SI si
intervallo unitario no no SI SI

zero assoluto no no no si

.. I Trasfo rmazione identica


Scala assoluta
si (conteggio) Transcodifica
no Scala nominale
Posso ordinare gli (o corrispondenza biunivoca)
Esiste un'unità di
individui in base alla
conto? no proprietà misurata?
sl Scala ordinale
no - [ Monotona strettamente crescente
Esiste un'unità d1
misura?

no • Dilatazione, Traslazione, e
Scala a intervalli
sl Esiste uno zero Trasformazione lineare o affi ne
assoluto?

s1 Scala a rapporti [ Trasformazione di similarità

Scala Likert (5 o7 punti):


004 Secondo altri intervistati la costruzione dell'inceneritore di Torino porterà alcuni
vantaggi? Per ciascuno di essi può dirmi in che misura è d'accordo?

Fortemente In ln disaccordo Né In accordo né D'accordo Fortemente


-
disaccordo In disaccordo d'accordo

-Chiusura delle vecchie dìscanche


Produzione di energia elettrica e di acqua per il
- >--
1
1
1
- f-
2
2
2
-- 3
3
3
- f-
4
4
4
5
5
5
-
teleriscaldamento
R1valutaz1one de_gli immobili e dei terreni
Vantaggi economici per i comuni
1
1
2
2
-- 3
3
- - 4
4
5
5
-
I

Scale autoancoranti:
Etichette verbali soltanto per le due modalità estreme.

D24 2 Può dirmi quanta fiducia ha nelle seguenti istituzioni?


-

minima massima

Polizia 1 2 3 4 5 6 7 8 9 10
Partiti 1 2 3 4 5 6 7 8 9 10

Differenziale semantico di Osgood:


Proposto da Osgood chiede all'intervistato di collocare un concetto su una scala a 7 o 11 passi cui estremi sono
etichettati con due aggettivi opposti.

Stimolo= TORINO

Bella 1 2 3 4 5 6 7 Brutta
Dolce 1 2 3 4 5 6 7 Amara
Pericolosa I 2 3 4 5 6 7 Sicura
Morta 1 2 3 4 5 6 7 Viva
Attiva 1 2 3 4 5 6 7 Passiva

L'inchiesta campionaria con questionari si basa sulla presunzione che il comportamento verbale degli
individui sia una fonte attendibile su cui basare lo studio della realtà (psicologica o sociale).
Possibili problemi di attendibilità delle risposte:
- - - - • -• - - - • - •••• ~ - - -• - ■ -
• ues1aeraomta sociale
• Mancanza di opinioni (o pseudo-opinioni)
• Response set (risposte uguali a domande diverse, perchè la batteria di domande è troppo lunga).

Costruzione della base empirica:


1. Matrice Casi x Variabili (Cx V): forma ridotta (o compressa)
Titolo di studio
Elementare = 1
Genere
CASI Età Media inferiore = 2
Maschio= 1
Media superiore = 3
Femmina= 2
Laurea= 4
• •
Francesca 41 2 4
Claudia 37 2 2
Carla 19 2 3
Sergio 28 1 2
2. Matrice Casi x Variabili (Cx V): forma canonica (disgiuntiva completa)

•• Marco
Francesca
23
41
Maschio

1
o
o
Femmina

o
1
Elementare

1
o
M.lnf.

o
o
M.Sup.

o
o
Laurea

o
1
Claudia 37 1 o 1 o o
Carla 19 o 1 o o 1 o
Sergio 28 1 o o 1 o o
Le variabili politomiche sono espresse con tante variabili in forma binaria/dicotomica (o variabili dummy)
quante sono le categorie della variabile politomica di origine.

MODI E VIE DELLA MATRICE CxV:


n° di VIE, ovvero il n° delle entrate della matrice.
n° di MODI, cioè il n° di famiglie di entità distinte a cui il dato rimanda (possono essere pari o inferiori al
numero di vie).

Tipo di CONDIZIONAMENTO:
Una matrice a 2 vie si dice:
• Unconditional consente confronti tra le celle sia per riga che per colonna;
• Row conditional solo confronti entro le righe
• Column conditional solo confronti entro le colonne
Matrice rettangolare
Due vie (casi x variabili), due modi (casi, variabili)

VARIABILI
ID Età Genere Tltolo di studio Estroversione
1 23 m E 45
2 45 f L 25
vi 3 33 f 45
<
u 4 67 f s 70
5 78 m s 15
6 23 m 30

Matrice quadrata di prossimità


Due vie (oggetti x oggetti), un modo (oggetti)

---- 4 8 5

-- 4

8 9
9 10

- 5 10 3
Davide Marengo, dav1de.marengo@un1to.lt

Matrice Unconditional

16700 40 10 90

15600 52 53 14

14502 35 21 10

Matrice Column Conditional


Confronti solo tra colonne.

Altezza Genere Minuti


Snapchat
16700 167 1 90

15600 185 2 14

14502 172 1 10

Matrice Row Conditional


(piattaforma preferita da utenti di specifiche piattaforme) confronti solo tra
righe.

Piattaforma pref erita

lnstagram Facebook Twitter Youtube Snapchat TikTok


Account possedut o lnstagram 50% 10% 5% 10% 15% 10%
Facebook 25% 13% 32% 10% 10% 10%
Twitter 10% 25% 10% 30% 20% 5%
Youtube 25% 10% 25% 20% 10% 10%
Snapchat 35% 10% 4% 20% 21% 10%
TikTok 20% 15% 8% 10% 7% 40%

Operazioni fondamentali sulle variabili


1. Descrizione: Studia le distribuzioni e le relazioni tra variabili, sintetizzando gli aspetti più
importanti. Non sono stabilite relazioni causa-effetto. ex. grafici generali
2. Spiegazione: Studia la relazione di dipendenza tra variabili, distinguendo tra indipendenti (variabili
che esercitano influenza), e variabili dipendenti (che la subiscono).
3. Interpretazione: Determinare quali e quante variabili non osservate (latenti) sono necessarie per
rendere conto delle relazioni tra variabili osservate (manifeste)

Frequenze:
FREQUENZA ASSOLUTA: Conteggio di individui (o oggetti) per livello della scala. Applicabile a tutti i livelli di
scala. FA= nj
FREQUENZA RELATIVA: Rapporto tra la frequenza assoluta e il totale degli individui/oggetti. fj=nj/N

ORE SMARTPHONE Frequenza Frequenza relativa


Meno di 1 ora 35 O. 05993150685
1 ora 63 0.10787671233
2 ore 135 0.23116438356
3 ore 121 0.20719178082
4 ore 80 0.13698630137
5 ore 51 0.08732876712
6 ore 38 0.06506849315

~
7 ore o più O.1 04452054 79
TOTALE 4 1.00000000000
Nel confronto tra gruppi (ad esempio, maschi e femmine), le frequenze assolute non permettono il
confronto se i gruppi hanno numerosità diverse.
Le frequenze relative permettono di confrontare la frequenza di specifici valori o modalità della variabile
anche per gruppi con numerosità diverse.

FREQUENZA PERCENTUALE: Pj=fj x 100


FREQUENZE CUMULATE: Somma delle frequenze fino alla modalità considerata.

Frequenza Frequenza Frequenza Frequenza


Casi assoluta cumulata assoluta cumulata relativa
relativa

X1 n f1 n1 f
X2 n2 f2 n +n 2 f +f2
... ... ... ... . ..
X·J n·J f·J n +n2+ .. . + nJ f1+f2+ ... + fj
. .. . .. ... .. ...
XJ nJ fJ N 1
Totale N 1
Esiste anche la FREQUENZA PERCENTUALE CUMULATA.

Ore Frequenza Frequenza Frequenza Frequenza relativa Percentuale


smartphone assoluta cumulata relativa cumulata Percentuale cumulata
,O 35 35 0.05993150685 0.05993150685 5.993150685 5.993150685
1,0 63 98 0.10787671233 0.16780821918 10.787671233 16.780821918
2,0 135 233 0.23116438356 0.39897260274 23.116438356 39.89726027 4
3,0 121 354 0.20719178082 0.60616438356 20.719178082 60.616438356
4,0 80 434 0.13698630137 0.74315068493 13.698630137 74.315068493
5,0 51 485 0.08732876712 0.8304 7945205 8.732876712 83.047945205
6,0 38 523 0.06506849315 0.89554 794521 6.506849315 89.554794521
7,0 61 584 0.10445205479 1.00000000000 10.445205479 100.000000000
Tota!
584 1.00000000000 100.000000000

ARROTONDAMENTO
Nel calcolo di frequenze, mediane e medie (e in genere molti altri indicatori statistici), si producono valori con
decimali.
Riportare valori con decimali appesantisce la lettura. Utilizziamo l'arrotondamento per ridurre il numero di
decimali visualizzati
Procedura:
• Scegliamo il numero d di decimali da visualizzare (ad esempio, d = 2)
• Se la cifra successiva alla d-esima è< 5. arrotondiamo la cifra d-esima «oer difetto». owero. rioortiamo il
-- ,- - -- - --- , - - - , ,- - - -·
valori come sono: 13.761 -> 13.76
• Se la cifra successiva alla d-esima è> 5, arrotondiamo la cifra d-esima «per eccesso», ovvero, riportiamo il
valori come sono: 13.767 -> 13.77
• Se la cifra successiva alla d-esima è= 5, possiamo sceglie se arrotondare per eccesso o per difetto, ma
dobbiamo dichiararlo: 13.765 = 13.76 (difetto) o 13.77 (eccesso)

Grafici e scala di misura:


• Per variabili nominali, possiamo utilizzare solo grafici a barre, o torta
• Per variabili ordinali o cardinali, si può utilizzare l'istogramma, grafico a barre in cui non sono
introdotti spazi tra i livelli della variabile.
Ad esempio, l'età: i livelli della variabili hanno tra loro una relazione di continuità, quindi non introduco
spazi

Classificazione delle distribuzioni di frequenza per tipo di variabile:

Qualitative Quantitative
(Categoriali) (Cardinali

... Serie sconnessa


Ordinali
..;.aa-M-------------
Seriazione
Continue

(suddivisione in classi)

Grafici a barre o a Istogramma


torta Davide Marengo, davide.marengo@un ito.it 87

1. Variabile nominale:
Tipo di sodai media utilizzati (combinazioni)

istogramma, grafico a barre: per ciascuna categoria, l'altezza della barra indica la frequenza assoluta
della categoria.
In alternativa, possono essere utilizzate le frequenze relative o percentuali.

Pattems of soclal media use: Ali groups

Cate aria -.w,,1,,11


None 174 5.79
Whatsapp 725 24.14
Whatsapp & Facebook 677 22.54
Whatsapp & lnstagram 363 12.09
Whatsapp, Facebook & lnstagram 997 33.20
Facebook & lnstagram
Facebook
lnstagram
Total
21
38
8
3003
0.70
1.27
0.27
100.00
Han!-

Davide Marengo, dav1de.marengo@unrto.1t


~

,..,_ -.. ·-·-


-
.,..,.~ IW"lllupp a W'aapp, Faoeboal. a Faceboal:

Pattems of soclal media use: AII groups


nsl.affl

88

Grafico a torta: L'angolo di ogni sezione della torta è dato da:


n
a = 36W_!5._
N

.___... ....
Palterns ofsoclal media use: Ali groups
■ None

■-­
□--• · ..,..,
□---·-- ·
■ F1ceuoco • hll-
11,..,_

---
□-...

Cate aria
None 174 0.0579 20.85914
Whatsapp 725 0.2414 86 .91309
Whatsapp & Facebook 677 0.2254 81 .15884
Whatsapp & lnstagram 363 0.1209 43 .51648
Whatsapp, Facebook & lnstagram 997 0.3320 119.5205
Facebook & lnstagram 21 0.0070 2.517483
Facebook 38 0.0127 4.555445
lnstagram 8 0.0027 0 .959041
Total 3003 1.0000 360

2. VARIABILE CARDINALE:

Seriazione di frequenze
li calcolo delle frequenze per tutti i valori di una variabile cardinale (ad esempio l'età), non è molto
informativo. Troppe categorie, spesso con frequenze simili. Difficile da visualizzare.
C: l d

Percentuale
Frequenza Percentuale cumulata
19 3 15,00 15,0
·21 1 5,00 20 ,0
"23 1 5,00 25 ,0
·27 1 5,00 30 ,0
'28 1 5,00 35,0
'35 1 5,00 40 ,0
'35 1 5,00 45,0
'38 1 5,00 50 ,0
'39 1 5,00 55 ,0
'40 1 5,00 60 ,0
'45 1 5,00 65 ,0
'47 1 5,00 70 ,0
'53 1 5,00 75 ,0
'54 1 5,00 80 ,0
'57 1 5,00 85 ,0
'54 1 5,00 90 ,0
·55 1 5,00 95 ,0
82 1 5,00 1~~. o
unltolt
Totale 20

Con variabili quantitative o cardinali è utile raggruppare le unità in classi. Il sistema di classi deve essere
esausuvo e mutuatmente esc1us1vo.
Ogni classe è individuata dai sui limiti, che possono individuare classi equinumerose (stesso numero di
individui per classe) o con intervalli della stessa ampiezza.

Classi con intervalli della Classi equi-numerose


stessa ampiezza
Classi di età Freq Class i di età Freq
19-34 7 19-23 5
35-50 7 24-38 5
51-66 5 39-53 5
67-82 1 54-83 5
Oav,de Marengo, davide marengo(!lunito.11
Totale 20
Totale 20

I limite delle categorie possono essere apparenti (a} o reali (b}

a Classi di età Freq b Classi di età Freq


19-34 7 18,5-34 ,5 7
35-50 7 34,5-50,5 7
51 -66 5 50,5-66,5 5
67-82 1
66,5-82,5 1
Totale 20
Totale 20

L'uso di limiti reali permette una maggiore precisione nel definire i limiti delle categorie (dove colloco un
individuo di 34 e 3 mesi?), ma può risultare meno facilmente leggibile.

Istogramma per variabile cardinale: La rappresentazione varia in base all'ampiezza della


classe.

-•35.528
500 Ampiezza classe di età: Sld On • 13.53'&1
N • 3.00, ,mo Ampiezza classe di età:
,...,.,s.531
Sld Ort • 13.53'1
N•lmJ
5 anni 10 anni
400,0
""'
~
~ ,00
.,.
:,

...e
400
lOO.O

200
,m

10.0 1S.0 20.0 25.D JD.OlS.D .0 4S.0 50.,0 SS.0a:,015,010D 75,0 -,,o
io,o 15 ,o :-o.o 2S.O 30 .0 35.0 •o.o ' 50 50.0 55 .0 eoo ss.o 70 .0 75.0 eo.o Da111de Marengo, davide marengo unito ,t Aga 93
Aa•

L'area del rettangolo è proporzionale alla frequenza della classe: fj


L'altezza è proporzionale alla densità di classe: dj=fj/aj
La base del rettangolo =(XrXj_ 1 }=aj= ampiezza di classe
Spezzata a gradini: istogramma costruito riportando in ordinale la frequenza cumulata
(assoluta o relativa o percentuale).

age roups
cumulabve
Fr qu ncy Percent Valld Pere nt P rcent
Valld 11-20 453 15,1 15,1 15,1
~t-30 709 23,6 23,6 38,7
31-40 822 27,4 27,4 66,1
41-50 545 18,1 18,1 84,2
51-60 360 12,0 12,0 96,:?
61-70 94 3,1 3,1 99,3
71-80 20 ,7 ,7 100,0
Total 3003 100,0 100,0

aQtJlrOUpl
Davide Marengo, dav1de.marengo@uri1to.1t 95

Operatori monovariati:
Gli operatori monovariati sono indicatori che riassumono in forma numerica (scalare) informazioni
relative alla distribuzione di una variabile (vettore):
• Operatori di tendenza centrale
• Operatori di dispersione
• Operatori di forma

1. Operatori di tendenza centrale


Restituiscono un valore numerico (scalare) a partire da un «vettore» di valori. Una misura di tendenza
centrale è un valore che rappresenta «al meglio» la distribuzione della. Producono valori che sono
compresi tra quelli che la variabili può assumere.

Operatore Applicabilità

Moda Nominale, Ordinale, Cardinale (Assoluta,


Intervalli, Rapporti)
I
Mediana________Ordinale, Cardinale (Assoluta, Intervalli,
Rapporti)

Media (media Cardinale (Assoluta, Intervalli, Rapporti)


aritmetica)
I
• MODA:
Modalità o valore che occorre più frequentemente nella variabile.
&&EL& 11
Percentuale %
128 28 .83
Né bullo né vittima
12 158 35 .59
Vittima 105 24.8
13 94 21.17
14 Bullo 43 10.2
61 13.74
15 3 0.68 Bu llo e vittima 86 20.3

N 444 100.00 Totale 423 100.0

,z, ..--------- M ODA = 36


.
,m,

...l
!. •o.o·

~-
~~- .,
Z>

I z, s, ., ., ~, ., ., ., ., ., -.,
"' "' ...
Più di una moda? UNIMODALE o BIMODALE

UNIMODALE BIMODALE
! ti)

• MEDIANA
Modalità o valore entro cui si trova (almeno) il 50% dei casi osservati.
Per calcolare la mediana è necessario:
1. Ordinare le modalità (o valori) in modo crescente
2. Calcolare le frequenze cumulate
3. Osservare in quale modalità (o valore) cade il caso mediano (il caso che per rango ordinale, è in
posizione superiore al 50% dei casi).

ESEMPI:
MEDIANA (N dispari), formula:

N+l
mediana:
2
Frequenza Percentuale
Frequenza Percentuale
cumulata cumulata
licenza media 89 89 3.0 3.0

Diploma 1509 [ 1598


}--- 50.4 53.4
Laurea di I
949 2547 31.7 85.0
llvello
Laurea di Il
448 2995 15.0 100.0
livello
N 2995 o o.o o

cerco il dato con la formula: (2995 +1)/2 = 1498


In quale categoria di trova il caso 1498? Entro la categoria «DIPLOMA» La modalità mediana
della distribuzione è DIPLOMA.

MEDIANA (N pari)

N+ l N
mediana: - - - e -
2 2

Lic nza m dia 76 3,0 39 30.89


Diplom - 63 25.61 56.50
Lau di 11 v Ho 35 14.23 70.7
ur di nI lo 72 2'9.27 0.001
2-6

cerco il dato con le formule: (246+1)/2= 124 e 246/2=123


In quale categoria si trovano i casi? Entro la categoria «DIPLOMA»
La modalità mediana della distribuzione è DIPLOMA.
Se si trovassero in due modalità diverse ex diploma e laurea, le dovrei segnalare entrambe.

Si misura ugualmente in variabili Cardinali e ordinali. Solo se i casi sono pari e sono in
categorie diverse si fa la media della numerazione:

Frequenza
Frequenza Frcquenr.,
Frequenza assoluta percentuale
assoluta cumulata percentuale
cumulata
11 128 128 24 .33 24.3:l

12 25 .67 50.0C

4 105 513
- 27 ,57

1
77.57

97, 3

5 13 52 2.47 100 oc

N 2 ,~o.o
r, " rlu ,-- r"llnn rt u11r1 m

calcolo: N/2=263 E N+1/2=264


Quale valore assumono i casi 263 e 264? 12 e 13 anni.
Il valore mediano della distribuzione è 12.5 anni.
1a.::,1..1a aua .::,ua .::,1111.::,u a Il L;,r;u UCI 1..a.::,1 C aua .::,ua uc.::,u a Il I J7U. Il .:>CI..VI IUV yua1 U l t I..Vll 11..IUC I..VI I 1a 11 ICUIQI 1a.

Quartili e relativa percentuale:


Quartile 1= 25%
Q2=50%
Q3=75%
Si può dividere la distribuzione in cento parti che contengono un numero uguale di osservazioni,
generando i PERCENTILI.
La mediana corrisponde al 2° quartile e il 50° percentile.

CURVA NORMALE o GAUSSIANA

I
Perce e 1 5 10 o 30 50 60 70 80 90 95 99
I I I I I I I I I I
n rd (Z) Score -3.0 -2 .5 -2 .0 -1 5 -1 O -0.5 o 0.5 1O 1.5 20 2.5 30

• MEDIA ARITMETICA
Operatore utilizzato nel caso di variabili cardinali (assolute, intervalli, rapporti).
La somma dei valori osservati xi per ogni caso i, diviso per il numero totale di osservazioni N.

:E~ l Xi
X
N
esempio: applico la formula-> (Xl+ X2 + X3 + X4 + X5 + X6 )/N
ovvero (166 + 25 + 275 + 261 + 248 + 265)/6 = 206.67

- 3
1
2
Numero di post
{Facebook)
166

275
25

4 261
5 248

6 265
2· OPERATORI DI DISPERSIONE
I valori media, mediana, mode sono valori tanto rappresentativi di una distribuzione quanto le osservazioni
sono ad essi prossimi.
Gli operatori di dispersione consentono una quantificazione del grado di rappresentatività di un
particolare operatore di tendenza centrale.
Gli operatori di dispersione producono un valore scalare con cui si valuta la variabilità (diversità) esistente
nei dati osservati.
La dispersione assume nomi differenti a seconda del livello di scala di misura della variabile:
• Variabili categoriali -+ Eterogeneità (o all'inverso, di omogeneità)
• Variabili nominali -+ Mutabilità Variabili ordinali -+ Variabilità non metrica
• Variabili cardinali -+ Variabilità metrica

Per ciascun tipo di variabile è possibile distinguere tra:


• Operatori di dispersione assoluti:
Operatori che restituiscono valori dipendenti dall'unità di misura (variabili cardinali) o dal numero di
modalità (variabili categoriali)
• Operatori di dispersione relativi:
Operatori che restituiscono valori che variano all'interno di un intervallo prestabilito,
indipendentemente dall'unità di misura o numero di categorie della variabile

Variabilità metrica (variabili cardinali)


• Intervalli di variazione
° Campo di variazione (W), o range: differenza tra valori minimo e massimo osservati (ad es., età
minima: 11; età massima= 19; W = 8)
0 Differenza interquartile (W'): differenza tra terzo e primo quartile (Q3 - Ql, ad esempio terzo
quartile= 9; primo quartile= 7; W' = 2)
0 Semidifferenza interquartile (W"): differenza tra terzo e primo quartile (Q3 - Ql )/2, ad esempio
W" = W'/2 = 1)
• Scarti da un valore centrale
0 Scostamento semplice medio: media aritmetica degli scarti assoluti dalla media (MISURA
ASSOLUTA)

S . - E~ l lxi - xl non può essere negativo.


me - N
0 Deviazione (o devianza): somma degli scarti dalla media elevati al quadrato (misura assoluta)

dev-iazione == Ef (X i - m) 2
0 Varianza : media degli scarti dalla media elevati al quadrato (MISURA ASSOLUTA)
N .· --:- 2
E i= l ( X i - .a:-)
82 ==
lV
Nella popolazione utilizziamo il simbolo a2
0 Scarto quadratico medio, o deviazione standard: radice quadrata della varianza (misura assoluta)

Il valore minimo che può assumere la deviazione


standard è zero.

Nella popolazione utilizziamo il simbolo a


DISTRIBUZIONE NORMALE: MEDIA E DEVIAZIONE STANDARD

"µ "'=mean

2.15%

µ-3C1 µ-2o µ-o µ µ o µ +2<1 µ+30


68.2%
95.4%
_________9.9.7%

mu: è la media
° Coefficiente di variazione: rapporto tra deviazione standard e media aritmetica (misura relativa)

. I Ef- (a:i-x) 2

s
V
1

Ov= N
X

Standardizzazione di una variabile cardinale


Trasformazione di una variabile cardinale in una variabile con media= O e S = 1
Si tratta di una trasformazione lineare (o affine). Non cambia la distribuzione della variabile.

La procedura di standardizzazione trasforma il valore osservato x in punteggio z:

(ZxS)+x media= Xi
JJ'

1. Primo passo della procedura consiste nella «centratura» del valore x rispetto alla media
2. La variabile di scarto così ottenuta è divisa per la deviazione standard s
3. li valore ottenuto è detto punteggio z

Z=+0.166667

-3 -2 -1 o 1 2 3

Il punteggio Z informa sulla posizione del singolo caso rispetto alla


media, ed ha come unita di misura la deviazione standard calcolata
sulla variabile.
Valori negativi e positivi indicano rispettivamente posizioni
inferiori e superiori alla media del campione.
I punti Z hanno media pari a O, e deviazione standard pari a 1.

La standardizzazione cambia l'unità di misura, ma non la forma della distribuzione!

ALTRI OPERATORI DI DISPERSIONE:


Mutabilità del Gini
• Operatore di dispersione assoluto
• Misura eterogeneità vs. omogeneità in scale categoriali
• Varia tra Oe (K-1)/K
• Valori crescenti indicano maggiore eterogeneità

E1 = 1 - EZ=l f;.
-> Se l'eterogeneità è minima, abbiamo la massima omogeneità! Tutti i casi sono concentrati in un'unica
classe/categoria.
-> Se l'eterogeneità è massima! I casi si distribuiscono in modo equivalente nelle diverse categorie.

E' possibile esprime l'indice di mutabilità del Gin i (E) anche come misura relativa (e). Per ottenere la misura
relativa, divido la statistica per il massimo valore ottenibile data una variabile con k categorie. La misura
Proprietà della media aritmetica:
La somma degli scarti dei valori xi dalla media è pari a O

La somma dei quadrati degli scarti dei valori xi dalla media è minima

Lf=i (x1 - a) 2 = valore minimo sea =x

MEDIA ARITMETICA PER DATI RAGGRUPPATI IN CLASSE:


Utile in caso di dati raggruppati per classi.
La somma dei valori osservati xk per ogni classe moltiplicato per il numero di casi nella classe nk, diviso
per il numero totale di osservazioni N.

K
Li k=l nk Xk
X
N
ESEMPIO:

anni frequenza
assoluta

11 128
12 158
13 94
14 72
15 3
N 455

(nlXl + n2X2 + n3X3 + n4X4 + n5X5 )/N owero (128*11 + 158*12 + 94*13 + 72*14 + 3*15)/455 = 12.26

Moda, media, e mediana a confronto


Capacità informativa: moda< mediana< media
Robustezza (bassa sensibilità agli outliers): media< mediana< moda

Outliers: osservazioni estreme o anomale,


che si discostano sensibilmente dagli altri
valori della distribuzione
ESEMPIO (Modello Big Five)
quello delle emozioni

Davide Marengo, davide.marengo@unito.it 145

Potrebbero piacerti anche