Sei sulla pagina 1di 4

Fondamenti di Psicometria – Riassunto

Capitolo 2 – La raccolta dei dati e la loro rappresentazione tabulare e grafi ca

Proiezioni alla fine della votazione per le elezioni: sono proiezioni, quindi previsioni, e si parla di forbice di percentuali (un
intervallo di valori all’interno del quale, con una certa probabilità, dovrebbe cadere la percentuale di voto effettiva). Le
proiezioni sono il risultato di una serie di calcoli statistici che vengono eseguiti su dati raccolti su un campione di elettori.,
fermati all’uscita dal seggio.

Il problema di chi fa il sondaggio è riuscire ad ottenere un gruppo di elettori che abbia votato allo stesso modo dell’insieme
di tutti gli altri elettori. Nel gergo della statistica, è necessario trovare un campione che sia rappresentativo della
popolazione.

Campione rappresentativo della popolazione = quando ne riflette in modo adeguato le caratteristiche.

Quando si conduce una ricerca, lo scopo fondamentale è scoprire qualcosa della popolazione, ossia l’intero gruppo di
persone che può essere interessato dai risultati dello studio.

Nel caso di un test psicologico, il punteggio che un individuo ottiene, di per sé, ha scarso significato: lo acquista solo nel
momento in cui viene confrontato con quello della popolazione. Non si può mai somministrare il test a tutta la popolazione,
quindi bisogna riferirsi al campione normativo (se questo campione non è rappresentativo della popolazione,
l’interpretazione del punteggio al test del singolo è meno oggettiva).

Se il campione è rappresentativo della popolazione, quello che viene osservato in esso è generalizzabile.

Generalizzabilità = grado in cui i risultati di uno studio eseguito su un campione possono essere estesi alla popolazione.

Popolazione / universo = insieme di unità di analisi simili tra loro per una o più caratteristiche che rappresentano l’oggetto di
indagine. Non sempre si fa riferimento alla cosiddetta popolazione generale.

Popolazione finita = costituita da un numero finito di elementi, che può variare da molto limitato (es. affetti da sindromi
rare) a molto grande (es. popolazione della Cina).

Popolazione infinita = come tutti i lanci effettuabili da un dado.

Variabili = caratteristiche distintive di una popolazione, possono essere misurabili su vari livelli di scala (qualitativa, ordinale,
metrica).

Campione = quella parte di popolazione sulla quale le variabili di interesse nella popolazione vengono di fatto misurate.
Rappresentativo = quando la distribuzione delle osservazioni eseguite su di esso corrisponde a quella effettivamente
riscontrabile nella popolazione.

Campionamento = procedura di individuazione degli elementi che costituiscono il campione.

 Esempio degli exit-poll: la popolazione in esame è una popolazione finita, costituita da elettori che hanno votato.
Campione = persone che vengono intervistate. Il campionamento “uno a cinque” è il metodo di selezione utilizzato.

Statistica = misura di una variabile nel campione; e le statistiche servono per fare previsioni circa i parametri, ossia le
corrispondenti misure della variabile nella popolazione.

Statistiche indicate con le lettere dell’alfabeto latino, i parametri con le lettere dell’alfabeto greco.

Obiettivo di un’indagine su un campione = stima dei parametri incogniti nella popolazione a partire da quelli rilevati nel
campione. Le tecniche di stima sono basate su indici, detti stimatori, ottenuti dai dati raccolti sul campione. Uno stimatore
può essere corretto, se il suo valore medio corrisponde al valore del parametro della popolazione, oppure distorto, se si
discosta da quello della popolazione.

+ Le principali tecniche di campionamento (Approfondimento 2.1)

La raccolta dei dati può avvenire in modi differenti in base agli scopi della ricerca e alla natura delle variabili da misurare.
Potremmo somministrare fisicamente test psicologici e schede socio-demografiche oppure realizzare questa stessa
operazione mediante un’indagine online.
Per poter procedere con l’analisi dei dati è necessario costruire un database = una raccolta di dati organizzata ad hoc. Deve
contenere tutti i dati raccolti e fondamentali per la ricerca, è una sorta di griglia costituita da righe e colonne.

Righe = informazioni relative al singolo soggetto.

Colonne = informazioni relative alle variabili.

I dati possono essere inseriti manualmente oppure direttamente dal software se è prevista la raccolta mediante indagine
online, oppure acquisiti mediante lettore ottico o scanner.

Prima colonna = codice assegnato ad una particolare unità di analisi. La protezione dell’anonimato è tanto più importante
quanto più delicate sono le informazioni contenute nel database. Una tecnica efficace è fare generare al soggetto una
stringa alfanumerica.

+ APPROFONDIMENTO 2.2

LE TABELLE A ENTRATA SINGOLA

Tabelle o grafici servono per rappresentare in modo molto più efficace ed economico lunghi elenchi di informazioni. Il modo
ottimale di riassumere in un grafico o in una tabella i dati relativi a una variabile dipende dalla scala di misura della variabile
stessa.

Variabile nominale o ordinale  dobbiamo contare quante volte compare una determinata categoria di una variabile. Il
risultato di questa operazione è la frequenza.

 Frequenza = il numero di volte che una certa categoria o un certo valore di una variabile viene osservato.

Quando calcoliamo le frequenze per ogni categoria o valore della variabile di interesse, l’insieme di queste informazioni
viene detto distribuzione di frequenza.

TABELLA A ENTRATA SINGOLA = composta da righe e colonne dove verranno disposte le categorie o i valori della variabile e
le corrispondenti frequenze.

STATO CIVILE FREQUENZA


Celibe/nubile 96
Coniugato/a 16
Convivente 10
Divorziato/a 6
Separato/a 6
Vedovo/a 5
TOTALE 139  somma frequenze

Nel caso di variabili nominali, l’ordine delle categorie all’interno della tabella è fondamentalmente irrilevante, perché
l’informazione a livello nominale è solo in termini uguale / diverso. Nell’esempio, i dati sono ordinati in base alla frequenza,
Invece, se avessimo avuto a che fare con una variabile ordinale come il titolo di studio, l’ordine delle categorie non sarebbe
stato irrilevante per una facile lettura.

In genere si preferisce rispettare l’ordine intrinseco delle categorie.

Possiamo anche andare a contare quante volte compare un valore relativo a una variabile metrica, ossia misurata su scala a
intervalli (come il punteggio a un test psicologico) o a rapporti (come l’età). PROBLEMA = le diverse manifestazioni della
variabile sono molto più numerose.

 In questi casi si ricorre al raggruppamento in classi (o intervalli) e alla rappresentazione della distribuzione di frequenze
in classi. CLASSE = intervallo di valori, delimitato dal limite inferiore e dal limite superiore.

Quando si ha una distribuzione di valori, bisogna prendere una decisione o sul numero di classi o sull’ampiezza delle classi.

ES: Punteggi a un test di abilità di rotazione mentale degli oggetti:

33 34 37 39 39 43 44 44 48 48 49 52 54 54 55 55 56 57 58 61 62 62 63 63 63 63 63 65 65 65 66 68 69 70 72 75 77 77 80 88
Valore minimo 33 Valore massimo = 88  Campo di variazione (gamma / range) = 88 – 33 = 55  differenza tra
valore min e valore max

In questo caso, potrebbe essere utile lavorare sul numero delle classi. In altri casi, come per esempio quello dell’età, si tende
a lavorare sull’ampiezza delle classi. Possiamo decidere di raggruppare i dati in 4 classi. Per sapere quanto deve essere
ampia una classe, dobbiamo dividere il campi di variazione per il numero delle classi.

Campo di variazione : 4 = 55 : 4 = 13,75  14  la caratteristica fondamentale delle classi è che devono essere sì
mutuamente escludentisi (se un valore cade in una classe, o categoria, non può cadere in nessun’altra) ma anche
collettivamente esaustive (ogni valore deve trovare posto in una delle classi). Quindi approssimiamo a 14 e non a 13. (si
approssima per eccesso).

Per comprendere meglio la procedura è importante distinguere tra limiti tabulati e limiti reali.

Classe Limiti tabulati Limiti reali


1 33-46 34,5 – 46,5
2 47-60 46,5 – 60,5
3 61-74 60,5 – 74,5
4 75-88 74,5 – 88,5

Il limite reale inferiore della classe è 0,5 punti minore del limite tabulato inferiore, mentre il limite reale superiore è 0,5 punti
maggiore del limite tabulato superiore. Il limite reale inferiore è mezza unità di misura minore del limite tabulato inferiore e
così via.

 I limiti reali inferiori sono compresi nella classe.


 I limiti reali superiori non sono compresi nella classe.

AMPIEZZA DI CLASSE = è uguale alla differenza fra il limite reale superiore e il limite reale inferiore.

Per ogni classe possiamo anche individuare il punto medio, che è rappresentato dalla semisomma del limite superiore e
limite inferiore (indipendentemente dal fatto che ci stiamo riferendo o a quelli tabulati o a quelli reali). ESEMPIO: Nel caso
dell’intervallo 33-46 il punto medio è (33-46)/2 = 39,5.

FREQUENZA DI CLASSE = quanti valori cadono in ognuna delle classi che abbiamo realizzato.

FREQUENZA RELATIVA = si ottiene dividendo la frequenza grezza per il numero totale di osservazioni. (CFR Tabella 2.4 pag
61).

Frequenza percentuale (o percentuale) = moltiplicando per 100 la frequenza relativa o proporzione.

 Se ci chiedessimo quanti studenti hanno superato l’esame di Psicometria con un punteggio uguale o inferiore a 25? Per
ottenere questa informazione occorre sommare la frequenza di classe alle frequenze delle classi che la precedono,
ottenendo così la frequenza cumulata. Se eseguiamo lo stesso procedimento con le proporzioni e le percentuali,
otteniamo le proporzioni cumulate e le percentuali cumulate. (Tabella 2.5, pag 62)
 Il vantaggio di calcolare le frequenze cumulate non è solo questo, ma è anche quello di fornire un’informazione circa “la
posizione in classifica” di un certo valore. Le frequenze cumulate possono essere utili anche per attribuire un rango
alle osservazioni.
 Il calcolo delle frequenze cumulate ha senso solo se la variabile è misurata almeno a livello ordinale.

LE TABELLE A ENTRATA MULTIPLA

Nelle tabelle a entrata multipla vengono sintetizzate le informazioni provenienti da due o più variabili. I dati contenuti nella
tabella sono frequenze e indicano quante osservazioni presentano una particolare combinazione delle modalità delle
variabili che stiamo considerando.

Supponiamo di voler rappresentare le informazioni fornite non solo dalla classe di punteggio al test, ma anche dal genere.

Costruiamo una tabella (o tavola) a doppia entrata (o tabella di contingenza).

Tabella composta da righe e colonne. Righe = categorie della variabile che consideriamo indipendente (CAUSA). Colonne =
categorie della variabile che consideriamo dipendente (EFFETTO).
ES: Tavola di contingenza genere X classe di punteggio (tabella 2 X 4  righe X colonne).

 La cella contiene la frequenza congiunta, il numero di osservazioni che soddisfano entrambe le condizioni.
 Insieme delle frequenze congiunte = distribuzione di frequenza congiunta.

Potrebbero piacerti anche