Statistica: scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le
informazioni al fine di prevenire a una o più conclusioni. Fornisce risposte a specifiche
domande di ricerca. Variabili qualitative o categoriche: consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità. Variabili quantitative: forniscono una caratteristica numerica delle unità statistiche. Modalità o dati: singole caratteristiche delle variabili (qualitative e quantitative). Variabile discreta: variabile quantitativa le cui modalità assumono un numero finito o un’infinità numerabile di valori. Variabile continua: variabile quantitativa le cui modalità assumono un numero infinito di possibili valori che non sono numerabili. Variabile rilevata su scala nominale: le sue modalità sono nomi, etichette o categorie, fra le quali non è possibile istituire alcun tipo di ordinamento. Variabile rilevata su scala ordinale: presenta le proprietà della scala nominale e fra le modalità è possibile istituire uno specifico ordine. Variabile rilevata su scala a intervalli: gode delle stesse proprietà della scala ordinale e le differenze delle sue modalità hanno significato. Un valore pasi a zero nella scala di misurazione a intervalli non significa assenza di quantità. Le operazioni aritmetiche come l’addizione o la sottrazione possono essere effettuate sulle modalità della variabile. Variabile misurata su scala di rapporti: ha le stesse proprietà della scala a intervalli e i rapporti dei suoi valori significativi hanno un significato logico. Un valore pari a zero nella scala di rapporti significa assenza della quantità. Operazioni aritmetiche come la moltiplicazione e la divisione possono essere effettuate sulle modalità della variabile. Studio osservazionale: misura il valore della variabile risposta senza cercare di influenzare il risultato dello studio. Esperimento progettato: il ricercatore assegna gli individui partecipanti allo studio a un certo gruppo, cambia intenzionalmente il valore di una variabile esplicativa e poi registra il valore della variabile risposta per ogni gruppo. Confusione: si verifica quando gli effetti di due o più variabili esplicative in uno studio non sono separati. Pertanto, qualsiasi relazione che possa esistere tra una variabile esplicativa e la sua variabile risposta può essere dovuta a qualche altra variabile o variabili non considerate nello studio. Variabile nascosta: variabile esplicativa che non è stata considerata in uno studio ma che influenza il valore della variabile risposta nello studio. Variabile confondente: variabile che influenza sia le variabili dipendenti che quelle indipendenti creando associazioni spurie, cioè relazioni che non appartengono a uno schema causa-effetto. Campionamento casuale: processo che utilizza il caso per selezionare gli individui da una popolazione da includere in un campione. Campione non probabilistico o di convenienza: campione nel quale gli individui inclusi nell’indagine sono selezionati in maniera non casuale. Campione casuale semplice: campione di grandezza n ottenuto attraverso il campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione di grandezza n ha una medesima probabilità di essere selezionato. Campione stratificato: campione ottenuto separando la popolazione in gruppo non sovrapposti chiamati strati e ottenendo in seguito un campione casuale semplice da ogni strato. Gli individui all’interno di ogni strato dovrebbero essere omogenei rispetto a certe caratteristiche. Campione sistematico: campione ottenuto selezionando ogni k-esimo individuo dalla popolazione. Il primo individuo selezionato corrisponde a un numero casuale compreso tra 1 e k. Campione a grappolo: campione ottenuto selezionando tutti gli individui all’interno di un gruppo (cluster) individuato casualmente. Errore: se i risultati di un campione non sono rappresentativi della popolazione. Errore di campionamento: le tecniche usate per selezionare gli individui da includere nel campione tendono a favorire una parte della popolazione piuttosto che un’altra. Ogni campione non probabilistico ha l’errore di campionamento. Sottocopertura: si verifica quando la proporzione di un segmento della popolazione è più bassa nel campione che nella popolazione. Errore legato ai non rispondenti: si presenta quando gli individui appartenenti al campione che non hanno risposto all’indagine hanno opinioni differenti da coloro che invece vi partecipano. Non rispondenti: individui inclusi nel campione che non desiderano rispondere all’indagine o che l’intervistatore non riesce a contattare. Errore legato ai rispondenti: si presenta quando le risposte sull’indagine non riflettono i veri sentimenti degli intervistati. Errori non legati al campionamento: derivano da risposte mancanti, risposte errate o inserimento non corretto dei dati. Errore di campionamento: deriva dall’utilizzo di un campione per la stima di informazioni riguardanti una determinata popolazione che fornisce informazioni incomplete relative alla popolazione. Distribuzione di frequenze assolute: elenca tutte le tipologie di modalità riportando, per ciascuna di esse, il corrispondente numero di occorrenze osservate. Frequenza relativa: proporzione (o percentuale) di osservazioni appartenenti a una determinata categoria rispetto al totale delle osservazioni. Grafico a barre verticali od orizzontali: costruito indicando ciascuna modalità sull’asse orizzontale o verticale e la corrispondente frequenza assoluta o relativa sull’altro asse. Per ciascuna modalità si disegna un rettangolo con altezza pasi alla frequenza assoluta o relativa della categoria stessa e con ampiezza costante per tutte le basse del grafico. Grafico a torta: presenta le frequenze relative di un carattere qualitativo, nominale od ordinale. Istogramma per dati discreti: si costruisce disegnando un rettangolo per ciascuna classe di dati. L’altezza di ciascun rettangolo rappresenta la frequenza assoluta o relativa della corrispondente classe di dati, mentre l’ampiezza è uguale per tutte le modalità ed è tale che tutti i rettangoli si tocchino fra loro. Limite inferiore di classe: il più piccolo valore contenuto nella classe. Limite superiore di classe: il valore più elevato contenuto nella classe. Ampiezza di classe: differenza tra il limite inferiore della classe e il limite inferiore della classe successiva. Tabella aperta: tabella in cui non viene fissato il limite inferiore della prima classe o il limite superiore dell’ultima classe. Grafico a punti: si ottiene indicando su una retta orizzontale le osservazioni del carattere quantitativo in ordine crescente e ponendo un puntino sopra di esse ogni volta che nei dati si riscontra una frequenza assoluta. Grafico di una serie storica: si ottiene indicando sull’asse orizzontale il tempo in cui la variabile è misurata e sull’asse verticale il corrispondente valore della variabile, rilevato a quella data. Poi si uniscono i punti tramite segmenti rettilinei. Media aritmetica di una variabile: si calcola sommando tutti i valori della variabile e dividendo per il numero di osservazioni. Mediana di una variabile: valore che occupa la posizione centrale di una distribuzione ordinata in senso crescente. Misura di sintesi di una distribuzione robusta: non risulta particolarmente sensibile ai valori estremi (molto grandi o molto piccoli). Moda di una variabile: osservazione che si presenta, all’interno della distribuzione, con la frequenza più alta. Dispersione: grado di variabilità dei dati. Intervallo di variazione o range di una distribuzione: differenza tra l’intensità (valore) più grande e l’intensità più piccola. Varianza della popolazione di una variabile: somma delle deviazioni al quadrato dalla media della popolazione diviso per il numero di osservazioni nella popolazione. Deviazione standard di una popolazione: si ottiene ponendo sotto radice quadrata la varianza della popolazione. Deviazione standard di un campione: si ottiene ponendo sotto radice quadrata la varianza del campione. Media pesata di una variabile: si trova moltiplicando ciascun valore della variabile per il corrispondente peso, sommando questi prodotti e dividendo il risultato per la somma dei pesi. z-score: distanza di ciascun valore dalla media, in unità di deviazione standard. Si ottiene sottraendo la media del valore della variabile e dividendo questo risultato per la deviazione standard. k-esimo percentile di una distribuzione: valore tale per cui k per cento delle osservazioni cadono al di sotto di o sono uguali a esso. Quartili: percentili che dividono una distribuzione in quarti. Intervallo interquartile: intervallo che contiene il 50% delle osservazioni centrali. È la differenza tra il terzo e il primo quartile. Variabile risposta o dipendente: variabile i cui valori possono essere spiegati attraverso i valori della variabile esplicativa o indipendente. Diagramma a dispersione: grafico che mostra la relazione tra due variabili quantitative misurate sul medesimo individuo. Variabili linearmente dipendenti concordanti: ai valori superiori alla media di una variabile corrispondono valori superiori alla media dell’altra variabile oppure ai valori inferiori alla media di una variabile corrispondono valori sotto la media dell’altra variabile. Aumentando (o diminuendo) i valori di una variabile, aumentano (o diminuiscono) anche i valori dell’altra. Variabili linearmente dipendenti discordanti: ai valori superiori alla media di una variabile corrispondono valori sotto la media dell’altra variabile oppure ai valori inferiori alla media di una variabile corrispondono valori sopra la media dell’altra variabile. Aumentando (o diminuendo) il valore di una variabile, diminuisce (o aumenta) il valore dell’altra. Coefficiente di correlazione lineare o coefficiente di correlazione di prodotto- momento di Pearson: misura dell’intensità e della direzione della relazione lineare esistente tra due variabili quantitative. Retta ai minimi quadrati: retta che minimizza la somma degli errori o residui al quadrato. Coefficiente di determinazione: misura della proporzione di variabilità totale della variabile risposta spiegata dalla retta ai minimi quadrati. Devianza totale: distanza tra il valore generico osservato della variabile risposta e la media del valore della variabile risposta. Devianza residua: distanza tra il valore generico osservato della variabile risposta e il valore generico previsto della variabile risposta. Devianza spiegata: distanza tra il valore generico previsto della variabile risposta e la media del valore della variabile risposta. Distribuzione marginale di una variabile: distribuzione di frequenza o distribuzione di frequenza relativa della variabile di riga o colonna nella tabella delle contingenze. Distribuzione condizionata: distribuzione che elenca la frequenza relativa di ogni modalità della variabile risposta. Probabilità: misura della possibilità che un fenomeno casuale o un comportamento plausibile possa verificarsi; descrive l’incertezza nel breve periodo di un risultato che nel lungo periodo è certo; proporzione di lungo periodo con la quale uno specifico risultato è osservabile. Legge dei grandi numeri: all’aumentare del numero di ripetizioni di un esperimento probabilistico, la proporzione con la quale uno specifico risultato si osserva tende a essere sempre più vicina alla probabilità di ottenere lo specifico risultato. Esperimento: qualsiasi processo dai risultati incerti che può essere ripetuto. Spazio campionario di un esperimento probabilistico: insieme di tutti i possibili risultati. Evento: insieme di risultati derivanti da un esperimento probabilistico. Evento semplice: evento con un unico risultato. Modello probabilistico: elenca tutti i possibili risultati di un esperimento probabilistico e la probabilità associata a ognuno di essi. Evento impossibile: evento la cui probabilità che accada è pari a zero. Evento certo: evento la cui probabilità che accada è pari a uno. Evento raro: evento che ha una probabilità di accadimento bassa. Probabilità di un evento: circa il numero di volte che l’evento è stato osservato rapportato al numero di ripetizioni dell’esperimento. Esperimento dai risultati equiprobabili: ogni possibile risultato ha la stessa probabilità di verificarsi. Eventi disgiunti o mutuamente esclusivi: eventi che non hanno possibili risultati in comune. Evento complementare di un altro evento: tutti i risultati nello spazio campionario che non appartengono a quell’evento. Eventi indipendenti: eventi tali per cui la probabilità che l’uno accada non influenza la probabilità di accadimento dell’altro evento. Eventi dipendenti: eventi tali per cui la probabilità che l’uno accada influenza la probabilità di accadimento dell’altro evento. Variabile casuale: misura numerica dell’esito di un esperimento casuale. Variabile casuale discreta: assume un numero finito e numerabile di valori. Variabile casuale continua: assume un numero infinito di valori. Distribuzione di probabilità di una variabile casuale discreta: tabella, grafico o formula matematica che fornisce i possibili valori assunti dalla variabile casuale e le corrispondenti probabilità. Istogramma di probabilità: istogramma nel quale l’asse orizzontale corrisponde ai valori della variabile casuale e l’asse verticale rappresenta la probabilità associata a ogni valore della variabile. Valore atteso: media di una variabile casuale in un esperimento ripetuto più volte. Funzione di densità di probabilità: equazione utilizzata per calcolare le probabilità per variabili casuali continue. Variabile casuale continua normalmente distribuita: l’istogramma della frequenza relativa della variabile casuale ha la forma della curva normale. Punti di flesso: punti sulla curva normale in cui vi è un cambio di curvatura. Modello: equazione, tabella, grafico in grado di descrivere la realtà. Distribuzione campionaria di una statistica: distribuzione di probabilità associata a tutti i possibili valori della statistica calcolati per un campione. Distribuzione della media campionaria: distribuzione di probabilità associata a tutti i possibili valori della variabile casuale calcolati in corrispondenza di un campione estratto da una popolazione. Teorema del limite centrale: indipendentemente dalla forma della distribuzione, la distribuzione campionaria di una variabile casuale si approssima alla normale al crescere della numerosità campionaria. Stima puntuale: valore di una statistica che fornisce il valore di un parametro. Intervallo di confidenza: proporzione prevista di intervalli che contengono un parametro. Margine d’errore: misura dell’accuratezza di una stima puntuale. Dipende da: il livello di confidenza; l’ampiezza campionaria; la deviazione standard della popolazione. Ipotesi: affermazione che riguarda una caratteristica di una o più popolazioni. Verifica di ipotesi: procedura, basata sui dati campionari e sulla probabilità, che si utilizza per testare delle affermazioni riferite a una caratteristica di una o più popolazioni. Ipotesi nulla: affermazione che vogliamo testare. Ipotesi alternativa: affermazione che cerchiamo di sostenere attraverso una prova campionaria. Sistema di ipotesi: ipotesi nulla e ipotesi alternativa congiunte. Errore di I tipo: errore che si commette se si rifiuta l’ipotesi nulla quando questa è vera. Errore di II tipo: errore che si commette se si accetta l’ipotesi nulla quando l’ipotesi alternativa è vera. Livello di significatività: probabilità di commettere un errore del I tipo. Statistica test: distanza della media campionaria dalla media assunta, espressa in numero di deviazioni standard. Valore critico: numero massimo di deviazioni standard. Regione critica o regione di rifiuto: insieme dei valori per cui si rifiuta l’ipotesi nulla. p-value: probabilità di osservare una statistica test con un valore pari o più estremo a quello osservato sotto l’assunzione che l’ipotesi nulla sia vera; verosimiglianza o probabilità di estrarre un campione, la cui media campionaria corrisponda a quella ottenuta nell’analisi, nel caso di ipotesi nulla vera. Test per la bontà di adattamento: metodo inferenziale impiegato per determinare se una distribuzione di frequenza segue una specifica distribuzione.