Sei sulla pagina 1di 37

Statistica (corso L-Z)

Docenti del Corso


Prof. Pasquale Sarnacchiaro
sarnacch@unina.it
Orario di Ricevimento: Mercoledi ore 11

Dott. Guido Rodia


rodia@unina.it

CORSO DISPONIBILE SU MICROSOFT TEAMS


Codice Corso jlegu0w
Programma (1/2)
Il corso è organizzato in 6 Unità Didattiche
UNITA’ DIDATTICA N°1 - Indagine statistica e rappresentazioni tabellare e
grafiche
Cos’è la statistica, tipi di statistica (descrittiva e inferenziale). Fasi dell’indagine
statistica. La rilevazione Statistica. Caratteri Statistici. Scale di Misura.
Distribuzioni statistiche. Tabelle semplici e a doppia entrata. Rappresentazioni
Grafiche per Variabili qualitative. Ortogramma e Diagramma Circolare.
Rappresentazioni Grafiche per variabili quantitative. Istogramma e Ramo-foglia.
UNITA’ DIDATTICA N°2 – Indici di Sintesi
Le medie. Parametri di posizione, di variabilità e forma. Considerazioni generali e
classificazione delle media. Media Aritmetica, Media Armonica. Media
geometrica. Scelta della Media. Medie di Posizione.
La variabilità. Indici di Variabilità Assoluta. Indici di Variabilità Relativa. Indici di
Mutabilità per un carattere qualitativo. Studio di Concentrazione. Indici di forma.
Asimmetria e Curtosi.
UNITA’ DIDATTICA N°3 – Statistica Bivariata
Relazioni statistiche. Connessione e indici di Connessione. Il rapporto di
correlazione. Correlazione e regressione. Grado di Adattamento. Analisi
dell’interdipendenza
2
Programma (2/2)

UNITA’ DIDATTICA N°4 – Calcolo delle Probabilità e Campionamento


Basi di calcolo delle probabilità; teorema di Bayes; variabili casuali e
distribuzioni di probabilità; campionamento e distribuzioni campionarie;

UNITA’ DIDATTICA N°5 – Inferenza Statistica


Teoria della Stima. Stima puntuale e intervallare; proprietà degli stimatori.
Verifica delle ipotesi; test su uno e su due campioni; test per medie, varianze e
proporzioni; test di indipendenza, analisi della varianza.

UNITA’ DIDATTICA N°6 – Il modello di regressione lineare semplice


Relazione funzionale e relazione statistica tra due variabili. Specificazione del
modello. Stima puntuale e intervallare dei coefficienti di regressione.
Decomposizione della varianza totale e il coefficiente di determinazione.
Proprietà degli stimatori. Inferenza sui parametri. Test F

3
Informazioni Generali
Libro di testo:

D’Ambra L., Spedaliere S. - Statistica descrittiva –


Applicazioni con Excel , Rocco Curto Editore

D’Ambra – Inferenza Statistica - Rocco Curto Editore

Libri di testo alternativi:

4
Esame
La prova d’esame sarà articolata in tre prove, come descritte di seguito:

1. Test scritto a risposta multipla composto da 40 domande ciascuna con 4


modalità di risposta di cui una corretta. Le domande riguarderanno l’intero
programma del corso. La prova sarà fatta il giorno dell’esame come previsto nel
calendario degli appelli pubblicati. (Tempo della prova 25 minuti)
2. Test scritto composto da tre esercizi simili, anche se con un grado di complessità
leggermente superiore, a quelli illustrati nelle lezioni e contenuti all'interno delle
esercitazioni didattiche sviluppate durante il corso. La prova sarà fatta il giorno
dell’esame come previsto nel calendario degli appelli pubblicati. (Tempo della prova
60 minuti)
3. Prova Video. Entro il 15 dicembre 2023 comparirà sul TEAM del Corso e sulla
pagina del Docente un elenco di argomenti. Da tale lista il docente estrarrà
casualmente un argomento che sarà assegnato allo studente che dovrà presentare
su tale argomento un mini video di 3 minuti. Per la realizzazione di tale video lo
studente potrà avvalersi di una presentazione con power point o programma
equivalente.

5
Orario del Corso
Martedì 13 – 15 (DAD)
Mercoledì 8.30 - 10.30
Venerdì 15 - 17

6
Parlando di Statistica

La Statistica è una disciplina scientifica che trae i sui


risultati dalla raccolta, dall’elaborazione e dall’analisi dei dati
sperimentali e osservazionali.

La STATISTICA
• trova la sua motivazione nella VARIABILITA’
• mira ad individuare elementi di REGOLARITA’ nel verificarsi
degli eventi

Permette di condensare le informazioni disperse in un


numero più o meno grande di osservazioni che possono
riguardare sia il mondo naturale sia quello sociale.

7
Dalla Statistiche alle branche
Statistica Descrittiva: descrive il fenomeno sulla base dei risultati contenuti nel
campione. Non si vuole estendere i risultati a tutta una popolazione. Pertanto serve a
conoscere e rappresentare in maniera sintetica l’andamento delle variabili in una
popolazione. La statistica descrittiva opera sulla popolazione o sul campione e
consente di organizzare e sintetizzare i dati. Gli strumenti della statistica descrittiva
sono: metodi grafici, misure di sintesi, indici. (Univariata, Bivariata, Multivariata)

Statistica Inferenziale: cerca di estendere i risultati ottenuti sul campione all’intera


popolazione. Per poter estendere i risultati occorre che il campione sia scelto con
criterio (casuale). Quindi serve prendere delle decisioni su un gran numero di dati
esaminando soltanto una piccola parte di essi. La statistica induttiva consente di
prevenire, attraverso l’inferenza statistica, ad una conclusione su una popolazione su
una base dell’informazione contenuta in un campione che è stato estratto da quella
popolazione. Gli strumenti della statistica inferenziale: stimatori, intervalli di
confidenza, verifiche di ipotesi.

Probabilità: tecniche connesse al trattamento della casualità e alla descrizione dei


modelli teorici (Il nesso tra la Statistica Descrittiva e la Statistica Inferenziale è
rappresentato dalla Teoria del Calcolo delle Probabilità)
8
Le fasi della Ricerca
La Statistica descrittiva è quella parte della statistica che si occupa
della raccolta, rappresentazione ed elaborazione dei dati al fine di
analizzare da un punto di vista quantitativo le caratteristiche dei
fenomeni collettivi oggetto di studio.

1a FASE 2a FASE 3a FASE 4a FASE 5a FASE


PIANO DELLA RILEVAZIONE DEI SPOGLIO E ELABORAZIONE DEI INTERPRETAZIONE
RILEVAZIONE DATI CLASSIFICAZIONE DATI DEI DATI
DEI DATI
Definizione del Si fissa il piano per Tabelle, grafici, Analisi dei dati È la fase più
problema da la raccolta dei dati disegni (medie, indici, importante in cui si
analizzare, correlazioni…) effettua un’analisi
oggetto e scopo sui risultati ottenuti
e si formula un
giudizio su di essi

Nelle prossime lezioni


Fasi della Ricerca – Piano della Rilevazione

E’ la risultante di 3 operazioni interdipendenti:

I. definizione del fenomeno;


II. individuazione del collettivo;
III. scelta delle caratteristiche del collettivo da
esaminare.

Inoltre, durante tale fase si stabilisce il piano di codifica (che


ha per oggetto la trasformazione dei dati grezzi in dati che
possono esser trattati statisticamente), il personale da
impiegare, il piano organizzativo e tutti gli strumenti
necessari oltre che i costi e i tempi necessari alla ricerca
Fasi della Ricerca – Rilevazione dei dati

Rilevazione materiale dei dati secondo le modalità definite nella prima fase.

Per rilevazione statistica si intende quell’insieme di operazioni concettuali e


pratiche atte alla produzione di dati.
L’individuazione del dato statistico, dunque, è preceduta dall’operazione nella
quale si opera una cernita tra le caratteristiche utili e quelle inutili all’indagine
in questione.
Nel caso in cui le informazioni ottenute non fossero esaurienti, è necessario
consultare fonti statistiche per reperire i dati occorrenti.

Bisogna, quindi, puntualizzare il dato che si intende elaborare…


…l’Unità Statistica

11
Fasi della Ricerca – Rilevazione dei dati

Le Unità Statistiche sono gli elementi sui quali viene effettuata la rilevazione e
misurazione:
1) Unità Semplici: persone singole, il lancio di una moneta, il prezzo di un libro;
2) Unità Composte: aggregati di unità semplici simili come le famiglie, le aziende, la
scolaresca;
3) Unità Multiple: costituite da unità semplici diverse ma legate tra loro da un
vincolo come ad esempio accade tra marito e moglie o altezza e peso.

Un insieme di unità statistiche omogenee rispetto ad uno o più caratteri


costituiscono un Collettivo Statistico o una Popolazione. Essa può essere:
1) Finita: è determinabile il numero delle unità che la formano;
2) Finita Non Numerabile: il numero delle unità che la formano è talmente
grande da non poter effettuare la numerazione;
3) Infinita: la successione delle unità non ha fine.
Caratteristiche di una Ricerca – Tipo di Indagine

INDAGINE
Completa Parziale
Censimento della popolazione Analisi di un CAMPIONE, il più
rappresentativo della popolazione

Il Campione di dimensione n, Viene estratto mediante un metodo di


estrazione che segue regole ben precise.
Le più comuni sono:
1) Con Ripetizione: dopo ogni estrazione la pallina (l’unità) è reinserita
nell’urna;
2) Senza Ripetizione: dopo ogni estrazione la pallina (l’unità) è eliminata.
Panoramica sulle tecniche di Campionamento Casuale

A) Campionamento Casuale Semplice: consiste in una estrazione, con o senza


ripetizione, delle unità del campione della popolazione in modo che ciascuna
unità del collettivo abbia la stessa probabilità di entrare a far parte del
campione.
B) Campionamento a Grappolo: è un campione causale semplice dove, invece di
estrarre singole unità se ne estraggono un insieme a “grappolo”.
C) Campionamento Stratificato: consiste nel suddividere la popolazione in gruppi
rispetto ad un carattere che deve essere fortemente correlato con quello
oggetto di indagine. Da ogni gruppo si estrae un campione con il metodo di
campionamento casuale semplice.
D) Campionamento Sistemico: dato un elenco degli appartenenti alla popolazione,
si estraggono una unità ogni t unità: t è detto passo del campionamento.
E) Campionamento A Due Stadi o a Più Stadi: consiste in una duplice operazione
di estrazione: prima si estraggono le unità primarie, poi da queste vengono
sorteggiate le unità che formano il campione finale. Il campionamento a più
stadi è una generalizzazione di quello a 2 stadi.
Le variabili statistiche

Unità Caratteri Modalità

Variabile Statistica: aspetto delle unità statistiche oggetto


di studio. Per ogni variabile bisogna distinguere i valori
che essa può assumere, ossia le Modalità.

• Variabili Quantitative: se le modalità misurabili o


numerabili. Possono essere Discreti o Continui,
• Variabili Qualitativi (dette anche Mutabili): se le modalità
sono espresse mediamente attributi o espressioni
verbali. Possono essere Sconnessi, Rettilinei o Ciclici;
Le variabili statistiche

Lezione 1 16
Il processo di Misurazione – Scale di Misura

SCALE DI MISURA CARATTERISTICHE


Scala nominale Variabile Le modalità non presentano un ordine naturale
sconnessa o logico;
Le operazioni consentite sono: a=b; a≠b.
Scala ordinale Variabile Le modalità presentano un ordinamento ma
rettilinea non una grandezza;
Variabile ciclica Le operazioni consentite sono: a<b, a>b, a=b.
Scala ad intervalli Variabile Le modalità costituisco un insieme numerico
statistica ordinato e sono definite a meno di una
trasformazione lineare y = α+βx con β>0;
Le operazioni consentite sono: + - ;
Lo zero è definito in modo arbitrario
Scala di rapporti Variabile Le modalità costituisco un insieme numerico
statistica ordinato e sono definite a meno di una
trasformazione di proporzionalità y = αx con
α>0;
Le operazioni consentite sono: + - : x ;
Lo zero è univocamente definito.
Dati Nominali
Misure caratterizzate da presenza/assenza di una certa caratteristica, ovvero che
possono assumere solo modalità qualitative non ordinabili.

- modalità senza un ordine naturale


- i dati possono essere raggruppati in categorie, eventualmente identificati con
simboli (1,2; classe 1, classe, 2 etc)
- gli individui attribuiti a classi diverse sono tra loro differenti; quelli della stessa
classe sono tra loro equivalenti rispetto alla proprietà utilizzata nella
classificazione
- l'attribuzione di numeri per identificare le varie categorie nominali (es.: i giocatori
di squadre) non autorizza ad elaborare quei numeri come tali
- quesiti statistici: frequenze degli individui per categoria, per confronti tra loro o
rispetto a valori attesi
- modalità mutuamente esclusive
• I dati nominali che possono assumere solo due valori distinti sono chiamati
DICOTOMICI
Es: sesso, stato civile, fumatore/non fumatore….
• I dati nominali che possono invece assumere più di 2 valori sono chiamati
POLITOMICI
Es: gruppo sanguigno, stagioni….
Dati Ordinali

Caratteri con modalità qualitative (categorie) con un proprio ordine naturale


(grado di ansietà, intensità di colore, scala di gravità di una ferita…)

- alla proprietà di equivalenza tra gli individui della stessa classe si


aggiunge quella di gradazione tra le classi

-impossibilità di valutare la distanza tra livelli (es.: tra insufficiente e


sufficiente c’è una distanza diversa che tra buono ed ottimo?)

- i valori numerici esprimono soltanto il grado di intensità, la differenza tra le


modalità non necessariamente deve essere costante passando da una categoria
all’altra

- modalità mutuamente esclusive


Dati Ordinali - Esempio
Dati Discreti

misure quantitative per le quali è possibile operare confronti, per differenza,


tra le modalità
- modalità mutuamente esclusive e con un ordine naturale
- i valori numerici possono essere confrontati tra loro e le differenze possono
essere manipolate numericamente
- possono assumere solo valori specifici

Es: numero di incidenti stradali in un giorno, il numero di parti di una donna, il


numero di nuovi casi di tubercolosi in 1 anno…
Dati Continui

caratteri quantitativi che possono assumere qualsiasi valore (altezza,


peso, età, reddito, temperatura in gradi etc…)

- modalità mutamente esclusive e con un ordine naturale


- non solo le differenze ma gli stessi valori possono essere moltiplicati o
divisi per quantità costanti senza che l'informazione ne risulti alterata
0 (zero) significa quantità nulla

Osservazione 1: Le misure continue risentono dell’accuratezza dello


strumento di misurazione, più questo è accurato più sono i dettagli che si
possono conoscere sui nostri dati
Osservazione 2: E’ possibile ridurre il dettaglio passando da una variabile
continua ad una discreta o ordinale, questo è possibile creando delle classi
di dati.
Rappresentazione tabellare - le Frequenze

Nella tabella sono riportate le modalità della variabile e le frequenze associate


a ciascuna modalità

Frequenza Assoluta
Numero delle volte in cui una determinata modalità è stata osservata ni

Frequenza Relativa
Rapporto tra la frequenza assoluta ed il totale delle frequenze
fi=ni/n 0≤fi≤1
k k k
ni 1 1
 f  n  n  n
i 1
i
i 1 i 1
i n 
n
1

Frequenze percentuali
fi=ni/n x 100
Frequenze Assolute cumulate Frequenze relative cumulate
C1=n1 F1=n1 /n
C2=n1+n2 F2=n1 /n + n2 /n
Ck=n1+n2+…+nk=n Fk=n1 /n + n2 /n +…+nk/n=1 23
Esempio -Variabile Qualitativa Nominale

Studenti immatricolati alle Facoltà dell’Università ABC A.A 2009/2010

Facoltà Immatricolati Frequenza rel %


FACOLTA' DI ECONOMIA 299 0,2362 23,62
FACOLTA' DI SCIENZE ECONOMICHE E AZIENDALI 337 0,2662 26,62
FACOLTA' DI INGEGNERIA 297 0,2346 23,46
FACOLTA' DI SCIENZE MATEMATICHE, FISICHE E NATURALI 333 0,2630 26,30
Totale 1.266 1 100

 Distribuzioni statistiche. Classificazione delle unità statistiche secondo le modalità di


uno (semplice) o più caratteri (multiple)
 Distribuzione per unità: Elencazione della modalità con la quale ciascun carattere si
presenta
 Distribuzione di frequenze: se esprime il numero di volte in cui una modalità di un
carattere si presenta.

24
Esempio -Variabile Qualitativa Ordinale
n: numero di soggetti in ciascuna categoria della variabile

i: modalità del carattere

Proporzione (Fr.relativa): ni/numero totale di soggetti

% = proporzione * 100

% CUMULATA
!!!!! % CUM: La
frequenza cumulativa è
14%
somma della frequenza
42% delle osservazioni
67% con valore della
81%
variabile inferiore od
uguale al valore
100%
considerato.
Esempio -Variabile Quantitativa discreta
Variabile
Età = X = xi modalità di X
Età : 21, 19, 20, 21, 19, 18, 22, 20, 23, 21, 18
Distribuzione per unità

18,18 19,19 20,20 21,21,21 22 23


x1 x2 x3 x4 x5 x6

su 11 individui, sono presenti 6 stati del carattere (modalità).

26
Esempio -Variabile Quantitativa discreta

Età Frequenza Età n/N % Età F. C.


X X X

18 2 18 2/11 18 18 2
19 2 19 2/11 18 19 4
20 2/11 18 20 6
20 2
21 3/11 27
21 3 21 9
22 1/11 9
22 1 22 10
23 1/11 9
23 1 23 11
1 100
Tot 11

27
Distribuzioni in classi
Se la variabile è quantitativa o presenta numerose modalità, si può ricorrere
alla
distribuzione in classi
Elementi fondamentali per la distribuzione in classi
 Estremi – Valore minimo e Valore Massimo della Classe
 Ampiezza della classe - Per ampiezza della classe si intende la differenza
tra l’estremo superiore e l’estremo inferiore della classe
 Densità di frequenza - Per densità di classe si intende il rapporto tra la
frequenza e l’ampiezza della classe
 Valore centrale - Il valore centrale della classe è la semisomma dei due
estremi

28
Distribuzioni in classi

29
Distribuzioni in classi
Esempio distribuzione in classi di reddito delle famiglie di 90 studenti
Classi di reddito Famiglie
0|-|30000 40
30000-|50000 30
50000-|80000 10
80000-|100000 10
Totale 90
Estremo inferiore escluso – Estremo superiore incluso (tranne per la prima classe)
Classi di diversa ampiezza

Per il calcolo del numero minimo di classi, si può utilizzare Sturges


10
S  1 log n
3
L’ampiezza della classe si può calcolare considerando il rapporto

w= (x max -x min )/S


30
Distribuzione doppia
• Quando su ciascuna unità si rilevano due caratteri si ha una distribuzione
doppia.
• Una distribuzione doppia può essere rappresentata:
– per unità;
– per modalità.
Distribuzione doppia per unità
Elencazione della modalità con la quale ciascun carattere si presenta
Individui Sesso Capelli
1 m Castani
2 m Castani
3 f biondi
4 m rossi
5 f neri
6 f castani
7 m castani
8 m biondi
9 f castani
10 m neri
11 m castani 31
Distribuzione doppia per modalità

32
Distribuzione doppia per modalità

33
Esercitazione 1 – Rappresentazioni Tabellari
In un gruppo di giovani tra i 25 e i 34 anni sono state rilevate le seguenti
variabili:
1) Diploma conseguito
2) Titolo di Studio
3) Altezza
I dati raccolti sono i seguenti

MS MC MS IT IT MS MC IP IP
IP MS MS MC IT MS IP IP IT

Media D LT LM LM LM LM LT LT
D D D D LM LM LT D Media

172 175 177 178 182 185 186 188 168


170 180 180 181 179 177 175 176 174

Si dica per ciascuna variabile la tipologia e il numero di modalità


Si effettui per ciascuna variabile una rappresentazione tabellare
34
IP Modalità Fass Frel Percentuale
IP IP 5 0,28 27,78%
IP IT 4 0,22 22,22%
IP MC 3 0,17 16,67%
IP MS 6 0,33 33,33%
IT 18 1 1
IT
IT
IT
MC
MC
MC
MS
MS
MS
MS
MS
MS

35
D
Modalità Fass Frel Percentuale
D
Media 2 0,11 11,11%
D
Diploma 6 0,33 33,33%
D
Laurea Triennale 6 0,33 33,33%
D
Laurea Magistrale 4 0,22 22,22%
D
18
LM
LM
LM
LM
LM
LM
LT
LT
LT
LT
Media
Media

36
168 Scelgo il numero di Classi 5 Radice 4,24
170 Ampiezza Classi 4 Sturges 4,30
172
174
175 CLASSI Fass Frel Fcum Fr-Cum

175 168 172 2 0,11 2 0,11

176 172 176 4 0,22 6 0,33

177 176 180 5 0,28 11 0,61

177 180 184 4 0,22 15 0,83

178 184 188 3 0,17 18 1,00

179
180
180
181
182
185
186
188

37

Potrebbero piacerti anche