Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 1 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 2
Studio del rapporto dei sessi alla nascita. Come sintetizzare grandi masse di dati? Come estrarre da un
Fenomeno apparentemente casuale ma insieme apparentemente caotico di dati le informazioni davvero
interessanti, quelle utili a prendere decisioni?
Graunt (1662) osserva, studiando i registri parrocchiali di Londra,
che esiste un rapporto costante: Con quali motivazioni posso estendere risultati che provengono
105 maschi ogni 100 femmine. dall’analisi di un gruppo relativamente piccolo all’analisi del
collettivo molto più grande da cui gli elementi che ho osservato sono
Varie interpretazioni: Sussmilch (1741) magnifica la provvidenza,
stati estratti? O a collettivi in qualche modo analoghi lontani nel
Darwin l’assestamento perfetto del meccanismo evoluzionistico.
tempo e nello spazio?
I demografi lo utilizzano per valutare l’attendibilità del sistema di
registrazione delle nascite Queste due domande corrispondono ai due grandi capitoli della
Recentemente, ha permesso di individuare il fallimento statistica: statistica descrittiva (sintesi) e inferenza statistica
dell’attuazione del controllo demografico in Cina. (induzione)
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 3 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 4
Informazioni, nuove conoscenze, decisioni Le fonti dei dati
Censimenti: rilevazioni esaustive di un insieme di caratteri su tutte
Volontà di aumentare la conoscenza di un fenomeno o
le unità di una popolazione (es. Censimento decennale della
necessità di prendere decisioni
Popolazione Italiana)
Indagini campionarie: per ragioni di costo, o di rapidità, si rilevano
Raccolta di informazioni / Rilevazione
dei dati i caratteri su un sottoinsieme delle unità che compongono la
popolazione di riferimento (campione)
Fonti amministrative: tutti gli insiemi di dati che vengono raccolti
Dati
non per lo studio di determinati fenomeni ma per altri motivi (es.
bilanci fiscali, DRG ospedalieri)
Sintesi / Inferenza database di alto livello: sono ottenuti aggregando fonti eterogenee a
volte già oggetto di sintesi (es. tavole sinottiche negli Atlanti)
Nuove conoscenze / Supporto alle
decisioni
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 5 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 6
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 7 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 8
Popolazione (1) Rilevazioni totali e parziali
In statistica “popolazione” ha un’accezione tecnica: possiamo infatti
avere popolazioni di elettori, di industrie, di automobili, di animali, Spesso, invece di studiare tutte le unità statistiche della popolazione
di istanti temporali successivi, di possibili risultati sperimentali. (censimento), si procede a rilevare i caratteri oggetto di studio su un
E’ comunque fondamentale distinguere tra: suo sottoinsieme (campione). I vantaggi delle indagini a campione
sono i seguenti
• popolazioni reali (finite): sono formate da un numero finito di nelle popolazioni finite:
individui che è possibile identificare (cittadini italiani, auto • si riducono i costi
immatricolate in Italia ad una certa data, aziende del settore • si riducono i tempi di elaborazione dei dati
tessile, ecc…); • si riducono gli errori di rilevazione dei caratteri
• popolazioni concettuali (infinite): si tratta di popolazioni che nelle popolazioni infinite:
non esistono in modo concreto. Sono composte da un numero • l’analisi di un campione è l’unico strumento investigativo di cui
indefinito di elementi (pezzi che una macchina può produrre, possiamo disporre (la popolazione esiste solo come entità
membri di una certa specie, l'insieme dei risultati prodotti dalla astratta)
sperimentazione di un farmaco, ecc..).
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 9 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 10
Gli elementi della popolazione sono in genere denominati unità Attraverso una rilevazione statistica otteniamo una matrice di dati,
statistiche ossia una tabella di n righe e p colonne.
Variabile (carattere) è il fenomeno oggetto di studio rilevato o Ogni riga rappresenta un’unità statistica
misurato sulle unità statistiche
In corrispondenza di ogni unità statistica leggiamo i valori delle
I valori distinti assunti da una variabile sono detti modalità variabili che vi abbiamo misurato.
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 11 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 12
Esempio 1 (matrice di dati) Esempio 2 (tabella paesi UE, 2001)
Unità Sesso Età Reddito Statura Colore Occhi Titolo di studio Anno di Paese Popola- Super- Anno di Temperatura Forma di Confessione Rate di Spese
(milioni) (cm) nascita zione ficie ingresso media gennaio Governo Prevalente S&P R&S
1 Maschio 22 0.7 173 nero Diploma 1980 nell'UE (capitale)
2 Femmina 18 0.2 168 marrone licenza media 1984
Austria 7,712 84 1995 1.8 Repubblica cattolica AAA 1.8
3 Femmina 34 1.6 165 marrone Laurea 1968
Belgio 9,950 30 1957 3.5 Monarchia cattolica AA+ 1.6
4 Maschio 42 2.5 180 nero Laurea 1960
5 Femmina 50 3.2 163 azzurro Diploma 1952 Danimarca 5,140 43 1973 1.7 Monarchia protestante AAA 2.1
6 Femmina 12 0.1 160 giallo licenza elementare 1990 Finlandia 4,986 338 1995 -2.2 Repubblica protestante AA+ 2.9
7 Maschio 46 4.4 177 marrone licenza media 1956 Francia 56,600 543 1957 5 Repubblica cattolica AAA 2.2
8 Maschio 72 1.3 164 verde licenza elementare 1930
Germania 79,479 357 1957 1.8 repubblica protestante AAA 2.3
9 Femmina 27 1.2 158 azzurro licenza media 1975
Grecia 10,123 131 1981 11.7 repubblica ortodossa A 0.5
10 Femmina 48 1.7 170 nero Diploma 1954
11 Femmina 35 1.9 167 giallo Diploma 1967 Irlanda 3,503 70 1973 3.8 repubblica cattolica AA+ 1.5
12 Maschio 84 0.8 159 marrone licenza elementare 1918 Italia 56,800 301 1957 9.7 repubblica cattolica AA 1.1
13 Femmina 21 0.4 174 azzurro Diploma 1981 Lussemb.o 381 3 1957 1.9 monarchia cattolica AAA 2
14 Femmina 44 1.8 164 verde licenza media 1958
Paesi Bassi 14,833 42 1957 3.1 monarchia protestante AAA 2
15 Maschio 56 1.9 177 nero Diploma 1946
Portogallo 10,251 91 1986 12.5 repubblica cattolica AA 0.6
16 Femmina 58 3.2 172 nero Laurea 1944
17 Femmina 37 2.1 166 marrone Diploma 1965 Regno Unito 55,487 244 1973 3.7 monarchia protestante AAA 1.8
18 Femmina 16 0.1 160 giallo licenza media 1986 Spagna 36,950 489 1986 6.5 monarchia cattolica AA+ 0.9
19 Maschio 73 1.6 170 azzurro licenza elementare 1929 Svezia 8,559 450 1995 -1.2 monarchia protestante AAA 3.8
20 Maschio 64 2.2 184 verde licenza media 1938
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 13 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 14
Tipi di Carattere
Caratteri quantitativi: le modalità sono dei numeri. Due possibili
classificazioni:
Discreti
continui: le modalità sono espresse da numeri reali
Quantitativi
discreti:le modalità sono esprimibili da numeri interi o da un
Continui
loro sottoinsieme
scala a intervalli: l’origine della scala è arbitraria
scala a intervalli scala a rapporti scala a rapporti: l’origine della scala non è arbitraria
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 15 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 16
Un po’ di notazione Tipologia dei caratteri (continua)
Anche i caratteri qualititativi possono essere codificati in modo
In genere si indica con una lettera latina maiuscola una variabile, ad “numerico”:
es. X
e con x 1 , x 2 ,..., x i ,... rispettivamente le modalità assunte da X sulla es: SESSO:
maschio= 0
prima, sulla seconda, … e sulla i-esima unità statistica femmina= 1
Quando le variabili sono più di una, esse possono essere denotate Questa codifica è estremamente utile per le operazioni di conteggio,
come X,Y, …W soprattutto se a farle è un computer.
oppure con una sola lettera alla quale viene aggiunto un pedice COLORE OCCHI:
numerico per distinguere le diverse variabili X 1 , X 2 ..., X p nero= 0
In quest’ultimo caso x 2,3 indica ad esempio la modalità assunta dalla marrone= 1
azzurro= 2
variabile X 3 .sulla seconda unità statistica. giallo= 3
verde= 4
La codifica numerica non è in questo caso utile per i conteggi.
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 17 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 18
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 19 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 20
L’operatore sommatoria: L’operatore sommatoria: (continua)
L’operatore sommatoria è un simbolo compatto per indicare la Le proprietà dell’operatore sommatoria sono semplicemente quelle
somma di più termini. dell’addizione
n
∑ ax i = ax 1 + ax 2 + ax 3 + ... + ax i + ... + ax n =
Indichiamo con x 1 , x 2 , x 3 ,..., x i ,..., x n i termini che dobbiamo sommare i =1
1) n
(semplicemente li abbiamo etichettati con il posto che occupano nella
a ( x 1 + x 2 + x 3 + ... + x i + ... + x n ) = a ∑ x i
successione degli addendi) i =1
k n
n ∑x + ∑ x
i i = ( x 1 + ... + x k ) + ( x k +1 + ... + x n ) =
∑x i = x 1 + x 2 + x 3 + ... + x i + ... + x n 2)
i =1 i =k +1
n
i =1
= ( x 1 + ... + x k + x k +1 + ... + x n ) = ∑ x i
i =1
n n n
3) ∑( x i + yi ) = ∑ x i + ∑ yi
i =1 i =1 i =1
Unità 1 - Corso di Statistica (FAI) – C. Trivisano 21 Unità 1 - Corso di Statistica (FAI) – C. Trivisano 22