Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Fenomeni collettivi
Questi fenomeni collettivi si dividono in semplici o complessi La cui conoscenza la diamo attraverso
diverse caratteristiche che si inclinano verso lo stesso fenomeno o caso.
Semplice
Ad es. la statura si misura un dato unico.
Complessi
Sono complessi perché andare a chiedere informazioni multivariate di tanti casi singoli ad esempio
quello delle famiglie italiane per sapere il consumo alimentare significherebbe di Andare a
chiedere cosa e quanto spendono per spesa, ecc.
Nel 2009 Hal Varian (chief economista di google) ha fatto molto interventi e afferma che lo
statistico sarà uno dei lavori più richiesti poiché processare ed estrarre informazioni dei dati, nel
saperle visualizzare e comunicarle sarà necessario a rendere abile a prendere decisioni strategiche,
fondate e ragionate, producendo informazioni oggettive sulle basi delle quali queste scelte
porteranno l’azienda a raggiungere importanti obbiettivi.
Cit trilussa sulla statistica – i due polli
Metodologia Statistica
il carattere statistico è una delle caratteristiche attraverso si declina un fenomeno semplice (1) o
fenomeno complesso (+1). Devo andare ad osservare questa caratteristica sull’unità statistica
(elemento animato o inanimato – organizzazione o struttura ecc )
la popolazione statistica è l’insieme delle caratteristiche simili al fenomeno che io voglio studiare.
Es.
consumo non alimentare delle famiglie italiane:
Le unità statistiche sono le famiglie single o con + componenti.
Ogni famiglia + un’unità
L’insieme delle famiglie mono componenti o con + componenti italiane (nazionalità) costituiscono
la popolazione di rifermento della popolazione che io voglio studiare.
Quella delle famiglie francesi, per esempio, non fa parte della popolazione statistica che io voglio
studiare. Quindi non fanno parte dello studio del fenomeno di mio interesse.
LA POPOLAIZONE
Ha delle liste che possono essere
Finite -> l’azienda è l’entità e se iscritta alla camera di commercio è un dato
Infinite -> quando si aggiunge sempre un’unità – es una fabbrica che produce marmitte è continuo
quindi se si fa un controllo di qualità – al momento di fare una lista, è continua. Si aggiunge
sempre un’unità – entrano sempre nuove unità statistiche
Indefinita -> è quella nella quale io posso fare una lista omogenea dell’unità statistica ma questa
lista non sarà mai completa. Ci sarà sempre un’unità statistica di cui io non verrò mai a
conoscenza. È indefinita perché c’è una serie di persone che potremmo non conoscere
Ad Es. una patologia uno studio su una patologia.
Io posso prendere una lista di quelli verificati. Ma quelli che non risultano? Quella parte di malati
possono non saperlo o non dichiararlo. Quindi io non lo saprò mai.
Es. vado ad osservare il carattere statistico sulla spesa per l’istruzione universitaria su una
manifestazione statistica.
Carattere statistico X (grande) che vado ad osservare su U (unità es famiglia pinco) x piccola è la
modalità del Carattere X GRANDE.
Es di sovrapposta:
compilare un’indagine statistica di una palestra: ciascuna domanda compone una domanda di
carattere di un’indagine statistica.
Es l’età – x
Fasce
18 -20
21-24
22-28
29-30
Campioni: estraggo un certo numero di unità statistiche (una porzione) in riferimento alle
informazioni raccolte.
E ci sono 3 fasi:
piano di rilevazione – mettere i paletti – le fondamenta per la raccolta dei dati
raccolta dei dati
e poi si classificano e poi si spogliano ( si selezionano)
Es prima fase
I dati statistici noi li abbiamo nella 3° fase in forma tabellare (excel) ed è il prodotto delle prime 2
delle 3 fasi.
Sapendo il fenomeno che si vuole studiare si può capire le unità statistiche che mi può dare la
conoscenza della popolazione e definire le caratteristiche dove si può poi studiare il fenomeno.
DEVO DEFINIRE TUTTE LE CARATTERISTICHE CHE MI POSSONO FAR CAPIRE IL FENOMENO PER POI
INDIVIDUARE LE UNITA’ statistiche per arrivare a capire e definire la popolazione di riferimento.
Indiretto – una volta che ho individuato le caratteristiche del fenomeno – vado a trovare
I dati che mi interessano
E Procedo per
Censimento: Raccolgo i dati di ogni unità osservando tutti i dati della popolazione (+ lungo e +
costoso)
O
Procedo per un Campione: Raccolgo ed estraggo i dati solo su una parte (quindi il risultato è più
ridotto o parziale) x rilevare i dati su quella popolazione ma se è troppo parziale come si fa ad
avere una conoscenza del fenomeno? Quindi ovviamente il risultato di un meno del 10% non mi
daranno informazioni complessive.
Per scelta di metodo di rilevazione per censimento e per campione – serve una
LISTA:
completa
esatta
e aggiornata! (sempre perché lo studio dei dati devono essere giusti per una ricerca rilevante)
Oppure in modo indiretto:
Andare ad una laurea di laureandi di indirizzi specifici sul fenomeno che mi interessa studiare e
Chiedere i dati ai laureati (espletando le due fasi di raccolta e di classificazione)
Prendendo solo i dati interessati e ordinarli.
Quindi servono Dati AFFIDABILI per poi fare uno studio sui dati che possa essere rilevante.
Poi bisognava Raccogliere i dati e inserire i dati a mano in un Excel – leggendo questionario per
questionario…
Per questo il metodo di rilevazione censuaria è molto difficile che si usi oggi per uno studio su una
popolazione
Mentre le indagini campionarie:
I campioni
Con reinserimento:
Se si estrae la stessa unità? (se per una ricerca qualitativa può essere utile – quantitativa
ovviamente no).
L’istat che estrae campioni – ha un software che tira fuori numeri casuali – ovviamente non fa
l’estrazione.
Un’esempio è La tavola dei numeri casuali: dal 1900 (che si usano anche per es per l’estrazione del
superenalotto) sono casuali… non probabilistici.
K= pass di campionamento
K 1500 diviso 100
Stratificato:
Le unità si dividono in gruppi es – devo fare un’indagine sulle matricole – lista matricole aggiornata
e sulla base di genere, fuorisede o residenza ecc (insomma altre informazioni)
Procedo ad estrarre un campione semplice
Es studenti 500
40 unità maschi in sede / maschi fuori sede
40 unità femmine in sede / femmine fuori sede
Campioni (femmine) e sotto campioni (in sede o fuori sede)
prende la popolazione e la suddivide in strati e se estrae 2 a caso ed escono es maschi fuori sede e
femmine in sede l’ISTAT ha fatto una stratifica a 2 stadi. Perché creerà 80 unità unità (40+40)
A grappoli:
15 – 17 anni indagine: non ho una lista? Privacy e minorenni, come faccio? Potrei avere la lista
delle famiglie residenti a Roma. E le famiglie in questi casi rappresentano i grappoli.
Seleziono le famiglie e contattando si chiedono: la sua famiglia è composta da figli sotto i 18 anni?
Si- entrano nel campione di unità statistiche (come grappoli)
CAMPIONE SISTEMATICO
Campioni non probabilistici
Puoi conoscere la persona per la ricerca (per raccogliere i dati) l’importante è che rientri nei 2/3
per la ricerca dati.
Es Genoveffa è femmina deve rientrare in quei 2/3.
Siamo in una situazione in cui dobbiamo mettere in piedi un’indagine e quale fenomeno studiare e
andare ad osservare.
Quante unità statistiche devo selezionare? Tenere conto del margine di errore!
Prima cosa:
Scontare i problemi di costo – ogni intervista mi costa 1Euro? Ho a disposizione 50euro? Posso
fare 50 interviste.
Devo fare 78 interviste? O abbasso il costo delle interviste o trovo qualcuno che mi abbassa il
costo dell’intervista.
Trovo la tavola dei numeri casuali e definisco la lista degli studenti partecipanti e da remoto
Devo tirare fuori 5 unità statistiche
(il range sara da 1 a 118 che è il tot degli studenti del corso di questo anno)
Unità per caratteri (matrice dei dati) L’unità individua gli elementi delle righe mentre per carattere
individua gli elementi per colonna
Questa matrice dei dati, Posso leggerla in due modi:
Per riga – US 1 – sto caratterizzando anzi descrivendo la US (unità statistica 1) –
Per colonna – prendo la colonna B (leggo le modalità con le quali le caratteristiche dell’unità
statistica si forma.
(si incrociano le informazioni)
Numeri (rappresentati da numeri che sono diversi dal numero es data di nascita dal numero di
corso)
Numeri ordinali (tipo numeri romani o anno di nascita) o cardinali (rappresentano una quantità)
Uguali o diverse – le due unità statistiche rispetto a quella mutabile può essere o uguale o diversa.
Tipo la laurea è maggiore di un diploma quindi posso dire che il 2 è maggiore > di 1
O che 1 è un carattere Uguale (=) o Non uguale al numero 2 o 3…
Caratteri quantitativi:
Discreti (senza virgola)
Continui (numeri reali che possono avere la virgola)
In basa ad una scala: scala rapporti o scala intervalli
Lo 0 è un numero di convenzione (ma attenzione) es sulla temperatura
Lo 0 fratelli è 0
Informazione più ricca
Mutabili sconnesse –
Mutabile ordinale – info + ricca (sull’ordinamento di modalità) uguale o diverso ma posso
aggiungere operazioni in piu (se dico che è diversa? Ok allora posso dire Chi viene prima e chi
viene dopo)
Scala intervalli – posso osservare es uno ha 1 fratello e l’altro 4? La differenza? 3 fratelli in – o +
Scala di rapporti - posso fare tutte le operazioni e in + fare 2 rapporti e quant’è il rapporto lo 0 è
assoluto non è una convenzione)
(posso farlo anche con la scala intervalli ma il risultato non è lo stesso perché lo 0 è una
convenzione)
Carattere qualitativo ordinale: anno di corso
Carattere qualitativo sconnesso: tipo di diploma
Oppure con una lista da 0 a 10? Scale likert! – ma nn entriamo nel dettaglio
Qualitativo ordinale (è una scala ecc) –
Quantitativo discreto a scala di intervalli
– sarà un carattere 0 convenzionale scala di intervallo o scala rapporti
NUMERO DI DIPENDENTI 0 è ASSOLUTO
NUMERO DI FRATELLI
Vediamo qui:
Parentesi tonda e quadra
Ti dicono l’estremo vicino a quella parentesi se è accanto a quella quadra è inclusa in quella classe
Se è vicina a quella tonda non è inclusa in quella classe!
Classi esaustive e non sovrapposte 10 sta nella parentesi quadra quindi è incluso in quella classe
Non c’è una regola – quante classi faccio? 3 o ne 10 scelgo io ma se è chiusa poi il continuo dovrà
essere aperta.. E l’ampiezza (quello in rosso)!
Creo una nuova colonna sostituendo l’attributo al valore del reddito analizzando quel carattere
Colonna U1 + U2 + U3 ecc
Sintetizzo suddividendo in 5/6 classi – soprattutto quando il numero di modalità sono molto
diverse.
I METADATI SONO FONDAMENTALI (MICRO E METADATI PER INTERPRETARE COSA HO NELLA MIA
TABELLA DI RICERCA) E COSA SONO? SONO: COM’è STATA FATTA LA RILEVAZIONE? COME SONO
STATI MISURATI? CHE SERVONO PER INTERPRETARE I DATI CHE HO Già
DOMANDE ALL’ESAME!!!!!!!!!!
INDICARE QUALI E QUANTI SONO LE UNITA’ STATISTICHE + I CARATTERI STATISTICI SONO 3
SONO 7 QUALI SONO? LO LEGGO DAL METADATA SOPRA = LAUREATI ECC INTERVISTATI 7 ED E’ UN
CAMPIONE.
I CARATTERI STATISTICI SONO 3: CORSO DI LAUREA + CONCLUSIONDE DEL CORSO DI STUDIO +
VOTO DI LAUREA.
CHE PUNTO DI VISTA VOGLIO CAMBIARE? LE UNITA’ statistiche dei laureati a quelli dei corsi di
laurea:
Ho 3 modalità che si presenta il corso di laurea: economia – comunicazione ed ingegneria
Carattere qualitativo dicotomico - in corso e fuori corso che mi genera una variabile sulla matrice
macro
In sintesi
Capire se l’unità statistica è di rilevazione o di analisi.
Analisi dei dati lezione ottobre 6
Abbiamo visto la Distribuzioni di alcuni dati.
Ora vediamo la Rilevazione dei dati statistici – è una matrice dati micro. E ora faremo l’analisi dei
dati. 26 unità statistiche (righe) x 14 dati statistici (colonne)
Come lo faccio? Con un carattere per volta selezionando una colonna per volta e sintetizzare.
Matrice dei dati è chiamata anche distribuzione unitaria Multipla (Unitaria = perché è linea della
matrice che da le info specifiche su ogni singola unità statistica specifica) e MULTIPLA perché per
ogni unità ho più caratteri statistici osservati su quella unità e quindi multipla) – 2 termini che si
contrappongono ma qui si uniscono.
Colonna 1: carattere sesso (M – F)
Colonna 2 : FA (frequenza assoluta)
Per le frequenze assolute corrispondenti alla modalità femmina F – e alla modalita Machio M
Solo numeri naturali (senza virgola “,”)
Quante volte si ripete la modalità femmina? Contarle: tot 17 e si inserisce sotto “FA”
Ripeto l’operazione per la modalità maschio = tot 9
Totale unità statistiche: 26 passando a due righe Sesso dei laureati e della FA (frequenza
assoluta)
Sintetizzetizzato l’informazione
Ma quale pezzetto ho perso? (quelli in arancione) ma a me non interessa chi è chi ma quanti
sono. Quindi è un’informazione PUNTUALE che io posso perdere.
Potendo gestire meglio come si manifesta questo fenomeno.
Es di prima con f o m e FA
Trasformiamo in simboli questa tabella sopra
QUINDI:
NUMERI DISCRETI (FREQUENZE n1) unità statistiche CHE CORRISPONDE ALLA MODALITà(x1)
quindi:
n1 a x1
Esempio:
il nostro voto di laurea è x1 – con il valore 66 (voto di laurea) ecc
fare la distribuzione di frequenza (grafico a +)
numero di unità statistiche n1 es. 66 (il voto di laurea va da 111-66 - il diverso ≠ K è 12 il tot dei
voti presenti)
Calcolare le frequenze assolute (n1) con accanto quanti sono! Il totale n1 di x1 (tradotto: quanti
voti 96 ci sono? E via per gli altri… n2 di x2 ecc
Facciamo il totale:
ESCAMOTAGE
LA DISTRIBUZIONE UNITARIA NON AVRA MAI IL TOTALE (NON è DISTRIBUZIONE UNITARIA) IL
TOTALE è SOLO PER DISTRIBUZIONE DI FREQUENZA!!!!!!!!!!
Attenzione
Perché una distribuzione unitaria ha le regioni come unità statistica
Con la % di occupati laureati e quelli con il reddito medio
Non può essere una distribuzione di frequenza (attenzione anche alle colonne e alle percentuali)
Quindi vediamo meglio
Frequenze relative e frequenze percentuali (FR e FP) aggiungendo alle altre due colonne (Genere
e FA)
Lezione ottobre 11
Ripasso:
Es
200 studenti di comunicazione
30 Studenti di ingegneria
Hai 7 volte tanto di studenti femmine di comunicazione)
Ma osservando la presenza (la percentuale) delle femmine, sono identiche sia per comunicazione
(distribuzione del carattere) se mi fermo a fare il confronto: la metà degli studenti femmine sono
sia per cominicazione (la metà di 200) e la metà di inglegneria (la metà di 30)
Carattere
Quei due dati mancanti
Guardare sotto
N2 (è la somma di 1 e 2?)
Per prendere la N3 lo sommo direttamente con N2
Es. per avere N4 = sommo n3 (già sommatto) + n4
Sempre uguale e si va avanti così
INTRODUCIAMO UN NUOVO SIMBOLO (DELLA SOMMA)
SOMMA I NUMERI 3 - 5- 1- 9 E 15
Serve per fare una considerazione sulle modalità (dando dei livelli) es il 50% dei miei studenti del
2021 ha preso un voto non più alto di 22.
Il 50% degli studenti del primo appello ha preso un voto fino a 28.
Questo calcolo delle frequenze serve per dare delle considerazioni sulle modalità ma dando dei
livelli.
La sommatoria Da h3 a 5 (si legge così dal basso all’alto del simbolo della sommatoria per capire
come sommare: