Sei sulla pagina 1di 73

Analisi dei dati lezione 2

Fenomeni collettivi

Ho tanti elementi – ciascun elemento mi da un’informazione relativa al fenomeno di mio


interesse. (CASI SINGOLI)

Un altro modo di trovare informazioni:


in Un unico caso – osservo ripetitivamente lo stesso fenomeno – ciascuna di queste informazioni
sono relative ad un unico caso o fenomeno.

Questi fenomeni collettivi si dividono in semplici o complessi La cui conoscenza la diamo attraverso
diverse caratteristiche che si inclinano verso lo stesso fenomeno o caso.

Semplice
Ad es. la statura si misura un dato unico.
Complessi
Sono complessi perché andare a chiedere informazioni multivariate di tanti casi singoli ad esempio
quello delle famiglie italiane per sapere il consumo alimentare significherebbe di Andare a
chiedere cosa e quanto spendono per spesa, ecc.

l’analisi statistica consente di esplorare dati al fine di un Approccio esplorativo o di un approccio


confermativo.

Perché un approccio confermativo?


Si può formulare un’ipotesi ad esempio sulla statura della popolazione poiché ci si basa su una
scienza.
Si estrae un campione – si misura la statura (fenomeno collettivo)
(si accetta l’ipotesi con un 95% di probabilità accettando un margine di errore del 5%)

Nel 2009 Hal Varian (chief economista di google) ha fatto molto interventi e afferma che lo
statistico sarà uno dei lavori più richiesti poiché processare ed estrarre informazioni dei dati, nel
saperle visualizzare e comunicarle sarà necessario a rendere abile a prendere decisioni strategiche,
fondate e ragionate, producendo informazioni oggettive sulle basi delle quali queste scelte
porteranno l’azienda a raggiungere importanti obbiettivi.
Cit trilussa sulla statistica – i due polli

Metodologia Statistica

Noi faremo la statistica descrittiva


Andremmo a costruire degli indici

La statistica inferenziale (che non faremo) è:


Vado a trarre una conclusione da una porzione di dati es risultato di informazioni di 150.000
persone su 7 milioni
Estendo i dati ottenuti
Fenomeno collettivo
Estendere i risultati parziali
Il dato statistico si compone di 3 elementi:
la modalità di una caratteristica osservata su un’unità statistica.
Entrando nel dettaglio:

il carattere statistico è una delle caratteristiche attraverso si declina un fenomeno semplice (1) o
fenomeno complesso (+1). Devo andare ad osservare questa caratteristica sull’unità statistica
(elemento animato o inanimato – organizzazione o struttura ecc )
la popolazione statistica è l’insieme delle caratteristiche simili al fenomeno che io voglio studiare.

Es.
consumo non alimentare delle famiglie italiane:
Le unità statistiche sono le famiglie single o con + componenti.
Ogni famiglia + un’unità
L’insieme delle famiglie mono componenti o con + componenti italiane (nazionalità) costituiscono
la popolazione di rifermento della popolazione che io voglio studiare.

Quella delle famiglie francesi, per esempio, non fa parte della popolazione statistica che io voglio
studiare. Quindi non fanno parte dello studio del fenomeno di mio interesse.

LA POPOLAIZONE
Ha delle liste che possono essere
Finite -> l’azienda è l’entità e se iscritta alla camera di commercio è un dato
Infinite -> quando si aggiunge sempre un’unità – es una fabbrica che produce marmitte è continuo
quindi se si fa un controllo di qualità – al momento di fare una lista, è continua. Si aggiunge
sempre un’unità – entrano sempre nuove unità statistiche

Indefinita -> è quella nella quale io posso fare una lista omogenea dell’unità statistica ma questa
lista non sarà mai completa. Ci sarà sempre un’unità statistica di cui io non verrò mai a
conoscenza. È indefinita perché c’è una serie di persone che potremmo non conoscere
Ad Es. una patologia uno studio su una patologia.

Es. fare uno studio sui malati di covid in italia


Unità statistica è il malato di covid
Popolazione: l’italia

Io posso prendere una lista di quelli verificati. Ma quelli che non risultano? Quella parte di malati
possono non saperlo o non dichiararlo. Quindi io non lo saprò mai.

ENTRANDO NEL DETTAGLIO DELL’UNITà STATISTICA


Animata o inanimata
virtuale (evento)
ecc.

l’importante è riuscire ad osservare un fenomeno.

Una delle possibili domande ALL’ESAME:


È indicare quali e quanti sono le unità statistiche (guardando una tabella)
Cos’è un carattere
Cos’è una modalità
Inoltre, saper Indicare i caratteri statistici.

Sinonimi di Unità statistica: caso – individuo - oggetto – soggetto

CARATTERI STATISTICI nel quali si inclina il fenomeno

Es. vado ad osservare il carattere statistico sulla spesa per l’istruzione universitaria su una
manifestazione statistica.

Carattere statistico X (grande) che vado ad osservare su U (unità es famiglia pinco) x piccola è la
modalità del Carattere X GRANDE.

Dopo che ho Queste modalità posso fare una lista:


questa lista deve essere esaustiva delle modalità (cioè deve includere tutti i possibili modi che di
fatto posso osservare di quel carattere) e non sovrapposta (cioè un’unità statistica nel momento
che va a dare una risposta deve trovarsi in una sola risposta di quella modalità).

Es di sovrapposta:
compilare un’indagine statistica di una palestra: ciascuna domanda compone una domanda di
carattere di un’indagine statistica.

Es l’età – x
Fasce
18 -20
21-24
22-28
29-30

È esaustiva perché va da 18 ai 30 (perché bisogna essere maggiorenni) ma è sovrapposta


Producendo errori. Tot persone risponderanno a piu risposte introducendo errori e un sapere non
soddisfacente.

Analizzare – strutturare la rilevazione dei dati statistici.

La struttura dei dati


Collettivo statistico = la popolazione

ANALISI DEI DATI LZ.3


3 elementi chiave che compongono la struttura dei dati:
L’unità statistica: che può essere un’entità reale o virtuale

L’insieme delle unità statistiche= la popolazione


E di queste unità:
Andiamo ad osservare il carattere (X GRANDE)
Caratteristica che hanno in comune un’unità statistica: es studenti I°anno

Campioni: estraggo un certo numero di unità statistiche (una porzione) in riferimento alle
informazioni raccolte.

Come si fa a raccogliere i dati statistici? – Indagine statistica


Ha l’obiettivo di conoscere una popolazione intesa come unità statistica su cui si manifesta il
fenomeno da studiare.

E ci sono 3 fasi:
piano di rilevazione – mettere i paletti – le fondamenta per la raccolta dei dati
raccolta dei dati
e poi si classificano e poi si spogliano ( si selezionano)

Es prima fase

I dati statistici noi li abbiamo nella 3° fase in forma tabellare (excel) ed è il prodotto delle prime 2
delle 3 fasi.
Sapendo il fenomeno che si vuole studiare si può capire le unità statistiche che mi può dare la
conoscenza della popolazione e definire le caratteristiche dove si può poi studiare il fenomeno.

DEVO DEFINIRE TUTTE LE CARATTERISTICHE CHE MI POSSONO FAR CAPIRE IL FENOMENO PER POI
INDIVIDUARE LE UNITA’ statistiche per arrivare a capire e definire la popolazione di riferimento.

Come voglio ottenere questi dati statistici da analizzare?


Scelta di metodo di rilevazione: Ci sono 2 opzioni

Diretto - Io sto mettendo in piedi la ricerca direttamente – vado di persona a raccogliere le


informazioni

Indiretto – una volta che ho individuato le caratteristiche del fenomeno – vado a trovare
I dati che mi interessano

Es andare a chiedere la lista di tutti i laureati (mettere in piedi un questionario – contattarli –


organizzare informazioni – metodo di rilevazione diretta

E Procedo per
Censimento: Raccolgo i dati di ogni unità osservando tutti i dati della popolazione (+ lungo e +
costoso)
O
Procedo per un Campione: Raccolgo ed estraggo i dati solo su una parte (quindi il risultato è più
ridotto o parziale) x rilevare i dati su quella popolazione ma se è troppo parziale come si fa ad
avere una conoscenza del fenomeno? Quindi ovviamente il risultato di un meno del 10% non mi
daranno informazioni complessive.

Saranno accettabili se si segue il margine di errore (e si può correre il rischio)

Se si segue in campionamento – si dovrà seguire poi 3 tecniche:


CAPI - computer aided personal interviewing (intervista faccia a faccia) è + lungo – bassa la
percentuale delle cadute (cioè delle persone che si rifiutano a meno che il fenomeno che si sta
studiando sia delicato come per es le molestie sessuali ecc – le persone sono più propense a non
far vedersi di persona)
CATI - computer Aided telephon interviewing (intervista mediata per telefono) è + veloce
Ind. Postale –
E-mail…

Per scelta di metodo di rilevazione per censimento e per campione – serve una
LISTA:
completa
esatta
e aggiornata! (sempre perché lo studio dei dati devono essere giusti per una ricerca rilevante)
Oppure in modo indiretto:
Andare ad una laurea di laureandi di indirizzi specifici sul fenomeno che mi interessa studiare e
Chiedere i dati ai laureati (espletando le due fasi di raccolta e di classificazione)
Prendendo solo i dati interessati e ordinarli.

Quindi servono Dati AFFIDABILI per poi fare uno studio sui dati che possa essere rilevante.

Tornando alla rilevazione Censuaria (è difficile farla se la popolazione è immensa)


E poiché la popolazione è immensa – dopo il secondo dopoguerra Si è fatto Ogni 10 anni
Proprio perché l’indagine censuaria o totale si intende di tutte le unità che presentano le
caratteristiche si intendono studiare….

E ovviamente prima di internet era cartaceo!

Poi bisognava Raccogliere i dati e inserire i dati a mano in un Excel – leggendo questionario per
questionario…

Per questo il metodo di rilevazione censuaria è molto difficile che si usi oggi per uno studio su una
popolazione
Mentre le indagini campionarie:

Lo svantaggio è che non ha un’osservazione/conoscenza completa del fenomeno, ma la è per


parte – le informazioni che ottengo sono parziali – in probabilità

Ma ne vale la pena se ottengo un dato affidabile gestendo il margine di errore!


Come si estraggono i campioni?

Possono essere probabilistici (quantitativo) o non probabilistici (qualitativo)

I campioni

Casuale semplice: tutte le “N” unità della popolazione


Si assume che tutte le unità della popolazione possono entrare a far parte del campione e si
assicura che tutte abbiano la stessa probabilità.

Es fare una lista e assegnare a un’unità un numero ad una pallina


Es sono 1500 persone? metto 1500 palline con un numero (assegnate ad un nome)
Estraggo 100 palline – il numero corrisponde a un nome che faranno parte del campione
Ma assicuri che tutti i 1500 possano avere la possibilità di far parte del campione facendo parte poi
dell’estrazione.

Le unità dentro l’urna si riducono e le probabilità di estrazione cambia perché diminuiscono i


numeri (quelli estratti)
(senza reinserimento)

Con reinserimento:
Se si estrae la stessa unità? (se per una ricerca qualitativa può essere utile – quantitativa
ovviamente no).

L’istat che estrae campioni – ha un software che tira fuori numeri casuali – ovviamente non fa
l’estrazione.
Un’esempio è La tavola dei numeri casuali: dal 1900 (che si usano anche per es per l’estrazione del
superenalotto) sono casuali… non probabilistici.

Es Se mi servono 10 numeri da uno a 100, parto da questa tavola:


N:
1500 unità statistiche
N:
100

K= pass di campionamento
K 1500 diviso 100

Altri campioni probabilistici:

Stratificato:
Le unità si dividono in gruppi es – devo fare un’indagine sulle matricole – lista matricole aggiornata
e sulla base di genere, fuorisede o residenza ecc (insomma altre informazioni)
Procedo ad estrarre un campione semplice
Es studenti 500
40 unità maschi in sede / maschi fuori sede
40 unità femmine in sede / femmine fuori sede
Campioni (femmine) e sotto campioni (in sede o fuori sede)

L’istat es stratifica per residenza di comune.


Ma usa una stratifica “A stadi” riducendo i costi:

prende la popolazione e la suddivide in strati e se estrae 2 a caso ed escono es maschi fuori sede e
femmine in sede l’ISTAT ha fatto una stratifica a 2 stadi. Perché creerà 80 unità unità (40+40)

A grappoli:
15 – 17 anni indagine: non ho una lista? Privacy e minorenni, come faccio? Potrei avere la lista
delle famiglie residenti a Roma. E le famiglie in questi casi rappresentano i grappoli.

Seleziono le famiglie e contattando si chiedono: la sua famiglia è composta da figli sotto i 18 anni?
Si- entrano nel campione di unità statistiche (come grappoli)

E sono selezionati casualmente

CAMPIONE SISTEMATICO
Campioni non probabilistici

Non sono CASUALI.

Qual è il fenomeno che vuoi studiare?


Servono 2/3 di femmine per la ricerca?

Puoi conoscere la persona per la ricerca (per raccogliere i dati) l’importante è che rientri nei 2/3
per la ricerca dati.
Es Genoveffa è femmina deve rientrare in quei 2/3.

ANALISI DEI DATI LZ.4


Dato statistico cos’è e come arrivare ai dati statistici (diretto o indiretto – campionamento ecc
raccogliendo dei dati già fatti e che siano affidabili)
(ripasso prima di andare avanti)

Siamo in una situazione in cui dobbiamo mettere in piedi un’indagine e quale fenomeno studiare e
andare ad osservare.

Faccio l’esempio semplice:


io professoressa devo capire come sviluppare la lezione:
l’unità statistica è lo studente che frequenta il corso accademico (ORA) SIA in presenza che da
remoto
quant’è grande questa popolazione?
48
78
Totale 118
Decido di fare un campionamento semplice – composto da 5 unità a scopo didattico.

Quante unità statistiche devo selezionare? Tenere conto del margine di errore!
Prima cosa:
Scontare i problemi di costo – ogni intervista mi costa 1Euro? Ho a disposizione 50euro? Posso
fare 50 interviste.

Devo fare 78 interviste? O abbasso il costo delle interviste o trovo qualcuno che mi abbassa il
costo dell’intervista.

Trovo la tavola dei numeri casuali e definisco la lista degli studenti partecipanti e da remoto
Devo tirare fuori 5 unità statistiche
(il range sara da 1 a 118 che è il tot degli studenti del corso di questo anno)

Prendo le mie 5 unità


I numeri dei partecipanti al mio indagine sarà 81 – 44 – 48 – 98 – 79
Si prepara la schedi di rilevazione – si apre un foglio excel
Ogni caratteristica associo un campionario

Che caratteristiche mi servono o che mi possono interessare?


M–F
Anno di nascita (giovani o meno giovani) – tipo di popolazione – in questo caso sono studenti (che
osserviamo)
Tipo di diploma
Voto di diploma
Frequenza o da remoto
CFU
Media
Anno di corso
Titolo di studio capofamiglia
Studenti Stranieri
Sede o fuori sede

In un colpo solo ho capito le caratteristiche che devo osservare


E le domanda (esaustive e non sovrapposte) che devo fare

E sotto si sviluppano le domande:


E rispondendo alle domande abbiamo la matrice dei dati statistici (3° fase) input dati

Ciascuna colonna fa parte di un carattere statistico


In arancione dati statistici
Sopra in giallo è il carattere che si manifesta sul carattere dei dati statistici.

Unità per caratteri (matrice dei dati) L’unità individua gli elementi delle righe mentre per carattere
individua gli elementi per colonna
Questa matrice dei dati, Posso leggerla in due modi:
Per riga – US 1 – sto caratterizzando anzi descrivendo la US (unità statistica 1) –
Per colonna – prendo la colonna B (leggo le modalità con le quali le caratteristiche dell’unità
statistica si forma.
(si incrociano le informazioni)

Noi useremo per colonna o più colonne.

Es gruppo di categoria di carattere


+ gruppo categoria di un altro carattere

Numeri attributi es stranire (qualitativo non quantitativo) più probabilmente variabili.

Numeri (rappresentati da numeri che sono diversi dal numero es data di nascita dal numero di
corso)
Numeri ordinali (tipo numeri romani o anno di nascita) o cardinali (rappresentano una quantità)

La scala di misurazione – caratteri quantitativi a scala di intervalli – a scala quantitativi o di rapporti


(è il tipo di carattere più complesso) e + usato nella ricerca dati
Scala nominale o connessa
Numeri interi o discreti o continui
(nei numeri cardinali) Lo “0” è il punto di riferimento della misurazione

Es Unità statistiche delle città – vado ad osservare il clima su Palermo e Amburgo


Palermo 30 gradi - Amburgo 15 gradi centigradi.

Lo 0 cambia – celsius e fahrenheit quello 0 è una convenzione non è assoluto.


Lo è assoluto per esempio con la valuta (0 euro sono 0 dollari)

Matrice di dati come questa in es EXCEL SOPRA e chiedo


ALL’ESAME:
Indicare quali sono le unità statistiche
Qual’è la popolazione = chi stiamo studiando?
Classificare le caratteristiche
Carattere qualitativo o disconnessa?
Perché?
Es È un carattere che si presenta con attributo perché è M o F ecc

Caratteri qualitativi sconnessi ma sono particolari ciascuno di


questi dicotomici (quindi disconnessi)
SONO CARATTERE QUANTITATIVO – DISCRETO
Con 0 è ASSOLUTO

Uguali o diverse – le due unità statistiche rispetto a quella mutabile può essere o uguale o diversa.
Tipo la laurea è maggiore di un diploma quindi posso dire che il 2 è maggiore > di 1
O che 1 è un carattere Uguale (=) o Non uguale al numero 2 o 3…

CLASSIFICAZIONE GERARCHICA DOVE IL + BASSO è IL PIU semplice ma con meno informazioni


quindi con più informazioni più si va in alto! La punta è la ricchezza maggiore di info.

In questa piramide - Crescendo in ricchezza di informazioni:


ANALISI DEI DATI LZ.5

Classificazione dei caratteri:


1 caratt. Statistico si può distinguere in due classi:
1 carattere qualificativo – mutabile – carattere attributo o a limite o numerile ma numeri ordinali
Quantitativo – variabile – si presenta da modalità di numeri cardinali (quantità) e si distinguono in
Mutabili a scala nominali (sconnesse) e mutabili a scala ordinale (ordinabili)

La differenze nominali sconnesse – mod attributo e le modalità di carattere non hanno un


ordinamento

Quelle ordinabili invece quando le modalità seguono un ordinamento oggettivo (riconosciuto da


tutti) data di nascita ecc

(dicotomiche – genere m o F/ straniero quelle con si o no)

Caratteri quantitativi:
Discreti (senza virgola)
Continui (numeri reali che possono avere la virgola)
In basa ad una scala: scala rapporti o scala intervalli
Lo 0 è un numero di convenzione (ma attenzione) es sulla temperatura

Lo 0 fratelli è 0
Informazione più ricca
Mutabili sconnesse –
Mutabile ordinale – info + ricca (sull’ordinamento di modalità) uguale o diverso ma posso
aggiungere operazioni in piu (se dico che è diversa? Ok allora posso dire Chi viene prima e chi
viene dopo)
Scala intervalli – posso osservare es uno ha 1 fratello e l’altro 4? La differenza? 3 fratelli in – o +
Scala di rapporti - posso fare tutte le operazioni e in + fare 2 rapporti e quant’è il rapporto lo 0 è
assoluto non è una convenzione)
(posso farlo anche con la scala intervalli ma il risultato non è lo stesso perché lo 0 è una
convenzione)
Carattere qualitativo ordinale: anno di corso
Carattere qualitativo sconnesso: tipo di diploma

Le unità statistiche: le persone residenti nella provincia di Roma


Omogenee rispetto all’indagine – SCOPO DELL’INDAZINE
= la popolazione

Carattere qualitativo sconnesso: professione


Carattere ordinale = soddisfazione si possono fare 2 liste:
la lista di modalità sono attributi ordinabili (da molto basso a ottimo)

Oppure con una lista da 0 a 10? Scale likert! – ma nn entriamo nel dettaglio
Qualitativo ordinale (è una scala ecc) –
Quantitativo discreto a scala di intervalli
– sarà un carattere 0 convenzionale scala di intervallo o scala rapporti
NUMERO DI DIPENDENTI 0 è ASSOLUTO
NUMERO DI FRATELLI

SONO TUTTI CARATTERI QUANTITATIVI DISCRETI!

SE PRENDO I QUANTITATIVI E LI FACCIO DIVENTARE QUALITATIVI - DECLASSO


I QUALITATIVI DIVENTANO QUANTITATIVI – PROMUOVO
È difficile!
Bisogna far attenzione al numero che si attribuisce se valore 1 o valore 10!

Vediamo qui:
Parentesi tonda e quadra
Ti dicono l’estremo vicino a quella parentesi se è accanto a quella quadra è inclusa in quella classe
Se è vicina a quella tonda non è inclusa in quella classe!

Classi esaustive e non sovrapposte 10 sta nella parentesi quadra quindi è incluso in quella classe

Prima classe da 4.00 a 10.000 inclusa con estremità incluse.. e via

Classe chiusa [x]


Classe esclusa (x)
Aperta a sinistra ( o a destra )
Chiusa a sinistra [ o chiusa a destra ]

Non c’è una regola – quante classi faccio? 3 o ne 10 scelgo io ma se è chiusa poi il continuo dovrà
essere aperta.. E l’ampiezza (quello in rosso)!
Creo una nuova colonna sostituendo l’attributo al valore del reddito analizzando quel carattere

Colonna U1 + U2 + U3 ecc

Sintetizzo suddividendo in 5/6 classi – soprattutto quando il numero di modalità sono molto
diverse.

Invece PROMUOVERE è: + e Prendo il numero minimo di anni di frequenza


Prendendo la NOSTRA MATRICE DI DATI
5 (RIGA) U1 – 2 ECC.. X 12 CARATTERI STATISTICI

SE LEGGO LA MATRICE 6 E – HO IL MIO DATO STATISTICO

COSA DISTINGUE I MICRODATI DA MACRODATI?

LE UNITà DI DATI ANALISI SONO GRUPPETTI DI DATI


La matrice dei macrodati La si ottiene dalla matrice dei microdati

I METADATI SONO FONDAMENTALI (MICRO E METADATI PER INTERPRETARE COSA HO NELLA MIA
TABELLA DI RICERCA) E COSA SONO? SONO: COM’è STATA FATTA LA RILEVAZIONE? COME SONO
STATI MISURATI? CHE SERVONO PER INTERPRETARE I DATI CHE HO Già

RILEVAZIONE DI TIPO CAMPIONARIO DI UN UNITà STATISTICA DI… ECC ECC

DOMANDE ALL’ESAME!!!!!!!!!!
INDICARE QUALI E QUANTI SONO LE UNITA’ STATISTICHE + I CARATTERI STATISTICI SONO 3
SONO 7 QUALI SONO? LO LEGGO DAL METADATA SOPRA = LAUREATI ECC INTERVISTATI 7 ED E’ UN
CAMPIONE.
I CARATTERI STATISTICI SONO 3: CORSO DI LAUREA + CONCLUSIONDE DEL CORSO DI STUDIO +
VOTO DI LAUREA.

CARATTERI DICOTOMICO DISCONNESSO? PERCHE’ SI PRESENTA UN ORDINAMENTO….


NUMERO CARDINALE DISCRETO PERCHE’ E’ SENZA VIRGOLA ECC.

QUESTA è UNA MATRICE DI 3 X 3


HO LE UNITA’ DI ANALISI MA VOGLIO CAPIRE LA PERFORMANCE DI UN GRUPPETTO DI UNITA’ DI
RILEVAZIONE.

CHE PUNTO DI VISTA VOGLIO CAMBIARE? LE UNITA’ statistiche dei laureati a quelli dei corsi di
laurea:
Ho 3 modalità che si presenta il corso di laurea: economia – comunicazione ed ingegneria
Carattere qualitativo dicotomico - in corso e fuori corso che mi genera una variabile sulla matrice
macro

In corso in economia 1. In corso comunicazione 1. In corso ingegneria 2…

E cosi anche per i fuori corsi

Carattere quantitativo – voto di laurea


Prendo e sommo i voti e divido per le persone es
Economia 100+106 fa 206 diviso 2 – 103 e lo metto nella matrice macro
E cosi via…

In sintesi
Capire se l’unità statistica è di rilevazione o di analisi.
Analisi dei dati lezione ottobre 6
Abbiamo visto la Distribuzioni di alcuni dati.

Ora vediamo la Rilevazione dei dati statistici – è una matrice dati micro. E ora faremo l’analisi dei
dati. 26 unità statistiche (righe) x 14 dati statistici (colonne)

Come lo faccio? Con un carattere per volta selezionando una colonna per volta e sintetizzare.

(58.000 righe) non si può fare ovviamente.

Matrice dei dati è chiamata anche distribuzione unitaria Multipla (Unitaria = perché è linea della
matrice che da le info specifiche su ogni singola unità statistica specifica) e MULTIPLA perché per
ogni unità ho più caratteri statistici osservati su quella unità e quindi multipla) – 2 termini che si
contrappongono ma qui si uniscono.
Colonna 1: carattere sesso (M – F)
Colonna 2 : FA (frequenza assoluta)
Per le frequenze assolute corrispondenti alla modalità femmina F – e alla modalita Machio M
Solo numeri naturali (senza virgola “,”)

Quante volte si ripete la modalità femmina? Contarle: tot 17 e si inserisce sotto “FA”
Ripeto l’operazione per la modalità maschio = tot 9

Totale unità statistiche: 26 passando a due righe Sesso dei laureati e della FA (frequenza
assoluta)
Sintetizzetizzato l’informazione
Ma quale pezzetto ho perso? (quelli in arancione) ma a me non interessa chi è chi ma quanti
sono. Quindi è un’informazione PUNTUALE che io posso perdere.
Potendo gestire meglio come si manifesta questo fenomeno.

Andiamolo a generalizzarlo trasferendolo in simboli.


Valore quantitativo discreto a scala di rapporti – seguendo l’ordinamento naturale (numeri
cardinali)

Si può fare crescente o decrescente:


Introduciamo la simbologia:

Kappa (modalità varia dal tipo di carattere che stiamo analizzando)

Numeri naturali (senza “,” virgola)

Es di prima con f o m e FA
Trasformiamo in simboli questa tabella sopra

QUINDI:

NUMERI DISCRETI (FREQUENZE n1) unità statistiche CHE CORRISPONDE ALLA MODALITà(x1)
quindi:
n1 a x1
Esempio:
il nostro voto di laurea è x1 – con il valore 66 (voto di laurea) ecc
fare la distribuzione di frequenza (grafico a +)

numero di unità statistiche n1 es. 66 (il voto di laurea va da 111-66 - il diverso ≠ K è 12 il tot dei
voti presenti)

Sintetizzare le modalità: sono presenti 12 tipi di voti? Prendiamoli in una lista e


Riordiniamoli in ordine dal più piccolo al piu grande (si può fare anche dal piu grande al piu
piccolo l’importante è che siano in ordine
Prima fase:
Seconda fase

Calcolare le frequenze assolute (n1) con accanto quanti sono! Il totale n1 di x1 (tradotto: quanti
voti 96 ci sono? E via per gli altri… n2 di x2 ecc

Facciamo il totale:

K= 12 (totale dei voti) e


N= 26 frequenza assoluta
Totale 4 sotto i 101 e 7 110 e 111
Questo mi fa capire che il voto è più alto (7) di quelli con il voto basso e da già un quadro sulla
situazione.

K=3 (perché ci sono 3 modalità diverse)


Unità satistica: i miei laureati (i 13 – la maggioranza non lavora e non cerco vedo se sono iscritti
alla magistrale)

Unità statistiche: i miei occupati:


La situazione: Il lazio – le aziende – che dimensione economica ha (dimensione del fenomeno)?
Una propensione Agricola propensione orientata ai servizi?

Carattere: durata del corso


Tot unità statistiche sono 26
4 con

4 10 decimali (CALCOLATRICE X ESAME)


DOMANDE:
DARVI UNA TABELLA TIPO QUESTA CON INTESTAZIONE E 3 DOMANDE SOTTO:
DATA QUESTA DISTRIBUZIONE (TABELLA O MATRICE) rispondere:
si tratta di una distrib unitaria semplice o multipla o distribuzione di frequenza?
Qui per es. nella tabella sopra è una distribuzione di frequenza (perché sono sommate e non
abbiamo una matrice a distrib. Unitaria multipla perché non ho le U1 ecc)
quante e quali sono le unità statistiche:
le caratteristiche statistiche e definire i caratteri
sono numeri discreti?
Carattere quantitativo a scala di rapporti
TABELLA METADATI O MICRO DATI?

QUALITATIVO SCONNESSO DICOTOMICO (F o M)


Se la prima colonna UNITà già ti dice che matrice è e lo leggi anche sopra.

ES QUI SOTTO TROVIAMO UNA DISTRIBUZIONE UNITARIA

ESCAMOTAGE
LA DISTRIBUZIONE UNITARIA NON AVRA MAI IL TOTALE (NON è DISTRIBUZIONE UNITARIA) IL
TOTALE è SOLO PER DISTRIBUZIONE DI FREQUENZA!!!!!!!!!!

Attenzione
Perché una distribuzione unitaria ha le regioni come unità statistica
Con la % di occupati laureati e quelli con il reddito medio
Non può essere una distribuzione di frequenza (attenzione anche alle colonne e alle percentuali)
Quindi vediamo meglio
Frequenze relative e frequenze percentuali (FR e FP) aggiungendo alle altre due colonne (Genere
e FA)

Sotto troveremo dei numeri (numeri a calcolo)


Frequenze relative simbolo fi
FP simbolo fp

Le frequenze relati (fi) sono sempre >0 e <1


Formula: 0>fi<1

Alla fine di tutto mi vado a calcolare le p1 e p2 moltiplicando l’f1 e f2 x 100


(spostare verso destra di due posizioni la virgola) poi la somma di queste due:
Sono sempre comprese tra 0 e 100 (possono avere la virgola ma non è detto)
Accetto 100,01 o 99,98 ma no superiore a
Termini che chiede:
carattere disconnesso/connesso – dicotomico
Qual è la differenza tra righe (unità statistiche) colonne (dati statistici “le caratteristiche”)
Unità di analisi
Matrice macro (che deriva sempre da una matrice micro)

Lezione ottobre 11
Ripasso:

Frequenze relative = fi (0 > fi <1)

Frequenze percentuali = pi (0 > pi < 100)


- Mi restituisce la composizione del collettivo prescindendo da quante unità statistiche ne
fanno parte.
Attenzione: se lavoro da campione è come se estraessi una porzione e sono solo delle stime!

Es
200 studenti di comunicazione
30 Studenti di ingegneria
Hai 7 volte tanto di studenti femmine di comunicazione)
Ma osservando la presenza (la percentuale) delle femmine, sono identiche sia per comunicazione
(distribuzione del carattere) se mi fermo a fare il confronto: la metà degli studenti femmine sono
sia per cominicazione (la metà di 200) e la metà di inglegneria (la metà di 30)

Carattere
Quei due dati mancanti

26 solo hanno risposto

PORTARE UNA CALCOLATRICE DI 4 cifre decimali


La distribuzione del carattere è uguale per A e B ma con la quantità diversa.

MA Attenzione a non perdere i dati!!

Guardare sotto

Sempre meglio metter n = 5


E n= 300
Che calcolo faccio?

Vedo i peggiorati e i migliorati

Nel caso A ho 50 pazienti in più di B ma qual è l’incidenza???

VEDIAMO UN ALTRO ESEMPIO


La distribuzione di frequenze si può fare sempre – con qualsiasi tipo di carattere:
qualitativo ordinale o quantitativo… - mutabili ordinali o le variabili io a questa tabella possso
andare ad aggiungere altre 3 colonne ottenute a calcolo dalle prime 3 tabelle.

(l’importante che l’ordine sia crescente o decrescente)

Come calcolo? Cosi:


Le sommo. Frequenza assoluta CUMULATO:

Si accumulano sommando man mano che si va avanti.


N1= alla frequenza assoluta di x1
N2 = alla frequenza assoluta di x1 e di x2

Andando avanti così.

Per velocizzarmi posso fare:

N2 (è la somma di 1 e 2?)
Per prendere la N3 lo sommo direttamente con N2
Es. per avere N4 = sommo n3 (già sommatto) + n4
Sempre uguale e si va avanti così
INTRODUCIAMO UN NUOVO SIMBOLO (DELLA SOMMA)

SOMMA I NUMERI 3 - 5- 1- 9 E 15

COME QUI SOTTO:

PRENDERE il valore delle “x” e sommarle.


LE REGOLE:

PER CALCOLARE LA MEDIANA E I QUARTINI

Serve per fare una considerazione sulle modalità (dando dei livelli) es il 50% dei miei studenti del
2021 ha preso un voto non più alto di 22.

Mentre è differente se dico che:

Il 50% degli studenti del primo appello ha preso un voto fino a 28.

Ho la stessa incidenza del 50% ma qual è andato meglio?

Questo calcolo delle frequenze serve per dare delle considerazioni sulle modalità ma dando dei
livelli.

La sommatoria Da h3 a 5 (si legge così dal basso all’alto del simbolo della sommatoria per capire
come sommare:

Supponiamo di avere questa situazione:


ESEMPIO ESAME:

FINO AD ABBASTANZA SODDISFATTO (POCO O PER NULLA SODDISFATTE)

Oppure all’esame una cosa così:


In quale dei due campioni si registra una percentuale più elevata che caricano – di 1 meno di
qualche volta settimana?

Calcolo da mai a qualche volta al mese


E calcolo la frequenza cumulata

La risposta è A=24,25 e B=21,57


Continuiamo a cumulare:
Manca la lezione mercoledì 13 (unica lezione mancante) negli appunti

Potrebbero piacerti anche