Sei sulla pagina 1di 22

FONTI E METODI

13/09/23
Excel (piangere)
Creazione data set: in ogni database (può essere gruppo di tabelle che descrivono info di un dato oggetto) c’è
un campo (colonna che contiene un’info), una chiave primaria (campo che consente di identificare ciascun
elemento di una colonna, quella più semplice è un numero progressivo es. n° di matricola)
Per non copiare il numero ma estendere la progressione ne selezioni 2 se ne selezioni 1 te la copia
Da blocca riquadro puoi blocca l’intestazione (freeze top row da visualizza però prima c’hai da seleziona la
colonna)
=casuale.tra(n°;n°) estendilo da doppio clic su freccia nera RANDBETWEENEW
: per intervallo di celle
Somma -> sum
=ass FA IL VALORE ASSOLUTO
Media puoi farla anche solo esplicitando la lettera della colonna
Rivediti come sono le formule in inglese o cazzo cambia la lingua cogliona DAMMI UN ATTIMO CRISTO
Distribuzione di frequenza (vuole sapere quante volte c’è una variabile): scegli la variabile (in questo caso
classe di spesa che può essere bassa, media, alta) e fai conta.se COUNTIF(intervallo; variabile) poi puoi
copiare la formula dal quadrato
Conta.più.se = COUNTIFS si usa quando si chiede quante volte si verifica una condizione e anche un’altra
(se la condizione è<=,>0 etc ci vogliono le virgolette)
Il $ blocca la casella di riferimento
Per tavola pitagorica devo fissare la colonna dei numeri e la riga del secondo termine es. $A2*B$1
Per ordinare i campi in ordine crescente/decrescente: clicchi una casella della tabella preferibilmente del
titolo e da menù dati clicchi ordina
Strumento filtro: menù dati opzione filtro, ATTENZIONE QUESTA FUNZIONE NON CANCELLA I DATI
CHE NON SELEZIONA LI NASCONDE quindi se fai tipo la funzione max dopo aver filtrato ti considera
anche le celle nascoste dovrei copiare la tabella filtrata, incollarla in un altro foglio e POI fare max o min
così ti considera solo quelle filtrate non anche quelle nascoste
Tabella pivot: tabellina di sintesi che parte da tabellona dispersiva, la tabella di partenza deve essere fatta
bene senza interruzioni con colonna libera accanto e libera sotto, seleziono una cella della tabella, dal menù
INSERISCI, ti serve per organizzare i dati sposti nelle righe o nelle tabelle i dati di cui vuoi sapere i numeri e
poi es. tipo di negozio nelle righe e paese nelle colonne poi sposti i dati relativi ai numeri sullo spazio della
sommatoria e tramite il menù a tendina scegli cosa vuoi sapere es. sposti i dati riguardo alla superficie nello
spazio sommatoria e vuoi sapere qual è la superficie massima di ogni tipo di negozio in ogni paese lo fai
scegliendo max dal menù a tendina perché semplicemente spostandotelo nella sommatoria ti fa la somma di
tutti i negozi di quel tipo in quel paese
LEZIONE 2
Casuale è una funzione uniforme perché ciascun intervallo della stessa ampiezza ha la stessa probabilità di
essere scelto Casuale() ti dà un numero compreso tra 0 e 1
Casuale() poi fatto conta.più.se per trovare quanti numeri sono compresi tra due numeri e poi ho diviso per il
numero dei dati per ottenere una probabilità
Arrotonda(una certa cosa; n° di decimali che voglio vedere)
Pi.greco()
=arrotonda(se(casuale()<0,8;B2;B2*(0,9+0,25*casuale()));3) arrotondami a 3 decimali che partendo dal
prezzo precedente l’80%percento delle volte non cambia ma quando cambia cambia di un numero casuale
compreso tra 0,9 e 1,15
ESTRAIMI UN NUMERO CASUALE CHE L’80% DELLE VOLTE è UGUALE A B2 MA QUANDO
NON LO è, è PARI A B2 AUMENTATO DI UN NUMERO COMPRESO TRA 0,9 E 1,15 (1,15 è la somma
di 0,9 e 0,25 perché dall’estrazione casuale () può uscire un numero compreso tra 0 e 1 quindi verrebbe o
0,25 * 0 = 0 e quindi 0,9 o 0,25 * 1 e quindi 1,15, ciò viene fatto per far sì che il numero possa fluttuare sia
in positivo nel caso in cui il numero sia maggiore di 1 e quindi se B2 fosse il prezzo della benzina questo
aumenterebbe o anche in negativo nel caso in cui venga un numero inferiore a 1 E QUESTO NUMERO ME
LO ARROTONDI A TRE CIFRE DECIMALI
Serie storica: una sola unità osservata ma le osservazioni sono ripetute nel tempo
Menomale è solo un’introduzione
--------
Obbiettivo dell’indagine: conoscenza di aspetti di un fenomeno collettivo.
La procedura di indagine si svolge tramite l’individuazione dell’obbiettivo e della popolazione di interesse
per poi delinearne i caratteri. Questi raccolti confluiscono in dati statistici e, tramite l’elaborazione e sintesi
di quest’ultimi, riesco ad analizzare il fenomeno collettivo desiderato.
POPOLAZIONE STATISTICA: quella di cui voglio sapere qualcosa
CARATTERE: aspetto della realtà che si manifesta all’osservazione, ciascun carattere ha varie MODALITÀ
vale a dire modi di presentarsi del carattere -> classificati in:

• Qualitativi che necessitano pertanto di un’espressione verbale


• Quantitativi che necessitano pertanto di un’espressione numerica
Possono essere ordinati tramite
SCALA NOMINALE:
riguarda caratteri qualitativi e pertanto comporta il possibile confronto tra due caratteri solo per vedere se
sono uguali o diversi visto che sconnessi (non ne puoi definire un ordine vero e proprio)
x i = xj o xi ≠ xj
SCALA ORDINALE:
Confronti possibili tra due modalità:
x i = xj o xi ≠ xj
e se xi ≠ xj posso chiedermi se xi > xj o xi < xj
SCALA DI INTERVALLO:
puoi dire quanto è lontana una datazione dall’altra
SCALA RAPPORTO:
confronti possibili tra modalità:
𝑥𝑖 𝑥𝑘 𝑥𝑖 𝑥𝑘
𝑥𝑗
≥ 𝑥ℎ 𝑥𝑗
≤ 𝑥ℎ caratteri quantitativi per i quali solo l’unità di misura è arbitraria e lo zero della scala è
significativo
LA STATISTICA si divide in DESCRITTIVA e INFERENZIALE con differenza nella popolazione
osservabile:
- Se riesco ad osservare tutta la popolazione la mia analisi statistica sarà DESCRITTIVA µ
- Se non riesco utilizzo per la mia analisi un’unità che viene definita CAMPIONE rendendo la mia
analisi statistica INFERENZIALE ovvero consistente in una stima
Un campione si fa perché costa meno, ci vuole meno tempo, impossibilità, maggior accuratezza
ESPLICITAZIONE DEL LINGUAGGIO OSSERVATIVO
- Definire qual è il tipo di indagine
- Stabilire l’estensione dell’indagine
- Determinare i mezzi di raccolta dei dati
- Verificare il materiale e procedere allo spoglio e tabulazione
INDAGINI TRASVERSALI vs INDAGINI LONGITUDINALI
Trasversali: fissano i caratteri in un determinato momento
Longitudinali: misura i dati in evoluzione temporale
TABELLA -> con lo spoglio e tabulazione si ottiene la tabella
DISTRIBUZIONI STATISTICHE
Ogni database ha bisogno di una chiave primaria che identifica, può essere un campo ma anche più campi
DISTRIBUZIONE DI FREQUENZA
➔ Conta.più.se (…)
A
B C
età
1 27 =conta.più.se(B:B;A2)
2 32
3 10
4 5
5 14
6 54
7 7
8 23
9 38
… …
La formula sopra dà quante persone nell’elenco delle età (B:B) hanno 1 anno. Estendendolo poi in giù
prenderà i valori sotto e quindi ti dirà quante persone hanno 2,3,4,5,6,7,… anni.
➔ Tabella Pivot
Selezioni tabella, tabella pivot, raggruppi le età nelle righe le chiavi primarie nella sommatoria e chiedo di
fare conteggio
COME PRENDERE I DATI DALLA BANCA D’ITALIA
Banca d’italia microdati -> documentazione e archivio + descrizione degli archivi, distribuzione dei
microdati (di solito si trovano 2 anni dopo a quelli che vuoi)
Scarichi il file zip
Scegli tabella che è in csv e apri con excel
Clicchi la casella A, sostituisci da TROVA i . con #
Selezione casella A
Opzione ORDINA in menù dati e scelgo virgola
Risostituisci il # con la ,
LEZIONE 20 SETTEMBRE
RAPPRESENTAZIONI GRAFICHE
Distribuzione unitaria -> es. colonna di tutte le età degli individui osservati dalla banca d’Italia, vengono
rappresentate dai grafici i quali indicano sugli assi i valori
Tipi di grafici:
- Pictogrammi: figure e simboli che vogliono dare l’idea della grandezza del fenomeno
- Areogrammi: utilizzano delle aree e vengono usate per scale nominali o ordinali, possono essere a
barre o a torta
Y= reddito = C+S C= consumi = CD + CN (durevoli + non durevoli) S= risparmi
Per fare il reddito mensile fai quello che sta nella cella del reddito e lo dividi per 12 (non c’è bisogno di
fissare la colonna con il dollaro)
Come fare classe di reddito:
stabilisci le classi, in questo caso:
A. <500
B. [500 1000]
C. (1000 2000]
D. (2000 3000]
E. (3000 4000]
F. (4000 ∞]
Poi utilizzi la funzione SE facendo =se(casella dove ho il reddito mensile <500; “A”; se(stessa casella
<1000; “B”; se(stessa casella < 2000; “C”; se(stessa casella <3000; “D”; se(stessa casella<4000; “E”;
“F”)))))
Per distribuzione di frequenza della classe di reddito metti sempre nella funzione SE le lettere, non gli
intervalli di numeri da soli, tra virgolette perché nel momento in cui viene fatta una tabella Pivot questa ti
ordina i dati in ordine alfabetico ( ad esempio non mettere “(1000 2000]” ma metti “C” o “ C (1000 2000]”)
=se(casuale()<0,4; “nord”; “sud”) -> estrai un numero a caso e se quel numero è minore di 0,4 allora scrivimi
nord altrimenti sud
=conta.più.se(B:B; E3; A:A; F2) -> quante volte nella colonna B c’è scritto quello che c’è scritto nella cella
E3 e quante volte nella colonna A c’è scritto quello che c’è scritto in F2 mettendo che in una vi sia una
specifica classe di reddito e nell’altra la zona di residenza -> SI TRATTA IN QUESTO CASO DI UNA
DISTRIBUZIONE DOPPIA DI FREQUENZA perché chiedo sia quante volte compare una
determinata zona (nord o sud) e quante volte compare una determinata classe di reddito ( A B C D E F
a seconda di cosa c’è scritto nella casella)
E F G
Classe di reddito zona nord sud

n sud A =conta.più.se(B:B;
E3; A:A; F2)

n nord B
n sud C
n sud D
n nord E
n sud F

Tabella fatta un po molto alla cazzo ma ok


PER ESTENDERLA DEVO FISSARE SIA LA COLONNA BB CHE LA COLONNA AA ($B:$B e $A:$A)
CHE LA COLONNA E ($E3) e LA RIGA 1 (F$1)
SELEZIONE COLONNE MULTIPLE NON ATTIGUE sparisce la formula, se voglio copiare il semplice
risultato di una formula devo fare dal menù INCOLLA -> INCOLLA VALORI
Per fare operazioni sui dati della tabella Pivot copiati e incollati i valori da un’altra parte
PER I GRAFICI seleziona quello che vuoi e poi vai nel menù INSERISCI
Non ha senso fare un grafico a torta se la somma dei valori che si vuole mettere nel grafico non costituisce
un intero di tutti i valori
GRAFICI A COORDINATE CARTESIANE servono o per caratteri quantitativi per modalità non
raggruppate in classi o per serie storiche o per mettere in relazione 2 variabili quantitative
ISTOGRAMMI per caratteri quantitativi raggruppati in classi, sono costituiti da rettangoli con
base = ampiezza classi ovvero estremo superiore – estremo inferiore della classe
area = frequenza
altezza (densità di frequenza) = area / base
TROVARE L’INDIVIDUO CHE DIVIDE NEL MEZZO LO SKYLINE mediana (in questo caso di
ricchi e poveri)
MEDIANA: indice di posizione che fa parte delle statistiche d’ordine perché vanno prima ordinate le unità
statistiche in base ad un carattere di cui prende le modalità e ripartisce le unità in due gruppi ugualmente
numerosi.
Mediana del reddito: in questo caso divide lo skyline in due parti che congiuntamente hanno la stessa area
In che classe di reddito sta? (con istogramma)
Individui totali / 2 e il numero ti dà qual è l’individuo di mezzo che puoi collocare in una classe
semplicemente vedendo le frequenze (es. se gli individui totali diviso due mi dà 3710 guardi le frequenze e le
addizioni finché non arrivi alla classe che addizionata alle altre dà un risultato superiore a 3170 e dunque ciò
implica che il 3170esimo individuo si debba trovare lì dentro) -> ovvero ci si chiede la frequenza che deve
stare a sinistra e a destra della mediana, sarà quel reddito che divide la popolazione in 3710 individui
che hanno il reddito inferiore e 3710 individui che lo hanno maggiore
Le prime tre classi hanno una frequenza pari a 3489 individui quindi faccio
3710 – 3489 = 221 (ovvero il numero di individui nella 4 classe che devo
passare per arrivare al 3710esimo individuo)
221 è l’area del piccolo quadratino, per trovare quanto spingermi in avanti
dopo il 2000 (ovvero la base faccio area 221/1,76 (densità di frequenza
della 4 classe) ottenendo 125,35
Frequenza complessiva fino al 2710esimo è di 2000 (estremo della classe
precendente) + 125,35 = 2125,35

COME CALCOLARE LA MEDIANA SU EXCEL:


copio i redditi e li incollo insieme alla chiave primaria in un altro foglio ordinando poi in base a Y e poi
scendo al 3710esimo che divide poveri e ricchi e siccome ho ordinato in base al reddito e il numero di
individui in questo caso è pari ci sono 2 individui che stanno nel mezzo dunque mi basta fare la media tra i
loro due redditi
OPPURE
=mediana(colonna)
QUARTILI (sono i tagli non le fette e quindi sarebbero solo 3 anche se excel ammette anche il 4
quartile vale a dire il massimo)
Taglio come ho tagliato per la mediana nell’istogramma
O funzione quartile =QUARTILE(colonna; n° quartile che voglio)
Percentile: versione su 100 del quartile
=percentile(colonna; n° di percentile che voglio ma in numero decimale es. 0,25)

INDICI DI POSIZIONE
Valore che esprime sinteticamente il valore di una posizione della distribuzione sull’asse reale.
➔ Si sostituiscono i valori osservati con un unico valore costante, destinato a rappresentarli tutti, con la
condizione che la sostituzione non alteri una caratteristica della successione che si assume come
“invariante”
Aumentare una roba per es. 3% moltiplicare quella cosa per 1.03
Togliere es. 14% a una roba moltiplicare quella cosa per 0.86
Il tasso medio da applicare se alla fine voglio lo stesso montante di una banca che negli anni mi dà tre tassi di
aumento diversi non è la media aritmetica: la radice cubica (perché sono 3) del prodotto dei tre fattori di
capitalizzazione -1 mi dà il tasso che mantenendosi costante mi dà una cifra che è uguale a quello ottenuto
dalla moltiplicazione ogni anno di tassi diversi -> media geometrica si usa quando i valori che
moltiplicano una cifra di volta in volta sono diversi l’uno dall’altro
=(n*n*n)^(1/3) (1 diviso 3 perché metto la radice cubica)
Oppure
=media.geometrica(intervallo di celle)

Media quadratica: radice quadrata della somma dei quadrati diviso il numero dei fattori che vengono
sommati -> excel non ce l’ha ma ha la somma dei quadrati (=somma.q) e poi ti basta dividerla per il numero
dei fattori con la formula =conta.numeri(intervallo di celle) e tutto lo elevi all’1/2
Per trovare valore che mantiene area invariata media quadratica, per trovare valore che mantiene perimetro
invariato media aritmetica può essere fatta sia scrivendo =media(intervallo) o facendo
=somma(intervallo)/conta.numeri(intervallo)
Media ponderata: quando non tutti gli elementi della media hanno lo stesso peso si vuole dare maggiore
importanza a degli elementi rispetto ad altri ->
( x1 per il peso 1 + x2 per il peso 2+ x3 per il peso 3 ) / somma pesi
Sommatoria delle x per il peso / sommatoria dei pesi
Moda: modalità con frequenza più alta, può essere calcolata anche per caratteri qualitativi
MEDIA ARITMETICA PONDERATA = media aritmetica semplice ma con i dati in distribuzione di
frequenza
Moltiplico in un’altra colonna gli xi *mi e poi faccio la somma degli xi*mi / la somma delle frequenze (mi)
dove mi è quante volte gli xi compaiono
Bisogna fare xi * mi / somma mi -> media da distribuzione di frequenza = media aritmetica ponderata simile
a media ponderata per cui in excel non esiste una funzione specifica OPPURE FARE
=matr.somma.prodotto(intervallo dati; intervallo frequenze dei dati)/somma(intervallo frequenze)
---------------------
INDICI DI VARIABILITÀ: può confrontare
- quanto lontano ogni carattere è dalla media aritmetica: quanto più gli indici sono vicini allo zero
tanto più bassa è la variabilità ovvero variabilità minima mentre in generale non c’è una variabilità
massima (variabilità intorno al valore simbolico) -> SCARTI DALLA MEDIA (somma degli scarti è
sempre 0 pertanto è necessario fare la somma dei quadrati degli scarti utilizzando la formula della
DEVIANZA =dev.q(intervallo celle) che in sostanza fa la sommatoria (valori meno il valore medio)
^2, la variabilità non dipende soltanto da quanto i valori sono lontani dal valore centrale ma anche
dal numero di valori pertanto devo trovare la VARIANZA vale a dire la media degli scarti al
quadrato e si trova facendo devianza / n° dei dati o con la formula excel = var.p(intervallo di
celle), SE però hai solo un campione e non l’intera popolazione è necessario fare la VARIANZA
CAMPIONARIA che calcola il SIGMA^2 che in sostanza fa la sommatoria (valori-valore medio)^2
/ n° valori -1 e si calcola con excel con la formula =var.c(intervallo); lo SCARTO QUADRATICO
MEDIO calcola invece il valore medio della distanza dal valore medio e si calcola facendo la
sommatoria (valori – valore medio)^2/ n° valori tutto sotto radice quadrata vale a dire varianza
sotto radice quadrata o con excel =dev.st.p(intervallo)
COEFFICIENTE DI VARIAZIONE (numero puro perché non ha unità di misura) = scarto
quadratico medio / media, il risultato messo in percentuale-> serve per confrontare variabilità
tra gruppi di osservazioni diverse, per avere un’idea in termini relativi della variabilità e confrontare o la
stessa variabile su pop. diverse o due variabili sulla stessa pop. OGNI VOLTA CHE MI CHIEDONO
DI CONFRONTARE LA VARIABILITÀ FACCIO IL COEFFICIENTE DI VARIAZIONE

➔ oppure confrontare quanto lontano ogni carattere è dall’altro RAPPORTO DI


CONCENTRAZIONE* = indice di Gini, quantifica, come il coefficiente di
variazione, quanto una modalità varia ma all’interno di un gruppo (quanto la modalità è
concentrata) -> si fa facendo la DIFFERENZA MEDIA SEMPLICE devi fare tabellina in cui ogni
valore sottrae gli altri e poi fai la somma tra le sottrazioni che ottieni togliendo la diagonale vale a
dire = somma (valori della tabellina delle sottrazioni) /conta.numeri (tutti quelli dei risultati) –
n° valori presenti o su una riga o su una colonna trovando quindi la VERA CONCENTRAZIONE
poi trovo il DELTA MAX vale a dire la media dei valori moltiplicata per due e li divido
➔ vera conc/max conc
*il delta rimane invariato se aggiungo una costante a tutti gli individui ma la media aumenta di quel
tot che ho aggiunto di costante (è una proprietà della media) varia il rapporto di concentrazione in
base a come è variata la media con cui ci faccio il delta max (media*2) pertanto il rapporto di
concentrazione diminuisce
Se però raddoppio o divido a tutti la ricchezza che hanno, il delta raddoppia e anche il delta max e
quindi il rapporto di concentrazione rimane uguale
La variabilità e la concentrazione riguardano entrambe dei caratteri quantitativi ma mentre la variabilità si
adatta a tutti i caratteri quantitativi la concentrazione si concentra soprattutto sui caratteri quantitativi
trasferibili
La concentrazione può essere calcolata in 3 modi (non può essere negativo):
- sono due gli scenari possibili corrispondenza di uno scenario con distribuzione dei caratteri casuali
ovvero: massima concentrazione e minima concentrazione anche detta equidistribuzione, un indice R
molto vicino a 1 indica un avvicinamento allo scenario di massima concentrazione vale a dire
quando ad es. tutti i soldi sono concentrati nelle mani di un solo individuo. Il primo metodo di
calcolo del “rapporto di concentrazione” è quello che si calcola attraverso la differenza media
semplice (tabellina con le sottrazioni in valore assoluto di cui poi faccio la media) per poi dividere
quello che ottengo per la massima concentrazione vale a dire il doppio della media originale.

- Se però abbiamo tantissime osservazioni non è pensabile utilizzare la differenza media semplice.
Allora dapprima ORDINIAMO i valori in ordine crescente poi calcolo gli FI ovvero la frazione di
redditieri che ha un ammontare di denaro inferiore o uguale a xi (1 : n° dati per la prima cella, 1
: n° dati + numero della cella di sopra per la seconda di cui poi copi la formula fino in fondo) poi
calcolo i QI ovvero la quantità dei soldi detenuta da una tot. frazione della popolazione facendo
la =somma(dati fino alla frazione di cui vuoi calcolare)/somma(tutti i dati) ATTENTA PERÒ
ricordati di bloccare con i dollari le righe della somma di tutto e la riga del primo valore (es.
=somma(B$2:B7)/somma(B$2:B$10)) PUOI FARCI LA CURVA DI LORENTZ prendendo gli FI
sull’asse delle x e i QI sull’asse delle y in un grafico a dispersione o con pallini dispersi o con pallini
uniti da una spezzata; per calcolare R a questo punto fai i casi di massimo e equidistribuzione e
tenendo con control i primi fi e qi e gli altri qi ci fai un grafico unico poi per calcolare R fai la
somma degli FI originali dal primo al penultimo – la somma dei QI originali dal primo al
penultimo tutto diviso la somma degli FI originali dal primo al penultimo
- Oppure fai l’area del triangolo dell’equidistribuzione che è mezzo quadrato ovvero 0,5 MENO
l’area del poligono (insieme di trapezi) ottenuto dalla spezzata della distribuzione veritiera e il
cartesiano che si trova trovando la base (ciascun Qi + quello precedente) e l’altezza (ciascun Fi –
quello precedente) e facendo =matr.somma.prodotto(intervallo basi; intervallo altezze)/2
trovando da questa sottrazione l’AREA SPICCHIO poi trovi area del triangolo di max
concentrazione facendo base (decimale corrispondente alla frazione prima di quello che detiene
tutta la roba) * altezza (1) / 2 e infine fai area spicchio (ovvero quello ottenuto dalla prima
sottrazione) DIVISO area spicchio max concentrazione
----------------
Trimmed mean: sia mediana che media sono indici di posizione sintetici, la mediana non risente dei valori
eccezionali/misure terribilmente sbagliate, la trimmed mean ordina i valori butta via un certo numero dei più
piccoli e più grandi calcolando la media dei valori intermedi.
Box plot: grafico che dà un’idea della distribuzione del carattere dandone una panoramica
FUNZIONE CERCA.VERT
Serve per recuperare una cella che sta sulla stessa riga di una cella che ha un particolare codice
=cerca.vert(cosa cercare nel foglio attuale; dove cercarlo ovvero file e intervallo di celle; qual è il numero
della casella dove si trova il dato che voglio; FALSO)
----------------
INDICI DI ASSOCIAZIONE= tutti quegli indici che mi misurano l’associazione
Individua se è presente un legame tra due caratteri X e Y, in particolare si verifica l’esistenza o meno di
regolarità nell’associazione tra le modalità osservate dei due caratteri.
Misurano due aspetti:
- L’intensità del legame
- La direzione del legame
È necessario partire da una distribuzione doppia di frequenza (es. tabella pivot di dove si siedono uomini e
donne in aula se all’inizio, a metà o alla fine)
X righe Y colonne

• Se data una distribuzione doppia di frequenza, ad ogni modalità di X corrisponde una sola modalità
di Y e viceversa si ha una perfetta interdipendenza tra Y e X o dipendenza bilaterale (es. se
abbiamo che la classe si divide in italiani, tedeschi e francesi e ogni persona della stessa nazionalità
si siede in una delle tre parti dell’aula)
• Se data una distribuzione doppia di frequenza, ad ogni modalità di Y corrisponde una sola modalità
di X ma non il viceversa si ha una perfetta dipendenza di X da Y (se ci si divide sempre in italiani,
tedeschi e francesi ma sono solo due le parti in cui è divisa l’aula pertanto due gruppi si siedono in
una stessa parte che è più grande)
• Se data una distribuzione doppia di frequenza, ad ogni modalità di X corrisponde una sola modalità
di Y ma non viceversa si ha una perfetta dipendenza di Y da X (se ci si divide solo in italiani e
tedeschi e le parti dell’aula sono 3 pertanto es. i tedeschi si siedono in due zone)
Differenza tra frequenze relative e frequenze teoriche:
frequenze relative: quelle che effettivamente scaturiscono da una distribuzione di frequenza reale
frequenze teoriche: se effettivamente si rispettassero le percentuali dei gruppi sul totale
es.
se ci sono 31 donne e 26 uomini disposti in 3 zone dell’aula, il totale è dunque 57 di cui 54,38% donne
(calcolato facendo il totale donne / totalone) e 45,61% uomini.
Le donne sono effettivamente 13 all’inizio, 11 a metà e 7 alla fine. Queste sono le frequenze effettive
Gli uomini sono effettivamente 0 all’inizio, 9 a metà e 17 alla fine.
Pertanto ci sono 13 posti all’inizio, 20 nel mezzo e 24 alla fine.
Ora vogliamo calcolare quanti uomini e donne ci sarebbero in ogni parte se fossero rispettate le percentuali.
Calcoliamo quindi le frequenze teoriche potendolo fare in 3 modi:
1. Calcoli se nella prima parte ci sono 13 persone quanto è il 54,38% di 13 per vedere le donne e il
45,61% di 13 per vedere gli uomini facendo la stessa cosa per ogni parte (quanto è il 54,38% e il
45,61% di 20 etc…) =totale complessivo della zona *percentuale donne-uomini

2. Calcoli sul totale la percentuale di gente seduta in ogni parte dell’aula facendo il = totale della zona /
totalone e poi calcoli quella percentuale che ti viene del totale donne-uomini

3. Fai = (totale riga (quindi zona) * totale colonna (quindi donna o uomo)) / totalone (che poi sarebbe
donne + uomini indipendentemente da dove si trovano)

SE LE FREQUENZE EFFETTIVE NON COINCIDONO CON QUELLE TEORICHE si può affermare che
tra i caratteri X e Y c’è un “certo grado di dipendenza” che può essere calcolato tramite le CONTINGENZE
CONTINGENZE : si calcola facendo = (frequenza effettiva – frequenza teorica)^2 / frequenza teorica
per ogni carattere ovviamente (quindi per le donne e uomini all’inizio, metà e fine)
INDICE DI CHI^2 : indica la distanza della distribuzione effettiva da quella teorica e si calcola facendo la
somma di tutte le contingenze
INDICE DI FI^2: ovvero la contingenza quadratica media, dipende dal numero delle celle della tabella e si
calcola facendo il CHI^2 / totalone

INDICE DI V CRAMER: si fa facendo la √ (FI^2 / il risultato che è più piccolo tra le sottrazioni numero di
righe – 1 e numero di colonne -1 )
---------------

RAPPORTO DI CORRELAZIONE: misura quanta parte di variabilità è dovuta ad un carattere,


fa parte degli indici di associazione, chiamato anche INDICE DI ETA^2 (eta quadro) che è compreso tra 0 e
1 con 0 quando la variabilità non dipende dall’appartenenza ad un gruppo con un determinato carattere
qualitativo e 1 quando la variabilità dipende strettamente all’appartenenza ad un gruppo con un determinato
carattere qualitativo. Si dice che vi sia un certo grado di dipendenza se l’indice eta^2 non è uguale a 0.
Pertanto scompone la varianza.
Per trovarlo fare:
1. media dati totale dei valori che ti interessa sapere se sono correlato ad un determinato carattere
qualitativo (es. sesso)

2. Media dei valori di vari gruppi che hanno un determinato carattere qualitativo (es. media altezze
donne e media altezze uomini) se non usi la tabella pivot devi fare =media.più.se(intervallo celle di
cui ti deve fare la media; intervallo celle in cui sta un carattere qualitativo che divide gli
individui totali di cui vuoi fare la media in due gruppi con due medie; “carattere qualitativo”)
3. Fare varianza totale su tutti i dati (es. su tutte le altezze)

4. Fare varianza di un gruppo (es. varianza altezze donne e varianza altezza uomini)

5. Fare varianza within (ovvero interna al gruppo che non dipende quindi dal sesso ma
semplicemente dal fatto che gli individui osservati sono diversi di per sé) e si fa facendo =((varianza
gruppo 1 * n°dati del gruppo)+(varianza gruppo 2 * n° dati del gruppo) / n° dati totali) oppure
=matr.somma.prodotto(intervallo n° dati; intervallo varianze)/totale dati

6. Fare varianza between (ovvero che dipende dal sesso) e si fa facendo =( media gruppo 1 – media
complessiva)^2*n° dati del gruppo + (media del gruppo 2 – media complessiva)^2 * n° dati del
gruppo) / totale dati

7. Fare indice ETA^2 che misura quanto la differenza di altezza in questo caso dipende dal sesso e si
fa facendo varianza between/varianza totale

varianza between + varianza within = varianza normale


- facendo la tabella pivot sui dati puoi saltare i passaggi 1,2,3,4 basta che metti nelle righe della tabella
pivot il carattere qualitativo poi fai il conteggio della chiave primaria, la media del carattere di
interesse, la var.pop del carattere di interesse.
Media con distribuzione di frequenza -> =matr.somma.prodotto(intervallo carattere qualitativo;
intervallo frequenze)/conteggio della colonna
Varianza con distribuzione di frequenza -> = ((carattere qualitativo con colonna dollarata – media totale
della colonna)^2 * frequenza+ ripeti con gli altri caratteri qualitativi / conteggio frequenza totale che
sta nella colonna
--------------
CORRELAZIONE SPURIA: qualcosa che lega due elementi non necessariamente collegati, qualcosa di
antecedente ad entrambi i fenomeni che far sì che vengano legati i due fenomeni.
Covarianza: media dei prodotti degli scarti dalla media, puoi farla facendo gli scarti dalla media, poi
moltiplicarli e farci la media oppure fai =covarianza(intervallo di dati 1; intervallo di dati 2) il segno del
risultato della covarianza ci fa vedere come due variabili variano, se in maniera uguale o opposta
(discorde)
Es. in questo caso essendo il risultato MENO119,056 ciò ci dice che all’aumentare delle altezze diminuisce
la lunghezza dei capelli ma il 119,056 non ci dice niente

Il coefficiente di correlazione lineare misura intensità e direzione del legame LINEARE tra le
due variabili e si fa facendo =covarianza / (scarto quadratico medio variabile 1* scarto quadratico
medio variabile 2) OPPURE =correlazione(intervallo variabile 1; intervallo variabile 2) questo è un
numero puro ovvero senza unità di misura.
come mai dico lineare?
perché potrebbe darsi che tra due variabili ci sia un forte legame ma che essendo non lineare non viene colto
dalla correlazione lineare. Quando trovo un coefficiente di correlazione lineare molto vicino allo zero dico
che praticamente non c'è relazione. Il coefficiente di correlazione lineare non mi coglie i numeri che nel
grafico hanno forma di parabola.
SPIEGAZIONE REGRESSIONE LINEARE SEMPLICE (ppt)
Oltre allo studiare l’intensità del legame esistente tra due variabili ci interessa anche studiare come varia una
variabile al variare dell’altra individuando una funzione che sintetizzi tale relazione: se c’è solo una variabile
indipendente si tratta di una regressione semplice altrimenti si dice regressione multipla.
Si parla di regressione quando si studia il legame tra una o più variabili indipendenti che determinano una
variabile dipendente. Ci consente inoltre anche funzioni di previsione per quanto riguarda le serie storiche.
Se dopo aver rappresentato graficamente i dati con un grafico di tipo scatter plot, individuiamo una
progressione di tipo lineare (che non sia una parabola) possiamo voler sintetizzare tale regolarità mediante
una funzione analitica “ragionevolmente semplice”. Il presupposto è che esista una variabile X indipendente
o esogena e una variabile Y dipendente. La scelta del ruolo delle due variabili è una scelta extra-statistica.

APPROCCIO INFERENZIALE
Variabile dipendente = intercetta della popolazione (alfa) + coefficiente angolare della popolazione
(beta) *variabile indipendente + errore casuale

Yi =  + β Xi + ε i
Assiomi di partenza:
1. fra x e y c’è una relazione lineare (non perfetta perché sporcata dall’errore)
2. gli errori hanno tutti lo stesso valore atteso pari a 0 e la stessa varianza, pari a sigma^2 = la variabile
casuale è a media 0 e sempre con la stessa varianza, la variabilità non dipende dal reddito della
famiglia ad es.
3. i valori della x sono noti senza errore
quale retta? Quella con la somma degli scarti al quadrato della distanza dei punti dei valori sul grafico
dalla retta più bassa (somma dei quadrati dei residui minima), facendo questi calcoli si ottiene la retta dei
minimi punti che esiste sempre ed è unica
n n n n

y x i
2
i − x x i i yi
a = i =1 i =1 i =1 i =1
2

n  x i2 −  
n n

  xi 
i =1  i =1 

n n n
n  xi y i − x y i i
b = i =1 i =1 i =1
2

n  x i2 −  
n n

  xi 
i =1  i =1 

Trovare EI ovvero residui (scarti):

• spesa effettiva – spesa ipotizzata ottenuta da un a e b casuale (a + b*y)


vedere quale sia la retta giusta:

• fai il quadrato dei residui, fai la somma dei quadrati dei residui (la distanza in verticale tra pallino
blu e arancione e sommata per tutte le informazioni sia la più bassa possibile). FAI il
RISOLUTORE (consente di risolvere problemi di massimo o minimo vincolato o libero) che sta in
dati minimizzando la somma dei residui quadrati e ponendo la possibilità di cambiare A e B senza
porre alcun vincolo
• intercetta della retta dei minimi quadrati (a) =intercetta(dati che nel grafico stanno nell’asse delle
y (spesa); dati che stanno nell’asse delle x (reddito)), pendenza della retta dei minimi quadrati (b)
=pendenza(dati che nel grafico stanno nell’asse delle y (spesa); dati che stanno nell’asse delle x
(reddito)) , IL RESIDUO è LA STIMA CASUALE DELLA EPSILON (non è la epsilon veritiera è
la E poiché vediamo che la epsilon veritiera è quella sotto la dicitura “colpo di fatina”)
• fai grafico clicchi con tasto destro sulla nuvola di punti e scelgo aggiungi linea di tendenza
ciascun residuo è dunque il valore numerico, riferito all’unità i-esima, in eccesso o in difetto, rispetto al
corrispondente valore osservato, che non è “spiegato” dalla relazione lineare con la variabile indipendente.

BONTA DI ADATTAMENTO
Più la nuvola è vicina ad avere la forma di una retta tanto più l’adattamento sarà buono; siamo interessati a
quantificare il grado di scostamento tra valori stimati e valori osservati.
Scomposizione della devianza:
il valore osservato = valore calcolato + residuo

y i = yˆ i + ei si può osservare che la variabilità dei valori osservati può essere scomposta in variabilità
dei valori calcolati + variabilità dei residui PERTANTO

DEV (Y ) = DEV (Yˆ ) + DEV (E )


dove devY è la devianza della spesa y, devY^ è la devianza della spesa ab, devE è la devianza dei residui che
non dipende dal reddito, Y^ è il valore della variabile dipendente previsto dalla legge stimata dalla retta dei
minimi quadrati

R^2 misura la bontà di adattamento ed è


l’INDICE DI DETERMINAZIONE LINEARE = dev Y^/devY = 1 – (devE/devY)
OPPURE
=RQ(variabile y, variabile x)
Quando posso supporre che vi sia una variabile che dipende dall’altra non solo posso fare il coefficiente di
correlazione lineare ma anche la retta dei minimi quadrati e quindi l’indice di determinazione lineare
R^2 è 1 quando i residui sono 0
R^2 non è definito quando la retta di regressione (dei minimi quadrati) è piatta, siccome passa sempre per la
media sarà sempre ad altezza media, la devianza di regressione (Y^) è 0 quando la retta è piatta R^2 =
0/0
Proprietà 1 somma y e somma y^ devono coincidere, pertanto la somma dei residui è uguale a 0
Proprietà 2: utilizzando come X la media del reddito, devo verificare ponendolo nell’equazione della
retta y=mx+q con M che sarebbe la mia pendenza trovata prima e Q la mia intercetta trovata prima,
deve venire Y uguale alla media delle spese originali
Somma dei residui quadrati = devianza dei residui perché la somma dei residui è zero e quindi la media
dei residui è zero
QUANDO USARE COSA A SECONDA DEL TIPO DI VARIABILI CHE HO:
- Quando ho solo distribuzione di frequenza perché le variabili sono entrambe qualitative posso
fare solo: CHI^2, FI^2, V Cramer
- Quando ho variabili quantitative e qualitative oltre a CHI^2, FI^2 e V Cramer (che si rendono
utili quando ciascuna combinazione di modalità delle due variabili ha un’apprezzabile numero
di frequenze perché la variabile quantitativa ha un limitato numero di modalità differenti)
posso fare anche: rapporto di correlazione ETA^2 che misura quanto la quantitativa dipende
in media dalla qualitativa (misura l’associazione)
- Quando ho variabili tutte variabili quantitative, oltre CHI^2, FI^2 e V Cramer e ETA^2 posso
fare anche: coefficiente di correlazione lineare (covarianza/scarti quadratico medi) ed
eventualmente se dipendenti una dall’altra anche la regressione e quindi l’indice di
determinazione lineare RQ
-----------
STATISTICA CAMPIONARIA [vedi ppt]
DEFINIZIONI DI PROBABILITÀ
- Classica: numero di risultati favorevoli all’evento diviso il numero di risultati possibili se tutti i
risultati sono ugualmente possibili
- Frequentista: rapporto tra numero di volte che un evento si è presentato in un “gran” numero di
prove diviso il numero di prove effettuate tutte nelle stesse condizioni (ripetibilità)
- Soggettivista: grado di fiducia che un individuo coerente assegna al verificarsi di un evento sulla
base delle informazioni di cui dispone, dove coerenza è il prezzo che si è disposti a pagare per
riscuotere un importo unitario se si verifica l’evento
-Come scegliere il campione:
esistono due tipi di campione: probabilistici e non probabilistici. si parla di campionamento probabilistico
quando ogni soggetto di cui è composta la popolazione ha la probabilità diversa da zero di essere
incluso nel campione: la scelta delle unità è casuale.
Il campionamento più semplice da immaginare è il campionamento casuale semplice
Campionamento con ripetizione: quando ho estratto una pallina dall’urna la ributto dentro e riestraggo
Come estraggo elementi in un campione: pongo quanti possibili estrazioni diverse posso avere (in questo
caso 16 perché ho 4 famiglie e all’inizio mi può uscire sempre la prima famiglia per la prima unità e poi di
nuovo la prima o la seconda o la terza o la quarta etc.. e quindi scrivo che può uscire aa, ab, ac, ad OPPURE
può uscirmi alla prima estrazione b e alla seconda a, bb, bc, bd OPPURE che può uscire ca, cb, cc, cd
OPPURE che può uscirmi da, db, dc,dd) e scrivo accanto alle coppie tramite la funzione cerca.vert a che
valore corrispondono le varie lettere (cerca.vert(lettera prima unità estratta; nella tabella in cui ho tutti i dati;
che in questo caso ha 2 celle; falso))
Probabilità delle medie campionarie (XBAR, p) si fa facendo le medie dei numeri di componenti unità 1 e
unità 2 estratti e poi trovo la distribuzione campionaria della media campionaria* (tutti i possibili valori che
può assumere in questo caso la media campionaria) e ne faccio la probabilità con conta.più.se(nella colonna
della media campionaria quante volte mi esce i possibili valori che può assumere la media) / il numero
delle medie (conta.numeri della colonna medie) – stessa cosa puoi fare con la funzione di minimo e
massimo
Valore atteso: somma dei prodotti tra i possibili risultati della variabile casuale (distribuzione campionaria)
per la loro probabilità, il valore atteso della media campionaria è uguale alla media della popolazione
*media campionaria: media degli elementi di un campione
Varianza di Xbar =matr.somma.prodotto( (colonna in cui si ha il valore medio della distribuzione
campionaria – il valore atteso)^2; colonna in cui si hanno le probabilità)
Variabile casuale (vc) : numero associato ad un determinato evento es. D = 3
----------
Tutte le distribuzioni normali si possono ricondurre alla standardizzata.
La normale standardizzata (z) ha media pari a 0 e deviazione standard (sigma) pari a 1, la sua area
complessiva è uguale a 1, va da meno infinito a più infinito ma da meno infinito a -4 l’area è trascurabile
La normale è simmetrica
= INV.NORM.S(0,5) restituisce il punto sull’asse Z che ha a sx un’area (prob) pari a 0,5
= DISTRIB.NORM.ST.N(0;1) resituisce la prob fino a 0 della norm standard
= DISTRIB.NORM.ST.N(1;1) restituisce la prob fino a 1 della norm standard
= DISTRIB.NORM.ST.N (4;1) restituisce la prob fino a 4 della norm standard
= DISTRIB.NORM.ST.N(1,3;1)-DISTRIB.NORM.ST.N(0,5;1) restituisce la prob tra 0,5 e 1,3 della norm
standard
Costruire una distribuzione normale: =distrib.norm.n(dati delle x; mi = media ; sigma = deviazione standard;
dove sull’asse delle x ha l’altezza maggiore quindi in x = 0)
se al posto dello 0 mettiamo 1 ci dà la funzione di ripartizione dicendoci quant’è grande l’area che sta da
meno infinito al punto in cui ci troviamo ovvero la probabilità di estrarre un numero compreso in quel tratto
per trovare il valore sullo z se hai l’area =inv.norm.s(probabilità ovvero area che hai)
- per ricondurmi alla z partendo da una variabile casuale X distribuita normalmente ma con media e
deviazione standard qualsiasi mi avvalgo della cosiddetta operazione di standardizzazione che pone
z = (x-mi) / sigma quindi formula inversa Z*sigma + mi =x oppure faccio =inv.norm.n(area x
;media;sigma;1)
-------------
Distribuzione normale è una distribuzione continua ma non uniforme perché aumenta in corrispondenza della
media e crolla velocemente agli estremi, l’intervallo più interessante (ovvero dove si ha la maggiore area
intorno alla media) è lo spazio compreso tra (media – 3*sigma) e (media + 3*sigma) , cioè il 99,73% degli
elementi si trovano in questo intervallo.
Valore centrale -> = (min(dati)+max(dati)) / 2
Se io voglio diminuire la varianza basta aumentare la numerosità campionaria es. nel foglio excel con un
campione di numerosità 3 la varianza è 0,22 mentre con un campione di numerosità 2 la varianza vale 0,34
Esiste un teorema chiamato DEL LIMITE CENTRALE che dice che partendo da qualsiasi distribuzione e
con assunzioni minime, se un dato fenomeno X può essere espresso come somma di n fenomeni casuali
indipendenti ma con stessa distribuzione, allora per n finito ma sufficientemente grande X si distribuisce
approssimativamente come una normale. Per n abbastanza grande possiamo assumere per X la distribuzione
normale. (dove n è il numero di valori nel campione) [file passi logici per la determinazione di un
intervallo di confidenza]
Z = (x- media)/ sigma = (Xmed – mi) / sigma -> si distribuisce come una normale standardizzata
Se estraggo un numero da una normale standardizzata il 50% delle volte è compreso tra -0,67449 e
+0,67449, il 90% delle volte tra -1,64485 e +1,64485, il 95% delle volte tra -1,9599 e +1,9599, il 99% delle
volte tra -2,57 e +2,57
Ma non è così interessante avere informazioni sulla media campionaria quando conosco media e varianza
della popolazione ma il contrario
Intervallo di confidenza: una volta estratto il campione, conosci la media campionaria, la probabilità che la
media non sia distante da Xmed +/- il raggio di confidenza (es. 1,9599) è (nel caso in cui il raggio dia
1,9599) del 95%
Più grande è il campione più piccolo è l’intervallo di confidenza
Stimare intervallo di confidenza:
o fai
il corrispondente sulla zeta del raggio di confidenza (quindi nel caso tu lo voglia avere del 95% devi
prendere 1,9599)* sigma che hai / (n° dati del campione^0,5)
oppure
=confidenza.norm(nel caso in cui tu volessi 95% devi mettere 0,05 ovvero l’area che ti rimane fuori dal
tuo livello di confidenza; sigma che hai; n° dati del campione)
E poi per trovare l’intervallo in cui è compresa fai media – confidenza e media + confidenza
Ma se non conosci il sigma?
Se non avessi il sigma sarei dovuto ricorrere ad una sua stima derivata dal campione. La “migliore (=
corretta e a minima varianza) stima di sigma” è la statistica S la cui formula è
(( sommatoria (xi del campione – la media campionaria)^2 /( n -1))^0,5
= dev.st.c(osservazioni del campione)
Ma se io ho la S e non il sigma il campione non si distribuisce come una zeta e quindi le formule non sono
le stesse
Non posso usare infatti 1,9599 nella formula MA ho bisogno della Tdistudent per campione pari a 8 che si
trova nella tavola sul libro dopo quella della distribuzione standard ( ) ovvero quella di grado di
libertà 7 (perché è il n° dei dati nel campione – 1 ) e cercarlo nella colonna dello 0,025 (perché il mio
raggio di confidenza è 95% e quindi a destra c’è il 2,5% ovvero il 0,025)
Devo usare la Tdistudent con n-1 gradi di libertà, sulle tavole in corrispondenza del rigo 7 gdl, nella
colonna (area della coda di dx 0,025) il numero 2,3646, vuol dire che il 95% della Tdistudent con 7 gdl è
compreso tra -2,3646 e +2,3646, il mio raggio di confidenza è uguale a 2,3646 * sigma stimato S / (n°
dati del campione ^0,5)
Oppure =confidenza.t(nel caso in cui tu volessi 95% devi mettere 0,05 ovvero l’area che ti rimane fuori
dal tuo livello di confidenza; sigma stimato S; n° dati del campione)
Poi per trovare intervallo in cui è compreso fai media – confidenza e media + confidenza
Per campioni più grandi di 100 si può usare la normale standardizzata e quindi la formula di prima.
--------
MODULO 2
NUMERI INDICI SEMPLICI: Rapporti che servono per misurare le variazioni relative di un fenomeno
quantitativo nel tempo (necessaria una serie storica), al numeratore c’è la misura corrispondente al tempo
interessato mentre al denominatore il tempo base.
Numero indice a base mobile: rapporto tra due misure contigue cioè misura attuale / misura precedente, si
riferiscono al tempo del numeratore, indica la variazione rispetto al tempo precedente, sono numeri puri
ovvero senza unità di misura.
Se c’è una base mobile ci possono essere numeri indici a base fissa, ovvero fissando un numero come
denominatore nel rapporto del numero indice
I numeri indici a base mobile misurano le variazioni rispetto al periodo precedente (variazione
congiunturale), la variazione tendenziale invece misura la variazione rispetto ad un anno fa.
Se sottraggo 1 al numero indice ottengo la variazione relativa
- Proprietà di identità: se confrontiamo una situazione temporale con se stessa il numero indice vale 1
- Proprietà di reversibilità delle basi: invertendo il tempo di misurazione con la sua base dovrebbe
venire il reciproco (se i prezzi dal 1980 al 2023 sono raddoppiati, dal 2023 al 1980 erano dimezzati),
in realtà a volte i numeri indici misurati dall’ISTAT per misurare la variazione complessiva dei
prezzi non godono di questa proprietà
- Proprietà di transitività delle basi: fenomeno che da T va a Q e da Q va a R, l’aumento di prezzo
della benzina dal tempo T al tempo R può essere spezzato come l’aumento dal tempo T al tempo Q
per l’aumento da Q a R. ed è vero anche tornando indietro nel tempo.
In virtù della proprietà di transitività è possibile passare da un
numero indice con una determinata base fissa ad un altro numero
indice con altra base fissa
Per avere tutta la serie storica con una nuova base avendo una
vecchia base devo prendere la seria storica di quelli con la
vecchia base e dividerli per il numero indice espresso nella
vecchia base ma relativo alla nuova base, la nuova base deve
valere 1 quindi devo dividere tutto per il valore che prima
corrispondeva a quello che ora voglio prendere come nuova base
Se voglio un generico indice di un generico tempo in base 18
novembre e c’ho quelli in base 12 novembre devo prendere quelli in base 12 novembre e dividerli per il
valore che il 18 novembre con base 12 novembre aveva come numero indice (ovvero il coefficiente di
raccordo).
------------
Il prezzo della benzina da gennaio a novembre è aumentato del 12% e da agosto a novembre è aumentato del
7%. Da gennaio ad agosto come è variato?
Se 7% * x = 12% , X = 12% / 7% cioè 1,07 * x = 1,12 e quindi 1,12/1,07 = x

I I I I I I
Passare da base mobile a base fissa: 0 5 = 0 1 * 1 2 * 2 3 * 3 4 * 4 5 - > X5/ X0

ni a base mobile partendo da ni a base fissa: basta che prendi il valore dei ni a base fissa e lo dividi per il suo
precedente

NUMERI INDICI SINTETICI


FORMULA DI LASPEYERES (più utile perché devo solo rilevare i prezzi nuovi di volta in volta non le
quantità andando avanti nella serie storica perché tanto, come vedremo dalla formula, prendo sempre le
quantità al tempo 0) : fare i numeri indici semplici dei prezzi al tempo t in base tempo 0 (t/0), avere le
quantità acquistate al tempo t e al tempo 0, fare i prezzi al tempo 0 * le quantità al tempo 0 e poi fare
=matr.somma.prodotto(dati ottenuti da p0*q0; ni semplici del tempo t in base 0) / somma dei dati ottenuti da
p0*q0
= Sommatoria pt * q0 / sommatoria p0 * q0 OVVERO
= matr.somma.prodotto( prezzi al tempo t ; quantità al tempo 0) / matr.somma.prodotto( prezzi al tempo 0 ;
quantità al tempo 0)
Dove 0 è il tempo base
Confronta il valore prezzi di oggi vs prezzi di ieri del paniere di ieri, la spesa con i prezzi di oggi ma le
quantità che acquistavo allora con la spesa che facevo allora
FORMULA DI PASCHE: fare i numeri indici semplici dei prezzi al tempo t in base tempo 0 (t/0), avere le
quantità acquistate al tempo t e al tempo 0, fare i prezzi al tempo 0 * le quantità al tempo t e poi fare
=matr.somma.prodotto(dati ottenuti da p0*qt; ni semplici del tempo t in base 0) / somma dei dati ottenuti da
p0*qt
= sommatoria pt * qt / sommatoria p0* qt OVVERO
=matr.somma.prodotto(prezzi al tempo t ; quantità al tempo t) / matr.somma.prodotto( prezzi al tempo 0 *
quantità al tempo t)
Dove 0 è il tempo base
Confronta la spesa di oggi con quanto avrei speso con i prezzi di allora le stesse quantità di oggi
Né l’indice di Laspeyeres né quello di Pasche godono di reversibilità delle basi né della circolarità
(transitività)
---------
Se faccio il rapporto di due numeri indici di Laspeyeres con la stessa base si ottiene un altro indice che non è
di Laspeyeres.
Indice Pasche in base zero a tempo t è uguale al reciproco dell’indice Laspeyeres in base t al tempo 0.
INDICE DI FISHER: radice quadrata del prodotto tra indice di Laspeyeres e Pasche ovvero la loro media
geometrica
SCALA DI EQUIVALENZA
il coefficiente di equivalenza non aumenta proporzionalmente al numero di componenti perché vi sono delle
economie di scala
funzionano come i numeri indici
la frazione di beni necessari all’aumentare del reddito diminuisce, a parità di spesa totale la famiglia di due
persone spende una frazione minore in cibo della famiglia di 4 persone, la frazione di spesa in cibo è una
proxi di livello di benessere, più alta è più povero sei. Affinché la scala sia sempre 1,9 per 5 persone sia per i
poveri che per i ricchi è necessario che le curve abbiano la stessa intercetta ma pendenza differente
ANALISI DELLA POVERTÀ
Modello di Engel

Wn = a +b * log (X che sarebbe CN) + c * (Nc −Nr )


dove:
- WN è la frazione di spesa in beni necessari
- X è il reddito-spesa totale
- Nc è il numero di componenti di una famiglia generica
- Nr è il numero di componenti della famiglia di riferimento
- a, b e c sono i parametri
Essa mette in relazione la frazione di spesa in beni alimentari con la spesa totale sostenuta da una famiglia e
con la composizione demografica della famiglia stessa. Prende in considerazione la frazione di spesa in beni
necessari, di cui i beni alimentari costituiscono una parte. Sono detti beni necessari quelli la cui frazione di
spesa è decrescente all’aumento del reddito. Per tale categoria di beni la frazione di spesa può essere pertanto
utilizzata come una misura indiretta del grado di benessere materiale per una famiglia: avremo cioè che due
famiglie hanno lo stesso tenore di vita se è uguale la frazione di spesa in beni necessari. La frazione di spesa
è diversa, possiamo dire che la famiglia per la quale essa è maggiore avrà un tenore di vita più basso
dell’altra. La frazione di spesa in beni necessari, che, come abbiamo detto, per definizione decresce
all’aumentare del reddito, ha viceversa un andamento crescente rispetto alla numerosità familiare.
jconsalf : consumi alimentari fuori casa
jconsalc : consumi alimentari in casa
WC : frazione di spesa in cibo
Nella q16e i dati sono mensili quindi quando fai i WC devi
moltiplicare per 12, FAI -> = cons_alim / (CN/12)
Il numero di componenti lo trovi nella carcom mentre nella
risfam trovi nquest, Y, CN, CD1 e 2, CD, C, S mentre nella
q16e trovi jconsalc e quindi cons_alim che è jconsalc1 +
jconsalc 2

Gli NCOMP per metterli nella tua tabella o fai:


=cerca.vert(nquest; intervallo in carcom16 che comprende nquest e ncomp; 2; falso)
OPPURE
tabella Pivot (nquest nelle righe e ncomp in valori dove fai conteggio)
OPPURE
=conta.più.se(colonna A della carcom; nquest nella tua tabella)
Al crescere di CN il WC dovrebbe diminuire (CN è la spesa in beni non durevoli)
Balzo dell’intercetta: distanza tra le rette dei puntini
lnCN va riportato al valore mensile quindi dividi CN/12
Analisi dati: su y metti WC su X metti primo dato di lnCN: secondo dato ultima cella in basso di NC-NR
(devono essere attigue)
a = frazione di spesa in alimenti ovvero dato sull’asse delle y
b = logCN
c = Nc - Nr
Supponiamo adesso di voler calcolare, una volta conosciuti i parametri, la SDE relativa ad una famiglia di Nc
persone, dopo avere convenzionalmente stabilito che la famiglia di riferimento sia composta da Nr
elementi. Avremo per le due famiglie:

WC1 = a + blog (Xc )+ c  ( Nc −Nr )

WC2 = a + b  log (Xr )

dove Xc e Xr sono le spese sostenute dalla famiglie c e r (di riferimento), per raggiungere, rispettivamente,
le quote di spesa in alimenti WC1 e WC2 . Sottraendo la seconda equazione dalla prima avremo, in
corrispondenza dello stesso livello di quota di spesa in alimenti (ovvero stesso livello di benessere
materiale):
Tale rapporto, come si è detto prima, rappresenta proprio la SDE ricercata.

-----------

SERIE STORICHE
Serie storica: serie di valori che misurano un fenomeno singolo su una sola osservazione ma
ripetuto nel tempo
Variabile indipendente è il tempo.

Come per la regressione, la componente tendenziale (quello che esce dall’equazione) e la componente
accidentale (la epsilon della regressione lineare in pratica il colpo di fatina) così come l’intercetta e la
pendenza sono nascoste allo statista

Nel caso della gelateria tuttavia c’è anche un’altra variabile che influenza le vendite: la stagionalità, un
fenomeno che si ripete tutti gli anni e si compensa all’interno dell’anno (es. agosto stagione positiva per
gelati, dicembre stagione negativa ma fatti tutti i conti in un anno non si può dire né stagione positiva né
negativa)

Per definizione all’interno di dodici mesi contigui le stagionalità si compensano


La retorica delle serie storiche si basa sul principio “history repeating itself”
Mm3: media mobile centrata a tre termini, è una media che comprende tre valori che si muovono perché non
dollaro copiandola in fondo, il primo valore per cui posso fare la mm3 è il secondo mentre l’ultimo valore
per cui posso calcolare la mm3 è il penultimo mm3 smussa la serie storica
Aumentando l’ordine della media mobile lo smussamento è più evidente, provo a fare la mm7
MEDIA MOBILE PONDERATA mm12C
Se prendo una mm12 allora dodici termini contigui avranno tutte le stagionalità ma poi non è più centrata
perché i mesi sono 12 quindi un numero pari allora ne prendo 13 ma così facendo prendo due volte gennaio
ogni volta la stagionalità è addirittura invertita: in corrispondenza dei picchi delle serie con solo kg di gelato
ci sono dei declini nella serie storica di mm13 e viceversa
Si risolve con una media ponderata: dando meno peso ai gennai prendendo nella media prima i tredici
termini poi solo gli 11 interni
Es. =media(d2:d14; d3:d13)
FACCIO POI:
- Differenze lorde: valori previsti – mm12C
- Differenze nette: =media.più.se(colonna delle differenze lorde; colonna del tempo; tempo)
- Media delle differenze
- Differenze nette aggiustate: differenze nette– media delle differenze medie
- Tt: intercetta + pendenza*tempo -> intercetta e pendenza trovate su yt destagionalizzato e tempo
- Yt destagionalizzato: differenze lorde – differenze nette aggiustate
Con la variabile X che è il tempo e con la Yt destagionalizzata posso calcolare la retta dei minimi quadrati
utilizzando la regressione lineare semplice
- Per trovare le Yt cappello (YT MODELLO) stavolta non posso solo moltiplicare il tempo per la
pendenza e aggiungerci l’intercetta ma devo aggiungerci anche la stagionalità ricavata dalla tabellina
dove si trovano le differenze medie aggiustate che ho trovato facendo differenze nette – media delle
differenze.
- Errore assoluto relativo percentuale (APE): valore assoluto della (sottrazione tra valori osservati e Yt
cappello ovvero modello completo)/valori osservati ovvero quanto hai sbagliato nella tua stima
- MAPE: media dell’errore assoluto relativo percentuale, misura quanto il mio modello si adatta bene
ai dati goodness of fit
Può essere misurata anche la goodness of forecast ovvero la bontà di previsione.
!!!!!!! Le variabili componente tendenziale, accidentale e stagionale possono anche moltiplicarsi tra loro e
non addizionarsi. !!!!!!!!
Quando le fluttuazioni del grafico diventano sempre più grandi (le “montagne” sono più alte da una parte o
dall’altra, molte fluttuazioni) probabilmente è meglio il modello moltiplicativo
A differenza del modello additivo il modello moltiplicativo fa:
- Al posto delle differenze lorde i COEFFICIENTI LORDI (valore osservato/valore calcolato mm12c)
- Devo fare tabellina con entrambi sia le differenze nette (media.piu.se colonna diff lorde; colonna
mesi; mese) sia il COEFFNETT(facendo la media.più.se ma con la colonna del coefficiente lordo)
- COEFFICNETTAGG al posto di differenze medie aggiustate facendo coeffnett / media dei coeffnett
- Tt: intercetta+pendenza*tempo
- Y destag MOLT fa il valore osservato DIVISO il coefficiente aggiustato
- Y capp MOLT (YT MODELLO): (intercetta+pendenza*t)*coefficiente di stagionalità
Se coefficienti lordi girano intorno all’1 allora è stato usato il modello moltiplicativo

Potrebbero piacerti anche