Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
13/09/23
Excel (piangere)
Creazione data set: in ogni database (può essere gruppo di tabelle che descrivono info di un dato oggetto) c’è
un campo (colonna che contiene un’info), una chiave primaria (campo che consente di identificare ciascun
elemento di una colonna, quella più semplice è un numero progressivo es. n° di matricola)
Per non copiare il numero ma estendere la progressione ne selezioni 2 se ne selezioni 1 te la copia
Da blocca riquadro puoi blocca l’intestazione (freeze top row da visualizza però prima c’hai da seleziona la
colonna)
=casuale.tra(n°;n°) estendilo da doppio clic su freccia nera RANDBETWEENEW
: per intervallo di celle
Somma -> sum
=ass FA IL VALORE ASSOLUTO
Media puoi farla anche solo esplicitando la lettera della colonna
Rivediti come sono le formule in inglese o cazzo cambia la lingua cogliona DAMMI UN ATTIMO CRISTO
Distribuzione di frequenza (vuole sapere quante volte c’è una variabile): scegli la variabile (in questo caso
classe di spesa che può essere bassa, media, alta) e fai conta.se COUNTIF(intervallo; variabile) poi puoi
copiare la formula dal quadrato
Conta.più.se = COUNTIFS si usa quando si chiede quante volte si verifica una condizione e anche un’altra
(se la condizione è<=,>0 etc ci vogliono le virgolette)
Il $ blocca la casella di riferimento
Per tavola pitagorica devo fissare la colonna dei numeri e la riga del secondo termine es. $A2*B$1
Per ordinare i campi in ordine crescente/decrescente: clicchi una casella della tabella preferibilmente del
titolo e da menù dati clicchi ordina
Strumento filtro: menù dati opzione filtro, ATTENZIONE QUESTA FUNZIONE NON CANCELLA I DATI
CHE NON SELEZIONA LI NASCONDE quindi se fai tipo la funzione max dopo aver filtrato ti considera
anche le celle nascoste dovrei copiare la tabella filtrata, incollarla in un altro foglio e POI fare max o min
così ti considera solo quelle filtrate non anche quelle nascoste
Tabella pivot: tabellina di sintesi che parte da tabellona dispersiva, la tabella di partenza deve essere fatta
bene senza interruzioni con colonna libera accanto e libera sotto, seleziono una cella della tabella, dal menù
INSERISCI, ti serve per organizzare i dati sposti nelle righe o nelle tabelle i dati di cui vuoi sapere i numeri e
poi es. tipo di negozio nelle righe e paese nelle colonne poi sposti i dati relativi ai numeri sullo spazio della
sommatoria e tramite il menù a tendina scegli cosa vuoi sapere es. sposti i dati riguardo alla superficie nello
spazio sommatoria e vuoi sapere qual è la superficie massima di ogni tipo di negozio in ogni paese lo fai
scegliendo max dal menù a tendina perché semplicemente spostandotelo nella sommatoria ti fa la somma di
tutti i negozi di quel tipo in quel paese
LEZIONE 2
Casuale è una funzione uniforme perché ciascun intervallo della stessa ampiezza ha la stessa probabilità di
essere scelto Casuale() ti dà un numero compreso tra 0 e 1
Casuale() poi fatto conta.più.se per trovare quanti numeri sono compresi tra due numeri e poi ho diviso per il
numero dei dati per ottenere una probabilità
Arrotonda(una certa cosa; n° di decimali che voglio vedere)
Pi.greco()
=arrotonda(se(casuale()<0,8;B2;B2*(0,9+0,25*casuale()));3) arrotondami a 3 decimali che partendo dal
prezzo precedente l’80%percento delle volte non cambia ma quando cambia cambia di un numero casuale
compreso tra 0,9 e 1,15
ESTRAIMI UN NUMERO CASUALE CHE L’80% DELLE VOLTE è UGUALE A B2 MA QUANDO
NON LO è, è PARI A B2 AUMENTATO DI UN NUMERO COMPRESO TRA 0,9 E 1,15 (1,15 è la somma
di 0,9 e 0,25 perché dall’estrazione casuale () può uscire un numero compreso tra 0 e 1 quindi verrebbe o
0,25 * 0 = 0 e quindi 0,9 o 0,25 * 1 e quindi 1,15, ciò viene fatto per far sì che il numero possa fluttuare sia
in positivo nel caso in cui il numero sia maggiore di 1 e quindi se B2 fosse il prezzo della benzina questo
aumenterebbe o anche in negativo nel caso in cui venga un numero inferiore a 1 E QUESTO NUMERO ME
LO ARROTONDI A TRE CIFRE DECIMALI
Serie storica: una sola unità osservata ma le osservazioni sono ripetute nel tempo
Menomale è solo un’introduzione
--------
Obbiettivo dell’indagine: conoscenza di aspetti di un fenomeno collettivo.
La procedura di indagine si svolge tramite l’individuazione dell’obbiettivo e della popolazione di interesse
per poi delinearne i caratteri. Questi raccolti confluiscono in dati statistici e, tramite l’elaborazione e sintesi
di quest’ultimi, riesco ad analizzare il fenomeno collettivo desiderato.
POPOLAZIONE STATISTICA: quella di cui voglio sapere qualcosa
CARATTERE: aspetto della realtà che si manifesta all’osservazione, ciascun carattere ha varie MODALITÀ
vale a dire modi di presentarsi del carattere -> classificati in:
n sud A =conta.più.se(B:B;
E3; A:A; F2)
n nord B
n sud C
n sud D
n nord E
n sud F
INDICI DI POSIZIONE
Valore che esprime sinteticamente il valore di una posizione della distribuzione sull’asse reale.
➔ Si sostituiscono i valori osservati con un unico valore costante, destinato a rappresentarli tutti, con la
condizione che la sostituzione non alteri una caratteristica della successione che si assume come
“invariante”
Aumentare una roba per es. 3% moltiplicare quella cosa per 1.03
Togliere es. 14% a una roba moltiplicare quella cosa per 0.86
Il tasso medio da applicare se alla fine voglio lo stesso montante di una banca che negli anni mi dà tre tassi di
aumento diversi non è la media aritmetica: la radice cubica (perché sono 3) del prodotto dei tre fattori di
capitalizzazione -1 mi dà il tasso che mantenendosi costante mi dà una cifra che è uguale a quello ottenuto
dalla moltiplicazione ogni anno di tassi diversi -> media geometrica si usa quando i valori che
moltiplicano una cifra di volta in volta sono diversi l’uno dall’altro
=(n*n*n)^(1/3) (1 diviso 3 perché metto la radice cubica)
Oppure
=media.geometrica(intervallo di celle)
Media quadratica: radice quadrata della somma dei quadrati diviso il numero dei fattori che vengono
sommati -> excel non ce l’ha ma ha la somma dei quadrati (=somma.q) e poi ti basta dividerla per il numero
dei fattori con la formula =conta.numeri(intervallo di celle) e tutto lo elevi all’1/2
Per trovare valore che mantiene area invariata media quadratica, per trovare valore che mantiene perimetro
invariato media aritmetica può essere fatta sia scrivendo =media(intervallo) o facendo
=somma(intervallo)/conta.numeri(intervallo)
Media ponderata: quando non tutti gli elementi della media hanno lo stesso peso si vuole dare maggiore
importanza a degli elementi rispetto ad altri ->
( x1 per il peso 1 + x2 per il peso 2+ x3 per il peso 3 ) / somma pesi
Sommatoria delle x per il peso / sommatoria dei pesi
Moda: modalità con frequenza più alta, può essere calcolata anche per caratteri qualitativi
MEDIA ARITMETICA PONDERATA = media aritmetica semplice ma con i dati in distribuzione di
frequenza
Moltiplico in un’altra colonna gli xi *mi e poi faccio la somma degli xi*mi / la somma delle frequenze (mi)
dove mi è quante volte gli xi compaiono
Bisogna fare xi * mi / somma mi -> media da distribuzione di frequenza = media aritmetica ponderata simile
a media ponderata per cui in excel non esiste una funzione specifica OPPURE FARE
=matr.somma.prodotto(intervallo dati; intervallo frequenze dei dati)/somma(intervallo frequenze)
---------------------
INDICI DI VARIABILITÀ: può confrontare
- quanto lontano ogni carattere è dalla media aritmetica: quanto più gli indici sono vicini allo zero
tanto più bassa è la variabilità ovvero variabilità minima mentre in generale non c’è una variabilità
massima (variabilità intorno al valore simbolico) -> SCARTI DALLA MEDIA (somma degli scarti è
sempre 0 pertanto è necessario fare la somma dei quadrati degli scarti utilizzando la formula della
DEVIANZA =dev.q(intervallo celle) che in sostanza fa la sommatoria (valori meno il valore medio)
^2, la variabilità non dipende soltanto da quanto i valori sono lontani dal valore centrale ma anche
dal numero di valori pertanto devo trovare la VARIANZA vale a dire la media degli scarti al
quadrato e si trova facendo devianza / n° dei dati o con la formula excel = var.p(intervallo di
celle), SE però hai solo un campione e non l’intera popolazione è necessario fare la VARIANZA
CAMPIONARIA che calcola il SIGMA^2 che in sostanza fa la sommatoria (valori-valore medio)^2
/ n° valori -1 e si calcola con excel con la formula =var.c(intervallo); lo SCARTO QUADRATICO
MEDIO calcola invece il valore medio della distanza dal valore medio e si calcola facendo la
sommatoria (valori – valore medio)^2/ n° valori tutto sotto radice quadrata vale a dire varianza
sotto radice quadrata o con excel =dev.st.p(intervallo)
COEFFICIENTE DI VARIAZIONE (numero puro perché non ha unità di misura) = scarto
quadratico medio / media, il risultato messo in percentuale-> serve per confrontare variabilità
tra gruppi di osservazioni diverse, per avere un’idea in termini relativi della variabilità e confrontare o la
stessa variabile su pop. diverse o due variabili sulla stessa pop. OGNI VOLTA CHE MI CHIEDONO
DI CONFRONTARE LA VARIABILITÀ FACCIO IL COEFFICIENTE DI VARIAZIONE
- Se però abbiamo tantissime osservazioni non è pensabile utilizzare la differenza media semplice.
Allora dapprima ORDINIAMO i valori in ordine crescente poi calcolo gli FI ovvero la frazione di
redditieri che ha un ammontare di denaro inferiore o uguale a xi (1 : n° dati per la prima cella, 1
: n° dati + numero della cella di sopra per la seconda di cui poi copi la formula fino in fondo) poi
calcolo i QI ovvero la quantità dei soldi detenuta da una tot. frazione della popolazione facendo
la =somma(dati fino alla frazione di cui vuoi calcolare)/somma(tutti i dati) ATTENTA PERÒ
ricordati di bloccare con i dollari le righe della somma di tutto e la riga del primo valore (es.
=somma(B$2:B7)/somma(B$2:B$10)) PUOI FARCI LA CURVA DI LORENTZ prendendo gli FI
sull’asse delle x e i QI sull’asse delle y in un grafico a dispersione o con pallini dispersi o con pallini
uniti da una spezzata; per calcolare R a questo punto fai i casi di massimo e equidistribuzione e
tenendo con control i primi fi e qi e gli altri qi ci fai un grafico unico poi per calcolare R fai la
somma degli FI originali dal primo al penultimo – la somma dei QI originali dal primo al
penultimo tutto diviso la somma degli FI originali dal primo al penultimo
- Oppure fai l’area del triangolo dell’equidistribuzione che è mezzo quadrato ovvero 0,5 MENO
l’area del poligono (insieme di trapezi) ottenuto dalla spezzata della distribuzione veritiera e il
cartesiano che si trova trovando la base (ciascun Qi + quello precedente) e l’altezza (ciascun Fi –
quello precedente) e facendo =matr.somma.prodotto(intervallo basi; intervallo altezze)/2
trovando da questa sottrazione l’AREA SPICCHIO poi trovi area del triangolo di max
concentrazione facendo base (decimale corrispondente alla frazione prima di quello che detiene
tutta la roba) * altezza (1) / 2 e infine fai area spicchio (ovvero quello ottenuto dalla prima
sottrazione) DIVISO area spicchio max concentrazione
----------------
Trimmed mean: sia mediana che media sono indici di posizione sintetici, la mediana non risente dei valori
eccezionali/misure terribilmente sbagliate, la trimmed mean ordina i valori butta via un certo numero dei più
piccoli e più grandi calcolando la media dei valori intermedi.
Box plot: grafico che dà un’idea della distribuzione del carattere dandone una panoramica
FUNZIONE CERCA.VERT
Serve per recuperare una cella che sta sulla stessa riga di una cella che ha un particolare codice
=cerca.vert(cosa cercare nel foglio attuale; dove cercarlo ovvero file e intervallo di celle; qual è il numero
della casella dove si trova il dato che voglio; FALSO)
----------------
INDICI DI ASSOCIAZIONE= tutti quegli indici che mi misurano l’associazione
Individua se è presente un legame tra due caratteri X e Y, in particolare si verifica l’esistenza o meno di
regolarità nell’associazione tra le modalità osservate dei due caratteri.
Misurano due aspetti:
- L’intensità del legame
- La direzione del legame
È necessario partire da una distribuzione doppia di frequenza (es. tabella pivot di dove si siedono uomini e
donne in aula se all’inizio, a metà o alla fine)
X righe Y colonne
• Se data una distribuzione doppia di frequenza, ad ogni modalità di X corrisponde una sola modalità
di Y e viceversa si ha una perfetta interdipendenza tra Y e X o dipendenza bilaterale (es. se
abbiamo che la classe si divide in italiani, tedeschi e francesi e ogni persona della stessa nazionalità
si siede in una delle tre parti dell’aula)
• Se data una distribuzione doppia di frequenza, ad ogni modalità di Y corrisponde una sola modalità
di X ma non il viceversa si ha una perfetta dipendenza di X da Y (se ci si divide sempre in italiani,
tedeschi e francesi ma sono solo due le parti in cui è divisa l’aula pertanto due gruppi si siedono in
una stessa parte che è più grande)
• Se data una distribuzione doppia di frequenza, ad ogni modalità di X corrisponde una sola modalità
di Y ma non viceversa si ha una perfetta dipendenza di Y da X (se ci si divide solo in italiani e
tedeschi e le parti dell’aula sono 3 pertanto es. i tedeschi si siedono in due zone)
Differenza tra frequenze relative e frequenze teoriche:
frequenze relative: quelle che effettivamente scaturiscono da una distribuzione di frequenza reale
frequenze teoriche: se effettivamente si rispettassero le percentuali dei gruppi sul totale
es.
se ci sono 31 donne e 26 uomini disposti in 3 zone dell’aula, il totale è dunque 57 di cui 54,38% donne
(calcolato facendo il totale donne / totalone) e 45,61% uomini.
Le donne sono effettivamente 13 all’inizio, 11 a metà e 7 alla fine. Queste sono le frequenze effettive
Gli uomini sono effettivamente 0 all’inizio, 9 a metà e 17 alla fine.
Pertanto ci sono 13 posti all’inizio, 20 nel mezzo e 24 alla fine.
Ora vogliamo calcolare quanti uomini e donne ci sarebbero in ogni parte se fossero rispettate le percentuali.
Calcoliamo quindi le frequenze teoriche potendolo fare in 3 modi:
1. Calcoli se nella prima parte ci sono 13 persone quanto è il 54,38% di 13 per vedere le donne e il
45,61% di 13 per vedere gli uomini facendo la stessa cosa per ogni parte (quanto è il 54,38% e il
45,61% di 20 etc…) =totale complessivo della zona *percentuale donne-uomini
2. Calcoli sul totale la percentuale di gente seduta in ogni parte dell’aula facendo il = totale della zona /
totalone e poi calcoli quella percentuale che ti viene del totale donne-uomini
3. Fai = (totale riga (quindi zona) * totale colonna (quindi donna o uomo)) / totalone (che poi sarebbe
donne + uomini indipendentemente da dove si trovano)
SE LE FREQUENZE EFFETTIVE NON COINCIDONO CON QUELLE TEORICHE si può affermare che
tra i caratteri X e Y c’è un “certo grado di dipendenza” che può essere calcolato tramite le CONTINGENZE
CONTINGENZE : si calcola facendo = (frequenza effettiva – frequenza teorica)^2 / frequenza teorica
per ogni carattere ovviamente (quindi per le donne e uomini all’inizio, metà e fine)
INDICE DI CHI^2 : indica la distanza della distribuzione effettiva da quella teorica e si calcola facendo la
somma di tutte le contingenze
INDICE DI FI^2: ovvero la contingenza quadratica media, dipende dal numero delle celle della tabella e si
calcola facendo il CHI^2 / totalone
INDICE DI V CRAMER: si fa facendo la √ (FI^2 / il risultato che è più piccolo tra le sottrazioni numero di
righe – 1 e numero di colonne -1 )
---------------
2. Media dei valori di vari gruppi che hanno un determinato carattere qualitativo (es. media altezze
donne e media altezze uomini) se non usi la tabella pivot devi fare =media.più.se(intervallo celle di
cui ti deve fare la media; intervallo celle in cui sta un carattere qualitativo che divide gli
individui totali di cui vuoi fare la media in due gruppi con due medie; “carattere qualitativo”)
3. Fare varianza totale su tutti i dati (es. su tutte le altezze)
4. Fare varianza di un gruppo (es. varianza altezze donne e varianza altezza uomini)
5. Fare varianza within (ovvero interna al gruppo che non dipende quindi dal sesso ma
semplicemente dal fatto che gli individui osservati sono diversi di per sé) e si fa facendo =((varianza
gruppo 1 * n°dati del gruppo)+(varianza gruppo 2 * n° dati del gruppo) / n° dati totali) oppure
=matr.somma.prodotto(intervallo n° dati; intervallo varianze)/totale dati
6. Fare varianza between (ovvero che dipende dal sesso) e si fa facendo =( media gruppo 1 – media
complessiva)^2*n° dati del gruppo + (media del gruppo 2 – media complessiva)^2 * n° dati del
gruppo) / totale dati
7. Fare indice ETA^2 che misura quanto la differenza di altezza in questo caso dipende dal sesso e si
fa facendo varianza between/varianza totale
Il coefficiente di correlazione lineare misura intensità e direzione del legame LINEARE tra le
due variabili e si fa facendo =covarianza / (scarto quadratico medio variabile 1* scarto quadratico
medio variabile 2) OPPURE =correlazione(intervallo variabile 1; intervallo variabile 2) questo è un
numero puro ovvero senza unità di misura.
come mai dico lineare?
perché potrebbe darsi che tra due variabili ci sia un forte legame ma che essendo non lineare non viene colto
dalla correlazione lineare. Quando trovo un coefficiente di correlazione lineare molto vicino allo zero dico
che praticamente non c'è relazione. Il coefficiente di correlazione lineare non mi coglie i numeri che nel
grafico hanno forma di parabola.
SPIEGAZIONE REGRESSIONE LINEARE SEMPLICE (ppt)
Oltre allo studiare l’intensità del legame esistente tra due variabili ci interessa anche studiare come varia una
variabile al variare dell’altra individuando una funzione che sintetizzi tale relazione: se c’è solo una variabile
indipendente si tratta di una regressione semplice altrimenti si dice regressione multipla.
Si parla di regressione quando si studia il legame tra una o più variabili indipendenti che determinano una
variabile dipendente. Ci consente inoltre anche funzioni di previsione per quanto riguarda le serie storiche.
Se dopo aver rappresentato graficamente i dati con un grafico di tipo scatter plot, individuiamo una
progressione di tipo lineare (che non sia una parabola) possiamo voler sintetizzare tale regolarità mediante
una funzione analitica “ragionevolmente semplice”. Il presupposto è che esista una variabile X indipendente
o esogena e una variabile Y dipendente. La scelta del ruolo delle due variabili è una scelta extra-statistica.
APPROCCIO INFERENZIALE
Variabile dipendente = intercetta della popolazione (alfa) + coefficiente angolare della popolazione
(beta) *variabile indipendente + errore casuale
Yi = + β Xi + ε i
Assiomi di partenza:
1. fra x e y c’è una relazione lineare (non perfetta perché sporcata dall’errore)
2. gli errori hanno tutti lo stesso valore atteso pari a 0 e la stessa varianza, pari a sigma^2 = la variabile
casuale è a media 0 e sempre con la stessa varianza, la variabilità non dipende dal reddito della
famiglia ad es.
3. i valori della x sono noti senza errore
quale retta? Quella con la somma degli scarti al quadrato della distanza dei punti dei valori sul grafico
dalla retta più bassa (somma dei quadrati dei residui minima), facendo questi calcoli si ottiene la retta dei
minimi punti che esiste sempre ed è unica
n n n n
y x i
2
i − x x i i yi
a = i =1 i =1 i =1 i =1
2
n x i2 −
n n
xi
i =1 i =1
n n n
n xi y i − x y i i
b = i =1 i =1 i =1
2
n x i2 −
n n
xi
i =1 i =1
• fai il quadrato dei residui, fai la somma dei quadrati dei residui (la distanza in verticale tra pallino
blu e arancione e sommata per tutte le informazioni sia la più bassa possibile). FAI il
RISOLUTORE (consente di risolvere problemi di massimo o minimo vincolato o libero) che sta in
dati minimizzando la somma dei residui quadrati e ponendo la possibilità di cambiare A e B senza
porre alcun vincolo
• intercetta della retta dei minimi quadrati (a) =intercetta(dati che nel grafico stanno nell’asse delle
y (spesa); dati che stanno nell’asse delle x (reddito)), pendenza della retta dei minimi quadrati (b)
=pendenza(dati che nel grafico stanno nell’asse delle y (spesa); dati che stanno nell’asse delle x
(reddito)) , IL RESIDUO è LA STIMA CASUALE DELLA EPSILON (non è la epsilon veritiera è
la E poiché vediamo che la epsilon veritiera è quella sotto la dicitura “colpo di fatina”)
• fai grafico clicchi con tasto destro sulla nuvola di punti e scelgo aggiungi linea di tendenza
ciascun residuo è dunque il valore numerico, riferito all’unità i-esima, in eccesso o in difetto, rispetto al
corrispondente valore osservato, che non è “spiegato” dalla relazione lineare con la variabile indipendente.
BONTA DI ADATTAMENTO
Più la nuvola è vicina ad avere la forma di una retta tanto più l’adattamento sarà buono; siamo interessati a
quantificare il grado di scostamento tra valori stimati e valori osservati.
Scomposizione della devianza:
il valore osservato = valore calcolato + residuo
y i = yˆ i + ei si può osservare che la variabilità dei valori osservati può essere scomposta in variabilità
dei valori calcolati + variabilità dei residui PERTANTO
I I I I I I
Passare da base mobile a base fissa: 0 5 = 0 1 * 1 2 * 2 3 * 3 4 * 4 5 - > X5/ X0
ni a base mobile partendo da ni a base fissa: basta che prendi il valore dei ni a base fissa e lo dividi per il suo
precedente
dove Xc e Xr sono le spese sostenute dalla famiglie c e r (di riferimento), per raggiungere, rispettivamente,
le quote di spesa in alimenti WC1 e WC2 . Sottraendo la seconda equazione dalla prima avremo, in
corrispondenza dello stesso livello di quota di spesa in alimenti (ovvero stesso livello di benessere
materiale):
Tale rapporto, come si è detto prima, rappresenta proprio la SDE ricercata.
-----------
SERIE STORICHE
Serie storica: serie di valori che misurano un fenomeno singolo su una sola osservazione ma
ripetuto nel tempo
Variabile indipendente è il tempo.
Come per la regressione, la componente tendenziale (quello che esce dall’equazione) e la componente
accidentale (la epsilon della regressione lineare in pratica il colpo di fatina) così come l’intercetta e la
pendenza sono nascoste allo statista
Nel caso della gelateria tuttavia c’è anche un’altra variabile che influenza le vendite: la stagionalità, un
fenomeno che si ripete tutti gli anni e si compensa all’interno dell’anno (es. agosto stagione positiva per
gelati, dicembre stagione negativa ma fatti tutti i conti in un anno non si può dire né stagione positiva né
negativa)