Statistic A

Statistica
01 Introduzione alla Statistica

La statistica si divide in 2 grandi aree:
 Statistica descrittiva (organizza, riassume e si usa per la descrizione e rappresentazione dei dati)
 Statistica Inferenziale (fa previsioni, testa ipotesi)
La popolazione (o Universo) è qualsiasi insieme di elementi che forma l’oggetto di uno studio statistico.
Vantaggi: ricerca accurata;
Svantaggi: tempi lunghi, costosa e non sempre realizzabile.
Campione: comprende solo una parte della popolazione; esso è un sottoinsieme della popolazione
composto da n partecipanti, tutti con la stessa caratteristica oggetto della ricerca. E’ indispensabile che sia
rappresentativo della popolazione. Un campione è rappresentativo se i partecipanti alla ricerca riflettono le
caratteristiche dell’intera popolazione.
Alcuni possibili metodi per ottenere un campione rappresentativo:
1. Ottenere un campione abbastanza ampio (elevata numerosità) per avere dei risultati generalizzabili
che permettano delle ragionevoli assunzioni sulla popolazione;
2. Utilizzare la selezione casuale: Tutti i substrati della popolazione devono avere la stessa probabilità
di essere selezionati per fare parte del campione. La selezione di un elemento non deve influenzare
la selezione dell’altro, ovvero ci deve essere indipendenza tra le estrazioni;
Tra i metodi di campionamento abbiamo:

1. Campionamento Stratificato: si divide la popolazione in sottogruppi omogenei e da ciascuno si
estrae un campione casuale;
2. Campionamento a blocchi (o cluster): si raggruppa la popolazione in blocchi, si fa un
campionamento dei blocchi;
3. Campionamento sistematico: si selezionano un elemento ogni k elementi successivi.
La statistica quindi, permette di fare deduzioni ed induzione dal particolare al generale e viceversa.
02 Indagine Statistica
Le fasi di una indagine statistica si conviene siano le seguenti:
 Definizione degli obiettivi della ricerca
 Rilevazione dei dati
 Elaborazione metodologica (i software più usati oggi sono SAS ed SPSS)
 Presentazione ed interpretazione dei risultati
 Utilizzazione dei risultati della ricerca
L’unità statistica è l’elemento base della popolazione sul quale viene effettuata la rilevazione.
Il carattere è il fenomeno oggetto di studio; La modalità è il numero o l’attributo (per caratteri qualitativi)
che l’unità statistica manifesta;
Il Carattere:
 Qualitativo si definisce mutabile (non numerico);
 Quantitativo di definisce variabile (numerico);
Variabile statistica: caratteristica che varia tra i partecipanti alla ricerca.
L’interesse del ricercatore è quello di prendere in esame queste proprietà che variano e la statistica è lo
strumento che consente di trarre delle informazioni a partire da questa variabilità.
Le variabili continue (es. temperatura, altezza) sono quelle capaci di assumere qualsiasi valore contenuto in
un intervallo reale predefinito, al contrario delle variabili discrete (es. numero lanci di un dado).
Variabile Qualitativa: è caratterizzata da specifiche categorie (es. sesso di una persona: maschio o
femmina).
Variabile Quantitativa: è caratterizzata da valori che esprimono in termini quantitativi la proprietà definita
da quella variabile (es. altezza di una persona..).
Variabile indipendente (causa): ciò che viene manipolato dallo sperimentatore o dalla natura o dagli eventi
o propria del campione. Si parla anche di predittore, intendendo il fattore che predice una determinata
variazione.
Variabile dipendente (effetto): ciò che risulta dall’impatto della variabile indipendente. Misurata sul
campione, la sua variazione è legata al variare della variabile indipendente.
Frequenza = La frequenza è il numero di volte che una data modalità si presenta nel collettivo di
riferimento (quando la frequenza è un numero intero si parla di frequenza assoluta; se essa è rapportata al
totale della popolazione, si parla di frequenza relativa).
03 Distribuzioni Frequenza
Distribuzione di frequenza= è il calcolo delle frequenze per ciascun valore o categoria della variabile.
Iniziale elaborazione dei dati, qualsiasi sia la scala in cui sono stati raccolti; modalità di raggruppare ed
ordinare dei dati grezzi.
Una tabella a doppia entrata registra quante volte (cioè la frequenza assoluta) una coppia di modalità si
presenta contemporaneamente per X e per Y. (La somma dei totali colonna deve essere uguale alla somma
dei totali riga).
Tabella di frequenza: Cumulata, Relativa e percentuale (la somma deve essere 100).
Per rappresentare i dati di una indagine statistica si possono quindi utilizzare le seguenti tipologie:
 Le distribuzioni di frequenza;
 Le serie storiche;
 Le serie territoriali;
 Le matrici dei dati;
04 Le principali statistiche descrittive

Obiettivo di una misura di posizione (cioè di tendenza centrale o location index) è quello di sintetizzare in
un singolo valore numerico l’intera distribuzione di frequenza per effettuare confronti nel tempo, nello
spazio o tra circostanze differenti. Forniscono informazioni sulla centralità del nostro insieme di dati. Ci
indicano il centro della distribuzione.
Per riassumere l’informazione contenuta in un insieme di dati, si cerca quel singolo valore intorno al quale
si dispongono tutti gli altri. Utilizzare un solo valore, per riassumere la serie di informazioni disponibile,
rende più agevole l’analisi dei dati.
Sono indici di posizione:

 la media (aritmetica [a1+a2+a3+an]/n, geometrica [a1*a2*a3*an] radice di n);
 la moda (valore + frequente nel campione);
 la mediana: ordinare e prendere il valore centrale (n+1)/2 in caso di campione dispari, ordinare e
fare la media aritmetica tra n/2 ed n/2+1 in caso di campione pari;
 il valore centrale [min(x)+max(x)]/2.
Applicazioni statistiche con Excel:
 MIN (Intervallo)  valore + piccolo trovato in un intervallo

 MAX (Intervallo)  valore + grande trovato in un intervallo
 MEDIA (Intervallo)  calcola la media aritmetica delle celle comprese nell’intervallo
 MEDIA.GEOMETRICA (Intervallo)  calcola la media geometrica delle celle comprese nell’intervallo
 MEDIANA (Intervallo)  calcola la mediana per le celle comprese nell’intervallo
 MODA (Intervallo)  calcola la moda per le celle comprese nell’intervallo
05 Dalle tendenze centrali alla variabilità

Proprietà indici di posizione:
 Proprietà moltiplicativa;
 Proprietà di monotonicità;
 Proprietà di linearità;
La mediana è un indice per decisioni che implicano costi da minimizzare, infatti minimizza la somma degli
scarti assoluti |xi- Me|.
La media è un indice di equilibrio generale, e minimizza i rischi complessivi, cx minimizzando i quadrati degli
scarti (xi- Me), attribuendo particolare rilievo agli estremi rispetto ai valori centrali.
Per determinare dei valori sintetici di una distribuzione di frequenza di una variabile quantitativa X è bene
calcolare e confrontare almeno la media e la mediana, ma ciò non basta per una analisi descrittiva
esaustiva, ed allora calcoliamo la variabilità del fenomeno.
La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.
Tra gli indici di variabilità si considera:
 il campo di variazione = max(X) – min(X)
Esso è influenzabile anche da un solo valore atipico, ed è quindi un po’ grossolano.
L’indice più importante per misurare la variabilità è dato dalla varianza, cioè dalla media degli scarti al
quadrato delle singole osservazioni x dalla media μ:
Questi indici descrivono la variabilità con un unico valore che ne sintetizza le caratteristiche. E ci dicono in
che Gli indici di variabilità forniscono, insieme agli indici di tendenza centrale.
Gli indici di variabilità forniscono, insieme agli indici di tendenza centrale, informazioni sulle caratteristiche
della distribuzione.
Gli indici di variabilità e le misura di tendenza centrale sono gli strumenti di base per l’analisi statistica di
tipo descrittivo.
L’analisi inferenziale verrà svolta sulla base dei risultati preliminari ottenuti dalla descrittiva.
La variabilità è lo stimolo primario che muove e genera l’indagine scientifica, perché la diversità pone
domande e cerca risposte.
La variabilità dei risultati sperimentali come della vita reale genera insicurezza, paure, rischi e quindi errori.
Si preferisce studiare fenomeni poco mutevoli (con bassa varianza) o che possiedano una dispersione
controllabile.
06 Misure di variabilità ed Indici di dispersione

Principali misure di variabilità, le misure di variabilità (o dispersione) sono:
 Campo di variazione (o range)
 Differenza interquartile (quartili e altri indici di posizione: decili, percentili)
 Scostamento semplice medio
 Varianza e deviazione standard (scarto quadratico medio)
 Coefficiente di variazione
Il range si ottiene facendo la differenza tra il minimo e il massimo (calcolabile solo su scala metrica).
Es.: risultati senza farmaco= 2,2,3,4,5,5,7; range: (7-2)=5;
con farmaco= 1,1,1,1,8,8,8; range: (8-1)=7
Limiti: prende in considerazione solo i valori estremi senza tenere conto dei valori intermedi e delle
frequenze.
Es. 2,2,3,4,5,5,7,20; range=18
Range parziale: calcolato togliendo gli outliers (anomali rispetto alla distribuzione).
Es. 2,2,3,4,5,5,7 (tolgo 20 perché outlier); range=5
Differenza interquartile: I quartili corrispondono ai valori che dividono in quattro parti la distribuzione dei
dati.
 Al di sotto del primo quartile (Q1) c’è il 25% dei casi
 Al di sotto del secondo (Q2) il 50% (è la mediana!)
 Al di sotto del terzo (Q3) il 75%
Calcolando la differenza tra il terzo e il primo quartile si ottiene la differenza interquartile (DI= Q3 – Q1).
Tra i suoi limiti: la bassa considerazione di casi centrali ed estremi.

E’ possibile calcolare la deviazione (o scarto) di ciascun valore dalla media e poi trovare il valore medio di
tali deviazioni, dividendo la somma di tutti gli scarti per il numero delle nostre osservazioni.
La somma di tutti gli scarti dalla media risulta sempre uguale a zero (la M è il baricentro della distribuzione).
Una soluzione è prendere il valore assoluto degli scarti, così eliminando l’effetto del segno.
Sommando tutti gli scarti in valore assoluto e dividendoli per il numero delle osservazioni, otteniamo lo
scostamento semplice medio (SSM), che esprime quanto in media i dati si discostano dalla M della
distribuzione.
Es. 3,5,6,7,9 Media = 6; Calcolo di SSM: (3-6=3)+(5-6=1)+(6 -6=0)+(7 -6=1)+(9-6=3)= 8/5 = 1,6
Un altro modo per eliminare l’effetto del segno sul calcolo della media degli scarti è quello di elevare i valori
al quadrato. Sommando gli scarti dalla media elevati al quadrato e dividendoli per il numero totale delle
osservazioni si ottiene la varianza (s²) .
È la media degli scarti al quadrato tra i dati e la M. È nulla quando i dati sono tutti uguali (non c’è
variazione) e aumenta al crescere della variabilità. Maggiore è la s², più i casi sono dispersi attorno alla M,
minore è la s² più i casi sono concentrati attorno alla M.
La varianza fornisce la misura sintetica di quanto le unità differiscono dalla media aritmetica.
LIMITE: è espressa nell’unità di misura del fenomeno elevata al quadrato. Essa non possiede un significato
fisico ma è solo un importante indice utile per fini statistici.
Es. 3,5,6,7,9 Media = 6; Calcolo di s²: (3-6)²+(5-6)²+(6 -6)²+(7 -6)²+(9-6)²= 20; s² = 20/5= 4
Elevando i valori al quadrato si modifica l’unità di misura. Un modo per ovviare a questo problema è quello
di ricavare la radice quadrata della (s²), cioè la deviazione standard
Es. s² = 125/5= 25; s= v25 = 5
Un indice relativo (indipendente dall’unità di misura) molto usato, per caratteri con media maggiore di 0, è
il coefficiente di variazione normalizzato (che varia tra 0 ed 1, con 0 valore minimo indicativo di assenza di
varianza) ed è uguale a
07 Numeri Indice
I rapporti statistici:
 La statistica è una scienza che non va confusa con le statistiche: dati, tabelle, grafici, indici, medie.
 Una particolare categoria di misure consolidata nel vocabolario statistico sono i rapporti statistici.
Il rapporto statistico di composizione si ottiene dividendo il valore rilevato in una data circostanza per
l’analogo valore rilevato per l’intera popolazione (es. la distribuzione relativa della popolazione residente
tra giovani, classi medie, anziani).
I rapporti statistici di derivazione si ottengono dividendo la modalità di un fenomeno per quella

corrispondente di un altro che, sul piano logico e/o temporale, ne costituisce causa o presupposto logico
(es. i nati e i morti sono evidentemente influenzati dalla popolazione residente).
I rapporti di coesistenza concernono il rapporto tra la frequenza di una modalità rispetto a quella
corrispondente di un’altra modalità (es. l’indice di vecchiaia definito come rapporto tra i residenti con più di
65 anni e quelli con meno di 15 anni).
I rapporti di densità concernono il rapporto tra la dimensione globale di un fenomeno e quella spaziale a cui
esso fa riferimento ( es. la densità di una sostanza inquinante nell’ambiente).
I rapporti statistici sono misure statistiche elementari finalizzate al confronto tra i dati stessi.
I numeri indice sono particolari rapporti statistici che misurano la variazione di un fenomeno rilevato in
tempi ed circostanze diverse. Essi non dipendono dall’unità di misura. Solitamente misurano le variazioni
dei prezzi nel tempo e sul territorio (es. indice di inflazione).
Percentuali e indici sono strumenti matematici molto utili per mettere a confronto tra loro insiemi di
numeri che siano o no dello stesso ordine di grandezza.
Esempio:
Mese Azienda A Azienda B
Gennaio 2,3 6,7
Febbraio 2,6 7,1
Marzo 3,1 8,4
Si pone il primo fatturato del trimestre pari a 100 e si ricavano i valori successivi come mostrato nella
tabella seguente:
Mese Azienda A Azienda B
Gennaio 100 100
Febbraio 113 106
Marzo 135 125
L’obiettivo è quello di determinare quale delle due aziende ha avuto un andamento migliore. In pratica si
divide il fatturato di ogni mese per quello di gennaio e lo si moltiplica per 100.
In sintesi, la statistica insegna a individuare i modi in cui un fenomeno si manifesta e varia nel tempo, a
descriverlo sinteticamente, e a trarne da esso conclusioni più generali di fenomeni più ampi.
08 Tassi di incremento
L’inflazione al consumo è un processo di aumento del livello generale dei prezzi dell’insieme dei beni e
servizi destinati al consumo delle famiglie. Essa si misura attraverso la costruzione di un indice dei prezzi al
consumo. In Italia, come nella maggior parte dei Paesi, il calcolo dell’indice è affidato all’Istituto nazionale
di statistica. Un indice dei prezzi al consumo è uno strumento statistico che misura le variazioni nel tempo
dei prezzi di un insieme di beni e servizi, chiamato paniere, rappresentativo degli effettivi consumi delle
famiglie in uno specifico anno.
In particolare, l’Istat produce tre diversi indici dei prezzi al consumo: per l’intera collettività nazionale (NIC),
per le famiglie di operai e impiegati (FOI) e l’indice armonizzato europeo (IPCA).
I tre indici hanno finalità differenti:

 Il NIC misura l’inflazione a livello dell’intero sistema economico, in altre parole considera l’Italia
come se fosse un’unica grande famiglia di consumatori, all’interno della quale le abitudini di spesa
sono ovviamente molto differenziate. Il NIC rappresenta, per gli organi di governo, il parametro di
riferimento per la realizzazione delle politiche economiche, ad esempio, per indicare nel
Documento di programmazione economica e finanziaria (DPEF) il tasso d’inflazione programmata,
cui sono collegati i rinnovi dei contratti collettivi di lavoro.
 Il FOI si riferisce ai consumi dell’insieme delle famiglie che fanno capo a un lavoratore dipendente
(extragricolo). E’ l’indice usato per adeguare periodicamente i valori monetari, ad esempio gli affitti
o gli assegni dovuti al coniuge separato.
 L’IPCA è stato sviluppato per assicurare una misura dell’inflazione comparabile a livello europeo.
Infatti viene assunto come indicatore per verificare la convergenza delle economie dei paesi
membri dell’Unione Europea, ai fini dell’accesso e della permanenza nell’Unione monetaria.
Attraverso i numeri indice possiamo comparare facilmente delle grandezze economiche rispetto all’anno x
(pari a 100); con i tassi di incremento si misurano le variazioni anche in rapporto al mese/anno precedente.
Se compariamo i tassi di inflazione rispetto all’anno precedente si parla di comparazioni tendenziali,

altrimenti, se rispetto al mese precedente, di comparazioni congiunturali. Lo stesso vale, ad esempio, per il
PIL.
Indicando con I a:m il numero indice dei prezzi del mese m dell'anno a rispetto al dicembre dell'anno
precedente, si calcola come segue il tasso di inflazione congiunturale, che esprime la variazione rispetto al
mese precedente:
Questo è il tasso di inflazione tendenziale, che esprime la variazione rispetto allo stesso mese dell'anno
precedente:
La deflazione è una diminuzione del livello generale dei prezzi e non va confusa con un semplice
rallentamento del tasso di inflazione.
Rapporti statistici, Confronti tra grandezze: Incrementi percentuali, Tassi di crescita.
09 Il coefficiente di correlazione e la covarianza

La covarianza tra le componenti della variabile statistica (X,Y) è la media dei prodotti degli scarti delle
variabili X e Y dalle rispettive medie aritmetiche M(X) e M(Y).
La covarianza può essere:
 Positiva: quando X e Y variano tendenzialmente nella stessa direzione, cioè al crescere della X tende
a crescere anche la Y e al diminuire della X tende a diminuire anche la Y.
 Negativa: quando le due variabili variano tendenzialmente in direzione opposta, cioè quando al
crescere di una variabile l’altra variabile tende a diminuire (e viceversa).
 Nulla: quando non vi è alcuna tendenza delle due variabili a variare nella stessa direzione oppure
nella direzione opposta. Quando Cov(X,Y) = 0 si dice che X e Y sono non correlate o linearmente
indipendenti.
Il coefficiente di correlazione r di Pearson: La correlazione indica il grado della relazione tra variabili, e per
mezzo di essa si cerca di determinare quanto bene un’equazione lineare o un’altra equazione qualsiasi
descrivano o spieghino tale relazione tra variabili. Se tutti i valori delle variabili soddisfano esattamente ad
un’equazione, si dice che le variabili sono perfettamente correlate.
Correlazione: Una modalità più rigorosa che consente di studiare il grado di intensità del legame lineare tra
coppie di variabili.
Il r viene utilizzato per misurare la relazione lineare tra due variabili su scale ad intervalli o a rapporti.
Il coefficiente di correlazione:
 Varia da -1 a 1 (se uguale a 1 o a -1: perfettamente correlate)
 È positivo quando i valori delle variabili crescono insieme
 È negativo quando i valori di una variabile crescono al decrescere dei valori dell’altra
 Non è influenzato dalle unità di misura
Se X e Y indicano le due variabili considerate (si può ad esempio ipotizzare che X è l’altezza dei genitori ed Y
quella dei figli), si può costruire in un sistema di coordinate cartesiane un diagramma a dispersione.
Se tutti i punti del diagramma sembrano giacere intorno ad una retta (che, se minimizza la somma dei
quadrati degli scarti tra i valori osservati e quelli relativi ai punti della retta stessa, si può definire di
regressione) la correlazione è detta lineare.
10 Correlazione illusoria e spuria
La correlazione: come valutarla? Non sempre ad un valore elevato di r corrisponde un effettivo legame tra i
due caratteri quantitativi considerati.
Un primo caso di correlazione non reale si ha quando uno dei caratteri comprende l’altro, cioè quando si
misura la correlazione tra la misura di una parte ed il tutto, ad esempio tra mortalità infantile e mortalità
generale, tra prezzo dei pneumatici e prezzo dell’autovettura, tra studenti universitari in complesso e di
Economia.
In questo primo caso è facile comprendere che tale correlazione è mal posta se calcolata sulle cifre
assolute, entrambe influenzate da circostanze comuni, come, per l’esempio degli studenti universitari:
l’aumento della popolazione, l’aumento o la diminuzione della propensione allo studio, le possibilità
finanziarie delle famiglie.
Un seconda tipologia di correlazione «mal posta» si ha quando altri fattori variabili influiscono più o meno
fortemente su quelli presi in considerazione: in tali casi la correlazione tra X ed Y è in gran parte dovuta a
quella esistente tra ciascuna variabile ed una o più altre variabili.
Ad esempio, in questa seconda tipologia si può considerare il caso della correlazione positiva tra la
produzione nel tempo di varie coppie di prodotti agricoli (ad es. olio e vino) che può essere dovuta
all’influenza che le condizioni meteorologiche hanno su entrambe.
Un altro caso, conosciuto in letteratura, è quello tra il numero di malati di mente e radio-abbonati in Gran
Bretagna (il caso risale a decine di anni fa): il coefficiente r era pari a 0.99. Quindi, sembrerebbe altissimo!
Attenzione: tra i malati di mente e gli abbonati non vi è alcun legame reale!
E allora da cosa dipende il valore così elevato del coefficiente di correlazione? Si tratta di fenomeni relativi
ad uno stesso periodo di tempo, che hanno quindi un substrato storico-sociale comune, nel quale è da
ricercarsi la causa della correlazione osservata.
In quest’ultimo caso si parla di correlazione illusoria o priva di senso!
Per ottenere un valore di r che esprima correttamente il legame di interdipendenza, bisogna eliminare dai
due caratteri l’influenza che su essi esercitano altri fattori.
Eliminiamo l’influenza della popolazione su due caratteri, ad esempio numero dei nati e dei morti, potendo
utilizzare i rispettivi rapporti alla popolazione, e quindi calcolando r tra i rispettivi quozienti di natalità e
mortalità.
Osserviamo che l’uso dei rapporti X/Z , Y/Z (dove Z è il carattere di cui si vuole eliminare l’influenza) non è
indicato quando Z non è correlato con X ed Y in quanto potrebbe condurre a correlazioni spurie, che sono
indotte dal tipo di elaborazioni dei dati, ma assenti nei dati originari.
E’ il bravo statistico, che attraverso analisi descrittiva, inferenziale (campionaria) e comprensione del
fenomeno in oggetto che distingue la vera correlazione da quella illusoria o spuria.
12 La regressione lineare
Le relazioni tra variabili importanti nell’analisi della realtà economico-aziendale possono essere
matematicamente espresse come: Y=f(x) dove la funzione f può assumere varie forme, lineari o
non linearie può non essere conosciuta in modo preciso.
Consideriamo il caso più semplice quello lineare: regressione lineare semplice
Un esempio: un grossista di cereali vuole conoscere l’effetto della produzione annua Complessiva, C, sul
Prezzo di vendita a tonnellata, P : Q=f(P)
L’analisi della regressione viene impiegata per creare un modello del fenomeno in grado di fornire una
spiegazione al comportamento di due o più variabili legate da una relazione di causa ed effetto.
 Una variabile Y sarà dipendente o effetto di una variabile X detta variabile indipendente o causa
 La misura della dipendenza avviene con lo studio della regressione
 L’obiettivo: Date due variabili, X e Y, si è interessati a comprendere come la variabile Y ( dipendente
o risposta) sia influenzata dalla X (esplicativa o indipendente)
 Individuazione di una funzione in grado di esprimere nel modo migliore il legame esistente tra il
carattere dipendente e quello indipendente.
 y=mx+q
Dove m è il coefficiente angolare e q l’intercetta
Se X e Y indicano le due variabili considerate (si può ad esempio ipotizzare che X è l’altezza dei genitori ed Y
quella dei figli), si può costruire in un sistema di coordinate cartesiane un diagramma a dispersione. Se tutti
i punti del diagramma sembrano giacere intorno ad una retta che minimizza la somma dei quadrati degli
scarti tra i valori osservati e quelli relativi ai punti della retta stessa, si può parlare di regressione lineare.
In generale una buona analisi statistica combinata alla teoria e all’esperienza piò consentire di giungere a
fondate conclusioni.
In sintesi: negli studi empirici, la relazione tra X e Y non è mai funzionale (ad un valore di X corrispondono
più valori di Y). Una relazione statistica tra la Y e la X può essere descritta da:
f(X) definisce il contributo della X, Ԑ rappresenta il contributo di tutti i fattori non osservati
f(X) è una componente deterministica, Y è una variabile casuale

13 Serie storiche e medie mobili
Una serie storica è costituita dai dati osservati a intervalli regolari di tempo.
Ad esempio: il numero di passeggeri trasportati ogni mese dalle ferrovie, il prezzo di chiusura giornaliero di
un’azione….
Eliminare fattori erratici e fattori stagionali dalle serie storiche. Componente ciclo-trend, tendenza di medio
e lungo periodo, calcolata con analisi di regressione o con medie mobili.
La media mobile di ordine n consiste in una serie di medie aritmetiche calcolate su n periodi contigui.
15 Probabilità
La probabilità di un evento E è il rapporto tra il numero dei casi favorevoli al suo verificarsi ed il numero dei
casi possibili, purché siano tutti egualmente possibili. Quindi, secondo la concezione classica occorre
rapportare i casi favorevoli all’evento ed il numero totale dei casi egualmente possibili:
La critica alla concezione classica deriva dal fatto che l’ipotesi che i casi possibili siano nelle stesse
condizioni di verificarsi comporta il concetto di equiprobabilità che appare troppo intuitivo e poco legato ad
effettive sperimentazioni.
Secondo la concezione frequentista, la nozione di probabilità nelle stesse condizioni dell’evento aleatorio è
un’astrazione dell’idea di frequenza relativa con la quale l’evento si verifica in una lunga serie di prove
sperimentali eseguite:
Secondo tale definizione (statistica) la probabilità stimata di un evento è data dalla frequenza relativa del
presentarsi dell’evento quando il numero delle osservazioni è molto grande.
La probilità è il limite della frequenza relativa quando il numero delle osservazioni cresce indefinitamente.
Es. Se in 1000 lanci di una moneta viene testa 465 volte la frequenza relativa delle teste è 465/1000.
Quest’ultima definizione pone difficoltà perché in realtà può non esistere un numero che possa essere
assunto come limite. Per tale ragione la moderna teoria della probabilità è stata sviluppata
asintoticamente: la probabilità è un concetto indefinito, come il punto e la retta.
Postulato 1. Pr (E)≥0
Postulato 2. Pr(θ)=1 con θ che rappresenta l’evento certo
Postulato 3. Afferma che la probabilità dell’unione di una infinità numerabile di eventi incompatibili è la
somma delle singole probabilità.
Se un evento E può essere scomposto in due eventi allora:

99 Appendice EXCEL
Applicazioni statistiche con Excel:
 MIN(Intervallo)  valore + piccolo trovato in un intervallo

 MAX(Intervallo)  valore + grande trovato in un intervallo
 MEDIA(Intervallo)  calcola la media aritmetica delle celle comprese nell’intervallo
 MEDIA.GEOMETRICA(Intervallo)  calcola la media geometrica delle celle comprese nell’intervallo
 MEDIANA(Intervallo)  calcola la mediana per le celle comprese nell’intervallo
 MODA (Intervallo)  calcola la moda per le celle comprese nell’intervallo
 DEV.ST(intervallo)  calcola lo scarto quadratico medio per le celle comprese nell’intervallo
 VAR(intervallo)  calcola la varianza per le celle comprese nell’intervallo
 RQ(<Y>;<X>)  calcola l’indice di determinazione R2, tale valore esprime la dispersione dei valori
osservati intorno alla retta di regressione
 CORRELAZIONE(Ax:Ay;Bx:By)
 COVARIANZA(Ax:Ay;Bx:By)
 PENDENZA(<Y>;<X>)
 INTERCETTA(<Y>;<X>)
 TENDENZA(<Y>;<X>;<X nuova>)

Statistic A

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Statistic A

Caricato da

Copyright:

Formati disponibili

Statistica

01 Introduzione alla Statistica

Tra i metodi di campionamento abbiamo:

Variabile statistica: caratteristica che varia tra i partecipanti alla ricerca.

04 Le principali statistiche descrittive

Sono indici di posizione:

Applicazioni statistiche con Excel:

 MIN (Intervallo)  valore + piccolo trovato in un intervallo

05 Dalle tendenze centrali alla variabilità

La variabilità di un fenomeno è la sua attitudine ad assumere differenti modalità.

Tra gli indici di variabilità si considera:

 il campo di variazione = max(X) – min(X)

Esso è influenzabile anche da un solo valore atipico, ed è quindi un po’ grossolano.

06 Misure di variabilità ed Indici di dispersione

Es.: risultati senza farmaco= 2,2,3,4,5,5,7; range: (7-2)=5;

con farmaco= 1,1,1,1,8,8,8; range: (8-1)=7

Es. 2,2,3,4,5,5,7,20; range=18

Es. 2,2,3,4,5,5,7 (tolgo 20 perché outlier); range=5

Tra i suoi limiti: la bassa considerazione di casi centrali ed estremi.

Es. s² = 125/5= 25; s= v25 = 5

I rapporti statistici di derivazione si ottengono dividendo la modalità di un fenomeno per quella

I tre indici hanno finalità differenti:

Se compariamo i tassi di inflazione rispetto all’anno precedente si parla di comparazioni tendenziali,

09 Il coefficiente di correlazione e la covarianza

La covarianza può essere:

In quest’ultimo caso si parla di correlazione illusoria o priva di senso!

Consideriamo il caso più semplice quello lineare: regressione lineare semplice

f(X) è una componente deterministica, Y è una variabile casuale

Postulato 2. Pr(θ)=1 con θ che rappresenta l’evento certo

Se un evento E può essere scomposto in due eventi allora:

 MIN(Intervallo)  valore + piccolo trovato in un intervallo

Potrebbero piacerti anche