La Sta&s&ca Ci Aiuta A Fare Questo Passaggio

Sta$s$ca
Capitolo 1
Branca della matema,ca applicata, che si occupa di collezionare ed analizzare da# al fine di
estrarre un informazione
I da, sono grezzià Da essi nascono informazioni fruibili
La sta&s&ca ci aiuta a fare questo passaggio
I da, vengono immagazzina, nei data set…ovvero matrici con righe e colonne di numero
differente in base agli aspe> individua, e le variabili
Popolazione obbie>vo (N unità) -> la popolazione oggeEo dell’indagine

Campione (n unità)-> soEoinsieme della popolazione obbie>vo disponibile alla rilevazione,
diverso dal censimento generale che è più costoso e molto lungo per tempi
Si dice Parametro à cara5eris#ca della popolazione,

Si dice Sta#s#ca à cara5eris#ca del campione
è Sta$s$ca descri1va: insieme di tecniche per la sintesi di un insieme di da,

La sintesi può essere grafica, tabulare o numerica
è Sta$s$ca inferenziale: fornisce tecniche per estendere info oEenute da un

campione alla popolazione da cui il campione è stato estraEo, con un certo grado di
aEendibilità
L’inferenza è il processo tramite il quale si estraggono conclusioni o si prendono
decisioni circa una popolazione sulla base dei risulta2 campionari
Per poter fare ciò è necessario avere a disposizione un campione casuale semplice,
con una tecnica di campionamento per cui, quindi, ogni unità ha la stessa probabilità
di essere selezionata di tuEe le altre… non si traEa di un campionamento di
convenienza, che costa poco ma non ha grande aEendibilità: es. prendere unità a te
vicine ma che non rispecchiano a pieno la popolazione.
Solo il campionamento casuale garan2sce rappresenta2vità
Capitolo 2. Sta,s,ca descri>va
In un data set esistono diversi !pi di variabili…
è Categoriche (es. stato civile, diriEo al voto, colore degli occhi… in ogni caso non è
un numero)
è Numeriche: Discrete (venute fuori da un’operazione di conteggio, es. numero di

figli; Dife> in un’ora…) e Con*nue (venute fuori da operazioni di misurazione,
possono assumere qualunque valore all’interno di un determinato intervallo di
numeri reali ; es. Peso, Altezza, Tempo, Temperatura…)
l livelli di misurazione
I da, possono essere classifica, come qualita#vi o quan#ta#vi.

Classificando qualita#vamente, la differenza tra un dato e l’altro non implicherà la
preferenza di uno o dell’altro (es. giocatore con maglia n.20 non è preferibile a giocatore
con maglia n.10)
Mentre con i da, quan,ta,vi c’è una differenza numerica tangibile.
Da& qualita&vi à acceEano, come livelli di misurazione, scala nominale e ordinale
• Da# nominali: hanno il livello di misurazione più debole, la cui codifica numerica
(della risposta) è scelta per sola convenienza e non implica un rango tra le risposte.
I valori assun, dalle variabili nominali riguardano e,cheEe di categorie o classi (es.
maschio/femmina; Si/No
• Da# ordinali: indicano un ordine gerarchico degli elemen, e, come i nominali,

indicano come valori assun, delle “e,cheEe” che descrivono le risposte.
(es. giudizio sulla qualità di un bene; soddisfazione su un servizio; preferenze dei
consumatori tra prodo> differen,)
Da& quan&ta&viàacceEano, come livelli di misurazione, scala ad intervallo e scala di

rapporto
• Scala ad Intervallo: indica orfdine e distanza da un origine arbitraria misurata con

una determinjata unità di misura à c’è quindi un punto di riferimento fissato in base
al quale si assumono i valori. (es. temperatura), non esiste lo zero assoluto
• Scala di rapporto: si indicano sia un ordine sia la distanza da un origine assoluta,

ovvero lo zero. Il rapporto tra due misure in questo caso assume un
significato numerico ben preciso.
Rappresentazione grafica dei da$
I dati in forma grezza non sono generalmente facili da usare nel processo decisionale, quindi
qualche organizzazione si rende necessaria: utilizziamo Tabelle e Grafici .
Il tipo di grafico da usare dipende dalla variabile che vogliamo sintetizzare
Variabili Categoriche
Distribuzione di frequenze
Tabella per organizzare i da,.

§ La colonna di sinistra (modalità o classi di misura) con,ene tuEe le possibili risposte
rela,ve alla variabile oggeEo di studio
§ La colonna di destra con,ene l’elenco delle frequenze (n. di osservazioni o
frequenze assolute) per ogni classe.
La distribuzione delle frequenze rela#ve si o>ene poi, dividendo ciascuna frequenza per il
numero complessivo di osservazioni
La distribuzione delle frequenze percentuali, invece, mol,plicando i risulta, delle freq.
rela,ve per il 100%
Diagrammi a barre e Diagrammi a torta
Diagrammi a barre: u,lizzato per individuare con maggiore aEenzione la frequenza di ogni
categoria
Diagrammi a torta: u,lizzato per evidenziare maggiormente la proporzione di ciascuna

categoria.
Rappresentazioni grafiche per descrivere le serie storiche
Il grafico per serie storiche rappresenta una serie di da, rilevan, in istan, di tempo
differen,.
Considerando l’Asse Orizzontale come asse temporale, e sull’Asse Ver,cale poniamo le
quan,tà numeriche oggeEo della misurazione, oEeniamo un punto sul piano cartesiano
per ogni osservazione.
Il grafico si oEerrà congiungendo i vari pun, con una spezzata.
Rappresentazioni grafiche per descrivere le

Variabili Numeriche
Distribuzioni di frequenze
§ Riassume i da> elencando le classi di intervallo nella colonna di sinistra e il numero di

osservazioni nella colonna di destra.
§ E’ necessario per i da> numerici, saper determinare le classi K decidendo numero e

ampiezza W= (valore massimo - valore minimo)/numero di classi
W può essere arrotondato per eccesso, preferibilmente all’intero successivo.
§ Le classi d’intervallo devono essere colleEvamente esaus5ve e mutuamente esclusive

(cioè senza sovrapposizioni)
Numero di classi : si decide in modo arbitrario in base al numero di osservazioni
Distribuzione delle frequenze cumulateà si oEene sommando alla frequenza della classe
corrente le frequenze di tuJe le classi preceden>.
Distribuzione delle frequenze rela5ve cumulate à si cumulano le frequenze rela>ve
Distribuzione delle frequenze percentuali cumulate à si cumulano le frequenze percentuali
Istogramma
§ Grafico composto da reJangoli ver>cali adiacen>, costrui> su una linea orizzontale sulla
quale sono delimitate le stesse classi di intervallo individuate nella distribuzione di
frequenze.
§ L’area del reJangolo è proporzionale al numero di osservazioni della classe

corrispondente… per cui se le classi hanno tuJe la stessa ampiezza, sarà l’altezza a essere
proporzionale al numero di osservazioni della classe
Ogiva
DeJa anche curva delle frequenze cumulate, è una spezzata che rappresenta la distribuzione delle
frequenze percentuali cumulate.
InfaE unisce i pun> che rappresentano le percentuali cumulate di osservazioni, con valori minori
del limite superiore di ciascuna classe
Simmetria: la forma di un istogramma è deJa simmetrica se le osservazioni sono bilanciate o

distribuite in modo approssima>vamente regolare intorno al centro dell’istogramma
Asimmetria: una distribuzione si dice asimmetrica o obliqua, quando le osservazioni non sono
distribuite in modo simmetrico rispeJo al valore centrale della distribuzione .
è Una distribuzione obliqua a destra (deJa con asimmetria posi>va) ha una coda che si
estende verso destra, nella direzione dei valori posi>vi.
è Una distribuzione obliqua a sinistra (deJa con asimmetria nega>va) ha una coda che si
estende verso sinistra, nella direzione dei valori nega>vi
Diagramma ramo-foglia
È un metodo di analisi esplora>va dei da> alterna>vo all’istogramma.
I da> vengono raggruppa> secondo le loro cifre più significa5ve (i rami), mentre le cifre meno
significa5ve di ogni osservazione (le foglie) sono elencate a destra di ogni ramo, separatamente e
in ordine non decrescente
Relazioni tra variabili
Quando consideriamo 2 variabili, vengono usate altre tecniche:
Per le variabili numeriche-quan2ta2ve, si u,lizza il Diagramma di Dispersione:
è Si associa un punto del piano cartesiano a ogni coppia di valori che cos,tuiscono
un’osservazione congiunta delle due variabili.
Il diagramma di dispersione fornirà una descrizione dei da,, in par,colar modo

evidenziando:
1. Possibili valori di ogni variabile;
2. Distribuzione dei da, all’interno dei valori possibili;
3. L’eventuale relazione tra le due variabili;
4. Presenza di eventuali valori anomali.
Per le variabili categoriche-qualita2ve, si u,lizza la Tabella a Doppia Entrata:
è Elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di 2

variabili.
Il numero delle celle è determinato dalla combinazione di tuEe le possibili classi per
ognuna delle 2 variabili.
Una tabella con r righe e c colonne viene indicata come tabella r*c
Quando le 2 variabili sono entrambe qualita,ve si parla di tabella di con#ngenza
Rappresentazione grafica dei Da$ Categorici Mul$varia$
Diagramma a barre accostate

Errori nella presentazione dei Da$
Grafici realizza, in modo troppo approssima,vo possono facilmente distorcere la

realtà, se invece oEenu, con buon senso e aEenzione, possono essere eccellen,
strumen, per ricavare informazioni essenziali e non una massa di numeri
E’ necessario comunicare idee complesse chiaramente e in modo accurato,

evitando distorsioni che possano comunicare il messaggio sbagliato… alienando il
giudizio per il modo in cui la sintesi dei da, è presentata.
o Negli istogrammi un errore può essere la diversa ampiezza delle classi di

intervallo
o Compressione o distorsione dell’asse ver,cale
o Omissione dello zero sull’asse ver,cale
o Non fornire una base di riferimento per il confronto di da, di diversi gruppi
Capitolo 3
Descrizione numerica dei da!
Misure di tendenza centrale e di posizione:
• quando ci interessa conoscere la posizione rela#va di un’osservazione rispeEo

all’intero insieme di da, possiamo ricorrere alle misure di posizione, come i
percen!li e i quar!li.
• Un’altra misura di posizione è lo Z-Score, che esamina la posizione di un
osservazione rela,vamente alla media di distribuzione
• Le misure di tendenza centrale sono in genere calcolate a par,re da da,

campionari, invece che dalla popolazione…
Una misura di tendenza centrale che viene subito in mente è la Media, ci sono poi
mediana e moda
Media
È la somma dei valori di tuEe le osservazioni divisa per il numero di osservazioni.

I da, si riferiscono o all’intera popolazione à media della popolazione
oppure provengono da un campioneà media campionaria
Con N= dimensione della popolazione, o n= dimensione del campione
• In genere è la misura che descrive meglio i da, numerici, ma va considerata, come

faEore influenzante, la presenza di valori anomali (outlier), e quando ciò si verifica
si devono individuare le cause.
La media sarà maggiore in presenza di outlier con valori molto eleva#, viceversa,
minore in presenza di outlier con valori molto bassi
Mediana
È l’osservazione centrale di un insieme di osservazioni ordinate in modo non

decresente (o non crescente).
àSe n, la dimensione del campione, è un numero dispari, la mediana è

l’osservazione centrale;
àSe n è un numero pari, la mediana si o>ene dalla media delle due osservazioni
centrali
Quindi…
Posizione 0.50 (n+1) della sequenza ordinata
Moda
Dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste,

equivale alla modalità che si presenta il maggior numero di volte..
àUna distribuzione con una moda si dice unimodale.
àIn presenza di due mode si dice bimodale
àCon più mode si dice mul#modale
La moda viene u,lizzata sopraEuEo per i da, categorici, ma anche per da,
numerici, e non è influenzata da alcun valore estremo.
Forma di una distribuzione
è La moda e la mediana di una distribuzione unimodale simmetrica sono uguali,

poiché le osservazioni sono distribuite in modo speculare al valore centrale
è La media delle distribuzioni unimodali oblique a destra è più grande della mediana,
è La media delle distribuzioni unimodali oblique a sinistra è più minore della mediana.
Percen4li e Quar4li
Sono le misure che indicano la posizione di un dato rela#vamente a tu5o l’insieme

di da,, sono infa> generalmente u,lizza, per la descrizione di dataset molto grandi
(come da, di vendita, risulta, di sondaggi o pesi dei neona,)
Determinazione
Bisogna innanzituEo ordinare i da, in modo non decrescente.

è Il P-mo Percen#le è quel valore che lascia alla sua sinistra (eventualmente
includendo lo stesso valore) approssima,vamente il P% di osservazioni.
è I Percen#li separano grandi insiemi ordina, di da, in centesimi.
Il 50-mo percen,le è la mediana.
P-mo percen2le = valore collocato nella posizione
(P/100)(n+1) della sequenza ordinata
è I Quar#li sono misure descri>ve che separano gli insiemi di da2 molto numerosi
quaFro quar2
àIl primo quar#le, Q1 ( o 25-mo percen,le) separa approssima,vamente il 25% più

piccolo dei da, dai da, rimanen,.
Q1 = il valore che si trova alla posizione 0.25(n+1) della sequenza ordinata
àIl secondo quar#le, Q2 (o 50-mo percen,le) è la mediana

Q2 = il valore che si trova nella posizione 0.50 (n+1) della sequenza ordinata
àIl terzo quar#le, Q3 (o 75-mo percen,le) separa approssima,vamente il più

piccolo 75% dei da, rispeEo ai rimanen, 25% più grandi.
Q3 = il valore che si trova nella posizione 0.75(n+1) della sequenza ordinata
I cinque numeri di sintesi : si riferiscono a cinque misure descri>ve: il minimo, il

primo quar,le, la mediana, il terzo quar,le e il massimo.
Minimo = Q, = Mediana ≤ O, ≤ Massimo
box-and-whisker plot: (o diagramma scatola e baffi) è un grafico che descrive

la forma della distribuzione sulla base dei "cinque numeri di sintesi”.
Si traLa infaM di un diagramma che con&ene una scatola interna, con estremi Q1 e
Q3, la cui ampiezza è pari alla differenza interquar&le e nella quale è disegnata la
linea che rappresenta la mediana.
I "baffi" sono due linee, rispeMvamente da Q1 fino al minimo e da Q3 fino al
massimo.
Misure di Variabilità
Esistono misure di sintesi per valutare la variabilità e la dispersione delle osservazioni
rispeEo alla media, e regole di base per la determinazione della percentuale di
osservazioni che appartengono a un determinato intervallo centrato nella media.
La variabilità è un principio fondamentale nel controllo sta,s,co della qualità, essa indica il
faEo che non esisteranno mai 2 ogge> estremamente uguali.
Anche se 2 insiemi di da, possono avere la stessa media, le singole osservazioni del primo
insieme possono ad esempio variare di più dalla media di quanto non lo facciano le
osservazioni del secondo insieme.
Campo di variazione
È la differenza tra il massimo e il minimo dei valori osserva#, la più semplice misura di
variabilità.
Più grande è la variabilità dei da, rispeEo al centro della distribuzione, più sarà grande il
campo di variazione
Campo di variazione = Xmax – Xmin
Differenza Interquar$le
Misura la variabilità del 50% centrale dei da, : in una sequenza di osservazioni ordinate in
modo non decrescente è la differenza tra l’osservazione Q3 (terzo quar,le o 75esimo
percen,le) e l’osservazione Q1 (primo quar,le o 25esimo percen,le).
Differenza Interquar,le = Q3 – Q1
Varianza : misura statistica che indica la distanza di un insieme di numeri dal loro valore medio
è Varianza della popolazione: σ2
È la somma delle differenze, al quadrato, tra ciascuna osservazione e la media della
popolazione, divisa per la dimensione della popolazione N
2
è Varianza campionaria s
È la somma delle differenze, al quadrato, tra ciascuna osservazione e la media del
campione, divisa per la dimensione del campione n, meno 1
Scarto quadra$co medio

Misura la dispersione media aEorno alla media, equivale alla radice quadrata della
rispe>va varianza e quindi è espresso nell’unità di misura originale.
è Scarto quadra$co medio della popolazione σ
È la radice quadrata (con segno posi,vo) della varianza della popolazione, è definito
da:
è Scarto quadra$co medio campionario S

I vantaggi della varianza e dello scarto quadra#co medio sono:
è Vengono calcola, tu> i valori presen, nel set di da,

è I valori lontani dalla media hanno più peso (poiché̀ si usa il quadrato delle deviazioni
dalla media)
Coefficiente di Variazione:
è una misura di variabilità rela#va che esprime lo scarto quadra2co medio come
percentuale della media (purché essa non sia nulla)
Anch’esso va rapportato sia alla popolazione che al singolo campione:
Teorema di Chebychev
Chebychev riuscì a determinare per ogni insieme di da,, indipendentemente dalla forma
della distribuzione, degli intervalli che contengono una percentuale minima di osservazioni
Per ogni popolazione con media µ , scarto quadratico medio σ e k > 1, la percentuale di
osservazioni che appartengono all’intervallo ( µ - k σ ; µ + k σ) :
2
almeno [1 - (1/k )] 100%
k rappresenta il fattore moltiplicativo dello scarto quadratico medio
Regola empirica: per molte popolazioni di grandi dimensioni, questa regola

fornisce una valutazione della percentuale approssimata di osservazioni il cui
sostentamento, in più o in meno dalla media, è pari al massimo a una, due o tre
volte lo scarto quadratico medio…
è Approssimativamente il 68% delle osservazioni sono nell’intervallo µ ±1σ

è Approssimativamente il 95% delle osservazioni sono nell’intervallo µ ± 2 σ
è Quasi tutte le osservazioni (99.73%) sono nell’intervallo µ ± 3 σ
Z-Score
è un valore standardizzato che indica il numero di deviazioni standard che
separano il dato dalla media della distribuzione.
• Uno z-score positivo indica che il dato è superiore alla media,

• Uno z-score negativo indica che il dato è inferiore alla media;
• Uno z-score nullo indica che il dato coincide con la media.
Lo z-score non dipende né dall'unità di misura né dall'ordine di grandezza dei

valori e pertanto può servire per confrontare dati relativi a distribuzioni molto
diverse tra loro.
Se l'insieme di dati coincide con l'intera popolazione e si conoscono la sua

media, M, e il suo scarto quadratico medio, o, allora per ogni valore x; il
corrispondente z-score si ottiene nel seguente modo:
Media ponderata
Quando i dati sono raggruppati, si usano misure di sintesi ponderate: la
media ponderata.
La classica situazione che richiede l’utilizzo della media ponderata è il calcolo

della votazione media.
Media e Varianza approssimate per dati raggruppati

Supponiamo un set di dati raggruppati in K classi, con valori centrali di ogni
classe m1, m2, . . ., mk , e frequenze f1, f2, . . . fK
Misure delle relazioni tra variabili
Covarianza (Cov)
Un valore positivo indica una relazione diretta o positiva e un valore negativo indica
una relazione inversa o negativa.
Distinguiamo tra covarianza della popolazione e covarianza campionaria
Il valore della covarianza dipende dall’unità di misura e quindi non si tratta di un

indice adeguato per valutare l’intensità della relazione lineare tra due variabili.
L’indice numerico più opportuno è invece il coefficiente di correlazione lineare.

Coefficiente di correlazione lineare
Ovvero una misura standardizzata della relazione lineare tra due variabili
La covarianza e il corrispondente coefficiente di correlazione hanno lo stesso segno

(sono entrambi o positivi o negativi)
È più utile della covarianza in quanto fornisce sia la direzione sia l’intensità della
relazione
Si calcola dividendo la covarianza per il prodotto degli scarti quadratici medi delle
due variabili.
Caratteristiche riguardo il valore del coefficiente di correlazione r :

Relazioni lineari
Oltre a conoscerne la rappresentazione grafica, e misurarne l’intensità con i
coefficienti di correlazione lineare…
Può essere spesso utile conoscere la specifica relazione funzionale.
I modelli economici usano specifiche relazioni funzionali per indicare l’effetto su una
variabile dipendente, Y, risultante dai cambiamenti nella variabile indipendente, X.
In molti casi possiamo approssimare adeguatamente l’auspicata relazione funzionale

con l’equazione lineare:
Si deve cercare di trovare la migliore fra tutte le possibili equazioni lineari, determinando in modo
appropriato i coefficienti:
Capitolo 4 : Probabilità
Dimostreremo come i modelli probabilistici siano gli strumenti utilizzati per fare inferenza sulle caratteristiche
non note della popolazione. Il nostro obiettivo, in questo e nei prossimi due capitoli, sarà quello di capire le
probabilità e i modi per poterle determinare e utilizzare.
Esperimento aleatorio, risultati, eventi

Nella maggior parte delle situazioni aziendali non possiamo essere cer3 del verificarsi di un evento
futuro, ma, se fosse conosciuta la sua probabilità, avremmo l'opportunità di prendere una
decisione migliore rispe;o al caso in cui non si avessero informazioni sull'evento.
Le decisioni e le poli3che aziendali sono spesso basate su un insieme implicito o presunto di
probabilità.
Al fine di pronunciare giudizi probabilis3ci su un problema in condizioni di incertezza è necessario
sviluppare definizioni e conceA, come quelli di spazio campionario, risulta3 ed even3, che sono i
pilastri per definire e calcolare le probabilità.
Lo studio della probabilità inizia con il conce;o di esperimento aleatorio.
Esperimento aleatorio
Un esperimento aleatorio (o esperimento casuale) è un processo che porta a due o più risulta.
senza che si possa prevedere quale di ques. si realizzerà.
Esempi di esperimento casuale sono: lancio di una moneta; numero di appal> che una società può
aggiudicarsi (da 0 a 5); L'acquisto o meno di un ar>colo da parte di una persona che entra in un
negozio…
In ognuno degli esperimen> casuali elenca> precedentemente possiamo specificare tu6 i possibili
risulta., defini> even! elementari, ma non sappiamo in an>cipo quale si verificherà.
(Ad esempio, non sappiamo in an>cipo se la persona che entra in un negozio comprerà o non
comprerà un determinato ar>colo)
Spazio campionario
I possibili risulta> di un esperimento casuale sono chiama> even5 elementari e
l’insieme di tu9 gli even* elementari è chiamato spazio campionario
(o spazio degli even> elementari).
Per indicare lo spazio campionario si userà la leJera S
Evento
Un evento, E, è un qualsiasi soCoinsieme di even5 elementari di uno spazio campionario.
Un evento si verifica quando il risultato dell'esperimento casuale e uno degli even> elementari che
lo cos>tuiscono.
L'evento impossibile rappresenta l'assenza di even> elementari ed è indicato con 0 (simbolo
dell'insieme vuoto in algebra).
L'evento certo è rappresentato da tuE gli even> elementari ed è lo stesso S
Intersezione di even$
Siano A e B due even> dello spazio campionario S. La loro intersezione, indicata con A ^ B, è
l'insieme di tu6 gli even. elementari di S che appartengono sia ad A sia a B.
L'intersezione A ^ B si verifica se e solo se si verificano sia A sia B.
Si userà il termine probabilità congiunta di A e B per indicare la probabilità dell’intersezione di A e
B.
Più in generale, da> K even> E1, E2,..., Ek, la loro intersezione, E1 ^ E2 ^ ... Ek, è l'insieme di tuE gli
even> elementari che appartengono a ogni Ei (i = 1,2, … , K).
È possibile che l’intersezione di due even> non presen> even> elementari comuni e sia pertanto
l’evento impossibile
Even$ mutualmente esclusivi

Se gli even. A e B non hanno in comune alcun evento elementare, sono deE mutuamente
esclusivi (o incompa>bili) e la loro intersezione, A ^ B, è l'evento impossibile.
Più in generale, i K even> E1, E2, ..., Ek sono deF mutuamente esclusivi se ogni coppia (Ei, Ej) è
una coppia di even5 mutuamente esclusivi.
Unione di even$
siano A e B due even> dello spazio campionario S. La loro unione, indicata con A U B, è l'insieme di
tu6 gli even. elementari di S che appartengono ad almeno uno dei due even..
L'unione A U B si verifica se e solo se A o B o entrambi si verificano.
Più in generale, da> K even> E1, E2, ..., Ek, la loro unione, E1 U E2 U ... U Ek, è l'insieme di tuE gli
even> elementari che appartengono ad almeno uno dei K even>.
Even$ colle1vamente esaus$vi
Da> K even> E1, E2, … , Ek dello spazio campionario S, se la loro unione,
E1 U E 2 U ... U Ek = S, ques> K even> sono deE colleFvamente esaus5vi.
èTre concetti che saranno importanti per lo sviluppo successivo della teoria della probabilità: l'evento intersezione,
l'evento unione e l'evento complementare.
La Probabilità
La probabilità è misurata in un intervallo da 0 a 1: un valore pari a 0 indica che l'evento non si

verificherà (evento impossibile) e un valore pari a 1 indica che l’evento si verificherà sicuramente
(evento certo).
Naturalmente, nei problemi applica>vi nessuno di ques> due estremi è un valore >pico, perciò
siamo interessa> ad assegnare probabilità tra 0 e 1 a tuE gli altri even> non prevedibili a priori.
Per far questo dobbiamo u>lizzare tuCe le informazioni disponibili.
Esistono 4 >pologie di approccio alla probabilità:

1. Classico
2. Frequen>sta
3. SoggeEvo
4. Assioma>co
§ la probabilità di un evento è la proporzione di volte in cui l'evento si verifica.

§ Richiede che si con>no gli even> elementari dello spazio campionario per poi usare
ques> conteggi nella determinazione della probabilità richiesta.
§ Queste probabilità ci permeJono di valutare se un evento potrà verificarsi un maggior
numero di volte rispeJo ad altri.
§ la probabilità è il limite della proporzione di volte in cui l'evento A si verifica in un numero
molto elevato, n, di ripe>zioni di un esperimento
§ La probabilità esprime quindi il livello individuale di fiducia del verificarsi di un certo evento.
Le probabilità soggeEve sono usate in alcuni processi decisionali di >po ges>onale.
§ Le probabilità soggeEve sono personali. Non si richiede che persone diverse giungano alle
stesse probabilità per lo stesso evento. Nell' esempio della quotazione azionaria la
maggioranza delle persone giungerebbe alla conclusione che la probabilità appropriata per
un aumento della quotazione è 0.50, tuJavia una persona con più informazioni sul >tolo
potrebbe pensarla diversamente.
4.Definizione Assioma/ca
È necessario sviluppare una struJura per calcolare e trasformare numericamente le
probabilità… stabiliamo quindi 3 regole (o assiomi) che le probabilità dovranno soddisfare
e dimostreremo che queste richieste sono “ragionevoli”
Assiomi della probabilità

Sia S lo spazio campionario di un esperimento casuale, siano Ei gli eventi elementari e sia
A un generico evento.
Per ciascun evento A dello spazio campionario si assume che P(A) sia sempre definita e
che si abbiano i seguenti assiomi della probabilità:
Regole della probabilità

Probabilità condizionata
• Affronta il problema riguardo la probabilità del verificarsi di A, sapendo che B si è
verificato.
• Questo perché, spesso, il verificarsi di un evento dipende dal faEo che altri even, si
siano o meno verifica,.
• È quindi definita dal rapporto tra la probabilità congiunta e la probabilità dell’evento

condizionante.
è Una conseguenza immediata della probabilità condizionata è

la Regola mol$plica$va delle probabilità
Siano A e B due even, dis,n,, usando questa regola, la probabilità della loro
intersezione può essere derivata dalla probabilità condizionata
Indipendenza sta$s$ca
DeEa anche indipendenza stocas,ca, è un caso speciale nel quale la probabilità

condizionata di A dato B è uguale alla probabilità non condizionata di A.
Quando ciò accade, sapere che l’evento B si è verificato non cambia la probabilità
dell’evento A
Probabilità bivariate
Due insiemi di even,, considera, congiuntamente, sono chiama, bivaria,, e le
rela,ve probabilità sono deEe probabilità bivariate
Probabilità congiunte e marginali
Nel contesto delle probabilità bivariate, vi sono le probabilità delle intersezioni,

deEe probabilità congiunte.
Le probabilità per i singoli even# sono deEe invece probabilità marginali: sono ai
margini delle tabelle e possono essere calcolate sommando le probabilità della
corrispondente riga o colonna.
è Le probabilità marginali possono anche essere ricavate da diagrammi ad albero : il
lato destro con,ene tuEe le probabilità congiunte; nei rami principali ci sono invece
le probabilità marginali rela,ve ai tre even,, e sono oEenute sommando la
probabilità sui soEorami corrisponden,.
Even! indipenden!:
Siano A e B una coppia di even,, ognuno oEenuto dall’unione di even, mutuamente
esclusivi e colle>vamente esaus,vi indica, con A1, A2, …, Ah e B1, B2, …, Bk
Se ogni evento Ai è sta2s2camente indipendente da ogni evento Bj, allora A e B sono
even# indipenden#
Odds
Sono usa, per comunicare informazioni probabilis,che
in determinate situazioni
Overinvolment Ra4o
È il rapporto tra le probabilità condizionate di un evento, ad esempio vedere una
pubblicità, che si verifica soEo due condizioni mutuamente esclusive e complementari,
come ad esempio l’acquisto o meno di un prodoEo.
Teorema di Bayes
§ Fornisce un modo per aggiornare le probabilità condizionate usando le informazioni

disponibili, e anche un metodo per modificare i giudizi probabilis,ci in presenza di
nuove informazioni.
Siano da, K even, E1, E2, …, Ek mutuamente esclusivi e colle>vamente esaus,vi e sia A
un qualunque altro evento, La probabilità condizionata di Ei, dato A, può essere espressa
nel modo seguente :
Capitolo 5. Distribuzioni di probabilità e variabili aleatorie discrete
Una variabile aleatoria rappresenta un possibile valore numerico prodoEo

dall’esperimento aleatorio.
è Discreta: se può assumere al più un insieme numerabile di valori

è Con,nua: se può assumere un qualunque valore in un intervallo
Proprietà della funzione di probabilità di una variabile aleatoria discreta:

Proprietà delle variabili aleatorie discrete
Supponiamo di estrarre un campione casuale di n oggea da un gruppo di N oggea,
dei quali S sono definid successi.
La distribuzione del numero di successi, X, nel campione è deea distribuzione
ipergeometrica, e la sua funzione è:
Siano X e Y due varibili aleatorie discrete delle quali è nota la distribuzione
congiunta. In questo ambito l funzione di probabilità della variabile X (o Y) si dice
distribuzione marginale di probabilità di X (o Y)
Date due variabili aleatorie X e Y con funzione di probabilità congiunta P(x,y):

è P(x,y) è compreso tra 0 e 1 per ogni coppia di valori x e y
è La somma delle probabilità congiunte P(x,y) su tuee le possibili coppie di
valori (x,y) deve valere 1
La covarianza è un indice del legame lineare tra due variabili aleatorie e ne rappresenta la
variabilità congiunta. È u5lizzata per calcolare la varianza di combinazioni lineari di var. aleat.
è Una forte relazione lineare è 5picamente definita come una condizione in cui le singole
osservazioni sono vicine a una linea reCa
è È un indice legato alla covarianza, e fornisce una misura dell’intensità della relazione
lineare tra due variabili aleatorie, con valori limita5 tra -1 e +1:
1. Un coefficiente di correlazione uguale a O indica che non c'è una relazione lineare tra due
variabili aleatorie: può tuJavia esistere una relazione di altra natura, ad esempio
quadra>ca. Se le due variabili sono indipenden> il coefficiente di correlazione è uguale a 0.
2. Un coefficiente di correlazione posi>vo indica che, se una variabile aleatoria assume valori
eleva> (bassi), allora l'altra variabile ha una probabilità maggiore di assumere valori eleva>
(bassi) e si dice che le variabili sono correlate posi>vamente (o che esiste una correlazione
direJa). La dipendenza lineare perfeJa posi>va è indicata da un coefficiente di correlazione
uguale a + 1.
3. Un coefficiente di correlazione nega>vo indica che, se una variabile aleatoria assume valori
eleva> (bassi), allora l'altra variabile ha una probabilità maggiore di assumere valori bassi
(eleva>) e si dice che le variabili sono correlate nega>vamente (o che esiste una
correlazione inversa). La dipendenza lineare perfeJa nega>va è indicata da un coefficiente
di correlazione uguale a - 1.
Combinazioni lineari di variabili aleatorie discrete
Valore a<eso di funzioni variabili aleatorie congiunte
Siano X e Y due variabili aleatorie discrete con distribuzione congiunta di probabilità

P(x,y).
Il valore aeeso di ogni funzione g(x,y) di queste variabili aleatorie è definito come:
E [g(x,y)] = ∑ ∑ g(x,y) P(x,y)

X Y
Combinazioni lineari di variabili aleatorie

La combinazione lineare di due variabili aleatorie, X e Y, è data da:
Con a e b costanti prefissate.

La Sta&s&ca Ci Aiuta A Fare Questo Passaggio

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

La Sta&s&ca Ci Aiuta A Fare Questo Passaggio

Caricato da

Copyright:

Formati disponibili

Sta$s$ca

Popolazione obbie>vo (N unità) -> la popolazione oggeEo dell’indagine

Si dice Parametro à cara5eris#ca della popolazione,

è Sta$s$ca descri1va: insieme di tecniche per la sintesi di un insieme di da,

è Sta$s$ca inferenziale: fornisce tecniche per estendere info oEenute da un

è Numeriche: Discrete (venute fuori da un’operazione di conteggio, es. numero di

I da, possono essere classiﬁca, come qualita#vi o quan#ta#vi.

Da& qualita&vi à acceEano, come livelli di misurazione, scala nominale e ordinale

• Da# ordinali: indicano un ordine gerarchico degli elemen, e, come i nominali,

Da& quan&ta&viàacceEano, come livelli di misurazione, scala ad intervallo e scala di

• Scala ad Intervallo: indica orfdine e distanza da un origine arbitraria misurata con

• Scala di rapporto: si indicano sia un ordine sia la distanza da un origine assoluta,

Il tipo di grafico da usare dipende dalla variabile che vogliamo sintetizzare

Tabella per organizzare i da,.

Diagrammi a barre e Diagrammi a torta

Diagrammi a torta: u,lizzato per evidenziare maggiormente la proporzione di ciascuna

Rappresentazioni graﬁche per descrivere le

§ Riassume i da> elencando le classi di intervallo nella colonna di sinistra e il numero di

§ E’ necessario per i da> numerici, saper determinare le classi K decidendo numero e

§ Le classi d’intervallo devono essere colleEvamente esaus5ve e mutuamente esclusive

§ L’area del reJangolo è proporzionale al numero di osservazioni della classe

Simmetria: la forma di un istogramma è deJa simmetrica se le osservazioni sono bilanciate o

Relazioni tra variabili

Quando consideriamo 2 variabili, vengono usate altre tecniche:

Per le variabili numeriche-quan2ta2ve, si u,lizza il Diagramma di Dispersione:

Il diagramma di dispersione fornirà una descrizione dei da,, in par,colar modo

è Elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di 2

Rappresentazione graﬁca dei Da$ Categorici Mul$varia$

Diagramma a barre accostate

Graﬁci realizza, in modo troppo approssima,vo possono facilmente distorcere la

E’ necessario comunicare idee complesse chiaramente e in modo accurato,

o Negli istogrammi un errore può essere la diversa ampiezza delle classi di

Descrizione numerica dei da!

Misure di tendenza centrale e di posizione:

• quando ci interessa conoscere la posizione rela#va di un’osservazione rispeEo

• Le misure di tendenza centrale sono in genere calcolate a par,re da da,

È la somma dei valori di tuEe le osservazioni divisa per il numero di osservazioni.

Con N= dimensione della popolazione, o n= dimensione del campione

• In genere è la misura che descrive meglio i da, numerici, ma va considerata, come

È l’osservazione centrale di un insieme di osservazioni ordinate in modo non

àSe n, la dimensione del campione, è un numero dispari, la mediana è

Dato un insieme di osservazioni (numeriche o categoriche), la moda, se esiste,

Forma di una distribuzione

è La moda e la mediana di una distribuzione unimodale simmetrica sono uguali,

Sono le misure che indicano la posizione di un dato rela#vamente a tu5o l’insieme

Bisogna innanzituEo ordinare i da, in modo non decrescente.

P-mo percen2le = valore collocato nella posizione

(P/100)(n+1) della sequenza ordinata

àIl primo quar#le, Q1 ( o 25-mo percen,le) separa approssima,vamente il 25% più

àIl secondo quar#le, Q2 (o 50-mo percen,le) è la mediana

àIl terzo quar#le, Q3 (o 75-mo percen,le) separa approssima,vamente il più

I cinque numeri di sintesi : si riferiscono a cinque misure descri>ve: il minimo, il

box-and-whisker plot: (o diagramma scatola e baﬃ) è un graﬁco che descrive

Campo di variazione = Xmax – Xmin

Scarto quadra$co medio

è Scarto quadra$co medio campionario S

è Vengono calcola, tu> i valori presen, nel set di da,

Regola empirica: per molte popolazioni di grandi dimensioni, questa regola

è Approssimativamente il 68% delle osservazioni sono nell’intervallo µ ±1σ

• Uno z-score positivo indica che il dato è superiore alla media,

Lo z-score non dipende né dall'unità di misura né dall'ordine di grandezza dei

Se l'insieme di dati coincide con l'intera popolazione e si conoscono la sua

La classica situazione che richiede l’utilizzo della media ponderata è il calcolo