Formulario Statistica Inferenziale

FORMULARIO STATISTICA INFERENZIALE
• Probabilità → è una misura della possibilità che un fenomeno causale possa verificarsi. Si occupa di fenomeni
non deterministici, ovvero quando si trovano risultati diversi anche se gli esperimenti sono condotti nelle
stesse condizioni. L’inferenza statistica avviene in condizioni di incertezza e sotto l’effetto del caso, quindi su
base probabilistica. La probabilità descrive l’incertezza nel breve periodo di un risultato che nel lungo periodo
è certo; essa risponde alla legge dei grandi numeri per la all’aumentare del numero di ripetizioni di un
esperimento probabilistico, la proporzione con la quale uno specifico risultato si osserva tende a essere
sempre più vicina alla probabilità di ottenere lo specifico risultato.
Due sono le regole che deve rispettare la probabilità per essere considerata tale:
I. 0 ≤ P(e) ≤ 1
II. P(𝑒1 ) + P(𝑒2 ) +⋯+ P(𝑒𝑖 ) + P(𝑒𝑛 ) = 1
[la somma delle P di tutti i risultati possibili di un evento E deve essere pari a 1]
• Esperimento probabilistico → un qualsiasi processo dai risultati incerti che può essere ripetuto
• Spazio campionario S → insieme di tutti i risultati dell’esperimento. Per determinare S si costruisce un
diagramma ad albero per elencare i risultati equiprobabili dell’esperimento
• Evento E → sottoinsieme di S dato da un insieme di risultati derivanti da un esperimento. Può comprendere
un unico risultato (𝑒𝑖 ; eventi semplici) o più risultati (E). Un evento può essere:
✓ Certo con P=1
✓ Impossibile con P=0
✓ Casuale o aleatorio con 0 < P < 1
✓ Raro
Due eventi si dicono disgiunti o incompatibili se non hanno possibili risultati in comune e se non possono
accadere contemporaneamente; in caso contrario, sono eventi compatibili o complementari.
Due eventi E ed F si dicono indipendenti se la P che l’evento E accada non influenza la P di accadimento
dell’evento F. Al contrario, si dicono dipendenti.
Caratteristiche degli eventi:
o Somma logica o evento unione → 𝐸1 ∪ 𝐸2 . Riconosciamo tale somma quando nella descrizione di E
compare il connettivo o
o Prodotto logico o evento intersezione → 𝐸1 ∩ 𝐸2 . Riconosciamo tale somma quando nella
descrizione di E compare il connettivo e
o Addizione → Se E ed F sono disgiunti → P(E o F) = P(E) + P(F)
→ Se E ed F non sono disgiunti → P(E o F) = P(E) + P(F) – P(E ed F)
o Moltiplicazione → P(E ed F) = P(E)*P(F) [con E ed F eventi indipendenti]
Un evento E, in uno spazio campionario S di un esperimento probabilistico, può avere il suo evento
complementare 𝐸 𝒄 che rappresenta tutti i risultati di S che non appartengono a E → P(𝐸 𝑐 ) = 1 − 𝑃(𝐸)
𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑧𝑎 𝑑𝑖 𝐸
• Probabilità empirica o frequentista = P(E) ≈ 𝑛𝑢𝑚𝑒𝑟𝑜 𝑑𝑖 𝑡𝑒𝑛𝑡𝑎𝑡𝑖𝑣𝑖 𝑑𝑒𝑙𝑙′ 𝑒𝑠𝑝𝑒𝑟𝑖𝑚𝑒𝑛𝑡𝑜
𝑐𝑎𝑠𝑖 𝑓𝑎𝑣𝑜𝑟𝑒𝑣𝑜𝑙𝑖 𝑚
• Probabilità classica = p(E) = 𝑐𝑎𝑠𝑖 𝑝𝑜𝑠𝑠𝑖𝑏𝑖𝑙𝑖
= 𝑁
• Probabilità condizionata → riduce l’ampiezza dello spazio campionario S. Rappresenta la probabilità che
l’evento F accada, considerando che l’evento E è accaduto → P(F ǀ E) = P(E ed F)/P(E) = N(E ed F)/N(E)
È possibile applicare la regola generale della moltiplicazione a due eventi dipendenti per i quali la P che gli
eventi E ed F occorrono entrambi è data da P(E ed F) = P(E)*P(F ǀ E).
È possibile esprimere l’indipendenza utilizzando le probabilità condizionate → P(F ǀ E) = P(E) / P(F)
• Variabili casuali o aleatoria X → è una misura numerica di un esperimento casuale, quindi il suo valore è
determinato da caso. All’insieme dei valori di probabilità 𝑝𝑖 associati a quelli di 𝑥𝑖 assunti dalla variabile
aleatoria si dà il nome di distribuzione di probabilità della variabile X. La variabile casuale può essere:
✓ Discreta quando assume un numero finito di valori ed è determinata da un conteggio
✓ Continua quando assume un numero infinito di valori ed è determinata da una misurazione
• Funzione di ripartizione = F(𝑥𝑖 ) = ∑𝑖𝑘=1 𝑝𝑘
Essa è anche detta funzione di distribuzione o funzione di probabilità cumulativa. È definita su tutto l’insieme
reale, assume valori non decrescenti e si mantiene compresa tra 0 e 1
• Valore atteso di X o speranza matematica o valore medio → E(x) = 𝜇 = ∑𝑛𝑖=1 𝑥𝑖 . 𝑝𝑖
Essa è la media ponderata di tutti i valori che X può assumere in un numero molto grande di prove.
• Varianza di X = ơ²(x) = V(X) = ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2 . 𝑝𝑖 = [E(𝐸)2 ] − [𝐸(𝑋)]2
Esso è il valore atteso del quadrato della differenza fra la variabile X ed il suo valore atteso
• Deviazione standard o scarto quadratico medio = 𝜎(𝑋) = √𝑉(𝑋)
• Esperimento di Bernoulli → è un esperimento aleatorio che può avere solo due possibili esiti: successo e
insuccesso. La probabilità p dell’evento successo viene detta anche parametro dell’esperimento. La variabile
aleatoria X che conta il numero di successi nella ripetizione di n volte dell’esperimento viene detta binomiale
• Distribuzione binomiale → 𝑃𝑛,𝑥 = ( 𝑛𝑥). 𝑝 𝑥 . 𝑞 𝑛−𝑥
𝑛!
[essendo q = 1 – p; ( 𝑛𝑥) = coefficiente binomiale = 𝑥!(𝑛−𝑥)!
]
𝑥−𝜇
1
• Distribuzione di Gauss (funzione di densità di probabilità normale) → f(x) = 𝑒 −1/2( 𝜎 )² [var. continua]
𝜎√2𝜋
Essa è una funzione non negativa la cui area della parte di piano compresa tra la curva e l’asse delle ascisse è
unitaria e pari a 1.
Le caratteristiche della distribuzione normale gaussiana:
✓ È simmetrica rispetto alla media
✓ Assume valore massimo in corrispondenza della media
✓ Ha due flessi nei punti di ascissa 𝜇 − 𝜎 e 𝜇 + 𝜎 (quando c’è un cambio di curvatura)
✓ Ha come asintoto orizzontale l’asse delle ascisse
✓ L’area sottesa dalla curva e delimitata dall’asse x ha valore 1 (N=1)
𝑥−𝜇
• Normale standardizzata → scarto standardizzato = z = 𝜎
Le caratteristiche della normale standardizzata:
✓ Ha deviazione standard 𝜎 = 1
✓ La media 𝜇 = 0
✓ L’area sottesa dalla curva è pari a N=1
✓ I punti di flesso di trovano in
corrispondenza di 𝜇 − 𝜎 = −1 e 𝜇 +
𝜎= 1
✓ L’area a dx di 𝜇 = 0 è uguale all’area a
sx, quindi ½ (è simmetrica rispetto
all’origine degli assi)
• Distribuzione campionaria → è una distribuzione di probabilità associata a tutti i valori possibili della statistica
calcolati per un campione di ampiezza n. A partire dai dati campionari si può costruire una quantità che
permetta di ottenere indicazioni sul parametro che si intende studiare sulla popolazione.
La d. campionaria della media X ha media uguale alla media della popolazione di riferimento → x̄ = E(X) = μ
𝜎
La d. campionaria di X ha deviazione standard = 𝜎𝑥 =
√𝑛
𝑥
• Frequenza relativa = p̂ = 𝑛
con x = numero degli individui nel campione che hanno una particolare
caratteristica. Tale frequenza è una statistica che stima la proporzione della popolazione
• Stima → è un numero ottenuto sul campione effettivamente estratto. Si vogliono stimare puntualmente 3
parametri di un campione:
1. Media del fenomeno in U che corrisponde alla m di X
2. Varianza del fenomeno in U che corrisponde alla varianza s² di X
3. Frequenza relativa di una specifica categoria
Stimatore → è la variabile casuale che tiene conto di tutte le possibili stime ottenibili su tutti i possibili
campioni estraibili. Serve per interpretare la variabile campionaria e per controllare l’errore campionario.
Stima puntuale → è il valore di una statistica che fornisce il valore di un parametro. Utilizza le informazioni
campionarie per calcolare un valore puntuale e sostituirlo all’ignoto e per controllare l’affidabilità di tale
sostituzione in termini di probabilità che rappresenta l’inferenza nel processo di stima. Essa è sempre
applicabile, cioè calcolabile a partire dai soli dati campionari, ed è semplice, in quanto procede per analogia
utilizzando come stimatore del parametro di interesse il suo analogo campionario. Tuttavia, può dare una falsa
testimonianza di precisione.
Stima intervallare → utilizza i dati campionari per produrre un intero insieme di valori che ragionevolmente
contiene l’ignoto valore del parametro. Essa è meno rischiosa e di più facile utilizzo
• Intervallo di confidenza → per un ignoto parametro è un intervallo di valori calcolato sui dati campionari,
per il quale su può confidare, a un prescelto livello probabilistico, che contenga l’ignoto valore del
parametro. Sono calcolabili solo se vale almeno una delle 2 condizioni:
1) se è nota la funzione di probabilità o densità di X;
2) se la numerosità del campione n è sufficientemente grande.
Per costruire un IC è necessario:
o Estrarre un campione bernoulliano di ampiezza n e procurarsi i dati campionari
∑ 𝑥𝑖
o Calcolare la stima puntuale per μ → x̄ =
𝑛
o Scegliere la probabilità di sbagliare, cioè un IC che non contiene μ → α. Quindi, la probabilità di
costruire un IC che contiene l’ignoto parametro μ è (1-α) [livello di confidenza]
𝜎 𝜎
IC = [x̄ - 𝑧𝛼 * ; x̄ + 𝑧𝛼 * ] → se si riferisce a una popolazione
2 √𝑛 2 √𝑛
Se ci si riferisce a un campione, utilizzare la stessa forma MA calcolare N-1 e trovare il valore nella tavola
di riferimento dei gradi di libertà della T Student in corrispondenza del livello di significatività.
• Livello di confidenza → rappresenta la proporzione prevista di intervalli di confidenza che contengono il
parametro oggetto di studio. Esso è indicato con (1 − 𝛼) ∗ 100. Nella pratica, α è generalmente fissato ad un
livello standard pari a → 0,05 e valore critico 𝑧𝛼 di 1,645 → 90% di probabilità di fare bene
2
→ 0,025 con valore critico 𝑧𝛼 di 1,96 → 95%
2
→ 0,005 e valore critico 𝑧𝛼 di 2,575 → 99%
2
• Margine di errore → di un IC costruito intorno a un parametro misura quanto è accurata la stima puntuale e
dipende da:
✓ Livello di confidenza → il margine di errore aumenta all’aumentare del livello di confidenza
✓ Ampiezza campionaria → il margine di errore diminuisce all’aumentare dell’ampiezza campionaria
✓ Deviazione standard della popolazione → a parità di numerosità campionaria e livello di confidenza,
quanto maggiore è la variabile della popolazione, tanto più ampio sarà l’intervallo ottenuto
• Verifica delle ipotesi → è la metodologia inferenziale che a partire dai dati campionari ha l’obiettivo di
decidere se accettare o rifiutare l’ipotesi. L’obiettivo è utilizzare tali dati campionari per stabilire se un’ipotesi,
formata prima di estrarre il campione stesso, possa essere accettata o rifiutata. L’ipotesi sottoposta al test
statistico si chiama ipotesi nulla 𝐻0 . L’ipotesi alternativa 𝐻1 è l’asserzione opposta all’ipotesi nulla e
rappresenta la conclusione a cui si giunge quando si rifiuta l’ipotesi nulla, cioè quando il campione osservato
fornisce sufficiente evidenza del fatto che 𝐻0 sia falsa. Accettare o rifiutare l’ipotesi nulla sulla base dei dati
campionari comporta inevitabilmente il rischio di commettere un errore.
• Errore campionario → di I specie → rifiutare 𝐻0 quando 𝐻0 è vera
di II specie → accettare 𝐻0 quando 𝐻0 è falsa
• Livello di significatività → è la probabilità dell’errore di I specie che si è disposti a tollerare; esso è scelto a
piacere. Tuttavia, minore è la probabilità dell’errore di I specie che si è disposti a tollerare, maggiore è la
probabilità dell’errore di II specie che si è costretti a subire. Generalmente la probabilità di errore di I specie è
fissata a uno dei livelli standard (0.05, 0.1, 0.01) e quindi il test avrà livello di significatività che varia da 95%,
90% o 99%.
• Statistica test → Il test statistico/statistica test è la pratica che porta a questa decisione ed è basato su dati
campionari, quindi condotto in condizioni di incertezza. La distribuzione della statistica test è spesso una
distribuzione statistica nota, come la normale o la t di Student. Si può quindi ricorrere a queste distribuzioni
per decidere se accettare o rifiutare 𝐻0 . La distribuzione campionaria della statistica test è divisa in 2 regioni:
regione di rifiuto/critica e regione di accettazione. Se la statistica test cade nella regione di accettazione, 𝐻0
non può essere rifiutata, mentre se la statistica test cade nella regione di rifiuto, 𝐻0 deve essere rifiutata.
Per prendere una decisione su 𝐻0 bisogna in primis definire le regioni di rifiuto e di accettazione attraverso la
determinazione del valore critico della statistica test.
La regione di rifiuto può essere definita come l’insieme di tutti i valori della statistica test che non è probabile
che si verifichino quando 𝐻0 è vera, mentre è probabile che questi valori si verifichino quando 𝐻0 è falsa.
La determinazione del valore critico della statistica test dipende dall’ampiezza della regione di rifiuto.
Quando si applica un procedimento di verifica delle ipotesi si possono commettere 2 tipi di errori: I specie e II
specie. Un modo per controllare e ridurre l’errore di II specie consiste nell’aumentare la dimensione del
campione, poiché un’elevata dimensione del campione consente di individuare piccole differenze tra statistica
campionaria e parametro della popolazione: per un dato valore di α, l’aumento della dimensione campionaria
determina una riduzione di β e quindi aumento della potenza del test per verificare se l’ipotesi 𝐻0 è falsa.
Quindi, una riduzione del rischio connesso all’errore di I specie si accompagna a un aumento di quello
connesso a un errore di II specie.
• Test di ipotesi Z per la media con ơ noto → Se si assume che la popolazione abbia distribuzione normale e che
lo scarto quadratico medio della popolazione sia noto, la verifica di ipotesi viene condotta utilizzando il test di
𝑋̄−𝜇
ipotesi Z → Z = 𝜎/
√𝑛
Per definire le regioni di accettazione e di rifiuto, bisogna determinare i valori critici della statistica test
fissando α (livello di significatività) e facendo riferimento alla distribuzione normale standardizzata. La regola
decisionale è che bisogna rifiutare 𝐻0 se Z < -valore del livello di confidenza (1,96-1,645-2,575) o se Z < +val.
Altrimenti, non bisogna rifiutare 𝐻0 e applicare la formula di Z.
• Test di ipotesi Z per la frequenza relativa della popolazione → Per un campione casuale estratto dalla
popolazione, si deve calcolare la proporzione campionaria P̂ = x/n. Se il numero di successi di X e di insuccessi
(n-X) sono entrambi >5, allora la distribuzione della proporzione di successi può essere approssimata dalla
distribuzione normale e, quindi, si può ricorrere alla statistica test Z per la verifica di ipotesi sulla frequenza
𝑃̂−𝜇
relativa o proporzione → Z =
√𝑝(1−𝑝)/𝑛
• Test di ipotesi t (T Student) per media con ơ non noto → Se si assume che la popolazione da cui è estratto il
campione segue la distribuzione normale, allora la media campionaria si distribuisce secondo una t di Student
con (n-1 → campione) gradi di libertà. Quest’ultimi esprimono il numero minimo di dati sufficienti a valutare
𝑋̄−𝜇
la quantità di informazione contenuta nella statistica → t = 𝑆/
√𝑛
Caratteristiche della distribuzione t:
✓ Differisce a seconda dei
gradi di libertà
✓ È centrata e simmetrica
rispetto a 0
✓ L’area sotto la curva è 1
✓ Le code della
distribuzione t sono
asintotiche rispetto
all’asse delle x
✓ L’area nelle code è
leggermente più grande
dell’area nelle code della
distribuzione normale
standard
✓ All’aumentare della
numerosità campionaria,
il valore di s si avvicina al
valore di ơ (legge dei
grandi numeri)
• Chi-quadrato → è un test di verifica delle ipotesi che dà conto della significatività della relazione fra due
variabili nominali; inoltre, permette di confrontare una serie di dati osservati con la serie di dati attesi in base
ad un’ipotesi teorica e di stimare la bontà di questa ipotesi. Si tratta di assenza di relazione statistica fra due
variabili, quindi falsificare 𝐻0 . Se l’ipotesi di assenza di relazione viene respinta, automaticamente viene
accettata 𝐻1 che sostiene l’esistenza della relazione.
Il test del chi-quadrato si basa sulla differenza tra frequenze osservate e frequenze attese → X²=
(𝑓𝑜 −𝑓𝑒 )² (𝑂−𝐴)²
∑ =
𝑓𝑒 𝐴
❖ Osservate 𝑓𝑜=𝑂 : il numero dei dati di una cella effettivamente rilevati
❖ Attese 𝑓𝑒=𝐴: frequenza che si dovrebbe ottenere sulla base dei totali marginali, se tra le 2 variabili
considerate non esistesse alcuna associazione
Il valore del chi-quadrato è tanto maggiore quanto maggiore è la distanza fra tabella delle 𝑓𝑜 e tabella delle
𝑓𝑒 . È zero nel caso di indipendenza perfetta nei dati.
Caratteristiche della distribuzione del chi-quadrato:
✓ Non è simmetrica
✓ La forma dipende dai gradi di libertà
✓ Al crescere del numero dei gradi, la distribuzione si avvicina a una distribuzione simmetrica
✓ I valori del X² sono sempre ≥0
La tavola di distribuzione del chi-quadrato dice se un certo valore è sufficientemente piccolo da poter essere
attribuito ad errori casuali o se esiste una qualche relazione fra 2 variabili e a che livello di probabilità tale
relazione è significativa. Il controllo del valore ottenuto si effettua seguendo i passaggi:
I. Calcolare i gradi di libertà
di una tabella → g.d.l. =
(n. di righe-1)*(nr. di
colonne-1)
II. Individuare il livello di
probabilità/significatività
cui riferirsi
(generalmente è del
5%=0,05)
III. Trovare il corrispettivo
valore critico nella tabella
IV. Confrontare il valore
critico con quello del chi-
quadrato
V. Accettare l’ipotesi 𝐻0 nel
caso in cui il chi-quadrato
sia minore del valore
critico. Rifiutiamo 𝐻0 e
accettiamo 𝐻1 in caso
contrario

Formulario Statistica Inferenziale

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Formulario Statistica Inferenziale

Caricato da

Copyright:

Formati disponibili

FORMULARIO STATISTICA INFERENZIALE

Potrebbero piacerti anche