Sei sulla pagina 1di 8

Statistica

Statistica
Capitolo 1
Statistica descrittiva
Popolazione
Rappresentazione numeriche di dati statistici
Frequenza assoluta
Frequenza cumulata assoluta
Frequenza Relativa
Frequenza cumulativa relativa
Indici di tendenza centrale
Media
Momento K-esimo rispetto ad y
Mediana
Moda
Indici di variabilità (Varianza)
Rappresentazione per caratteri bidimensionali
Frequenza assoluta doppia
Frequenza cumulata assoluta
Frequenza relativa doppia
Frequenza cumulativa relativa
Distribuzioni di frequenza doppia
Distribuzioni marginali
Esempio
Covarianza
Serie statisticamente incorrelate
Serie statisticamente indipendenti
Regressione lineare per serie di dati
Coefficiente di correlazione lineare
Esempio
Regressione (modello non lineare ) per serie di dati
Esempio

Capitolo 1
Statistica descrittiva
Raccolta metodi e strumenti matematici atti a organizzare dati in modo da evidenziare eventuali:

Simmetrie
Periodicità
Altre leggi

Popolazione
Solitamente una serie di dati è costituita da un numero limitato di osservazioni che rappresentano una più
ampia popolazione.

La popolazione è l’insieme degli elementi a cui si riferisce l’indagine statistica

In statistica l’organizzazione dei dati varia in base alle caratteristiche (caratteri)

degli elementi su cui si svolge l’indagine :

Caratteri qualitativi (grandezze non misurabili)


Caratteri quantitativi (grandezze misurabili)
quantitativi discreti (dado)
quantitativi continui (temperatura -> valori sull’asse reale)

Rappresentazione numeriche di dati statistici


con elementi della popolazione l’insieme dei dati esaminati si rappresenta con .

Quando il carattere è discreto è comodo associare a ognuno dei valori assumibili (Modalità del carattere) la
quantità di essi in .

è l’insieme delle modalità ovvero l’insieme degli elementi di senza ripetizioni.

esempio: dato il carattere colore degli occhi alcune possibili modalità sono azzurro, marrone o verde.

Frequenza assoluta
Si dice frequenza assoluta della modalità la quantità

La distribuzione di frequenza assoluta una funzione che associa a ogni modalità la propria frequenza
assoluta

Frequenza cumulata assoluta

la frequenza cumulata assoluta di è la somma di tutte le frequenze assolute di tutte le modalità minori
uguali a .

Frequenza Relativa

ovvero il rapporto tra la frequenza assoluta e il numero di elementi dell’insieme .

Frequenza cumulativa relativa


La somma di tutte le frequenze relative delle modalità minori di una modalità .

Quando il carattere da studiare è continuo o discreto con molti elementi è utile dividere l’insieme delle
modalità i classi in modo che formino una partizione, ovvero suddivido l’insieme in sotto-insiemi in modo
che la loro unione ricrei l’intero insieme e la loro intersezione restituisca e successivamente applicare lo
studio spiegato precedente (Freq. Ass, Freq Rel, ecc..) .

Le partizioni devono essere:

significative per il caso in esame


sufficientemente numerose

Ogni classe ha diverse grandezze che le caratterizzano:


Confine superiore/inferiore = valori estremi della classe
Ampiezza = la distanza tra il confine superiore/inferiore della classe
Valore centrale = semi-somma tra i due confini

Indici di tendenza centrale


Vengono usati per rappresentare, con un solo valore numerico, un’intera serie di osservazioni. Tale valore è
in grado di sintetizzare l’insieme dei valori assunti dai dati.

Media

La media aritmetica è definita come il rapporto tra la soma di tutti i valori di una serie e il numero degli
elementi che compone la serie ( ). Formalmente è definita nel seguente modo:

Nel caso i dati siano di tipo quantitativo discreto è possibile calcolare la media tramite il rapporto tra la
somma di tutti i valori delle modalità moltiplicate per la loro rispettiva frequenza assoluta e il numero di
elementi che compone la serie. Formalmente:

Momento K-esimo rispetto ad y


Definito come:

in questo modo è possibile definire la media come il Momento primo rispetto all’origine :

Mediana

È definita come il valore della serie che è preceduto e seguito dallo stesso numero di elementi.

nel caso il numero di elementi sia dispari la posizione mediana equivale a con equivalente al
numero di elementi della serie.
nel caso il numero di elementi della serie sia pari la posizione della mediana equivale alla media tra
i numeri alla posizione e .

Moda

La moda è il valore che si presenta più frequentemente nella serie. Per trovare a moda è necessario trovare
il valore con maggiore frequenza assoluta.

La moda non è unica, per questo esistono:

distribuzione Uni-Modale
distribuzione Multi-Modale

Indici di variabilità (Varianza)


In alcuni casi è possibile che nonostante sue serie di osservazioni siano diverse abbiano valori come la
media o la mediana identici. Per colmare questa mancanza sono state introdotti gli indici di variabilità che
rispecchiano il livello di disomogeneità di una serie di valori rispetto la media. In altre parole più i valori
di una serie si scostano dalla rispettiva media più l’indice di variabilità sarà maggiore.

L’indice di variabilità è definito come segue:


e si può definire anche come Momento secondo rispetto alla media.

Nel caso di caratteri quantitativi discreti è possibile usare la seguente formula:

Rappresentazione per caratteri bidimensionali


Si tratta dello studio di due o più caratteri della popolazione tali da non poter essere considerati
separatamente. La loro rappresentazione è come segue:

Nel caso di valori quantitativi continui il procedimento è del tutto analogo previo una adeguata divisione in
classi.

Le modalità dei caratteri bidimensionali sono definite come segue :

ovvero tutte le combinazioni di coppie dei valori che può assumere


e , il numero di modalità sarà quindi .

Frequenza assoluta doppia


La frequenza assoluta di è la quantità ovvero il numero di
elementi di aventi valore uguale a .

Definiamo Distribuzione di frequenza assoluta doppia la funzione che ad ogni valore la


corrispondente frequenza .

Frequenza cumulata assoluta

La frequenza cumulata assoluta di è definita come la somma di tutte le frequenze assolute doppie di
tutte le corrispettive modalità minori o uguali di . È definita anche come:

Frequenza relativa doppia


La frequenza relativa doppia di è, analogamente alle caratteristiche bidimensionali, definita in
questo modo:

Frequenza cumulativa relativa


È definita come la somma di tutte le frequenze relative doppie corrispondenti alle modalità minori o uguali
ad un certo .

Distribuzioni di frequenza doppia


Si intende qualsiasi delle funzioni che associ ad ogni coppia la corrispondente frequenza.

Distribuzioni marginali
Nel caso ci si riferisca al primo carattere , la frequenza assoluta marginale equivale alla quantità
data dal numero di elementi di il cui primo carattere equivale a .
tutti gli elementi di che hanno

Successivamente ci saranno le corrispettive:

Frequenza relativa assoluta marginale


Frequenza relativa marginale
Frequenza cumulata relativa marginale

Esempio
 

Covarianza
La covarianza viene usata per misurare il grado di dipendenza tra due serie , ovvero se a valori
positivi (negativi), per ogni carattere, dello scarto corrispondono valori positivi (negativi) dello scarto
. Essa è definita nel seguente modo :

nel caso, nella sommatoria, i valori dei prodotti abbiano


segni concordi (sia positivi che negativi) allora la covarianza tenderà a crescere positivamente o
negativamente altrimenti rimarrà con valori relativamente bassi, nel primo caso caso si parla di statistiche
fortemente correlate.

Da notare come la varianza sia molto simile alla covarianza sostituendo con e con .

Nel caso i dati siano quantitativi discreti di cui è nota la distribuzione a frequenza doppia, è possibile
calcolare la covarianza come segue:

Serie statisticamente incorrelate


Due serie si dicono statisticamente incorrelate se la loro covarianza è nulla, o più precisamente se :

Serie statisticamente indipendenti

Due serie si dicono statisticamente indipendenti se la loro frequenza relativa della coppia del primo e
secondo carattere è uguale al prodotto delle singole frequenze relative .
Nota: due serie di dati statisticamente indipendenti sono anche incorrelate mentre il contrario non è
necessariamente vero.

Nel caso bidimensionale con variabili o caratteri e la covarianza si può rappresentare come una matrice
2x2 ella seguente maniera.

Si noti che

È dipendente dalla grandezza delle varianze.

Per una matrice non dipendente dalla variabilità si usa la matrice di correlazione:

Usando la varianza

E la covarianza

la matrice di correlazione è uguale a:

dove per si intende lo scarto quadratico medio, ovvero la radice quadrata della

varianza.

Regressione lineare per serie di dati


Data una serie formata da coppie : ci si chiede se tra i valori di e è
presente una relazione di tipo funzionale. L’analisi che studia tale aspetto viene detta Analisi di
regeressione.

Tale studio avviene prendendo uno dei due caratteri come una Variabile indipendente (es. ) e cercare
una funzione che consenta di scrivere la seguente relazione:

a questo punto viene interpretato come una Variabile dipendente.

la funzione che cerchiamo quindi è quella che minimizza la seguente quantità:

ovvero dove la somma di tutte le differenze tra e è minore e il quadrato ha


lo scopo di avere le distanze esclusivamente a segno positivo.

Nel caso la funzione sia una linea retta allora si può parlare di Regressione lineare, in tal caso la
funzione vista precedentemente si può scrivere anche nella forma:

quindi usando l’equazione della retta al posto della funzione .

Per trovare rispettivamente i valori di e si procede nel seguente modo:

quindi il rapporto tra la covarianza di e e la varianza di .

quindi la differenza tra la media di e il prodotto tra la e la media di .

Coefficiente di correlazione lineare


Questa retta descrive al meglio la relazione tra i due caratteri senza fornire alcuna indicazione sul grado di
approssimazione. Per tale motivo è stata introdotta una nuova grandezza detta Coefficiente di
correlazione lineare definito nel seguente modo:

quindi il rapporto tra la covarianza di e e il prodotto dei due Scarti quadratici medi e
.

il Coefficiente di correlazione lineare assumerà:

valore nullo nel caso le serie di dati siano statisticamente incorrelate


valore 1 nel caso le coppie di dati siano esattamente sulla linea retta

e quindi rappresenta il grado di allineamento delle coppie di dati.

Esempio

Regressione (modello non lineare ) per serie di dati


Non si è sempre vincolati alla scelta di una retta tra le funzioni che possono descrivere la relazione tra le
due serie di dati. Quindi è possibile usare funzioni di diversa natura.

Esempio