Sei sulla pagina 1di 30

1

Esplorazione della Statistica


di Andrea Giomo

(C) AGiomo 10

Introduzione alla statistica

1. La statistica un metodo 2. Rilevazione e rappresentazione di insiemi di dati 3. Studio quantitativo dei fenomeni collettivi Losservazione si appunta sul caso individuale, linsieme dei casi individuali costituisce la popolazione statistica Lindagine pu essere 1. totale (popolazione)--------> demografia 2. parziale (campionaria)------> inferenza statistica (funzione della probabilit)

Corso di Statistica

(C) AGiomo 10

Storia
Graunt, Halley Pascal, Bernoulli, Legendre

1650 Demografia
censimenti e perizie

Giochi
Laplace, Bayes Gauss, Simpson

1750
Royal Statistical Society American Statistical Society

Teoria della Probabilit

Teoria degli errori


minimi quadrati

Econometria

Yule, Galton, Pearson

1850

serie temporali Bart, Thurstone, Rao

Biologia e genetica

regressione e correlazione

Biometrics Society

Psicometria
variabili latenti Wold, Kowalski, Forina

Fisher, Neyman

1950
Classification Society BCS SIS IFCS

Agricoltura
verosimiglianza

Chemiometria

1970
SEC Mc Lelland, Holland

Tukey, Efron

Bootstrap

Scienza cognitivista

Corso di Statistica

(C) AGiomo 10

Presentazione delle metodologie statistiche

Le tecniche statistiche di uso pi comune possono essere classificate in funzione di diversi parametri: - assunzioni sul modello previste - dimensioni del modello - robustezza e resistenza - approccio computazionale

Corso di Statistica

(C) AGiomo 10

Presentazione delle metodologie statistiche

In funzione delle assunzioni previste, avremo: - metodi inferenziali - metodi parametrici, lineari e non lineari: prevedono che la distribuzione dei valori campionari sia nota ed inoltre sia ascrivibile alla curva di distribuzione di Gauss o Normale - metodi non parametrici o distribution free: non presuppongono sia nota la distribuzione dei dati - metodi descrittivi - grafici: descrivono o riassumono il campione analizzati tramite le tecniche grafiche - sintetici: descrivono il campione analizzato mediante indici statistici numerici In funzione delle dimensioni del modello avremo: - metodi univariati: qualora nel modello entrassero una variabile alla volta - metodi multivariati: qualora nel modello entrassero pi di una variabile contemporaneamente
Corso di Statistica (C) AGiomo 10

Presentazione delle metodologie statistiche

In funzione della robustezza o della resistenza, avremo: - tecniche robuste: capaci di evidenziare la presenza di dati anomali tra i valori acquisiti; - tecniche potenti: con grosse capacit di induzione sulla popolazione e di semplice trattamento, ma sensibili a valori anomali e con pesanti assunzioni richieste per l'applicabilit In funzione all'approccio computazionale avremo: - tecniche che fanno uso di algoritmi tradizionali o deterministici (tutte le tecniche statistiche tradizionali); - tecniche che fanno uso di algoritmi olistici o intelligenti ed algoritmi evolutivi (reti neurali artificiali, algoritmi genetici di ottimizzazione)

Corso di Statistica

(C) AGiomo 10

Lesperimento

Sperimentatore

Statistico

Conoscenza dei dati

Conoscenza dei metodi

INFORMAZIONE

Corso di Statistica

(C) AGiomo 10

Lesperimento Osservazione Descrizione Classificazione Rappresentazione

Descrizione statistica

Formulazione Ipotesi Test Statistico Verifica dIpotesi Inferenza statistica

Corso di Statistica

(C) AGiomo 10

Lesperimento

Valori X TTT TTC TCT TCC CTT CTC CCT CCC 0 1 2 3

?
Corso di Statistica (C) AGiomo 10

Classificazione dei fenomeni

10

Natura qualitativa dei fenomeni - Scala nominale: rappresenta il pi basso livello di utilit statistica, le unit di osservazione possono solamente essere classificate per uguaglianza o diversit fra di loro (attributi, caratteristiche predefinite....) - Scala ordinale: consente lordinamento delle unit di osservazione pur non conoscendone lammontare del carattere esaminato (ordinamento di Friedman....) Natura quantitativa dei fenomeni - Scala di intervallo: possiede tutte le propriet delle scale di natura quantitativa, ma pur possedendo unit di misura fisiche, lo zero ha natura arbitraria (conteggi di colonie di lieviti...) - Scala continua (ratio scale): rappresenta il pi alto livello di utilit statistica e possiede unit di misura di tipo fisico e zero non arbitrario (altezze, misure analitiche....)
Corso di Statistica (C) AGiomo 10

Statistica descrittiva

11

Indici di posizione Minimo Massimo Moda


x min = MIN ( xi )

x max = MAX ( xi )

la moda o norma della distribuzione di frequenza X la modalit caratterizzata dalla massima frequenza

Mediana Me = [P (X < xm) < 1/2 P (X < xm) > 1/2] Medie aritmetica geometrica armonica
E ( x ) = " x ! p( x )
N

Mh <= Mg <= Ma

Corso di Statistica

(C) AGiomo 10

Statistica descrittiva

12

Indici di dispersione Campo di variazione o intervallo o range o escursione Varianza Scarto quadratico medio o deviazione standard o standard deviation Coefficiente di variazione (%) Devianza Valore assoluto degli scarti (LAV)
Range = x max ! x min
Var ( x ) = # 2 = "
( x i " x )2 n

( xi ! x ) 2 n

!=

CV (%) =

" ! 100

Corso di Statistica

(C) AGiomo 10

Statistica descrittiva

13

Indici di forma Assimmetria (skewness) positiva negativa Curtosi (curtosis) mesocurtica leptocurtica platicurtica

Intervallo interquartile (BOX)

Corso di Statistica

(C) AGiomo 10

14

Dai Box Plot al Test della Distanza di Differenza D&D

(C) AGiomo 10

Box plot

15

Corso di Statistica

(C) AGiomo 10

Box plot

16

Box Mediana Baffi Outlier lontano Intervallo di confidenza al 95%


Descrittore i-esimo oppure IG

Campione A

Campione A rep

Valori
Corso di Statistica (C) AGiomo 10

Box plot

17

I
Frequenza

Ranghi

I
Ranghi Frequenza

II III

II

III

Mediana

Mediana
Outlier
Ranghi

Frequenza

Mediana Whisker Box


Corso di Statistica (C) AGiomo 10

Probabilit

18

Una misura di probabilit P un applicazione a valori reali definita nello spazio campionario S ed avente le seguenti propriet assiomatiche: P(A)>=0 P(S)=1 P(A1 U A2 U....)=P(A1)+P(A2)+ ... per ogni serie finita o infinita Interpretazioni 1. Classica 2. Frequentista La probabilit P dellevento A la frequenza relativa con la quale A si verifica in una lunga serie di prove ripetute sotto condizioni simili! 3. Soggettivista o Bayesiana

Corso di Statistica

(C) AGiomo 10

Probabilit

19

Modo sperimentale: Se lanciamo in aria una moneta possiamo ottenere o testa o croce. Con un numero basso di lanci otterremo un certo numero di teste ed un certo numero di croci, potremo ottenere solo teste, oppure solo croci. Il numero di eventi verificatosi (ad es. numero di teste) viene chiamato frequenza assoluta, mentre la frazione fra frequenza assoluta e numero totale di esperimenti (lanci) frequenza relativa o semplicemente frequenza. Proviamo ora ad astrarci dal semplice lancio e pensiamo cosa potrebbe accadere se i lanci fossero moltissimi (quasi infiniti): la frequenza relativa tende a stabilizzarsi verso un valore costante pari, in questo caso, a 0.5. Si dice allora che esiste una certa regolarit statistica.

Corso di Statistica

(C) AGiomo 10

20

Frequenza relativa

Dispersione della Frequenza

0.5

Numero di prove

Numero di prove

Corso di Statistica

(C) AGiomo 10

10

Probabilit

21

Insieme complementare Insieme vuoto Unione di eventi

A1

A2

Assegnazione della probabilit agli eventi Probabilit condizionata P(A1|A2)=P(A1 n A2)/P(A1) Indipendenza
P(A1 n A2)=P(A1)P(A1|A2)

Formula di Bayes

Corso di Statistica

(C) AGiomo 10

Variabili casuali

22

Valori X TTT TTC TCT TCC CTT CTC CCT CCC 0 1 2 3

Probabilit 1/8 3/8 3/8 1/8

x
Corso di Statistica

R
(C) AGiomo 10

11

Variabili casuali

S B

23

Sx

Asse reale

1. Ad ogni risultato ottenibile si associato uno ed un solo valore numerico della variabile X. 2. Gli eventi elementari vengono cos associati a dei numeri reali (spazio campionario reale) sui quali si pu definire una misura di probabilit. 3. La nuova variabile X determinata, viene detta variabile casuale perch associata ad un esperimento casuale.

Def. Variabile casuale una funzione che associa ogni evento dello Spazio Campionario uno ed uno solo numero reale.

Corso di Statistica

(C) AGiomo 10

Variabili casuali

24

Funzione di Probabilit della VC p(x)=P(X=x) Funzione di ripartizione di una variabile casuale F(x)=P(X<= x)=

t<=x p(t)

Esempi: Lancio di due dadi Definizione e grafici Il passaggio alle funzioni di densit continue come limite n-->oo delle discrete

Corso di Statistica

(C) AGiomo 10

12

Variabili casuali

25

xi

Voto in matematica 22.8 3.0 25.0

Voto in fisica 24.6 4.8 27.0

a prima vista sembrerebbe che il voto di fisica sia migliore di quello di matematica, in realt bisogna esaminare anche la variabilit. Per eliminare il peso della variabilit si calcolano i punteggi standardizzati come: Matematica zi=(25-22.8)/3=0.73 Fisica zi=(27-24.6)/4.8=0.50 Il voto di matematica migliore! Punteggi standard: zi=( xi-)/

Corso di Statistica

(C) AGiomo 10

Variabili casuali

26

1 xi

2 xi

serie

Dati originali serie 3 xi 4 xi

Dati centrati sulla media

serie

Dati centrati sulla dev.std. serie


Corso di Statistica

Punteggi standardizzati

(C) AGiomo 10

13

Campionamento ed inferenza statistica

27

Problema diretto

MODELLO

Assunzioni

Deduzione Comportamento Probabilit potenziale dei dati

Induzione (Teoria statistica)


Problema inverso

Popolazione

CAMPIONE

Corso di Statistica

(C) AGiomo 10

Distribuzione del campione casuale

28

Si consideri una popolazione la cui distribuzione secondo una caratteristica quantitativa discreta X sia: X x1
.

p(x) p1
.

x2 xk
Totale

p2 pk
1

_____________________

La probabilit di osservare un certo valore di X pari alla frequenza relativa delle unit che posseggono quel particolare valore.

Corso di Statistica

(C) AGiomo 10

14

Variabile casuale X campinaria

29

Per cui: l'estrazione di una unit dalla popolazione genera una variabile casuale X la cui distribuzione di probabilit coincide con la distribuzione della variabile statistica X della popolazione. in n estrazioni casuali si ottengono altrettante variabili casuali (X1, X2, ..., Xn) che, se il campionamento stato del tipo con ripetizione, sono indipendenti ed identicamente distribuite. Il campione si configura cos come una variabile casuale multipla, la cui distribuzione casuale multipla verr chiamata distribuzione del campione.

Corso di Statistica

(C) AGiomo 10

Gli strumenti dellinferenza: il test statistico e la verifica dipotesi

30

Puntuale Parametrica Stima dei parametri Intervallare

Non parametrica

Funzionale Verifica d'ipotesi Parametrica Relazionale

Corso di Statistica

(C) AGiomo 10

15

La verifica dipotesi

31

Corso di Statistica

(C) AGiomo 10

Il test statistico: confronto fra 2 medie

32

Considerato che una differenza tra due medie, con varianza nota oppure noto il rapporto, distribuisce secondo una distribuzione t di Student, si avr:

Media di riferimento nota e varianza nota

Medie non note e rapporto tra le varianze noto

Valori accoppiati, =x2-x11 varianza nota


Corso di Statistica (C) AGiomo 10

16

33

DallANOVA alla gestione del profilo sensoriale

(C) AGiomo 10

Il test statistico: confronto fra pi medie (ANOVA)

34

Corso di Statistica

(C) AGiomo 10

17

35

Fattori da controllare in una sessione per la determinazione del profilo sensoriale

Sessione Replica Giudice Ordine di presentazione Effetto carry-over ANOVA

Corso di Statistica

(C) AGiomo 10

36

Ordine di presentazione ed effetto carry over

Ordine

Ordine
Assaggiatore

1 2 3 4

1 A B C D

2 B C D A

3 C D A B

4 D A B C

1 2 3 4

1 A B C D

2 B D A C

3 C A D B

4 D C B A

Quadrato latino bilanciato per ordine

Assaggiatore

Quadrato latino bilanciato per ordine ed effetto carry-over

Corso di Statistica

(C) AGiomo 10

18

37

Requisiti per assicurare loggettivit dei dati sensoriali

Affidabilit Ripetibilit Dare agli stessi prodotti punteggi uguali o molto simili Necessario replicare i giudizi Validit Accuratezza Per lassaggiatore: In accordo con la media del panel Per il panel: Per non includere assaggiatori tra loro in disaccordo (omogeneit del panel) Discriminazione Dare a prodotti diversi punteggi sufficientemente diversi La discriminazione dei prodotti possibile solo in condizioni di ripetibilit delle risposte dei giudici ed omogeneit del panel

Corso di Statistica

(C) AGiomo 10

38

Cosa possiamo realmente misurare?

Ripetibilit: coerenza nelle valutazioni ripetute sui prodotti Riproducibilit: punteggi uguali a quelli di altri panel Variabilit: differenze di punteggio de giudici Discriminazione: capacit di differenziare i campioni Concordanza: accordo nellinterpretazione/uso descrittori Correlazione: accordo sulla direzione delle differenze tra i prodotti Dare gli stessi punteggi agli stessi prodotti (valutazioni ripetute) Se non c affidabilit del singolo individuo non pu esserci validit di gruppo

Corso di Statistica

(C) AGiomo 10

19

39

6 5,5 5

replica 1 replica 2 Ripetibilit Riproducibilit

1 3,2 2,8 si si

Assaggiatori 2 4,2 4,5 si no

3 3,9 1,7 no si

4 5,5 3,7 no no

Intensit del descrittore

4,5 4 4,2 3,9 3,7

3,2 2,8

2 1,7

0 0 1 2 3 Assaggiatori
Corso di Statistica

Da Fiorella Sinesio (2006)


(C) AGiomo 10

40

La proiezione grafica

Il modo pi semplice per controllare la variabilit dei dati quello di proiettarli in un grafico Gli Outliers sono facilmente individuabili Tuttavia i grafici richiedono tempo e generano confusione Esempio: 27 descrittori x 10 assaggiatori = 270 grafici! Utili per riassumere linformazione di tutti gli assaggiatori (media del panel)

Corso di Statistica

(C) AGiomo 10

20

41

Da Fiorella Sinesio (2006)


Corso di Statistica (C) AGiomo 10

Indici statistici come indicatori della performance degli assaggiatori

42

p-value - ANOVA sui dati individuali Indica la capacit dei giudici di discriminare i prodotti Errore Quadratico Medio (MSE) Misura lerrore nelle risposte (ripetibilit) Interazione Prodotto/Assaggiatore* Rivela quali attributi creano problemi Rivela gli assaggiatori devianti dal panel legata alla scarsa riproducibilit dei dati (tra gli assaggiatori o tra le repliche di assaggiatore)

*Chapman, K. W. and Lawless, H. T. (2005). Sources Of Error And The No-preference Option In Dairy Product Testing. J Sensory Studies, (20)454-468.

Corso di Statistica

(C) AGiomo 10

21

43

Da Fiorella Sinesio (2006)

Corso di Statistica

(C) AGiomo 10

44

Da Fiorella Sinesio (2006)

Corso di Statistica

(C) AGiomo 10

22

45

Da Fiorella Sinesio (2006)

Corso di Statistica

(C) AGiomo 10

46

Valore p vs. MSE (ANOVA individuali degli assaggiatori per attributo)

Permette il confronto delle performance degli assaggiatori. Svantaggio Non adatto in caso di ampio numero di descrittori

p-value Buona capacit identificazione della replica e scarsa discriminazione

Scarsa capacit identificazione della replica e scarsa discriminazione

Buona capacit identificazione della replica e buona discriminazione References Naes, T. (1990), Handling individual differences between assessors in sensory profiling, Food quality and Preference, 2, 187-199. Naes, T. and Solheim, R. (1991) Detection and interpretation of variation within and between assessors in sensory profiling, Journal of Sensory Studies, 6, 159-177
Corso di Statistica

Scarsa capacit identificazione della replica e buona discriminazione MSE

(C) AGiomo 10

23

47

Da PanelCheck

Corso di Statistica

(C) AGiomo 10

48

LWT - Food Science and Technology Copyright 2006 Swiss Society of Food Science and Technology. Published by Elsevier. http://www.sciencedirect.com/
Visualization of sensory profiling data for performance monitoring LWT - Food Science and Technology - Available online 2 November 2005 Oliver Tomic, Asgeir Nilsen, Magni Martens and Tormod Ns Abstract Simple graphical techniques can be utilized to investigate the performance of individual assessors and to detect individual differences among assessors in a sensory panel. By visualizing different type of information in a set of various plots the panel leader can extract relevant information without the need of extensive knowledge in statistics. The joint information content gained from the plots can then be used as a basis for selective training in order to improve performance of single assessors and the panel as a whole.
Corso di Statistica (C) AGiomo 10

http://www.matforsk.no/

24

49

Coefficiente di Kendall (Concordanza)

Stima per ciascun attributo il grado di accordo tra i giudici Utile durante le fasi di addestramento per identificare i termini ridondanti bene fissare delle soglie di accettabilit - Un buon accordo = Kendalls W >0.8 Un valore W per ciascun attributo (per tutti gli assaggiatori) Poco pratico quando si confrontano i valori del coefficiente di Kendall W di 10 assaggiatori e 40 attributi
Corso di Statistica (C) AGiomo 10

50

Coefficiente di Spearman

Confronta la capacit individuale degli assaggiatori di ordinare I campioni per intensit crescente dellattributo (assessor rank) con quella dellintero panel (true rank) bene fissare delle soglie di accettabilit in base allabilit del panel I valori estremi sono fissati dalla performance globale del panel Non pratico se si confrontano molti attributi
References Lawlor, J.B. et al (2003) Swiss type and Cheddar hybrid type cheese: effects of manufacture on sensory character and relationships between the sensory attributes and volatile compounds and gross compositional constituents. International Dairy Journal, 56, 1, 39-52 McDonnell, E. et al (2001) Development and learning process of a sensory vocabulary for the odour evaluation of selected distilled beverages using descriptive analysis, Journal of Sensory Studies, 16, 425-445
Corso di Statistica (C) AGiomo 10

25

Analisi univariata
ANOVA (Prodotto)

Analisi multivariata
GPA

51

Ripetibilit: MSE Validit: correlazione con il panel Discriminazione: F= MSprod/MSE

Validit: Correlazione tra configurazioni individuali (Coef RV) Correlazione con il consensus del panel (Coef. RV) Discriminazione: N. di dimensioni significative identificate dalla GPA

Assaggiatore

ANOVA (Prodotto + Panel + Prodotto*Panel )

GPA

Ripetibilit: MSE Validit: F= MSProd*Panel/MSE Discriminazione: F=MSprod/MSprod*panel

Validit: Correlazione tra le configurazioni dei laboratori (Coef RV ) Correlazione con la configurazione consensus dei laboratori (Coef. RV) Discriminazione: N. di dimensioni significative identificate dal panel

Panel

Corso di Statistica

(C) AGiomo 10

52

Le ricerche di Marketing

(C) AGiomo 10

26

Le ricerche di marketing

53

Le ricerche di marketing costituiscono un'acquisizione di informazioni volte alla: - identificazione - definizione dei problemi e delle opportunit di mercato. Lo scopo: quello di legare l'azienda all'ambiente esterno e supportare il processo decisionale del management.

Corso di Statistica

(C) AGiomo 10

Le ricerche di marketing

54

Le ricerche possono essere: - QUALITATIVE - QUANTITATIVE Le ricerche di marketing qualitative si basano soprattutto sulla componente qualitativa e quindi di giudizio piuttosto che sulla misurazione quantitativa anche se non tralasciano completamente quest'ultima. Il limite principale delle ricerche qualitative sta nella loro natura prevalentemente esplorativa che consente una comprensione solo generale ed introduttiva del problema analizzato.
METODI Il metodo Delphi. Il Panel di esperti. Le ricerche motivazionali. Le ricerche di mercato. I Clinic test.
Corso di Statistica (C) AGiomo 10

27

Le ricerche qualitative

55

Come si raccolgono i dati nella ricerca qualitativa: - Le interviste in profondit. - Le interviste non direttive - Le interviste retrospettive - Le interviste d'immaginazione - I Focus groups o interviste di gruppo. - Il Case Study. - Le tecniche proiettive.

Corso di Statistica

(C) AGiomo 10

Le ricerche quantitative

56

LE RICERCHE QUANTITATIVE Nel marketing la ricerca di tipo quantitativo si applica nei casi in cui: - si dispone di informazioni sul passato; - tali informazioni possono essere espresse in termini numerici; - consentito ipotizzare che le tendenze registratesi in passato continueranno in futuro. Le ricerche descrittive, in generale, permettono di ottenere una descrizione accurata delle variabili presenti nel modello di ricerca.
Corso di Statistica (C) AGiomo 10

28

Le ricerche quantitative

57

Come si raccolgono i dati nella ricerca quantitativa: - L'intervista personale: il rapporto faccia a faccia tra L'intervistatore e l'intervistato offre, inoltre, il vantaggio di poter controllare il campione verificandone direttamente le caratteristiche. - Il sondaggio postale: la tecnica consiste nell'inviare un questionario ad un campione di - L'intervista telefonica viene condotta contattando telefonicamente gli individui scelti nel piano di campionamento (CATI).
Corso di Statistica (C) AGiomo 10

Le scale di misura

58

Tipologia di scala utilizzata - La scala tipo Likert - Le scale di semantica differenziale bipolari - Le scale a somma costante - Le scale di preferenza - La scala di classificazione - Confronto fra coppie - Prima, seconda e terza scelta Scale di intezione: le scale di predisposizione la probabilit d'acquist confronto tra coppie
Corso di Statistica (C) AGiomo 10

29

Consumer Test (AFNOR)

59

Test
Preferenza per confronto a coppie Preferenza per confronto a coppie multiple Preferenza per classamento Test Edonistici

Test Statistici
Test chiquadrato binomiale ANOVA TCM Scheff Test di Friedman ANOVA, T di Student, Wilcoxon, Mann Whitney, Kruskal-Wallis

Condizioni duso
Senza ritorno

Note
Sprotetto

Senza ritorno

Sprotetto

Ordine di assaggio definito Scale di diverso tipo, descrizione libera degli attributi

Sprotetto

Potente, ma non robusto

Corso di Statistica

(C) AGiomo 10

30

Potrebbero piacerti anche