Sei sulla pagina 1di 89

Statistica - notite de curs

Stefan Balint, Loredana Tanasie

Cuprins

1 Ce este statistica? 3

2 Notiuni de baza 5

3 Colectarea datelor 7

4 Determinarea frecventei si gruparea datelor 11

5 Prezentarea datelor 14

6 Parametrii si statistici ai tendintei centrale 19

7 Parametrii si statistici ai dispersiei 22

8 Parametrii si statistici factoriali ai variantei 25

9 Parametrii si statistici ale pozitiei 26

10 Seria de distributie a statisticilor


de esantioane 28

11 Teorema limita centrala 32

12 O aplicatie a teoremei limita centrala 35

13 Estimarea punctuala a unui parametru; intervalul de ncredere 36

14 Generalitati privind ipotezele statistice si problema verificarii ipotezelor


statistice 38

1
15 Verificarea ipotezelor statistice: varianta clasica 41

16 Verificarea ipotezelor statistice: varianta probabilista 48

17 Inferenta statistica privind media populatiei daca nu se cunoaste


abaterea standard a populatiei 52

18 Inferenta relativa la varianta si estimarea variantei 59

19 Generalitati despre corelatie. Corelatie liniara 65

20 Analiza de corelatie liniara 73

21 Inferenta privind coeficientul de corelatie liniara 76

22 Regresie liniara 80

23 Analiza de regresie liniara 83

24 Inferenta referitoare la panta unei drepte de regresie liniara 87

2
1 Ce este statistica?

Definitia 1.1. Statistica este stiinta colectarii, clasificarii, prezentarii, interpretarii


datelor numerice si a folosirii acestora pentru a formula concluzii si a lua decizii.

Definitia 1.2. Statistica descriptiva se ocupa cu colectarea, clasificarea si prezentarea


datelor numerice.

Definitia 1.3. Statistica inferentiala (inferential statistics) se ocupa cu interpretarea


datelor oferite de statistica descriptiva si cu folosirea acestora pentru a formula concluzii
si lua decizii.

Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltare
a facilitatilor de cazare. Pentru a trece la actiune consiliul de administratie hotaraste ca
este necesar sa se raspunda la urmatoarea ntrebare: Cati studenti vor trebui cazati n
urmatorii zece ani?
Pentru a raspunde la aceasta ntrebare trebuie sa cunoastem raspunsul la cel putin
urmatoarele doua ntrebari: Cati absolventi de liceu vor fi? Cati vor sa vina la
universitate? (Si altele poate).
Pentru a raspunde la aceste doua ntrebari e nevoie de date referitoare la numarul de
absolventi de liceu n urmatorii zece ani si de date care indica procentul acelor absolventi
de liceu care doresc sa devina studenti la U.V.T. n urmatorii zece ani.
O cale de a obtine date refritoare la numarul de absolventi de liceu n urmatorii zece ani
este de a vedea care a fost acest numar n ultimii zece ani si a extrapola acest numar.
Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.
Acest lucru nu este ntotdeauna adevarat. O ntrebare suplimentara care se pune n acest
context este daca va trebui sa numaram toti absolventii de liceu din toate scolile din
ultimii zece ani sau ne putem limita sa numaram doar la anumite scoli? Altfel spus, daca
putem considera doar esantioane?
O cale de a obtine date referitoare la procentul acelor absolventi care doresc sa devina
studenti la U.V.T. este aceea de a vedea aceste procente n ultimii zece ani si de a
extrapola.
Alte ntrebari care se pun sunt: Cum interpretam aceste date? Cum formulam o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ntrebarilor care pot fi relevante. La acest moment ceea
ce este important este sa ncepem sa ne gandim la asemenea probleme si la ntrebarile
care trebuiesc lamurite pentru a obtine un raspuns.

Remarca 1.1. Relatia dintre statistica si probabilitati


Statistica si probabilitatile sunt doua domenii strans legate, dar distincte ale matematicii.
Se spune ca probabilitatile sunt vehiculul statisticii. Aceasta este adevarat n sensul
ca daca nu ar fi legile probabiliste teoria statistica nu ar fi posibila. Pentru a ilustra
nsa diferenta dintre probabilitati si statistica sa consideram doua urne: una probabilista
si una statistica. In cazul urnei probabiliste se stie ca urna contine 5 bile albe, 5 bile
negre si 5 bile rosii; problema de probabilitate este daca scoatem o bila, care este sansa
ca aceasta sa fie alba? In cazul unei urne statistice nu cunoastem care este combinatia
de bile din urna. Extragem un esantion si din acest esantion conjecturam ce credem ca
se gaseste n urna. Trebuie retinuta deosebirea: probabilitatea pune ntrebarea sansei
ca ceva (un eveniment) sa se ntample atunci cand se cunosc posibilitatile (se cunoaste

3
populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma sa
facem predictie asupra populatiei pe baza informatiei gasite n esantion.

Remarca 1.2. Folosirea corecta si folosirea gresita a statisticii


Utilizarea statisticii este nelimitata. Este greu de gasit un domeniu n care statistica nu
se foloseste. Iata cateva exemple, unde si cum este folosita statistica:

n educatie; statistica descriptiva este adesea folosita pentru a prezenta rezultatele;

n stiinta; rezultatele experimentale trebuiesc colectate si analizate;

guvernele; aduna diferite date statistice tot timpul.

Multi oameni sunt indiferenti fata de descrierea statistica, altii cred ca statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea unei
statistici neadecvate sau date obtinute dintr-un esantion nepotrivit. Toate acestea conduc
la o ntelegere gresita a informatiei din partea consumatorului. Folosirea gresita a
statisticii duce uneori la ncurcaturi.

Remarca 1.3. Statistica si calculatorul


In ultimul deceniu calculatorul a avut un rol important n aproape toate aspectele vietii.
Domeniul statististicii nu face exceptie. Statistica foloseste multe tehnici care au o
natura repetitiva; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predictii. Calculatorul este foarte bun pentru a face asemenea operatii
repetitive. Daca calculatorul are un soft standard statistic este mult mai usoara analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analiza statistica), IBM Scientific Subroutine Packages si
SPSS (pachet statistic pentru stiinte sociale).

4
2 Notiuni de baza

Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numerice
obtinute prin masuratori ale carei proprietati trebuiesc analizate.
Remarca 2.1. Populatia este colectia completa de indivizi, obiecte sau date numerice
obtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).
Conceptul de populatie este fundamental n statistica. Populatia trebuie definita cu grija
si se considera complet definita daca lista membrilor este specificata. Multimea studentilor
Facultatii de Matematica si Informatica este o populatie bine definita.
Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statistica
populatia poate fi o multime de animale, de obiecte fabricate sau de date numerice
obtinute prin masuratori. De exemplu multimea naltimilor studentilor facultatii de
Matematica si Informatica este o populatie.
Definitia 2.2. Esantionul este o submultime a unei populatii.
Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate din
populatie (de catre colectorul de esantion).
Definitia 2.3. O variabila de raspuns (simplu variabila) este o caracteristica (de
obicei numerica) care prezinta interes n cazul fiecarui element (individ) al unei populatii.
Remarca 2.3. Varsta studentului, media lui, culoarea parului, naltimea, greutatea
s.a.m.d. sunt variabile de raspuns n cazul populatiei: studentii de la Facultatea de
Matematica si Informatica.
Definitia 2.4. O data (la singular) este valoarea unei variabile de raspuns n cazul
unui element al populatiei sau esantionului.
Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui este
castaniu, naltimea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cinci
valori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolae
sunt cinci date.
Definitia 2.5. Valorile unei variabile de raspuns n cazul unei populatii sau a unui
esantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea ori
de cate ori variabila are aceasta valoare.
Exemplul 2.2. Cele 25 de naltimi n cazul unui esantion de 25 de studenti este un set
de 25 de date nu neaparat diferite.
Definitia 2.6. O activitate planificata n urma careia se obtine un set de date se numeste
experiment sau sondaj.
Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.
Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica care
au promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazul
populatiei: studentii de la Facultatea de Matematica si Informatica.
Remarca 2.4. Parametrul este o valoare numerica care se refera la ntreaga populatie.
In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.

5
Definitia 2.8. O statistica este o caracteristica numerica a unui esantion

Exemplul 2.4. Inaltimea medie gasita folosind cele 25 de naltimi n cazul unui esantion
de 25 de studenti este un exemplu de statistica (de esantion).

Remarca 2.5. O statistica este o valoare numerica care se refera la un esantion.


Statisticile (de esantion) se noteaza cu literele alfabetului latin.

6
3 Colectarea datelor

Prima problema a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.
Exemple de obiective:

a) Compararea eficacitatii unui medicament nou cu eficacitatea unui medicament


standard;
b) Estimarea venitului mediu al unei familii din judet.

Exemple de populatii si variabile corespunzatoare:

a) pacientii care sufera de o boala care se trateaza cu medicamentul considerat


reprezinta populatia, iar timpul de recuperare reprezinta variabila;
b) familiile din judet reprezinta populatia, iar venitul total al unei familii din judet
reprezinta variabila.

Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituie
pentru ntreaga populatie sau doar pentru un esantion. Daca setul de date se constituie
pentru ntreaga populatie atunci se face un recensamant.
Definitia 3.1. Un recensamant este o enumerare sau o listare a fiecarui element al
populatiei mpreuna cu data (valoarea variabilei) corespunzatoare elementului.

In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificil
si costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensamant,
setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectia
elementelor pentru esantion se face dintr-un cadru de esantionare.
Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,
din care va fi extras esantionul.
Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectate
pentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fie
reprezentativ pentru populatie.
Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefon
sunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acestea
pot fi cadre de esantion potrivite sau nepotrivite.
Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului de
alegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.
Definitia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere a
elementelor esantionului din cadrul esantionului.

Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedee
mpreuna cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazate
pe reprezentativitate si procedee probabiliste.

7
Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ncat din perspectiva variabilei de raspuns, elementul ales sa fie
reprezentativ pentru populatie.

Exemplul 3.1. Din perspectiva variabilei de raspuns: cursul A este util sau nu n
formarea dumneavoastra profesionala?, studentii din cadrul unui esantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt alesi n esantion.

Definitia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;
oricare element din cadrul esantionului are o anumita sansa nenula sa fie selectat; se
numeste esantion probabilist.

Remarca 3.4. Inferente statistice cer ca esantionul sa fie probabilist. Esantioanele


probabiliste aleatoare sunt cele mai familiare esantioane probabiliste.

Definitia 3.6. Un esantion de marimea n este esantion probabilist aleator daca orice
esantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa fie ales.

Remarca 3.5. Cea mai raspandita metoda de a colecta date foloseste esantion aleator
simplu.

Definitia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru n care elementele au aceeasi probabilitate sa fie alese se numeste esantion
aleator simplu.

Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuie
avuta grija ca fiecare element din cadrul esantionului sa aibe aceeasi probabilitate sa fie
selectat. Adesea se fac greseli pentru ca termenul aleator este confundat cu ales
la ntamplare. Un procedeu corect de selectare a unui esantion probabilist aleator
simplu este acela care foloseste un generator de numere aleatoare sau o tabela de numere
aleatoare. Prima oara se numeroteaza elementele din cadrul de esantionare. Dupa aceasta
n tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.
Fiecare element din cadrul de esantionare, al carui numar coincide cu un numar selectat
din tabelul de numere aleatoare va fi ales pentru esantion.

Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de studenti atunci ei sunt
numerotati de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de studenti se aleg 50 de
numere aleatoare cu patru cifre si se identifica studentii din cadrul esantionului.

Definitia 3.8. Esantionul sistematic se construieste alegand fiecare al k-lea element


din cadrul esantionului.

Remarca 3.7. In aceasta selectie se foloseste tabela de numere aleatoare o singura data,
pentru a determina punctul de plecare.

Exemplul 3.3. Daca se considera un cadru de esantion de 245 de studenti ai Facultatii


de Matematica si Informatica si se doreste un esantion sistematic format din 15 studenti
atunci:

1) asociem fiecarui student un numar de la 1 la 245;

8
2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:

numarul de elemente din cadrul esantionului 245
k= = = 16
numarul de elemente din esantion 15

3) se alege punctul de plecare ntre 1 si numarul k cu ajutorul unui tabel de numere


aleatoare.

Daca acest numar este 10, atunci obtinem esantionul:

10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k = = 16, 33, nu este un numar ntreg, pasul de numarare poate fi si 17. In
15
acest caz esantionul sistematic obtinut este de numai 14 elemente.

Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj n cazul


populatiilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populatie, un
element din 100/x va fi selectat (daca 100/x nu este ntreg se ia partea ntreaga).

Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia este
repetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)

Exemplul 3.4. Daca se doreste estimarea numarului studentilor admisi la Facultatea de


Matematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionarea
sistematica extragand din lista candidatilor admisi numai pe cei de pe pozitiile care sunt
multiplu de 5, exista posibilitatea ca toti candidatii admisi pe pozitiile respective sa aiba
sub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidati peste 20 de
ani, ceea ce nu poate fi sustinut.

Cand se esantioneaza populatii foarte mari, atunci cand este posibil se mparte populatia
n doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,
iar straturile sunt esantionate separat.

Definitia 3.9. Un esantion obtinut n urma stratificarii cadrului esantionului si prin


selectarea unui numar dat de elemente din fiecare strat se numeste esantion stratificat.

Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se mparte n doua sau
mai multe straturi si n fiecare strat se proiecteaza un subesantion. Aceste subesantioane
pot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblate
ntr-un singur esantion pentru a colecta un set de date.

Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facul-
tatea de Matematica si Informatica, aceasta populatie poate fi mpartita:
- pe domenii: informatica, matematica
- pe ani de studiu.

Definitia 3.10. Esantion cota (sau esantion proportional) este un


esantion stratificat care se construieste prin selectarea unui numar de elemente din fiecare
strat dupa o anumita cota sau proportional cu marimea stratului.

9
Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatia
studentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii de
studiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectat
va fi proportional cu numarul total de studenti din anul respectiv:

Anul de studiu Numar studenti Cota Nr. studenti


selectat n esantion:
Anul I 431 36.49% 54
Anul II 303 25.65% 40
Anul III 206 17.44% 26
Anul IV 240 20.40% 30

Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 de
studenti din anul III si 30 de studenti din anul IV.

O alta metoda de esantionare care pleaca de la stratificarea populatiei este esantionul


ciorchine.

Definitia 3.11. Esantionul ciorchine este un esantion stratificat care se construieste


prin selectarea de esantioane din anumite straturi (nu din toate).

Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentii
Universitatii de Vest din Timisoara, aceasta populatie poate fi startificata n functie
de specializarea pe care au ales-o studentii selectionand esantioane doar de la cateva
specializari (nu de la toate).

Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metoda
sistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupa
care fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza un
esantion ciorchine.

Intr-un caz concret procedeul de esantionare care se foloseste depinde de populatie de


variabila de dificultatea esantionarii si de cost. Dupa determinarea esantionului se poate
trece la colectarea setului de date.

10
4 Determinarea frecventei si gruparea datelor

Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinarea
frecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si este
utilizat atunci cand numarul datelor este mare.
Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:

3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1

Valoarea 0 apare n acest set o singura data prin urmare frecventa pentru 0 este unu.
Valoarea 1 apare n acest set de trei ori prin urmare frecventa pentru 1 este trei.
Valoarea 2 apare n acest set de opt ori prin urmare frecventa pentru 2 este opt.
Valoarea 3 apare n acest set cinci ori prin urmare frecventa pentru 3 este cinci.
Valoarea 4 apare n acest set de doua ori prin urmare frecventa pentru 4 este doi.
Frecventa datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:

x f
0 1
1 3
2 8
3 5
4 3
Definitia 4.1. Frecventa f (din coloana a doua) arata de cate ori apare valoarea variabilei
x n setul de date.

Atunci cand ntr-un set de date multe sunt distincte (n loc de cateva ca n cazul precedent)
se grupeaza datele n clase si apoi se construiesc frecvente pentru clase.
Pentru a ilustra acest procedeu consideram urmatorul set de date:

82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78

Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obtinem
urmatoarele cinci clase:

50 59; 60 69; 70 79; 80 89; 90 99

(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).
Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricare
din date apartine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai mici
decat limita superioara a clasei.

11
Definitia 4.2. Latimea unei clase definita ca diferenta dintre limita inferioara a clasei
urmatoare si limita inferioara a clasei (este egala cu 10 si este aceeasi pentru toate clasele
n exemplul de mai sus) latimea clasei nu este egala cu diferenta dintre limita superioara
si limita inferioara a clasei.

Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioara
a clasei si limita inferioara a clasei urmatoare sunt:

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.

Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara si
limita inferioara a clasei, n acest caz este:

50 + 59
54.5 = n cazul clasei 50 59
2
60 + 69
64.5 = n cazul clasei 60 69
2
70 + 79
74.5 = n cazul clasei 70 79
2
80 + 89
84.5 = n cazul clasei 80 89
2
90 + 99
94.5 = n cazul clasei 90 99
2
Frecventa n acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:

n cazul clasei 50 59 2 date

n cazul clasei 60 69 3 date

n cazul clasei 70 79 8 date

n cazul clasei 80 89 5 date

n cazul clasei 90 99 2 date

In general, n cazul gruparii datelor pe clase si a determinarii frecventei trebuiesc


respectate urmatoarele reguli:

1) Clasele nu trebuie sa se intersecteze si fiecare data din setul de date trebuie sa


apartina la o clasa;

2) Fiecare clasa trebuie sa aibe aceeasi latime.

Procedeul concret de grupare este urmatorul:

12
i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:
R = H L.

ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfel
ca produsul m c sa fie putin mai mare ca plaja R.

iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.
Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:

I, I + c, I + 2c, I + 3c, ..., I + (m 1)c

Aceste numere sunt limitele inferioare ale claselor.

iv) Limitele superioare se stabilesc astfel ncat sa fie respectate conditiile 1) si 2).

v) Se determina frecventa fiecarei clase numarand elementele din fiecare clasa.

13
5 Prezentarea datelor

Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrarea
primara a datelor.

Prezentarea datelor sub forma de serii

Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre care
primul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul de
frecvente corespunzatoare.

Exemplul 5.1. In cazul setului de date statistice:

3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1

seria de distributie este:


0 1 2 3 4
X
1 3 8 5 3

Exemplul 5.2. In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obtinute prin
gruparea datelor din setul de date:

82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78

seria de distributie este:



50 59 60 69 70 79 80 89 90 99
X
2 3 8 5 2

In general, o serie de distributie arata n felul urmator:



x1 x2 x3 xn
X
f1 f2 f3 fn

si oricare ar fi nivelul de grupare al datelor, xi avand frecventa fi , se numeste termenul


seriei de distributie.

Remarca 5.1. Adesea n prezentarea seriilor de distributie n locul frecventei fi se


foloseste frecventa relativa:
fi
fi0 = n
X
fj
j=1

sau sub forma procentuala:


fi00 = fi0 100

14
Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ntr-o serie de
distributie de date statistice se numeste mod.

Definitia 5.3. Clasa cu cea mai mare frecventa ntr-o serie de distributie de date grupate
se numeste clasa modala.

Definitia 5.4. Serie bimodala este o serie de distributie de date grupate n care apar
doua clase modale, separate de clase cu frecventa mai joasa.

Definitia 5.5. Frecventa cumulata a unei clase este suma frecventelor tutror claselor
cu valori mai mici (marca mai mica).

Definitia 5.6. Seria dinamica (temporala, cronologica) este un sir dublu dintre
care primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirul
de momente de timp la care variabila are aceste valori. In general, o serie dinamica
(temporala) se noteaza astfel:

x1 x2 x3 xn
X
t1 t2 t3 tn

Prezentarea datelor sub forma de tabele statistice


Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statistice
dintr-un set de date n vederea aplicarii metodelor de calcul si de interpretare statistica.
In functie de numarul de caracteristici prezentate n tabel exista tabele simple, tabele cu
dubla intrare, tabele pe grupe, etc.

Prezentarea datelor sub forma grafica


Exista mai multe metode de prezentare grafica a unui set de date statistice. Metoda
de prezentare grafica este determinata de tipul de date si de ideea de prezentare. De
la nceput trebuie sa fie clar ca exista mai multe cai de a dispune grafic anumite date
statistice. Judecata analistului si circumstantele din jurul problemei joaca un rol major
n alegerea modului de dispunere grafica a datelor statistice.

Definitia 5.7. Graficele de reprezentare a seriilor statistice fara grupare se numesc


diagrame.

Definitia 5.8. Diagrama cerc a seriei de distributie (fara grupare)



x1 x2 x3 xn
X
f1 f2 f3 fn

este un cerc mpartit n n sectoare de cerc S1 , S2 , ..., Sn astfel ncat aria sectorului Si este
egala cu
fi
fi00 = n 100
X
fj
j=1

procente din aria cercului.

15
Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1

0 1 2 3 4
X
1 3 8 5 3

cercul se mparte n cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului

Definitia 5.9. Diagrama coloana a seriei de distributie (fara grupare):



x1 x2 x3 xn
X
f1 f2 f3 fn

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Ox, iar naltimile lor sunt f1 , f2 , ..., fn

Exemplul 5.4. In cazul seriei de distributie din exemplul 5.1:



0 1 2 3 4
X
1 3 8 5 3

diagrama coloana este:

16
Definitia 5.10. Diagrama linie (ramura-frunza) a seriei de distributie (fara grupare)

x1 x2 x3 xn
X
f1 f2 f3 fn

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .

Exemplul 5.5. In cazul seriei de distributie din exemplul 5.1:



0 1 2 3 4
X
1 3 8 5 3

diagrama linie este:

Definitia 5.11. Histograma seriei de distributie cu grupare



x1 x2 x3 xn
X
f1 f2 f3 fn

este un set de n dreptunghiuri care reprezinta clasele. Bazele acestor dreptunghiuri


sunt egale (clasele au aceeasi latime) si sunt asezate pe axa Ox, iar naltimile lor sunt
f1 , f2 , ..., fn .

Exemplul 5.6. In cazul seriei de distributie din exemplul 5.2:



50 59 60 69 70 79 80 89 90 99
X
2 3 8 5 2

histograma este:

17
Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spre
deosebire de diagrama coloana.

Remarca 5.3. O histograma are urmatoarele componente:

i) Un titlu care identifica populatia la care se refera;

ii) O scara orizontala pe care se identifica variabila X, valorile limitelor claselor,


frontierele claselor, marcile claselor.

iii) O scara verticala pe care se identifica frecventele pentru fiecare clasa.

Definitia 5.12. O histograma de frecvente relative este o histograma obtinuta dintr-


o histograma nlocuind frecventele cu frecvente relative.

Frecventa relativa (este o masura proportionala cu frecventa n cauza) se obtine prin


mpartirea frecventei clasei la numarul total de elemente din setul de date.

Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iar
natimile lor sunt frecventele relative cumulate.

Ogiva are urmatoarele componente:

1. Un titlu care identifica populatia.

2. O scara orizontala pe care sunt marcate frontierele superioare ale claselor.

3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecare
clasa.

18
6 Parametrii si statistici ai tendintei centrale

O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametrii
tendintei centrale n cazul populatiilor si statistici ale tendintei centrale n cazul
esantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici ale
tendintei centrale.

Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui set
de date statistice care localizeaza ntr-un anumit sens mijlocul multimii de date statistice.

Definitia 6.2. Media aritmetica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie suma acestor date mpartita la numarul datelor
n
X
xi
i=1
x=
n
Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie
(fara grupare n clase), media aritmetica se gaseste cu formula:
m
X
xj f j
j=1
x= m
X
fj
j=1

Remarca 6.2. In cazul unei serii de distributie (cu grupare n clase) formula de calcul a
mediei este: X
x fx
x= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.

Definitia 6.3. Media patratica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul: v
uX n
u
u x2i
t
i=1
xp =
n
Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media patratica se gaseste cu formula:
v
uX m
u
u x2j fj
u
u j=1
xp = u m
u X
t f j
j=1

19
Remarca 6.4. In cazul unei serii de distributie cu grupare n clase media patratica este
prin definitie: v
uX 2
u x fx
u
xp = t X
fx

n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe


ansamblul claselor.
Definitia 6.4. Media armonica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul:
n
xh = n
X 1

i=1
xi

Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media armonica se gaseste cu formula:
m
X
fj
j=1
xh = m
X 1
fj
j=1
xj

Remarca 6.6. In cazul unei serii de distributie cu grupare n clase media armonica este
prin definitie:
Xn
fx
i=1
xh = n
X 1
fx
i=1
x
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.5. Media geometica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul: v
u n
uY
xp = tn
xi
i=1

Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media geometrica se gaseste cu formula:

Remarca 6.8. In cazul unei serii de distributie cu grupare n clase media geometrica este
prin definitie: n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma
se extinde pe ansamblul claselor.

20
Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marime
x1 < x2 < ... < xn este numarul care mparte setul de date n doua grupe egale ca numar:

- daca n = 2 k + 1, atunci me este valoarea de rangul k + 1: me = xk+1 ;


- daca n = 2 k, atunci orice numar ntre valorile xk si xk+1 satisface conditia din
definitia lui me . In acest caz se convine ca me sa fie media aritmetica a valorilor
xk + xk+1
xk si xk+1 : me = .
2
Exemplul 6.1. In cazul setului de date statistice:

4 7 12 26 32 38 59

mediana este me = 26.


In cazul setului de date statistice:

4 7 12 26 32 38
12 + 26
mediana este me = = 19.
2
Remarca 6.9. Mediana me n acest caz are proprietatea ca suma frecventelor valorilor
mai mari decat me este egala cu suma frecventelor valorilor mai mici decat me .
Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sa nu fie adevarata. In cazul setului de date statistice:

1 1 1 2 3 3 4

Seria de distributie corespunzatoare este:


1 2 3 4
3 1 2 1
Conform definitiei lui me n acest caz me = 2, 5. Aceasta valoare a lui me nu raspunde
cerintei ca me este o valoare cu proprietatea ca valorile mai mari sau mai mici decat ea
apar cu frecvente cumulate egale; frecventa celor mai mici este 4, iar frecvena celor mai
mari este 3.
Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distributie cu sau fara
grupare me se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartitiei
uniforme a frecventelor n intervalul median.
Definitia 6.7. Mijlocul plajei este prin definitie numarul:
L+H
Mr =
2
unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X

21
7 Parametrii si statistici ai dispersiei

Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:
care sunt parametrii si statisticile care caracterizeaza dispersia (mprastierea) datelor.
Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatia
standard si coeficientul de variatie. Aceste valori numerice descriu marimea mprastierii
ori a variabilitatilor datelor. Datele strans grupate vor avea mprastiere mica, iar cele
care nu sunt grupate (sunt mprastiate) vor avea o dispersie mai mare.

Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoare
a valorilor xi dintr-un set de date:

P =H L

Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de media
aritmetica.

Definitia 7.2. Deviatia fata de media aritmetica x a valorii xi a variabilei X este


di = xi x.

Deviatia este zero daca si numai daca xi = x.


Deviatia este pozitiva daca si numai daca xi > x.
Deviatia este negativa daca si numai daca xi < x.
n
X
S-ar putea crede ca suma deviatilor (xi x) poate servi ca masura a dispersiei fata de
i=1
media aritmetica. Dar aceasta suma este zero ntotdeauna:
n
X n
X
(xi x) = xi n x = n x n x = 0
i=1 i=1

Reducerea deviatiilor poate fi eliminata prin folosirea valorii absolute a deviatiilor: xi x.

Definitia 7.3. Deviatia medie absoluta a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definitie:
Xn
|xi x|
i=1
d=
n
Remarca 7.1. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie fara grupare de date se calculeaza cu formula:
m
X
|xj x| fj
j=1
d= m
X
fj
j=1

22
Remarca 7.2. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie cu grupare de date se calculeaza cu formula:
X
|x x| fx
d= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.

Cu toate ca acest parametru al mprastierii nu se foloseste frecvent, el este o masura a


mprastierii si arata distanta medie la care se afla o valoare a variabilei X fata de media
aritmetica.
Mai exista o cale de eliminare a reducerii deviatiilor. Ridicand la patrat deviatiile
individuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul
Xn
este pozitiv. Suma patratelor deviatiilor fata de media aritmetica (xi x)2 este folosita
i=1
n definirea variantei.
Definitia 7.4. Varianta s2 a setului de date statistice distincte {x1 , x2 , ..., xn } este prin
definitie:
X n
(xi x)2
i=1
s2 =
n
Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date varianta s2 se calculeaza cu formula:
m
X
(xj x)2 fj
j=1
s2 = m
X
fj
j=1

Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date varianta s2 se calculeaza cu formula:
X
(x x)2 fx
2
s = X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definitie:

n 1
X 2
(xi x)2
i=1
s=



n

23
Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date deviatia standard s se calculeaza cu formula:
1
X m
2
(xj x)2 fj
j=1
s=
m


X
fj
j=1

Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date deviatia standard s se calculeaza cu formula:

X 1
(x x) fx 2
2

s= X
fx

n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe


ansamblul claselor.

Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ntrebarea
ce reprezinta ea n realitate? Un raspuns la aceasta ntrebare poate fi dat cu inegalitatea
lui Cebsev din care rezulta ca pentru orice serie de distributie fractiunea de date situata
la cel mult k unitati de deviatie standard fata de medie este cel putin 1 k12 , unde k este
un numar pozitiv oarecare mai mare ca 1. Rezulta n particular ca pentru orice serie de
distributie fractiunea de date situata la cel mult k = 2 unitati de deviatie standard fata de
medie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de date
situate la cel mult o unitate de deviatie standard fata de medie este aproximativ 68%,
iar fractiunea de date situate la cel mult doua unitati de deviatie standard fata de medie
este aproximativ 95%.

Definitia 7.6. Coeficientul de variatie V este prin definitie:


s
V = 100
x
Remarca 7.8. Coeficientul de variatie este o statistica relativa a dispersiei si se foloseste
la compararea dispersiei diferitelor variabile (caracteristici).

Remarca 7.9. V poate lua valori ntre 0 si 100%. Daca V este aproape de zero
(V < 35%), atunci populatia studiata statistic este omogena si media x este reprezentativa
pentru aceasta populatie. Daca V este aproape de 100% (V > 75%), atunci populatia
studiata statistic este eterogena si media x nu este reprezentativa. De cele mai multe
ori n asemenea cazuri este necesara separarea populatiei statistice n mai multe grupe
omogene, care se studiaza separat.

24
8 Parametrii si statistici factoriali ai variantei

In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factoriali
ai variantei:

- varianta de grupa (partiala) s2j

- media variantelor de grupa s2

- varianta mediilor de grupa fata de media generala 2

- varianta totala (generala) s2 .

Definitia 8.1. Pentru o grupa de m date x1 , x2 , ..., xm , varianta de grupa este definita
cu formula: m
X
(xi xj )2 nij
i=1
s2j = m
X
nij
i=1

n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avand
frecventele nij

Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai mari
sau mai mici n functie de eterogenitatea grupei.

Definitia 8.2. Prin definitie media variantelor de grupa este:


k
X
s2j nj
j=1
s2 = k
X
nj
j=1

m
X
n care k este numarul de grupe, nj = nij este numarul de date din grupa.
i=1

Definitia 8.3. Varianta mediilor de grupa fata de media generala este prin
definitie:
Xk
(xj x)2 nj
j=1
2 = k
X
nj
j=1

25
9 Parametrii si statistici ale pozitiei

Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date n raport
cu celelalte date.
Definitia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupe
egale. Constanta q se numeste ordinul quantilei.

Mediana este quantila de ordinul doi.


Quantilele de ordinul patru mpart setul de date n patru grupe egale si se numesc
quartile. Quartilele sunt n numar de trei, notate de obicei cu Q1 , Q2 , Q3 .
Quartila Q1 este un numar cu proprietatea ca o patrime din date au valori mai mici decat
Q1 si trei patrimi din date au valori mai mari decat Q1 .
Quartila Q2 este un numar cu proprietatea ca jumatate din date au valori mai mici decat
Q2 si jumatate din date au valori mai mari decat Q2 . Quartila Q2 este chiar mediana.
Quartila Q3 este un numar cu proprietatea ca trei patrimi din date au valori mai mici
decat Q3 si o patrime din date au valori mai mari decat Q3 .
Alte categorii de quantile folosite sunt:

- decilele care mpart setul de date n 10 grupe egale.

- centilele care mpart setul de date n 100 grupe egale.

- promilele care mpart setul de date n 1000 grupe egale.

Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numerica cu
proprietatea ca k% din date are valori mai mici decat Pk , iar (100 k)% din date au
valori mai mari decat Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:

1) datele se ordoneaza crescator;


nk
2) trebuie gasita pozitia i a centilei k. Prima oara se determina numarul , unde
100
nk
n este numarul de date. Daca nu este un numar ntreg, atunci i este numarul
100
nk nk
ntreg urmator ( = 17.2 i = 18). Daca este un numar ntreg, atunci i
100 100
nk nk
este + 0.5 ( = 23
100 100
i = 23.5).

3) localizarea valorii Pk : se numara de la valoarea L (cea mai mica valoare a datelor) i


valori daca i este ntreg. Daca i nu este ntreg atunci este un ntreg plus o jumatate.
nk nk
In acest caz valoarea Pk este semisuma datelor de pe locurile si +1
100 100

O statistica aditionala a pozitiei este scorul standard sau z-scor.

26
Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana x
n unitati de deviatie standard:
xx
z=
s

27
10 Seria de distributie a statisticilor
de esantioane

Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizam
statisticile de esantioane. Media x n cazul unui esantion nu este neaparat egala cu media
a populatiei. Suntem nsa multumiti daca media x este apropiata de . Daca se considera
media x0 n cazul unui al doilea esantion aceasta poate sa fie diferita de x si de . Ceea ce
putem spera este ca aceasta sa fie apropiata de valoarea si de x. Valabilitatea acestui
tip de comportament intereseaza pentru orice populatie si orice statistica.
Intrebarea care se naste n mod natural este ce nseamna aproape? Cum se masoara si se
determina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?
Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria de
distributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.
Tipul de statistica poate fi oricare din statisticile prezentate n sectiunile 6 si 7.
Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtine
urmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formam
esantioane de marime 2 de la care putem avea urmatoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste esantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria de
distributie a mediilor acestor esantioane este:

x f 0 (x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04

unde f 0 (x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioanelor
este:

28
Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor R
a acestor esantioane.
Plajele R ale esantioanelor sunt date n tabelul urmator:

0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0

Seria de distributie a plajelor acestor esantioane este:

R f 0 (R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08

iar diagrama coloana a plajei esantioanelor este:

29
Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statistice
care se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.
Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are media
x. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-un
tabel reprezentam rezultatele precum si mediile corespunzatoare:

Incercare Esantion x Incercare Esantion x


1 12322 2.0 16 52135 3.2
2 45545 4.6 17 61335 3.6
3 31524 3.0 18 65526 4.8
4 56642 4.6 19 13556 4.0
5 54164 4.0 20 31531 2.6
6 35615 4.0 21 51143 2.8
7 23632 3.2 22 46312 3.2
8 53462 4.0 23 15345 3.6
9 15534 3.6 24 34133 2.8
10 41526 3.6 25 12414 2.4
11 51332 2.8 26 52163 3.4
12 15231 2.4 27 42563 4.0
13 21153 2.4 28 43134 3.0
14 51446 4.0 29 26533 3.8
15 55633 4.4 30 63511 3.2

Histograma seriei de distributie a mediilor celor 30 de esantioane este reprezentata n


figura urmatoare:

30
Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; este
maxim si este simetric fata de media proprie 3.5.

31
11 Teorema limita centrala

In sectiunea precedenta am prezentat seria de distributie a mediei si plajei unui set de


esantioane. Media este statistica folosita cel mai frecvent n cazul esantioanelor si de aceea
este foarte importanta. Teorema limita centrala se refera la seria de distributie a mediei
tuturor esantioanelor aleatoare de aceeasi marime n.
Sa formulam ce anume intereseaza n cazul acestei serii de distributie:

1) Unde este centrul datelor?

2) Cat de mare este dispersia datelor?

3) Care este caracterul seriei de distributie?

Teorema limita centrala ofera raspuns la aceste trei ntrebari.

Teorema 11.1. Teorema limita centrala


Fie media si deviatia standard a unei variabile n cazul unei populatii. Daca se
considera toate esantioanele aleatoare de marime n din aceasta populatie, atunci seria de
distributie a mediilor acestor esantioane are urmatoarele proprietati:

a) media x a acestei serii de distributie este egala cu ;



b) deviatia standard x a acestei serii de distributie este .
n
c) daca seria de distributie a variabilei n cazul populatiei este normala, atunci seria
de distributie a mediilor esantioanelor este normala; daca seria de distributiei a
variabilei n cazul populatiei nu este normala, atunci seria de distributie a mediilor
esantioanelor este aproximativ normala pentru esantioane de marime mai mare ca
30. Tendinta catre o serie de distributie normala creste daca marimea esantionului
creste.

Pe scurt, teorema limita centrala stabileste urmatoarele:

1) x = , unde x este media esantionului x;



2) x = / n, deviatia standard a mediei este egala cu deviatia standard a populatiei
mpatita cu radacina patrata a marimii esantionului.

3) seria de distributiei a mediei esantioanelor este aproximativ normala indiferent de


seria de distributiei a variabilei n cazul populatiei.

Remarca 11.1. Deviatia standard x a seriei de distributie a mediilor esantioanelor


este deviatia standard a mediilor esantioanelor fata de media seriei de distributie a
esantioanelor.
Nu vom face demonstratie teoremei limita centrala. Vom ilustra nsa validitatea ei
examinand un caz ilustrativ.

32
Consideram o populatie pentru care seria de distributie de date statistice cu frecvente
relative n cazul variabilei X este:

2 4 6
X:
1/3 1/3 1/3
Media si deviatia standard pentru aceasta variabila sunt:
v 3 !2
3 u 3
X uX X
= xj f 0xj =t x2j f 0xj xj f 0xj
j=1 j=1 j=1

12
= =4 = 1, 63
3
In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Esantioanele au urmatoarele medii:
2 3 4
3 4 5
4 5 6

Esantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6

1
Esantioanele fiind aleatoare fiecare esantion are probabilitatea sa fie ales si seria de
9
distributie a mediilor esantioanelor este:

2 3 4 5 6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distributie a mediilor esantioanelor x este x = 36/9 = 4, 0. Prin urmare
= x , iar deviatia standard a repartitiilor mediilor esantioanelor este:
v 5 !2 s
u 5 2
uX X 156 36
x = t 2 0
xj f xj 0
xj f x j = = 1, 15
j=1 j=1
9 9
1, 63 1, 63
= = = 1, 15 = x
n 2 1, 44
Reprezentand seria de distributie a mediilor esantioanelor obtinem:

33
Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.

34
12 O aplicatie a teoremei limita centrala

Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esan-
tioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).
Ea stabileste relatia dintre media a populatiei si media x a seriei de distributie a
mediilor tuturor esantioanelor si relatia dintre deviatia standard a populatiei si deviatia
standard x a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributie
a mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintre
media populatiei si media unui esantion.

Exemplul 12.1. Consideram o populatie normala cu = 100 si = 20. Daca se alege


un esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestui
esantion sa fie ntre 90 si 110? Altfel spus, cat este P (90 < x < 110)?
Solutie: Conform teoremei limita centrala repartitia valorilor medii ale esantioanelor
este normala. Prin urmare va trebui sa transformam conditia P (90 < x < 110) ntr-o
conditie care sa permita folosirea tabelului de distributie normala standard. Aceasta se
face scriind:
110 x 90 x
P (90 < x < 110) = =
x x

110 100 10 10 10
= =2 1=F
x x x x
ZX 1 2
1 t 1
unde (X) = e 2 dt si F (X) = (X) .
2 2

20
Deoarece x = , avem x = = 5 si astfel obtinem:
n 16
P (90 < x < 110) = 2 (2) 1 = 2F (2) = 0.9544

Efectul cresterii dimensiunii n a esantionului nu afecteaza x = si micsoreaza x . Prin


urmare P (90 < x < 110) creste, daca n creste.

Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medie
= 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copii
se determina media x. Care este probabilitatea ca aceasta medie sa fie ntre 90 cm si 110
cm?
Solutie:

10
P (90 < x < 110) = 2 1 = 2 (4) 1 = 2 F (4) = 2 0.499968
x

35
13 Estimarea punctuala a unui parametru; intervalul
de ncredere

Consideram o populatie a carei medie nu o cunoastem si ne punem problema s-o gasim.


Pentru acest scop consideram un esantion aleator de dimensiune n pentru care determinam
media x. Media x a esantionului este o estimare punctuala a mediei a populatiei.

Definitia 13.1. O estimare punctuala a parametrului a unei populatii este o


valoare g a unei statistici corespunzatoare.

Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta
a populatiei, aceasta nu nseamna ca x = . In general, x 6= si la ceea ce ne putem
astepta este ca x sa fie aproape de . Aceasta apropiere poate fi fixata prin specificarea
unui interval (centrat n ) numit interval de estimare.

Definitia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumit
parametru a populatiei se numeste interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din esantion care este folosit pentru estimare.

Cum anume se poate specifica un interval centrat n care este necunoscut folosind doar
date furnizate de un esantion va fi lamurit n continuare.

Exemplul 13.1. Consideram o populatie avand o deviatie standard cunoscuta, o medie


necunoscuta si un esantion aleator simplu de marime n si medie x cunoscute. Conditia
x ( 1, + 1) nseamna ca scorul standard z (pentru mediile esantioanelor) dat de:
x x x
z= =
x
n

sa verifice:

1 1 n n
z ( , ) = ( , )

n

n

Astfel
n termenii
scorului standard intervalul de estimare este intervalul (a, b) cu a =
n n
si b = .

Mai general conditia x ( , + ), nseamna ca scorul standard z (pentru mediile
esantioanelor) dat de:
x x x
z= =
x
n

sa verifice:

n n
z ( , )


n n
Intervalul de estimare este ( , ).

Definitia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionului
sa aibe valoarea n afara intervalului de estimare.

36
Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normala
si avem:
n n
P ( 1 < x < + 1) = P <z< =


n n
2P 0<z < =2F

Zz 1 2
1 t
unde F (z) = e 2 dt.
2
0
n
Deci nivelul de nencredere este 1 2 F .

Definitia 13.4. Nivelul de ncredere (coeficient de ncredere) 1 este probabilitatea
ca statistica esantionului sa se afle n intervalul de estimare ales.

Definitia 13.5. Intervalul de ncredere este un interval de estimare cu un nivel de


ncredere 1 specificat.

n n
Exemplul 13.2. In cazul exemplului 13.1, intervalul de estimare , este un

n
interval de ncredere cu coeficientul de ncredere 1 = 2 F .

Definitia 13.6. Eroarea maxima de estimare este jumatatea lungimii intervalului de
ncredere cu nivelul de ncredere 1 .

In termen de scor standard aceasta eroare se exprima cu formula:



E=z
2 n
1
unde z este solutia ecuatiei F (z) = , iar intervalul de ncredere 1 pentru
2 2
este:
xz ,x + z
2 n 2 n

xz este limita inferioara de ncredere, iar x+z este limita superioara
2 n 2 n
de ncredere.

37
14 Generalitati privind ipotezele statistice si proble-
ma verificarii ipotezelor statistice

Pentru a ilustra analiza care precede luarea unei decizii n privinta credibilitatii unei
asertiuni (numita verificarea ipotezelor statistice) sa consideram urmatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zece
ntrebari. Fiecare ntrebare are cinci raspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul si din cele zece ntrebari el a raspuns corect la sapte. El
sustine ca a completat formularul fara sa citeasca ntrebarile si raspunsurile la ele si a
marcat raspunsurile aleator.
Intrebarea este n ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?
O asemenea ntrebare ne determina sa analizam si sa hotaram: este sau nu este rezona-
bil ca Popescu Nicolae sa obtina sapte raspunsuri corecte alegand aleator raspunsurile la
ntrebari? Descriem n cele ce urmeaza o analiza, care se numeste verificarea ipotezelor
statistice si care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentata si ilustrata n cazul exemplului considerat.

Etapa 1. Formularea ipotezei nule H0


Prin ipoteza ntelegem o afirmatie care sustine ca ceva este adevarat. In
general, ipoteza nula este o afirmatie relativa la un parametru al unei
populatii si afirma ca parametrul are o valoare data. Adesea expresia
nu difera este folosita n formularea ei, de aici vine numele de ipoteza
nula. (diferenta este nula)
Etapa 2. Formularea ipotezei alternative Ha
Ipoteza alternativa Ha este o afirmatie relativa la acelasi parametru al
populatiei care apare n ipoteza nula H0 . In ipoteza Ha se afirma ca
parametrul are o valoare diferita de cea sustinuta n H0 .
Ipoteza H0 si ipoteza Ha se formuleaza dupa o analiza a asertiunii care trebuie inves-
tigata.
In cazul exemplului considerat, asertiunea care trebuie analizata este: Popescu a comple-
tat formularul aleator.
Populatia este o multime de 510 elemente (distincte). Un element este un sistem ordonat
de 10 raspunsuri (R0i1 , R0i2 , . . . , R0i10 ), i1 , i1 , . . . , i10 {1, 2, 3, 4, 5}; R0i1 este unul din cele
cinci raspunsuri posibile la prima ntrebare, . . . , R0i10 este unul din cele cinci raspunsuri
posibile la cea de-a zecea ntrebare.
Pentru o persoana care marcheaza raspunsurile aleator (fara sa le citeasca), toate
raspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci raspunsuri la o ntrebare
are aceeasi sansa ca sa fie corect. Din afirmatia lui Popescu Nicolae rezulta ca el a marcat
1
raspunsurile aleator, deci a admis ca probabilitatea (parametrul p) este 10 pentru fiecare
5
element al populatiei.
Analiza afirmatiei lui Popescu Nicolae conduce la urmatoarea formulare a ipotezei nule:

1
H0 : p(X) = = p pentru orice Popescu Nicolae a completat
510
element X al populatiei formularul aleator.

38
Ipoteza alternativa este:

Ha : exista doua elemente X1 , X2 n populatie Popescu Nicolae nu a completat


pentru care p(X1 ) 6= p(X2 ) formularul aleator

De la acest punct ncepand se admite ca ipoteza nula este adevarata. Situatia poate fi
comparata cu un proces la judecatorie, n care acuzatul este presupus nevinovat pana
cand se dovedeste contrariul.
Doar n etapa a 5-a a verificarii ipotezelor, vom lua una din cele doua decizii posibile:
vom decide n concordanta cu ipoteza nula H0 si spunem ca acceptam H0 sau decidem n
concordanta cu Ha si spunem ca respingem ipoteza H0 .
In functie de valoarea de adevar a ipotezei H0 si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate n tabelul urmator:

Decizia Ipoteza H0 este


Adevarata Falsa

Nu respingem H0 decizie eroare


(acceptam) corecta
Tip A Tip II

Respingem H0 eroare decizie


corecta
Tip I Tip B

O decizie corecta de tip A: apare cand H0 este adevarata si nu respingem H0


O decizie corecta de tip B: apare cand H0 este falsa si respingem H0
O eroare de tip I: apare cand H0 este adevarata si H0 este respinsa
O eroare tip II: apare cand H0 este falsa si H0 nu este respinsa

Ar fi foarte frumos ca de fiecare data cand luam decizii sa luam decizii corecte, dar aceasta
este statistic imposibil pentru ca ne bazam pe informatii furnizate de esantioane. Cel mai
bun lucru la ce putem spera este sa controlam riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu si cea asignata
comiterii unei erori de tip II cu :

Eroarea Tipul de eroare Probabilitate


Respingerea unei ipoteze adevarate I
Acceptarea unei ipoteze false II

Etapa 3 Metodologia de verificare a ipotezelor: aceasta consta din (1)


identificarea unui test statistic; (2) specificarea valorii lui ; (3) de-
terminarea regiunii critice.
(1) Un test statistic este o variabila aleatoare folosita pentru a respinge
sau nu ipoteza H0 . Testul statistic este o statistica de esantioane sau
alte valori rezultate dintr-un esantion. Probabilitatile care apar n acest
test statistic sunt determinate presupunand ca H0 este adevarata.

39
In cazul exemplului considerat, variabila aleatoare X= numarul de raspunsuri corecte
este folosit ca test statistic. Probabilitatile pentru fiecare valoare x ale variabilei X n
ipoteza ca H0 este adevarata sunt date n tabelul urmator:

X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.92104 7.38105 4.098106 1.02107

Aceasta repartitie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multe
ntrebari este 0.0327, iar la 4 sau mai putin decat 4 ntrebari este 0.9673. Putem spune
ca aparitia valorilor 5, 6, 7, 8, 9, 10 nu sustine ipoteza H0 . Daca cineva spune ca a ghicit
raspunsul corect la 0, 1, 2, 3, 4 ntrebari, spunem ca este foarte probabil. Daca cineva spune
ca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ntrebari spunem ca este putin probabil.
Nivelul de semnificatie este probabilitatea de a face o eroare de tip I, adica de a
respinge H0 adevarat. In mod curent se da la nceput si acesta determina regiunea
critica. In cazul exemplului, daca = 0.033, atunci din P (x 5) = 0.0327 rezulta
regiunea critica x = 5, 6, 7, 8, 9, 10.
Regiunea critica: este multimea de valori (W ) pentru care P (X W ) si care ne
determina sa respingem ipoteza H0 . (nu sustin ipoteza H0 )
Valoarea critica: este prima valoare din regiunea critica.
Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipoteza
H0 este respinsa.
Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.

Etapa 4. Determinarea valorii testului statistic


Dupa ce am parcurs etapele 1,2,3 observam sau calculam valoarea x a
testului statistic.

In cazul exemplului x = 7 (numarul de raspunsuri corecte) este valoarea testului sta-


tistic si este dat. Uzual valoarea testului statistic se calculeaza pe baza informatiilor
oferite de esantion.

Etapa 5. Luarea unei decizii si interpretarea ei


Decizia se ia comparand valoarea testului statistic determinata la Etapa
4 cu regiunea critica gasita la Etapa 3.
Regula de decizie: Daca valoarea testului statistic este n regiunea
critica respingem ipoteza H0 , daca nu, atunci acceptam ipoteza H0 .
Ansamblul de valori ale testului statistic care nu sunt n regiunea critica
formeaza regiunea de acceptabilitate. Testul este terminat prin luarea
si justificarea deciziei luate.

In cazul exemplului: x = 7 este n regiunea critica si respingem ipoteza H0 .

Remarca 14.1. Cu aceasta nu am demonstrat ca Popescu Nicolae nu a ghicit cele 7


raspunsuri. Am aratat doar ca daca el le-a ghicit este foarte norocos pentru ca acesta
este un eveniment rar si are probabilitatea cel mult 0.033.

40
15 Verificarea ipotezelor statistice:
varianta clasica

In sectiunea precedenta am prezentat generalitati privind verificarea ipotezelor statis-


tice. In aceasta sectiune trecem la prezentarea verificarii ipotezelor statistice n cazul
asertiunilor referitoare la media a unei populatii. Pentru a simplifica aceasta prezentare
la nceput presupunem ca deviatia standard a populatiei este cunoscuta.

Urmatoarele trei exemple se refera la diferite formulari ale ipotezei H0 si a ipotezei Ha .


Exemplul 15.1. Un ecologist sustine ca orasul Timisoara are o problema privind poluarea
aerului. Concret, el sustine ca nivelul mediu al monoxidului de carbon n aer n centrul
orasului depaseste valoarea 4, 9/106 = valoarea medie normala.
Pentru a formula n acest caz, ipotezele H0 si Ha , trebuie sa identificam: populatia,
parametrul populatiei n cauza si valoarea cu care aceasta urmeaza sa fie comparata.
Populatia n acest caz poate fi multimea locurilor din centrul orasului Timisoara. Variabila
X este concentratia monoxidului de carbon ale carei valori x variaza n functie de loc,
iar parametrul populatiei este valoarea medie a acestei variabile. Valoarea specifica cu
care aceasta medie trebuie comparata este 4, 9/106 egala cu valoarea (medie) normala.
Ecologistul face o asertiune privind valorea lui . Aceasta valoare poate fi: < 4, 9/106
sau = 4, 9/106 sau > 4, 9/106 . Cele trei situatii pot fi cuprinse n doua afirmatii dintre
care una exprima ceea ce ecologistul sustine, iar cealalta exprima contrariul.
Inegalitatea > 4, 9/106 este afirmatia: valoarea medie este mai mare ca 4, 9/106 .
Inegalitatea 4, 9/106 este echivalenta cu < 4, 9/106 sau = 4, 9/106 si este
afirmatia contrara: valoarea medie nu este mai mare ca 4, 9/106 .
Ecologistul sustine ca > 4, 9/106 . Pentru a formula ipoteza H0 si ipoteza Ha reamintim
ca:

1) In general, ipoteza H0 sustine ca media (parametrul n chestiune) are o valoare


specifica anume.

2) Inferenta privind media a populatiei se bazeaza pe media unui esantion si mediile


esantioanelor au o distributie aproximativ normala. (conform teoremei limita
centrala).

3) O distributie normala este complet determinata daca valoarea medie si deviatia


standard a distributiei sunt cunoscute.

Cele de mai sus sugereaza ca afirmatia = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatia
> 4, 9/106 ar trebui sa fie ipoteza alternativa:

H0 : = 4, 9/106
Ha : > 4, 9/106

Reamintim ca dupa ce ipoteza nula H0 este formulata, n testul statistic identificat se


presupune ca H0 este adevarata. Aceasta nseamna ca = 4, 9/106 este egala cu media

41
distributiei mediilor esantioanelor x si este o ratiune n plus pentru care ipoteza H0
trebuie scrisa doar cu semnul egal

H0 : = 4, 9/106 .

Daca admitem ca afirmatia = 4, 9/106 sau < 4, 9/106 este ipoteza nula H0 , atunci:

H0 : 4, 9/106
Ha : > 4, 9/106 .

Remarca 15.1. Semnul egal trebuie sa fie inclus totdeauna n ipoteza nula. In acest
exemplu asertiunea ecologistului este exprimata de fapt n Ha si aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua asertiune; de exemplu al Camerei de
Comert, care sustine ca nivelul mediu al monoxidului de carbon n centrul orasului
Timisoara este mai mic decat 4, 9/106 (valoare normala). Aceasta este o reclama buna
pentru turism.

Si n acest caz parametrul este media a repartitiei monoxidului de carbon. Valoarea


specifica este 4, 9/106 care este valoare normala.

< 4, 9/106 valoarea medie este mai mica decat valoarea medie normala
4, 9/106 valoarea medie este mai mare sau egala decat valoarea
medie normala

H0 , Ha pot fi formulate astfel:


H0 : 4, 9/106
Ha : < 4, 9/106

Si de data aceasta asertiunea Camerei de Comert este exprimata n Ha si aceasta trebuie


analizata.
Exemplul 15.3. O a treia asertiune (mai neutra) sustine doar ca nivelul mediu al
monoxidului de carbon n aerul din centrul orasului Timisoara este diferit de 4, 9/106
(valoarea normala diferita de ).
In acest caz:
H0 : = 4.9/106 si Ha : 6= 4, 9/106

Cele trei exemple arata ca asertiunea care trebuie analizata determina ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: n aceste cazuri asertiunea sustine ca valoarea
parametrului este diferita de cea normala, iar ipoteza nula sustine ca este aceeasi (nu
difera).
In cazul acestor exemple, cei care si formuleaza asertiunea se asteapta la respingerea
ipotezei nule H0 si la acceptarea ipotezei alternative Ha care este o afirmatie conforma cu
asertiunea lor.
Situatiile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Daca
procurorul nu crede n vinovatia inculpatului nu intenteaza proces (ipoteza H0 prezumtia
de nevinovatie este presupusa adevarata). Procesul se declanseaza doar daca procurorul
are suficiente probe pentru a face proces.

42
Si n statistica daca experimantatorul crede n ipoteza H0 nu face test pentru investi-
garea lui H0 . El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.
Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statistice
n cazul unei asertiuni care se refera la media unei populatii.

Exemplul 15.4. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pe
care-i nvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)
si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea este
daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profe-
sorului la nivelul de semnificatie = 0, 05.
Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai mare
decat toate clasele dinainte. Daca media ei este egala sau mai mica decat media unei
clase anterioare, atunci ea nu este superioara.
Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu media
= 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.
De aceea:

Etapa 1. H0 : x = = 72 clasa nu este superioara

Etapa 2. Ha : x = > 72 clasa este superioara

Etapa 3. - Atunci cand n ipoteza nula H0 media populatiei si deviatia


standard sunt cunoscute scorul standard z este folosit ca si test
statistic.

- Nivelul de semnificatie = 0, 05 este dat;

- Reamintim ca n baza teoremei limita centrala distributia


mediilor esantioanelor este aproape normala. Prin urmare,
distributia normala va fi folosita pentru determinarea regiu-
nii critice. Regiunea critica este egala cu multimea valo-
rilor scorului standard z care determina respingerea ipotezei
H0 si este situata la extremitatea dreapta a distributiei nor-
male. Regiunea critica este la dreapta deoarece valori mari
ale mediei esantionului sustin ipoteza H0 n timp ce valori
apropiate ori sub 72 sustin ipoteza nula.

Figura 1:

43
Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este su-
perior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 a
fost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica
Z t2
1
1, 65 este solutia ecuatiei: e 2 dt = 0, 05.
2
z

Figura 2:

Etapa 4. Valoarea testului statistic este dat de:


x 75, 2 72
z = = 12/6 = 1, 6

n
Etapa 5. Comparam valoarea gasita 1, 6 cu valoarea critica 1, 65 si gasim 1, 6 <
1, 65. Decizia este ca nu putem respinge ipoteza H0 . Testul se ncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suficiente pentru a sustine ca actuala clasa
este superioara claselor anterioare.
Pare aceasta concluzie realista n conditiile n care n mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sa uitam x = 75, 2 este media unui esantion de 36 de indivizi extras
dintr-o populatie cu media = 72 si deviatia standard = 12 si analiza arata ca proba-
bilitatea ca media esantionului sa fie mai mare decat mediile tuturor esantioanelor este
mai mare decat riscul cu care noi acceptam o eroare de tip I.

Exemplul 15.5. La un colegiu s-a stabilit ca greutatea medie a studentelor este = 54, 4
kg, iar abaterea standard = 5, 4 kg. Profesorul de sport nu crede aceasta afirmatie.
Pentru a face un test selectioneaza un esantion aleator de 100 de studente si gaseste ca
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmatia la nivelul de
semnificatie = 0, 05?

Etapa 1. H0 : = 54, 4 kg

Etapa 2. Ha : 6= 54, 4 kg

44
Etapa 3. - deoarece folosim o distributie de medii de esantioane testul statistic
va fi scorul standard.

- nivelul = 0, 05 este dat;

- media esantionului este o estimare a mediei populatiei. Ipoteza


alternativa nu este egal este sustinuta de medii de esantioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nula
este sustinuta de medii de esantioane n jurul valorii 54, 4. Regiunea
critica este formata din doua parti egale situate la cele doua extremitati
ale distributiei normale. Aria corespunzatoare fiecarei portiuni este

si probabilitatea fiecarei parti a regiunii critice este 0, 025. Rezulta
2
2
Z t
1
z = 1, 96 z este solutia ecuatiei: e 2 dt = .
2 2 2 2
z

Figura 3:

Etapa 4. Se determina valoarea testului statistic:


x
z = = 1, 204

n

a carei locatie este data pe figura urmatoare:

45
Figura 4:

Reamintim: Daca valoarea testului statistic este n regiunea critica respingem ipoteza
H0 daca nu, nu putem respinge ipoteza H0 .

Etapa 5. Valoarea testului statistic nu este n regiunea critica.


Decizia: Nu respingem ipoteza H0 .
Justificarea deciziei: Valoarea testului nu este n dezacord cu H0 la
nivel de risc = 0, 05. Aceasta nu nseamna ca H0 este adevarata.
Concluzie: Media x gasita de profesor nu contravine ipotezei ca media este 54,4
kg, cand dispersia este 5, 4 kg.
O decizie de respingere a lui H0 nseamna ca valoarea testului implica ca H0 este falsa si
indica Ha .

Rezumat privind verificarea ipotezelor statistice asupra mediei n varianta


clasica:

1. Ipoteza H0 specifica o valoare particulara a mediei populatiei.


2. Ipoteza Ha are trei forme. Fiecare dintre acestea determina o locatie specifica a
regiunii critice asa cum apare n tabelul de mai jos:

Semne n ipoteza < 6= >


alternativa
Regiunea critica O regiune Doua regiuni O regiune
la stanga de fiecare la dreapta
parte cate una
test unilateral test bilateral test unilateral
stanga dreapta

3. Pentru multe cazuri semnul din ipoteza Ha indica directia n care regiunea critica
se gaseste

Valoarea lui se numeste nivel de semnificatie si reprezinta riscul (probabilitatea)


respingerii lui H0 atunci cand aceasta estea adevarata. Nu putem determina

46
daca ipoteza H0 este adevarata sau falsa. Putem doar decide ca o respingem
sau ca o acceptam.
Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cu
care facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.

47
16 Verificarea ipotezelor statistice:
varianta probabilista

In sectiunea precedenta am descris varianta clasica de verificare a ipotezelor statistice


n cazul asertiunilor referitoare la media a unei populatii. O varianta probabilista
consta n determinarea unei probabilitati numita p-valoarea (prob-valoare) referitoare
la o statistica observata, care este comparata cu nivelul de semnificatie dat.

Definitia 16.1. P-valoarea unui test statistic este cea mai mica valoare a nivelului
de semnificatie pentru care informatia extrasa din esantion este semnificativa (H0
adevarata se respinge).

Consideram din nou exemplul 15.4 din sectiunea precedenta si-l analizam din acest punct
de vedere.

Exemplul 16.1. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si dispersia = 12. Clasa de 36 de elevi pe care-i nvata
la momentul actual are o medie x = 75, 2 . Aceasta medie fiind mai ridicata decat 72
profesorul vrea sa arate ca aceasta clasa este superioara celor de pana acum. Intrebarea
este daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia
profesorului la nivelul de semnificatie = 0, 05?
Precizam ca pentru a putea sustine ca actuala clasa este mai buna decat toate celelalte
clase anterioare trebuie ca media clasei actuale sa fie mai mare decat media oricarei clase
dinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,
atunci clasa actuala nu este mai buna decat toate celelalte.

Etapa 1. Formularea ipotezei H0 : H0 : x = = 72.


Aceasta ipoteza corespunde asertiunii ca actuala clasa nu este superioara
celorlalte clase.
Etapa 2. Formularea ipotezei alternative Ha : Ha : x = > 72.
Aceasta ipoteza corespunde asertiunii ca actuala clasa este superioara
celorlalte clase.
Remarcam faptul ca etapele 1 si 2 sunt aceleasi n varianta probabilista ca si n varianta
clasica de verificare a ipotezelor statistice.

Etapa 3. Specificarea nivelului de semnificatie , a probabilitatii erorii de tip I:


= 0, 005.
Etapa 4. Folosind formula scorului standard (z-scorului) si media x = 75, 2 a
esantionului de marime n = 36 se determina valoarea testului statistic:
x
z = = 1, 60

n

Remarcam aici ca Etapa 4 n varianta probabilista este aceeasi ca si


varianta clasica de verificare a ipotezelor statistice.

48
Etapa 5. Se reprezinta distributia normala a mediilor (testul statistic) n acest
caz si se localizeaza valoarea z determinata n Etapa 4 (care mparte
distributia n doua parti) si se determina care parte a distributiei
reprezinta pvaloarea.
Dupa care se determina pvaloarea. Ipoteza alternativa Ha arata ca n
cazul nostru:

p = P (z > z ) = P (z > 1, 6) = 0, 0548


Etapa 6. p-valoarea n cazul nostru este 0, 0548. Prin urmare pentru
orice nivel de semnificatie 0, 0548 nu putem respinge
ipoteza nula si concluzia este ca nu avem probe suficiente pen-
tru a demonstra superioritatea clasei actuale. Daca nsa nivelul de
semnificatie fixat la nceput este mai mare ca 0, 0548 (de ex. = 0, 1)
atunci decizia noastra va fi de respingere a ipotezei H0 si concluzia de
superioritate a clasei actuale.

Figura 5:

Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind verificarea


ipotezelor statistice n varianta probabilista:

1. Ipotezele H0 si Ha se formuleaza n aceeasi maniera ca si n varianta clasica.

2. Se specifica nivelul de semnificatie care va fi folosit.

3. Valoarea testului statistic se calculeaza n Etapa 4 de aceeasi maniera ca n varianta


clasica.

4. P-valoarea este aria aflata ntre curba de densitate de probabilitate axa Oz si z = z .


Exista trei cazuri posibile: doua unilaterale si unul bilateral. Directia (sau semnul)
n ipoteza Ha este indiciul:

Cazul 1. Daca Ha este unilaterala la dreapta ( > ) atunci p = P (z > z ) si aria este
n dreapta lui z .
Cazul 2. Daca Ha este unilaterala stanga ( < ), atunci p = P (z < z ) este aria din
stanga lui z .
Cazul 3. Daca Ha este bilaterala ( 6= ), atunci p = P (z < |z |) + P (z > |z |) =
2 P (z > |z |)

49
5. Decizia se ia comparand P -valoarea cu nivelul de semnificatie :

a) Daca P atunci H0 se respinge;


b) Daca P > atunci H0 se accepta.

6. Concluzia se formuleaza de aceeasi maniera ca si n varianta clasica.

Consideram acum un exemplu n care Ha este bilateral.

Exemplul 16.2. Companii mari folosesc agentii specializate pentru a testa candidatii
care doresc sa fie angajati. Agentia A foloseste un test de selectie pentru care n decursul
timpului s-a stabilit o medie de 82 si o deviatie standard de 8. Agentia B a dezvoltat
o noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai putin.
Agentia B sustine ca testul lor da aceleasi rezultate ca si testul agentiei A.
Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agentia A la
agentia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de cea
cu teste A. O agentie independenta C a testat cu noul test 36 de indivizi si a obtinut o
medie de 80.
Care este pvaloarea asociata acestui test?
Rezultatul testului agentiei B este acelasi daca = 82 si este diferit daca 6= 82. Prin
urmare:

Etapa 1. H0 : = 82 (testele au aceeasi medie)

Etapa 2. Ha : 6= 82 (testele au medii diferite)

Etapa 3. Este omisa daca se cere p-valoarea fara luarea unei decizii.

Etapa 4. Informatia din esantion: n = 36 si x = 80:


x 2 12 3
z = = 8 = 8 = 2 = 1.5

n 6

Etapa 5. Se localizeaza z pe o distributie normala si deoarece Ha este bilateral
vom considera P (z < |z |) si P (z > |z |) si obtinem:

p = P (z < 1, 50) + P (z > 1, 50)


= 0, 5 0, 4332 + 0, 5 0, 4332 = 0, 1336

deci p valoarea este 0, 1336.

50
Figura 6:

Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece la


B. Fiecare va trebui sa stabileasca propriul nivel de semnificatie si sa ia o decizie n
consecinta.

51
17 Inferenta statistica privind media populatiei daca
nu se cunoaste abaterea standard a populatiei

Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:
evaluarea intervalului de ncredere si verificarea ipotezelor statistice. In cele doua
tipuri de inferente statistice abaterea standard este considerata cunoscuta. In general
nsa abaterea standard nu este cunoscuta. Subiectul acestei sectiuni este inferenta
statistica privind media daca abaterea standard nu este cunoscuta.
Daca dimensiunea esantionului este suficient de mare (n general vorbind, esantioane
a caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),
deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei si
putem susbstitui cu s n procedura discutata deja. Daca populatia pe care o investigam
este aproape normala si n 30, atunci procedeul se bazeaza pe distributia Student t.
Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:
x
t=
s
n

In anul 1908 W.S. Gosset un functionar la o fabrica de bere n Irlanda a publicat o


lucrare relativa la aceasta distributie sub pseudonimul Student. In lucrarea lui Gosset
se presupune ca populatia este normala. Aceasta restrictie s-a dovedit ulterior restrictiva,
ntrucat se obtin rezultate satisfacatoare si pentru multe populatii care nu sunt normale.
Ecuatia care defineste distributia t nu o dam aici, doar dam cateva proprietati ale lui t:

1) distributia t are media 0;

2) distributia t este simetrica fata de medie;

3) distributia t are varianta supraunitara, dar daca dimensiunea esantionului creste,


varianta tinde la 1;

4) distributia t n jurul mediei este sub si departe de medie este deasupra distributiei
normale;

5) fiecarei marimi de esantion i corespunde o distributie t separata care depinde de


marimea esantionului. Daca marimea esantionului creste atunci t- distributia tinde
la distributia normala.

52
Figura 7:

Cu toate ca pentru fiecare marime de esantion (n=2,3,4,...) avem o distributie t separata


completa, n practica doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate n dreapta mediei sunt redate n tabelul urmator:

0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015

53
0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646

Figura 8:

In acest tabel df are valorile de la 1 la 29 si este numarul gradelor de libertate.


Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptului
ca daca n 30 distributia t este cea normala (teorema limita centrala).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseste pentru a identifica distributia care trebuie folosita. In consideratiile
noastre df = n 1, unde n este marimea esantionului. Valoarea critica a testului t care
trebuie folosita n estimarea intervalului de ncredere precum si n verificarea ipotezelor
statistice se obtine din tabelul prezentat. Pentru a obtine aceasta valoare este nevoie de
a cunoaste:

1) df - numarul gradelor de libertate;


2) aria determinata de curba de repartitie aflata n dreapta valorii critice. Aceasta
valoare este notata t(df, ).

54
Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate n stanga mediei se obtin cu formula: t(df, ),
tinand seama de simetria distributiei t.

Figura 9:

Se observa usor ca t(df, ) = t(df, 1 ). Astfel: t(df ; 0, 05) = t(df ; 0, 95).


Exemplul 17.2. Determinati t(15; 0, 95). Avem: t(15; 0, 95) = t(15; 0, 05) = 1, 75.

Figura 10:

Statistica t este folosita n verificarea ipotezelor statistice privind asertiuni relative la


media de aceeasi maniera ca si statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: nivelul monoxidului de carbon n aer este mai mare decat 4, 9/106 .
Un esantion de 25 de determinari cu media x = 5, 1/106 si s = 2, 1/106 este un argument
suficient pentru a sustine afirmatia? Se foloseste nivelul de semnificatie = 0, 05.

Etapa 1. H0 : = 4, 9/106

Etapa 2. Ha : > 4, 9/106

55
Etapa 3. = 0, 05; df = 25 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.

Etapa 4.
x 5, 1 4, 9 0, 20
t = s = 2, 1/25 = 0, 42 = 0, 476 ' 0, 48

n
Etapa 5. Decizia: Nu putem respinge H0 (t nu este n regiunea critica).
Concluzie: Nu avem suficiente argumente pentru ca sa respingem
ipoteza ca nivelul monoxidului de carbon este 4, 96/106 .

Figura 11:

Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoarea
critica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)
si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat contine doar
valorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel n cazul verificarii
ipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate fi
nsa estimata folosind tabelul.

Exemplul 17.4. Sa revenim la exemplul 17.3. Retinem t = 0, 48, df = 24 si Ha : > 49.


Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu p-
valoarea avem:
p = P (t > 0, 48, stiind df = 24)

56
Figura 12:

Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:

Figura 13:

Comparand t = 0, 48, vedem ca p valoarea este mai mare ca 0, 25.


Exemplul 17.5. Sa se determine pvaloarea pentru urmatoarea ipoteza statistica:
H0 : = 55
Ha : 6= 55
n conditiile n care df = 15 si t = 1, 84.

Solutie: p = P (t < 1, 84) + P (t > 1, 84) = 2 P (t > 1, 84). Randul df = 15 din tabel
arata ca P (t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.

Media populatiei poate fi estimata daca este necunoscut de o maniera similara cu cazul
cunoscut. Diferenta este ca se foloseste distributia t n loc de distributia z si deviatia
standard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:

s s
x t(df, ) , x + t(df, )
2 n 2 n

57
Figura 14:

unde df = n 1.

Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii lor
este 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% media
greutatii noilor nascuti.

Solutie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1 = 0, 95, implica: = 0, 05; df = 19,


iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:

s 0, 9
x t(19; 0, 025) = 3, 4 2, 09
n 20
0, 9
3, 4 2, 09 = 3, 4 0, 46
4, 472
Intervalul de ncredere de 95% este (2, 94; 3, 86).

58
18 Inferenta relativa la varianta si estimarea variantei

Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, o
companie de produse racoritoare are o masina de mbuteliat, care umple cu racoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusa n fiecare butelie este importanta, dar
cantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,
vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.
De aceea, compania doreste sa controleze varianta 2 a cantitatii x de racoritoare pusa n
fiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.
Vom prezenta n aceasta sectiune o inferenta privind varianta unei populatii. Adesea n
cazul acestei inferente se vorbeste despre deviatia standard n loc de varianta. Trebuie sa
subliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi despre
varianta este comparabil cu a vorbi despre deviatie standard.
Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceasta
companie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa n fiecare
butelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila si
compania va regla masina de mbuteliat daca varianta devine mai mare decat aceasta
valoare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este ca
varianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:

H0 : 2 = 0, 0004 (varianta este controlata)


Ha : 2 > 0, 0004 (varianta nu este controlata)

Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul 2 .
Valoarea calculata a lui 2 se va obtine folosind formula:

n s2
2 =
2
unde s2 este varianta esantionului, n este marimea esantionului, iar 2 este valoarea
specificata n ipoteza nula.
Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta 2 , atunci
cantitatea ns2 / 2 are o distributie care se numeste distributia 2 . Formula care defineste
distributia 2 nu o vom da aici, dar pentru a folosi distributia 2 , prezentam urmatoarele
proprietati ale acesteia:

1. distributia 2 are valori nenegative, este zero sau este pozitiva;

2. distributia 2 nu este simetrica, este asimetrica la dreapta;

3. exista mai multe repartitii 2 . Ca si pentru distributiile t exista o distributie 2


pentru fiecare grad de libertate. Inferenta pe care o discutam aici se refera la cazul
df = n 1.

Valorile critice ale lui 2 sunt date n tabelul urmator:

59
df/ 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0

60
Figura 15:

Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata sub
curba n dreapta valorii critice. Astfel 2 (df, ) este simbolul folosit pentru identificarea
valorii critice 2 cu df grade de libertate si cu aria sub grafic si n dreapta, asa cum
este prezentat pe figura urmatoare:

Figura 16:

Exemplul 18.1. Folosind tabelul determinati 2 (20; 0, 05) si 2 (14; 0, 90).


Din tabel se obtine: 2 (20; 0, 05) = 31, 4 si 2 (14; 0, 90) = 7, 79.

Remarca 18.1. Daca df > 2 valoarea medie a lui 2 este df . Valoarea medie este
localizata n dreapta modului (locul n care curba atinge valoarea maxima).

61
Figura 17:

Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controleze
varianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010
indica oare la nivelul de semnificatie 0, 05 ca procesul de mbuteliere nu este sub control
(referitor la varianta)?

Solutie:
Etapa 1. H0 : 2 = 0, 0004 (procesul este sub control)

Etapa 2. H0 : 2 > 0, 0004 (procesul nu este sub control)

Etapa 3. = 0, 05, n = 28, df = 27 si obtinem din tabel:

2 (27; 0, 005) = 40, 1.


Etapa 4.
n s2 28 0, 0010
2 = 2
= = 70
0, 0004
Etapa 5. Luarea deciziei.

Figura 18:

62
Concluzia: Procesul de mbuteliere este sub control n ceea ce priveste varianta.
Exemplul 18.3. Specificatiile unui anumit medicament indica ca fiecare comprimat
trebuie sa contina 2,5 g de substanta activa. 100 de comprimate alese la ntamplare
din productie sunt analizate. Ele contin n media 2,6 g de substanta activa cu o deviatia
standard de s = 0, 4g.
Se poate spune ca medicamentul respecta specificatiile ( = 0, 05)?

Etapa 1. Ipoteza H0 este ca medicamentul respecta specificatiile:

H0 : = 2, 5
Etapa 2. Ipoteza Ha este ca medicamentul nu respecta specificatiile:

H0 : 6= 2, 5
Etapa 3. Statistica folosita este media x, iar nivelul de semnificatie este = 0, 05.
Regiunea critica este:
Etapa 4. Testul statistic este:
x 2, 6 2, 5 0, 1
z= s = = = 2, 5
0, 4 0, 04
n 10
Valoarea lui z n tabel este: z0,975 = 1, 96 < 2, 5.
Etapa 5. Ipoteza H0 este respinsa, asadar nu putem spune ca medicamentul
respecta specificatiile.
Abordarea probabilista a inferentei statistice asupra variantei, p-valoarea poate fi estimata
pentru verificarea ipotezelor statistice folosind tabelul statistic 2 de aceeasi maniera ca
si n cazul testului Student.
Exemplul 18.4. Sa se determine p-valoarea n cazul urmatoarelor ipoteze statistice:
H0 : 2 = 150
Ha : 2 > 150

Se cunosc: df = 18 si 2 = 32, 7.

Solutie: p = P (2 > 32, 7) (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit n determinarea utilitatii unui examen ca masura
a abilitatii studentilor este mprastierea rezultatelor. Un set de rezultate al unui test
are valoare mica daca plaja notelor este mica. Din contra daca plaja notelor este mare,
este o diferenta mare ntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretins
ca o deviatie standard de 12 puncte este de dorit. Pentru a vedea daca un anume test
de o ora a fost sau nu un test bun din acest punct de vedere un profesor verifica aceasta
ipoteza statistica la nivelul de semnificatie = 0, 05 folosind rezultatele obtinute de clasa.
Au fost 28 de rezultate si deviatia standard gasita a fost 10, 5. Constituie aceasta o proba
la nivelul de semnificatie = 0, 05 ca examenul nu are deviatia standard specificata?

Solutie: n = 28, s = 10, 5 si = 0, 05


Etapa 1. H0 : = 12

63
Etapa 2. H0 : 6= 12

Etapa 3. = 0, 05, df = 27 si obtinem valorile critice din tabel:

21 (27; 0, 975) = 14, 6 si 22 (27; 0, 025) = 43, 2.


Etapa 4.
n s2 28 (10, 5)2 3087
2 = 2
= 2
= = 21, 43
(12) 144
Etapa 5. Nu se poate respinge H0 .
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0

64
19 Generalitati despre corelatie.
Corelatie liniara

In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem doua
seturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntre
cele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cum
sunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului unei
variabile n functie de comportamentul celeilalte. Iata cateva exemple:

Exemplul 19.1.

- In general o persoana care creste n naltime creste si n greutate. Se pune ntrebarea:


exista vreo relatie ntre naltime si greutate?

- Studentii si petrec timpul la universitate nvatand sau dand examene. Se pune


ntrebarea: studiind mai mult, obtii note mai mari?

- Doctorii care testeaza un nou medicament prescriu cantitati diferite si observa


raspunsul pacientilor; se pune ntrebarea: cantitatea de medicament prescrisa
determina oare timpul de nsanatosire al pacientului?

Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.
In cazul n care pentru o populatie avem doua seturi de date corespunzatoare la doua
variabile distincte se formeaza perechile de date (x, y), n care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile. De exemplu, x este natimea si y este
greutatea.
O pereche ordonata de date (x, y) se numeste data bidimensionala.
In mod traditional, variabila X (avand valorile x) se numeste variabila de intrare
(variabila independenta), iar variabila Y (avand valorile y) se numeste variabila de
iesire (variabila dependenta).
Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .
In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicament
prescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.
Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .
In cazul naltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat si
variabila de iesire. Rezultatele analizei vor fi nsa functie de alegerea facuta.
In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului se
prezinta sub forma unei diagrame de mprastiere.

Definitia 19.1. O diagrama de mprastiere sau nor de puncte este reprezentarea


grafica a perechilor de date ntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y sunt
reprezentate pe axa Oy.

65
Exemplul 19.2. Pentru un esantion de 15 studenti urmatorul tabel de date reprezinta
numarul de ore de studiu x pentru un examen si nota y obtinuta la acel examen:

x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9

Diagrama de mprastiere n acest caz este:

Exemplul 19.3. Diagrama de mprastiere n cazul tabelului de date:

x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9

este:

Analiza de corelatie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.
Vom prezenta cateva diagrame de mprastiere pentru a ilustra corelatii posibile dintre
variabila de intrare X si variabila de iesire Y .
Definitia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y , atunci zicem ca nu avem
corelatie sau ca nu exista legatura ntre X si Y .

66
Diagrama de mprastiere n cazul n care nu avem corelatie este urmatoarea:

Definitia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y zicem ca avem o corelatie.
Zicem ca avem o corelatie pozitiva daca y tinde sa creasca si avem o corelatie
negativa daca y tinde sa descreasca odata cu cresterea lui x.

Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelatia.
Diagramele de mprastiere care urmeaza ilustreaza aceste idei:

Figura 19: Diagrama de mprastiere n cazul unei corelatii pozitive

67
Figura 20: Diagrama de mprastiere n cazul unei corelatii pozitive stranse

Figura 21: Diagrama de mprastiere n cazul unei corelatii negative

Figura 22: Diagrama de mprastiere n cazul unei corelatii negative stranse

Definitia 19.4. Daca perechile (x, y) tind sa urmeze o dreapta zicem ca avem o corelatie
liniara.

Definitia 19.5. Daca toate perechile (x, y) se gasesc pe o dreapta (care nu este nici
orizontala nici verticala) atunci zicem ca avem o corelatie liniara perfecta.

68
Figura 23: Diagrama de mprastiere n cazul unei corelatii pozitive liniare perfecte

Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticala
nu exista corelatie intre cele doua variabile. Aceasta ntrucat schimbarea uneia nu
afecteaza valoarea celeilalte variabile.
Remarca 19.2. Diagramele de mprastiere nu sunt totdeauna de genul celor prezentate
pana acum si sugereaza corelatii care sunt de alta natura.

Figura 24: Diagrama de mprastiere n cazul unei corelatii neliniare

Definitia 19.6. Coeficientul de corelatie liniara r masoara cat de puternica este


corelatia liniara dintre cele doua variabile. Reflecta consistenta efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coeficientului de corelatie liniara r permite sa se formuleze
un raspuns la ntrebarea: exista o corelatie liniara ntre cele doua variabile considerate?
Coeficientul de corelatie liniara r are valoarea ntre 1 si +1. Valoarea r = +1 nseamna
o corelatie liniara pozitiva perfecta, iar valoarea r = 1 nseamna o corelatie liniara
negativa perfecta.

Daca pentru x crescand rezulta o crestere generala a valorilor lui y, atunci r indica o
corelatie liniara pozitiva.
De exemplu, n cazul copiilor daca x este varsta si y este naltimea, atunci ne asteptam ca
r sa fie pozitiv, pentru ca n mod natural, natimea copilului creste o data cu varsta. In

69
cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne asteptam
ca r sa fie negativ pentru ca n mod uzual valoarea automobilului descreste cu varsta lui.

Definitia 19.7. Coeficientul de corelatie liniara r n cazul unui esantion este prin
definitie: P
(x x) (y y)
r=
n sx sy
n care sx , sy sunt deviatiile standard ale variabilelor x, y, iar n este numarul de perechi
(x, y).

Remarca 19.4. Pentru a calcula r de obicei se foloseste o formula alternativa echivalenta:

SS(x, y)
r=p
SS(x) SS(Y )
P 2 1 X 2 P 2 1 X 2
unde: SS(x) = x x , SS(y) = y y , SS(x, y) =
X X n n
P 1
xy x y .
n
Exemplul 19.4. Sa se determine coeficientul de corelatie liniara r n cazul unui esantion
aleator de marime 10, daca tabelul de date este:

x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43

Folosind aceste date avem:

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0

de unde gasim:
919, 0
r=p = 0, 8394 0, 84.
(1396, 9) (858, 0)
Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelatie
liniara.

Daca valoarea calculata r este aproape de +1 sau 1, atunci banuim ca ntre cele doua
variabile exista corelatie liniara.

Intre 0 si 1 exista o valoare numita punct de decizie care indica daca exista sau nu exista
corelatie liniara. Un punct simetric exista si ntre 1 si 0. Valoarea punctului de decizie
depinde de marimea esantionului.
In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi de
esantionare cuprinse ntre 5 si 100.

70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelatie liniara

Valorile punctelor de decizie descresc daca n creste.

Daca r se gaseste ntre punctul de decizie negativ si cel pozitiv nu avem argumente ca sa
sustinem ca ntre cele doua variabile exista o corelatie liniara.

Daca r este mai mare decat punctul de decizie pozitiv sau mai mic decat punctul de
decizie negativ atunci ntre cele doua variabile exista o corelatie liniara.

Existenta unei corelatii ntre cele doua variabile nu nseamna ca exista o relatie
cauza efect. Astfel, de exemplu, daca X este alocatia pentru copii n ultimii 10 ani si
Y este consumul de bauturi alcoolice n ultimii 10 ani, un esantion de aceste date arata
o corelatie pozitiva stransa fara ca alocatia pentru copii sa fie cauza vanzarii bauturilor
alcoolice sau viceversa.

O metoda rapida de estimare a coeficientului de corelatie liniara r n cazul unui esantion


este urmatoarea:

a) Se deseneaza o curba nchisa n jurul valorii multimii de perechi (x, y):

71
b) Se determina lungimea D a diametrului maxim:

c) Se determina lungimea diametrului minim d:



d
d) Valoarea r se estimeaza cu 1 , n care semnul se alege n functie de
D
orientarea diametrului D:

Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la mprastiere.
Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valori
a lui Y aproximatia este utila.

72
20 Analiza de corelatie liniara

In sectiunea 20 am vazut care este formula coeficientului de corelatie liniara r ntre doua
variabile X, Y menit sa masoare cat de stransa este relatia de dependenta liniara dintre
cele doua variabile.
In cele ce urmeaza vom prezenta o analiza mai amanuntita a acestei formule. Consideram
pentru ilustratie urmatorul set de date bidimensionale:

x 2 3 6 8 11 12
y 1 5 3 2 6 1

Diagrama de mprastiere n acest caz este:

Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.


Punctul (x, y) este punctul (7, 3) si se numeste centroid al datelor:

73
Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se mparte n patru submultimi. Fiecare data (x, y) se gaseste la o anumita distanta
de aceste linii; x x este distanta cu semn de la (x, y) la paralela la axa Oy si y y
este distanta cu semn de la (x, y) la paralela Ox. distantele cu semn sunt pozitive sau
negative n functie de pozitia lui (x, y) fata de (x, y).

O masura a dependentei liniare ar putea fi covarianta. Covarianta dintre X si Y este


definita ca suma produselor distantelor cu semn x x si y y a tuturor datelor la centroid
mpartita la n:
Xn
(xi x) (yi y)
i=1
covar(x, y) =
n
Covarianta n cazul tabelului de date considerate este 0, 6.
Covarianta pozitiva nseamna ca diagrama de dispersie este dominata de date care se
gasesc deasupra si n dreapta centroidului sau dedesubt si n stanga acestuia. Aceasta
ntrucat produsele (x x) (y y) n puncte din aceste regiuni sunt pozitive.
Daca diagrama de dispersie este dominata de date care se gasesc deasupra si n stanga sau
dedesubt si n dreapta centroidului atunci covarianta este negativa pentru ca produsele
(x x) (y y) pentru puncte din aceste regiuni sunt negative.
Covarianta nsa nu este convenabila pentru a masura cat este de stransa relatia de
dependenta liniara ntre doua variabile fiindca depinde de unitatile de masura ale datelor.
Covarianta nu are o unitate de masura standardizata si mprastierea datelor influenteaza
foarte mult marimea covariantei.
Astfel de exemplu daca nmultim datele din tabelul considerat anterior cu 10 obtinem
tabelul de date:

x 20 30 60 80 110 120
y 10 50 30 20 60 10

Covarianta n cazul acestui tabel de date este 60, dar aceasta nu nseamna nicidecum ca
relatia de dependenta liniara ntre X, Y este mai stransa. Relatia de dependenta liniara

74
este aceeasi si doar datele sunt mai mprastiate. Aceasta este problema cu covarianta
atunci cand vrem sa masuram cu ajutorul ei dependenta liniara ntre doua variabile.
Trebuie sa gasim o cale de eliminare a efectului mprastierii datelor atunci cand masuram
dependenta.
Daca standardizam X si Y mpartind deviatia fiecareia de la media sa cu deviatia
standard:
xx yy
x0 = si y 0 =
sx sy
si calculam covarianta lui X 0 si Y 0 , vom avea o covarianta care nu mai este influentata de
mprastierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelatie liniar r. Astfel coeficientul de corelatie liniar este:

covar(X, Y )
r = covar(X 0 , Y 0 ) =
sx sy

Coeficientul de corelatie liniara standardizeaza masura dependentei si ne permite sa com-


param cat de stransa este dependenta liniara a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelatie liniara adesea poarta denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelatie liniara r n cazul setului de date considerat la nceput
este:
0, 6
r= = 0, 07
(4, 099) (2, 098)
Pentru ca determinarea coeficientului de corelatie liniara cu ajutorul formulei:
covarX, Y
r=
sx sy

este greoaie, n locul ei se foloseste una practica:

SS(X, Y )
r=p
SS(X) SS(Y )

Aceasta din urma formula evita calculul separat al lui x, y, sx , sy precum si calculul
deviatiilor de la medie.

75
21 Inferenta privind coeficientul de corelatie liniara

Dupa ce coeficientul de corelatie liniara r a fost calculat pentru un esantion se pune n


mod natural ntrebarea: valoarea lui r indica oare ca exista o dependenta liniara ntre
cele doua variabile n cazul populatiei din care esantioanele au fost luate?
Pentru a raspunde la aceasta ntrebare facem o verificare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H0 :

Cele doua variabile sunt liniar necorelate.

Aceasta nseamna = 0, fiind coeficientul de corelatie pentru


populatie.
Etapa 2. Formularea ipotezei alternative.
Aceasta poate fi unilaterala sau bilaterala. Cel mai frecvent este
bilaterala 6= 0. Cu toate acestea daca suspectam ca avem doar o
singura corelatie pozitiva ori o singura corelatie negativa trebuie sa
folosim test unilateral. Ipoteza alternativa n cazul testului unilateral
este: > 0 sau < 0.
Etapa 3. Regiunea critica pentru testul statistic este n partea dreapta daca ne
asteptam la o corelatie pozitiva si este n stanga daca ne asteptam la o
corelatie negativa.

Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea tes-
tului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasesc
n urmatorul tabel la intersectia coloanei corespunzatoare valorii lui si a liniei core-
spunzatoare gradului de libertate df = n 2:

76
Valorile critice pentru r daca = 0

df| 0,10 0,05 0,02 0,01


1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,980
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,662 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
25 0,323 0,381 0,445 0,487
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254

Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui este dublul valorii lui ce se foloseste n verifi-
carea ipotezelor statistice.

Etapa 4. Se determina r din esantion.

Etapa 5. Se determina daca r este n regiunea critica sau nu.

Neacceptarea ipotezei nule nseamna ca exista o proba a dependentei dintre cele doua
variabile ale populatiei
Mentiune: Aceasta nu nseamna ca am stabilit o relatie de tip cauza efect ci
doar o relatie matematica care permite sa se prezica comportamentul variabilei

77
de iesire Y din comportamentul variabilei de intrare X.

Exemplul 21.1. In cazul tabelului de date:

x 2 3 6 8 11 12
y 1 5 3 2 6 1

avem n = 6, iar r = 0, 07. Intrebarea este daca aceasta valoare a lui r difera de zero n
mod semnificativ daca nivelul de semnificatie este = 0, 02?

Etapa 1. H0 : = 0

Etapa 2. H0 : 6= 0

Etapa 3. Avem = 0, 02 si df = n 2 = 6 2 = 4. Valorile critice din tabel


sunt: 0, 882 si 0, 882.
Etapa 4. Valoarea calculata a lui r este r = 0, 07

Etapa 5. Se accepta H0 .

Concluzie: Nu am putut arata ca X, Y sunt corelate. Daca acceptam ipoteza nula


nseamna ca independenta liniara dintre cele doua variabile a fost aratata.
Ca si n alte probleme, uneori se cere estimarea unui interval de ncredere pentru
coeficientul de corelatie . Este posibila estimarea coeficientului de corelatie folosind
un tabel care ne da centuri de ncredere. Tabelul urmator reprezinta asemenea centuri
de ncredere pentru intervale de ncredere de 95%: Exemplul urmator arata cum trebuie
citit un asemenea tabel.

Exemplul 21.2. Pentru un esantion de 15 perechi de date o valoare calculata a lui r este
r = 0, 35. Sa se determine intervalul de ncredere 95% pentru coeficientul de corelatie
liniar a populatiei?

1) Se localizeaza 0, 35 pe axa orizontala (axa coeficientului de corelatie liniara) si se


duce linia verticala.

78
2) Se determina intersectia liniei verticale cu centurile corespunzatoare marimii
esantionului (aceasta fiind 15) si se obtin doua puncte pe linia verticala.

3) Intervalul de ncredere este intervalul determinat de ordonatele acestor puncte


(0, 20, 0, 72) (axa ordonatelor este axa coeficientului de corelatie a populatiei).

79
22 Regresie liniara

Daca valoarea coeficientului de corelatie liniara r indica o corelatie liniara stransa atunci se
pune problema stabilirii unei relatii numerice exacte. Aceasta relatie exacta este obtinuta
prin regresie liniara.
In general statisticianul cauta o ecuatie care exprima relatia dintre doua variabile. Ecuatia
aleasa este cea mai buna fitare a diagramei de dispersie. Ecuatiile gasite se numesc ecuatii
de predictie, iar n continuare sunt prezentate cateva asemenea ecuatii:

y = b0 + b1 x - liniara

y = a + b x + c x2 - patratica

y = a bx - exponentiala

y = a logb x - logaritmica.

Obiectivul final este ca folosind ecuatii sa se faca predictii. In general valoarea exacta a
variabilei Y nu este prezisa. Ne multumim daca predictia este suficient de apropiata.
Definitia 22.1. Regresia liniara stabileste dependenta liniara n medie a lui y n functie
de x.

Vom descrie n continuare cum se stabileste cea mai buna dependenta liniara pentru un
set de date (x, y).
Daca relatia de dependenta liniara pare potrivita, cea mai buna relatie liniara se stabileste
cu metoda celor mai mici patrate.
Sa presupunem ca y = b0 + b1 x este cea P mai buna relatie liniara. Metoda celor mai mici
patrate cere ca b0 si b1 sa fie astfel ncat (y y)2 sa fie minima.
Din teorema lui Fermat rezulta ca valorile minime ale functiei:
X
F (b0 , b1 ) = (y b0 b1 x)2

se obtin pentru
P
(x x) (y y) 1 X X
b1 = P , b0 = y b1 x
(x x)2 n
b1 este panta dreptei, iar b0 este ordonata la origine.
Pentru determinarea pantei b1 de obicei se foloseste formula echivalenta:
SS(x, y)
b1 =
SS(x)
P 1 X 2 P 1 X X
unde: SS(x) = x2 x si SS(x, y) = xy x y .
n n
Mentionam aici ca expresiile SS(x, y) si SS(x) apar si n formula de calcul al coeficientului
de corelatie liniara. De aceea n momentul calcularii lui r putem afla si valoarea pantei
b1 .

80
Exemplul 22.1. In cazul unui esantion de 10 indivizi consideram urmatorul set de date.

x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43

Pentru a determina cea mai buna relatie liniara y = b0 + b1 x se calculeaza SS(x, y) si


SS(x) si se obtine:
SS(x, y) = 919, 0 si SS(x) = 1396, 9
de unde panta b1 este:
919, 0
b1 = = 0, 6599 0, 66.
1396, 9
Pentru a determina ordonata n origine b0 se foloseste formula de calcul a acesteia si
rezulta:
1
b0 = [380 0, 65 351] = 14, 9077 14, 9
10
Astfel cea mai buna relatie liniara este:

y = 14, 9 + 0, 66 x

Remarca 22.1.

a) Panta b1 reprezinta schimbarea prezisa a variabilei y corespunzatoare unei cresteri


cu o unitate a variabilei x.

b) Ordonata b0 reprezinta valoarea lui y n x = 0. Doar daca x = 0 este n domeniul


de date putem spune ca b0 este valoarea prezisa a lui y pentru x = 0.

c) Cea mai buna relatie liniara este o dreapta ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci cand se traseaza graficul celei
mai bune relatii liniare.

Exemplul 22.2. In cazul unui esantion aleator de 8 indivizi consideram urmatorul tabel
de date

x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130

Diagrama de mprastiere a acestui set de date sugereaza o corelatie liniara.

81
Pentru a gasi cea mai buna relatie de dependenta liniara calculam SS(x, y) si SS(x) si
gasim:
SS(x, y) = 230, 0 si SS(x) = 48, 875
De aici avem:
230, 0
b1 = = 4, 706 4, 71.
48, 875
1 hX X i
b0 = y b1 x = 186, 478 186, 5
n
de unde:
y = 186, 5 + 4, 71 x

Remarca 22.2. O estimare grosiera a celei mai bune relatii de dependenta liniara se
poate face n felul urmator:

- ca si n cazul aproximarii coeficientului de corelatie r se considera o curba nchisa


n jurul multimii de perechi (x, y);

- diametrul maxim al multimii este o aproximare a graficului de dependenta liniara;

- se scrie ecuatia de dependenta liniara ca ecuatia unei drepte ce trece prin doua
puncte de pe acest diametru;

- ca si n cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita ca
atare.

82
23 Analiza de regresie liniara

Modelul liniar folosit pentru a explica dependenta liniara a doua variabile referitoare la
aceeasi populatie este definit de ecuatia:

y = 0 + 1 x +

Aceasta ecuatie reprezinta relatia liniara dintre doua variabile x si y ntr-o populatie. In
aceasta relatie:
- 0 este ordonata la origine;
- 1 este panta;
- y este valoarea observata la o valoare data a lui x;
- 0 + x este media lui y pentru valoarea data a lui x
Remarcam ca eroarea depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = 0 + 1 xi + i , i = 1, 2, . . . , n
- este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezinta
deviatia valorii observate y de la medie.
Dreapta de regresie liniara obtinuta y = b0 + b1 x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne da b0 care este o estimare pentru 0 si b1 care este o estimare pentru 1 . Atunci vom
putea scrie yi = b0 + b xi + ei . Erorile sunt estimate prin yi yi care este diferenta
dintre valoarea observata yi si valoarea prezisa yi a lui y la o valoare data a lui x. Fiindca
yi = b0 + b1 xi avem ca:
ei = yi yi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmatoarele proprietati:

e > 0 y > y;

e < 0 y < y;

pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinta a metodei celor mai mici patrate; si astfel media erorilor
Xn
experimentale este zero: ei = 0.
i=1

Notam cu 2 varianta erorilor aleatoare a datelor observate si ne propunem sa estimam


aceasta varianta.
Inainte nsa sa trecem la estimarea variantei 2 sa analizam putin ce reprezinta eroarea
? reprezinta diferenta dintre valoarea observata y si valoarea medie a lui y pentru o
valoare data a lui x. Intrucat nu cunoastem valoarea medie a lui y, vom folosi ecuatia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu y valoarea prezisa
de ecuatia de regresie a lui y pentru acest x. Astfel estimarea lui este e = y y.

83
Daca pentru o valoare data x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala n x pe axa Ox.

O distributie similara apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x si se estimeaza cu y.
Altfel spus, deviatia standard a distributiei datelor y de la medie este aceeasi pentru orice
x:

84
Reamintim ca varianta s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definita cu
formula: n
1X
s2 = (xi x)2
n i=1
Determinarea variantei setului de date y introduce o complicatie pentru ca media datelor
y difera de la un x la altul. Pentru fiecare x media este estimata prin valoarea prezisa y ce
corespunde la x prin dreapta de regresie. Astfel varianta erorii se estimeaza cu formula:
n
1X
s2 = (yi yi )2
n i=1

care arata ca varianta erorii este varianta variabilei y n jurul dreptei de regresie.
Varianta erorii s2 poate fi scrisa sub forma:
1X 1 hX 2 X i
s2 = (y b0 b1 xi )2 = yi b0 y b 1 xi y i
n n
si este o estimare a lui 2
Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companie
doreste sa stie n cat timp poate sa ajunga dimineata cu masina de la locuinta la locul de
munca. Pentru a gasi un raspuns la aceasta ntrebare el ntreaba un numar de 15 colegi la
ce distanta stau de locul de munca si n cat timp ajung la serviciu si ntocmeste urmatorul
tabel de date statistice:

coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distanta
(n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45

Pentru a gasi un raspuns la problema persoana n cauza trebuie sa determine dreapta de


regresie si varianta s2e .
Folosind formulele de calcul el gaseste:
(184)2
SS(x) = 2, 616 = 358, 9333
15
85
(184) (403)
SS(x, y) = 5, 623 = 679, 53333
15
358, 9333
b1 = = 1, 893202 1, 89
679, 53333
1
b0 = [403 (1, 893202) (184)] = 3, 643387 3, 64
15
y = 3, 64 + 1, 89 x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu n functie de distanta x la care locuieste.
Pentru a gasi abaterea standard de la valoarea estimata el va trebui sa calculeze si varianta
s2 . Folosind formulele de calcul el gaseste: s2 = 29, 17.

86
24 Inferenta referitoare la panta unei drepte de re-
gresie liniara

Dupa ce ecuatia dreptei de regresie liniara a fost determinata ne ntrebam cand putem
folosi aceasta ecuatie pentru a prezice valorile variabilei y n functie de x?
Raspunsul la ntrebare l vom da parcurgand procedeul de verificare a ipotezelor statistice.
Inainte de a face inferenta privind dreapta de regresie facem urmatoarele ipoteze:

- pentru fiecare x distributia datelor y observate este aproximativ normala;

- pentru fiecare x varianta distributiei datelor y observate este aceeasi.

Inainte sa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sa analizam distributia pantelor ce se obtin pentru esantioane aleatoare de
marime n. Aceste pante b1 au o distributie aproape normala avand media 1 panta n
cazul populatiei si varianta b21 data de:

2
b21 =P
(x x)2
Un estimator adecvat s2b1 a lui b21 se obtine prin nlocuirea lui 2 cu s2e :

s2e
s2b1 = P
(x x)2
Aceasta formula poate fi scrisa sub forma:
s2e s2e
s2b1 = =P P
SS(x) x ( x)2 /n

Eroarea standard a regresiei (pantei) este b1 si este estimata prin sb1 .


Putem trece acum la verificarea ipotezelor statistice:

Etapa 1. Formularea ipotezei H0 . Ipoteza nula va fi 1 = 0. Daca 1 = 0


atunci ecuatia liniara nu poate fi folosita pentru a prezice valoarea lui
y aceasta nseamna ca: y = y.
Etapa 2. Ipoteza alternativa poate fi unilaterala sau bilaterala. Daca banuiala
este ca panta este pozitiva atunci un test unilateral este potrivit:
Ha : 1 > 0.
Etapa 3. Ca test statistic folosim testul t. Numarul gradelor de libertate pentru
test este df = n 2. In cazul Exemplului 23.1 care se refera la timpul
necesar pentru a ajunge cu masina la servici df = 152 = 13. La nivelul
de semnificatie = 0, 05, valoarea critica a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru
inferenta este:
b1 1
t =
sb1

87
s2e
Etapa 4. Avand n vedere egalitatea s2b1 = n cazul exemplului considerat
SS(X)
gasim ca valoarea testului statistic este:
b1 1 1, 89 0
t = = = 6, 629 6, 63
sb1 0, 0813
Etapa 5. Decizie: ipoteza H0 se respinge pentru ca t este n regiunea critica.
Concluzie: Panta dreptei de cea mai buna aproximatie este mai mare
ca zero. Probele statistice arata ca exista o relatie liniara ntre distanta
locuinta-serviciu si perioada de timp necesara pentru a ajunge cu masina
la serviciu si aceasta perioada de timp este predictibila.
Panta 1 a dreptei de regresie liniara a populatiei poate fi estimata cu ajutorul inter-
valului de ncredere. Capetele acestui interval de ncredere sunt date de formula:

b1 t(n 2; ) sb1
2

In cazul Exemplului 23.1 la nivelul de semnificatie = 0, 05:


p
1, 89 2, 16 0, 0813 = 1, 89 0, 62

capetele intervalului de ncredere sunt 1, 27 si 2, 51.


Deci intervalul de ncredere pentru 1 este (1, 27; 2, 51) la nivelul de semnificatie 0, 05.

88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston

[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicatii, Editura All, 1995,
Bucuresti

[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,


1991,Paris

[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lectii de statistica descrip-
tiva, Universitatea de Vest, 1998, Timisoara

[5] Bocsan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,


1995, Timisoara

[6] Yule G. Udny, Kendall, M.G., Introducere n teoria statisticii, Editura Stiintifica,
1969, Bucuresti

89

Potrebbero piacerti anche