Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Cuprins
1 Ce este statistica? 3
2 Notiuni de baza 5
3 Colectarea datelor 7
5 Prezentarea datelor 14
1
15 Verificarea ipotezelor statistice: varianta clasica 41
22 Regresie liniara 80
2
1 Ce este statistica?
Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltare
a facilitatilor de cazare. Pentru a trece la actiune consiliul de administratie hotaraste ca
este necesar sa se raspunda la urmatoarea ntrebare: Cati studenti vor trebui cazati n
urmatorii zece ani?
Pentru a raspunde la aceasta ntrebare trebuie sa cunoastem raspunsul la cel putin
urmatoarele doua ntrebari: Cati absolventi de liceu vor fi? Cati vor sa vina la
universitate? (Si altele poate).
Pentru a raspunde la aceste doua ntrebari e nevoie de date referitoare la numarul de
absolventi de liceu n urmatorii zece ani si de date care indica procentul acelor absolventi
de liceu care doresc sa devina studenti la U.V.T. n urmatorii zece ani.
O cale de a obtine date refritoare la numarul de absolventi de liceu n urmatorii zece ani
este de a vedea care a fost acest numar n ultimii zece ani si a extrapola acest numar.
Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.
Acest lucru nu este ntotdeauna adevarat. O ntrebare suplimentara care se pune n acest
context este daca va trebui sa numaram toti absolventii de liceu din toate scolile din
ultimii zece ani sau ne putem limita sa numaram doar la anumite scoli? Altfel spus, daca
putem considera doar esantioane?
O cale de a obtine date referitoare la procentul acelor absolventi care doresc sa devina
studenti la U.V.T. este aceea de a vedea aceste procente n ultimii zece ani si de a
extrapola.
Alte ntrebari care se pun sunt: Cum interpretam aceste date? Cum formulam o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ntrebarilor care pot fi relevante. La acest moment ceea
ce este important este sa ncepem sa ne gandim la asemenea probleme si la ntrebarile
care trebuiesc lamurite pentru a obtine un raspuns.
3
populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma sa
facem predictie asupra populatiei pe baza informatiei gasite n esantion.
Multi oameni sunt indiferenti fata de descrierea statistica, altii cred ca statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea unei
statistici neadecvate sau date obtinute dintr-un esantion nepotrivit. Toate acestea conduc
la o ntelegere gresita a informatiei din partea consumatorului. Folosirea gresita a
statisticii duce uneori la ncurcaturi.
4
2 Notiuni de baza
Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numerice
obtinute prin masuratori ale carei proprietati trebuiesc analizate.
Remarca 2.1. Populatia este colectia completa de indivizi, obiecte sau date numerice
obtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).
Conceptul de populatie este fundamental n statistica. Populatia trebuie definita cu grija
si se considera complet definita daca lista membrilor este specificata. Multimea studentilor
Facultatii de Matematica si Informatica este o populatie bine definita.
Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statistica
populatia poate fi o multime de animale, de obiecte fabricate sau de date numerice
obtinute prin masuratori. De exemplu multimea naltimilor studentilor facultatii de
Matematica si Informatica este o populatie.
Definitia 2.2. Esantionul este o submultime a unei populatii.
Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate din
populatie (de catre colectorul de esantion).
Definitia 2.3. O variabila de raspuns (simplu variabila) este o caracteristica (de
obicei numerica) care prezinta interes n cazul fiecarui element (individ) al unei populatii.
Remarca 2.3. Varsta studentului, media lui, culoarea parului, naltimea, greutatea
s.a.m.d. sunt variabile de raspuns n cazul populatiei: studentii de la Facultatea de
Matematica si Informatica.
Definitia 2.4. O data (la singular) este valoarea unei variabile de raspuns n cazul
unui element al populatiei sau esantionului.
Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui este
castaniu, naltimea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cinci
valori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolae
sunt cinci date.
Definitia 2.5. Valorile unei variabile de raspuns n cazul unei populatii sau a unui
esantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea ori
de cate ori variabila are aceasta valoare.
Exemplul 2.2. Cele 25 de naltimi n cazul unui esantion de 25 de studenti este un set
de 25 de date nu neaparat diferite.
Definitia 2.6. O activitate planificata n urma careia se obtine un set de date se numeste
experiment sau sondaj.
Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.
Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica care
au promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazul
populatiei: studentii de la Facultatea de Matematica si Informatica.
Remarca 2.4. Parametrul este o valoare numerica care se refera la ntreaga populatie.
In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.
5
Definitia 2.8. O statistica este o caracteristica numerica a unui esantion
Exemplul 2.4. Inaltimea medie gasita folosind cele 25 de naltimi n cazul unui esantion
de 25 de studenti este un exemplu de statistica (de esantion).
6
3 Colectarea datelor
Prima problema a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.
Exemple de obiective:
Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituie
pentru ntreaga populatie sau doar pentru un esantion. Daca setul de date se constituie
pentru ntreaga populatie atunci se face un recensamant.
Definitia 3.1. Un recensamant este o enumerare sau o listare a fiecarui element al
populatiei mpreuna cu data (valoarea variabilei) corespunzatoare elementului.
In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificil
si costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensamant,
setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectia
elementelor pentru esantion se face dintr-un cadru de esantionare.
Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,
din care va fi extras esantionul.
Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectate
pentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fie
reprezentativ pentru populatie.
Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefon
sunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acestea
pot fi cadre de esantion potrivite sau nepotrivite.
Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului de
alegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.
Definitia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere a
elementelor esantionului din cadrul esantionului.
Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedee
mpreuna cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazate
pe reprezentativitate si procedee probabiliste.
7
Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ncat din perspectiva variabilei de raspuns, elementul ales sa fie
reprezentativ pentru populatie.
Exemplul 3.1. Din perspectiva variabilei de raspuns: cursul A este util sau nu n
formarea dumneavoastra profesionala?, studentii din cadrul unui esantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt alesi n esantion.
Definitia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;
oricare element din cadrul esantionului are o anumita sansa nenula sa fie selectat; se
numeste esantion probabilist.
Definitia 3.6. Un esantion de marimea n este esantion probabilist aleator daca orice
esantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa fie ales.
Remarca 3.5. Cea mai raspandita metoda de a colecta date foloseste esantion aleator
simplu.
Definitia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru n care elementele au aceeasi probabilitate sa fie alese se numeste esantion
aleator simplu.
Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuie
avuta grija ca fiecare element din cadrul esantionului sa aibe aceeasi probabilitate sa fie
selectat. Adesea se fac greseli pentru ca termenul aleator este confundat cu ales
la ntamplare. Un procedeu corect de selectare a unui esantion probabilist aleator
simplu este acela care foloseste un generator de numere aleatoare sau o tabela de numere
aleatoare. Prima oara se numeroteaza elementele din cadrul de esantionare. Dupa aceasta
n tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.
Fiecare element din cadrul de esantionare, al carui numar coincide cu un numar selectat
din tabelul de numere aleatoare va fi ales pentru esantion.
Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de studenti atunci ei sunt
numerotati de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de studenti se aleg 50 de
numere aleatoare cu patru cifre si se identifica studentii din cadrul esantionului.
Remarca 3.7. In aceasta selectie se foloseste tabela de numere aleatoare o singura data,
pentru a determina punctul de plecare.
8
2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:
numarul de elemente din cadrul esantionului 245
k= = = 16
numarul de elemente din esantion 15
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k = = 16, 33, nu este un numar ntreg, pasul de numarare poate fi si 17. In
15
acest caz esantionul sistematic obtinut este de numai 14 elemente.
Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia este
repetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)
Cand se esantioneaza populatii foarte mari, atunci cand este posibil se mparte populatia
n doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,
iar straturile sunt esantionate separat.
Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se mparte n doua sau
mai multe straturi si n fiecare strat se proiecteaza un subesantion. Aceste subesantioane
pot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblate
ntr-un singur esantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facul-
tatea de Matematica si Informatica, aceasta populatie poate fi mpartita:
- pe domenii: informatica, matematica
- pe ani de studiu.
9
Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatia
studentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii de
studiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectat
va fi proportional cu numarul total de studenti din anul respectiv:
Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 de
studenti din anul III si 30 de studenti din anul IV.
Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentii
Universitatii de Vest din Timisoara, aceasta populatie poate fi startificata n functie
de specializarea pe care au ales-o studentii selectionand esantioane doar de la cateva
specializari (nu de la toate).
Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metoda
sistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupa
care fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza un
esantion ciorchine.
10
4 Determinarea frecventei si gruparea datelor
Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinarea
frecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si este
utilizat atunci cand numarul datelor este mare.
Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Valoarea 0 apare n acest set o singura data prin urmare frecventa pentru 0 este unu.
Valoarea 1 apare n acest set de trei ori prin urmare frecventa pentru 1 este trei.
Valoarea 2 apare n acest set de opt ori prin urmare frecventa pentru 2 este opt.
Valoarea 3 apare n acest set cinci ori prin urmare frecventa pentru 3 este cinci.
Valoarea 4 apare n acest set de doua ori prin urmare frecventa pentru 4 este doi.
Frecventa datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:
x f
0 1
1 3
2 8
3 5
4 3
Definitia 4.1. Frecventa f (din coloana a doua) arata de cate ori apare valoarea variabilei
x n setul de date.
Atunci cand ntr-un set de date multe sunt distincte (n loc de cateva ca n cazul precedent)
se grupeaza datele n clase si apoi se construiesc frecvente pentru clase.
Pentru a ilustra acest procedeu consideram urmatorul set de date:
82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78
Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obtinem
urmatoarele cinci clase:
(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).
Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricare
din date apartine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai mici
decat limita superioara a clasei.
11
Definitia 4.2. Latimea unei clase definita ca diferenta dintre limita inferioara a clasei
urmatoare si limita inferioara a clasei (este egala cu 10 si este aceeasi pentru toate clasele
n exemplul de mai sus) latimea clasei nu este egala cu diferenta dintre limita superioara
si limita inferioara a clasei.
Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioara
a clasei si limita inferioara a clasei urmatoare sunt:
Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara si
limita inferioara a clasei, n acest caz este:
50 + 59
54.5 = n cazul clasei 50 59
2
60 + 69
64.5 = n cazul clasei 60 69
2
70 + 79
74.5 = n cazul clasei 70 79
2
80 + 89
84.5 = n cazul clasei 80 89
2
90 + 99
94.5 = n cazul clasei 90 99
2
Frecventa n acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:
12
i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:
R = H L.
ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfel
ca produsul m c sa fie putin mai mare ca plaja R.
iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.
Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:
iv) Limitele superioare se stabilesc astfel ncat sa fie respectate conditiile 1) si 2).
13
5 Prezentarea datelor
Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrarea
primara a datelor.
Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre care
primul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul de
frecvente corespunzatoare.
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Exemplul 5.2. In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obtinute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
14
Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ntr-o serie de
distributie de date statistice se numeste mod.
Definitia 5.3. Clasa cu cea mai mare frecventa ntr-o serie de distributie de date grupate
se numeste clasa modala.
Definitia 5.4. Serie bimodala este o serie de distributie de date grupate n care apar
doua clase modale, separate de clase cu frecventa mai joasa.
Definitia 5.5. Frecventa cumulata a unei clase este suma frecventelor tutror claselor
cu valori mai mici (marca mai mica).
Definitia 5.6. Seria dinamica (temporala, cronologica) este un sir dublu dintre
care primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirul
de momente de timp la care variabila are aceste valori. In general, o serie dinamica
(temporala) se noteaza astfel:
x1 x2 x3 xn
X
t1 t2 t3 tn
este un cerc mpartit n n sectoare de cerc S1 , S2 , ..., Sn astfel ncat aria sectorului Si este
egala cu
fi
fi00 = n 100
X
fj
j=1
15
Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1
0 1 2 3 4
X
1 3 8 5 3
cercul se mparte n cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Ox, iar naltimile lor sunt f1 , f2 , ..., fn
16
Definitia 5.10. Diagrama linie (ramura-frunza) a seriei de distributie (fara grupare)
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .
histograma este:
17
Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spre
deosebire de diagrama coloana.
Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iar
natimile lor sunt frecventele relative cumulate.
3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecare
clasa.
18
6 Parametrii si statistici ai tendintei centrale
O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametrii
tendintei centrale n cazul populatiilor si statistici ale tendintei centrale n cazul
esantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici ale
tendintei centrale.
Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui set
de date statistice care localizeaza ntr-un anumit sens mijlocul multimii de date statistice.
Definitia 6.2. Media aritmetica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie suma acestor date mpartita la numarul datelor
n
X
xi
i=1
x=
n
Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie
(fara grupare n clase), media aritmetica se gaseste cu formula:
m
X
xj f j
j=1
x= m
X
fj
j=1
Remarca 6.2. In cazul unei serii de distributie (cu grupare n clase) formula de calcul a
mediei este: X
x fx
x= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.3. Media patratica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul: v
uX n
u
u x2i
t
i=1
xp =
n
Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media patratica se gaseste cu formula:
v
uX m
u
u x2j fj
u
u j=1
xp = u m
u X
t f j
j=1
19
Remarca 6.4. In cazul unei serii de distributie cu grupare n clase media patratica este
prin definitie: v
uX 2
u x fx
u
xp = t X
fx
i=1
xi
Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media armonica se gaseste cu formula:
m
X
fj
j=1
xh = m
X 1
fj
j=1
xj
Remarca 6.6. In cazul unei serii de distributie cu grupare n clase media armonica este
prin definitie:
Xn
fx
i=1
xh = n
X 1
fx
i=1
x
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.5. Media geometica a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie numarul: v
u n
uY
xp = tn
xi
i=1
Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media geometrica se gaseste cu formula:
Remarca 6.8. In cazul unei serii de distributie cu grupare n clase media geometrica este
prin definitie: n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma
se extinde pe ansamblul claselor.
20
Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marime
x1 < x2 < ... < xn este numarul care mparte setul de date n doua grupe egale ca numar:
4 7 12 26 32 38 59
4 7 12 26 32 38
12 + 26
mediana este me = = 19.
2
Remarca 6.9. Mediana me n acest caz are proprietatea ca suma frecventelor valorilor
mai mari decat me este egala cu suma frecventelor valorilor mai mici decat me .
Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sa nu fie adevarata. In cazul setului de date statistice:
1 1 1 2 3 3 4
21
7 Parametrii si statistici ai dispersiei
Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:
care sunt parametrii si statisticile care caracterizeaza dispersia (mprastierea) datelor.
Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatia
standard si coeficientul de variatie. Aceste valori numerice descriu marimea mprastierii
ori a variabilitatilor datelor. Datele strans grupate vor avea mprastiere mica, iar cele
care nu sunt grupate (sunt mprastiate) vor avea o dispersie mai mare.
Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoare
a valorilor xi dintr-un set de date:
P =H L
Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de media
aritmetica.
Definitia 7.3. Deviatia medie absoluta a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definitie:
Xn
|xi x|
i=1
d=
n
Remarca 7.1. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie fara grupare de date se calculeaza cu formula:
m
X
|xj x| fj
j=1
d= m
X
fj
j=1
22
Remarca 7.2. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie cu grupare de date se calculeaza cu formula:
X
|x x| fx
d= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date varianta s2 se calculeaza cu formula:
X
(x x)2 fx
2
s = X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definitie:
n 1
X 2
(xi x)2
i=1
s=
n
23
Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date deviatia standard s se calculeaza cu formula:
1
X m
2
(xj x)2 fj
j=1
s=
m
X
fj
j=1
Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date deviatia standard s se calculeaza cu formula:
X 1
(x x) fx 2
2
s= X
fx
Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ntrebarea
ce reprezinta ea n realitate? Un raspuns la aceasta ntrebare poate fi dat cu inegalitatea
lui Cebsev din care rezulta ca pentru orice serie de distributie fractiunea de date situata
la cel mult k unitati de deviatie standard fata de medie este cel putin 1 k12 , unde k este
un numar pozitiv oarecare mai mare ca 1. Rezulta n particular ca pentru orice serie de
distributie fractiunea de date situata la cel mult k = 2 unitati de deviatie standard fata de
medie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de date
situate la cel mult o unitate de deviatie standard fata de medie este aproximativ 68%,
iar fractiunea de date situate la cel mult doua unitati de deviatie standard fata de medie
este aproximativ 95%.
Remarca 7.9. V poate lua valori ntre 0 si 100%. Daca V este aproape de zero
(V < 35%), atunci populatia studiata statistic este omogena si media x este reprezentativa
pentru aceasta populatie. Daca V este aproape de 100% (V > 75%), atunci populatia
studiata statistic este eterogena si media x nu este reprezentativa. De cele mai multe
ori n asemenea cazuri este necesara separarea populatiei statistice n mai multe grupe
omogene, care se studiaza separat.
24
8 Parametrii si statistici factoriali ai variantei
In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factoriali
ai variantei:
Definitia 8.1. Pentru o grupa de m date x1 , x2 , ..., xm , varianta de grupa este definita
cu formula: m
X
(xi xj )2 nij
i=1
s2j = m
X
nij
i=1
n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avand
frecventele nij
Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai mari
sau mai mici n functie de eterogenitatea grupei.
m
X
n care k este numarul de grupe, nj = nij este numarul de date din grupa.
i=1
Definitia 8.3. Varianta mediilor de grupa fata de media generala este prin
definitie:
Xk
(xj x)2 nj
j=1
2 = k
X
nj
j=1
25
9 Parametrii si statistici ale pozitiei
Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date n raport
cu celelalte date.
Definitia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupe
egale. Constanta q se numeste ordinul quantilei.
Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numerica cu
proprietatea ca k% din date are valori mai mici decat Pk , iar (100 k)% din date au
valori mai mari decat Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:
26
Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana x
n unitati de deviatie standard:
xx
z=
s
27
10 Seria de distributie a statisticilor
de esantioane
Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizam
statisticile de esantioane. Media x n cazul unui esantion nu este neaparat egala cu media
a populatiei. Suntem nsa multumiti daca media x este apropiata de . Daca se considera
media x0 n cazul unui al doilea esantion aceasta poate sa fie diferita de x si de . Ceea ce
putem spera este ca aceasta sa fie apropiata de valoarea si de x. Valabilitatea acestui
tip de comportament intereseaza pentru orice populatie si orice statistica.
Intrebarea care se naste n mod natural este ce nseamna aproape? Cum se masoara si se
determina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?
Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria de
distributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.
Tipul de statistica poate fi oricare din statisticile prezentate n sectiunile 6 si 7.
Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtine
urmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formam
esantioane de marime 2 de la care putem avea urmatoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste esantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria de
distributie a mediilor acestor esantioane este:
x f 0 (x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04
unde f 0 (x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioanelor
este:
28
Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor R
a acestor esantioane.
Plajele R ale esantioanelor sunt date n tabelul urmator:
0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0
R f 0 (R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08
29
Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statistice
care se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.
Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are media
x. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-un
tabel reprezentam rezultatele precum si mediile corespunzatoare:
30
Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; este
maxim si este simetric fata de media proprie 3.5.
31
11 Teorema limita centrala
32
Consideram o populatie pentru care seria de distributie de date statistice cu frecvente
relative n cazul variabilei X este:
2 4 6
X:
1/3 1/3 1/3
Media si deviatia standard pentru aceasta variabila sunt:
v 3 !2
3 u 3
X uX X
= xj f 0xj =t x2j f 0xj xj f 0xj
j=1 j=1 j=1
12
= =4 = 1, 63
3
In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Esantioanele au urmatoarele medii:
2 3 4
3 4 5
4 5 6
Esantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6
1
Esantioanele fiind aleatoare fiecare esantion are probabilitatea sa fie ales si seria de
9
distributie a mediilor esantioanelor este:
2 3 4 5 6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distributie a mediilor esantioanelor x este x = 36/9 = 4, 0. Prin urmare
= x , iar deviatia standard a repartitiilor mediilor esantioanelor este:
v 5 !2 s
u 5 2
uX X 156 36
x = t 2 0
xj f xj 0
xj f x j = = 1, 15
j=1 j=1
9 9
1, 63 1, 63
= = = 1, 15 = x
n 2 1, 44
Reprezentand seria de distributie a mediilor esantioanelor obtinem:
33
Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.
34
12 O aplicatie a teoremei limita centrala
Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esan-
tioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).
Ea stabileste relatia dintre media a populatiei si media x a seriei de distributie a
mediilor tuturor esantioanelor si relatia dintre deviatia standard a populatiei si deviatia
standard x a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributie
a mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintre
media populatiei si media unui esantion.
Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medie
= 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copii
se determina media x. Care este probabilitatea ca aceasta medie sa fie ntre 90 cm si 110
cm?
Solutie:
10
P (90 < x < 110) = 2 1 = 2 (4) 1 = 2 F (4) = 2 0.499968
x
35
13 Estimarea punctuala a unui parametru; intervalul
de ncredere
Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta
a populatiei, aceasta nu nseamna ca x = . In general, x 6= si la ceea ce ne putem
astepta este ca x sa fie aproape de . Aceasta apropiere poate fi fixata prin specificarea
unui interval (centrat n ) numit interval de estimare.
Definitia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumit
parametru a populatiei se numeste interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din esantion care este folosit pentru estimare.
Cum anume se poate specifica un interval centrat n care este necunoscut folosind doar
date furnizate de un esantion va fi lamurit n continuare.
sa verifice:
1 1 n n
z ( , ) = ( , )
n
n
Astfel
n termenii
scorului standard intervalul de estimare este intervalul (a, b) cu a =
n n
si b = .
Mai general conditia x ( , + ), nseamna ca scorul standard z (pentru mediile
esantioanelor) dat de:
x x x
z= =
x
n
sa verifice:
n n
z ( , )
n n
Intervalul de estimare este ( , ).
Definitia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionului
sa aibe valoarea n afara intervalului de estimare.
36
Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normala
si avem:
n n
P ( 1 < x < + 1) = P <z< =
n n
2P 0<z < =2F
Zz 1 2
1 t
unde F (z) = e 2 dt.
2
0
n
Deci nivelul de nencredere este 1 2 F .
Definitia 13.4. Nivelul de ncredere (coeficient de ncredere) 1 este probabilitatea
ca statistica esantionului sa se afle n intervalul de estimare ales.
37
14 Generalitati privind ipotezele statistice si proble-
ma verificarii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii n privinta credibilitatii unei
asertiuni (numita verificarea ipotezelor statistice) sa consideram urmatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zece
ntrebari. Fiecare ntrebare are cinci raspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul si din cele zece ntrebari el a raspuns corect la sapte. El
sustine ca a completat formularul fara sa citeasca ntrebarile si raspunsurile la ele si a
marcat raspunsurile aleator.
Intrebarea este n ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?
O asemenea ntrebare ne determina sa analizam si sa hotaram: este sau nu este rezona-
bil ca Popescu Nicolae sa obtina sapte raspunsuri corecte alegand aleator raspunsurile la
ntrebari? Descriem n cele ce urmeaza o analiza, care se numeste verificarea ipotezelor
statistice si care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentata si ilustrata n cazul exemplului considerat.
1
H0 : p(X) = = p pentru orice Popescu Nicolae a completat
510
element X al populatiei formularul aleator.
38
Ipoteza alternativa este:
De la acest punct ncepand se admite ca ipoteza nula este adevarata. Situatia poate fi
comparata cu un proces la judecatorie, n care acuzatul este presupus nevinovat pana
cand se dovedeste contrariul.
Doar n etapa a 5-a a verificarii ipotezelor, vom lua una din cele doua decizii posibile:
vom decide n concordanta cu ipoteza nula H0 si spunem ca acceptam H0 sau decidem n
concordanta cu Ha si spunem ca respingem ipoteza H0 .
In functie de valoarea de adevar a ipotezei H0 si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate n tabelul urmator:
Ar fi foarte frumos ca de fiecare data cand luam decizii sa luam decizii corecte, dar aceasta
este statistic imposibil pentru ca ne bazam pe informatii furnizate de esantioane. Cel mai
bun lucru la ce putem spera este sa controlam riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu si cea asignata
comiterii unei erori de tip II cu :
39
In cazul exemplului considerat, variabila aleatoare X= numarul de raspunsuri corecte
este folosit ca test statistic. Probabilitatile pentru fiecare valoare x ale variabilei X n
ipoteza ca H0 este adevarata sunt date n tabelul urmator:
X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.92104 7.38105 4.098106 1.02107
Aceasta repartitie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multe
ntrebari este 0.0327, iar la 4 sau mai putin decat 4 ntrebari este 0.9673. Putem spune
ca aparitia valorilor 5, 6, 7, 8, 9, 10 nu sustine ipoteza H0 . Daca cineva spune ca a ghicit
raspunsul corect la 0, 1, 2, 3, 4 ntrebari, spunem ca este foarte probabil. Daca cineva spune
ca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ntrebari spunem ca este putin probabil.
Nivelul de semnificatie este probabilitatea de a face o eroare de tip I, adica de a
respinge H0 adevarat. In mod curent se da la nceput si acesta determina regiunea
critica. In cazul exemplului, daca = 0.033, atunci din P (x 5) = 0.0327 rezulta
regiunea critica x = 5, 6, 7, 8, 9, 10.
Regiunea critica: este multimea de valori (W ) pentru care P (X W ) si care ne
determina sa respingem ipoteza H0 . (nu sustin ipoteza H0 )
Valoarea critica: este prima valoare din regiunea critica.
Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipoteza
H0 este respinsa.
Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.
40
15 Verificarea ipotezelor statistice:
varianta clasica
Cele de mai sus sugereaza ca afirmatia = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatia
> 4, 9/106 ar trebui sa fie ipoteza alternativa:
H0 : = 4, 9/106
Ha : > 4, 9/106
41
distributiei mediilor esantioanelor x si este o ratiune n plus pentru care ipoteza H0
trebuie scrisa doar cu semnul egal
H0 : = 4, 9/106 .
Daca admitem ca afirmatia = 4, 9/106 sau < 4, 9/106 este ipoteza nula H0 , atunci:
H0 : 4, 9/106
Ha : > 4, 9/106 .
Remarca 15.1. Semnul egal trebuie sa fie inclus totdeauna n ipoteza nula. In acest
exemplu asertiunea ecologistului este exprimata de fapt n Ha si aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua asertiune; de exemplu al Camerei de
Comert, care sustine ca nivelul mediu al monoxidului de carbon n centrul orasului
Timisoara este mai mic decat 4, 9/106 (valoare normala). Aceasta este o reclama buna
pentru turism.
< 4, 9/106 valoarea medie este mai mica decat valoarea medie normala
4, 9/106 valoarea medie este mai mare sau egala decat valoarea
medie normala
Cele trei exemple arata ca asertiunea care trebuie analizata determina ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: n aceste cazuri asertiunea sustine ca valoarea
parametrului este diferita de cea normala, iar ipoteza nula sustine ca este aceeasi (nu
difera).
In cazul acestor exemple, cei care si formuleaza asertiunea se asteapta la respingerea
ipotezei nule H0 si la acceptarea ipotezei alternative Ha care este o afirmatie conforma cu
asertiunea lor.
Situatiile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Daca
procurorul nu crede n vinovatia inculpatului nu intenteaza proces (ipoteza H0 prezumtia
de nevinovatie este presupusa adevarata). Procesul se declanseaza doar daca procurorul
are suficiente probe pentru a face proces.
42
Si n statistica daca experimantatorul crede n ipoteza H0 nu face test pentru investi-
garea lui H0 . El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.
Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statistice
n cazul unei asertiuni care se refera la media unei populatii.
Exemplul 15.4. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pe
care-i nvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)
si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea este
daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profe-
sorului la nivelul de semnificatie = 0, 05.
Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai mare
decat toate clasele dinainte. Daca media ei este egala sau mai mica decat media unei
clase anterioare, atunci ea nu este superioara.
Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu media
= 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.
De aceea:
Figura 1:
43
Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este su-
perior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 a
fost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica
Z t2
1
1, 65 este solutia ecuatiei: e 2 dt = 0, 05.
2
z
Figura 2:
Exemplul 15.5. La un colegiu s-a stabilit ca greutatea medie a studentelor este = 54, 4
kg, iar abaterea standard = 5, 4 kg. Profesorul de sport nu crede aceasta afirmatie.
Pentru a face un test selectioneaza un esantion aleator de 100 de studente si gaseste ca
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmatia la nivelul de
semnificatie = 0, 05?
Etapa 1. H0 : = 54, 4 kg
Etapa 2. Ha : 6= 54, 4 kg
44
Etapa 3. - deoarece folosim o distributie de medii de esantioane testul statistic
va fi scorul standard.
Figura 3:
45
Figura 4:
Reamintim: Daca valoarea testului statistic este n regiunea critica respingem ipoteza
H0 daca nu, nu putem respinge ipoteza H0 .
3. Pentru multe cazuri semnul din ipoteza Ha indica directia n care regiunea critica
se gaseste
46
daca ipoteza H0 este adevarata sau falsa. Putem doar decide ca o respingem
sau ca o acceptam.
Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cu
care facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.
47
16 Verificarea ipotezelor statistice:
varianta probabilista
Definitia 16.1. P-valoarea unui test statistic este cea mai mica valoare a nivelului
de semnificatie pentru care informatia extrasa din esantion este semnificativa (H0
adevarata se respinge).
Consideram din nou exemplul 15.4 din sectiunea precedenta si-l analizam din acest punct
de vedere.
Exemplul 16.1. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si dispersia = 12. Clasa de 36 de elevi pe care-i nvata
la momentul actual are o medie x = 75, 2 . Aceasta medie fiind mai ridicata decat 72
profesorul vrea sa arate ca aceasta clasa este superioara celor de pana acum. Intrebarea
este daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia
profesorului la nivelul de semnificatie = 0, 05?
Precizam ca pentru a putea sustine ca actuala clasa este mai buna decat toate celelalte
clase anterioare trebuie ca media clasei actuale sa fie mai mare decat media oricarei clase
dinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,
atunci clasa actuala nu este mai buna decat toate celelalte.
48
Etapa 5. Se reprezinta distributia normala a mediilor (testul statistic) n acest
caz si se localizeaza valoarea z determinata n Etapa 4 (care mparte
distributia n doua parti) si se determina care parte a distributiei
reprezinta pvaloarea.
Dupa care se determina pvaloarea. Ipoteza alternativa Ha arata ca n
cazul nostru:
Figura 5:
Cazul 1. Daca Ha este unilaterala la dreapta ( > ) atunci p = P (z > z ) si aria este
n dreapta lui z .
Cazul 2. Daca Ha este unilaterala stanga ( < ), atunci p = P (z < z ) este aria din
stanga lui z .
Cazul 3. Daca Ha este bilaterala ( 6= ), atunci p = P (z < |z |) + P (z > |z |) =
2 P (z > |z |)
49
5. Decizia se ia comparand P -valoarea cu nivelul de semnificatie :
Exemplul 16.2. Companii mari folosesc agentii specializate pentru a testa candidatii
care doresc sa fie angajati. Agentia A foloseste un test de selectie pentru care n decursul
timpului s-a stabilit o medie de 82 si o deviatie standard de 8. Agentia B a dezvoltat
o noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai putin.
Agentia B sustine ca testul lor da aceleasi rezultate ca si testul agentiei A.
Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agentia A la
agentia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de cea
cu teste A. O agentie independenta C a testat cu noul test 36 de indivizi si a obtinut o
medie de 80.
Care este pvaloarea asociata acestui test?
Rezultatul testului agentiei B este acelasi daca = 82 si este diferit daca 6= 82. Prin
urmare:
Etapa 3. Este omisa daca se cere p-valoarea fara luarea unei decizii.
50
Figura 6:
51
17 Inferenta statistica privind media populatiei daca
nu se cunoaste abaterea standard a populatiei
Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:
evaluarea intervalului de ncredere si verificarea ipotezelor statistice. In cele doua
tipuri de inferente statistice abaterea standard este considerata cunoscuta. In general
nsa abaterea standard nu este cunoscuta. Subiectul acestei sectiuni este inferenta
statistica privind media daca abaterea standard nu este cunoscuta.
Daca dimensiunea esantionului este suficient de mare (n general vorbind, esantioane
a caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),
deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei si
putem susbstitui cu s n procedura discutata deja. Daca populatia pe care o investigam
este aproape normala si n 30, atunci procedeul se bazeaza pe distributia Student t.
Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:
x
t=
s
n
4) distributia t n jurul mediei este sub si departe de medie este deasupra distributiei
normale;
52
Figura 7:
0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015
53
0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
Figura 8:
54
Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate n stanga mediei se obtin cu formula: t(df, ),
tinand seama de simetria distributiei t.
Figura 9:
Figura 10:
Etapa 1. H0 : = 4, 9/106
55
Etapa 3. = 0, 05; df = 25 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.
Etapa 4.
x 5, 1 4, 9 0, 20
t = s = 2, 1/25 = 0, 42 = 0, 476 ' 0, 48
n
Etapa 5. Decizia: Nu putem respinge H0 (t nu este n regiunea critica).
Concluzie: Nu avem suficiente argumente pentru ca sa respingem
ipoteza ca nivelul monoxidului de carbon este 4, 96/106 .
Figura 11:
Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoarea
critica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)
si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat contine doar
valorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel n cazul verificarii
ipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate fi
nsa estimata folosind tabelul.
56
Figura 12:
Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:
Figura 13:
Solutie: p = P (t < 1, 84) + P (t > 1, 84) = 2 P (t > 1, 84). Randul df = 15 din tabel
arata ca P (t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populatiei poate fi estimata daca este necunoscut de o maniera similara cu cazul
cunoscut. Diferenta este ca se foloseste distributia t n loc de distributia z si deviatia
standard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:
s s
x t(df, ) , x + t(df, )
2 n 2 n
57
Figura 14:
unde df = n 1.
Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii lor
este 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% media
greutatii noilor nascuti.
s 0, 9
x t(19; 0, 025) = 3, 4 2, 09
n 20
0, 9
3, 4 2, 09 = 3, 4 0, 46
4, 472
Intervalul de ncredere de 95% este (2, 94; 3, 86).
58
18 Inferenta relativa la varianta si estimarea variantei
Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, o
companie de produse racoritoare are o masina de mbuteliat, care umple cu racoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusa n fiecare butelie este importanta, dar
cantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,
vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.
De aceea, compania doreste sa controleze varianta 2 a cantitatii x de racoritoare pusa n
fiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.
Vom prezenta n aceasta sectiune o inferenta privind varianta unei populatii. Adesea n
cazul acestei inferente se vorbeste despre deviatia standard n loc de varianta. Trebuie sa
subliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi despre
varianta este comparabil cu a vorbi despre deviatie standard.
Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceasta
companie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa n fiecare
butelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila si
compania va regla masina de mbuteliat daca varianta devine mai mare decat aceasta
valoare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este ca
varianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul 2 .
Valoarea calculata a lui 2 se va obtine folosind formula:
n s2
2 =
2
unde s2 este varianta esantionului, n este marimea esantionului, iar 2 este valoarea
specificata n ipoteza nula.
Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta 2 , atunci
cantitatea ns2 / 2 are o distributie care se numeste distributia 2 . Formula care defineste
distributia 2 nu o vom da aici, dar pentru a folosi distributia 2 , prezentam urmatoarele
proprietati ale acesteia:
59
df/ 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0
60
Figura 15:
Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata sub
curba n dreapta valorii critice. Astfel 2 (df, ) este simbolul folosit pentru identificarea
valorii critice 2 cu df grade de libertate si cu aria sub grafic si n dreapta, asa cum
este prezentat pe figura urmatoare:
Figura 16:
Remarca 18.1. Daca df > 2 valoarea medie a lui 2 este df . Valoarea medie este
localizata n dreapta modului (locul n care curba atinge valoarea maxima).
61
Figura 17:
Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controleze
varianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010
indica oare la nivelul de semnificatie 0, 05 ca procesul de mbuteliere nu este sub control
(referitor la varianta)?
Solutie:
Etapa 1. H0 : 2 = 0, 0004 (procesul este sub control)
Figura 18:
62
Concluzia: Procesul de mbuteliere este sub control n ceea ce priveste varianta.
Exemplul 18.3. Specificatiile unui anumit medicament indica ca fiecare comprimat
trebuie sa contina 2,5 g de substanta activa. 100 de comprimate alese la ntamplare
din productie sunt analizate. Ele contin n media 2,6 g de substanta activa cu o deviatia
standard de s = 0, 4g.
Se poate spune ca medicamentul respecta specificatiile ( = 0, 05)?
H0 : = 2, 5
Etapa 2. Ipoteza Ha este ca medicamentul nu respecta specificatiile:
H0 : 6= 2, 5
Etapa 3. Statistica folosita este media x, iar nivelul de semnificatie este = 0, 05.
Regiunea critica este:
Etapa 4. Testul statistic este:
x 2, 6 2, 5 0, 1
z= s = = = 2, 5
0, 4 0, 04
n 10
Valoarea lui z n tabel este: z0,975 = 1, 96 < 2, 5.
Etapa 5. Ipoteza H0 este respinsa, asadar nu putem spune ca medicamentul
respecta specificatiile.
Abordarea probabilista a inferentei statistice asupra variantei, p-valoarea poate fi estimata
pentru verificarea ipotezelor statistice folosind tabelul statistic 2 de aceeasi maniera ca
si n cazul testului Student.
Exemplul 18.4. Sa se determine p-valoarea n cazul urmatoarelor ipoteze statistice:
H0 : 2 = 150
Ha : 2 > 150
Se cunosc: df = 18 si 2 = 32, 7.
Solutie: p = P (2 > 32, 7) (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit n determinarea utilitatii unui examen ca masura
a abilitatii studentilor este mprastierea rezultatelor. Un set de rezultate al unui test
are valoare mica daca plaja notelor este mica. Din contra daca plaja notelor este mare,
este o diferenta mare ntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretins
ca o deviatie standard de 12 puncte este de dorit. Pentru a vedea daca un anume test
de o ora a fost sau nu un test bun din acest punct de vedere un profesor verifica aceasta
ipoteza statistica la nivelul de semnificatie = 0, 05 folosind rezultatele obtinute de clasa.
Au fost 28 de rezultate si deviatia standard gasita a fost 10, 5. Constituie aceasta o proba
la nivelul de semnificatie = 0, 05 ca examenul nu are deviatia standard specificata?
63
Etapa 2. H0 : 6= 12
64
19 Generalitati despre corelatie.
Corelatie liniara
In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem doua
seturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntre
cele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cum
sunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului unei
variabile n functie de comportamentul celeilalte. Iata cateva exemple:
Exemplul 19.1.
Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.
In cazul n care pentru o populatie avem doua seturi de date corespunzatoare la doua
variabile distincte se formeaza perechile de date (x, y), n care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile. De exemplu, x este natimea si y este
greutatea.
O pereche ordonata de date (x, y) se numeste data bidimensionala.
In mod traditional, variabila X (avand valorile x) se numeste variabila de intrare
(variabila independenta), iar variabila Y (avand valorile y) se numeste variabila de
iesire (variabila dependenta).
Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .
In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicament
prescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.
Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .
In cazul naltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat si
variabila de iesire. Rezultatele analizei vor fi nsa functie de alegerea facuta.
In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului se
prezinta sub forma unei diagrame de mprastiere.
65
Exemplul 19.2. Pentru un esantion de 15 studenti urmatorul tabel de date reprezinta
numarul de ore de studiu x pentru un examen si nota y obtinuta la acel examen:
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9
este:
Analiza de corelatie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.
Vom prezenta cateva diagrame de mprastiere pentru a ilustra corelatii posibile dintre
variabila de intrare X si variabila de iesire Y .
Definitia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y , atunci zicem ca nu avem
corelatie sau ca nu exista legatura ntre X si Y .
66
Diagrama de mprastiere n cazul n care nu avem corelatie este urmatoarea:
Definitia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y zicem ca avem o corelatie.
Zicem ca avem o corelatie pozitiva daca y tinde sa creasca si avem o corelatie
negativa daca y tinde sa descreasca odata cu cresterea lui x.
Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelatia.
Diagramele de mprastiere care urmeaza ilustreaza aceste idei:
67
Figura 20: Diagrama de mprastiere n cazul unei corelatii pozitive stranse
Definitia 19.4. Daca perechile (x, y) tind sa urmeze o dreapta zicem ca avem o corelatie
liniara.
Definitia 19.5. Daca toate perechile (x, y) se gasesc pe o dreapta (care nu este nici
orizontala nici verticala) atunci zicem ca avem o corelatie liniara perfecta.
68
Figura 23: Diagrama de mprastiere n cazul unei corelatii pozitive liniare perfecte
Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticala
nu exista corelatie intre cele doua variabile. Aceasta ntrucat schimbarea uneia nu
afecteaza valoarea celeilalte variabile.
Remarca 19.2. Diagramele de mprastiere nu sunt totdeauna de genul celor prezentate
pana acum si sugereaza corelatii care sunt de alta natura.
Daca pentru x crescand rezulta o crestere generala a valorilor lui y, atunci r indica o
corelatie liniara pozitiva.
De exemplu, n cazul copiilor daca x este varsta si y este naltimea, atunci ne asteptam ca
r sa fie pozitiv, pentru ca n mod natural, natimea copilului creste o data cu varsta. In
69
cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne asteptam
ca r sa fie negativ pentru ca n mod uzual valoarea automobilului descreste cu varsta lui.
Definitia 19.7. Coeficientul de corelatie liniara r n cazul unui esantion este prin
definitie: P
(x x) (y y)
r=
n sx sy
n care sx , sy sunt deviatiile standard ale variabilelor x, y, iar n este numarul de perechi
(x, y).
SS(x, y)
r=p
SS(x) SS(Y )
P 2 1 X 2 P 2 1 X 2
unde: SS(x) = x x , SS(y) = y y , SS(x, y) =
X X n n
P 1
xy x y .
n
Exemplul 19.4. Sa se determine coeficientul de corelatie liniara r n cazul unui esantion
aleator de marime 10, daca tabelul de date este:
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
de unde gasim:
919, 0
r=p = 0, 8394 0, 84.
(1396, 9) (858, 0)
Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelatie
liniara.
Daca valoarea calculata r este aproape de +1 sau 1, atunci banuim ca ntre cele doua
variabile exista corelatie liniara.
Intre 0 si 1 exista o valoare numita punct de decizie care indica daca exista sau nu exista
corelatie liniara. Un punct simetric exista si ntre 1 si 0. Valoarea punctului de decizie
depinde de marimea esantionului.
In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi de
esantionare cuprinse ntre 5 si 100.
70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelatie liniara
Daca r se gaseste ntre punctul de decizie negativ si cel pozitiv nu avem argumente ca sa
sustinem ca ntre cele doua variabile exista o corelatie liniara.
Daca r este mai mare decat punctul de decizie pozitiv sau mai mic decat punctul de
decizie negativ atunci ntre cele doua variabile exista o corelatie liniara.
Existenta unei corelatii ntre cele doua variabile nu nseamna ca exista o relatie
cauza efect. Astfel, de exemplu, daca X este alocatia pentru copii n ultimii 10 ani si
Y este consumul de bauturi alcoolice n ultimii 10 ani, un esantion de aceste date arata
o corelatie pozitiva stransa fara ca alocatia pentru copii sa fie cauza vanzarii bauturilor
alcoolice sau viceversa.
71
b) Se determina lungimea D a diametrului maxim:
d
d) Valoarea r se estimeaza cu 1 , n care semnul se alege n functie de
D
orientarea diametrului D:
Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la mprastiere.
Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valori
a lui Y aproximatia este utila.
72
20 Analiza de corelatie liniara
In sectiunea 20 am vazut care este formula coeficientului de corelatie liniara r ntre doua
variabile X, Y menit sa masoare cat de stransa este relatia de dependenta liniara dintre
cele doua variabile.
In cele ce urmeaza vom prezenta o analiza mai amanuntita a acestei formule. Consideram
pentru ilustratie urmatorul set de date bidimensionale:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
73
Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se mparte n patru submultimi. Fiecare data (x, y) se gaseste la o anumita distanta
de aceste linii; x x este distanta cu semn de la (x, y) la paralela la axa Oy si y y
este distanta cu semn de la (x, y) la paralela Ox. distantele cu semn sunt pozitive sau
negative n functie de pozitia lui (x, y) fata de (x, y).
x 20 30 60 80 110 120
y 10 50 30 20 60 10
Covarianta n cazul acestui tabel de date este 60, dar aceasta nu nseamna nicidecum ca
relatia de dependenta liniara ntre X, Y este mai stransa. Relatia de dependenta liniara
74
este aceeasi si doar datele sunt mai mprastiate. Aceasta este problema cu covarianta
atunci cand vrem sa masuram cu ajutorul ei dependenta liniara ntre doua variabile.
Trebuie sa gasim o cale de eliminare a efectului mprastierii datelor atunci cand masuram
dependenta.
Daca standardizam X si Y mpartind deviatia fiecareia de la media sa cu deviatia
standard:
xx yy
x0 = si y 0 =
sx sy
si calculam covarianta lui X 0 si Y 0 , vom avea o covarianta care nu mai este influentata de
mprastierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelatie liniar r. Astfel coeficientul de corelatie liniar este:
covar(X, Y )
r = covar(X 0 , Y 0 ) =
sx sy
SS(X, Y )
r=p
SS(X) SS(Y )
Aceasta din urma formula evita calculul separat al lui x, y, sx , sy precum si calculul
deviatiilor de la medie.
75
21 Inferenta privind coeficientul de corelatie liniara
Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea tes-
tului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasesc
n urmatorul tabel la intersectia coloanei corespunzatoare valorii lui si a liniei core-
spunzatoare gradului de libertate df = n 2:
76
Valorile critice pentru r daca = 0
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui este dublul valorii lui ce se foloseste n verifi-
carea ipotezelor statistice.
Neacceptarea ipotezei nule nseamna ca exista o proba a dependentei dintre cele doua
variabile ale populatiei
Mentiune: Aceasta nu nseamna ca am stabilit o relatie de tip cauza efect ci
doar o relatie matematica care permite sa se prezica comportamentul variabilei
77
de iesire Y din comportamentul variabilei de intrare X.
x 2 3 6 8 11 12
y 1 5 3 2 6 1
avem n = 6, iar r = 0, 07. Intrebarea este daca aceasta valoare a lui r difera de zero n
mod semnificativ daca nivelul de semnificatie este = 0, 02?
Etapa 1. H0 : = 0
Etapa 2. H0 : 6= 0
Etapa 5. Se accepta H0 .
Exemplul 21.2. Pentru un esantion de 15 perechi de date o valoare calculata a lui r este
r = 0, 35. Sa se determine intervalul de ncredere 95% pentru coeficientul de corelatie
liniar a populatiei?
78
2) Se determina intersectia liniei verticale cu centurile corespunzatoare marimii
esantionului (aceasta fiind 15) si se obtin doua puncte pe linia verticala.
79
22 Regresie liniara
Daca valoarea coeficientului de corelatie liniara r indica o corelatie liniara stransa atunci se
pune problema stabilirii unei relatii numerice exacte. Aceasta relatie exacta este obtinuta
prin regresie liniara.
In general statisticianul cauta o ecuatie care exprima relatia dintre doua variabile. Ecuatia
aleasa este cea mai buna fitare a diagramei de dispersie. Ecuatiile gasite se numesc ecuatii
de predictie, iar n continuare sunt prezentate cateva asemenea ecuatii:
y = b0 + b1 x - liniara
y = a + b x + c x2 - patratica
y = a bx - exponentiala
y = a logb x - logaritmica.
Obiectivul final este ca folosind ecuatii sa se faca predictii. In general valoarea exacta a
variabilei Y nu este prezisa. Ne multumim daca predictia este suficient de apropiata.
Definitia 22.1. Regresia liniara stabileste dependenta liniara n medie a lui y n functie
de x.
Vom descrie n continuare cum se stabileste cea mai buna dependenta liniara pentru un
set de date (x, y).
Daca relatia de dependenta liniara pare potrivita, cea mai buna relatie liniara se stabileste
cu metoda celor mai mici patrate.
Sa presupunem ca y = b0 + b1 x este cea P mai buna relatie liniara. Metoda celor mai mici
patrate cere ca b0 si b1 sa fie astfel ncat (y y)2 sa fie minima.
Din teorema lui Fermat rezulta ca valorile minime ale functiei:
X
F (b0 , b1 ) = (y b0 b1 x)2
se obtin pentru
P
(x x) (y y) 1 X X
b1 = P , b0 = y b1 x
(x x)2 n
b1 este panta dreptei, iar b0 este ordonata la origine.
Pentru determinarea pantei b1 de obicei se foloseste formula echivalenta:
SS(x, y)
b1 =
SS(x)
P 1 X 2 P 1 X X
unde: SS(x) = x2 x si SS(x, y) = xy x y .
n n
Mentionam aici ca expresiile SS(x, y) si SS(x) apar si n formula de calcul al coeficientului
de corelatie liniara. De aceea n momentul calcularii lui r putem afla si valoarea pantei
b1 .
80
Exemplul 22.1. In cazul unui esantion de 10 indivizi consideram urmatorul set de date.
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
y = 14, 9 + 0, 66 x
Remarca 22.1.
c) Cea mai buna relatie liniara este o dreapta ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci cand se traseaza graficul celei
mai bune relatii liniare.
Exemplul 22.2. In cazul unui esantion aleator de 8 indivizi consideram urmatorul tabel
de date
x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130
81
Pentru a gasi cea mai buna relatie de dependenta liniara calculam SS(x, y) si SS(x) si
gasim:
SS(x, y) = 230, 0 si SS(x) = 48, 875
De aici avem:
230, 0
b1 = = 4, 706 4, 71.
48, 875
1 hX X i
b0 = y b1 x = 186, 478 186, 5
n
de unde:
y = 186, 5 + 4, 71 x
Remarca 22.2. O estimare grosiera a celei mai bune relatii de dependenta liniara se
poate face n felul urmator:
- se scrie ecuatia de dependenta liniara ca ecuatia unei drepte ce trece prin doua
puncte de pe acest diametru;
- ca si n cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita ca
atare.
82
23 Analiza de regresie liniara
Modelul liniar folosit pentru a explica dependenta liniara a doua variabile referitoare la
aceeasi populatie este definit de ecuatia:
y = 0 + 1 x +
Aceasta ecuatie reprezinta relatia liniara dintre doua variabile x si y ntr-o populatie. In
aceasta relatie:
- 0 este ordonata la origine;
- 1 este panta;
- y este valoarea observata la o valoare data a lui x;
- 0 + x este media lui y pentru valoarea data a lui x
Remarcam ca eroarea depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = 0 + 1 xi + i , i = 1, 2, . . . , n
- este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezinta
deviatia valorii observate y de la medie.
Dreapta de regresie liniara obtinuta y = b0 + b1 x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne da b0 care este o estimare pentru 0 si b1 care este o estimare pentru 1 . Atunci vom
putea scrie yi = b0 + b xi + ei . Erorile sunt estimate prin yi yi care este diferenta
dintre valoarea observata yi si valoarea prezisa yi a lui y la o valoare data a lui x. Fiindca
yi = b0 + b1 xi avem ca:
ei = yi yi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmatoarele proprietati:
e > 0 y > y;
e < 0 y < y;
pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinta a metodei celor mai mici patrate; si astfel media erorilor
Xn
experimentale este zero: ei = 0.
i=1
83
Daca pentru o valoare data x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala n x pe axa Ox.
O distributie similara apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x si se estimeaza cu y.
Altfel spus, deviatia standard a distributiei datelor y de la medie este aceeasi pentru orice
x:
84
Reamintim ca varianta s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definita cu
formula: n
1X
s2 = (xi x)2
n i=1
Determinarea variantei setului de date y introduce o complicatie pentru ca media datelor
y difera de la un x la altul. Pentru fiecare x media este estimata prin valoarea prezisa y ce
corespunde la x prin dreapta de regresie. Astfel varianta erorii se estimeaza cu formula:
n
1X
s2 = (yi yi )2
n i=1
care arata ca varianta erorii este varianta variabilei y n jurul dreptei de regresie.
Varianta erorii s2 poate fi scrisa sub forma:
1X 1 hX 2 X i
s2 = (y b0 b1 xi )2 = yi b0 y b 1 xi y i
n n
si este o estimare a lui 2
Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companie
doreste sa stie n cat timp poate sa ajunga dimineata cu masina de la locuinta la locul de
munca. Pentru a gasi un raspuns la aceasta ntrebare el ntreaba un numar de 15 colegi la
ce distanta stau de locul de munca si n cat timp ajung la serviciu si ntocmeste urmatorul
tabel de date statistice:
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distanta
(n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45
86
24 Inferenta referitoare la panta unei drepte de re-
gresie liniara
Dupa ce ecuatia dreptei de regresie liniara a fost determinata ne ntrebam cand putem
folosi aceasta ecuatie pentru a prezice valorile variabilei y n functie de x?
Raspunsul la ntrebare l vom da parcurgand procedeul de verificare a ipotezelor statistice.
Inainte de a face inferenta privind dreapta de regresie facem urmatoarele ipoteze:
Inainte sa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sa analizam distributia pantelor ce se obtin pentru esantioane aleatoare de
marime n. Aceste pante b1 au o distributie aproape normala avand media 1 panta n
cazul populatiei si varianta b21 data de:
2
b21 =P
(x x)2
Un estimator adecvat s2b1 a lui b21 se obtine prin nlocuirea lui 2 cu s2e :
s2e
s2b1 = P
(x x)2
Aceasta formula poate fi scrisa sub forma:
s2e s2e
s2b1 = =P P
SS(x) x ( x)2 /n
87
s2e
Etapa 4. Avand n vedere egalitatea s2b1 = n cazul exemplului considerat
SS(X)
gasim ca valoarea testului statistic este:
b1 1 1, 89 0
t = = = 6, 629 6, 63
sb1 0, 0813
Etapa 5. Decizie: ipoteza H0 se respinge pentru ca t este n regiunea critica.
Concluzie: Panta dreptei de cea mai buna aproximatie este mai mare
ca zero. Probele statistice arata ca exista o relatie liniara ntre distanta
locuinta-serviciu si perioada de timp necesara pentru a ajunge cu masina
la serviciu si aceasta perioada de timp este predictibila.
Panta 1 a dreptei de regresie liniara a populatiei poate fi estimata cu ajutorul inter-
valului de ncredere. Capetele acestui interval de ncredere sunt date de formula:
b1 t(n 2; ) sb1
2
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicatii, Editura All, 1995,
Bucuresti
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lectii de statistica descrip-
tiva, Universitatea de Vest, 1998, Timisoara
[6] Yule G. Udny, Kendall, M.G., Introducere n teoria statisticii, Editura Stiintifica,
1969, Bucuresti
89