Sei sulla pagina 1di 17

Problema 1.

Un analist dorete s studieze legtura dintre cheltuielile pentru promovarea produselor i nivelul
vnzrilor realizate. n acest scop el sistematizeaz date pentru 15 mrfuri alimentare privind
cheltuielile lunare cu promovarea produsului (mii lei) i ncasrile lunare realizate (mii lei):
Nr. crt.
Cheltuieli promovare
(mii lei)
ncasri lunare
(mii lei)
1 20,0 2190
2 14,8 1900
3 20,5 1990
4 12,5 1210
5 18,0 1500
6 14,3 1980
7 24,9 3340
8 16,5 1880
9 24,3 3100
10 20,2 2130
11 22,0 2880
12 19,0 3120
13 12,3 1860
14 14,0 1730
15 16,7 1740

a) Analiza legaturii pe baza metodei grafice:
Pentru analiza de regresie liniar simpl vom construi corelograma:

Figura 4.8 Distribuia ncasrilor n funcie de cheltuieli
Analiznd corelograma remarcm c ntre cele dou variabile exist o legtur liniar direct ce
poate fi descris printr-o ecuaie de forma:
y
i
= a + bx
i
+ e
i

b) Determinam modelul de regresie liniara in esantion.
Calculele necesre estimrii parametrilor ecuaiei de regresie sunt redate n tabelul urmtor:
Tabelul 4.2
Nr.
crt.
Chelt.
(X)
ncas.
(Y)
2
x
2
y xy y
)

y y
)

2
) y y (
)

y y
2
) y y (
Cheltuieli de promovare (mil. lei)
I
n
c
a
s
a
r
i

(
m
i
l
.

l
e
i
)
1000
1400
1800
2200
2600
3000
3400
3800
10 12 14 16 18 20 22 24 26
Nr.
crt.
Chelt.
(X)
ncas.
(Y)
2
x
2
y xy y
)

y y
)

2
) y y (
)

y y
2
) y y (
1 12,30 1860 151,29 3459600 22878 1448,83 411,17 169058,30 -310 96100
2 12,50 1210 156,25 1464100 15125 1474,14 -264,14 69767,30 -960 921600
3 14,00 1730 196,00 2992900 24220 1663,90 66,10 4369,21 -440 193600
4 14,30 1980 204,49 3920400 28314 1701,85 278,15 77365,75 -190 36100
5 14,80 1900 219,04 3610000 28120 1765,11 134,89 18195,85 -270 72900
6 16,50 1880 272,25 3534400 31020 1980,18 -100,18 10035,03 -290 84100
7 16,70 1740 278,89 3027600 29058 2005,48 -265,48 70478,04 -430 184900
8 18,00 1500 324,00 2250000 27000 2169,94 -669,94 448819,60 -670 448900
9 19,00 3120 361,00 9734400 59280 2296,45 823,55 678234,60 950 902500
10 20,00 2190 400,00 4796100 43800 2422,96 -232,96 54270,36 20 400
11 20,20 2130 408,04 4536900 43026 2448,26 -318,26 101290,70 -40 1600
12 20,50 1990 420,25 3960100 40795 2486,22 -496,22 246229,33 -180 32400
13 22,00 2880 484,00 8294400 63360 2675,98 204,02 41624,16 710 504100
14 24,30 3100 590,49 9610000 75330 2966,95 133,05 17701,50 930 864900
15 24,90 3340 620,01 11155600 83166 3042,86 297,14 88292,77 1170 1368900
Total 270,00 32550 5086,00 76346500 614492 32549,10 0,90 2095732,52 0 5713000

Sistemul de ecuaii, pentru determinarea coeficienilor a i b este:

= +
= +
614492 5086b 270a
32550 270b 15a

i rezult:
a = -107,24 i b = 126,51
Ecuaia de regresie este:
i i
x , , y 51 126 24 107 + =
)

Pe baza datelor din tabelul 4.1 putem determina coeficientul de corelaie:
( )
796 , 0
32550 76346500 15 )( 270 5086 15
32550 270 614492 15
r
2 2
=


= , ceea ce ne arat o legtur direct i de
intensitate destul de puternic ntre cele dou variabile.

c) Vom valida modelul de regresie determinat mai sus:
Tabelul 4.4
Surs
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df- degree of
freedom)
Media ptratelor
(MS- Mean of
Squares)
Testul Fisher
(testul F)
Datorat
regresiei

2
x / y
=3617268
k=1
2
x / y
s =3617268
Rezidual
2
e
=2095732
n k 1=15-
2=13
2
e
s =161210,2
Total
2
y
=5713000 n 1=15-1= 14

2 161210
3617268
,
Fcalc =
=22,438

Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H
0
: model nevalid statistic, cu alternativa
H
1
: model valid statistic
Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 13 grade de libertate,
preluat din tabelul repartiiei Fisher este
1 k n ; k ;
F

=4,67.
ntruct F
calc
>
1 k n ; k ;
F

se respinge H
0
, adic se concluzioneaz c modelul este valid.

d) Pe baza datelor din exemplul de mai sus putem calcula i testa:
1) Raportul de corelaie
796 0 6332 0
5713000
52 2095732
1 , ,
,
R = = = ,ceea ce ne arat o legtur destul de puternic ntre
variabile.


Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 13 grade de
libertate, preluat din tabelul repartiiei Fisher este
1 k n ; k ;
F

=4,67.
ntruct F
calc
>
1 k n ; k ;
F

se respinge H
0
, adic se concluzioneaz c R este semnificativ
statistic.
2) Coeficientul de determinaie
R
2
= 0, 6332 ceea ce arat c 63,32% din variaia ncasrilor se explic prin variaia cheltuielilor
de promovare a produsului.
Observm, de asemenea, c r =R =0,796, ceea ce arat c modelul de regresie este liniar.

e) Testarea semnificatiei parametrilor modelului de regresie si determinarea intervalelor lor de
incredere.
1) parametrul
Ipotezele sunt:
H
0
: = 0 (
b
= = 0),
H
1
: 0.
Deoarece volumul eantionului este mic (n<30), vom utiliza testul t:
b b
b
calc
s
b
s
b
t
0
=

=

, statistic ce urmeaz o distribuie t cu (n 2) grade de libertate.
=
calc
t 4,736, iar
b
s = 26,7
Pentru un prag de semnificaie de 5%, valoarea teoretic a testului este t
/2;13
= 2,16 . Deoarece
calc
t >t
/2;13
vom concluziona c este foarte improbabil ca estimatorul b s provin dintr-o populaie cu
=0 ( adic este semnificativ diferit de zero).
438 22
1
1
2
2
,
R
R
k
k n
F =


=
Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general, este:
b n , / b n , /
s t b s t b +
2 2 2 2
, adic 21 184 81 68 , ,

2) parametrul a
Ipotezele sunt:
H
0
: = 0,
H
1
: 0
Statistica t este:
a a
a
calc
s
a
s
a
t
0
=

=

.
calc
t = -0,218, iar
a
s =491,8
Pentru un prag de semnificaie de 5%, valoarea teoretic a testului este t
/2;13
= 2,16 . Deoarece
calc
t <t
/2;13
vom concluziona c este foarte probabil ca estimatorul a s provin dintr-o populaie cu
=0 ( adic nu este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul este dat de:
a n , / a n , /
s t a s t a +
2 2 2 2
, adic -1169,69 955,22.
Un argument suplimentar pentru concluzia c parametrul este nesemnificativ statistic este acela c
intervalul de ncredere include i valoarea zero.

Problema 2. Proprietarul unui minihotel dezvolt o analiz statistic pentru determinarea
cheltuielilor cu materialele de curenie (Y) n funcie de numrul camerelor ocupate (X). El determin
ecuaia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe baza datelor
nregistrate pentru n=14 zile:
i i
x y 7 , 3 8 , 10 + =
86 , 26 ) (
2
=

x x
i
3 , 2 = x

= 39 , 163 ) (
2
y y
i

a) Proprietarul dorete s estimeze cheltuielile cu materialele de curenie pentru o zi n care
are 6 camere ocupate;
b) Proprietarul dorete s estimeze cheltuielile medii cu curenia pentru zilele n care are 6
camere ocupate.
Dac numrul camerelor ocupate este 6
1
=
+ n
x , atunci:
. 69 , 3
12
39 , 163
; 179 , 2
; 33 6 7 , 3 8 , 10
12 , 025 . 0 2 , 2 /
1
= =
= =
= + =

+
e
n
n
s
t t
y


t
0,025;12
= 2,179

a) Intervalul de ncredere pentru cheltuielile unei zile n care sunt 6 camere ocupate este:
86 . 26
) 3 , 2 6 (
14
1
1 69 , 3 179 , 2 33
2

+ + ,

adic (22,89;43,11) garantat cu o probabilitate de 95%;
b) Intervalul de ncredere pentru media cheltuielilor zilnice n cazul n care au 6 camere
ocupate este:
86 . 26
) 3 , 2 6 (
14
1
69 , 3 179 , 2 33
2

+ ,
adic (30,19;35,82), garantat cu o probabilitate de 95%.

Problema 3

Pentru un magazin de mobil s-au cules date privind numrul de spoturi publicitare difuzate i
numrul vizitatorilor (mii pers.) timp de 14 zile.:
Ziua Nr. spoturi publicitare Nr. vizitatori (mii pers.)
1 7 42
2 5 32
3 1 10
4 8 40
5 10 61
6 2 8
7 6 35
8 7 34
9 9 45
10 3 11
11 12 64
12 8 37
13 4 30
14 11 55
Se cere:
a) reprezentai grafic datele; Comentai graficul.
b) pe baza datelor de la nivelul eantionului, determinai ecuaia de regresie care modeleaz legtura
dintre cele dou variabile i calculai numrul zilnic previzionat de vizitatori;
c) verificai dac modelul de regresie identificat este valid statistic;

d) testai semnificaia statistic a parametrilor modelului, determinnd i intervalele de ncredere
pentru acetia;
e) msurai intensitatea legturii dintre cele dou variabile cu ajutorul coeficientului i a raportului de
corelaie; testai semnificaia indicatorilor utilizai;
f) n ce msur variaia numrului de vizitatori este determinat de numrul spoturilor publicitare, pe
baza modelului de regresie determinat?
g) previzionai numrul vizitatorilor ateptai ntr-o zi, n ipoteza c se vor difuza 15 spoturi n acea zi.
h) previzionai numrul mediu zilnic de vizitatori, n ipoteza c se vor difuza 8 spoturi publicitare n
medie pe zi.

Rezolvare:
a) Notm cu X variabila factorial, independent nr.spoturi publicitare i cu Y variabila
dependent nr.vizitatori.
Pentru a identifica existena, forma i sensul legturii dintre variabilele analizate construim
corelograma (figura 4.10).

0
10
20
30
40
50
60
70
0 2 4 6 8 10 12 14
nr.spoturi
n
r
.
v
i
z
i
t
a
t
o
r
i

Figura 4.10 Corelograma (diagrama de mprtiere)

Se observ c legtura dintre variabile este direct i liniar (ntruct dreapta de regresie are
pant pozitiv), iar ecuaia de regresie va avea forma:
i i
bx a y + =
b) Pentru a determina estimatorii a i b, rezolvm sistemul de ecuaii normale, folosind datele
din tabelul de lucru 4.5:

= +
= +


i i
2
i i
i i
y x x b x a
y x b na

n=14 (numrul observaiilor)
Tabelul 4.5
x
i
y
i
x
i
2
x
i
y
i
y
i
2
i
i
x
y
0753 , 5
2858 , 2
+
=

( )
2
i i
y y ( )
2
y y
i

( )
2
x x
i

7 42 49 294 1764 37,81 17,53 3,29 0,13
5 32 25 160 1024 27,66 18,82 69,52 2,70
1 10 1 10 100 7,36 6,96 820,19 31,84
8 40 64 320 1600 42,89 8,34 47,44 1,84
10 61 100 610 3721 53,04 63,39 290,31 11,27
2 8 4 16 64 12,44 19,68 555,25 21,56
6 35 36 210 1225 32,74 5,12 10,64 0,41
7 34 49 238 1156 37,81 14,54 3,29 0,13
9 45 81 405 2025 47,96 8,78 143,12 5,56
3 11 9 33 121 17,51 42,40 341,82 13,27
12 64 144 768 4096 63,19 0,66 739,24 28,70
8 37 64 296 1369 42,89 34,67 47,44 1,84
4 30 16 120 900 22,59 54,96 179,91 6,98
11 55 121 605 3025 58,11 9,69 489,01 18,98
i
x
=93
i
y
=504

2
i
x
=763
i i
y x


=4085

2
i
y
=22190
504 305,53 3740,47 145,21

( )
( )
0753 , 5
2033
10318
93 763 14
504 93 4085 14
b
2858 , 2
2033
4647
93 763 14
4085 93 763 504
a
4085 b 763 a 93
504 b 93 a 14
2
b
2
a
= =


= =
= =


= =

= +
= +


Ecuaia de regresie este:
i i
x 0753 , 5 2858 , 2 y + =
c) Testarea validitii modelului de regresie determinat.
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H
0
: model nevalid statistic, cu alternativa
H
1
: model valid statistic
Se completeaz tabelul:
Surs
variaiei
Suma ptratelor
(SS-Sum of
Squares)
Grade de
libertate
(df- degree of
freedom)
Media ptratelor
(MS- Mean of
Squares)
Testul Fisher
(testul F)
Datorat
regresiei

2
x / y
=3740,465
k=1
2
x / y
s =3740,465
Rezidual
2
e
=305,535
n k 1=14 -
2=12
2
e
s =25,461
Total
2
y
=4046,000 n 1=15-1= 13

461 , 25
465 , 3740
= Fcalc
=146,908

Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 12 grade de libertate,
preluat din tabelul repartiiei Fisher este
1 k n ; k ;
F

=4,75.
ntruct F
calc
>
1 k n ; k ;
F

se respinge H
0
, adic se concluzioneaz c modelul este valid.
Calculele intermediare se gsesc n tabelul 4.5.

d) Ecuaia de regresie liniar la nivelul colectivitii generale se scrie:
y
i
= + x
i
+
i
,
iar la nivelul eantionului:
y
i
= a + bx
i
+ e
i

Pentru testarea semnificaiei parametrilor modelului de regresie liniar i estimarea lor pe
intervalele de ncredere se procedeaz astfel:
1) pentru parametrul
Ipotezele testate sunt:
H
0
: = 0 (
b
= = 0),
H
1
: 0.
Deoarece volumul eantionului este mic (n<30), vom utiliza testul t:
b b
b
calc
s
b
s
b
t
0
=

=

, statistic ce urmeaz o distribuie t cu (n 2) grade de libertate.
Unde 4187 , 0
145,21
046 , 5
) (
1
2
= =

=
n
i
i
e
b
x x
s
s
Iar
( )
5,046
12
53 , 305
2

2
1
2
2
= =

=
n
y y
n
s
n
i
i i
e
e

Se obine =
calc
t 12,1206
Pentru un prag de semnificaie de 5%, valoarea teoretic a testului este t
/2;13
= 2,179 . Deoarece
calc
t >t
/2;13
vom concluziona c este foarte improbabil ca estimatorul b s provin dintr-o populaie cu
=0 ( adic este semnificativ diferit de zero), deci parametrul este semnificativ statistic.
Intervalul de ncredere pentru parametrul , coeficientul de regresie din colectivitatea general, este:
b n , / b n , /
s t b s t b +
2 2 2 2
, adic 5,9876 4,1629

2) pentru parametrul a
Ipotezele testate sunt:
H
0
: = 0,
H
1
: 0
Statistica t este:
a a
a
calc
s
a
s
a
t
0
=

=

.
Unde 0912 , 3
21 , 145 14
763
046 , 5
) (
1
2
1
2
=

=
=
n
i
i
n
i
i
e a
x x n
x
s s
Se obine
calc
t = 0,7394
Pentru un prag de semnificaie de 5%, valoarea teoretic a testului este t
/2;13
= 2,179 . Deoarece
calc
t <t
/2;13
vom concluziona c este foarte probabil ca estimatorul a s provin dintr-o populaie cu
=0 ( adic nu este semnificativ diferit de zero).
Intervalul de ncredere pentru parametrul este dat de:
a n , / a n , /
s t a s t a +
2 2 2 2
, adic -4,4495 9,0210.
Un argument suplimentar pentru concluzia c parametrul este nesemnificativ statistic este acela c
intervalul de ncredere include i valoarea zero.
e) Pentru a msura intensitatea legturii dintre cele dou variabile se va calcula mai nti
coeficientul de corelaie liniar:
( ) ( ) ( )
( )
9615 , 0
10731
10318
504 22190 14 2033
10318
y y n
b
y y n x x n
y x y x n
r
2
2
i
2
i
2
i
2
i
2
i
2
i
i i i i
= =

=
=
(


=
(


Acest indicator ne arat o legtur direct i foarte puternic (r este pozitiv i apropiat de
valoarea unitar).
Pentru testarea semnificaiei coeficientului de corelaie liniar simpl, se procedeaz astfel:
Ipotezele testate sunt:
H
0
: = 0 ( nu este semnificativ statistic)
H
1
: 0 ( este semnificativ statistic).
Statistica t este:
12 , 12
9615 , 0 1
12 9615 , 0
1
2
2 2
=

= =
r
n r
s
r
t
r
calc
.
Cum valoarea tabelar a testului t, pentru un prag de semnificaie de 5% i 12 grade de
libertate este 2,179 rezult c t
calc
>
2 n ;
t

, deci coeficientul de corelaie este semnificativ statistic


Un alt indicator utilizat att n cazul legturilor liniare, ct i al celor neliniare este raportul de
corelaie R:
( )
( )
9615 , 0
4046
53 , 305
1

1
2
2
/
= =

= =

y y
y y
R R
i
i i
x y

Calculele necesre determinrii raportului de corelaie sunt redate n 4.5
36
14
504
n
y
y
i
= = =

mii pers.
R
y/x
= r
y/x
= 0,9615, deci exist o legtur liniar, puternic i direct ntre cele dou variabile.
Testarea semnificaiei raportului de corelaie se face cu testul F:
9 , 146
1
1
2
2
=


=
R
R
k
k n
F


Valoarea teoretic pentru un prag de semnificaie = 0,05 i 1, respectiv 12 grade de
libertate, preluat din tabelul repartiiei Fisher este
1 k n ; k ;
F

=4,75.
ntruct F
calc
>
1 k n ; k ;
F

se respinge H
0
, adic se concluzioneaz c R este semnificativ
statistic.
f) Pentru a determina n ce msur variaia numrului de vizitatori este explicat de influena
numrului de spoturi publicitare difuzate zilnic, se calculeaz coeficientul de determinaie:
9245 , 0 9615 , 0 R
2 2
x / y
= = su 92,45% arat c aproximativ 92% din variaia variabilei Y este
explicat de variabila X.
g) Dac numrul spoturilor publicitare difuzate va fi de 15, atunci numrul previzionat al
vizitatorilor pe baza acestei ecuaii de regresie este:
78 15 0753 , 5 2858 , 2 y
15 x /
+ =
=
mii pers. (estimare punctual)
Pentru estimarea pe interval de ncredere, trebuie s determinm dispersia diferenei
,
, 1 1 i n n
y y
+ +
adic dispersia erorii de previzionare. Dispersia n eantion este:
( ) ( )
534 , 39
21 , 145
) 64 , 6 15 (
14
1
1 461 , 25
) (
) ( 1
1
2
1
2
2
1 2 2

, 1 1 , 1
=
|
|

\
|
+ + =
|
|
|
|

\
|

+ + = =

=
+

+ + + n
i
i
n
e y y y
x x
x x
n
s s s
i n n i n
.
Intervalul de ncredere este:

=
+
+

+ +
n
i
i
n
e n i n
x x
x x
n
s t y
1
2
2
1
2 , 2 / , 1
) (
) ( 1
1

, adic (64,71; 92,11) mii persoane.


h) Suntem n cazul determinrii intervalului de ncredere pentru media de rspuns, cnd x
n+1

x . Pentru aceasta se determin ( ) 9 , 42 6,64 - 8 5,0753 36 ) (
1 1
= + = + =
+ +
x x b y y
n n

iar estimatorul dispersiei pentru
1

+ n
y este:
( )
( )
14 , 2
21 , 145
) 64 , 6 8 (
14
1
461 , 25
) ( 1
2
1
2
2
1 2 2

1
=
|
|

\
|
+ =
|
|
|
|

\
|

+ =

=
+
+ n
i
i
n
e y
x x
x x
n
s s
n

Intervalul de ncredere pentru media de rspuns este:
( )
( )

=
+
+

+
n
i
i
n
e n n
x x
x x
n
s t y
1
2
2
1
2 , 2 / 1
1

, adic (39,71; 46,08) mii persoane


Se poate utiliza, ns, pentru rezolvarea problemei i un pachet informatic specializat, n cazul
nostru EXCEL. n urma selectrii, din meniul principal, a opiunilor <Tools>+<Data
Analysis>+<Regression>, s-au obinut urmtoarele rezultate:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,961501303
R Square 0,924484756
Adjusted R
Square 0,918191819
Standard Error 5,045911528
Observations 14

ANOVA
df SS MS F Significance F
Regression 1 3740,465 3740,465 146,908 0,0000000433
Residual 12 305,535 25,461
Total 13 4046,000

Coefficients Standard Error t Stat P-value
Lower
95%
Upper
95%
Intercept 2,2858 3,0912 0,7394 0,4738580696 -4,4495 9,0210
Nr. spoturi 5,0753 0,4187 12,1206 0,0000000433 4,1629 5,9876




Problema 4. Un vnztor de automobile second hand ar dori s tie dac preul de vnzare al
acestora la licitaie depinde de numrul de kilometri parcuri de automobilul respectiv. Pentru aceasta
el selecteaz 50 de automobile cu o vechime de 3 ani, aceeai marc i aceleai faciliti. Pentru
fiecare main a nregistrat preul de vnzare la licitaie i numrul de kilometri de la bordul
autoturismului.
a) Vnztorul ar dori s tie care este dependena dintre preul de vnzare i numrul de
kilometri parcuri.
b) Testai semnificaia parametrilor funciei de regresie i validitatea modelului de regresie
obinut.
c) Msurai intensitatea legturii dintre variabile.
Preul Nr.Km Preul Nr.Km Preul Nr.Km Preul Nr.Km Preul Nr.Km
37388 5318 32359 5595 38775 5150 32161 5507 37407 5105
44758 5061 43533 5330 45563 5249 26561 5873 34356 5685
45833 5008 32744 5806 28676 5775 33533 5303 30599 5788
30862 5795 34470 5805 38231 5327 41849 5237 42485 5208
31705 5784 37720 5317 36683 5192 36668 5383 38430 5168
34010 5359 41350 5316 32517 5544 37495 5286 40452 5128
45854 5235 24469 5870 39050 5054 25629 5827 26030 5750
19057 5845 35781 5504 45251 5115 40099 5483 46296 4965
40149 5536 48613 5333 34384 5410 31014 5440 34844 5238
40237 5401 24188 5705 38383 5529 42233 5215 27379 5763


Rezolvare:

a) Pentru determinarea dependenei ntre cele dou variabile se face un grafic pentru determinarea
tipului legturii.
4800
5000
5200
5400
5600
5800
6000
0 10000 20000 30000 40000 50000 60000
Numr de kilometri parcuri
P
r
e


Figura 4.12

Deoarece punctele reprezentate sunt grupate n jurul diagonalei secundare, exist o
dependen liniar, invers ntre cele dou variabile. Pentru determinarea modului n care preul
variaz n funcie de numrul de kilometri parcuri se va folosi modelul de regresie liniar.
Rezolvare folosind EXCEL:
1. Introducei datele astfel: n celula A1 tastai Nr.Km. iar n B1 Preul. n prima coloan,
ncepnd din A2 se vor introduce numrul de kilometri parcuri, iar pe coloana a doua,
ncepnd din B2 se vor introduce preurile.
2. Apsi Tools-Data Analysis i Regression.
3. La Input Y Range selectai B1:B51. La Input X Range selectai A1:A51. Selectai Labels.
4. Dac dorii s calculai valorile reziduale (
i i
y y ), selectai Residuals. Apsi OK.

Se obin rezultatele:

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.808922
R Square 0.654355
Adjusted R Square 0.647154
Standard Error 157.8984
Observations 50

ANOVA
Df SS MS F Significance F
Regression 1 2265584 2265584 90.87089 1.19E-12
Residual 48 1196732 24931.91
Total 49 3462316

Coefficients Standard
Error
t Stat P-value Lower 95% Upper 95%
Intercept 6598.34 124.3322 53.07024 2.78E-44 6348.353 6848.326
Nr.Km. -0.03224 0.003382 -9.53262 1.19E-12 -0.03904 -0.02544

Interpretarea rezultatelor prezente n ultimul tabel din SUMMARY OUTPUT.
Coeficientul b este 0,03224, ceea ce nsemn c la creterea distanei parcurse cu 1
kilometru, preul va descrete cu 0,0322410
4
lei (322,4 lei).
Intercept este termenul liber, deci coeficientul a este 6598,34. Termenul liber este punctul n
care dreapta de regresie intersecteaz axa y. Aceasta nseamn c x=0, deci a reprezint preul unei
maini care nu a fost condus. Dar, n cazul nostru acest punct nu are semnificaie, deoarece toate
mainile sunt second hand.
Interpretarea rezultatelor prezente n primul tabel din SUMMARY OUTPUT.
Este calculat eroarea standard, Standard Error, egal cu 157,9. n cazul n care aceast
valoare este zero, nseamn c toate punctele observate se afl pe dreapta de regresie. Deci, bine este
ca aceast valoare s fie ct mai apropiat de zero. Ce nseamn mai apropiat de zero este greu de
spus folosind doar eroarea standard. De aceea se calculeaz mrimi derivate din aceasta pentru a spune
ct de apropiate sunt punctele de dreapta de regresie.
Pentru a putea spune n ce msur modelul liniar de regresie explic dependena dintre
variabile se calculeaz coeficientul de determinaie, R-square care n cazul nostru este 0,6544. Deci
65,44% din variaia preului este explicat de variaia numrului de kilometri parcuri de automobil.
Este calculat, de asemenea, coeficientul de determinaie ajustat,
2
R , egal cu 0,6472.
n cazul n care a fost selectat i Residuals, tot n acest Sheet de rezultate sunt calculate
valorile reziduale i valorile previzionate pe baza modelului de regresie.

RESIDUAL OUTPUT

Observation Predicted Price Residuals
1 5392.879821 -74.8798
2 5155.257064 -94.2571
3 5120.597029 -112.597
4 5603.29042 191.7096
.....

Rezolvare folosind STATISTICA:
1. Creai un fiier cu 2 variabile i 50 de cazuri (File/New data). Introducei datele astfel: prima
variabil este numrul de kilometri parcuri, a doua variabil este preul stabilit la licitaie.
2. Selectai modulul General Linear Model. Selectai apoi Simple Regression.
3. n noua fereastr deschis apsi butonul Variables. Aici selectai la Dependent variable list
a doua variabil i la Predictor prima variabil. Apsi OK.
4. Apsi Summary. Apsi Coefficients.

Se obine:



Acest tabel se interpreteaz similar cu tabelul 3 din SUMMARY OUTPUT obinut prin EXCEL.

5. Apsi Continue. Apsi Whole model R.

Se obine:



Acest tabel se interpreteaz similar cu tabelul 1 din SUMMARY OUTPUT obinut prin EXCEL.

Dac se dorete calculul valorilor reziduale i al celor previzionate se parcurg paii:

6. Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.

Se obine:



Se observ c n tabelul anterior sunt afiate:
- preul observat;
- preul previzionat;
- valoarea rezidual: preul observat preul previzionat;
- eroarea standard;

b) Rezolvare folosind EXCEL:
Interpretarea rezultatelor prezente n ultimul tabel din SUMMARY OUTPUT.
n coloana a doua (Standard Error) sunt calculate, erorile standard ale parametrilor estimai:
s
a
= 124,33 i s
b
= 0,0034. Aceste erori sunt folosite pentru calculul statisticilor t pentru testarea
semnificaiei estimatorilor. Acestea sunt calculate n coloana tStat, t
a
= 53,07 i t
b
= - 9,53. Deoarece
valorile p asociate sunt foarte apropiate de zero (n coloana P-value), se poate spune c estimatorii
sunt semnificativi.
Lower 95% i Upper 95% sunt limitele inferioare, respectiv superioare ale coeficienilor estimai.
Interpretarea rezultatelor prezente n tabelul ANOVA.
Validitatea modelului de regresie se testeaz folosind testul F. n tabelul ANOVA sunt
calculate cele trei variaii: cea explicat de model, cea rezidual i cea total. Cu ajutorul acestora se
calculeaz Statistica F. n cazul nostru aceasta este 90,87. Deaorece valoarea p asociat este foarte
apropiat de zero (prag de semnificaie sczut), se poate valida modelul de regresie.
n cazul n care a fost selectat i Residuals, tot n acest Sheet de rezultate sunt calculate
valorile reziduale i valorile previzionate pe baza modelului de regresie.
RESIDUAL OUTPUT

Observation Predicted Price Residuals
1 5392.879821 -74.8798
2 5155.257064 -94.2571
3 5120.597029 -112.597
4 5603.29042 191.7096
.....

Rezolvare folosind STATISTICA:



Acest tabel se interpreteaz similar cu tabelul 3 din SUMMARY OUTPUT obinut prin EXCEL.

Dac se dorete calculul valorilor reziduale i al celor previzionate se parcurg paii:

Apsi Continue. Apsi Resids. Selectai Extended. Apsi Predicted and residuals.

Se obine:



Se observ c n tabelul anterior sunt afiate:
- preul observat;
- preul previzionat;
- valoarea rezidual: preul observat preul previzionat;
- eroarea standard;
- intervalul de previziune, pentru o probabilitate de 95%: n cazul unui automobil cu acelai
numr de kilometri parcuri, cu o probabilitate de 95%, preul previzionat al acestuia va fi
inclus n intervalul de previziune;
- intervalul de ncredere, pentru o probabilitate de 95%: n cazul unui automobil cu acelai
numr de kilometri parcuri, cu o probabilitate de 95%, preul acestuia va fi inclus n
intervalul de ncredere.

c) Deoarece datele sunt cantitative, pentru msurarea intensitii legturii dintre dou variabile
se calculeaz coeficientul de corelaie liniar.

Rezolvare folosind EXCEL:

1. Introducei datele ca n Exemplul 5.13.
2. Apsi Tools-Data Analysis i Correlation.
3. Specificai Input Range (A1:B51). Apsi Labels in First Row. Apsi OK.

Se obin rezultatele:
Numr de kilometri parcuri Pre
Numr de kilometri parcuri 1
Pre -0.808922247 1

Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,809. Deoarece acesta
este negativ i apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.
Rezolvare folosind STATISTICA:
1. Introducei datele ca n Exemplul 5.13.
2. Selectai modulul Basic Statistics and Tables. Selectai apoi Correlation Matrices.
3. Apsi butonul One variable list (square matrix). Selectai ambele variabile. Apsi OK.
4. La Display selectai Detailed table of results. Apsi OK.

Se obin rezultatele:


Coeficientul de corelaie dintre numrul de kilometri parcuri i pre este -0,81. Deoarece
acesta este negativ i apropiat de unu se poate spune c exist o corelaie invers ntre cele dou variabile.

Potrebbero piacerti anche