Sei sulla pagina 1di 241
Cuprins Prefatis 1 Introducere. a 1.1 Ohiectul statistic 9 1.2 Ramnri ale statistieit 1.3. Notiuni de baza folosite in statistics... 7 2 Ktape ale cercetarii statistice “4 2.1 Observarea statistic’ u 2.2 Gruparea datelor statistice s . rr 2.8 Prehuerarea statistic’ 0 24 Analiza si interpretarea statistiea 2 Serii statistice 23 2 3.1 Notiuni generale 3.2. Seri statistice simple (umidimensionale) sau pentru o caracteristic& 25 3.3 Reprezentiri grafice <<... cones 28 3.3.1 Grafice pentru serii simple atagate caracteristicilor mi ‘merice (cantitative) 29 3.32 Grafice pentru serii atagate caracteristicilor calitative (nominative). 6... 5. 36 ‘Marimi relative 46 4.1 Forme de prezentare a 4.2 ‘Vipuri de marimi relative as 5 Marimi medi 53 5.1 Exemple de medi uzuale oa 5.2. Proprietati generale ale mediilor . . errr 58 5.3 Originea comuni a mediilor <<... Perrrr 59 ‘Teoria Ini Chisini-Boiarski. 60 5A Principii de alegere a unei med 6 Indicatori statistici pentru serii unidimensional cantitative (numerice) 67 6.1 Indicatori de pozitie . . 6s GALL Media statistica. eee eee os 5.12 Momentele initiale .. . . 6s 5.1.3 Modul (dominanta) 69 5.14 Functia empiricd (statistic’) de repartitie se. Tl 5.1.5 Cvantile empirice, Mediana - - 5 5.1.6 Calentil medianei 76 6.2 Indicatori ai variatici si ai impriistierii 80 6.2.1 Indicatorii simpli ai variatiei 80 5.22 Indicatorii sintetici ai variati 82 6.2 Kliminarea valorilor aberante. ‘Testa! hni Grabhs 87 64 Momente centrate 8a 6.5 Indicatoti pentru asimettie x 7 Indicatori numerici pentru serii statistice calitative (nomina- tive) 96 8 Serii statistice duble. Distributii empirice bidimensionale. ‘Tabele de corelatie 102 8.1 Notiuni generale coves ences we 8.2 Serii cu ambele caracteristici numerice cee 14 83 84 85 86 Reprezentri gratice ale seriilor duble cu dowd caracteristici nu- tmerice (X,Y) Indicatori numerici pentru serii duble cu. caracteristici cantita- tive si freevente 84.1 Medi de grupe. Dispersii de grupe 84.2 Momente initiale pentru perechea de variabile (X,Y) 8.43 Momente centrate. Corelatia. Coeticientul de corelatie S44 Proprietati si interpretari ale coeticientului de corelatie Serii numerice paralele 8.5.1 Coeticientul de corelatie tiniara 8.5.2 Coeficientul lui Kendall (prin comparatia rangurilor) . 8.5.3 Coeficientul Spearman (prin comparatia rangurilor) 85.4 Coeficientul lui Fechner oo... 0... oe Serii numerice multiple 8.6.1 Corelatia partial pentru serii cu freevente 8.6.2 Coeficientul Kendall pentru legit multiple Serii duble din care cel putin una este calitativa (nominativa) 87.1 Sorii mixte 87.2. Serii duble cn ambele caracteristici nominative 9 Regresii. Legatura cu corelatia 91 92 93 94 Punerea problemei, etape pentru gasirea unei regresii. . . . . Regresia liniara Regresii curbilinii Regresii multiple (Functii de mai multe variabile) . 10 Elemente de teoria selectiei. Statistica inferentiala 10.1 Esantion 10.2 Problema centrala in teoria selectiei 136 Tas 1.2.1 Legi de probabilitate, discrete uzuale 1.2.2 Legi de probabilitate continue 10.3 Metode de estimare a parametrilor 10.3.1 Metoda verosimilitatii maxime 10.3.2 Metoda momentelor (1891, Pearson) 10.3.8 Metoda intervalelor de ineredere 10.4 ‘Teste de verificare a ipotezelor statistice WALL Generalitati. ‘Tipuri de teste 1.2. Ktapele unui test A.B. Exemple de teste uuzuale AA Probleme rezolvate . . . . Anexe Bibliografie 1 181 12 197 202 242 Prefata Statistica teoretica este in prezent folosita de multi specialisti, din cele ‘mai variate domenii, dar in special de economisti. Din dorinta unor autori de a prezenta un material exhaustiv se pierd ideile principale si expunerea devine incaleiti, Pentru a evita acest Iucru, unele metode prea elementare nu au fost prezentate, iar structura cdrtii a fost ficuti dupa cele dou criterii principale: On uul seriei: serii simple, serii duble, serii multiple: ~ Tipul caracteristicii: caracteristici cantitative (numerice), caracteristici calitative (nominative) La sfargit este prezentat un capitol cu elemente de statistica matematicai, stiut fiind faptul, ea statistica teoreticl, descriptival, cistigit in valoare, cu eat imprumuta mai multe elemente si metode din statistica matematica, care la randul ei se bazeazii pe teoria probabilitatilor. Pentru a deveni specialist in statisticdi economic, mai trebuie ca cititorul si completeze cunostintele din acest manual cu notiuni despre indicator statistic’ economici, care, am consi- derat ci sunt usor de inteles si se gasese in orice tratat de statisticd economica. in material, am evitat prezentarea prea aménuntita a tabelelor, necesare pentru organizarea calculelor, efectuate manual, pentru diferiti indicatori mai complicati, pentru simplul motiy 4 in prezent toate calculele se fac automat, cu calculatorul, prin intermediul unor programe performante. Din acelasi motiv, al existentei unor softuri moderne bune, metodele statistice elementare pierd teren in fata celor mai elaborate si eficiente precum si a statisticii matematice, pentru ci acum nimeni nu se mai teme de caleule complicate si de volum mare, acestea fiind facute automat de calculator. Graficele sunt executate, de aseme- nea, automat, rapid, color, find foarte sugestive. Cartea se adreseazi in primmul rnd studer 1 de la profilurile de Stiinte Economice de la LD. sau zi, dar poate fi studiata si de alti specialisti care folo- sese statistica. Tuturor le recomand ca dupa parcurgerea materialului s& fact apel la cunostintele de informatica pentru a studia macar un program (soft specializat in statistica. Capitolul 1 Introducere 1.1 Obiectul statisticii Statistica este stiinta care studiazai fenomenele si procesele din natura si societate, relatile dintre fenomenele economice si sociale, legiturile cantitative, dar gi pe cele calitative Denumirea de statistica a aparut pentru prima oara in limba germana (Statistik) si deriva de la cuvantul latin "Status” care se traduce prin “stare de Iucruri®, Termenul de statistic a fost introdus in secolul 18 de profesorul Got- tied Achenwall (1719-1772) de la Universitatea din Géttingen, Obiectul initial al statisticii era descrierea situatiei generale a unui stat, evidenta rezervelor s1 a resurselor sale. Cu timpul sfera de cuprindere a statisticii sa largit in special la studiul fenomenelor economice sociale, biologice precum si in tehnici Bazele cercetirii statistice au fost pus ffir indoial de scoala engleza, cu o contributie esentiali din partea scolii universitare germane. Amintim pe William Petty (1623-1687). John Grount (piirintele demografie), astro- nomul Halley si Hemann Couring (1606-1682). Mentionim numele eétorva dintre i Jemeietorii statisticii moderne, care au produs 0 mutatie esentiala in conceptia general despre obiectul statistic: Francis Galton (1822-1911) biolog si antropolog, intemeietor in 1901 al revistei “Biometrika”, apoi pe marele antropolog si psiliolog Karl Pearson (1857-1936) si pe cel considerat cel mai mare dintre toti Ronald Fisher (1890-1962) biolog si cercetiitor la & statinne agrobiologicd, dovedese ci statistica este un instrument de lucru vi- tal in domenii foarte variate: biologie, psihologie, stiinte sociale, economie si tebnied n opinia marilor statisticieni moderni englezi Yule si Kendall datele statistice din diferite sectoare ale aetivitatii umane presupun utilizarea si a unor metode speciale numite metode statistice care se preocupsi cu prelu- crarea si analizarea unui tip special de informatie, vizind in final detinerea uunor coneluzii utile 1.2) Rammri ale statisticii Prin obiectul si metoda sa statistica este o stint unitard. In timp sau cristalizat céteva directii dintre care amintim 1, Statistica matematica, este strans legata de teoria probabilitatilor apeldnd incontinuu la metode si rezultate teoretice din acest domeniu. Are patru capitole importante. a) Teoria selectiei (sau statistici inferential) este capitolul principal, cel ‘mai productiv si eficient. Pe baza unui numar mie de date culese de ta © parte a populatiei (deci cu efort mic)eu o prelucrare inalta, bazatii pe un sofisticat, obtine conclu aparat matemati pertinente asupra intregii populatii. b) Teoria estimatiei care se refera la e area cat mai corect a parametrilor legilor de probabilitate teoretice care modeleazi fenomencle naturale, eco- nomice, sociale, ete. ) Teoria intervalelor de incredere, 4d) Teste de verificare a ipotezelor statistice, care valideazai sau nu anumite 10, renultate, etapa extrem de utili in Inarea deciziilor. Statistica matematicd concepe si furnizeazd indicatori si metode de studiu foarte performante necesare celorlalte ramuri ale statistici 2. Statistica teoreticd fundamenteazi metodologie fazele cunoasterii statistice general (observare, prelucrare, transmitere, analiza) gi elaboreaza procedee de calcul al diferitilor \dicatori (marimi relative, marimi medii $1 indicatori statistici) cu ajutorul cdrora opereaza orice alt ramura a statisticii. Este stréns legati de statistica matematica. In acest volum vom descrie in special acest tip de statistic’ fiednd insa referiri gi la celelalte. 3. Statistica economica studiaza fen iene economice si procesele economico-sociale de masi din cadrul economiei nationale, legaturile dintre agentil economici, dintre sarcinile acesteia mentiondim: ~ eunoasterea dezvoltarii economiei nationale si a societitii in general ~ statistica obiectivelor si directiilor dezvoltarii viitoare;, = elaborarea programului de dezvoltare curenti si viitoare; fundamentarea misurilor decizionale; ~ urinaire indeplinirii obiectivelor stabilite; imbundtitirea sistemului de indicatori, rationalizarea documentelor de evident si cireuitul acestora, Ca principale ramuri ale statisticii economice amintim: Statistica ‘macroeconomicd, Statistica afacerilor, a industriei, a agriculturii, constructiilor, transporturilor gi telecomunicatiilor, circulatia marfurilor, ete. 4, Statistica oficiala (publica ” Anuarul Statistic”) are ca subramuri stati fea demogratica, a culturi, statistica sanitara, judiciara, fara a neglija ins& gi date economice generale la nivelul statului Aceste tipuri de statistici se deosebese in general prin specificul colectaii u datelor, modul de grupare si comunicarea rezultatelor. Metodele de prelucrare sunt ins in mare parte asemanatoare, 1.3. Notiuni de baza folosite in statistica 1. Populatie statisticd sau colectivitate este format din totalitatea elementelor sau faptelor de acelasi fel avéind trisituri comune care formeazi obieetul corcotii Aceastit colectivitate are un caracter obiectiv, eoneret si finit care tre- nie delimitati, definit® clar in timp, spatiu sau actiune. Populatia statistic, poate fi formatii din persoane, obiecte, evenimente, agenti economici, idei, opinii, operatii economice 2. Unitatea statistied: este elementul din care se compune populatia. El poate fi simplu (indivizibil) sau complex ca rezultat al unei grupatri ‘Numérul de indivizi ai populatiei se numeste cel mai adesea volumul populatiei si il vom nota cu 3. Caracteristicd statistied (variabili statistic) este una din trdsaturile comune proprii tuturor unitatilor populatiei Exemplu: La o multime de indivizi putem distinge mai multe carac- teristic: inatimea, masa, numarul de copii, tipul comportamental, starea fi- nanciara, starea de séntate exprimata prin cuvinte sau valori numerice ale analizelar medicale ote Caracteristicile se pot elasifica dup’ mai multe criteri, dintre care modul ) de exprimare este cel esential (natura earacteristici) ~ Dupa modul de obtinere: = primare; = derivate, ~ Dupa eontinut: 12 = caracterist de timp (cronologice); ~ caracteristici de spatiw ~ caracteristici atributive ~ Dupii modul de exprimare (natura) cele atributive pot fi a) cantitative (numerice, masurabile) care la randul lor pot fi - continue, daca pot lua orice valoare din domeniul de variatie ‘inaltimea, masa, cont bancar) = discrete, daca iau doar anumite valori, cel mai des intregi (numar de copii, numar de intra, de actionari). b) ealitative (nominative): nu pot fi exprimate numerie ei prin mame: culoarea ochilor, tipul comportamental, sectoare economice, ete. 4, Indicatorul statistic eprerint expresia numericd cu un continat real si forma specific de exprimare. in general se exprimd prin relaii mate ratice dar poate avea si debiniti date prin euvinte 5. Date statistice sunt mirimi obtinute prin observare, experiente, misurare. Datele sunt purtitoare de informatie, care este mesajul dateor, adic& continutul specific al acestora. Observatii ~ Caracteristicile de timp (seriile cronologice) sunt de fapt masurabile si deci pot fi incadrate la cele cantitative, totugi cei mai multi statisticieni le trateazii separat, timpul fiind o caracteristicd prea importanté. Modul de lucru este ins perfect analog cu celal caracteristicilorcantitative ~ in mod analog earacteristicile spatiale, cae se referé cel mai adesea la repartiia in teritoriu, sunt de tip ealitativ, regiunile find nominative si dei nemzisurabile 13 Capitolul 2 Etape ale cercetarii statistice 2.1. Observarea statistica Observarea statistiea cuprinde culegerea datelor individuale. Se poate extinde asupra intregit populatii (observare total) sau numai asupra.unei plrti mumita esantion (sondaj sau selectie). Modul cum este ales esantionul constituie un studiu special in teoria selectiei. EI trebuie sa fie uniform, aleator, reprezentativ. Uneori sunt necesare instrumente speciale cum ar fi formularele, instructiunile, metodologia care permit culegerea de cit. mai ‘multe informatii cu un volum de muncé eat mai mic. Cresterea cantitatii de date statistice asigura in prima fazai 0 cregtere a cantitaitii de informatie apoi cand volumul de date este suficient de mare se produce o saturare a informatie! aduse, aga inct nu mai sunt necesare date A eontima si mai eolect”im date noi intr-nn astfel de mament insearana sii facem eforturi inutile in ultimul timp pentru colectarea si stocarea datelor se utilizeazi instrumente perfectionate legate de tehnica electronic de calcul, softuri speciale care conduc la construirea unor baze de date performante. “4 2.2 Gruparea datelor statistice ‘Vom da in continuare doar cateva principii generale de centralizare, gru- pare si stocare a datelor urmand si vedem coneret modul de Tucru cu serii statistice, Gruparea este 0 metoda de bazai in prelucrarea primara a datelor, prin care elementele colectivitdtii se impart in clase omogene dupa varietatea uneia sau 1ai multor caracteristici. Notiunile de baz utilizate la aceasta operatic sunt: caracteristica de grupare, variatia, amplitudinea, omogenitatea. Caracteristica de grupare este insusirea care separ elementele populatiei statistice in clase sau grupe omogene (asemanatoare} Variatia reprezinté proprietatea caracteristicilor statistice de a inregistra mai multe valori (in cazul celor numerice) sau mai multe forme de ‘manifestare (in cazul caracteristicilor calitative). Amplitudinea vai ~ este diferenta dintre valoarea maximit si minima referitoare la plaja de variatie a tuturor valorilor individuale au caracteristici. Grupa omogeni statistic inseamna clas de elemente in care variatia este minima, Tipuri de grupe statistice: a) Dupa numarul caracteristicilor folosite pot fi simple sau combinate (bi- variate sau chiar cu mai multe caracteristici) = Grupiiri simple ~ repartizarea membrilor colectivititii pe clase in functie de variatia unei singure caracteristici, mentiondnd si freeventa corespunzitoare fieciirei grupe ~ Grupiiri combinate se obtin daca separarea datelor se face cel putin dupa dowd caracteristici. Se separ mai intai elementele populatiei pe grupe dupa prima caracteristici apoi fiecare grupa dupa cea de-a doua caracteristied. Se poate obtine astfel un tabel eu subdimensi- uni, sau se pot aranja datele sub formi de matrice. In acest caz. la intersectia unei linii corespunziitoare unei grupe de la prima carac- teristic’ cu o coloand de la a dona caracteristici se va putea trece frecventa absolut njj adic numirul de unitati (indivizi) care se incadreaza in grupa ¢ dup& prima caracteristica si grupa j dupa a dona. b) Dupa continutul caracteristici ~ grupari cronologice ~ datele se separa dupai o caracteristicd de timp: ~ grupairi spatiale; ~ grupairi dupa o caracteristica attibutivé — datele se separa dupa trisaturile specitice unitatilor. ) Dupa forma de exprimare a caracteristicilor atributive: ~ grupairi dupa o caracteristica calitativa (sau nominativa) (exemplu: ramuri ale economiei nationale, tipuri de ocupati, etc.); ~ grupari dupa caracteristici exprimate numeric; grupari cantitative {exemplu: inaltimea, masa, productia, ete.) Caracteristicile numerice se preteazi la: ~ grupari pe variante (cu valori discrete). se aplici daca caracteristica este disereta (numar de copii, note la o examinare)sau numarul valorilor este redus aga cai fiecare valoare reprezinta o grupii; ~ grupari pe intervale se folosese daca caracteristica este continua (mas, Ikime, etc.) sau cand gradul de variatie al caracteristicii este prea mare, adicd retinerea datelor pe variante distinete ar conduce la un numer prea mare de clase (exemplu: gruparea salariatilor dupa mirimea veniturilor). 16 ‘Pentru grupare este necesar sé alegem cat mai convenabil, pentru seopul urmatit, mérimea intervalelor de grupare si a numarului de grupe. Observatie. Daca intervalele de grupare sunt mari, volumul de calcule este mai mie dar se pierd informatii $i din fineten concluziet si reeiproc. Intervalele de grupare pot fi egale sau diferite ca méirime. Cand sunt egale calculele ulterioare sunt mai simple. Intervalele de lungimi diferite se folosese mai rar si numai dacé avem o problema speciala care impune acest lucru. De exemplu dac& numiirul de indivi din anumite grupe e prea mare si dorim divizarea acestor grupe pentru u studiu mai fin, sau reciproe daca anun ite grupe au numir prea mie de elemente pentru mnpliticare se comaseaza obtinand intervale mai mari ‘Exemplu. Lvolutia cronologica a publicatiilor economice Periaoda | Numér publicatii inainte de 1700 3 1700-1800) w 1800-1900 1b 1900-1950) 30 1950-1980) 300 1980-2000 500 2000-2002 1500 ar fi 0 impairtire ce urmareste o serie cronologic care freeventa publicatiilor creste exponential si este deci necesara utilizarea grupelor de mimi diferte. Ubservatie. Prin grupare se pier informatii relative la datele initiale in schimb s castigi o privire de ansamblu asupra lor gi 0 pretucrare ulterioara mat gourd. "7 Formarea grupelor 1. Se determin cea mai mica valoare a caracteristicii studiate min si cea mai mare Zar. Stabilind totodata plaja de variatie a acesteia, adicd amplitudinea total 2. Se divide plaja de variatie intr in numar stabilit de grupe cu aceeasi amplitudine (dimensiune) sau, mai rar, diferita, ‘Numiirul de grupe r se poate alege subiectiv, recomandabil intre 5 si 20, sau folosind formula lui H.A.Sturges +3321 unde N este cardinalul populatiei sau volumul populatiei (numarul total al subiectilor studiati) in cazul grupelor egale reaulta h marimea intervalului de grupare 3. in final se determind numarul de unitati (elementele, indi apartin fiecirei grupe, adicd freeventa absolut corespunztoare nj. Exemple de grupiri 1 Slaviul lunar (mii let) | Numbr salariati 2000-3000 3 3000-4000 8 auuu-auu0 u 5000-6000 20 ‘6000-7000 24 7000-8000 1s 8000-9000 10 ‘9000-10000 4 18 Numir piose produse | Numdir unititilor 81-90 2 91-100 4 101-110 5 111-120 8 121-130 u 131-140 7 M1150 4 151- si peste 1 1. in tabelul 1 6000; 7000) de exemplu, se numeste interval de grupare. in cazul in care caracteristica este continua, intervalele se considera deschise intr-una din parti (de exemplu la dreapta) atunci amplitudinea grupei este unde: 1, = limita superioara (de exemplu: 7000; 1; = limit ferioarl (de exemplu: 6000; 7000 — 6000 = 1000 Valoarea central a grupei (valoarea medie) se calculeazii ca medie arit- metic a capetelor bet; _ 7000+ GUO Fitmed) =~ = ——g = 8500 Pe de alta parte amplitudinea totala este A = 10000 — 2000 = 8000 19 unde $8 este numarul grupelor. 2. in tabelul doi avem o caracteristica discreta "numarul de piese pro- Fie intervalul [121 ~ 130], Atunci use” si intervalele au fost uate ind 4 1 f= ay = (130-121) +1 = 10 este amp adauga unu fiinded capetele sunt socotite inclu A= (160 ~ 81) + 1 =80 este amplitudinea totala. Pe de alta parte 21 este limita inferioara; 30 este limita superioari udinea grupe. In acest aa se 8 = numarul de grupe, Observatie. Pentru eit ultimul interval nu avea margine superioard (fiind teoretic de lungime infinita), la calcule acesta se alege prin conventie in asa fel cn ultimad interval sii fie de lungime egal ew eelelalte. La fel s-ar fi procedat si eu prima limita inferioarit daca primul interval ar fi fost menfionat ea "sub 90 piese”. 2.3. Prelucrarea statistic Prelucrarea statistica este etapa cea mai importanta si mai elaborata. ‘Vom dao extindere mare in acest volum etapei de prelucrare. Ca efect esential a prelucriiii datelor este cresterea puternicé a cantitatii de informatie acum initial prin datele culese. Se realizeaza prin mai m Ite operatii ca: ~ centralizarea (sistematizarea) si gruparea datelor individuale: ~ stocarea pe diferite suporturi: fige, discuri optice din calculatoare, ete., formarea de baze de date performante; ~ eliminarea datelor aberante, se poate face si automat pe baz de programe incluse in softurile de bazsis m0 ~ calculul sistemului de indicatori statistici care trebuie selectati in vederea seopului urmatit; ~ prezentarea rezultatelor prin tabele, gralice, seri. in aplicatiile actuale ale statisticii se utilizeazd masiv tehnica moderna de calcul, cu diferite programe specializate mai mult sau mai putin pe statistic’. Amintim cateva dintre acestea, unele din ele executand automat operatiile ce vor fi deserise in conti 1. SPSS ~ este programul (softul) cel mai perfectionat si executi toate operatiile indicate de statistica teoretica, de la cea deseriptiva pant la cal- coulele cele mai sofisticate ale statisticii matematice, chiar si pentru un volum mare de date, Necesiti ennnstinte bine de informatie’, 2. SAS ~ Statistical Analysis Sistem este un pachet de soft care di posibili- tatea sistematizarii si prelucrarii unui volum de date suficient de mare. EXCEL ~ cuprinde programe de calcul pentru functii iatematice si ex presi statistice. Cele pentru statistics permit calculul mérimilor medii, a coeticientilor de corelatie, regresie si a testelor de semnificatii, Se pot genera tabele oricat de complicate féeand calcule automat cu datele cuprinse in acestea, se pot realiza diferite forme de reprezentiiri grafice, a TURBOSTATS ~ permite compararea diferitelor repartitii de frecvente cu cea normal si realizarea de teste de semnificatie si reprezentiiri grafice. MYSTAT - permite prelucrarea usoara a unor statistici descriptive aplicarea testelor de verificare a ipotezelor statistice Z, Ty precum si calcularea re- gresici, a corelatiei pe baza datelor obtinute prin sondaj, QSB+ ~ permite realizarea de previziuni pe serii de timp, programarea dic namicd, liniara, metoda drumutui critic, metoda lanturilor Markov, ete. QMA (Quality Management Analist) realizeaza statistici descriptive pentru numa mic de observatii (pana la 100). Este cel mai simplu program cu care se poate calcula mediana, modul, abaterea medic patratica diverse cvantile. Mai 2a poate realiza compararea repartitiei datelor de prelucrat cu repartitia normal adicd ne da gradul de normalitate a serie. 2.4 Analiza si interpretarea statisticd presupune compararea rezultatelor obtinute: formularea concluziilor asupra intregii cercetari: utilizarea unor teste de verificare statistica: elaborarea unor prognoze statistice. Observatie. Aceastii etapa este specifica fiecdirui domeniu de activitate in eure se foloseste statistica. Necesitd multit experienga in domeniul respectiv pentru @ evita capeanele ce pot apérea la interpretarea rezultatelor. 22 Capitolul 3 Serii statistice 3.1 Notiuni generale Seriile statistice sunt formate dintr-o ingiruire simpla, sau grupat, mai putin sau mai mult ordonata, a datelor culese. in prineipin clasificarea acestora se face dupa tipul caracteristicilor la care se refer, Vom avea astfel: 1) Serii statistice de timp (prezinta variatia unei caracteristici in timp) care ot fi = dinamice de intervale ~ dinamice de momente. 2) Serii statistice de spatin 3) Serii statistice atributive: ~ numerice sau cantitative (se refera la o caracteristicd numerica); — nominative san calitative jultan avem: 4) Dupa numarul caracteristicilor studiate ~ sorii statistice simple ~ contin date pentru 0 caracteristic: ~ serii statistice duble ~ contin date pentru dousi caracteristici 23 ~ serii statistice multiple ~ contin date pentru mai multe caracteristici, Cele duble si multiple se mai numese in literatura de specialitate si vee~ tori statistic’ Observatii. 1. Majoritaten statisticienilor studiazi seriile cronologice si cele de spatin ca fiind cazuri speciale. De fapt seriile cronologice se pot ineadra foarte bine in cele numerice (mdsurabile), deoarece timpul este 0 mérime continud, misurabili gi orice in- terval de timp poate fi impiirtit pe grupe Analog, serile de spatiu se pot incadra la categoria nominative, deoarece "zonele” in general nu pot fi ordonate ele primind un numdr saw eventual un od. 2 Caracteristicile cantitative am vizut ed pot fi continue (ca masa, indlftimea, contul, etc.) sau discrete (numdrul de copii, numéirul de piese fabri- cate, numérul de operatié la 0 banci, etc). Deoarece datele culese sunt in numiir finit ele sunt intotdeauna discrete, deci serile statistice atagate sunt cu valori discrete, Vacd numdrut de date discrete este énsit prea mare atunci se impune gruparen acestoru pe intervate, operatee pe care am tratat-o antervor. in continuare vom structura studiul se sid. lor statistice doar dupa criterile 24 3.2. Serii statistice simple (unidimensionale) sau pentru 0 caracteristica Fie o colectie de date asupra unei populatii cuprinsa intr-un fisier (tabel cea cel de mai jos: Ne] Numele/ | inalyimen | Masn | Numir | Cont | Stare ct codul copiit_| in lei | civil 1 Avram Ton a mlm ja | a 2. | Bane Gheorghe | 2 ms e@ | m Viidoiu Vietor | ory | my | uw | ew | sw Fiecare coloana corespunde unel caracteristici a indivizilor, caracteristic’ care poate fi de diverse tipuri dupa cum am aréitat mai sus. Caracteristici cantitative (misurabile) numerice Sirul de date corespunzitor unei caracteristici care reprezinta datele pri- ‘mare se poate organiza prin serierea o singura data a valorilor ce se repeta mentionaind freeventa de aparitie a acelei valori, adici freeventa absoluta, fie grupand datele pe intervale, in special pentru caracteristicile continue cu mentionarea corespunziitoare a freeventei In acest fel vom avea pentru o caracteristica: a) 21,22,...,2N ~ serie simpli neprelueratic by Valori_ [nae tr tablou de repartitie Freeventi | my ong... my (distributie) pentru absolutit seria simpla Prin serie statisticd se intelege si o corespondenti intre valorile car- i si freeventele de aparitie a acestora (frecvente absolute). Freevent acest tablou se numeste si repartitie sau distributie statistica. Denumirea de repartitie este sugestivii deoarece se referii la repartitia frecventelor abso- lute nj pe valorile x; lnate de caracteristica studiata. ‘Suma frecventelor absolute reprezinta numarul total de indivizi (unitati, elemente) a populatiei si se numeste volumul populatiei sau cardinalul populati Raportul dintre o freeventé absolut n; si volumul populatiei se numeste frecventa relativa fi Rvident Repartitile statistice se pot serie evident gi eu freeventele relative Valori_| 2122 oe fr Daca datele sunt grupate pe intervale vom avea: Freeventa | fi Nalori___| lesvaa] [oases] _--_[orvtets] Frecventa absolut | m me ny. Valori [a:,a2] _[a2,as] [ay ar) Frecventi relativi how Veri exemplele precedente. Uneori vom avea interesul, ca seria din forma cu intervale sa fie serisa cu valori discrete. Atunci in locul fieciirui interval [a,,a,41] se va pune valoarea ai tai sa centrality a reprezentant al grupei 26 Caracteristici calitative (nominative). Serii atasate in practica se intalnese destul de des si caracteristici calitative studiul acestora fiind in general foarte dificil datorita imposibilitatii comparirii: nu- merice a datelor. Foarte importante pentru aceste caracteristici vor fi graticele atagate Ca exemplu de caracteristici calitative putem mentiona: = sectoare economice: industrie, agricultura, transporturi, cercetare. invagamant, sfinatate, etc. cu ponderile lor: = repartizarea pe meserii a unei populatii: intelectuali, muncitori, liberi profesionigti, ete = tipuri comportamentale: sanguin, coleric, flegmatic, melancolic, care au © anumit pondere (frecventa) la o populatie data. Forma de prezentare a acestora este dat de tabele, ca cel de mai jos: N Freevent legrupei [A BOC DE Fo Yon=N absolut | m1 sau cu Irecventa relativa Numelegeupei [A BoC D BF fi=% Frecventa relativa | fi fe fs fa fs fo Ofi=1 Ubservatie. Grupele pot fi agezate in tatel in orice ordine ele neputiind fi comparate (intre ele nu existit 0 relatie de ontine).. turistice este Exemple. 1. Repartitia investitorilor in anul 2002 pe rami By data de datele de mai jos A. Turism montan (cabane) 30% B. Turism marin (hoteluri) 40% C. Agroturism rural 10% D. Transporturi in turism 15% E, Agentii turistice ox Tpul| A BoC D EF F [30% 40% 10% 15% 3% 2 Ultimul sondaj de opinie indied pentru candidatit la presedintie urmatoarele valori Numele candidatului | A. B c D Frecventa relativa. | 40% 35% 15% 5% 3.3. Reprezentari grafice Graticele reprezint un mijloc de prezentare intuitiva a datelor statistice cu ajutoral fin lor, punctelor, figurilor geometrice, sau a unor figuri simbolice, a hartilor, Au urmattoarele avantaie ~ inlesnese compararea si memorarea datelor statistice ~ ilustreazat dinamica fenomenelor economice: ~ constituie un mijloc esential de popularitate a datelor. Otice grafic trebuie s8 contini explicatii asupra scarii respective asupra figurilor folosite cuprinse intr-o legend cat mai simpli si sugestiva. 28 3.3.1 Grafice pentru serii simple atasate caracteristicilor numerice (cantitative) a) Histograma se construieste pe dou axe de coordonate rectangu- are, Pe axa e-lor (orizontala) se reprezinta intervalele egale succesive, core- terval cazul grupelor egale}. Pe fiecare spunzaitoare grupelor de valori se construiese dreptunghiuri avand inaltimea proportionala cu frecventa (ab- soluti sau relativa) corespunziitoare fiecarei grupe. Evident si aria acestor uri este proportionala cu frecventa corespunzaitoare fiecdrei grupe, dreptungh Ubservatie. Dreptunghiurile sunt lipite unele de altele si ordinea lor este bine determinate (nu poate fi schimbata). frecventa 4 i Fig.1 Observatie. Unitatea de mésurd pe fiecare din are se va alege in asa fel ea desenul sé se inserie pe un spatin rezonabit Exemplu. Gruparea salariatilor de la U.LAB.S. in anul 2002 pe varste este 29 data in tabelul urmator. Grupa de varstt | Numir de salariati 20-0 ant oo 31-40 ani 150 41-50 ani 200 51-60 ani 100 61-70 ani 30 Total 510 20 30 40 50 60 70 Warsta Pig2 b) La seriile statistice cu grape de mimi inegale pentru a asigura ¢ intuitie cat mai bund se va urmari, in histogram, principiul ca ariile dreptun- shiurilor, si fie proportionale cu frecventele si nu cu inaltimile (Iucru care este asigurat automat la serii cu intervale egale). Acest lucru este ilustrat in tabelul urmétor in care se vede si modul de calcul al inaltimilor dreptunghiurilor. Pe axa orizontalit se vor desena intervale succesive, de lungime proportional cu ‘marimea grupelor Exemplu. Repattitia Jitilor economice din industria extractiva. dupa 30 numérul de salariati este in anul 2002 data de tabelul de mai jos: Numar de | Numir de | Lungimea | Raport de | Frecventa salariagi | unitati | intervalului redusit economice ni L uae 300-500 2 200 1 2 501-700 6 200 1 6 FoL-1000 | 2 300 18 8 yoo1-2000 | 25 1000 5 5 2001-3500 | 15 1500 78 2 501-5000 } 11 1500 15. 175 Total 70 Fig3 Observatii. 1. Ariile dreptunghiurilor sunt evident proporfionale cu frecvengele m, ny loin i ees hy 2. La histogramd este esential cd dreptunghiurile sunt lipite si agezate intr-o ordine definiti: de succesiunea intervalelor. La seriile nominative vom intalni, de asemenca, dreptunghiuri sau pitrate care pot fiinsi aranjate oricum at datorita faptului cit variantele nominative A.B.C.... ale caracteristicit mu se pot ordona, ¢) Poligonul frecventelor este linia poligonala ce se atageaza unei seri cen valori diserete de forma lori numerice ty Freevente | mma ny, unde valorile numerice r; sunt ordonate crescator. ‘Mod de reprezentare: e axa orizontala a unui sistem cartezian rectan- gular 20y se reprevintit valorile em? — I = V3= 1,730 E=10md+ lem? — 1, = VT= lem Rezulta reprezentarea cu patrate. in interior se pot trece sumele absolute sau cotele procentuale, a fone baa Bed 086 40% fie a 5 c big.AL Diagrama cu cercuri. In locul pitratelor se pot utiliza discuri a ciror arie si fie proportionala cu sumele investite sau cotele procentuale. Razele cercurilor se caleuleazai cu relatia unde 5; sunt sumele alocate. Se alege, de exemplu, raza de 1 em pentru 1 40 hig 12 Pentru c& mu conteazd ordinea de prezentare a categoriilor A, B,C. ‘uneori cercurile sau patratelor se suprapun cele mai mici aparand in interiorul '20 ma hig 13 ¢) Reprezentarea grafici cu ajutorul hiirtilor, Este folosita in special pentru seriile de spatiu care se inscrin de fapt tot in categoria celor nominative (cate mu pot fi ordonate) ~ Cartogramele sunt grafice intuitive care ne aratii variatia unei caracte- ristici sau fenomen statistic pe un anumit teritoriu, construit cu ajutorul unei harti. Ble se construiesc utilizénd haguri sau culori care sunt explicat legend alaturata. sxemple de astfel de caracteristiei ar fi nivelul ditaiti, al gradului de riispandire a unei boli, al productiei ete. Pentru a marca intenstitatea fenomenului in diferite zone (frecventa acestuia) se pot utiliza de asemenea fig- uri geometrice: cercuri, pitrate de dimensiuni diferite, proportionale ew volu- ‘mul absolut al mérimii (sau frecventa) Freevent sunt util ate figuri naturale sau simboluri ca: spice de grau. 4 sonde, pesti, principiul proportionalititii cu frecventa fiind realizat prin numirul de figuri ce sunt desenate intr-o zona sau alta. Aceste grafice sunt simple, sugestive si din aceste motive extrem de populare Observatii. 1. Graficele pentru serii nominative (calitative) descrise mar sus desi au forme diferite sunt in principin identice. Formele variate in care par se datorese faptului cit aceste serii nu se preteazii Ia preluare numerict $1 prezentaren grafica intuitivd reprezinté aspectul principial al studiului. 2 Dac dowi grafce unul pentru o serie numericd, respect altul pentru 0 serie nominativi au intamplitor forme asemdndtoare, de exemplu cu drep- tunghiuritrebuie subliniat faptul cd ele sunt esential difeite De exemplu tograma este ential diferita de diagrama cu coloane in cceea ce priveste interpretarea, citirea desenului si respectiv concluziile ce se pot extrage. intrebari de control si aplicatii 1. Ce tipuri de discipline statistice cunoasteti?” Ce rol au? Ce legiituri exist 2. Care este obiectul statisticit teoretice si care sunt principalele probleme care se punt 3. Cate tipuri de caracteristici existii, cum se deosebesc? 4, Specificati care din urmatoarele caracteristici sunt calitative (nominative) si care sunt cantitative (numerice), respectiv continue sau discrete ~ salariul muncitorilor dintr-o firma: numtul de salariati din intreprinderile din judet: facultaitile din Universitate; candidatii la functia de pregedinte: 42 ~ notele studentilor din anul Ll: volumul fizie al vanzirilor Innare de zahir intr-o unitate comerciali produsul brut de benzina premium la toate rafinatiile in anul 2001; ~ repartitia studentilor din Facultatea de Stiin e Keonomice pe tipuri comportamentale, 5. La B.C.R. un functionar a notat succesiunea operatiilor financiare pentru sapte ideli clienti numerotati 3.7.4, 8, 1, 9, 6,2, 7,4, 7,2, 5,4, 2, 1,2, 7,3 7, 4,2, 4,3, 4,6, 1, 7,3, 4, 2,4, 3, 7, 5,6, 2, 4,1, 3, 2,24, 7. in cei m a) grupati datele obtinnd seria corespunzatoare cu frecvente, Ce fel do serie este? b) reprezentati grafic seria. Ce fel de grafic se obtine? Indicatie. Numele clientilor poate fi notat eu A, B,C,D,... sau cu un cod 1,2,3,...57. Raispuns. Cod elient 1 567 Freeventa operatiilor |4 9 7 10 3 4 8 Seria putea fi serisé gi Cod client ABC DEFG Freeventa absoluta | 4 9 7 10 3 4 8 a operatillor Se recomanda o diagram cu coloane pentru serii nominative 6. Lao firma au fost céntitriti 100 de purcei. Au fost obtinute datele din 43 tabelul aliturat: Masa (kg) | 30-40 | 40-0 | 50-60 | 60-70 | 70-801 Numir | 20 | 25 | 35 | a | 5 pureei ‘Sa se reprezinte gratic aceasta serie prin dowd grafice inrudite, Raspuns. Masa pureeilor este o caracteristica cantitativa. Seria se poate reprezenta cu. o histogramd sau cu poligonul freeventelor dacii se cal- cculeaza mijloacele intervalelor de masa, La un sondaj de opinie san determinat frecventele din tabelul de mai jos pentru cei patru candidati la functia de director al unei unitati economice: Numele candidatitor | A | B | c¢ | D Freeventa 40% | 35% | 10% | 15% Sa se reprezinte cel putin 3 gratice diferite pentru aceasta serie. native: cercul Haspuns. Se vor utiliza gralice pentru caracteristici nom de structura, dreptunghiul de structura, diagrama cu coloane, sau cea ct benzi. 8. Grupati datele de mai jos, ce reprezinta incasivile a 40 de agenti de 44 asigurari in luna mai a.c., exprimate in mii lei 1.234 | 7.329 | 5.160 | 18.500 3.920 | 17.421 | 10.850 | 4.220 13.490 | 5.830 | 4.530 | 5.960 9124] 2.739] 7.930) 6.221 12.431 | 13.910 | 12.648 | 13.800 14.318 | 15.550 | 6.850 | 12.500 16.421 | 12.480 | 18.130 | 19.400 1.450 | 6.180 | 17.200 | 14.220 3.42] 9.431) 2330 | 7.300 11.486 | 19.467 | 1.180 | 6.450 eprezentati apoi gratic seria obtinutd. Comentarii asupra carne. teristci, seriei si graticului, Haspuns, Se recomand’ gruparea in 4, sau 5 grupe, Se obtine 0 se- rie cantitativa, contin, organizata pe grupe. Se poate reprezenta ca histogram, eventual poligon al freeventelor. Capitolul 4 Marimi relative ‘Marimile relative sau indicatori relativi se obtin ca rezultat al comparatii a dowd mari i statistice compatibile. Compararea se poate face prin diferent sau raport, in ambele cazuri intervin doi termeni: u fermen pentru compatat si celilalt ca baz pentra comparatie, Ca diferent& comparatia nu se poate face decat intre termeni de acelasi fel, exprimati in aceiagi unitate de masura, rezultatul exprimandu-se in aceleagi unitati ca si datele comparate, Acest indicator statistic ne indica cu cate unitati difera (in marime absoluta) termenul comparat fata de cel considerat ca baz de comparatie in cazul comparatiei sub forma de raport, termenii trebuie st vertice anumite conditi tre ci sit existe o legiitura logic’ de corespondent’ de cauzalitate; ~ si fie compatibili (ca sfera de cuprindere, metodologie de cuprindere) ~ baza de comparatie trebuie aleasi astfel ca indicatorul obtinut st aibii semnifieatie. 46 4.1 Forme de prezentare Indicatorul obtinut ca raport este in general un numér rational obtinut prin impartire. Pentru a obtine un numér sugestiv ugor de manevrat si de ‘memorat, raportul se inmulteste cu 0 putere a Iui 10 convenabil aleas’ fermen de comparat tert 104 a) k= 0 raport simplu valoare EURO valoare Dolar Exemplu r= numar de studenti promovati _ 63, ‘numar total de student 0.8125 b) k= 2 remiltatul se da in procente, stiind ea 71 =0,9- 10°% = 90% rp = 0,8125 + 10% = 81,25% ©) k=3 rezultatul se obtine in promile (says = 1°/oo) numir de bolnavi de boala A 15 "Ss “numar de indivizi consultati — 960 15, 625° foo promile 102 *“ramdir de Tocuitori in judet ~ 1.235.600 ~ 0, 0011532 = 1, 1532°/oo 01562" numiir de cadre ) k=4 rezultatul se obtine in prodecimile ry = 11,582 prodecimile, k= 5~ in procentimile, ete, a7 Daca termenii comparati prin raport au aceiasi natura, adica aceiasi unitate de mésurii, raportul va fi adimensional, daca termenii sunt de naturit diferita unitatea de masura rezultati va fi compusi. De exemplu ca la vitezi v= # unitatea de masura va fi m/s sau km/ord. Exemple. ‘Venit net mediu pe locuitor = 150 8/locuitor Raport de variatie a veniturilor venit pe anul 2002 _ 30 mil venit pe anul 2001 ~ 20 mil Seanad care se poate exprima ca raport simplu, in procente 150%, promile, etc. 4.2. Tipuri de marimi relative Mirimi relative de structura (pondere, cot parte) Exprima raportul dintre un grup de elemente (o parte a populatiei fatii de toatii populatia. Denumirile sunt sugestive gi sunt de tipul: pondere, freeventa relativii, cot parte, indicatorul fiind adimensional. Se expriméi ca numér rational simplu, in procente promile, ete. Formula general de calcul este: parte Exemplul cel mai elocvent este caleularea frecventelor relative plecand de Ia cele absolute Hie seria Valori n Freeventa absoluta | ny no 4s atunel evident Mirimi relative de comparare (coordonare) a) Se utilizeaza cand dorim sa comparam ponderile, freeventele a dow arupe ale aceleiasi populati. Coeficientul de comparare este reversibil, ordinea in care se face raportul nefiind esentials £ su k= ri sau f; find freeventa absolut respectiv relativa eorespunzitoare grupei i iar ne si fe a grupei cu care se compari Fie seria en revultatele studentilor anului T Pinante-Riinei Valori nete | 1-4 | 5-6 | 7-8 | 9-10 Numar note | 10 | 25 | 35 | 30 Freeventa_| 0,1 | 0,25 | 0,35 | 0,3 Numar note foarte bune—_ 30 Numar studenti nepromovati — 10 Numar note suficient, ‘Numir studenti nepromovati _ Numa note de trecere _ 90 ‘3 ky f= Smtr note ah eine TO = § ‘b) Se pot compara gi frecventele relative corespunzatoare unor grupe din seri diterite Fle sera en remultatelenateloratudentitor anntul T Finange Binet Valori not Frecventa relativa mia = Hp = 5 sau reciproc U2 ma = gy =? Coneluzii. Procentul de studenti nepromovati din anu! I este dublu fata de ccol din anul 1 Marimi relative de intensitate Se obtin prin raportarea a doi indicatori absoluti de natura diferita care au legatura intre ei. Sunt marimi derivate de tip cantitativ si au caracter reversibil. Cele mai cunoscute exemple de mirimi relative de intensitate sunt den- sitatea populatici raportate la 1 ha de teren agricol, productia industrial de un anumit tip pe cap de salariat din domeniul respectiv, productia la 1000 lei foncuri fixe, ete. Modul de calcul se face prin raportarea a dowd valori corespunzitoare luate de la doud caracteristici diferite X gi Y Coaracterietiea Zone, ndete [A [BIO D Y Suprafata agricola | yr | ye | ys |v Indicator de nrlocuitori | 1 | 2 | a2 | 2a intensitate direct | "~ fa_| mw | ve | ws | Indicator de ha n us | os imtensitate reciproe | “oe | ai | aa | 23 | a Daca foloseam caracteristica spatiu si timp pe diferite trasee obtinem ca raport intre ele viteza (intensitatea deplasiii pe diferite portiuni A,B,C,D,...). Alteori obtinem densitatea, sau pretul unitar ca raport intre cantitaitile de marfa vandute si valoarea incasata in diferite magazine, ete, 50 Marimi relative ale dinamicii Se aplica in general pe serii cronologice la care mrimea relativa dinamic& caracterizeazii modificarea relativa a seriei cronologice Formula de calcul present 199%, in funetie de baza de comparatie cele mai freevente cazuri sunt: a) Cu bazi fix care reflect’ modificarea fenomenului in timp analizat fata de perioada anterioara fix’ unde: in perioada curenta n= valoarea indicatoruh n perioada de baz. at = valoarea indicatorului i relative eu baza in lant: care reflecta variatia fenomenului eco b) Mati nomice fata de perioada imediat anterioaréi kar a 100% Exemplu. Mirimi relative | Marimi relative ‘trimestrar | Benefis | de dinamica de dinamie’ llded cou Daal fan aus, in % in % 1 25 100 : ia 5 200 200 m1 6 240 120 Vv 9 360 150 Marimi relative ale planului Se utilizeaza in analiza fenomenelor economice care se destagoara plani- ficat si sunt indicatori economici esentiali. Sunt doi indicatori de baz a) mirimi relative la sarcini de plan kyo = a 100% ‘to = valoare planiticata 19 = valoate realizat in perioada de baz b) mirimi relative ale indepliniii planalui te = valoare realizataé 2291 = valoare planificat ‘Marimile relative ale planului se reprevintit grafie prin enloane, Capitolul 5 Marimi medii 5.1 Exemple de medii uzuale Jn acest paragraf vom trece in revisté cole mai uzuale medi proprietaie Jor comune, o metodé general de obtinere a acestora g precizarea aplicailo. Media este un numér care rezumeaza ansamblul valorilor nei variabile, calculat prin intermediul unei functii de aceste valor Vom considera in continuare o serie de valori 21, 22, .... ev numite gi termenii medi, 1. Media aritmetica este cea mai cunoscuti si utilizatit a) Simpl b) Ponderatd: Daca unii termeni se repeta adic avem seria cu frecvente absolute Sayan Freeventa absoh media atitmetio’ devine Daca seria este data eu freevente relative Valori n Frecventa relativa | fi atumnei mop = otis aceasti expresie, in conditiile precizate mai sus, se mai numeste $1 combinatie liniard convert ©) Forme folosite pentru simplificarea caleulelor. ~ Media aritmetica caleulata din valorile caracteristive:r; miegorate cu o constant "b” este mai mica decat media initial’ cu constant "b”. Adica Ve -on a(x —b) me (ai) = Sat Eh ~ Media aritmetica calculata din 2; micgorata prin impartire la mol] Daca se inmultese frecventele absolute cu o constant “c” aleasé 1 ) afi pmalei) arbitrar, media nu se schimbi. Salen) Aen Media aritmetica are aplicati in foarte multe domenii in primul rind in statistic’ 1a calcularea celui mai folosit indica- tor "media statistica”, in mecanicd la caleulul centrelor de greutate, in chimie la studiul solutiilor, aliajelor, ete. Observatie. Frecventele absolute n; sau cele relative fj in definirea medi itor au rol de ponderi. in cazul seriilor ce au distributia de frecvente constanta pe intervale se ia in ealenl central intervalelar ay taist 2, Media armonica. in continuare vom considera cele trei tipuri de serii simple, cu frecventa absolute sau cu frecvente relative, cu aceleasi notati $i observa. a} Simpla este data de relatia b) Ponderata sathp Aplicatii. Media armonica se foloseste la calculul nivelului mediu al unei caracteristici derivate, cu caracter de marime relativ ca pret unitar mediu, densitate medie, viteza medie, ete. 3. Media geometrica. Se poate utiliza doar dae distributia statis. tied are toti termenii pozitivi. Se mai numeste si ”medie de ritm” pentru c& se utilizeazi cdnd fenomenul supus cercetirii inregistreaza un ritm de modificare incetinit chiar daci volumul absolut al moditicarii este mare, Media geometricd scoate in evidenta influenta valorilor mici ale car- acteristicii. Din acest motiv se utilizeazé $1 in electrotehnica pentru studitl curentilor de intensitate foarte mici. De asemenea, se mai foloseste pentru cealenll in Ii medi de evolutie a inn fenoment econamie. a} Forma simpla este Verona ay b) Forma ponderaté safest forma care are frecventele relative ca ponderi. 4. Media patratica. a) in forma simpla este my Se observa ci este radiicind patrata dintr-o medie aritmetied a paitratelor, Se utilizeaz in special la calcularea unei medi a abaterilor de la ‘medie; a erorilor care sunt $i cu semm pozitiv si negativ. Ridicarea la paitrat a termenilor are rolul de a distruge semnul deviatiilor, altfel aces- tea s-ar reduce intre ele si media urmrit mu ar mai avea sens, ar fi total denaturaté. Dupi efectuarea mediei aritmetice a pitratelor este bin- cevenitii extragerea unui radical de ordinul doi pentru a reveni la dimensi- unea (unitatea de misur) a termenilor 2; cu care s-a facut media. Altfel utilizarea mediei abaterilor de 1¢ imposibili. Are aplicatii in statisti: Ja construirea unor indicatori ai imprigtierii (abaterea standard) tehnica la studiul erorilor b) In forma ponderatd avem douii variante, ca de obicei, cu frecvente (pon- deri) absolute n, san en frecvente relative Observatie. Media patraticd scoate in evidentit influenta valorilor mari ale pnractersshies 5. Media de ordinul a. Se caleuleazat analog cu cea pitratie’d doar valorile 2; vor fi la puterea a si indicele radicalului tot a. | 1 b) In forma ponderatit Cazuri particulare. Daca a) In forma simpla se obtine media armanici media aritmeticn media paitratica media cubica, ete. a Media cubied este utilizati in statisticd pentru construirea unor indica tori ai gradului de asimetrie a unei distributii fata de valoarea medie (valoarea central, Gradul de asimetrie poate fi subliniat doar de o medie de ordin impar, cea mai potrivita fiind cea de ordinul 3, adied media cubied. Ka amplified puternie rolul abaterilor mari 5.2 Proprietiti generale ale mediilor in cele ce urmeazai vom considera ponderile ca find pozitive pentru cit cel mai des vom utiliza ea ponderi freeventele absolute ns respectiv cele relative fi Vom nota cu a= min; gi cu A= max; unde 2; sunt termenii medic. 1, Toate mediile, fie ci sunt simple sau ponderate, sunt interne, adic cuprinse in intervalul [a,A| indiferent de termenii x; si ponderile nj sau fi poritive. Demonstratia este simpla si ident c& pentru toate mediile. O vom ilustra pe media aritmetica, de exemplu, la care vom alege forma cu ponderi relative, fi (fit fats t fy) Saif t taf tot php SAU +--+ fy) Minorim prin inlocuirea tututor termenilor ¢ eu a si majorém prin inlocuirea acestora eu A 2. Prin variatia convenabilii a pondetilor, orice medie poate lua orice Al. 3. Intre mediile enumerate mai sus exista urmiitoarele relatii de ordine wchis valoare din intervalul me my SMe S My < m3 < a< mp xp Bxemplu. ze(-c,7] 0 re(7,8) O15 2€(9,10} 0,80 re (10,11} 095 0,05 | 2€ (11,+00) 1 n Grafieul hig. Observatie. Expresia functiei empirice de repartifie este putin diferitd de se ria freevenfelor cumulate crescator care in punctul x; adund toate frecventele anterioare punctului x; inelusiv pe cea din punctul xs Functia empiricd de repartitie le cumuleazai doar pe cele anterioare pune- ‘ului 2; si respect aceeasi conventie ca si functia teoretica de repartitie a prob- abilitatilor. Seria frecventelor cumulate crescitor pentru exemplul anterior este Freevente ‘ Freevente Frecventa | absolute | Frecventa relative 2: | absolut | cumulate | relativit cumulate ‘ a cresciitor 7 3 015 015 9 2 0.45 0,60 4 16 0,20 0.80 10 3 19 015 0.95 un 1 20 1 bb) Pentru seriile cu valori grupate pe intervale egale, in interiorul fieciirui interval functia empiric de repartit este aproximatii cu o funetie de gradul intai adie eu segment de dreapta ce uneste punctele extreme, Wie seria Valori | {a:,a2) _ [a2,a3) fa, a;44] [ap—1,49) Freeventa |p fi tv redusa Atunei in baza definitiei si a conventiei de aproximare de mai sus avem { 0 daci x Say Fey=| Shy 422Mhe aac c2 Saani= he~ 1 dack 2 > ay Cu d am notat lungimea unui interval d= aj41 — aj. Daca intervalele nu sunt egale in loc de d se pune ds Observatii. 1) Funetia empiried de repartitie aprorimenzi intotdeauna functia teoretica de probabilitate si de aceea este foarte utild in teoria selectiei 2) Dac se di o serie statisticd fie cu frecvente absolute fie ew frecvente relative putem determina in mod unic functia empiricit de repartitie $1 reciproc. Exemplu. Hie seria: Fe) Numar de | Freeventa Grupe de me | salariagi | relative varsti empiric ‘ dle vepartigic 0 daci « € (00, 20] 9 =A OS 20-30 40 0.08 10 daci x € (20,30) 008 - = H)-0.38 30-40 140 0.28 10 daca x € (80,40) f= i)-0.7 40-50 200 ogo | O88 + T0 daca € (40,50) = 50)-0,20 76+ = VD 50-60 100 og | OT +" a9 dai x € (60,60) TANTO 0,964 S= A 0.08 60-70 2» 0.04 10 dacit x € (60,70) 1 daca x € (20, +90) Graficul lui F(r) este o linie poligonala ascendenta, hig.15 6.1.5 Cvantile empirice. Mediana Fie 0 serie statistic’ de volum 1V cu valorile 2 ,2r2,..-.20y Definitia 6.1.2 Se numeste evantila empirica de ordinul p sau p-cvantilii a distribute’ statistice, radacina nied a ecuatiei Fley)=p, pe (0,1 unde F(x) este functia empirici de repartitie Cu alte cuvinte zp, p-evantila, reprezinté o valoare numeric situata in sirul sau intre valorile distributiei statistice pani la care s-a acumulat ¢ frecventa relativa egal cu p. Cvantilele au rolul de a diviza totalul freeventelor n pati, dup necesita Cami importante uzuale: a) Pentru p = } => ap = Me se numeste mediana distributiei Este 0 valoare a caracteristicié care imparte freeventele acesteia in dow’ parti egale. b) Daca se obtine sry), care se numeste evartiul A inferior se obtine irsj« care se mumeste evartil superior. Diferenta zs 1/1 = Ag se numeste interval intercuartilic si are rol in aprecierea impristierii a jumaitate dintre freevente in jurul valorii centrale Este vorba de jumatatea din mijloc. 6) Pentru p = 4, k = 1,2,3,...,9, se obtin cvantilele 4/9 numite $1 decile. Su t in numar de nowi si impart gama freeventelor unei serii statistice in zece parti egale. d) Se mai folosese si cvantilele numite centile, notate z¢/i99 obtimte a: k = 1,99. pentru Decilele si centilele se folosese de obicei in cazul seriilor eu numir mare de valori 6.1.6 Calenlul medianei Mediana verifiex eenatin Fleme) 2 a) Pentru serie cu valor discrete valoarea 1/2 afunctiei (2) vafincadata astfel Dush tas =? #1 se considera aberantii si se el b) Daca 2 < tas = 21 este corectii gi se retine, Analog se procedeazai eu zy doar ed se compari zy CU fa. Exist si alte teste pentru veriticarea valorilor elaborate. Una ar fi, de exemplu, testul Romanovski, care are aceleasi etape ca in testul de mai sus x deosebirea ci si 7 sunt calculati fir valoarea xy suspectit, respectiv zn Foloseste alt tabel, aseminiitor cu cel al Iui Grubbs. Observati poate trece la werificarea tui x2, urmitoarea ca marine posibil gi ea aberunti Davis spre exemplu valoarea x, « fost eliminati ca aberanta se La fel cu tn, daci a fost eliminati x 6.4 Momente centrate Sunt indicatori numerici foarte utili construiti pe baza abaterilor de la valoarea medie a valorilor seriei, Sunt uzuale urmatoarele notiuni ia ~abatere de la constanta « a valotilor serie: ~ abatere de la medie: X| —abatere absolut de la medie, 1. Momentul centrat de ordinul k, are expresia = pentru seri imple 80 Cazuri particulare kU ‘nu poate fi folosit; k= « dispersia empiica 7, = © abaterea standard 7 = Vf Ty si Ti intervin la construirea unor coeficienti care miisoar’ excesul (boltirea). tra, respectiv 6.5 Indicatori pentru asimetrie Gradul de asimetrie se obtine prin compararea seriei date cu una simet- ric cum ar fi cea obtimita eu valorile unei caracteristici repartizate normal (cepartitia Gauss) Vom face ca amandoua repartitiile si aiba aceiast valoare mecie si aceiasi dispersie, cu alte cuvinte vom folosi abaterile normate. ©K.Pearson propune ea indicatori pentru asimetrie: 1. asimetria absoluta on Coeficientul Cox ia valoti intre 1 si +1 si are urmétoarea interpretare: Cue =0 dis 0< [Cael $0.3 distributia moderat asimet utia este simetricé: 0,3< [Coal <1 distributia puternic asimetrica. 3. Coeficientul Beta este definit ca valoare medie a seriei normate atagatit sori’ date indica _ (: Asimetria poate fi vizualizata, de exemplu, pe un grafic cum ar fi his. x ) deci = tograma sau poligonul frecventelor Fig 7 Daca p; > 0 distributia este asimetrica la dreapta. Daca p; < 0 este asimetrica la stanga. Denumirea “asimetrie la dreapta” vrea sa sublinieze faptul cA suma dlferentelor portive 2 — are pondere mai mare in parten dreaptai i poligonl frecventelor are o panta mai lina (descreste mai incet) in partea dreapté a mod- ului, Asimetrie la stanga, invers * Coeficientul de asimetrie Yule (Ca¥), masoari asimetria cu an ajutorul pozitiei evantielor si a medianei, daci notam q: = Me — 24 $i 2 = 3/4 — Me, atunci =m _ teat rye 2M pra at Cay cate are urmatoatea interpretare: CaY <0 repartitia are asimetrie la dreapta Ca¥ > 0 repartitia are asimetrie la stanga; CaY =0 repartitia este simetrici * Coeficientul Bowlei (CaB) masoara asimetria in fumetie de poritia decilelor 1 si 9 fata de median’ dy dy _ top + 20 ~2Me CaB dy + dy Topo ~Fip0 unde d) = Me— 21/19 si do = 49/19 — Me. Acest indicator ia valori tot intre ~1 si 1 si are aceeasi interpretare ca la Ca¥. * Coeficientul de boltire (Pearson) arata gradul de aglomerare a valorilor seriei in zona centrala a distributiei lui X. Se expriméi cu ajutorul lui Ty B Daca 2 > 0 poligonul freeventelor este mai adunat si iniltat, distributia se zice leptocurtica; 2 = 0 poligonul frecventelor seamindi cu legea normal normatt dati de le,0,1) , <0 poligonul frecventelor este mai turtit, distributia se numeste platic- urticd 9 Aplicatii: 1. Hie seria 70-80 Varsta | 20-30 | 30-40 | 40-50 | 50-60 | 60-70 | si peste ‘Numar de 3o | 36 | 52 | 40 | 2 18 pacienti Sa se calculeze principal indicatori statistici: medie, dispersie, abatere standard, coeficient de asimetrie a Ini Pearson. Vom ilustra modul de organizare a calculelor in cazul in care acestea se fac manual “Sr |e | won | Pot (ais0i41) ni apatete | 20-90 30 2% 0 30-40 36 3% 1260 40-50 32 45 2340 30-60 40 3 2200 60-70 2 5 1560 70-80 18 5 1350 Total 20, 9460, 93 {tabelul continua pe pagina urmitoare} Gmpa de Patrate de | Produse en Diferente varstit . diferente diferente m-X x x, (@i,aiy1) (ai =XP | (i= X)ni 20-30, 223 497,29 14.918,70 30-40 212.3, 151,29 5AM Ad 40-50 23 5.29 275,08 50-60 UT 59,29 2.371,60 60-70 17 313,29 7.518,96 70-80 QT 767,29 13.811,22 Total 44.342 2. Sa se calculeze X, 3, 5; coeficientul de asimetrie a lui Pearson pentru seriile 2 si 3 din capitolul precedent cat gi pentru urmitoarete: Grupe sportivi. | Numir dupa varsta | sportivi (aisaist) ny 18-20 6 20-22 16 22-24 20 24-26 4 26-28 4 ou ‘Numir de piese Numiir de exeentate | mnneitori | ae — | Ge —X)* | (a — X)n, de un nm muncitor 28 1G a 49. 784 31 25 4 16 400 33 20 2 4 80 35 30, 0 0 0 38 28 3 9 252 43 a 8 64 134 M40 2860 Haspuns, 7 = 4,519, Ubservatie. Dacii se uilizeazi un program specializat de statisticd atunci nu mai sunt necesare aceste tabele, calculele faicindu-se automat dupa introducerea corecta a datelor. Capitolul 7 Indicatori numerici pentru serii statistice calitative (nominative) intr-un capitol anterior am prezentat graticele specifice acestor serii, gtafice esential diferite de cele ale seriilor numerice, Vie 0 serie calitativé tipied, la care vom nota categoriile cu At Ao, Ags--++4ny iar pentru freevente vom considera pe cele relative Sis fas-++sJn asifel c& seria se va prezenta sub forma Categorii | Ay Az An Os het Freeventa | fife os in| fal Pentru c& aceste serii nu au valori numerice, eI nume, ¢ normal sa nu putem calcula pentru ele indicatori numerici care sunt foarte utili si usor de ‘manevrat. Nu se pot defini media, dispersia, mediana, asimetria, nici macar nu se poate desprinde un trend din graficul atagat acestor serii pentru e& poritia categoriilor A, este arbitrara in serie, Poate doar modul si fie mentionat, aceasta fiind categoria A chruia ii corespunde frecventa cea mai mare fj max fj. Vom incerca totusi s& giisim cativa indicatori numeric utilizind doar frecventele fi 96 1) Coeficientul de variatie absolut al frecventelor Ve Sas Sonn: 2) Coeficientul de variatie medie al freeventelor Vn unde n este numérul de categorii (pozitii) 3) Coeficientul relativ de uniformitate (imprastiere) a frecventelor, il vom defini cu ajutorul entropiei introdusa de Shannon pentru variabile aloatonre Afi faye bn =D floss f Se gtie ca H variaza intre [0, log» n] adica igi atinge maximul cand toate frecventele f; sunt egale cu h, H +4) = log. n Propunem ca si coeficient relativ de uniformitate al unei serii cali- tative numarul Hf fase) Tog) Aceasta variaza intre |0, 1. Daca freeventele s i acumulate puternic pe una sau dows pos Uy este mai apropiat de 0. Daca frecventele sunt repartizate mai uniform atunei Up este mai mare, chiar apropiat de 1 Se pot compara douzi sau mai multe seri eu ajutorul acestui coeticient chiar daca an mumar diferit de poritii (categorit) Exemplu: Fie seriile calitative Freeventa Freeventa 09 07 02 relativa relativa 7 Sectoare | A BC Freeventa 033 0,33 0,33 relativa Cle au graficele cu coloane: os 03 033 033 033 o2 Jo>| foo) o02 - > > > a 8 © AB © a BC hig 1s Aplicdnd formula de mai sus obtinem pentru cele trei serii urmatoarele valori: U,()) = 0,32 Up(2)= 0,936 U,(3) =1 Acest coeficient este util pentru a compara o situatie veche cu una now dupa Iuarea unor masuri economice, in vederea imbunsitatirii unor parametri corespunziitori diferitelor sectoare. De exemplu: pierderi, productivitatea muni, benefici, ete. 4. Coeficientul de concordanta (de armonizare, de coincident) a dona serii calitative CC, Se pot compara doar serii (douzi sau mai multe) care au aceleasi categorii calitative (sectoare) obtinute in dow perioade diferite, in doua sondaje, ete. Vie seriile calitative x Ar dee An) yf Br Be ve Ba fof tn fi h fn 98 tunel . COn = Sift a Acest indicator poate si varieze intre 0 si 1 El trebuie corelat cu coeficientul de uniformizare Uy. CC, este semni- ficativ in special dacti coeficientul de uniformizare relativi Uy este mai mic de 0,5. Avem urmatoarea interpretare: a) Daca CC, < 0,3 concordanta (coincidenta) intre cele doua se foarte mici: b) Daca 0,3 < CC, < 0,7 avem o concordant mijlocie: ©) Dacd CC, > 0,7 concordanta este mare adica exista o stabilitate a poritionatii frecventelor in cele douai esantioane Acest coeficient addnceste studi comparativ al douti serii statistice daci micar nna din ele are un coeficient relativ de sniformitate mie. 5. Indicatorul de concentrare numit "Energia informational Onicesen” Se calculeazé dupa relatia: El=) ff, fet unde f; sunt frecventele relative corespunzatoare categoriilor seriei calitative. Energia informational a unei repartitii poate fi cuprinsti in intervalul [4,1]. Acest indicator ia valaorea maxim 1, cid distributia prezint& o con- centrare maxima (total), la singura categorie, iar valoarea minima 4 find frecventele relative sunt egal impirtite pe toate categorie. Acestcoeticient are © variatie inversa fata de U, — coeticientul de uniformizare propus de noi mai 99 Daca caleulim coeficientul £11 pentru exemplul de mai sus prezentat si in figura 18 obtinem: Eh; = 0,9" + 0,07* + 0,02% = 0,81 + 0,0049 + 0, 0004 = 0,.8153. Ell = 0,5% + 0,3" +0,2% = 0,25 + 0,09 + 0,04 = 0,38, El = 0,33" + 0,33* + 0,33* = 3-0, 1089 = 0,32. Indicatorul E7 are inconvenientul c& variaz pe un interval a eérui limit’ inferioara 1/n depinde de numarul categoriilor (grupelor). Pentru a inlatura acest Incru se foloseste o form corijatat data de relatia a c&rui interval de variatie este [0, 1] Pentru exemplul de mai sus avem: Corrado Acesta este aseminitor cu ET propus de Oniceseu cu deosebirea ci se Ee vn Coeficientul CG ia valori pe intervalul Si acest coeticient are o forma corijatit a cirei variatie este independent’ mai extrage ridacina patrata. ca 108 de numirul de categorii considerate. Aceast variant a fost propusii de Strtick. si are ca domeniu de variatie |0,1|. Apropierea de zero inseamna uniformizare mare, apropierea de 1 inseamné concentrare pe o pozitie (polarizare). to Capitolul 8 Serii statistice duble. Distributii empirice bidimensionale. Tabele de corelatie 8.1 Notiuni generale in acest capitol, vom considera colectivitatea statistic’ C si ne fixiim supra a don’ caracteristici ale elementelor sale. Le vom studia simultan cu scopul de a verifica daca exista legdturi, influenta reeiprocé, sau numai intr-un sens, intre acestea. Studiul este mai complex gi necesita toate cunostintele de pana acum plus cele ce vor fi tratate in continuare, Fie, de exemplu, 100 de student la care urmitim masa si sexul. in 1n2 tabelul de mai jos vom avea datele observate. Se] sascutin | Feminin || Total Masa 40-50 0 10 10 50-60) 3 15 20 60-70 25 3 28 70-80 20 2 2 80-90 10 0 10 Total 60 40 |) 100 in acest exemplu am urmirit douai caracteristici din care una era canti- tativa ~ masa, iar alta calitativa ~ sexu Putem avea trei combinatii: a) ambele cantitative; b)ambele calitative; c} una calitativa gi alta cantitativa, In capitolele precedente am subliniat marea deosebire a modului de tratare a acestora si diticultatea de a giisi indiactori nu- ‘merici pentru caracteristicile calitative Pentru inceput vom trata cazul in care ambele caracteristici pe care le vom nota cu X si respectiv ¥ sunt numerice si ian valorile X(01,22,...,2), respectiv ¥ (y1,y2,..-,¥s)- Cazul cand cel putin una din caracteristici este cal- itativaim va fi tratat in mod special separat, ulterior. Un alt aspect. ce merita precizat este modul de prezentare a datelor. Pentru doua caracteristici cel mai recomandat este cel matricial (masiv cu doua dimensiuni) pentru trei caracteristici, masiv cu trei dimensiuni (matrice spatial), unde elementele au tret indiei ete, in vederea introducer datelor in calculator apoi a prelucritii lor. Este stiut faptul ci in calculator se pot intro duce date ce au mai multi indict si apoi se pot preluera foarte ugor. Prezentarea ce va fi fic in continuare va urmari tocmai acest scop. Date ce provin de la dowd, trei sau chiar patru caracteristici se pot prezenta pe coali (care are dou dimensiuni), cu ajutorul tabelelor combinate, 13 ‘mult folosite in statisticd, inainte de aparitia calculatorului, in vederea prelucrii ‘manuale, Exemplul de mai jos poate fi inscris intr-un tabel combinat in care sit ‘mai introducem si a treia sau chiar gi a patra caracteristica. Luerul cu tabelele combinate devine greoi la un moment dat. Aceste observatii le facem doar pentru a marca echivalenta. Anul de | Masa 40-50 | 50-60 | 60-70 | 70-80 | 80-90 studi Sa ea fed el ped eed edi ne feel Total 1 100 o {10 | 5 [15] 25 | 3 | 20] 2 |i] o 1 Tt 0 [12] 6 [1s] 29 | 5 jaa] 4 fizjo ur 90, o {uo fiz] a] 4 |e] e2|uto WV 2 o [15] s [20] 30 | 6 [20] 3 Jiolo Total 42 0 | 48 | 25 | 70 | 111 | 18 | 86 | 11 | 53 | 0 In tabelul de mai sus avem pe orizontalii doua caracteristici: masa gi sexu, find un cap de tabel eu doua lini, una subordonata celeilalte si pe ver- tical a treia caracteristicd. Se putea introduce si a patra caracteristicd, de exemplu: inaltimea sau bursieri si nebursieri, ete. Acest lneru se putea realiza fie Iudnd la capul de tabel o a treia linie sau pe vertical a dow’ eoloand ‘Lotus spiritul organiza, stocarii si prelucrarii datelor va trebui sa tind cont de utilizarea calculatoarelor si deci de teoria bazelor de date asociata studiului informatic 8.2 Serii cu ambele caracteristici numerice in continuare vom considera cazul general de prezentare a datelor ce provin de la dowd caracte stici numerice cuprinse intr-o asa numitii tabela de corelatie 2 ae fee|om |e | oe a {an || ny mas || me a | ma nig Nig || Rie ze | met Mj tye || Mee Total | ne ej tes || ‘in acest tabel: Zita.-ute sunt valotile lnate de caracteristica X istlas--ssile stint valorile Inate de caracteristica Y. gj sunt frecventele absolute (numar de indivizi) pentru care caracteristica X ia valoarea 2; qi simultan caracteristica Y ia valoarea y,. in locul valori- lor 2; pot apiirea gi intervale de valori de tipul [ai,ai4., respectiv in Locul hu vi — (bj, bis Pe marginea tabelului jos si la dreapta sunt trecute aga numitele frecvente marginale sau frecvente de grupi care insumeazi toate frecventele caracteristicii Y pentru o valoare fixit xj a lui X sau grupa |aj,ais1 sam invers. Le vom nota en m=) i my sat mg my ‘Suma tuturor freeventelor din tabel este egal cu N volumul populatiei, died avem 105 Un tablou de corelatie ca cel de mai sus poate fi completat sicu freevente relative fy = Ti ind vom avea relatile . Sewer Sv=hn Yi a we x ni fg | fee fay 1 8.3 Reprezentiri grafice ale seriilor duble cu dou caracteristici numerice (X,Y) Exemplu. Fie 107.800 piese extrase din produetia unei magini pentru care in milimetsi scan misurat domi dimensinni X sau abtinnt datele din tabela de mai jos (dupa M.H.lonescu, [6)). 106 os | - 0 at ow - - : : ous | one os wo 0 oot : : ve | ove ott oat fons | scar | exo - - ove: | oot owe sees fows fon | suse | ose : 000: | - see sar | oa — | oo | axe oF rea, . . ‘ ~s'en -a'e0 | 20 | 20 | -2e0 | -o49 | 26 x 107 Fig.19 a) Poliedrul frecventelor atasat seriei descrisa in tabelul de mai sus, unde valorile Iui X si sunt date pe intervale se obtine in modul urmitor: in planul XOY se reprezinta dreptunghiuri avand laturile egale cu dimensin- nile intervalelor [a;, ass] pentru X, respectiv bj,6)42] pentru Y, obtinand ¢ retea de dreptunghiuri. In centrul fieckrui dreptunghi se ridic& un segment proportional cu freeventa ce se alld in tabelul seriei la interseetia liniei i cu coloana j. Unind extremitatile segmentelor consecutive se obtine o suprafata poliedrala (vezi figura 19). Ea corespunde poligonului frecventelor din cazul unidimensional. ‘Toate proprietatile si observatiile de la poligonul freeventelor se extind si la poliedrul freeventelor. Poliedrul frecventelor are o important& ‘mare in statistica inferential prin faptul ca sugereaza ce lege de probabilti- ate modeleazé ansamblul celor doua caracteristicl X si ¥, luate Impreuna. De exemplu, daci suprafata poliedrala are forma de clopot circular, sau clopot cliptic (alungit) atunci se propune legea normal a Iui Gauss bidimensionala, ca model probabilistic pentru perechea de caracteristici (X,Y) Ins Hig.20 'b) Histograma spatiala este formati din paralelipipede dreptunghice avand ca baz dreptunghiurile din planul XOY deseris& mai sus [a;,a:41] 109 ’bj, bisa], iar inaltimile proportionale eu freeventele nj; corespunziitoare (vezi figura 20). Ca si la histograma plana, la histograma spatiala paralelipipedele sunt aliturate si pozitia lor nu poate fi schimbati, astfel inedt ansamblul lor sugereaziilegea de probabiltiate. Acest lucru se datoreazii faptului cA miirimile X si Y au fost presupuse numerice (masurabile) si deci ordonate, Cu totul altfel stau lucrurile la caracteristicile calitative unde se poate alege arbitrar or- dinea categoriilor (numelor) caracteristicii, graficul are mai putine interpretari si prelucrarea datelor se face cu totul diferit Intre poliedrul frecventelor 4i histograma spatial. este o mare simil- itudine pentru ca centrul dreptunghiurilor superioare ale paralelipipedelor este acelagi cu extremitatea superioaré a segmentelor ridicate Ia construetia oliedrului freeventelor c) Nor de puncte. in fiecare dreptunghi (sau patrat) din planul XOY deseris mai se reprezint un numir de puncte proportional eu freeventa nj, sau se deseneazii un disc de arie proportional eu freeventa nj. Raza cerculii cel mai mare se alege in aga fel ca discul s& fie complet inclus in dreptunghi Se obtine o zoni de culoare mai inchisa, alta mai deschisa, alta alba incat este foarte sugestiva repartitia frecventelor (vezi figura 20). 8.4 Indicatori numerici pentru serii duble cu ca- racteristici cantitative si frecvente a) Medii de grupe. Dispersii de grupe. Pentru a defini aceste notiuni vor relua tabelul bidimensional We (eife Tea (ee ee tasodsia S eS = es ap pays APL oP “ “ “ “ {inn we We "Ez a Ta Tar a] es [ea] me '” , a eu tam [teros| t 4 oe tu | t= fost} ee | eae | ee wins | want | sdnatod “ x op op sen 4 A Seana wore a aint uW 8.4.1 Medii de grupe. Dispersii de grupe Medii de grupe. Fie Y; media grupei i de la caracteristica X care se obtine privind ca o serie unidimensionala valorile lui Y : y1yy -.-us si frecventele adici liniei (grupei) i ale caracteristicit Valorile lui ¥ acre hw Ue freeventele grupei i dupa Y deci Y= Yum, ‘Notam cu F media total a caracteristicii ¥, adicd pentru intreaga colec- tivitate ea poate fi obtinuta in doua forme: = ca medie a mediilor pe grupe, ponderile find frecventele marginale ale X (totalurile unitatilor pe grape dupa caracteristiea X) yon caracteristi = ca medie obisnuit’ pentru caracteristica Ya cirei serie simpli poate fi Citita in tabloul corelativ Iuand valorile 4; de pe prima linie si freeventele marginale de pe ultima (sau frecventele totale ale lui Y} [- Vatorite mi ¥ [an a Us Freevente total pe grupe dupa Y 112 Aven ca inversém sumele ce provine din varianta a doua. Pentru grupele caracteristicii ¥ vom avea mdii de grupa, ce se calculeaz analog, dar cu valorile caracteristicii X. $i anume ee LNs Media totaliireferitoare la caracteristica X' se poate si ea calcula in douit folusi Ultima variant se obtine daca din tabelul corelativ extragem variabila simpli X cu coloana intaia a valorilor x; si ultima coloani cu frecventele marginale nj sau freeventele totale ale lui X. 2. Dispersiile de grupe. Dispersia unei grupe {a;,a;yi| de la caracteris a X, se caleuleaza pe taza abaterilor valorilor yj ale caracteristicit ¥ fagii de media acelei grupe V: 0 vom nota cu37(Y) pentru ca se calculeazai cu valorile variabilei Y, desi grupa ‘a;, 4:41] tine de caracteristica X. Vom avea. ‘nig este volumul grupei |a;,4i+1| ce provine de la caracteristica X. Analog pentru grupa [b;,b)41) de volum ng; ce provine de la variabila Y Vom calcula 33(X) dispersia grupei(bj,0;41] eu ajutorul diferentelor (2 2 ar) lle de grupi se mai numesc medi si dispersii “(ai — Xin oN) Mediile si. disper conditionate de grupa respectival. 3. Dispersia dintre grupe se calculeazii pe baza abaterilor (9, -Y) a ‘mediilor de grupa, de la media totala corespunzatoare caracteristicilor respec- tive, de exemplu Y Acest indicator msoara influenta factorului de grupare dupa o relatie de proportionalitate directa cu freeventele marginale. 14 Dispersia dupa grupele lui X este Dispersia dupa grupele lui ¥ este Y= Tying 4, Media dispersiilor de grupa este calculata ca o medie aritimetica ponderata a tuturor dispe lor de grupii, adica Vai" )me Tw FLA si analog BX) 5. Dispersia total pentru fiecare variabila separat. Pentru ca- racteristica Y se va calcula pe baza tuturor abaterilor individuale ale valorilor uy fata de media Ya colectivitatii totale adica (yj —Y). Vom avea w= Vn; . EE = Ey - YY analog pentru Acesti indiatori reunese influentele tuturor factorilor, care determina variatia caracteristicilor X si Y 6. Regula adunirii dispersiilor. Dispersia colectivitatii totale pentru fiecare caracteristicd in parte este egal cu media dispersiilor de grupa plus dispersia dintre grupe Fnea(X) + Fe yy PUY) = Tineal¥) +73 x Folosind dispersiile definite mai sus se poate defini indicatorul numit coeficientul de determinatie, care misoar’ influenta factorului de grupare a caracteristicii X asupra variatiei caracteristici respectiv reciprocul lui Se considera ca factorul de grupare X influenteaza hotarator (semmifica- tiv) variatia caracteristicii ¥ daca fix > 50% Ubservatie. Indicatorii de mai sus se pot calcula pentru o serie dublié numa dacéi cel putin una din caracteristici este cantitativ’ (numericd). Exemplul urmator a fost dat de F.Galton care a efectuat misuratori 16 antropologice asupra unui numér de 3) persoane, dorind s& vada dacd ex- ist vreo legaturd intre inaltimea persoanelor cercetate si lungimea antebratulii acestora si de ce natura este aceasta legitura. Au fost ficute caleule gi asupra fiecirei variabile in parte triggind concluzile si asupra celor dowi caracteris: tici luate separat, In tabel dimensiunile sunt date in inch (misura de lungime anglo-saxonii). Linch (deget, tol) = 25mm. Pe marginea tabelului s nt trecute frecventele marginale mj $i ne, {frecventele pe grupe) si principali indicatori prezentati mai sus. ‘Vom utiliza acest tabel si pentru alte notiuni ce vor fi prezentate mai departe (vezi tabelul urmator). "7 Hig.21 in continuare vom studia cétiva indicatori importanti intr-un context general, aga numitele momente initiale si momente centrate, care sunt compatibile doar cu seriile duble in care ambele caracteritici sunt numerice (cantitative}, Pentru cazuri particulare ale indicilor vom regasi cativa din dicatorii prezentati mai sus. 8.4.2 Momente i IXY} ale pentru perechea de variabile in cazul distributiilor bidimensionale vom avea momente de diferite or- dine in raport cu fiecare dintre variabilele X si Y’, precum si momente mixte. Momentul empiric initial de ordinul ft in raport cw Xi de ordinul & in raport cu ¥ este dat de relatia a= Doweteh aft YY fuels Cazuri particulare: Le Ena bE ie Yat = A(X) died momentul initial de ordinul f pentru variabila simpli X. Esste usor si observam ca valorile variabilel X.21,22,... > impreunii cu frecventele marginale nig de pe ultima coloanii a tabelului de corelatie formeaz repartitie unidimensionals Daca facem pe h = 1 atunci Po =71(X) = Laima = 119 ‘media totala pentru X. 2h=U Ton = iy Yavin, = mie =e = LD any = 70 ‘moment de ordinul k pentru Y: dae’ in plus & = 1 atunci Vor =i(¥) = ‘media totalai pentru Y, 8. Momente de ordinul al doilea For = PHY Rais gin moment mixt de ardinul al doilea N 8.4.3 Momente centrate, Corelatia. Coeficientul de corelatie ‘Momentele centrate se definese analog cu cele din cazul unei singure variabile, Astfel momentul empiric (statistic) centrat de ordinal h in raport cu caracteristica X si de ordinul & in raport cu Y este Ente 1 Fine = Xvi = YY files) - 78 Cazuri particulare importante: 120 Frog = 1 nu serveste la nimic; + Fx = Hin = 0 analog: 3. k=0, To =Ti(X) este momentul centrat de ordinul h pentru carac- teristica simpli X 1 Tho =F Vlei -X)* omy = i a WL — XY 'nie = F(X) analog: 4. pentru A = 0 avem Foy = Tig(¥’) momentul centrat simpln de ordinal k znumai pentru Y le Tow = 5 Lous - ony = at = hw -Pyiny =H? 5. Tin = 3°(X) este dispersia empirica a lui X Too =27(¥) este dispersia empirica a lui ¥; 6. Momentul centrat mixt de ordinul al doilea se obtine pentru f= k = 1 si se numeste corelatia varaibilelor X si ¥ sau covarianta variabilelor AxSiY (yj — Ynay = Vfig = ColX,Y) 121 in practica se utilizeazd freevent un alt indicator numeric obtinut din corelatie prin normare, adica impartire cu 7(X) gi 7(Y), abaterile standard pen- tru_X, respectiv pentru Y, care se numeste coeficient statistic de corelatie. Acesta are expresia: TolX,Y) Fu XII) ~ Vials F(x,y) 8.4.4 Prop corelatie ati si interpretari ale coeficientului de Studierea simultand a dou caracteristici a membrilor (unitatilor) unei populatii, inregistrarea datelor intr-un tablou bidimensional, se face special in scopul gasirii unor legituri dintre X si ¥. Un tip de legaturai este chiar corelatia, motiv din care, tabloul se numeste tablou corelativ. O valoare suficient de mare a coeficientului de corelatie indic& ca intre variabilele X si Y exist o legiturd, eventual ci, ambele caracteristieil sunt efecte ale unei cauze comune, valoarea coeficientului de corelatie indicand in- tensitatea legituril. Verificarea acestei legituri are sens doar daca e vorba de caracteristici ale elementelor ce fac parte din aceiasi populatie. S-au dat ex- emple, care de altfel se pot construi ugor, in care s-au luat dowd caracteristici ce provin de la dou populatii total independente si calculand coeticientul de corelatie, acesta avea o valoare destul de mare, apropiata de un. Bvident acea valoare este 0 simpli coincident de numere care nn are nici o semnificatie G.ULYule introduce chiar expresia "corelatii fair sens” adic corelati care nu pot exista, Prin caleule a gisit un coeficient de corelatie foarte mare de 0,988 intre numarul aparatelor de radio din Anglia in perioada 1929-1937 si numirul bolnavilor mintali din aceiasi perioada, Metodele statistice de analizé bazate pe corelatie si regresie au fost in- troduse de Francis Galton (182-1911) si s-au bazat pe cercetiiri antropolog- ice si studiul ereditatii. Ulterior au adus contributii importante K.Pearson $1 122 G.U.Yule in corelatia multiplé. Spearman si Kendal au adus contributii in corelatia rangurilor, precum si Mosteller si ‘Lukey in corelatia robusta. Intensitatea legaturii dintre dowd variabile statistice (dou caracteris- tici), adica a corelatiei se paote stabili prin: 1, Valoarea numerica a coeficientului de corelatie F(X, Y); 2. Grafie prin studierea norului de punete (vezi grafice) a) S& observam c& WAXY <1 se -1<7(YY) <1 proprietiti care s-au obtinut datorita normatii Pentru coeficientul de corelatie, in practic’, se obignuiese turmiitoarele interpretiiri ~ daci 7(X,¥) = 0 atunci X gi ¥ se mumese necorelate = daci —[F(X,Y)] € (0; 0,3) X $i ¥ se mumese slab corelate = daci [F(X,Y)] € (0,3; 0,7) X,Y semumese medin corelate; = daci |F(X,Y)] € (0,7; 0,99) _X, ¥ sunt puternic corelate: ~ ack F(XLY) X si ¥ sunt total corelate. b) Teorema. Daca X si Y au coeficientul de corelatie egal cu +1 atunci intre ele are loc si o relatie de dependent liniar Y=aX+6 nnumitai dupa Galton si regresie liniar& (pentru demonstratie vezi 6). Observatie. Aceasti teorema este extrem de importanta deoarece subliniazd relatia dintre corelatie si regresie, cele dowd tipuri de leqituri dintre doud caracteristici. 128 6) Sensul legiturii: ~ daca r(z,y) > 0X si ¥ se numese direct corelate ~ daci r(z,y) <0 X si ¥ se mumese invers corelate, 2. Metoda gratica se poate ilustra foarte ugor pe exemplul dat de Gal- ton si prezentat mai sus, in care sunt maisurate pentru 350 de persoane indltimea si lungimea antebratului. Se observa c& dowd colturi ale drep- sub forma tunghiului interior sunt goale, frecventele absolute grupandu-st unei elipse cu diagonala mare suprapusi peste diagonala dreptunghiului. Valorile cele mai mari ale frecventelor fiind chiar pe diagonala. Forma norului de puncte in cazul reprezentarii gratice ar fi chiar aceasta elips Citind tabloul, tragem concluzia cit nu exist in specia umand divizi foarte mici cu antebrate foarte lungi (col{ul stanga sus) si niet indi- vizi foarte inalti cu antebrate scurte (vezi coltul dreapta jos), adic’ aceste dou elemente ale corpului uman sunt corelate. Evident ambele tipuri de dimensiuni sunt caracteristici ale speciei de care apartinem, trans- mise prin ereditate. Adic& sunt efecte ale aceleiagi cauze. Coeficientul de corelatie care masoara cantitativ, exact, intensitatea acestei legaturi se reffectii gi el in graficul numit “nor de puncte” prin forma elipsei gi = valoarea Ini F(X,Y) apropiatai de zero este asociatii unui tabel tumplut destul de uniform (cu toate colturile pline); ~ daca 7(X,¥) variazii intre 0,3 si 0,7, atunei lipsa ce euprinde frecventele sau punctele norului este din ce in ce mai subtire: = 7(X,¥) > 0,8 elipsa devine gi mai subtire aga c& atunei cand F(3 yy se apropie de 1 ea se reduce la 0 fasie ingust dreapta, care chiar sugereazai un trend liniar ca legitura dintre X 107 si Donin = 0 Kendall propune urmatorul coeticient: A-D___A-D__ %A~D) a maz ~ Dinin care are urmétoarele interpreta: a) Semnul Ini K arati sensul legiturit daca K>0 (A>D) atunci intre varaibile exist legatura directa, adiea aprosimativ, erese sau de- serese in acelasi sens; daca K<0 (4 77,7% 8-1 posit 841 8.6 Serii numerice multiple 8.6.1 Corelatia partial pentru serii cu freevente ‘Vom considera ca pentru unitatile unei populatii urmérim simultan mai multe caracteristici Xy,X2,...,X,. Pentru studierea mai usoarii a acestora se recomanda definirea unui aga numit "Coeticient partial de corelatie”, care ne ajuta si stabilim legdtura real dintre doua fenomene, elimindnd intluenta celorlalti factori ‘Vom nota coeficientul de corelatie partial dintre Xy si Xy eu Fra(a,. in parantezii se tree indicii variabilelor a edror influentii vrem si o eliminiim, Coeficientii cu care am mai lucrat de tipul Fi2,Fiss--sFe-te ti vom uni coeficienti de corelatie totali. Se poate arta ci putem calcula eoeficientii de coretatie partial fra si izolim ceilalti factori ce pot influenta cele douii variabile de care ne ocupat. Acest rezultat deosebit pentru aplicatiile statistieii in studiul fenomenelor colective se datoreaza faptului ea ire coeficientii partiali de corelatie de diferite ordine exist o relatie de recurentd. Ordinul unui coeti- cient partial de corelatie este dat de numarul indicilor aftati parantezsi Astfel, de exemplu, Fiacsiny este de ordinul trei, coelicientul Fy2(3) este de ordinul 1, iar 71 este coeticient total de corelatie, de fapt este de ordinul Relatia de recurenté este: 7 Frais F204...) = JB Fha(stneay? ft Pause in acest fel cu ajutorul coeficientilor de ordinul zero pe care-i determinaim din tabelele bidimensionale cu frecvente, caleulim coeficientii de ordinul 1, cu ajutorul acestora pe cei de ordinul doi ete. Exemplu. Pentru trei variabile putem avea coeticientii de corelatie partial 139 de ordinul 1 care au forma Fix) "O° TW 2 Observatie. De obicei coeficientul partial de corelatie de ordinul I pentru X; $1 Peay Xz, Fray) este mai mie decdt coeficientul total de corclatie referitor la accleasi variabile Fz Fina) x2, ipoteza mul se respinge si se trege conchuzia c& intre cole doua caracteristici exista legitura si se poate aprocia c& aceasta este cu atat mai intensi cu cat diferenta dintre cele doua valori x si x2, este mai mare 140 ‘Vom aplica acest test pentru exemplul precedent. Avem 469-360 in = ano 167,4 3.a.m.d., obtinem tabelul cu frecventele artificiale riy Candidat a ; f _ Masculin 167 46.5% | 188 40.5% | 109 sx || 465 sor Feminin 193 53.5% | 217 59.5% | 126 ss.s% || 535 53.5% Total 360 s00% | 405 r00% | 235 100% |] 1000 r00% calenkimn rye ae iy (161 — 167)? (198-188)? (106 — 109)? art ak (199 — 193)* | (207 ~ 217) (129 ~ 126)* eT wo Ww, 9 | Hwy = iar * ran * Toa * Toa * an7 + Tag = 15486 Pentru a = 0,05 sil = (2-1)(3- 1) = 2 din tabelul lui y? citim XBos, 2 = 5.901 Rezulti ci x2 = 1,5486 este mai mic, ipoteza este acceptatii, adic nu 4 o legiturd intre sexul alegitorilor si preferintele pentru candidatii ABC... Se bazeazi pe x? care a fost calculat cu formula de mai sus. xz & i +x? ui Are forma, Are semnificatie si se foloseste in special la populatii de volum mic pan a 30 unitati ~ Apropierea de zero inseamna legiitur’ slabi. ~ Apropierea de un nd legiiturt puternicii. Observatie. Cocficientii studiati in acest paragraf pot fi folositi si la serit duble numerice, insit aprecicrea legiturti este mult prea slabit in comparatic: eu wean cveficientul liniar de corelatie F(X) deseris mai sus, sau ew alfi coeficientt descrigi in paragraful respectiv. Coeticientul de asociere a lui Yule Se utilizeaza atimei cAnd cole dona caracteristici calitative an cite dona variante alternative (sau se pot grupa asa) Se completeazai un tabel de asociere dle forma oa Yi | Yo | Total xX a |b | atb x |e | a +d Total | ate | b+d | atb+e+d Cooficientul Ini Ysle ad ~ be ad+ be Anterpretarea tut este: ~ apropiere de zero inseamné legatura slaba intre X si ¥ ~ apropiere de +1 inseamna legatura mai tare, Pentru a da o semniticatie semnului si deci tipul (ide legitura intre X $1 Y,, directa sau inversé, trebuie s aranjém in tabel categoriile X1, Xo, V1, ¥: dupa o Logica ce depinde de exemplu. 142 Cazuri extreme: a) Daci $= 5 => X si ¥ sunt independente: b) Dacii una din cele patru freevente este zero se obtine valoarea absolut maxim a coeficientului |Yr| = 1 sau Yo = +1 ceea ce semnifici o asociere completa: directa sau inversa, Exemplu. 1. in urma sustinerii unui examen la o disciplin& tebnica s-au inregistrat urmatoarele situatii Sexut Rezultatul M| F | Totat eramenului Promovati 49 [31 | 80 Nepromovati ul 9 | 20 Total 60 | 40 | 100 49-9 341 100 “J9-9e81-1 Misa” 732 indicd o legitura slabi intre cele dowi caracteristici. Adie sexul nu Yo 1278 intinenteazA sitnatia la Invataturd 2. Searut Present Rezultatul mare slabii | Total examenului la ore la ore Promovati 73 7 80. Nepromovati 2 18 20 Total B 100 yj — TIS=2-7 _ 1314— 14 __ 1300 e 1842-7 13414 1828 143 Valoarea apropiatii de unu a coeficientului arat o legitur directa si foarte puternicd intre prezenta la ore si laboratoare cu rezultatul examenului died eu. promovabilitatea, Caracteristicile nominative se intalnese cel mai des la Stiintele sociale: psihologie, sociologi dar destul de des si in economie. Studiul acestora trebuie Ricut cu mare atentie si eu indicatori potriviti, general greu de definit. Aplicatie {in tabelul urmator se dau valorle si freeventele pentru doud caracteris: tici numerice ale unei populatii formate din 187 salariati Caracteristica X reprezinta masa in kg, iar Y perimetrul toracic in cen- timetri ,* stor | e2-6s | 60-00 | ro-rs | rar | aaa moo | 9 | 6 | 2 ae [> |? |i | 7 1 7 we |> [ss fe fe )e |? )i lw wae | - |? }efuf.s |? ). |e ae fa ta te fe 1s )- ta wo | -|-,«*)~«)f»|~«)a | Si se caleuleze: 1. Freeventele relative si sii se constrniasca un non tahel 2. Mediile si dispersiile de grupe pentru X si separat pentru Y. 3. Momentele initiale si momentele centrate de ordinul al doilea. 4. Coeficeintul de corelatie F{X,Y) si si se facd interpretarile core- spunzéitoare, 144 Capitolul 9 Regresii. Legatura cu corelatia Regresia statistici este o legaiturd dintre dowd sau mai multe variabile (caracter istic) statistice numerice, de tip dependenta functionala, adied functie de variabile statistice Se intilneste de obicei c’ind legitura este de tip cauzi-efect Putem avea » regresie simpld daci functia este de o singurd variabili independent’ Sila). In acest caz X —se numeste variabila statistica independent, care corespunde carac- teristicii cauzale sau factoriale: Y ~ este variabila dependent care corespunde caracteristicti rezultative san efectuti » regresie multiplt daca functia este de dou sau mai multe variabile inde- pendente Y= A(X Xo.. unde X1,Xo,..-4%n sunt cauze care-! implied pe Y Vom aminti un experiment ficut de Galton pe la 1820 in care dorea si vada ce legituré realizeaz ereditatea intre dimensiunile tatilor gi des ndentilor (baieti). A ales indltimea si a ficut masuratori pe un grup de familii din Scotia unde a selectionat doar familii cu tati inalti. Pentru baietii 145 din fiecare familie a notat media indlimii acestora. A obtinut un tabel cu dou serii paralele de date, de forma Dupa reprezentarea grafic intr-un reper cartezian XOY a obtinut un nor de punte cu trend liniat intines aor pe 7 ‘enue ir % Fig.22 Dupa aplicarea unei metode de ajustare liniara a gasit c& punetele se ageavit in jurul unei drepte Y = 0,73X + 2,11. A constatat deci ci din tati inalgi se obtin fii proportional mai inalti, dar in medie, inaltimea filor este mai mic& decat a tatilor, panta dreptei gisite e mai mica decat a primei bisectoare care tinde 0,73 <1. Aceasta arata cd procesul foarte elaborat al ereditat sii conserve caracterele, dimensiunile, mai are si un rol de corijare a dimensiu- nilor externale, altlel specia ar degenera. Pentru cé in acest experiment media indltimii fillor a regresat putin fata de media inaltimii tatilor Galton a numit dreapta giisita, ca legditura clara intre cele doua serii ”regresie liniara’ ‘Lermenul de "regresie” s-a patrat in statistica pentru a desemna notiunea de functie intre variabile statistice, Problema gisirii unei regresii se pune doar pentru caracteristici nu merice. Vom deosebi dowa variante: 146 ~ Serii numerice paralele, la care nu avem frecventa si la care corespondenta intre valori se face pe unit ~ Serii numerice in tablou de corelatie. 9.1 Punerea problemei, etape pentru gisirea unei regresii 1. Convingerea ca intre doua variabile exista o legatura de tip regresie se obtine daca: a) La serii paralele, reprezentaim grafic perechile (x,,y:) intr-un sistem carterian XOY si urmarim daca norul de puncte se geupeaza aproximativ de-a lungul unet fai (eventual dreapti); b) La serii date cu tablou de corelatie in cazul ea sa caleulat coeficientul de corelatie, acesta este mare, sat v mualizat daci freeventele se grupeaza in tablou in vecinatatea imediata a unei linii sub forma unei fasii inguste, 2. Propunerea tipului de functie care se apropie cel mai mult de forma norului de puncte: = linia y = ae +0; = parabolic’ y = ar¥ +br +e; a o hiperbolici y= a+ = exponential a BF, etc. Aceastit etapa este dificil si implieii mult subiectivisin prin faptul ci propunem functia dintr-un numér mic de functii uzuale si nici mu e sigur ci nimerim prea bine, Remulta c& metodele elementare statistice sunt destul de aproximative. dar au marele avantaj al simplitatii lor Exist metode matematice extrem de precise gi elaborate care implica ‘mai multe calcule si utilizarea calculatorului. Aceste metode au deja o larg’ rispandire gi sunt folosite in studi statistice importante. Au la baz aga nu- mitele polinoame de interpolare care pot fi determinate si care se abat de la functia teoretica orieat de putin dorim. Nu vom expune in acest manual studitl Tor. 3. Determinarea coeficientilor. Cel mai des se foloseste metoda celor mai mici patrate descris de Gauss in 1794 la varsta de 17 ani, Presupunem ca am propus ca regresie, o functie, de forma Y Al imiza o sum cu patratele diferentelor dintre valorile experimentare (statistice 1M, f@2,.+94y) unde aj stint parametrii, Ideea Ini Gauss este de a min- date ale Ini ¥ si cele calculate prin functia propust, a} Cazul a doua serii paralele (nu avem frecvente), deci Eixpresia este: Slay,as,--- ap) b) Cele doua serii sunt date sub forma unui tablou de corelatie, in care evident, frecventele diferite de zero sunt grupate pe o fisie ingust in jurul unei lini, altfel nici nu propuneam regresia. Atunci avem: Slaraz,.. YY by - sleeves say) Png ; vs in acest cas freeventele nyy au rol de ponderi. Cele mai mari se vor ageza chiar pe linia de regresie si eventual una dowd in stanga si dreapta, mai mici, iar mai departe sunt zero. Pentru fiecare valoare yi a lui ¥ vom avea maximum 3-4 valori z; una cu pondere mai mare si 2, 3 cu ponderi (frecvente) foarte mici. Se formeazit un fel de medie a lor. Se poate ardta usor ci aceasta functie $(a,az..-ay) care depinde de p vatiabile ay4g ...ap, parametrii regresiei, are intotdeauna un punct de extrem si acesta este un minim, De aceea pentru gasirea Ini este suticient sé seriem sistemul format eu derivatele partiale ale lui $ pe care le anulim (vezi extreme pentru functii de mai multe vari mes es Bay °° Bag ="? Day ~ Solutia gisita (a?,a8,...,09) determina in final forma regresic. 9.2 Regresia liniara Are forma Y = aX +6 si este cel mai des intalnita. a) In cazul seriilor paralele pentru S avem expresia S= Plus = (ans + 0)? drivin gi formam sistornnl as Lois — (a) = 0 [2 149 Rezolvand sistemul obtinen Lew Ea-LALn v4-[Lay Daca impartim fiecare fractie si sus si jos cu N? se pot exprima coeficientii a si b cu ajutorul momentelor Pale) Hila) Dew = Po(2)¥ Se poate arita usor ca dreapta Y = aX +b trece prin punetul (7) rumit si centrul de greutate al serilor b) Cazul cand seria dubla este dati sub forma de tablou de corelatie $= dy — (ar + b)Pm tit 8 = 230 Dy - aaj -H(-zi)my = 0 [22 Bp 72 Ds — ai — WY(—Ymyj =O 22 Latin ye “dons = LL awns I:N ok thE Ln = Ldn I:N Folosind notatiile pentru momente initiale, dupa impartirea eu N’ — volu- ‘mul total al populatiei, obtinem Ging + bI0 ato + bi Prin rezolvare obtinem Pro — Vio in final y = BuaBiba x g PuPio Tan ‘Scazand din ambii membrii 7; = Y gi tindnd cont de Ta. mar rey) = 229, Oey) =P Mame yay) = Zn Tao — Mo Fewyace (X =P) dar cum, To=X si Dn Ist Coneluzii 1. Regresi liniara trece prin centrul de greutate al celor douwa serii format de cele doua medii (X,Y) 2. Panta dreptei depinde de coeticientul de corelatie si raportul celor dowd abateri standard dy si 3x } in cazul regresiei liniare se poate utiliza si o metoda elementara numita Metoda centrelor de greutate ~ dacii datele sunt sub forma a douti serii paralele. ——n X| free Fee Y | iyo -te veers ~ Se imparte norul de puncte ce are un trend liniar in doud grupe A si B a w 7 x xe xn hig.23 ~ Se caleuleazé coordonatele centrelor de greutate ale celor dowd grupe cu mediile aritmetice ale coordonatelor punctelor, adic’ ~ Se serie ecuatia dreptei ce trece prin doua puncte A si B, adic& Ye-¥a yy: Fea Xa Exemplu: Se dau urmatoarele seri paralele reprezenténd leggitura dintre doi indicatori economici X = volumul productiei si ¥ = pregul de cost rezultat. x | 20 | 30 | 40 | g0 | 130 | 200 y | 1s | 16 | 15 | 12] 10 | 7 Observand ¢& norul de puncte corespunzator are un trend liniar, adic Y =aX +6, si se determine regresia care produce ajustarea liniaré a acestor Rezolvare: Pentru simplificarea calculelor se organizeaz’t urmitorul tabel care este acordat cu formulele amintite mai sus, indicate in acest cas. ai {ow | at | caw 20 |1s| 400 | 360 30 | 16 | 900 | 480 40 | 15 | 1600 | 600 so | 12| 6100 | 960 130 | 10 | 16900 | 1300 200 | 7 | 40000 | 1400 Total | 500 | 78 | 66200 | 5100 15a inlocuind datele in sistemul ce ne dii punctele stationare (in acest caz minimul’ vom obtine: 3000+ b= 8. 0,057 ib Pe baza acestei regresii se pot face previz- {on 5008 = 5100 Rezolvand sistemul se gaseste linjara este ¥ = —0,057.X +17, 75; juni economice cum ar fi: Daed volumul productiei creste la 250 unitati atunci 755, adica regresia pretul de cost rezultat, prin amortizarea mai rentabila a utilajelor scade la 3,5 unitati Y = 0,057 250 +17, 755 = 3,5 9.3. Regresii curbilini Sunt cazuri in care norul de puncte ce reprezinta doua serii paralele (sau, frecventele dintr-un tablou de corelatie) are un trend curbiliniu, Cel mai des se intilnese fumetiile de gradul doi y = az + br + ¢, exponentiale y = ba” sau hiperbolice y riscul nor erori datorate ipotezei Ricute. Numai polinoamele de interpolare Oe 5 + |. Utilizarea acestor funetii este simpla dar presupune pot ocoli aceste erori dar ele presupun © metodologie mai complicata pe care ‘nu o tratdm in acest manual. Pentru documentare se poate cerceta Iucrarea Matematici aplicate, vol1, P.Blaga, A.Lupag, A. Muresan, veri [ a, Regresia parabolica, are forma y = az? + br +c, unde abc € fi sunt necunoscute. Dae seriile sunt de forma x | 2 | 2 | -- [2 |---| en ¥| ms | w wifes | om atunei aplicind metoda color mai mici patrate, trebuie minimizata suma S(a,b,0) = (aa? + bri +e yi)? 1s Cautand minimal s intai al lui $, adica as _ Oa ajunge Ia sistemul derivatelor partiale de ordinul 2) (aa? + ba; +e - yi)? OS hy 7 2D oat + bas be— mde ba) 2) lax? + be; +e-y)) =0 oe care conduce la sistemul lin Fu necunoscutele a,b, Dele + Deb + Dede =Detw Vala +0 xt +Dae = Dem Yoeta +Dnb tne =D Pentru simplitate la sume nu am mai trecut indicii i = Tv. Acest sistem poate fi rezolvat ugor, de exemplu, prin regula lui Cramer. Aplicatie. Fie dowd serii paralele care prezinta un trend aproximativ parabolic x|-folij2|4 y {os |i] 2/3 {15 Sti se determine regresia parabolic care exprimii pe Yin functie de X. Pentru construirea expresiilor din sistem si organizarea calculelor se con- struieste tahelul nrmiitar ai iw [atl et | at | em | tw i — tt {05 }ifaf a |v] oo o[1fololo|o|o 1f2lififilele 2[3 /4l/slw|o| 2 4 | 15 [16] 61 | 256| 60 | 240 Total | 6 | 21,5 | 22 | 72 | 274 | 67.5 | 2545, Inlocuind in sistemul liniar deseris mai sus obtinem: Wat 72+ We= 4, Tat 2+ Gc= 67,5 Rat Gb Se= 21,5 care are solutia a = 0,856, b = 0,180, ¢ = 0,317. Regresia parabolic rezultata va fi ¥ = 0,856X? +0, 180. +0,317. b) Regresia exponentiala. Daca trendul gasit are forma exponentiala adicd y = ba®, a,b > 0, a # 1, se recomancl si se logaritmeze expresia de mai sus pentru a reveni la cazul liniar, usor de manevrat. Vom avea Zalgu=aclgatigh “=nAtB unde A Iga si B = Igb. Se va lucra ca la cazul regresici liniare doar ¢& in loc de y; e va folosi 2; = leyj. Sistemul obtinut va Hi lin Ayia+ BYa= Daw Art BIn Da si B se giseste uyor a = 104 si b= 104. Dupii determinarea lui Aplicatie. Sa presupunem cd incasarile unui agent economic pe primele 6 luni ale anului sunt cele din tabelul de mai jos tlif2[sa]a[s]e 1| 4a | 46 [5,8 | 7 Reprezentarea grafic a acestor perechi de valori ne sugereazi un trend exponential. Facem ipoteza ci I = b-a'. Logaritmim functia exponential si iarizarea Z = B+ At, unde Z = Ig, A= Iga si B = Ig6. Caleulele obtinem Ii 156 se inseriu In urmitorul tabel Igh | | ta 1 [ai | oss [1 | ois z | 4p | voor | a | Lez 3 | 58 | 07034 | 9 | 2,202 4 | 72 | 0573 | 16 | 3.4292 5 | 15a) 1a7s9 | 25 | 5.8045, 6 | 25) 13117 | 36] 7.8702 Total | 21] 57,3] aos | 91 | 21,4273 Sistemul de ecuatii este MA+ UB= 21,4273 21A+ OB= 5.3972 Solutia sistemului este A= 14087, B= 0,38815 de unde a=10"=1,382 si b= 10"= A Prin urmare functia exponential de ajustare, cintata este T= 2,444 - (1,382)! Aceasta poate fi folositai pentru a face previziuni asupra incasarilor $1 ot fi planificate investitiile pentru Iunile urmitoare. De exemplu pentru luna iulie se preconizeaza incasati in valoare de circa Fy = 2,444 - (1,382) 44-9, 628 = 23,53 wan, daci trendul gsit se pistreazi. Acest Incru se petrece cu o anumit probabil- itate si care poate fi determinata cu ajutorul testelor de verificare a ipotezelor statistice ce vor fi preventate in capitolul urmator. 187 9.4 Regresii multiple (Functii de mai multe variabile) in fenomenele economice si sociale 0 caracteristic’ poate depinde de mai multe caracteristici independente, Daci legitura dintre acestea este foarte puternici atunci se poate presupune ca intre ele exist o regresie, o dependentit functional de mai multe varaibile pe care ne propunem gio gsim eu o an mit’ aproximatie, in vederea alcatuirii de prognoze economcie, Vom trata mai intai un caz mai simple si anume cel Tiniar cu dou variabile independente. Calculand coeticientul de corelatie liniar intre variabile ZX apoi Z si ¥, Z si V’ etc., s& presupanem ca am gasit, de exemplu, un coeticient mare apropiat in valoare absolut de 1 pentru perechile Z si X, respectiv Z si Y si mie apropiat de zero pentu Z si 1 in acest caz putem lansa ipoteza ci Z este functie (depinde liniar de X si), de forma Z=0X+We Coeticientii « si b numiti si coeficienti de regresie arata cu cat se modifica Z cand X. respectiv Y se moditica eu o unitate Si presupunem ci datele sunt exprimate prin trei serii paralele (adicd fra freevente) X [er | 2 ni Zn Yim |v Yi Yo ala |e a || a Aplicind metoda celor mai mici patrate, trebuie si glisim a,b,c aga ca expresia $(a,6,¢) de mai jos si admit’ un minim Vile - ar; - bys - 0? S(a,b,e 158 Conditia de minim este data de sistemul: as as_, as Aa ah ae adie’ -2) Gi - a4 - by; —o)ns = 0 —2 es — aay — bys — ys =2 (ei — ai - bye 0) Care dupa desfacerea parantezelor devine: [adie Dew teDa = Dei aD rm tLe teLm = Dae ade 4bDw ten = Da Dupa rezolvare gisim parametrii a,b,c si respectiv forma regresiei Observatie. Pentru mesurarea intensititii legiturii dintre variabilele studiate se obignuieste sit se ulilizeze raportul de corelatie multipla liniaré care are forma: Re/ey) = (2% n+C unde C(x, y) este corel y) ~ 2C(z, 4) -C(z,y) Clay) 1=C%X(x,y) simpli liniara dintre X si Y, analog pentru celelalte. De regula variabilele sunt independente intre ele si din C(.r,y) = 0 atunci avem pentru raportul de corelatie multipla, forma simplificataé Ref) = VORTIOEH Acest indicator poate aveas forma Sta - sean? Ye-2 R(z/a.y)= |1 159 unde 2; sunt valorile experimentale (statistice) din tabel, Z media statistica si 2(0;,y:) valoarea caleulata a lui Z prin regresia liniara, Un caz important de regresie neliniari este aceea de tipul functiilor putere, adica de forma Y= aX} +X... Xp care prin logaritmare se reduce ugor la forma liniard log¥ = loga + by log X, +... + Du log Xn In continuare se poate lucra dup’ modelul liniar prezentat mai sus, ‘Un exemplu evlebru de regresie eu dou variabile independente este acela a tui Cobb-Douglas, care are forma: aX! X$ Acesta este utilizat mult in modelarea cresterii economice. ¥ reprezinta variatia produsului final, X un factor de productie de exemplu produsele fixe, Xp alt factor de productie, de exemplu forta de munca. Exponentii by si bs reprezinta coeticientii de elasticitate. i reprezinté numérul de procente cu care creste volumul productiei cénd factorul de productie respectiv creste cu 1%, celilalt factor de productie ramanénd neschimbat. Exercitii rezolvate si propuse 1. O unitate economics realizeaz pe primele 12 luni ale anulii profituri conform tabelului urmétor. Valorile de pe randul I sunt in miliarde lei tif? [s[4]*]*]7]*]* [lula Prat [os |o2[s2|ws|i2[es|9|os| ws liz] © | is Sa se deter rregresia ce leaga aceste douii serii si si se estimeze pro- fitul pe lunile ianuarie si februarie. 160 Kezolvare. Deoarece avem in trend liniar al parametrilor ce reprezinta perechile de valori considerdim c& regresia va fi liniard adica de forma Y = aX +b Organizam calculele in urmétorul tabel ail w | at | cn 1] 96 | 1 | 96 2 4 | asa 3 9 | 246 4 16 | 41,2 5 25 | 510 6 | 96 | 36 | azo 7| 9 | 49 | 693 S| 9% | oa | iu 9 | 105 | st | 945 10 | 11,7 | 100 | 1070 uj 9 | 121] 990 12 | 108 | 144 | 129.6 oral | 78 | 117.5 | 650 | 777.8 in baza metodei celor mai mici piitrate obtinem sistemul liniar 6500+ 78b= 777.8 78a 12b= 17,5 care are solutia a = 0,098, b = 9,153. Rezulta dreapta de ajustare (de regresie) este Y = 0,098X + 9,153. Este aproape paralela cu. axa Or. Folosind aceasta ecuatie estimgim profitul pe Iunile ianuarie gi februarie care numerotate in continuare sunt a 13-a, respectiv a Hea Yinn = 0,098: 13 + 9,153 = 10,427 md.lei Yen = 0,098 + 14 +9, 153 = 10,525 mdlet 161 2. Pentru contractele suplimentare un agent de asigurdri a primit ca premiu valorile din tabelul de mai jos 0 Y | 2.26 Stiind c& trendul evolutiei premiilor in functie de numérul de contracte suplin ntare este parabolic sé se determin a) coeficientii regresiei parabolice b) estimarea premiului pentru 25 de contracte suplimentare Kezolvare a) Regresia are forma Y aX? +bX +e, Pentru simplificare vom aranja calenlele in tabelul anexat ail vw [a | a | et | mw | atx ufzefo; ufo }o fo 5 | 261 | 25 | 125 | oa | 135 | 65,25 10 3,36 | 100 1000 | 10000 | 33,6 | 336 15 | 481 | 225 | 3375 | 50625 | 72,15 | 1082.25, 20 | 7.27 | 400 | so00 | 160000 | 145.4 | 2908 Total | 50 | 2031 | 750 | 12500 | 221250 | 264.2 | 4391.5 Sistemul obtinut va fi 2212500+ 1250+ 750e= 4391,5 12500a+ —750b+ 50c= 2642 50a = 50b+ —Se= 20,31 care are solutia a = 0.0141, 6 UY, adic regresia are forma Y =0,0141- X? ~ 0,0367- X +2,3209 162 b) Pentru 25 de contracte se poate estima ci agentul de asiguriri poate primi Y =0,0141 - 25? — 0,0367 - 25 + 2,3209 = 10,216 mile. 3. Lao unitate economic s-a hotarat ca premierea sa fie determinata de numarul de ore suplimentar lucrate precum si de calitatea Tucririi. In tabelul de mai jos sunt trecute orele suplimentare gi primele obtinute x | 16 9 | 16 | 20 | 6 | 2] 18 | 20] 1 860 | 970 | 870 | 910 | 950 | 850 | 930 | 910 ‘Lrendul fiind aproximativ liniar s& se giseascd regresi Y =aX +6. Organizand calculele ca in exemplele precedente si aplicand metoda celor ‘mai mici patrate se obtine sistemul liniar 1Tta+ 108 9.090 B52a+ 174b= 160.980 care are solutia a=5,0¢, — 6-811,151 adiedi regresia este y O2KX + 811,151 4. Inregistréind valorile profitului si ale capitalului fix la 10 societiiti comerciale s-au obtinut urmitoarele rezultate (exprimate in milioane lei Capital fe x | 182 | 260 | 290| 820 | s40 | 380 | 420] s10 | 00 | 650 fx Profit vy __ | 282 | 890 | 420 | 00 | 200] eno | e80 | «co | 000 | 960 a. Si se caleuleze coeficientul liniar de corelatie: b. Sa se determine regresia ce leagi pe X de Y; 163 «. Sa se estimeze profitul pentru un capital de 1.000 mille 4. Sa se determine raportul de corelatie. Kezolvare a. Coeficientul liniar de corelatie 2,2) = DMAP) ops Concluzie ~ legaitura este directii si puternie’ ceea ce sugereazsi ¢ regresie liniaré intre Y si X. Acest lucru rezulta de altfel gi din graficul format cu punctele corespunzaitoare perechilor de valori (2, 4i) b. in ipoteza ed Y = aX +6 efectuand calculele se obtine e& 2108 gi = 108,46 Regresia este Y = 1,08 ~ 108,46 a = 1,68 reprezinta panta dreptei si indies faptul c& atunci cand fondurile fixe crese cu 1 milion, profitul creste eu 1,68 milioane le s. Pentru a determina nivelul profitului la 1000 de milioane, fonduri fixe vom inlocui in regresie si obtinem Y =1,68- 1000 ~ 108,46 = 1571, 54 miller d. Raportul de corelatie = yi - /T— 0.1288 = 1/0, 8712 = 0,9335, care confirma ca legiitura este puternica si direct 164 Capitolul 10 Elemente de teoria selectiei. Statistica inferentiala 10.1 Egantion ixista situatii in care cercetarea totala, in intregime, a unei colectivitati statistice este nepractica sau chiar imposibila. Uneori populatia are un volum prea mare si este total nepracticé sau prea costisitoare cercetarea total. in alte cazuri prin cercetare elementul observat se distruge, cum ar fi verificarea la rezistenta a unor piese tehnice, timpul de functionare a becurilor, numaratoarea slobulelor rosii din sange etc In aceste conditii suntem obligati si cercetdm doar 0 subcolectivitate (c parte) a populatiei numita egantion, selectie sau sondaj. Numzirul elementelor din esantion se numeste volumul esantionului si il vom nota cu n < N unde N este volumul populatiei Avantajele selectiei sunt posibilitatea practicd a cercetirii in conditii speciale = economie de timp, fonduri gi personal se pot urméiri mai multe aspecte si caracteristici, prin economisirea tim- pului si a efortuluis = poate fi folosit ca metoda de control a cercetiiii totale de mare am- ploare sau obtinerea unor informatii preliminare (vezi sondaje rapide la referendumuri} Etape pentru obtinerea unui egantion: ~ delimitarea populatiei ce va fi studiata (volumal esantionului); ~ alegerea tipului gi procedeutui de setectie ~ verificarea omogenitatii colectivitati ~ inferenta statistied (extinderea rezultatelor) Reprezentativitatea egantionului Pentru ca cercetarea prin selectie si fie eficientai, esantionul trebuie sit posede o calitate esantionald numiti reprezentativitate, care const in capaci- tatea lui de a reproduce cit mai fidel structurile si caracteristicile populatiei din care este extras, Pentru evaluarea gradului de reprezentativitate se utilizeaz dows notiuni: ~ eroarea maxima d ce exprima diferenta cea mai mare acceptaté intre © valoare v” gisitdi pe esantion gi valoarea corespunzatoare v din toata colectivitatea relativa la un indicator: ‘o marime P, numita nivel de probabilitate sau nivel de incredere, care aratii ce ganse sunt ea eroaren realli eomisi atunei efind valoarea 1 ~ necunoscutii este aproximatii cu v* si nu depiigeasea limita d. Mai precis, dupi determinarea unei valori v* pe egantion, de exemplu edie, dispersie, coeficient de corelatie ete. cu ajutorul erorii d se construieste un interval (v* — d,v* +d) in interiorul cdruia trebuie si se gliseasca valoarea cAutata v, cu o probabilitate P suficient de mare, 166 Cele doud marimi d si? nu sunt independente. Find data una din ele cealaltat poate fi calculata. in consecinti, folosirea expresiei "egantion reprezentativ” este justificatit daci prin aceasta se intelege i le studiate n raport cu toate caracterist eroarea d este sub o limita acceptabilit, 15%. O proprietate esentialt a selecti mirimea P se afl peste un prag ales, in general este cit sporul de reprezentativitate al esantionului nu este direct proportional eu volumul lui adica dependenta nu este liniar. Dimpotriva este daté de o curba numité curd de saturare si este ilustrati mai jos, a 00% r gxadul de reprezentativitate AB N volunul pantiorailus Fig.24 Curba arata ca la inceput pentru cresteri mici ale volumului esantionului gradul de reprezentativitate creste rapid atingand destul de repede un nivel sufi- Gient de ridicat. O erestere suplimentar’, chiar masiv a volumului esantionului dupa obtinerea unui nivel inalt de reprezentativitate este inntilé si pagubitoare, Aceastii observatie ne arati ei in tenria selectiei este snficient si recamandabil si se lucreze cu esantioane de volum mic raportate la intreaga colectivitate fapt care face teoria selectiei atat: de valoroasé in aplicatiile statisticii Conditiile pentru asigurarea unei bune reprezentativitati a unui esantion 167 sunt: ~ selectia unitiitilor si se faci in mod obiectiv si aleator cu probabilitate egalii de alegere ~ esantionul si fie suficient: de mare. Volumul sau se poate calcula aproxi- ‘mativ pentru a indeplini exigentele impuse: cluderea unitatilor in egantion si se facd independent de alte unitati Procedee de selectie: ~ Selectia aleatoare — este proceden! de baz cel mai folosit. Se face prin tragere la sorti si exclude orice element subiectiv in formarea egantionului. = Selectia dirijati — are un caracter subiectiv, alegerea unitatilor esantionului se face de ciitre persoanele care culeg datele. ~ Selectia mixta ~ se imbina cele doudi aspecte, colectivitatea se imparte in it caracteristicd gtupe dupa alegerea cercetiitorului in functie de o ant dupa care se extrag la intamplare (aleator) unitati din fiecare grups ‘Tehnici de extragere: ~ procedeul tragerii la sorti, pe baz de bile, biletele etc., care reprezint’ unitati din colectivitate. Cand se poate, se trag chiar unitale direct. De exemplu piese mici din productia unei masini automate, Schema de extragere poate fi ~ repetatii, sau cu bila revenita; = nerepetata, cand bila extras nu se mai pune in urna. ~ procedeul tabelului de numere intamplitoare. A fost elaborat de Yates si Kendall. Unititile statistice se numeroteazai si se ageazii la intamplare n tabel apoi se iau cele agezate pe o linie sau pe o coloand care intr trebuie si aiba dimensiunea egal cu volumul egantionului propus. 168 ~ Procedeul pasului de numarare Unitatile din colectivitate se ordoneazd dupa o caracteristicd oare- care neesentiala (ordinea alfabetici, ordinea aparitiei, ordinea intr formand o list. Se caleuleaz un pas de numéirare A _ volumul colectivitati “h ~ Volumul esantionulut care imparte toatii colectivitatea in grupe de volum egal. Se alege la intamplare o unitate din prima grupa apoi prin adaugatea succesiva a pasului & la numarul de ordine din lista gisim urmatoarele n — 1 nul, itati ce vor forma esan Procedeul are un caraeter semialeatoriu deoarece doar prima unitate este aleas Ja intamplare, restul unitaitilor intrénd in esantion in functie de prima. Datoritii simplittii si uniformitatii este des folosit in practic’ Prori de selec Prin eroare de selectic se intelege diferenta dintre valoarea indicatorilox obtinuti in urma prelucriii datelor din egantion si valoarea acelorast indicator! obtinuti in urma cercetitrii intregit populaii Exorile pot fi ~ de observare (inregistrare} ~ de prelucrare: ~ de reprezentativitate (care sunt specifice selectiei) Exorile de inregistrare sunt relativ restranse, usor de corijat. Ele influenteazst in general putin cercetarea statistic’ deoarece in mod natural se compenseaza reciproc. Erorile de prelucrare sunt tipice, sunt bine stapanite si evaluate prin metode matematice Krorile de reprezentare, sunt de dowa feluri ~ erori sistematice 169 = erori intamplatoare, rorile sistematice de reprezentativitate se datoreaza nerespectairii prin- Gipiilor selectiei, adicii fiecare unitate a colectivitatii sii alba ganse egale de a fi selectata etc. Dac exista astfel de erori rezultatele finale pot avea abateri importante. Ble se datoreaza comoditatii sau rispunsurilor voit gresite Erorile intémplitoare de reprezentativitatea sunt datorate faptului ci esantionl este prea mic gi nu poate reproduce structura colectivitatii. Aceste erori sunt, inevitahile. Valoarea efectiva a erorilor de reprezentativitate se poate caleula doar daci avem informatii asupra unor caracteristici relative la colectivitatea totald Vetificarea se face prin compararea structurii pe diferite selectii eu colec- tivitatea generalé. Reprezentativitatea se poate veritica prin coeticientul de reprezentativi- tate er% calculat ca raport intre valoarea efectiva de reprezentare r si media colectivitatii generale XY. Dacii media general X este cunoscutit se efectueazi nai multe slot anconsive st se ealenlear media medior de seletio fn acest caz valoarea efectivi de reprezentativitate r se va calcula ca: r=X-X i rh 100% Cu eat volumul egantionului n este mai mare cu atat media de selectia ‘va fi un estimator mai corect al mediei generale. ‘Tipuri de selectie. Acestea diferd prin imbundtatirile care se aduc in scopul reducerii erorilor de reprezentativitate sau pentru a realiza o precizie cat mai mare cu efort eat ‘mai mic sau dup modul in care se combing sistemul de organizare, procedeu! folosit Ia seleetie ote. ~ selectie simpla aleatoare: ~ selectie stratificatais 170 ~ selectie multistadialii (grupali), in trepte; ~ selectie in faz ~ selectie in cuiburi «© Selectiile simple aleatoare sunt utilizate pentru colectivitati statistice negrupate si omogene. Fiecare unitate are ganse egale de a intra in esantion. Formarea esantionului se face prin extrageri pe baz de urnit sau list. Marirea preciziei se poate face doar prin métitea esantionulu «© Selectia stratificata este 0 metoda de matire a preciziei fara a modifica vohimnl egantionnhi Se aplicd dupa ce colectivitatea a fost impartiti. in grupe omogene (stra- turi) dupa o caracteristicd important, Apoi este ales la intamplare un esantion din interiorul fiecair strat, operatie care asigurai reprezentarea fieciru strat in egantionul total. ‘Media de selectie se va calcula ca o medi¢ aritmetica ponderatd a medillor subesantioanelor. Pentru cresterea gradului de reprezentativitate se recomanda ca volumul subegantioanelor extrase din fiecare grupa (strat) sa fie proportional cu volumul grupei, fat& de volumul N al intregii colectivititi, adicit nN unde: ~ nj = volumul subesantionului = Nj = volumul stratului: ~ n= volumul total al esantionului volun eolectivitii © Selectia multistadiala (in trepte). Colectivitatea este priviti ca fiind formata din grupuri, care la randul lor sunt formate din altele mai mici, care 171 si ele sunt aleatuite din altele si mai mici si aga mai departe, pand se ajunge la nivelul individului Ksantionarea va incepe cu grupurile mai mari , apoi cu urmatoarele, lati trecind succesiv prin toate nivelurile pani se ajunge la indi n primal stadiu se alege un numzir de grupe mari, apoi din fiecare grup’ ‘mare un numér de grupe mai mici pan’ Jn cele din urmi se ajunge si se obting ‘un esantion de indivi. Acest tip de soluti se aplicd la colectivitati foarte mari si care mai sunt si rispanditi pe o arie sau perioada foarte mare. Spre exemplu populatia unei {iri este grupatit pe judete, din primul pas ar putea fi alegerea unui esant on de judete. Apoi in cadrul judetelor alese se selecteazd un numar de localitati, in cadrul localitatilor, anumite strazi, apoi gospodiiii si in sfargit indivizi. Alt exemplu ar fi construirea unui egantion de studenti la nivelul national {sau de elevi}. Avem in egantion succesiv: centre universitare, institute de 1, facultiti, specializiri, ani de studii, grupe de studenti, in sfarsit studenti. Bsantionul multistadial se poate obtine doar daci coleetivi- tatea are o caracteristica de baz care se poate ierarhiza. Scopul principal al esantiondirii multistadiale il constituie reducerea costului si a timpului pentru culegerea informatie. ste bine si preciziim ca la volum egal un egantion mul- tistadial este mai putin reprezentativ decat unul simplu aleator. Pentru o crestere a reprezentativitatii se poate combina metoda de strat- le de ificare (grupare) cu cea multistadiala. in concluzie aceste metode spec esantionare prezinta avantaje care le face sa fie foarte utile in practica Probleme de bazi in teoria selectiei. Dupii obtinerea esantionuli se trece la studierea unei caracteristici a indivizilor sau chiar la dou. Se vor integistra valorile acestei caracteristici si se vor calcula indicatorii numerici dupii metodele clasice prezentate in capitolele anterioare. Se pune problema in ce miisurai acesti indicatori estimeazii pe cei corespunzittori ai intregii populat 172 Kstimarea valorilor medii. Fie X 0 caracteris ca de tip cantitativ definité pe o populatie de volum N a cérei valoare medie X urmarim si estimam prin studierea unui esantion de volum n. Extragand un egantion oare- care vom obtine o medie X", in general diferita de X. Diferenta J reprezenta eroarea pe care 0 comitem cand in loc si Intim toti cei N indivizi, utilizam doar datele din egantionul de volum n, Aceasta diferent (eroare) nu poate fi cunoscuti dac& nu misurim caracteristica pe intreaga populatie, cea cce nici nu facem, noi dorim doar si facem 0 evaluare a erorii comise, ‘SA presupunem c& volumul populatiei 4’ este foarte mare sic din aceastit populatie am extras un numar apreciabil de egantioane si pentru fiecare am cal- cculat media obtinand sirul Acestea la randul lor formeaza o caracteristica de tip cantitativ pe care 6 notim cu X" si o numin distributie de esantioane. Vom da in continuare patr proprietiti ale acestei distributii care se pot demonstra utilizand teoria probabilitaitilor, 1. Media caractoristicii " coincide cn media Ini X. Cw alte envinte fiednd ‘media mediilor tuturor esantioanelor obtinem chiar media caracteristicii X pentru intreaga colectivitate 2. in cazul esantioniii simple aleatoare repetate (eu returnarea elementului extras) avem ca: abaterea standard a variabilei X" este de / mai mici decit abaterea standard a variabilet X Dac notaim abaterea standard a Ini X" eu e care se mai mumeste eroare standard atunci pentru tipul de egantionare mentionat avem 173 3. Distributia valorilor variabilei X" urmeaza o curba normal de tip Gauss care are formi de clopot (vezi parageaful urmator). 4. Abaterea standard a variabilei X in populatie este suficient de bine aprox- ‘ati de ahaterea standard a acelei variahile inte-nn egantion aareeare, Practic putem folosi in locul lui o, care este necunoscuta pe a" calculata pe baza valorilor din egantionul utilizat. Calculul erorii standard pentru alte tehnici de esantionare. in cazul esantionati simple aleatoare nerepetate (fara introducerea in urna a ele- ‘mentului extras) formula devine meer =a ViV NaI vind ‘olumul populatiei n= volumul egantionului. Deoarece .V este mult mai mare can valoarea radicalului este apropiata de 1 si are doar un rol de corijare. Cazul egantionarii prin stratificare. Vom presupune c& populatia este impartita in s straturi de mérime N,N... sidin fiecare strat se alege un subesantion nyng...n,. Dacé subegantioanele sunt proportionale cu mérimea straturilor adiea aver 1,2)..48 altfel se foloseste formula, unde X; sunt valorile medi ale variabilei pe cele s subesantioane. Broarea standard pentru esantioanele stratificate e data de formula: ne DS o; 10.2 Problema centrala in teoria selectiei Pe un egantion urmarim in general cate 0 caracteristica izolata, une- ori cuplate cite dou. Se pune problema gisirii (estima) legit de proba- bilitate teoretice pe care o urmeaza caracteristica studiaté. Evident aceasta lege poate fi doar aproximata, eu 0 precizie pe care o putem caleula, Pre- cizia estimiii legii de probabilitate, depinde de mai multi factori, ca de pildis ‘merimea esantionului, modul de obtinere a acestuia, metoda folosita pentru aproximare ete. Dupa gisirea (aproximativa) a legii de probabilitate se poate utiliza aparatul matematic extrem de perfectionat. al teotiei probabilitatilor pentru a calcula diferiti indicatori numerici, ce se refera la intreaga colectivitate flats tudiu, Aceasta operatie se numeste de regula inferenta statisticd, Cu ajutorul acestor indicatori gia legii de probabilitate gasite se pot face pre- i economice de mare valoare gi se poate preciza gi gradul de ineredere in cle (probabilitatea cu care le acceptim) Etape pentru gisirea legii de probabilitate 1, Propunerea clasei din care face parte legea: normali-Gauss, de tip Student, ete 2, Kstimarea parametrilor ce intr in componenta densitatii de probabili- tate, care defineste legea, |. Verificarea gradului de precizie a aproximdrii parametrilor prin utilizarea unor teste de verificare specializate. 4. Utilizarea legii pentru calcularea de probabilitati, aledtuirea de prognoze Tuarea unor deci Pentru prima etapa in care se face propunerea generalé a legii ne putem folosi de experienta acumulat& prin care putem aprecia cX numite fenomene economice clasice sunt guvernate de legi de probabilitate uzuale O alta metoda simpli des folosita este aceea dle a reprezenta gratic seria statistical atagatit caracteristicii numerice, sub forma de poligon al freeventelor, care sugereazii destul de bine genul de curba (familia) din care face parte legea de probabilitate citata. ‘Dam mai jos cateva din legile de probabilitate cele mai folosite in studiul fenomenelor economice. Apoi in paragrafele urmitoare vom dezvolta etapele doi si trei 10.2.1 Legi de probabi ate, discrete uzuale Legile discrete sunt acelea care iau doar anumite valori numerice cu probabilitatile corespunzatoare * Legea binomiala (Legea lui Bernoulli, sau legea bilei intoarse). Se intalneste la fenomenele care se repetdi identic de un numar de n de oti si Ja care ne intereseazii un anume rezultat, adicé realizarea unui eveniment A, respectiv a contrariului acestuia . Se pune problema gisirii probabilitatii ca evenimentul A si se realizeze de k ori si A de n~k ori (k 0 constant, atunci pentru n+ 00, X urmeazi lege tui Poisson, adic x i tim, P(r.) Demonstratie. Tinind cont ci p = py = 4 sick g = 1—p= 1-24 avem sin, ot) = tn 08 (8)" (1-3) = AE n(n=1)...n—k4+1 x me (1-3) " n(n — (n — . = 2 py MOD a es =FN yw (13) ty (1-3) " = Kl noo nk 400, nn} n00 n \ Bove Dbseevatie, Decarece mn = A constant, result pentru n foarte mare probabilitatea py este mica. Veci probabititaten de aparitie a evenimentului, ciiruia i se atagenzt acensté schemud este foarte mici, de unde legen lui Pois- son a primit denumirea de lege a evenimentelor rare. Se aplicit foarte mult la utilizarea calculatoarelor, la automate, én telefonie, ta transporturi aeriene tranzactii bancare unde probabilitatea aparitici unei perturbatii, unui accident este extrem de micit, Probabilitatea realizivii a 2,3,...,k astfel de accidente este si mai rari gi se caleuleazit cu lege mai sus amintiti Practic se poate face comparatia intre calitatea (adic precizia in funetionare) a dou caleulatoare, automate, bimei dupi asa numitul coeficient Aa Ini Poisson, atagat. Cu cat acest coeficient este mai mic cu atat aparatul este mai performant, activitatea economic mai ecient, ete 1st 10.2.2 Legi de probabilitate continue Aceste legi pot lua toate valorile de pe un interval sau chiar de pe toaté axa reali, © Legea uniforma are densitatea Pet 1 pentru x € [a,8] 0 pentm re R\ [a8 1. $a veriticdim ca este o densitate de probabilitate [oie to / dx = 2. Funetia de repartitie este fools Mai precis daca tinem cont de toate pozitiile posibile ale lui x avem: 0 x0,a>0,b>0 186 Este o familie de functii foarte general hig.29 Sa veriicam ca este 0 densitate de probabilitate: 1) Se observii ugor ci p(x, 4,6) > 0, Vr € B hes ; 4 stan _ Matin? 2) [ evade = Tes / = Farner Se face schimbarea de variabila ¢ = t, dz = 6 dt si se utilizeazit expresia functiei Gamma amintita la capitotul analiza’ matematic’, « Valoarea medie / zp(z,a, b)de = 1 a Tas no _ WE +2) _ a+ Natt) * PAT a+ 1) Ta+) * Dispersia se calculeazai cu relatia D?(X) = M(X?) - [M(X)P = 2 — Dar v% = (a+ 1)(a +2) de unde D#(X) = # (a+ 1)(a + 2) — Ha +1)? = (a+) Uti vy de orice ordin si tindnd cont de relatia de legatura cu cele centrate se pot and functia Gamma se pot calcula foarte usor momentele initiale 187 imediat gasi si momentele centrate s1. Din aceeasi familie cu legea Gamma mai fac parte si alte legi de prob- abilitate extrem de mult folosite in practica economicé, motiv pentru care le vom prezenta, pe scurt, in continuare, ele rezultand ca si cazuri particulare. # Legea y* are densitatea able a2 plx,n,o) = ¢ T (3) 280? 0 rsd r>0ne) o>0 Aceasta densitate se poate obtine din legea Gamma prin inlocuirea lui 19? a=5-1sib Parametrul n se numeste numirul gradelor de libertate denunire acordatit de R.Fisher (1890-1962) biolog si statistician, Valoarea medi MO statistic Ia construirea unor teste de verificare a ipotezelor statistice. A fost no®, iar dispersia D*( Aceastai lege este mult ay utilizata de antropologul si biologul Karl Pearson (1857-1936) care a construit i tabele pentru functia de repartitie atagata (vezi anexa) * Legea Weibull are densitatea m (y"" sax)" pentru O0,m>0 0 pentrus 0,k > 1,>0 oe, A,K) 0 pentru r <0 Valoarea medic Dispersia y= Be Pentru k = 1 se obtine un caz particular des folosit in practicd numit repartitia exponential negativa Ae“ pentru >0,A>0 pled) = * 0 pentru e <0 Repartitia exponential negativa se utilizeaz mult in fiabilitate hig.30 189 are funetia de repartitie 1-e™ pentru > 0. F(a)= m 0 pent e <0 * Legea Student Student este pseudonimul matematicianului englez W, 1937). Densitatea are expresia eee (ety ter Parametrul nse numeste numérul gradelor de libertate. Legea este alt.) folosita mult in statistica 1a construirea unor teste de veriticare a ipotezelor stati ice, Pentru functia de repartitie s-au construit tabele de unde se extrag ‘o-cvantile utile in teste (veri anexa). Graficul repartitilor din aceasta familie este asemndtor cu cel al repartitiei normale normate, doar ca este putin mai turtit. Una din cele mai importante teoreme limita centrale afirme c& dackt 1 co repartitia Student tinde ciitre repartitia normal normata Se verifica usor utilizand limite de tipul "e” ci Jim, plt,n) = — = repartitia normal normati. normal noemats hig.31 in aplicatile in care se utlzean freevent legen Student, dacin > 30 se poate trece la inlocuirea acestei legi cu legea normalé normata si tabelul 19¢ ccorespu itor, care este cel al functiei lui Laplace. Valoarea medic MQ D(x) * Legea Beta are densitatea Hay! pentru x € (0,1),a > 0,6>0 0 pentru x € R\ (0,1) unde B(a,b) este functia Beta a lui Euler. Se verificd ugor c& este o densitate de probabilitate Forma funetiei p(x,a,6) depinde de valorile parametrilor pozitivi a sib Ubservatii. 1, Pentru a—1 > 0, 0-10 funetia se anuleaza pentru 2 = 0 siz = 1 $1 itervalul (0, 1) are un maxim in punetul de abscisii <5 din 2. Pentru @—1 < 0,6—1 <0 functia devine infinita pentru = 0 de sereste pani la un minim apoi creste devenind infiniti pentru x = 1. Are asimptote verticale in ¢ = 0 $i 2 Valoarea medie este Dispersia este ab DO) = Cpa ro=D 3. Prin operatii elementare si treceri Ia limita in raport cu parametrii a si b se poate face legitura dintre aceasta repartitie i altele cum ar fi repartitia Gamma si repartitia normal. Aceste legituri intre modelele probabilistice rellecta de fapt legiturile naturale reale dintre Fenomenele Recomandim utilizatorului sa studieze din bibliografia citata gi alte legi de probabilitate, utile in practica, specializate pe clase de fenomene economice, cum ar fi: legea Snedecor, Fisher, legea dupa tr inghi isoscel a lui Simpson, Jegea logaritmnic normala ete 10.3. Metode de estimare a parametrilor ‘S-a vizut in paragraful precedent ci aproape toate legile prezentate depind de 1-3 parametrii adie’ formeazai familii de functit. Precizarea acestor parametrii duce la alegerea unei singure functii din familie, functie care descrie cel mai bine fenomenul studiat. Nu putem niciodatai si gisim valoarea reald, exact a parametrilor, dar pe baza datelor de selectie se pot giisi aproximiri destul de bune pentru parametri. Detinitia 10.3.1 Se numeste functie de estimatie pentru parametrul # functia de selectie (statistica) care depinde de variabilele de selectie X1,X2,..-,Xq si eu ajutorul eareia se pot obtine date despre 8. 192 Definitia 10.3.2 Functia de estimatie 9 = W(X, X) este o funetie de estimatie absolut corectii (sau nedeplasatii) pentru parametrul 8, daca satisface conditile i) MQ) =6; (ii) lim D*@) iar valoarea numericd 8 = G(xy,:r9,....2n) se numeste estimatie absolut corect pentru parumetrul 6 Ubservatie. fn definitia de mai sus si in continuare vom nota cu 1.2,---tn, date de selectie obtinute experimental, care sunt valori ale vari- abiletor corespunzitoare de selectie X1,Xo,.--.Xn Definitia 10.3.3 O functie de estimatie 8 = BX, Xo corecti: (deplasata) pentru 8 dacé are proprietatile: Xn) se numeste (@ im M@ = (ii) lim D*(@) in acest eaz valoarea numericd 8 = Blx1,22,..+4n) se mumeste estimatie corecta (sau deplasata) pentru 6. Ubservatie. Se numeste distorsiune saw deplasare a unui estimator, a une functii de estimatie 8 a parametrutui 8, diferenta M(B) —@. Daca distorsiunea este nuld functia de estimatie se zice nedeplasata. Exemplul 1. Hie caracteristica A pentru care exista momentul teoretic de ordinnl k % = M(X*) si fie o selectie de volum n. de ordin & este Se gtie ci momentul de selectie (empiric, statistic m= 1 Soxt 193 Vom arita ca 7x dat de relatia de mai sus este o functie de selectie absolut corecta pentru momentul teoretic de ordin k. Vom avea succesiv M (; =x) 15° (xt) = ) M@) =e) np) DUN) _ 4 cand n+ 00, adic sunt verificate ambele condi din definitia de mai sus Caz particular. Media de selectie este un estimator absolut corect pentru media teoretica pentru cd avem M(X) = 1 Exemplul 2, Momentul centrat de selectie de ordinul doi i = tyra, -x? este o funetie de estimatie doar corect& pentru momentul centrat teoretic de ordinul doi_ yy = D?(X) adica pentru dispersia teoretica. Se arata usor prin tehnici simple de calcul cd: 1, _n-1 ou D*(X) — D*(X) cand n+ 00 1 — PDO 9 8 Ocaind n 20 Ubservatie. Daci se considera 0 alta functie de selectie ca estimatie pentru dispersia teoretici si anume unde a este un intreg pozitiv, atunci aceasta este functie de estimatie abso- lut corecta pentru dispersia teoreticd D*(X) = ny Pentrw a arta acest Inern si abservim ek DX) (i) De) =D? (Zam) = ( us ) oe) 0, n> 00, dupa cum am araitat mai sus. Pentru abaterea standard care este radiicina piitratii din dispersie avem dou functii de selectie dupa cum am mai amintit intr-un paragraf anterior gi care este functia de estimatie corecta pentru abaterea standard teoretica, si re ken care este functia de estimatie absolut coreeta pentru abaterea standard teo- rotied Reamintim ¢& deosebirea dintre ele in aplicatiile practice se manifesta doar la selei de volum mie n < 30, cind se recomanda utilizarea ca funetie de estimatie pentru o teoretic, 195 Definitia 10.3.4 Se numeste cantitate de informatie (dupa Fisher) a une: selectit de volum n relativ la parametrul @ € R necunoscut valoarea 1so)=nn | (22882 unde f(X,0) este legea de probabilitate teoreticd pe care dorim sito aftém. Proprietate. (Inegalitatea Ini Rao-Cramer). 0 functie de selectie abso- ut corectit H(XiX2 -..Xq) pentru parametrul @ verified inegalitatea Definitia 10.3.5 Functia de estimatie O(XiX2...X,) care este absolut corecta relativd la parametrul # se numeste eficienta, daca realizeazd egali- tatea in inegalitaten lui Rao-Cramer adicit xpresia Ome se numeste eficienta functiei de estimatie BX, Aplicatie. Fie o caracteristicd avand repartitia datai de {10 x p+a pa Sa verificdm dac& media de selectie Teste o functie de estimatie eti- cient pentru parametrul p € (0,1). Se stie ea valoarea medie teoret M(X) =p. Densitatea de probabilitate poate fi serisi ca f(x,p) = p"(1—p)!* pentru 2 = Ogi e 196 Daca =0=> f(0,p)=1-p 1 fp) =P adic chiar probabilitatea din repartiia lui X Pentru a calcula cantitatea de informatie relativa la parametrul p avem In f(x,p) = xlnp + (1-2) In(1 = p) Pn flesp) _ t_ DP wenger) =m paar ept P= PF deci Tn(p) ‘) _ pp) ty xi) = Ly piay = 2 Prin urmare se obtine ci D*(X) = I;"(p) deci X este o functie de estimatie eficienta pentru parametrul p, 10.3.1 Metoda verosimilitatii maxime Fie X caracteristica cercetata si pentru care am propus funetia de prob- abilitate {(x,61,82) care depinde de parametrii necunoscuti 81 si 82 Fie variabilele de selectie X1,.X2 n care sunt independente si ‘urmeaza aceeasi lege de probabilitate ca si X. Experimental s-au obtinut valo- rile de selectie 1,2,...,2n realizairi numerice ale variabilelor X, de mai sus. Vectorului aleator (X1, X2,...,X,) format din variabile independente fi atagim densitatea de probabilitate V(r ...,tn,6102) de forma V (ert fs€) = TT Pen) numita funetie de verosimilitate. Definitia 10.3.6 Spunem cd funcfiile de selectie 8, = 8i(XiXo-..Xn) 9 By =F(XiXe. parametrii #1, respectiv 82, dacd ele realizeazd marimul functiei de verosimili- Xp) sunt functii de estimafie de verosimilitate mazima pentru tate. Procedeu de giisire: 1. Se logaritmeazi functia de verosimilitate Stn fen thst) a In V (pata «tn, 01,80 we w 08 00 Sistemul obtinut se numeste sistem de verosimilitate maxima. 0 3. Prin rezolvarea acestui sistem si verificarea conditiilor de maxim se obtin functiile de estimatie de verosimilitate maxima Fy =H(Ni, Nay... ,Xn) si By Exemple: 1) Fie o caracteristica care urmeaza legea evenimentelor rare a lui Poisson, dick k X( =) A> O necunoseut tre 198 Avem la disporitie datele de observatie 1.22. caracteristicii X. Avem’ =0,1,2,. In f(z,A) =2Ind=Inz!= 9 aim fla,A)_ ON x Keuatia verosimilitatii maxime este: (4-1) o= fan de unde Remiltii ch este media de selectie, care este in acest caz funetia de verosimilitate ‘maxima. ra de asteptat acest rezultat deoarece valoarea medie teoretic’ pentru legea evenimentelor rare e chiar parametrul 4; M(X) = A; pe de alta parte, media de selectie X este o functie de estimatie absolut corect pentru valoarea medie teoretica. 2) Sa se determine functiile de estimatie de verosimilitate maxima pentru parametrii legit normale N(m,o) 4 (2,m,2) eH F(emo) = ae M(X) si o® = D*(X), Rezolvare. Mai intai logaritmim densitatea de probabilitate. Se stie ca m Avem (2=my Ba In f(x, m,0) = —InV2x — Ino — 199 de unde Prin insumare se obtine sistemu! de verosimilitate maxima: AinV _ alm f(Xism, oo Xi m= a O25 eau Sy aalame Sit Soi -m =o t Lhe? + (Xe — mJ =e Sn Su "E 10.3.2 Metoda momentelor (1891, Pearson) 1 ‘ly pentru parametrii m si 0. Fie caracteristica X studiata avand momentele teoretice initiale vp. Se stie ek momentele statistice na tSoxt sunt fanetit de estimatie absolut corete pentru v4 corespunzator. Metoda consta in construirea unui sistem de ecuatii prin egalarea momentelor teoretice cu cele statistice de acelasi rang, adic& unde s este numérul parametrilor pe care ii are der F(2, 01,625.84), adica fatea de probabilitate [28 Fe 84.B 0. s0a)bo = Kay Kayes Xn)e FS a8 nt Dac X este caracterizati de o lege de tip discret atunci in Toe de inte- srala avem sum) ‘Exemplu, Fie caracteristica care urmeazd legea gamma de paramettii a s 8 > Onectmoscut. iar a > 0 eunoseut. Avind la disporitie datele experimentale Bay. +-En 8h se determine parametrul necunoscut 6. LRezolvare, Vom folosi doar 0 singuri ecuatie data de galitatea f eHlavbyde = Paeit0..t0) Densitatea de probabilitate a reparttie gamma este: 1 feay=] Fart et et=>e 0 daci x <¢ Fenatia de mai sus devine tf ee-tae 7, Daca in integral facem schimbarea de variabili ~ = t, de = b/dt, obtinem “ Pa+pett al (ab Tale Ta) = in concluzie functia de estimatie de verosimilitate maxima pentru bea parametrul 6, cand a este cunoscut este vt yx, ant 10.3.3 Metoda intervalelor de incredere Fie caracteristica X cercetata despre care stim san presupunem ci urmeazi densitatea de probabilitate f(x,@), unde @ este un parametru ne- Ccunoscut. Se obtin experimental, asupra caracteristici X, valorile statistice 21 .2,-+- ns Fealizati numerice ale variabilelor statistice Xy,X2,-.-,Xq ine dependente si care urmeaza aceiasi lege de probabilitate ca si X. Metoda consti in determinarea a doua functii de selectie (numite obignuit si statisti (Xi, X2,--+)Xn) si Oo( Xa, Xa,..., Xe) astfel incat P(X — Xn) <0 < O46 Xn) unde @ € (0,1) nu depinde de , este foarte mic si se numeste probabilitate de rise. Valoarea 1a se numeste probabilitate de incredere. in general a se alege intre 0,01 si 0,09, cel mai des se ia 0,05, situatie in care 1 ~ a = 0,95, adic’ 95%. Intervalul aleator ((8):(X1,-.+,Xn),62(M1,-.+)Xn)) se numeste interval de incredere pentru parametrul 8 Procedeul practic de gasire a intervalului de incredere: ~ Se cauti o statisticd (fanctie de selectie) Zn = Zy(Xiy-+-.Xn) a cdirei lege de probabilitate sa fie eunoscuta gi care si nu depinda de parametrul # pe care dorim si-1 aproximam. ~ Folosind datele de selectie 21,272,--.,, se determina apoi un interval numeric (21,22) astfel incat Plt: < Zn O-cunoscut. S% se gtiseascit un interval de incredere pentru media teoreticd, adica pentru parametrul m, daca presupunem ca am ales ca probabilitate de ineredere valoatea 1 — Kezolvare. fectwim o selectie repetata de volum n apoi alegem functia de selectie (statistica) z unde Po despre care se stie ci urmeaza legea normal normata NV(0, 1) adicd nu depinde de parametrul necunoscut m = M(X) pe care vem si- aproximam. ‘Vom determina intervalul numeric (21,22) astfel ineat Pla 40) si se cunoaste abaterea standard atasatit acestei legi a = /D™X) atunci se poate utiliza tot functia de selectie Wi pentru gisirea wnui interval de incredere asociat mediei teoretice M(X), ne- cunoscutd, pe care 0 notém tot cum si care poate servi ulterior la aprosrimaren unui parametra al leg studiate, de care M(X) este legat prin operatiéalgebrice Exemphul 2. Se diio caracteristiei \ ce urmeaziilegea normala N (m, 0) unde on (X) si = (DAK). Ne propunem M(X)cuc probabilitate de incredere 1 — a data. Se face o selectie de volum n, obtinand ambi parametrii sunt necunosi si construim un interval de incredere pentru media teoreticd m datele 21,22,.-.59 Rezolvare, Se va utiliza functia de selectie (statistica’ Aici 7 nu este eunoscut si am folosit pentru el o functie de selectie absolut corecti, adica Hunctia de selectie se alee dintr-o lista de astfel de funetit wzale, in asa fel ca ea si Indeplineascd conditile impuse, prezentate anterior. Se arata ca aceasta statisticd 1 urmeaza legea Ini Student, ew n—1 grade de libertate, asadar o lege care nu depinde de m si nici de a. Intervalul de incredere pentru 1m va fi simetric fat de si va fi determinat de o cvantila pe care o citim din tabelul lui Student (vezi anexa) in functie de gradul de rise ales a si de muméirul gradelor de libertate (n ~ 1), evantila pe care o nota ty1 ‘Lege Student eeu st ‘Gude deine Zona complementard intervalului (t ,t2) (cea hagurata), care corespunde probabilitatii de rise a este impiirtita in douii parti egale, simetrie agezate fata de intervalul (t1,t2) sau fatdi de OY corespunzéindu-i fiecdruia o arie de $. Cvantila (abscisa) ta_1.1s este de fapt solutia ecuatiei Fltrtig unde F este functia de repartitie atasatit legii Student. Dup determinarea (tr Plu ten) = va apoi prin calcule algebrice izolim pe m pentru a obtine statisticile my si ms 1-8) pentru serie care formeaza intervalul de incredere (m,,m2). Avem: p(x-1 do unde rerultis e Exemplul 3. Intervalul de incredere pentru dispersia teoretic’ a legii normale, Se considera 0 caracteris ied X ce urmeazi legea normal N(m,o) eu media si dispersia necunoscute. Se cere si gisim un interval de incredere pentru dispersia teoreticd 0” = D¥(X) Rezolvare. Se alege statistica unde Se arata ci statistica H urmeaza legea y? cu n~1 grade de libertate. ‘Vom determina mai intai un interval pentru care probabiltiatea de Incredere este 1 —a, iar cel complementar de rise este agezat simetric fata de el 4 Peutet grade detibette Fig:34 hy ha = Png Aceaste abscise se determina separat din ecuatiile Fyaalls)= $5 Fya(ha)=1-$ unde Fy-1(z) este o functie de repartitie atagata legii y* cu n — 1 grade de libertate, Reamintim c4 n este volun selectieifcute, adic avand datele de selectie 1, 4'2,..-,n pe care, de asemenea, le utilizaém prin introducerea lor in funetia de seleetie in locul variabilelor Xi. Absc e (cvantilele) hia1,¢ $i nig le gisim in tabloul anexat cu valorile functiei Fy1, corespunzaitoare legit x? (vezi anexa) 2>0. ) pentru in aceste relatii mai urmeazd s& introducem datele de selectie 1.22,..+42m in locul variabilelor X; pentru obtinerea concreté a marginilor intervalului de ineredere. Intervalul de incredere pentru abaterea standard teoreticai «se obtine prin extragerea ridacinii paitrate din capetele intervalului de mai sus, adic: (1.32). Orice valoare de pe acest interval poate fi Iuat ca aproximatie pen- tru o teoretic, evident cu probabilitatea aleasa (1 — a) Metodele de gisive a intervalelor de incredere sunt importante si pentru faptuilc& stan la baza construiriitestelor pentru verificarea ipotezelor statistice ce vor fi prezentate paragraful urmtor, 10.4 Teste de verificare a ipotezelor statistice 10.4.1 Generalitati. Tipuri de teste Se numeste ipoteza statisticd 0 presupunere relativa la caracteristica X a unei populatii C, privind legea de probabilitate a lui X, parametrii de care depinde aceasta lege de probabilitate s 11 Semnificatia unei alirmatii sau a unui indicator statistic. ‘Metoda prin care o ipotezitstatistica ce trebuie verificata se accept sau ons se respinge 8 1umeste test statistic. intalnim cateva tipuri de teste ~ test parametric, daci acesta se referd la parametrii de care depinde legea de probabilitate a caracteristicii X ~ test de concordantii, dacit testul se refer la natura legii de probabilitate (normala, Student, x2, ete.}; ~ test de semnificatie, daca se refer la sem licatia pe care o are un anu 1 indicator statistic (adica ce incredere putem acorda valorii obtinute experimental) 10.4.2 Etapele unui test 1, Formularea ipotezei (simpla sau compusai) 2, Colectarea de date statistice 21,222,...,2, referitoare la caracteristica egatii de ipoteza facut 3. Fixarea unui prag de semnificatie sau prag de rise a care e general mic, cuprins intre 0,01 si 0,09. Cel mai des se alege 0,05. Complementarul acestuia 1a se numeste prag de incredere. 4. Alegerea unei functii de selectie (statistica), dintr-o list de astfel de statistici uzuale. Ea trebuie si indeplineasca cateva conditii 5, Extragerea dintr-un tabel asociat testului a unei valori (abscise, evantile), cu rol de granigi, care separ zona de acceptare a ipotezei, de zona de respingere numita si zona critica, 6. Calcularea valorit fumetiei de selectie, alese, prin inlocuirea datelor de selectie si luarea deciziei dupa regula: ong, ic, respingem ipoteza b) daca valoarea caleulata cade in zona de acceptare, admitem ipoteza. Ubservatii asupra etapelor: 1. Ipotezele statistice pot fi: parametrice, de concordant sau de semnificatie si ele dau si natura testului ‘© Dupa alt criteriu putem avea ipoteze: simple sau compuse, 0 ipotezi compusa este formati din: ~ ipoteza principalé, sau ipoteza nula, notati de obicei cn Hy de unde i se trage si numele: ~ ipoteze secundate, sau alternative sau admisibile, notate et Hy, Ha. Ipoteza simpli este formatii doar din ipoteza nul: Ho, © Sa presupunem in continuare ci avem un test cu ipotez’i compusti din dou’ ipoteze: cea principal Ho si una secundara (alternativa) H. In functie de forma ipotezei secundare putem avea trei feluri de teste: a) test simetric sau bilateral: de exemplu ne referim la un parametru m. Hy im = me Hyimém, aici ipoteza secundara este exprimata cu o relatie simetrica, b) test unilateral stanga: Hyim my 2 La ultimele doua tipuri de teste a doua ipotezd se exprima eu ajutorul tunel inegalititi ce ereeaz un interval, fie pe nga, fie pe dreapta unei con- stante care fixeazit numele testului in functie de natura ipotezei si legea de probabilitate de care se leagii ‘vom alege funetia de selectie de la punetul 4, eum vom vedea in exemplete ce 2. Pentru verificarea ipotezei vom avea nevoie de date referitoare la ipoteza facut pe care le obtinem prin cercetarea selectiei realizate. Acestea vor fi introduse in formula ce exprima functia de seleetie aleasi 3. Se alege un prag de rise a sau prag de semmiticatie in functie de precizia eu care dorim si verificam ipoteza. Acest prag este in general mic €€ (0,01;0,09), dar poate fi uneori si mai mic. Diferenta pand la 1 se numeste rag de incredere sau de acceptare a ipotezei. Pragul de rise a reprezinta de fapt probabilitatea de a gresi pe care o tragem. Se concep doua feluri de erori: ~ Hroare de tipul I: respingerea unei ipoteze adevarate sau Eroare de tipul II: acceptarea unei ipoteze false. 4. Alegerea functiei de selectie: Hunctia de selectie este 0 variabila aleatoare sau variabild statistica care depinde de Xy,Xo,...,X», numita si varie abild de selectie. Aceasta functie de selecti (numita des gi statistica) urmeaza © anumitié lege de probabilitate « noscuti sau care se poate afla, care trebuie sii fie independenta de ipoteza ficuti, de exemplu, daci ipoteza se referdt la un parametru atunei aceasta lege nu trebuie sii depind’ de parametrul respectiv. Legea de probabilitate pe care o urmeazai functia de selectie aleasi dt rmumele testului: Z sau normal, Student, x, ete., precum si tabelul eu care Iucram, adic& din care extragem evantila de granita, dintre zona eritica si cea de aceeptare. Acest tabel, de fapt, confine valorile functiei de repartitie atagate legit 2u de probabilitate urmate de statistica aleasa. Funetia de selectie se alege dints-o lista construita in timp, in funetie de ipoteza ficuti. Pentru o aceiasi ipotezii putem alege cateva functii de selectie tunele mai bune, mai precise care dau valoare mai mare testului, dar avand gi dezavantaje. Se poate introduce gi un criteriu de optim in aceasta alegere. 5. In functie de pragul de semnificatie a si uneori si de volumul selectiei nextragem din tabelul cu valorile functiei de repartitie atagata statisticii date © evantila (abscisa), uneori dou’, care formeaza granita dintre doud regiuni: ~ regiunea critica sau regiunea de respingere a ipotezei si ~ regiunea de acceptare a ipotezei. Regiunea critic poate fi situati uneori numai pe o parte a celei de acceptare, alteori este formata din doua piirt, situate de o parte gi alta a celei de acceptare, simetric sau nu. Modul de construire a regiunti critice, intinderea «i, poritia ei fata de cea de acceptare, va i ilustrata pe cdteva exemple clasice, cce vor fi preventate in continuare. 10.4.3 Exemple de teste uzuale Numele testului este dat de legea de probabilitate pe care o urmeaz statistica aleasé. Vom intalni agadar, in mai multe cazuri la mai multe tipuri de ipoteze, chiar foarte diferite ca enunt, acelasi ip de test. Exist deci mai multe cazuri in care se foloseste testul x, testul Student, testul normal sau Z, Fisher-Snedecor ete. n continuare vom trece in revistii cAteva tipuri de teste mai des intalnite Incercdnd si acoperim toate variantele clasifictilor. Exemplu de test de tip Z. Fie caracteristica X care urmeazii legea normal N(m,a) unde m € este necunoscut, iar ¢ > 0 este cunoscut. 212 Ipoteza se face asupra parametrului m si are forma, Hy :m = mp ipoteza nula (principal) Hy sm # m, ipoteza alternativa secundara. Datoritii formei ipotezei constatim ci avem un test parametric gi simet- ric (bilateral), Se alege un prag de semnificatie a € (0,1) si se procura datele de selectie 21,r2,--.,2rq ca valori ale variabilelor de selectie X1, Xo, ‘Vom alege stat = care urmeaza legea (0, 1), adica indeplineste conditia de baza, de a urma ¢ lege ce nu depinde de parametrul din ipotezi. Zona critica va fi simetrica fata de cea de acceptare (aici zy Fig.35 Pentru a ales putem determina tervalul de acceptare a ipotezei —$+21-g) cu ajutorul functiei lui Laplace, ce serveste pentru exprimarea (-: funetiei de repartitie la legea normalit normatit N(0,1). Avem P(a-gieig) = (2-9) bag l-a Din tabelul functiei Ini Laplace obtinem evantila (ab a) 1-4 care separa cele dowd resi de acceptare si de respingere a ipotezei. Introducem valorile numerice 21,22....2q obtinute prin observare in expresia functiei de selectie Z si vom avea valoatea calculata Conehivies a) Daca [Z| < 21-3 atunci valoarea calculata se situeaz in zona de ac- ceptare gi admitem ipoteza nul Hy. b) Daca [Z| > 1s respingem ipoteza Ho. Observatie. fn exemplul de mai sus ipoteza alternatind Hy este simetrica im # my caz én care testul se numeste bilateral. Dacét ipoteza ar fi fost de tipul Hm < mz s-ar fi obtinut un test de tipul unilateral stinga, respectiv pentru ipoteza alternativié Hy : m > ms se obtine un test unilateral dreapta. in aceste cazuri zona eriticd are alt aspect. De exemplu, pentru testul Z unilateral dreapta, zona critied este in intregime la dreapta abscisei (cvantilei) z1., iar zona de acceptare este (—00, 21a]. Cvantila 21» se giseste tot cw functia lu Laplace din expresia ®(t1-0) as ond de 2, tonk criticd acceplae Ina Fig 36 au Analog se procedeazii pentru testul unilateral sténga. Exemplu de test de tip Student. Fie o caracteristica X care urmeazai legea normala Nm, 0) cu parametri m = M(X) sia > 0,0 = V/D%(x) necunoscuti. Relativ la parametrul m se face 0 ipoteri de forma: Hy: m= mo (ipotez’i nul}; Hy :m# my (ipoteza altern: Rezolware, Aver un test parametric bilateral 1. Se alege 0 funetie de selectie potrivita cu aceasta ipoteri (atentie in acest caz o este si el necunoscut) Vom alege Se gtie cd aceasta variabila statistic’ T urmeazi legea Student gi it consecinta testul se va numi “de tip Student” si vom utiliza tabela cu valorile functiei de repartitie asociata repartitiei Student, adicd ” (mgt) /( 2 7 tym) =f (14 te )= Trask (2) =) care are m grade de libertate. 2. Se fixeaz’i pragul de semnificatie (de rise) a = 0,05. 3. Se efectueazi un sondaj si se retin datele experimentale 2) ,22,--. tn De aici rezultai e& vom avea l= ~ I grade de libertate. 4. Din tabelul asociat functiei de repartitie de tip Student vom obtine cvantila ty 1.12 care separdi zona de acceptare de cea de respingere a ipotezei, {in acest caz testul fiind simetric, zona critied (de respingere) este simetrici de-c parte si de alta a zonei de acceptare. 215 Fig.37 Sa presupunem ¢& 1 25, revulta | tabelul Student (vezi anexa) citim toin.sv5 2,064 pentru ca 1 — $ Asadar zona de acceptare este (—2,064;2,064) si de respingere (-00, -2, 064) U (2, 064, +00). 5. Introducem datele de selectie in functia de selectie si sa presupunem c& .789, care apartine intervalului de acceptare. in consecinta acceptam ipoteza nul facuta. Observatie. $i in cazul testului Student pentru alti forma a ipotezei am fi putut aven test asimetrie 4) $i anume Ho:m=mo test unilateral stnga Hy:mma;mz > mo n ° \ test unilateral dreapta zona eritieii se afli in intregime én partea dreaptd. ~ oni de i acceptare i Fig. 36 Reamintim c& 0 evantila de tipul ty1,q arata c& pani Ia abscisa respectiva s-a acumulat sub graticul densitatii de probabilitate o arie egal cu ‘Dac numirul gradelor de libertate tinde la infinit, in baza unei teoreme 27 limitata central rezulta ci legea Student converge in repartitie citre legea normal normata V(0,1). Prin urmare, daca volumul n al selectiei este mare {n > 30) se poate utiliza testul Z pentru verificarea ipotezei enuntate mai sus, situatie in care am utilizat statistiea 7 Exemplu de test y® pentru dispersie Fie caracteristica X ce urmeazi legea normal N(m,o), unde m € Ry m= M(X) si = \/D2(z) sunt necunoseute. In acest caz vom face o ipotezit asupra dispersiei teoretice: ipoteza nula Hy 10? #03 ipoterit alternativi. Kezolvare 1. Se face o selectie repetatit obtindnd datele de selectie 21,2..-..tm. care corespund variabilelor statistice X1,X2,..-,Xn, pe care Le intalnim in functie de selectie (sta 2. Se alege o statistic’ de forma: sise poate artita ci urmeaza legea y* cu n—1 grade de libertate. De aici deriva i mmole testulnt 3. Se alege un prag de semnificatie (de risc) a 4. Se consultii tabelul asociat legii y? de unde trebuie si extragem dou cvantile care delimiteaza zona de acceptare, pentru ca testul fiind bilateral vom avea douti zone critice de o parte si cealalti a zonei de acceptare. In acest caz cvantilele nu sunt simetrice si trebuie extrase independent din tabel, 28 ® Ag Fig.40 P (thay vom gisi estimatiile corespunzitoare 6? si Se pot folosi si alte metode de estimare a acestor parametri. In contin- uuare vom face ipoteza statistic pentru earacteristiea X Hy: F = F(z, 0,08; adica funetia de probabilitate (de repartitie) teoretic’ relativ la caracteristica X este Fo(r, 67,69) obtinuta prin utilizarea parametrilor 6? si #3 determinati de noi Pentru clasa i, dat de intervalul [a,, 4/41), eu mijlocul 2; vom determina probabilitatea ca variabili X sa la valori cuprinse intre aj si a1 Bi = Play SX < ai41) = Flaisa) ~ Flas) 200 F fiind acum determinata eu aproximatie prin utilizarea parametrilor 69 si 8 estima Aceste probabilitaiti p calculate care estimeaza probabilitatile teoretic 1; pot fi verificate cu ajutorul freeventelor nj obtinute experimental Se utilizeaza functia de selectie (ni = Noh)? ye Variabila aleatoare corespunziitoare H? urmeazii legea de probabilitate y¥ cul =r—2-1=r—3 grade de libertate, Aici 2 este numarul parametrilor, iar r este numérul de grupe. Daca alegem a ca probabil hate de risc, se obtine intervalul de incredere (0, if )- ify este abscisa ce desparte cele dons intervale, de incredere gi de rise si care se obtine din tabelul y* cu valorile funetiei de repartitie pentru f —3 grade de libertate sia ales. Zona critica se afla in intregime la dreapta acestei cvantile h?_- Daca valoarea calculata H? din relatia de mai sus este mai mica decat evantita hi... admitem ipoteza, si anume ca functia de repartitie F(x, 47,68) gisita experimental este semni- ficativ apropiata de cea teoreticd pentru cit valorile Lor sunt concordante. ‘Testul F (de tip Snedecor-Fisher) Fie dou populatii independenter si #2 la care urmarim aceeasi cat acteristic. De exemplu, pot fi doui selectii din aceiasi populatie P, realizate independent Vom nota cu" caracteristica cercetata din populatia si presupunem cf urmeaza legea normalai N(m,,ou) si cu X" caracteristica similard de ta populatia Ps, care urmeazii legea normala cu N(m2,02). Ne intereseavt legatura dintre dispersile celor dows legi normale. Vom face ipoteza: Ho @F ale color dou’ lei 0% ipoteza principala asupra dispersiilor teoretice of gi Hy : of # 03 ipoterisalternativa, 221 Se fac dows selectii repetate de volum Ny si Nz din cele dowd populatii obtinand datele de selectio 2,25,....2'y, sh 2fs2f,....a%,, unde AX Xk, PATA,» Pentru dispersiile statistice vom folosi notatiile = ei- Fy, ‘Vom utiliza statistien X{, sunt variabilele statistice corespunziitoare. Yor-7y Fa4.% Se arata cd aceasta statisticd urmeaza legea Snedecor-Fisher cu respectiv m=, —1 si m= N2—1 grade de libertate Functia de repartitie corespunzatoare este Pentrn un nivel de semnificatie ales vom determina dona evantile Jnnng Sn 3 care determina intervalul de aeceptare adicd Zona crit (ntervalul de respingere a ipotezei) se affa de o parte si de alta a intervalului de acceptare. Cele douii cvantile se determina din tabelul cu valorile functiei de repartitie Snedecor-Fisher (vezi anexa) din relatile: F (fmm) = 5 51 F (fmnt—g) Pontrn ea are Ine rela: 1 Framand fi se poate ci unele tabele se construiese doar pentrn valori mari ale Iii a {0,95;0,975;0,99; ete). 222 Urmea compararea valorii calculate a lui F cu limitele intervalului de acceptare, pentru Iuarea deciziei asupra ipotezei fcute. Testul F de tip Fisher-Snedecor se poate aplica, de exemplu, ea test de semnificatie in cazul in care dorim s& verificdim daci raportul de corelatie dat do relatia unde 7% este dispersia dintre grupe si 7” este dispersia total, calculat: pe un esantion este semniticativ. Acest indicator este semnificativ daci intensitatea legiturii la nivelul intregii populatii este aceeasi sau aproximativ aceeasi cu cea calculata pentru esantion Se eiite, de exemplu, 0 ipotez’ Hy : neste nesemnificativ si Hy : neste semnificativ. Se construieste funetia de selectie unde s} este estimatia dispersiei intre grupe in populatia total la f, = m — 1 grade de libertate si s4 este estimatia dispersiei interiorul grupelor in populatia total la ly =n ~m grade de libertate Avem ci : = Zale atunel oman i 8 n-1 I-n Valoarea caleulata in funetie de datele de selectie se compara cu valoarea tabelara corespunzaitoare gradelor de libertate fy si fy si gradul de rise ales (semnificatie) ‘Avem variantele 228 a) Daca Frateutat < Fatelar ~ ipoteza nulii se respinge, deci y este semnifica- tiv pentru intensitatea legiturii dintre cele doua variabile X si Y, adicd rezultatul se poate extinde la intreaga populatie. in acest caz zona critica se aflé la stnga cvantilei obtinute din tabel: b) Daca Featcutot > Fratetar ~ ipoteza nul Ho se admite in forma formulata, adie& 1 nu este semnificativ pentru legiitura dintre cele dowd variabile si icatorul nu poate fi extins la nivelul intregit populagi, 10.4.4 Probleme rezolvate 1. Investitile realizate de 40 de agenti economici in anul curent sunt trecute in tabelul de mai jos (in mil.lei) 260 300 340400 4 6 2 0 8 Investi fumar agent Sai se verifice, cu un nivel de semnificatie @ = 0,01 daci media investitiilor pentru un agent este de 320 mil.lei, stiind cA abaterea standard = 60 milli Raspuns. Abaterea standard fiind cunoscuta si volumul selectiei fiind 40 > 30 se recomanda folosirea testului Z pentru verificarea ipotezei mule, Hy :m = M(X) = 320. tH este: z= Xam _X=30 vu Ea urmeazii legea normal normati. La a = 0,01 din tabelul functiei Ini Laplace se determina evantila 1495. an os astfel incat ®(70,0%5) 224 Se giseste nous Avem suecesiv (220-4 + 260-6 + 300 12 + 340-10 + 400-8) = 316 =m _ 316-320 1 a Zz wa Vio Deoarece Z = =0,421 € (-2,58;2,58) se accept ipoteza enuntati $1 anume ci media investitillor pe agent poate fi luat% 320 mil tei. 2. Find monitorizat timp de 15 zile un muncitor a obtinut zilnie un numa de piese dupa cum urmeaza: 300, 425, 450, 375, 420, 390, 460, 275, 385, 410, 325, 395, 415, 325, 380. Sa se veritice cu un nivel de semnificatie de 0,05 ipoteza care afirma ci media zilnic’ este de 400 de piese, indicator necesar pentru fixarea normei Rezolvare. Se considera ci variabila care da numérul zilnic de piese urmeazat legea normal N(m,) cu m si a necunoscuti. in acest caz ipoteza mula este Ho sm = 400 piese Deoarece abaterea standard nu este cunoscuti vom alege funetia de soleetie care urmeazi legea Student. Avem deci un test Student. ‘Numirul gradelor de libertate 1 =n ~ 1, unde n este numarul de observatii culese. Din tabelul Student (vezi anexa) se determina cvantila, core- spunziitoare numirului de grade de libertate (= 14 si pragul de semnificatie ales a = 0,05 Vom avea. naoars = 2,145, 225

Potrebbero piacerti anche