Sei sulla pagina 1di 18

Material de Apoio (Anlise Estat a stica em Cincias Sociais com R) e

Conte do u
1 Introduo ca 2 Distribuio de Frequncias ca e 2.1 Frequncias relativas, absolutas e muladas . . . . . . . . . . . . . 2.2 Representao grca de dados ca a 2.2.1 Dados discretos . . . . . 2.2.2 Dados cont nuos . . . . 2 2 acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . e . . . . relativas acu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 5 7

3 Medidas de Tendncia Central e 10 3.1 Mdia aritmtica . . . . . . . . . . . . . . . . . . . . . . . . . 10 e e 3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Medidas de disperso a 4.1 Desvio mdio . . . . . e 4.2 Varincia . . . . . . . a 4.3 Desvio padro . . . . . a 4.4 Coeciente de variao ca 5 Medidas de Assimetria 6 Medidas de associao ca 6.1 Curva de Lorenz . . . . . . . . . . 6.1.1 Coeciente de gini . . . . . 6.1.2 Indice de dissociao . . . . ca 6.2 Correlograma . . . . . . . . . . . . 6.3 Correlao . . . . . . . . . . . . . . ca 6.3.1 Coeciente de correlao de ca 6.3.2 Coeciente de correlao de ca 12 12 12 13 13 13 14 14 17 17 17 17 19 19

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pearson . Spearman

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

Material de Apoio

Antnio M. Rodrigues o

Introduo ca
Estat stica: Cincia que dispe de processos apropriados para ree o colher, organizar, classicar, apresentar e interpretar conjuntos de dados.

A Estat stica, enquanto cincia, tem por objectivo sintetizar um conjunto e de dados para a sua melhor interpretao. E comum fazer a distino entre ca ca mtodos descritivos e inferenciais. e Conceitos: Estat stica descritiva: inclui todos os processos, desde a recolha da informao at ` sua s ca ea ntese em grcos e medidas descritivas, que visam a a leitura e interpretao de um conjunto de dados. ca Estat stica inferencial: conjunto de mtodos e ferramentas que tm como e e objectivo retirar, a partir de amostras, concluses sobre os comporo tamentos de determinadas populaes / universos. co

Distribuio de Frequncias ca e

A informao utilizada ou que serve de anlise em Estat ca a stica compilada e em variveis. a Conceitos: Varivel: caracter a stica, representada atravs de uma letra, de um grupo e de indiv duos. Pode tomar qualquer valor inclu no seu dom do nio. Por exemplo, a varivel X tem n elementos e constitu pelos vaa e da lores: X = {x1 , x2 , , xn }, (1)

Dom nio: conjunto de todos os valores poss veis que uma varivel pode a tomar. O dom nio da varivel X denido pelo intervalo [x1 , xn ]. a e Constante: varivel que assume sempre o mesmo valor (y). a

Material de Apoio

Antnio M. Rodrigues o

Varivel discreta: pode tomar somente um nmero nito ou uma ina u nidade numervel de valores. Dado que resulta de um processo de a contagem, uma varivel discreta tomar valores inteiros. a Varivel cont a nua: pode tomar qualquer valor dentro de um determinado intervalo de nmero reais. Isto , toma valores de um conjunto de u e cardinalidade innita. Resulta de um processo de medio. ca Dados brutos: so todos aqueles dados que ainda no foram organizados. a a E comum grandes quantidades de dados serem agrupados em classes ou categorias. O nmero de indiv u duos pertencente a cada classe denomina-se como a frequncia (absoluta) da classe. O resultado da organizao da e ca informao em tabelas denomina-se tabelas de frequncia ou distribuio ca e ca das frequncias. e Tabela 1: Tabela de frequncias absolutas (exemplo) e Populao residente ca < 1000 1000 - 2000 2000 - 5000 5000 - 10000 > 10000 Total No de freguesias 37 33 30 5 4 109

Os dados, quando organizados em tabelas de frequncias, denominam-se e geralmente dados agrupados. Cada grupo de dados de uma tabela de frequncias chama-se intervalo e de classe, denominando-se os seus limites como limite inferior e limite superior da classe. Um intervalo de classe cujo limite inferior ou superior no indicado um intervalo de classe aberto. a e e Denomina-se como amplitude de intervalo de classe a diferena entre c os limites superior e inferior. Uma tabela de frequncias pode ter limites de e classe iguais ou variveis. a O ponto mdio de uma classe resulta da diviso da soma dos seus e a limites por dois.

Informao ca referente ` regio a a NUTS3 Mdio e Tejo

Material de Apoio

Antnio M. Rodrigues o

2.1

Frequncias relativas, absolutas acumuladas e relativas e acumuladas

Ao nmero de ocorrncias dentro de cada classe d-se o nome de frequncia u e a e absoluta (Fx ). A partir destas pode calcular-se as frequncias relativas, e absolutas acumuladas e relativas acumuladas, que enriquecem a informao ca que podemos retirar da distribuio das frequncias e da sua respectiva ca e tabela.

Conceitos: Frequncia relativa (fx ): resulta do quociente entre a frequncia absoe e luta e o seu total: fx = Fx n i=1 Fxi = Fx n (2)

Frequncia absoluta acumulada (Fx ): Para qualquer classe, a sua frequncia e e absoluta acumulada resulta da soma da frequncia absoluta da sua e e das classes inferiores. Frequncia relativa acumulada (fx ): Para qualquer classe, a sua frequncia e e relativa acumulada resulta da soma da frequncia relativa da sua e das e classes inferiores. Atravs do quociente entre a frequncia absoluta e e acumulada de uma classe e n, obtm-se tambm fx . e e

Tabela 2: Tabela de frequncias (continuao) e ca Classes < 1000 1000 - 2000 2000 - 5000 5000 - 10000 > 10000 Total Fx 37 33 30 5 4 109 fx 0.34 0.30 0.28 0.04 0.05 1 Fx 37 70 100 105 109 fx 0.34 0.64 0.92 0.95 1

Material de Apoio

Antnio M. Rodrigues o

2.2

Representao grca de dados ca a

A necessidade de sintetizar a informao estat ca stica conduz com naturalidade ` necessidade de criar representaes grcas dos dados para a sua melhor a co a leitura. A deciso de qual o melhor grco vai depender de diferentes a a factores, desde o tipo de informao que se pretende representar, o pblico ca u alvo, a sensibilidade do investigador, etc. 2.2.1 Dados discretos

Nos casos em que os dados dispon veis s podem tomar valores inteiros o (dados discretos), a sua representao feita atravs de pol ca e e gonos de frequncia (ou diagrama de barras ou distribuio de frequncias) e ca e Conceito: Pol gono de frequncias: Consiste num sistema de eixos coordenados no e qual so representadas, no eixo da abcissas, os valores das classes, e no a eixo das ordenadas as frequncias absolutas ou relativas. Traam-se de e c seguida linhas que unem as origem das classes e o respectivo valor das frequncias. A unio dos limites superiores destas linhas d origem ao e a a pol gono de frequncias. e Exemplo - Considere a seguinte amostra correspondente ao nmero de u lhos de 20 casais: 4 com zero lhos, 3 com 1 lho, 8 com 2, 4 com 3 e 1 casal com 4 lhos. A gura 1 consiste no pol gono de frequncias absolutas constru a e do partir desta amostra (constru atravs da utilizao das frequncias absodo e ca e lutas). Conceito: Diagrama de barras: Semelhante ao pol gono de frequncias, no sentido e em que so utilizadas tambm as frequncias absolutas ou relativas, a e e cujos valores so de igual forma representados no eixo das ordenadas, a enquanto o valor das classes so representados no eixo das abcissas. a A gura 2 representa os dados referentes ao exemplo anterior, atravs e de um diagrama de barras de frequncias relativas. e

Material de Apoio

Antnio M. Rodrigues o

Figura 1: Pol gono de frequncias e

Figura 2: Diagrama de barras de frequncias do nmero de lhos e u

Material de Apoio

Antnio M. Rodrigues o

2.2.2

Dados cont nuos

Para uma varivel cont a nua (que pode tomar quaisquer valores), a sua representao grca um pouco mais complexa. Descrevem-se de seguida as ca a e vrias fases do processo: a Denio das classes a utilizar ca Para determinar a amplitude da classe (h), necessrio dividir a amplitude e a da amostra pelo nmero de classes pretendido (k). Para a varivel X: u a xmax xmin (3) k Exemplo - Considere a lista de classicaes numa escala de zero a 20 co numa turma de 20 alunos de uma disciplina de Cincia Pol e tica: 12, 9, 12, 4, 10, 7, 15, 8, 9, 16, 3, 10, 14, 17, 16, 17, 14, 7, 14, 11. Se o objectivo for agrupar os dados em cinco classes de amplitudes iguais, ento h, a amplitude de cada classe ser igual a 2,8 ( 174 ). a a 5 h= Aps a determinao do valor de h, procede-se ` contruo das classes, o ca a ca formalmente denidas por Ci = [li , Li[. De seguida, constri-se a tabela o de frequncias, como descrito anteriormente, onde li corresponde ao limite e inferior da classe i e Li corresponde ao seu limite superior. Exemplo (continuao) - No caso de da turma de Cincia Pol ca e tica, a construo das classes e respectivas frequncias d origem aos resultados ca e a representados na tabela 3. Tabela 3: Tabela de frequncias e Classe [3, 5.8[ [5.8, 8.6[ [8.6, 11.4[ [11.4, 14.2[ [14.2, 17[ Fx 2 3 5 5 5 fx 0.1 0.15 0.25 0.25 0.25
Nmero de classes: u k Amplitude de classes: h

Para determinar o k ideal para um determinado estudo, existes algumas regras emp ricas que nos dizem que, para uma amostra de dimenso n, a k deve corresponder ao menor inteiro que satisfaz: 2k n ou k n ou k = 1 + 3, 3 log n.

Conceito:

Material de Apoio

Antnio M. Rodrigues o

Histograma: Tambm designado por diagrama de reas, utilizado para e a e representar gracamente dados cont nuos agrupados. Cada classe ree presentada atravs de um rectngulo, cuja largura igual ` amplitude e a e a da classe. Os rectngulos devem ser cont a guos.

Figura 3: Histograma das classicaes dos alunos de uma turma de Cincia co e Pol tica Se se pretende que a rea do rectngulo da classe ki seja igual ` soma das a a a frequncias absolutas, ento a sua altura deve ser igual a Fi . Se o objectivo e a h for atribuir ` mesma rea o valor de fi , ento deve-se calcular fi . a a a h Exemplo (continuao) - A gura 3 representa o histograma produzido ca atravs das frequncias relativas apresentadas na tabela 3. e e No caso de um histograma constru a partir das frequncias absolutas, do e a sua rea total dada por: a e A = F1 + F2 + + Fk = n (4)

No caso de um histograma constru a partir das frequncias relativas, do e a sua rea total dada por: a e A = f1 + f2 + + fk = 1 8 (5)

Material de Apoio

Antnio M. Rodrigues o

Conceito: Pol gono de Frequncias Acumuladas: Quando se pretende represene tar gracamente as frequncias acumuladas (absolutas ou relativas), e utilizamos a funo cumulativa (ver gura 4). ca

Figura 4: Pol gono de frequncias acumuladas e Para alm das representaes grcas supramencionadas, existe um tipo e co a de diagrama que pode ser considerado um misto de grco e tabela, dado a apresentar todos os elementos de uma amostra em formato grco. a Conceito: Diagrama de caule e folhas: Corresponde a um grco que de certa forma a se assemelha a um histograma devido ` sua forma. Comea-se por mara c car no eixo das ordenadas o(s) d gito(s) superior(es) de cada elemento da amostra. De seguida, ` direita, acrescentam-se o ultimo d a gito de cada elemento.

Exemplo: Considerou-se uma amostra de 37 freguesias rurais do Mdio e Tejo e representou-se gracamente o nmero de crianas com menos de 5 u c anos residentes em cada uma1 (gura 5).
1

dados do Censos2001.

Material de Apoio

Antnio M. Rodrigues o

Figura 5: Diagrama de caule e folhas do nmero de crianas com menos de u c cinco anos de idade

Medidas de Tendncia Central e

Na seco anterior, foram apresentados e descritos mtodos de representar ca e informao estat ca stica de forma grca, que sumariam um conjunto de dados a de forma atraente. No entanto, existem medidas numricas que permitem e resumir caracter sticas importantes de uma amostra ou populao. Essas ca medidas, ou estat sticas, fornecem frequentemente toda a informao neca cessria para o estudo de um determinado fenmeno. a o As medidas de tendncia central (ou medidas de localizao) permitem e ca identicar tendncias em relao ` posio central de um conjunto de dados. e ca a ca De seguida, vo ser descritas trs medidas de tendncia central: a mdia a e e e aritmtica, a mediana e a moda2 . e

3.1

Mdia aritmtica e e

A mdia, para a varivel X, representada por x, obtm-se atravs da exe a e e presso: a (6) n No caso dos dados se encontrarem agrupados, ento a mdia obtida a e e atravs da expresso: e a
Ser unicamente descrita a aplicao de medidas de tendncia central em relaao a a ca e c amostras.
2

x=

n i=1 xi

10

Material de Apoio

Antnio M. Rodrigues o

, (7) n onde k representa o nmero de classes, Fi a frequncia absoluta da classe u e i e yi o ponto mdio dessa mesma classe. e

x=

k i=1 Fi yi

3.2

Mediana

A mediana indica o centro da distribuio dos dados; a medida que divide ca e uma amostra em duas partes iguais (em termos do nmero de elementos u dessa amostra). Aps a amostra estar ordenada, no caso de n ser o mpar, a mediana (m) dada pela expresso: e a x = M e(X) = x n+1 se n impar 2 + x n+2 ) se n par
2

1 n 2 (x 2

(8)

3.3

Moda

A moda de uma varivel corresponde ao valor que ocorre com mais frequncia. a e No caso dos dados estarem agrupados, corresponde ` classe com maior a nmero de elementos, designada por classe modal. u Exemplo: Consideraram-se duas amostras referentes ao nmero de u crianas com menos de 5 anos de idade residentes no concelhos de Ourm e c e Torres Novas3 . Os valores das duas variveis so: a a X O = {14, 67, 20, 56, 28, 293, 6, 76, 26, 49, 150, 66, 38, 33, 231, 24, 27, 25} X T N = {9, 75, 22, 42, 73, 45, 12, 16, 42, 114, 9, 62, 117, 63, 115, 29} A tabela 4 apresenta as trs medidas de localizao apresentadas. e ca

Medidas de disperso a

Um outro conjunto de estat sticas que fornece informaes importantes em co relao a uma amostra so as chamadas medidas de disperso. Enquanto ca a a as medidas de localizao informam sobre qual a posio central dos valores ca ca
3

Censos 2001.

11

Material de Apoio

Antnio M. Rodrigues o

Tabela 4: Medidas de localizao (exemplo) ca XO 68,3 35,5 IND. XT N 52,8 43,5 9 e 42

x x x

de uma varivel, as de disperso sumariam os dados relativamente ao seu a a desvio em relao ` mdia. De seguida sero descritas quatro destas meca a e a dias: o desvio mdio, a varincia, o desvio padro e o coeciente de e a a variao. ca

4.1

Desvio mdio e

O Desvio (absoluto) mdio (DM ) calculado atravs do somatrio do vae e e o lor absoluto das diferenas entre cada elemento da amostra e a sua mdia c e aritmtica, dividido por n; ou seja: e DM (X) = para dados agrupados: DM (X) =
k i=1 ni |xi n i=1 |xi

X|

(9)

X|

(10)

4.2

Varincia a

A segunda medida de disperso a ser apresentada a varincia. Para dados a e a no agrupados, dada pela expresso: a e a s2 = X para dados agrupados: s2 = X
k i=1 ni (xi n i=1 (xi

X)2

(11)

X)2

(12)

12

Material de Apoio

Antnio M. Rodrigues o

4.3

Desvio padro a

O desvio padro a medida de disperso mais comum, tendo como grande a e a vantagem o facto de representar, nas mesmas unidades da varivel de esa tudo, a disperso em relaao ` mdia. O desvio padro corresponde ` raiz a c a e a a quadrada da varincia; ou seja: a sX = s2 x (13)

4.4

Coeciente de variao ca

O facto de diferentes variveis terem mdias distintas diculta a comparao a e ca entre medidas de disperso, nomeadamente o desvio padro. Uma forma de a a resolver este problema atravs do quociente entre o desvio padro e a e e a mdia aritmtica. Obtm-se desta forma o coeciente de variao; ou seja: e e e ca sx (14) X A tabela 5 apresenta as medidas de disperso referentes ao exemplo a anterior: CV (X) = Tabela 5: Medidas de disperso (exemplo) a XO 53 6147,6 78,4 1,15 XT N 31,2 1432,7 37,9 0,72

DM (X) s2 X sX CV (X)

Medidas de Assimetria

O estudo do grau de (as)simetria de uma distribuio de frequncias pode ca e ser feito atravs da observao da forma do seu pol e ca gono de frequncias, e e da comparao das medidas de localizao. ca ca A gura 6 representa trs distribuies de frequncia; a do centro repree co e senta uma distribuio simtrica ( = x = x); no caso da distribuio da ca e x ca esquerda, a assimetria positiva ( e x x x); no caso da distribuio da ca direita, a distribuio negativa ( x x). ca e x

13

Material de Apoio

Antnio M. Rodrigues o

Figura 6: Grau de simetria

O grau de assimetria de uma distribuio pode ser medido atravs da ca e distncia entre as vrias medidas de localizao; regra geral, quanto maior a a ca a distncia entre duas destas medidas, maior a assimetria. Uma das formas a de proceder a este clculo atravs do coeciente de assimetria de Pearson, a e e dado pela expresso: a Gp = xx sX (15)

A diviso pelo desvio padro resulta numa medida que independente a a e da disperso em relao ` mdia e que desta forma depende simplesmente a ca a e da assimetria da distribuiao. c

Medidas de associao ca

Quando queremos estudar a associao entre duas variveis, podemos utica a lizar uma srie de ferramentas que permitem visualizar ou reduzir a um e unico indicador a relao existente ou no entre fenmenos naturais e/ou ca a o humanos.

6.1

Curva de Lorenz

A curva de Lorenz permite visualizar as diferenas em termos de distric buio de duas variveis para o mesmo grupo de indiv ca a duos; consiste numa forma expeditade reduzir a um plano cartesiano informao sobre dois ca fenmenos. o Um uso alternativo da Curva de Lorenz consiste na sua utilizao como ca forma de comparar a distribuio de uma varivel em relao a uma districa a ca buio homognea. ca e A Curva de Lorenz para as variveis cont a nuas X = {x1 , x2 , , xn } e Y = {y1 , y2 , , yn } consiste num grco de disperso em que as coordenaa a das (xi , yi ) so obtidas atravs das frequncias relativas acumuladas de cada a e e 14

Material de Apoio

Antnio M. Rodrigues o

uma das variveis. a De seguida sero descritos de forma sucinta os clculos necessrios para a a a a construo da Curva de Lorenz: ca 1. frequncias relativas de X e Y , fX e fY ; e 2. quociente
xi yi ;

3. frequncias acumuladas Fxi e Fyi , calculadas de acordo com uma e i ordenao por ordem crescente xi ; com base nos quocientes obtidos no ca y passo anterior. Exemplo - A tabela 6 apresenta a distribuio do nmero de ninhos de ca u Chapim Azul em 5 unidades espaciais que constituem o Vale de Ceras. Tabela 6: Exemplo Regio a Ceras Cho das Eiras a Calvinos Freixo Alviobeira Ninhos 3 11 6 5 9

Para o exemplo dado, tomando o nmero de ninhos como uma das u variveis e uma distribuio homognea como a outra, as vrias etapas proa ca e a duzem os resultados transcritos na tabela 7. Tabela 7: Exemplo (continuao) ca Regio a Ceras Cho das Eiras a Calvinos Freixo Alviobeira Ninhos 3 11 6 5 9 fxi 0.09 0.32 0.18 0.15 0.26 fyi 0.20 0.20 0.20 0.20 0.20
xi yi

0.44 1.62 0.88 0.74 1.32

Fxi 0.09 1.00 0.41 0.24 0.68

Fyi 0.20 1.00 0.60 0.40 0.80

A representao grca apresentada na gura corresponde ` curva reca a a sultante das frequncias acumuladas e um segmento de recta que une as e 15

Material de Apoio

Antnio M. Rodrigues o

duas extremidades da mesma curva. A rea formada pelo pol a gono resultante um indicador da associao entre a distribuio espacial das duas e ca ca variveis; quanto maior esta rea maior a dissociao entre os fenmenos a a ca o estudados. Os dois casos extremos so aqueles em que: (i) a curva coincide a com um segmento de recta; (ii) o pol gono resultante forma um tringulo a rectngulo com vrtices em (0, 0), (1, 0) e (1, 1). No primeiro caso, diz-se a e que a distribuio dos dois fenmenos estudados a mesma (da chamar-se ca o e por vezes ao segmento ((0, 0), (1, 1)) recta de igual distribuio); o segundo ca caso representa uma dissociao completa entre os dois fenmenos. ca o

Figura 7: Curva de Lorenz (exemplo)

Subjacente ao que foi acima dito est o facto da rea do pol a a gono acima descrito funciona como um indicador de associao importante; a complexica dade do seu clculo tornou-se no entanto num factor impeditivo e originou a o criao de um conjunto de indicadores de associao que tm como base ca ca e o mesmo princ pio. De seguida sero apresentados dois destes indicadores, a o Coeciente de Gini e o Indice de Dissociao. ca 6.1.1 Coeciente de gini
n

GXY = |1
i=1

((fXi fXi1 ) (fYi fYi1 ))|

(16)

16

Material de Apoio

Antnio M. Rodrigues o

6.1.2

Indice de dissociao ca IDXY =


n i=1 |fxi

fyi | (17) 2 Ambos os indicadores variam entre 0 e 1; o ndice de dissociao tende ca para 0 quanto mais semelhante for a distribuio de ambas as variveis; o ca a coeciente de Gini tem o comportamento inverso, ainda que a variao dos ca dois no seja proporcional. a Aplicando estes indicadores aos dados apresentados obtemos ciente de Gini igual a 0,82 e um Indice de Dissociao de 0,19. ca

6.2

Correlograma

A curva de Lorenz oferece uma viso agregada da relao entre duas variveis a ca a cont nuas. Uma outra forma de comparar gracamente a distribuio de ca duas variveis atravs de um correlograma. Este, para alm da viso a e e e a de conjunto, permite identicar aquelas observaes o investigador deseja co destacar. Tal como a curva de Lorez, o correlograma um grco de disperso. e a a Neste caso, so utilizadas as frequncias absolutas, previamente transformaa e das numa distribuio normal padro (de mdia zero e desvio padro ca a e a um). Esta transformao, ou normalizao, feita utilizando a expresso ca ca e a (para a varivel X: a Z(xi ) = xi X sX (18)

A normalizao da informao permite comparar qualquer par de fenmenos ca ca o medidos atravs de variveis cont e a nuas, mas atravs de unidades e escalas e bem distintas. A representao dos valores normalizados das variveis de ca a estudo corresponde ao correlograma.

6.3

Correlao ca

Covarincia... a 6.3.1 6.3.2 Coeciente de correlao de Pearson ca Coeciente de correlao de Spearman ca

17

Material de Apoio

Antnio M. Rodrigues o

Figura 8: Correlograma (exemplo)

18

Potrebbero piacerti anche