Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Conte do u
1 Introduo ca 2 Distribuio de Frequncias ca e 2.1 Frequncias relativas, absolutas e muladas . . . . . . . . . . . . . 2.2 Representao grca de dados ca a 2.2.1 Dados discretos . . . . . 2.2.2 Dados cont nuos . . . . 2 2 acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . e . . . . relativas acu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 5 7
3 Medidas de Tendncia Central e 10 3.1 Mdia aritmtica . . . . . . . . . . . . . . . . . . . . . . . . . 10 e e 3.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Medidas de disperso a 4.1 Desvio mdio . . . . . e 4.2 Varincia . . . . . . . a 4.3 Desvio padro . . . . . a 4.4 Coeciente de variao ca 5 Medidas de Assimetria 6 Medidas de associao ca 6.1 Curva de Lorenz . . . . . . . . . . 6.1.1 Coeciente de gini . . . . . 6.1.2 Indice de dissociao . . . . ca 6.2 Correlograma . . . . . . . . . . . . 6.3 Correlao . . . . . . . . . . . . . . ca 6.3.1 Coeciente de correlao de ca 6.3.2 Coeciente de correlao de ca 12 12 12 13 13 13 14 14 17 17 17 17 19 19
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Pearson . Spearman
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
Material de Apoio
Antnio M. Rodrigues o
Introduo ca
Estat stica: Cincia que dispe de processos apropriados para ree o colher, organizar, classicar, apresentar e interpretar conjuntos de dados.
A Estat stica, enquanto cincia, tem por objectivo sintetizar um conjunto e de dados para a sua melhor interpretao. E comum fazer a distino entre ca ca mtodos descritivos e inferenciais. e Conceitos: Estat stica descritiva: inclui todos os processos, desde a recolha da informao at ` sua s ca ea ntese em grcos e medidas descritivas, que visam a a leitura e interpretao de um conjunto de dados. ca Estat stica inferencial: conjunto de mtodos e ferramentas que tm como e e objectivo retirar, a partir de amostras, concluses sobre os comporo tamentos de determinadas populaes / universos. co
Distribuio de Frequncias ca e
A informao utilizada ou que serve de anlise em Estat ca a stica compilada e em variveis. a Conceitos: Varivel: caracter a stica, representada atravs de uma letra, de um grupo e de indiv duos. Pode tomar qualquer valor inclu no seu dom do nio. Por exemplo, a varivel X tem n elementos e constitu pelos vaa e da lores: X = {x1 , x2 , , xn }, (1)
Dom nio: conjunto de todos os valores poss veis que uma varivel pode a tomar. O dom nio da varivel X denido pelo intervalo [x1 , xn ]. a e Constante: varivel que assume sempre o mesmo valor (y). a
Material de Apoio
Antnio M. Rodrigues o
Varivel discreta: pode tomar somente um nmero nito ou uma ina u nidade numervel de valores. Dado que resulta de um processo de a contagem, uma varivel discreta tomar valores inteiros. a Varivel cont a nua: pode tomar qualquer valor dentro de um determinado intervalo de nmero reais. Isto , toma valores de um conjunto de u e cardinalidade innita. Resulta de um processo de medio. ca Dados brutos: so todos aqueles dados que ainda no foram organizados. a a E comum grandes quantidades de dados serem agrupados em classes ou categorias. O nmero de indiv u duos pertencente a cada classe denomina-se como a frequncia (absoluta) da classe. O resultado da organizao da e ca informao em tabelas denomina-se tabelas de frequncia ou distribuio ca e ca das frequncias. e Tabela 1: Tabela de frequncias absolutas (exemplo) e Populao residente ca < 1000 1000 - 2000 2000 - 5000 5000 - 10000 > 10000 Total No de freguesias 37 33 30 5 4 109
Os dados, quando organizados em tabelas de frequncias, denominam-se e geralmente dados agrupados. Cada grupo de dados de uma tabela de frequncias chama-se intervalo e de classe, denominando-se os seus limites como limite inferior e limite superior da classe. Um intervalo de classe cujo limite inferior ou superior no indicado um intervalo de classe aberto. a e e Denomina-se como amplitude de intervalo de classe a diferena entre c os limites superior e inferior. Uma tabela de frequncias pode ter limites de e classe iguais ou variveis. a O ponto mdio de uma classe resulta da diviso da soma dos seus e a limites por dois.
Material de Apoio
Antnio M. Rodrigues o
2.1
Ao nmero de ocorrncias dentro de cada classe d-se o nome de frequncia u e a e absoluta (Fx ). A partir destas pode calcular-se as frequncias relativas, e absolutas acumuladas e relativas acumuladas, que enriquecem a informao ca que podemos retirar da distribuio das frequncias e da sua respectiva ca e tabela.
Conceitos: Frequncia relativa (fx ): resulta do quociente entre a frequncia absoe e luta e o seu total: fx = Fx n i=1 Fxi = Fx n (2)
Frequncia absoluta acumulada (Fx ): Para qualquer classe, a sua frequncia e e absoluta acumulada resulta da soma da frequncia absoluta da sua e e das classes inferiores. Frequncia relativa acumulada (fx ): Para qualquer classe, a sua frequncia e e relativa acumulada resulta da soma da frequncia relativa da sua e das e classes inferiores. Atravs do quociente entre a frequncia absoluta e e acumulada de uma classe e n, obtm-se tambm fx . e e
Tabela 2: Tabela de frequncias (continuao) e ca Classes < 1000 1000 - 2000 2000 - 5000 5000 - 10000 > 10000 Total Fx 37 33 30 5 4 109 fx 0.34 0.30 0.28 0.04 0.05 1 Fx 37 70 100 105 109 fx 0.34 0.64 0.92 0.95 1
Material de Apoio
Antnio M. Rodrigues o
2.2
A necessidade de sintetizar a informao estat ca stica conduz com naturalidade ` necessidade de criar representaes grcas dos dados para a sua melhor a co a leitura. A deciso de qual o melhor grco vai depender de diferentes a a factores, desde o tipo de informao que se pretende representar, o pblico ca u alvo, a sensibilidade do investigador, etc. 2.2.1 Dados discretos
Nos casos em que os dados dispon veis s podem tomar valores inteiros o (dados discretos), a sua representao feita atravs de pol ca e e gonos de frequncia (ou diagrama de barras ou distribuio de frequncias) e ca e Conceito: Pol gono de frequncias: Consiste num sistema de eixos coordenados no e qual so representadas, no eixo da abcissas, os valores das classes, e no a eixo das ordenadas as frequncias absolutas ou relativas. Traam-se de e c seguida linhas que unem as origem das classes e o respectivo valor das frequncias. A unio dos limites superiores destas linhas d origem ao e a a pol gono de frequncias. e Exemplo - Considere a seguinte amostra correspondente ao nmero de u lhos de 20 casais: 4 com zero lhos, 3 com 1 lho, 8 com 2, 4 com 3 e 1 casal com 4 lhos. A gura 1 consiste no pol gono de frequncias absolutas constru a e do partir desta amostra (constru atravs da utilizao das frequncias absodo e ca e lutas). Conceito: Diagrama de barras: Semelhante ao pol gono de frequncias, no sentido e em que so utilizadas tambm as frequncias absolutas ou relativas, a e e cujos valores so de igual forma representados no eixo das ordenadas, a enquanto o valor das classes so representados no eixo das abcissas. a A gura 2 representa os dados referentes ao exemplo anterior, atravs e de um diagrama de barras de frequncias relativas. e
Material de Apoio
Antnio M. Rodrigues o
Material de Apoio
Antnio M. Rodrigues o
2.2.2
Para uma varivel cont a nua (que pode tomar quaisquer valores), a sua representao grca um pouco mais complexa. Descrevem-se de seguida as ca a e vrias fases do processo: a Denio das classes a utilizar ca Para determinar a amplitude da classe (h), necessrio dividir a amplitude e a da amostra pelo nmero de classes pretendido (k). Para a varivel X: u a xmax xmin (3) k Exemplo - Considere a lista de classicaes numa escala de zero a 20 co numa turma de 20 alunos de uma disciplina de Cincia Pol e tica: 12, 9, 12, 4, 10, 7, 15, 8, 9, 16, 3, 10, 14, 17, 16, 17, 14, 7, 14, 11. Se o objectivo for agrupar os dados em cinco classes de amplitudes iguais, ento h, a amplitude de cada classe ser igual a 2,8 ( 174 ). a a 5 h= Aps a determinao do valor de h, procede-se ` contruo das classes, o ca a ca formalmente denidas por Ci = [li , Li[. De seguida, constri-se a tabela o de frequncias, como descrito anteriormente, onde li corresponde ao limite e inferior da classe i e Li corresponde ao seu limite superior. Exemplo (continuao) - No caso de da turma de Cincia Pol ca e tica, a construo das classes e respectivas frequncias d origem aos resultados ca e a representados na tabela 3. Tabela 3: Tabela de frequncias e Classe [3, 5.8[ [5.8, 8.6[ [8.6, 11.4[ [11.4, 14.2[ [14.2, 17[ Fx 2 3 5 5 5 fx 0.1 0.15 0.25 0.25 0.25
Nmero de classes: u k Amplitude de classes: h
Para determinar o k ideal para um determinado estudo, existes algumas regras emp ricas que nos dizem que, para uma amostra de dimenso n, a k deve corresponder ao menor inteiro que satisfaz: 2k n ou k n ou k = 1 + 3, 3 log n.
Conceito:
Material de Apoio
Antnio M. Rodrigues o
Histograma: Tambm designado por diagrama de reas, utilizado para e a e representar gracamente dados cont nuos agrupados. Cada classe ree presentada atravs de um rectngulo, cuja largura igual ` amplitude e a e a da classe. Os rectngulos devem ser cont a guos.
Figura 3: Histograma das classicaes dos alunos de uma turma de Cincia co e Pol tica Se se pretende que a rea do rectngulo da classe ki seja igual ` soma das a a a frequncias absolutas, ento a sua altura deve ser igual a Fi . Se o objectivo e a h for atribuir ` mesma rea o valor de fi , ento deve-se calcular fi . a a a h Exemplo (continuao) - A gura 3 representa o histograma produzido ca atravs das frequncias relativas apresentadas na tabela 3. e e No caso de um histograma constru a partir das frequncias absolutas, do e a sua rea total dada por: a e A = F1 + F2 + + Fk = n (4)
No caso de um histograma constru a partir das frequncias relativas, do e a sua rea total dada por: a e A = f1 + f2 + + fk = 1 8 (5)
Material de Apoio
Antnio M. Rodrigues o
Conceito: Pol gono de Frequncias Acumuladas: Quando se pretende represene tar gracamente as frequncias acumuladas (absolutas ou relativas), e utilizamos a funo cumulativa (ver gura 4). ca
Figura 4: Pol gono de frequncias acumuladas e Para alm das representaes grcas supramencionadas, existe um tipo e co a de diagrama que pode ser considerado um misto de grco e tabela, dado a apresentar todos os elementos de uma amostra em formato grco. a Conceito: Diagrama de caule e folhas: Corresponde a um grco que de certa forma a se assemelha a um histograma devido ` sua forma. Comea-se por mara c car no eixo das ordenadas o(s) d gito(s) superior(es) de cada elemento da amostra. De seguida, ` direita, acrescentam-se o ultimo d a gito de cada elemento.
Exemplo: Considerou-se uma amostra de 37 freguesias rurais do Mdio e Tejo e representou-se gracamente o nmero de crianas com menos de 5 u c anos residentes em cada uma1 (gura 5).
1
dados do Censos2001.
Material de Apoio
Antnio M. Rodrigues o
Figura 5: Diagrama de caule e folhas do nmero de crianas com menos de u c cinco anos de idade
Na seco anterior, foram apresentados e descritos mtodos de representar ca e informao estat ca stica de forma grca, que sumariam um conjunto de dados a de forma atraente. No entanto, existem medidas numricas que permitem e resumir caracter sticas importantes de uma amostra ou populao. Essas ca medidas, ou estat sticas, fornecem frequentemente toda a informao neca cessria para o estudo de um determinado fenmeno. a o As medidas de tendncia central (ou medidas de localizao) permitem e ca identicar tendncias em relao ` posio central de um conjunto de dados. e ca a ca De seguida, vo ser descritas trs medidas de tendncia central: a mdia a e e e aritmtica, a mediana e a moda2 . e
3.1
Mdia aritmtica e e
A mdia, para a varivel X, representada por x, obtm-se atravs da exe a e e presso: a (6) n No caso dos dados se encontrarem agrupados, ento a mdia obtida a e e atravs da expresso: e a
Ser unicamente descrita a aplicao de medidas de tendncia central em relaao a a ca e c amostras.
2
x=
n i=1 xi
10
Material de Apoio
Antnio M. Rodrigues o
, (7) n onde k representa o nmero de classes, Fi a frequncia absoluta da classe u e i e yi o ponto mdio dessa mesma classe. e
x=
k i=1 Fi yi
3.2
Mediana
A mediana indica o centro da distribuio dos dados; a medida que divide ca e uma amostra em duas partes iguais (em termos do nmero de elementos u dessa amostra). Aps a amostra estar ordenada, no caso de n ser o mpar, a mediana (m) dada pela expresso: e a x = M e(X) = x n+1 se n impar 2 + x n+2 ) se n par
2
1 n 2 (x 2
(8)
3.3
Moda
A moda de uma varivel corresponde ao valor que ocorre com mais frequncia. a e No caso dos dados estarem agrupados, corresponde ` classe com maior a nmero de elementos, designada por classe modal. u Exemplo: Consideraram-se duas amostras referentes ao nmero de u crianas com menos de 5 anos de idade residentes no concelhos de Ourm e c e Torres Novas3 . Os valores das duas variveis so: a a X O = {14, 67, 20, 56, 28, 293, 6, 76, 26, 49, 150, 66, 38, 33, 231, 24, 27, 25} X T N = {9, 75, 22, 42, 73, 45, 12, 16, 42, 114, 9, 62, 117, 63, 115, 29} A tabela 4 apresenta as trs medidas de localizao apresentadas. e ca
Medidas de disperso a
Um outro conjunto de estat sticas que fornece informaes importantes em co relao a uma amostra so as chamadas medidas de disperso. Enquanto ca a a as medidas de localizao informam sobre qual a posio central dos valores ca ca
3
Censos 2001.
11
Material de Apoio
Antnio M. Rodrigues o
x x x
de uma varivel, as de disperso sumariam os dados relativamente ao seu a a desvio em relao ` mdia. De seguida sero descritas quatro destas meca a e a dias: o desvio mdio, a varincia, o desvio padro e o coeciente de e a a variao. ca
4.1
Desvio mdio e
O Desvio (absoluto) mdio (DM ) calculado atravs do somatrio do vae e e o lor absoluto das diferenas entre cada elemento da amostra e a sua mdia c e aritmtica, dividido por n; ou seja: e DM (X) = para dados agrupados: DM (X) =
k i=1 ni |xi n i=1 |xi
X|
(9)
X|
(10)
4.2
Varincia a
A segunda medida de disperso a ser apresentada a varincia. Para dados a e a no agrupados, dada pela expresso: a e a s2 = X para dados agrupados: s2 = X
k i=1 ni (xi n i=1 (xi
X)2
(11)
X)2
(12)
12
Material de Apoio
Antnio M. Rodrigues o
4.3
Desvio padro a
O desvio padro a medida de disperso mais comum, tendo como grande a e a vantagem o facto de representar, nas mesmas unidades da varivel de esa tudo, a disperso em relaao ` mdia. O desvio padro corresponde ` raiz a c a e a a quadrada da varincia; ou seja: a sX = s2 x (13)
4.4
Coeciente de variao ca
O facto de diferentes variveis terem mdias distintas diculta a comparao a e ca entre medidas de disperso, nomeadamente o desvio padro. Uma forma de a a resolver este problema atravs do quociente entre o desvio padro e a e e a mdia aritmtica. Obtm-se desta forma o coeciente de variao; ou seja: e e e ca sx (14) X A tabela 5 apresenta as medidas de disperso referentes ao exemplo a anterior: CV (X) = Tabela 5: Medidas de disperso (exemplo) a XO 53 6147,6 78,4 1,15 XT N 31,2 1432,7 37,9 0,72
DM (X) s2 X sX CV (X)
Medidas de Assimetria
O estudo do grau de (as)simetria de uma distribuio de frequncias pode ca e ser feito atravs da observao da forma do seu pol e ca gono de frequncias, e e da comparao das medidas de localizao. ca ca A gura 6 representa trs distribuies de frequncia; a do centro repree co e senta uma distribuio simtrica ( = x = x); no caso da distribuio da ca e x ca esquerda, a assimetria positiva ( e x x x); no caso da distribuio da ca direita, a distribuio negativa ( x x). ca e x
13
Material de Apoio
Antnio M. Rodrigues o
O grau de assimetria de uma distribuio pode ser medido atravs da ca e distncia entre as vrias medidas de localizao; regra geral, quanto maior a a ca a distncia entre duas destas medidas, maior a assimetria. Uma das formas a de proceder a este clculo atravs do coeciente de assimetria de Pearson, a e e dado pela expresso: a Gp = xx sX (15)
A diviso pelo desvio padro resulta numa medida que independente a a e da disperso em relao ` mdia e que desta forma depende simplesmente a ca a e da assimetria da distribuiao. c
Medidas de associao ca
Quando queremos estudar a associao entre duas variveis, podemos utica a lizar uma srie de ferramentas que permitem visualizar ou reduzir a um e unico indicador a relao existente ou no entre fenmenos naturais e/ou ca a o humanos.
6.1
Curva de Lorenz
A curva de Lorenz permite visualizar as diferenas em termos de distric buio de duas variveis para o mesmo grupo de indiv ca a duos; consiste numa forma expeditade reduzir a um plano cartesiano informao sobre dois ca fenmenos. o Um uso alternativo da Curva de Lorenz consiste na sua utilizao como ca forma de comparar a distribuio de uma varivel em relao a uma districa a ca buio homognea. ca e A Curva de Lorenz para as variveis cont a nuas X = {x1 , x2 , , xn } e Y = {y1 , y2 , , yn } consiste num grco de disperso em que as coordenaa a das (xi , yi ) so obtidas atravs das frequncias relativas acumuladas de cada a e e 14
Material de Apoio
Antnio M. Rodrigues o
uma das variveis. a De seguida sero descritos de forma sucinta os clculos necessrios para a a a a construo da Curva de Lorenz: ca 1. frequncias relativas de X e Y , fX e fY ; e 2. quociente
xi yi ;
3. frequncias acumuladas Fxi e Fyi , calculadas de acordo com uma e i ordenao por ordem crescente xi ; com base nos quocientes obtidos no ca y passo anterior. Exemplo - A tabela 6 apresenta a distribuio do nmero de ninhos de ca u Chapim Azul em 5 unidades espaciais que constituem o Vale de Ceras. Tabela 6: Exemplo Regio a Ceras Cho das Eiras a Calvinos Freixo Alviobeira Ninhos 3 11 6 5 9
Para o exemplo dado, tomando o nmero de ninhos como uma das u variveis e uma distribuio homognea como a outra, as vrias etapas proa ca e a duzem os resultados transcritos na tabela 7. Tabela 7: Exemplo (continuao) ca Regio a Ceras Cho das Eiras a Calvinos Freixo Alviobeira Ninhos 3 11 6 5 9 fxi 0.09 0.32 0.18 0.15 0.26 fyi 0.20 0.20 0.20 0.20 0.20
xi yi
A representao grca apresentada na gura corresponde ` curva reca a a sultante das frequncias acumuladas e um segmento de recta que une as e 15
Material de Apoio
Antnio M. Rodrigues o
duas extremidades da mesma curva. A rea formada pelo pol a gono resultante um indicador da associao entre a distribuio espacial das duas e ca ca variveis; quanto maior esta rea maior a dissociao entre os fenmenos a a ca o estudados. Os dois casos extremos so aqueles em que: (i) a curva coincide a com um segmento de recta; (ii) o pol gono resultante forma um tringulo a rectngulo com vrtices em (0, 0), (1, 0) e (1, 1). No primeiro caso, diz-se a e que a distribuio dos dois fenmenos estudados a mesma (da chamar-se ca o e por vezes ao segmento ((0, 0), (1, 1)) recta de igual distribuio); o segundo ca caso representa uma dissociao completa entre os dois fenmenos. ca o
Subjacente ao que foi acima dito est o facto da rea do pol a a gono acima descrito funciona como um indicador de associao importante; a complexica dade do seu clculo tornou-se no entanto num factor impeditivo e originou a o criao de um conjunto de indicadores de associao que tm como base ca ca e o mesmo princ pio. De seguida sero apresentados dois destes indicadores, a o Coeciente de Gini e o Indice de Dissociao. ca 6.1.1 Coeciente de gini
n
GXY = |1
i=1
(16)
16
Material de Apoio
Antnio M. Rodrigues o
6.1.2
fyi | (17) 2 Ambos os indicadores variam entre 0 e 1; o ndice de dissociao tende ca para 0 quanto mais semelhante for a distribuio de ambas as variveis; o ca a coeciente de Gini tem o comportamento inverso, ainda que a variao dos ca dois no seja proporcional. a Aplicando estes indicadores aos dados apresentados obtemos ciente de Gini igual a 0,82 e um Indice de Dissociao de 0,19. ca
6.2
Correlograma
A curva de Lorenz oferece uma viso agregada da relao entre duas variveis a ca a cont nuas. Uma outra forma de comparar gracamente a distribuio de ca duas variveis atravs de um correlograma. Este, para alm da viso a e e e a de conjunto, permite identicar aquelas observaes o investigador deseja co destacar. Tal como a curva de Lorez, o correlograma um grco de disperso. e a a Neste caso, so utilizadas as frequncias absolutas, previamente transformaa e das numa distribuio normal padro (de mdia zero e desvio padro ca a e a um). Esta transformao, ou normalizao, feita utilizando a expresso ca ca e a (para a varivel X: a Z(xi ) = xi X sX (18)
A normalizao da informao permite comparar qualquer par de fenmenos ca ca o medidos atravs de variveis cont e a nuas, mas atravs de unidades e escalas e bem distintas. A representao dos valores normalizados das variveis de ca a estudo corresponde ao correlograma.
6.3
Correlao ca
17
Material de Apoio
Antnio M. Rodrigues o
18