Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ESTADISTICA DESCRIPTIVA
primeras conclusiones obtenidas tras un anlisis descriptivo, es un estudio calculando una serie de medidas de tendencia central (Promedio, mediana y moda), para ver en qu medida los datos se agrupan o dispersan en torno a un valor central.
se obtienen en un estudio estadstico, no se desprende ninguna informacin til de manera inmediata y evidente.
Los datos obtenidos tiene que ser organizados de tal
manera que la informacin que contienen se resuma para mostrar patrones de variacin.
Por otro lado solamente cuando se conocen las
diferentes tipos de variables obtenidos en un trabajo estadstico y mostrar cmo se organizan y exhiben estos resultados.
Cualquiera que sea el estudio estadstico que se
caractersticas de los datos se pueden decidir los mtodos de anlisis estadstico a realizar.
realice, los primeros pasos del procesamiento de datos es, en general, transformarlos en cuadros, grficas o resmenes de cifras, como porcentajes, ndices o parmetros que representan a una variable.
TABLAS DE FRECUENCIAS.
Asigna a cada categora el nmero de elementos que pertenecen a ella. Permite visualizar la distribucin de frecuencias de la variable. Es la representacin grfica de los resmenes de datos presentados en tablas. Medidas que representan o caracterizan a la variable, siendo de tendencia central, posicin, dispersin, forma o construidos (ndices, tasas o variables complejas).
GRAFICOS.
Ejemplo
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
PARAMETROS / ESTADISTICOS.
9
TABLAS
10
TABLAS
Aos
0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total
Frecuencia
2 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1510
Porcentaje
0,1 0,3 0,3 0,4 0,8 1,7 4,5 3,7 4,8 5,6 30,5 8,6 11,6 4,8 12,8 2,8 3,0 1,5 2,0 100,0
% acum.
0,1
Estadgrafos
Media Mediana
Aos
12,88 12,00 12
10 9,00 11,00 12,00 12,00 12,00 12,00 13,00 14,00 15,00 16,00 16,00
Aos
Frecuencia
2 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1510
Porcentaje
0,1 0,3 0,3 0,4 0,8 1,7 4,5 3,7 4,8 5,6 30,5 8,6 11,6 4,8 12,8 2,8 3,0 1,5 2,0 100,0
% acum
0,1
Estadgrafos
Media Mediana
Aos
12,88 12,00 12
10 20 25 30 40 9,00 11,00 12,00 12,00 12,00 12,00 13,00 14,00 15,00 16,00 16,00
0,5 Moda 0,8 1,2 2,0 3,6 8,1 11,9 16,7 22,3 52,8 61,5 73,0 77,9 90,7 93,6 96,6 98,0 100,0 Percentiles
20 25 30 40 50 60 70 75 80 90
0 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0,5 Moda 0,8 1,2 2,0 3,6 8,1 11,9 16,7 22,3 52,8 61,5 73,0 77,9 90,7 93,6 96,6 98,0 100,0 Percentiles
Mediana
50 60 70 75 80 90
17 18 19 20 Total
11
TABLAS
12
TABLAS
Aos
0 3 4 5 6 7 8 9 10 11 12 13 14
Frecuencia
2 5 5 6 12 25 68 56 73 85 461 130 175
Porcentaje
0,1 0,3 0,3 0,4 0,8 1,7 4,5 3,7 4,8 5,6 30,5 8,6 11,6
% acum
0,1 0,5 0,8 1,2 2,0 3,6 8,1 11,9 16,7 22,3 52,8 61,5 73,0
Estadgrafos
Media Mediana Moda
10 20 25 30 40
Aos
12,88 12,00 12
9,00 11,00 12,00 12,00 12,00 12,00 13,00 14,00
Aos
Frecuencia
2 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1510
Porcentaje
0,1 0,3 0,3 0,4 0,8 1,7 4,5 3,7 4,8 5,6 30,5 8,6 11,6 4,8 12,8 2,8 3,0 1,5 2,0 100,0
% acum
0,1 0,5 0,8 1,2 2,0 3,6 8,1 11,9 16,7 22,3 52,8 61,5 73,0 77,9 90,7 93,6 96,6 98,0 100,0
Estadgrafos
Media Mediana Moda
10
Aos
12,88 12,00 12
9,00
Percentil 75
0 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Percentil 20
20
25 30 40
11,00
12,00 12,00 12,00 12,00 13,00 14,00 15,00 16,00 16,00
Percentiles
50 60 70
Percentiles
50 60 70 75 80 90
75
80 90
15,00
16,00 16,00
15
16 17 18 19 20 Total
73
194 43 45 22 30 1510
4,8
12,8 2,8 3,0 1,5 2,0 100,0
77,9
90,7 93,6 96,6 98,0 100,0
17 18 19 20 Total
13
Distribucin de Frecuencias
Cuando se trabaja con un conjunto grande de datos, la
TIPOS DE FRECUENCIAS
Frecuencias Absolutas Frecuencias Relativas Frecuencias Porcentuales Frecuencias Absolutas Acumuladas Frecuencias Relativas Acumuladas Frecuencias Porcentuales Acumuladas
14
forma de organizarlos y resumirlos es construyendo Tablas de Frecuencias de las variables de interes. Esto nos permitir observar como se distribuyen los datos a lo largo del recorrido de la variable. Podremos observar donde estn ms concentrados, si hay datos extremos, si hay simetra en la distribucin etc.
Adems dependiendo de cul sea el nivel de medicin de las variables, el nmero de datos que se obtuvieron y el nmero de variables involucradas en el resumen, se construir diferentes tipos de tabla de frecuencia.
15
16
estadstica a la agrupacin de datos en categoras mutuamente excluyentes (propiedades de una variable) que indican el nmero de observaciones en cada una de las categoras. Esto significa una de las cosas ms importantes de la matemtica, su estadstica con la agrupacin de datos. La distribucin de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el nmero existente en cada intervalo de clase o categora de una variable.
intervalos de clase, con algn criterio y teniendo el cuenta el nmero de datos y el recorrido de la variable. En general el nmero de intervalos de clase va entre 7 y no ms de 15.
17
18
Variable cualitativa nominal: el orden de las categoras de las variables es arbitrario, por lo que no se debe calcular frecuencias o Porcentajes acumulados.
19
20
Total
Base SIEMPRO 2001
28878218
100,0%
Variable cualitativa ordinal: el orden de las categoras de las variables no es arbitrario, por lo que se pueden calcular frecuencias o porcentajes acumulados.
21
22
Edad 12 13 14 15 16 17 18 19 20 Total
FA 16 37 47 75 51 35 29 16 18 324
% FAA 4,9% 16 11,4% 53 14,5% 100 23,1% 15,7% 10,8% 9,0% 4,9% 5,6% 100,0% 175 226 261 290 306 324
decimales (si una persona tiene 34 aos hasta el da del cumpleaos 35 seguir figurando la edad anterior)
En la mayora de los casos las variables se redondean, seleccionado la
cantidad de decimales segn un criterio que esta relacionado con la precisin de la medicin.
En la tabla anterior transformamos una variable que es continua en
discreta. Como son pocas categoras no es necesario agrupar los datos, pero generalmente en las variables cuantitativas discretas con muchas categoras es necesario agrupar los datos en intervalos de clase para poder resumirlos, como observamos en la prxima tabla.
23
Frecuencia Porcentaje
0,5 4,8 4,0 4,8 5,8 5,6 5,0 6,1 5,8 6,8 5,9 5,4 6,1 5,9 6,2 5,0 5,9 5,1 3,8 0,7 0,4 0,1 0,1
24
Porcentaje acumulado
,5 5,3 9,3 14,1 19,9 25,6 30,6 36,7 42,4 49,3 55,2 60,6 66,7 72,7 78,9 83,9 89,7 94,8 98,6 99,3 99,8 99,9 100,0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
7 65 55 66 79 77 68 83 79 93 81 74 83 81 85 68 80 69 52 10 6 1 2
18 19 20 21 22
Encuesta Educativa en Bajo Flores. Ao 2003 Se agruparon las edades en intervalos de clase cada 5 aos
Total
1364
100,0
25
Distribucin de frecuencias y porcentual de la edad de los nios Frecuencia 0 a 3 aos 4 a 5 aos 6 a 12 aos 13 a 18 aos ms de 18 aos % % acumulado
Total
193 14,1 156 11,4 561 41,1 435 31,9 19 1,4 1364 100,0
Encuesta Educativa en Bajo Flores. Ao 2003 Edades agrupadas en intervalos de clase desiguales, que corresponden a grupos de edades segn nivel educativo.
Cmo construimos y presentamos las frecuencias de una variable cuantitativa numrica? Se arman intervalos de clase, con la misma amplitud para cada intervalo, teniendo en cuenta el recorrido o rango de la variable (valor mximo valor mnimo). El nmero de intervalos de clase depender del recorrido y de la amplitud de los intervalos de clase. Tambin el nmero de intervalos depender de la cantidad de datos que trabaje, ya que con pocos datos no podr armar una tabla con muchos intervalos de clase dado que pueden quedar vacos (sin frecuencias). Tampoco es necesario armar tablas con ms de 15 intervalos de clase dado que se pierde la capacidad de resumir la distribucin de los datos.
26
27
28
Porcentaje
75,5 17,4 4,2 1,5 ,6 ,3 ,1 ,1 ,1 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0
% acum.
75,5 93,0 97,1 98,6 99,2 99,6 99,7 99,8 99,8 99,9 99,9 99,9 100,0 100,0 100,0 100,0 100,0 100,0
intervalos de clase de $ 1000, salvo el ltimo intervalo que es abierto. Para este caso en el cual observamos que la distribucin es muy asimtrica, en donde la mayora de los valores esta en el primer intervalo de clases podemos resumir los datos segn lo que se desee mostrar, por ejemplo agrupado los datos utilizando medidas de posicin para definir los intervalos de clase.
Total
31.959.425
100,0
variable usando medidas de posicin que nos divida a la distribucin en intervalos con igual frecuencia de datos. Por ejemplo dividir a las frecuencias en 5 grupos de igual frecuencia (20% de datos para cada grupo). A esto lo llamaremos quintiles y son medidas de posicin (ver prxima clase)
Quintiles
Percentiles
Ingreso hogar
1 2 3 4 Mayor
20 40 60 80 100
29
FA
143 260 54 17
%
30,2 54,9 11,4 3,6
% acum.
30,2 85,0 96,4 100,0
Salarios
Hasta $25.000 $25.000 -$ 50.000 Ms $50.000
FA
143 260 71
%
30,2 54,9 15,0
% acum.
30,2 85,0 100,0
Cmo construimos y presentamos las frecuencias conjuntas de dos variables cualitativas nominales u ordinales
Total
474
100,0
Total
474
100,0
Segn algn criterio se puede tomar la decisin de modificar la amplitud de los intervalos de clase.
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
32
VARIABLE 1
Frecuencia Masculino Femenino Total 717 647 1364 Porcentaje 52,6 47,4 100,0
Ver archivo: base nios flores.xls (Excel) o base nios flores.sav (SPSS)
33
VARIABLE 1 y VARIABLE 2
Sexo Masculino Ciudad Bs As 600 23 18 76 717 Femenino 532 26 22 67 647 Total 1132 49 40 143 1364
34
Lugar de nacimiento
35
36
Sexo Masculino
Ciudad Bs As % Lugar de nacimiento Gran Bs As Interior del Pas Otros Pases 53,0% 46,9% 45,0% 53,1% 52,6%
Femenino
47,0% 53,1% 55,0% 46,9% 47,4%
Femenino
82,2% 4,0% 3,4% 10,4% 100% (647)
Total
83,0% 3,6% 2,9% 10,5% 100% (1364)
Total
Total
37
38
100 % (1363)
Cuando se presenta una tabla de porcentajes por fila (probabilidad condicional), es necesario poner el nmero de datos de la frecuencia marginal de cada fila.
39
40
Cuando se presenta una tabla de porcentajes por columnas (probabilidad condicional), es necesario poner el nmero de datos de la frecuencia marginal de cada columna.
Un porcentaje de la tabla sobre el total, no da mucha informacin sobre la distribucin bivariada, igualmente en la celda total se debe mostrar cul es el N de la muestra o de la poblacin.
10
41
42
Va a la escuela
No
81,9% 17,9% 1,8% 11,0% 15,8% 18,1%
Si
18,1% 82,1% 98,2% 89,0% 84,2% 81,9%
Total
100% (193) 100% (156) 100% (561) 100% (435) 100% (19)
158 28 10 48 3 247
Total
Total
100,0%
44
GRAFICOS
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
guardan entre s: Es la manera ms usual de presentacin de datos Retrato grfico de informacin cuantitativa Provee de una mirada la idea general de los datos Ms fciles de interpretar Menos grado de detalle
11
Grfico
Eje y
45
Utilidades
1.
46
Tener una primera impresin de los datos antes de comenzar el anlisis (explorar). Eleccin de tests estadsticos a realizar. Poder del Test de la ojeada. Mostrar los valores que asumen los datos. Detectar patrones. Comparar distintas muestras, o comparar en el tiempo. Evaluar la distribucin de los datos.
Or de na da
2.
3. 4. 5.
Eje x
6. 7.
Abscisa
48
Grficos de Sectores
Es exclusivo para variable cualtitativa nominales
N= 585
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
12
49
50
Esto no conviene!!
Departamento
51
Grfico de Sectores o Circular Encuesta Anual de Hogares 2009 Ciudad de Buenos Aires
52
7,4%
Vivienda en lugar de
14,8%
7,4%
Otros
1,5%
Vivienda en villa
70,4%
Se entiende?
13
53
54
Est rereremal!!!
56
n:811
Es un desastre
Esta bien?
14
57
58
59
Es exclusivo para variable cualitativas nominales y ordinales. Tambin se puede usar para variables cuantitativas discretas con poco recorrido de la variable.
O mejor asi?
Grficos de Barras
15
61
Diagrama de Barras
Mejor para atributos no numricos. Datos Nominales. Datos Ordinales (eje no arbitrario). Altura proporcional al nmero de casos. Barras del mismo ancho. Distancias entre barras iguales. Se puede utilizar frecuencias absolutas, relativas y porcentuales.
63
64
16
65
66
Fuente: Direccin de Coordinacin de Delegaciones de la Secretaria de Agricultura, Ganadera, Pesca y Alimentacin, SAGPyA, 2003.
Fuente: Direccin de Coordinacin de Delegaciones de la Secretaria de Agricultura, Ganadera, Pesca y Alimentacin, SAGPyA, 2003.
Tasa neta de escolarizacin de la poblacin de 13 a 17 aos. Nivel de enseanza Secundario, segn zona. Ciudad de Buenos Aires. Ao 2009.
13 12 15 11 6 10 7 9 8
60 100
95,4
14
90
Grfico de Barras
88,2 82,8 84,0 73,8
2 5 3 1
80
86,0
Verticales
Variables cualitativas ordinales
E (centro)
70
Zona A (norte) Zona B (este) Zona C (sur) Zona D (oeste) Zona E (centro)
50
Total
A (norte)
B (este)
C (sur)
D (oeste)
Fuente: Direccin General de Estadstica y Censos (Ministerio de Hacienda GCBA). EAH 2009.
17
69
Ingreso promedio mensual de los ocupados de 10 aos y ms por mximo nivel educativo alcanzado. Ciudad de Buenos Aires. Ao 2008
3.500
3.189
3.000
2.500
2.161
Pesos
2.000
1.500
1.000
500
Grfico de barras verticales para variables cualitativas ordinales. En el eje de las x (variables) hay que respetar el orden.
Total
Superior completo y ms
Fuente: Direccin General de Estadstica y Censos (Ministerio de Hacienda GCBA). EAH 2008.
Distribucin porcentual del nivel de instruccin alcanzado Base de datos de adultos sanos
71
72
N= 585
N= 585
18
Porcentaje de pacientes con exceso de peso que atienden los profesionales de la salud
n=1254
73
75
76
18 16 30 14
Porcentaje
12 10 8 6
Porcentaje
1 2 3 4 5 6 7 8 9 10 11 12 14 16
20
10 4 2 0 0 1 2 3 4 5 6 7 8 11
19
77
78
79
37,3%
31,1%
30,0%
27,8%
27,5%
26,9%
24,8%
24,5%
25% 30% 35% 40%
20
81
82
Grfico de barras horizontales para variables cualitativas nominales ordenados de mayor a menor frecuencia (si la variable es ordinal, no se puede cambiar el orden de las categoras de la variables).
83
84
Distribuciones Bivariadas
Grfico de Barras Adyacentes
Diagrama de barras adyacentes. Es la representacin grfica de una tabla de contingencia. Este tipo de grafico permite visualizar si hay relacin entre variables.
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
21
Evolucin de la soja durante el quinquenio 1996/97 2001/02 respecto a otras producciones extensivas.
85
Evolucin de la soja durante el quinquenio 1996/97 2001/02 respecto a otras producciones extensivas.
86
Fuente: Direccin de Coordinacin de Delegaciones de la Secretaria de Agricultura, Ganadera, Pesca y Alimentacin, SAGPyA, 2003.
Fuente: Direccin de Coordinacin de Delegaciones de la Secretaria de Agricultura, Ganadera, Pesca y Alimentacin, SAGPyA, 2003.
87
88
N= 585
N= 585
22
89
Distribuciones Bivariadas
n=1254
91
92
60
50
40
30
20
Va a la escuela
Si No 0 a 3 aos 6 a 12 aos mas de 18 aos
10 0
4 a 5 aos
13 a 18 aos
23
Evolucin de la soja durante el quinquenio 1996/97 2001/02 respecto a otras producciones extensivas.
93
94
95
96
trminos de porcentajes o proporciones (frecuencias relativas). Las tablas de contingencia, grficos circulares y grficas de barras son las mas comunes para mostrar esta clase de informacin. Las mismas clases de cuadros y grficas que se utilizan pare exhibir datos nominales se usan tambin con datos ordinales, salvo el diagrama circular que podramos decir que es exclusivo de los datos nominales.
24
Histogramas
Se usa para distribuciones de frecuencias de variables
97
cuantitativas discretas o continuas. Eje Horizontal: Lmites de cada intervalo (en general de igual tamao) Eje Vertical: frecuencia absoluta, relativa o porcentual; comenzando en el en origen (cero). La frecuencia asociada a cada intervalo est dada por el rea de la barra. Area total: 100% 1
PASOS PARA ARMAR UN HISTOGRAMA 1. Dividir los datos de la variable en grupos disjuntos e iguales denominado intervalos de clase o clase.
2. Para ello se debe calcular la longitud de cada intervalo. 3. Calcular el recorrido de la variable:
98
R= xmax - x min
4. Calcular el nmero de intervalos de clase (L) que se utilizarn.
No hay una forma efectiva y tampoco un nmero ptimo. En general cuanto mayor es el N mas intervalos se pueden utilizar.
99
100
A= R/L
6. Luego
25
101
102
103
104
26
105
35000
EPH Corrientes
106
30000
25000
20000
15000
10000
5000
0
0 250 500 750 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 1250 1750 2250 2750 3250 3750 4250 4750 5250
Minimental Test
107
108
27
109
Grficos bivariados:
para un variable cualitativa y una variables cuantitativa continuas
Pablo Salgado EMAIL: estadisticaymetodologia@gmail.com - cursoestadistica@caicyt.gov.ar
Pirmide de Poblacin
111
112
datos
Simetra Diagnstico de distribucin normal vs. no normal Comparar distribuciones en varios grupos
28
113
Box-Plots (Construccin)
Ordenar los datos y obtener Max, Min, Q1, Q2 y Q3 Dibujar un rectngulo con Q1 y Q3. Dibujar la mediana (Q2) Calcular los lmites inferior y superior:
Li = Q1 - 1,5 (Q3 - Q1) Ls= Q3 + 1,5 (Q3 - Q1)
114
Percentilo 75
Percentilo 75
Considerar como atpicos los valores exteriores al intervalo Dibujar una lnea desde los extremos del rectngulo hasta los valores lmites. Identificar los datos fuera del intervalo como atpicos
Valores Extremos
Grupo A
Grupo B
115
116
29
117
Barras de errores
Variables Continuas. Muy tiles para comparar y graficar diferencias entre
118
variables teniendo en cuenta el promedio y alguna medida de dispersin (desvi estndar, error estndar o intervalo de confianza).
Como condicin las variables deben ser simtricas y
119
120
95% IC Edad
9,8
Promedio
9,6
9,4
9,0
N= 716 648
Masculino
Femenino
Sexo
30
121
122
Tasa de mortalidad infantil anual (muertos por mil nacidos) con su Intervalo de Confianza al 95%. Ciudad de Buenos Aires. Ao 2010
21
123
19
17
15
13
11
124
31
125
126
la dispersin medidas de posicin (mediana, cuartiles y desvos intercuartiles), lo que permite apreciar la simetra de la distribucin de la variable y los valores atpicos y extremos.
En los grficos de barra de errores, se utiliza el promedio y los
derivados del desvo estndar (error estndar). Si la variable es asimtrica este grfico no lo muestra como tampoco los valores atpicos y extremos. Se recomienda utilizarlos en caso que se tenga la certeza de que la variables con la que estamos trabajando tenga una distribucin cercana a la Distribucin Normal o de Gauss.
127
128
Percentiles
Distribucin z score
Diagrama de cajas Intervalo de confianza al 95%, un y dos desvos estndar
32
Diagrama de cajas
129
Distribucin Normal
130
Minimental Test
31 30
131
132
90000
90000
80000
80000
70000
70000
29
60000
60000
Minimental Test
SALARIO
50000
SALARIO
Mediana
50000
28
40000
40000
27
38 19
30000
30000
26
20000
10000
25
N= 54 42
Hombre
Mujer
25%-75% Rango
Olvido Benigno
Normal
33
134
133
Evolucin de la Produccin (en miles de Toneladas) y Superficie135 Implantada (en miles de Hectreas) del cultivo de Soja en Argentina.
34
137
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Ao 2010
20
19,0 18,3 18,2 17,1 16,4 16,0 16,0 16,0 19,0
138
18
16
15,2 15,5 14,4 14,3 14,0 14,3
14
13,5 12,6 12,5 11,8 10,3 9,9 9,0 9,2 8,5 7,8 7,9 7,9 7,3 6,7 8,3 10,1
12
10
TMIDGEyC
Tasa de mortalidad infantil anual (muertos por mil nacidos). Ciudad de Buenos Aires. Ao 2010
20
139
140
18
16
14
TMI anual
12
10
4 1980
1982
1984
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
Ao
TMI DGEyC
35
141
36