Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadstica. U. Sucre
Tema 1: Introducin
Estadstica. U. Sucre
Melba Vertel 2
Definicin
La Estadstica es la Ciencia de la Sistematizacin, recogida, ordenacin y presentacin de los datos referentes a un fenmeno que presenta variabilidad o incertidumbre para su estudio metdico, con objeto de
y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
Estadstica. U. Sucre
Melba Vertel 3
Plantear hiptesis
Disear experimento
Obtener conclusiones
Estadstica. U. Sucre
Melba Vertel 5
Poblacin y muestra
Poblacin (population) es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Normalmente es demasiado grande para poder abarcarlo.
Muestra (sample) es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones) Debera ser representativo Esta formado por miembros seleccionados de la poblacin (individuos, unidades experimentales).
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 6
ESTADSTICA
POBLACIN
Elementos--Ubicacin--Tiempo
Estadstica. U. Sucre
Melba Vertel 7
ELEMENTOS
Unidades estadsticas
SIMPLE O COMPLEJA
NATURAL O ARTIFICIAL
REAL O ABSTRACTO
CENSO: poblacin
N
MUESTRA: Es un subconjunto de la poblacin, donde los elementos son escogidos aleatoriamente.
Estadstica. U. Sucre
Melba Vertel 8
Variables
Una variable es una caracterstica observable que vara entre los diferentes individuos de una poblacin. La informacin que disponemos de cada individuo es resumida en variables.
Estadstica. U. Sucre
Melba Vertel 9
Tipos de variables
Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un nmero (no se pueden hacer operaciones algebraicas con ellos)
Nominales: Si sus valores no se pueden ordenar
Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)
Cuantitativas o Numricas Si sus valores son numricos (tiene sentido hacer operaciones algebraicas con ellos)
Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos
Estadstica. U. Sucre
Melba Vertel 10
Es buena idea codificar las variables como nmeros para poder procesarlas con facilidad en un ordenador. Es conveniente asignar etiquetas a los valores de las variables para recordar qu significan los cdigos numricos.
Sexo (Cualit: Cdigos arbitrarios)
1 = Hombre 2 = Mujer
Estas situaciones debern ser tenidas en cuentas en el anlisis. Datos perdidos (missing data)
Tema 1: Introducin Morinson Melba Vertel 11
Estadstica. U. Sucre
Aunque se codifiquen como nmeros, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de clculo estadstico. No todo est permitido con cualquier tipo de variable.
Estadstica. U. Sucre
Melba Vertel 12
Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos)
Edades:
Menos de 20 aos, de 20 a 50 aos, ms de 50 aos
Hijos:
Menos de 3 hijos, De 3 a 5, 6 o ms hijos
Estadstica. U. Sucre
Melba Vertel 15
TECNICA ESTADSTICA Frecuencia Porcentaje Moda Mediana Media aritmtica Rango Desviacin tpica Varianza C.V. Sesgo Curtosis
RAZN X X X X X X X X X X X
Estadstica. U. Sucre
Gnero Hombre
Frec.
5 4 3 2
4 6
Mujer
1 0 Hombre Mujer
Las tablas de frecuencias y las representaciones grficas son dos maneras equivalentes de presentar la informacin. Las dos exponen ordenadamente la informacin recogida en una muestra.
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 17
Tablas de frecuencia
Exponen la informacin recogida en la muestra, de forma que no se pierda nada de informacin (o poca).
Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad Frecuencias relativas (porcentajes): Idem, pero dividido por el total Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas
Muy tiles para calcular cuantiles (ver ms adelante)
Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8 Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%
Sexo del encuestado Frecuencia 636 881 1517 Porcentaje 41,9 58,1 100,0 Porcentaje vlido 41,9 58,1 100,0
Nmero de hijos Frecuencia 419 255 375 215 127 54 24 23 17 1509 8 1517 Porcentaje 27,6 16,8 24,7 14,2 8,4 3,6 1,6 1,5 1,1 99,5 ,5 100,0 Porcentaje vlido 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcentaje acumulado 27,8 44,7 69,5 83,8 92,2 95,8 97,3 98,9 100,0
Vlidos
Vlidos
Nivel de felicidad Frecuencia Porcentaje Muy feliz 467 30,8 Bastante feliz 872 57,5 No demasiado feliz 165 10,9 Total 1504 99,1 No contesta 13 ,9 1517 100,0 Porcentaje vlido 31,1 58,0 11,0 100,0 Porcentaje acumulado 31,1 89,0 100,0
Vlidos
Perdidos Total
Perdidos Total
Estadstica. U. Sucre
Melba Vertel 18
Muestra:
MHHMMHMMMH equivale a HHHH MMMMMM
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 19
Ejemplo
Cuntos individuos tienen menos de 2 hijos?
frec. indiv. sin hijos + frec. indiv. con 1 hijo = 419 + 255 = 674 individuos
0 1 2 3 4 5 6 7 Ocho+ Total Nmero de hijos Frec. 419 255 375 215 127 54 24 23 17 1509 Porcent. (vlido) 27,8 16,9 24,9 14,2 8,4 3,6 1,6 1,5 1,1 100,0 Porcent. acum. 27,8 44,7 69,5 50% 83,8 92,2 95,8 97,3 98,9 100,0
Qu cantidad de hijos es tal que al menos el 50% de la poblacin tiene una cantidad inferior o igual?
2 hijos
Estadstica. U. Sucre
Melba Vertel 20
Pictogramas
Fciles de entender. El rea de cada modalidad debe ser proporcional a la frecuencia. De los dos, cul es incorrecto?.
Estadstica. U. Sucre
Melba Vertel 21
375
Son diferentes en funcin de que las variables sean discretas o continuas. Valen con frec. absolutas o relativas.
Diagramas barras para v. discretas
Se deja un hueco entre barras para indicar los valores que no son posibles
300
Recuento
255 215
200
127
100
54 24
0 1 2 3 4 5 6
23
17
7 Ocho o ms
Nmero de hijos
250
200
150
100
50
20
40
60
80
Estadstica. U. Sucre
Melba Vertel 22
Diagramas integrales
Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. No los construiremos en clase. Se pasan de los diferenciales a los integrales por integracin y a la inversa por derivacin (en un sentido ms general del que visteis en bachillerato.)
Estadstica. U. Sucre
Melba Vertel 23
Qu hemos visto?
Definicin de estadstica Poblacin Muestra Variables
Cualitativas Numricas
Representaciones grficas
Cualitativas Numricas
Diferenciales Integrales
Estadstica. U. Sucre
Melba Vertel 24
Estadstica
Yi
Grfico Circular
20%
10% 15%
30%
25%
4
Tema 1: Introducin Morinson Melba Vertel 25
Estadstica. U. Sucre
Estadstica
Poligono de Frecuencia
6 5
ni
50 58 66 74 82 90 50 58 66 74 82 90 PESO (Kg.)
4 3 2 1 0 50 58 66 74 82 90
yi
Yi
OJIVA
Ni 25 20 15 10 5 0 50
Estadstica. U. Sucre
58
66
74
82
90 Yi
26
Melba Vertel
Estadstica
GRAFICAS (VARIABLE)
STEM AND LEAF PLOT OF NUMAZPA LEAF DIGIT UNIT = 1 MINIMUM 30.000 3 0 REPRESENTS 30. MEDIAN 65.000 MAXIMUM 83.000 STEM LEAVES 1 3 0 2 3 7 3 4 0 4 4 6 4 5 12 5 55567888 20 6 00000023 (7) 6 5556678 17 7 00000000002 6 7 6 8 000033 44 CASES INCLUDED 0 MISSING CASES
Estadstica. U. Sucre
Melba Vertel 27
Estadstica
Tema 2: Estadsticos
Estadstica. U. Sucre
Melba Vertel 28
Parmetros y estadsticos
Parmetro: Es una cantidad numrica calculada sobre una poblacin La altura media de los individuos de un pas La idea es resumir toda la informacin que hay en la poblacin en unos pocos nmeros (parmetros). Estadstico: dem (cambiar poblacin por muestra) La altura media de los que estamos en este aula. Somos una muestra (representativa?) de la poblacin. Si un estadstico se usa para aproximar un parmetro tambin se le suele llamar estimador.
Normalmente nos interesa conocer un parmetro, pero por la dificultad que conlleva estudiar a *TODA* la poblacin, calculamos un estimador sobre una muestra y confiamos en que sean prximos. Ms adelante veremos como elegir muestras para que el error sea confiablemente pequeo.
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 29
Estadstica. U. Sucre
Melba Vertel 30
Centralizacin
Indican valores con respecto a los que los datos parecen agruparse.
Media, mediana y moda
Dispersin
Indican la mayor o menor concentracin de los datos con respecto a las medidas de centralizacin.
Desviacin tpica, coeficiente de variacin, rango, varianza
Forma
Asimetra Apuntamiento o curtosis
Tema 1: Introducin Morinson Melba Vertel 31
Estadstica. U. Sucre
Estadsticos de posicin
Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada . Casos particulares son los percentiles, cuartiles, deciles, quintiles,...
Estadstica. U. Sucre
Melba Vertel 32
Estadstica. U. Sucre
Melba Vertel 33
Ejemplos
El 5% de los recin nacidos tiene un peso demasiado bajo. Qu peso se considera demasiado bajo?
Percentil 5 o cuantil 0,05
El colesterol se distribuye simtricamente en la poblacin. Se considera patolgico los valores extremos. El 90% de los individuos son normales Entre qu valores se encuentran los individuos normales?
Entre el percentil 5 y el 95
Estadstica. U. Sucre
Melba Vertel 34
Ejemplo
Qu peso no llega a alcanzar el 25% de los individuos?
Primer cuartil = percentil 25 = 60 Kg.
50%
90
80
70
60
50
40
Estadstica. U. Sucre
35
Ejemplo
Nmero de aos de escolarizacin Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508 Porcentaje ,3 ,3 ,4 ,8 1,7 4,5 3,7 4,8 5,6 30,6 8,6 11,6 4,8 12,9 2,9 3,0 1,5 2,0 100,0 Porcentaje acumulado ,3 ,7 1,1 1,9 3,5 8,0 11,7 16,6 22,2 52,8 61,4 73,0 77,9 90,7 93,6 96,6 98,0 100,0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total
Estadsticos Nmero de aos de escolarizacin N Vlidos 1508 Perdidos 0 Media 12,90 Mediana 12,00 Moda 12 Percentiles 10 9,00 20 11,00 25 12,00 30 12,00 40 12,00 50 12,00 60 13,00 70 14,00 75 15,00 80 16,00 90 16,00
20%?
90%?
Estadstica. U. Sucre
Melba Vertel 36
Centralizacin
Aaden unos cuantos casos particulares a las medidas de posicin. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Media (mean) Es la media aritmtica (promedio) de los valores de una variable. Suma de los valores dividido por el tamao muestral. Media de 2,2,3,7 es (2+2+3+7)/4=3,5 Conveniente cuando los datos se concentran simtricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos Mediana (median) Es un valor que divide a las observaciones en dos grupos con el mismo nmero de individuos (percentil 50). Si el nmero de datos es par, se elige la media de los dos datos centrales. Mediana de 1,2,4,5,6,6,8 es 5 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5 Es conveniente cuando los datos son asimtricos. No es sensible a valores extremos.
Mediana de 1,2,4,5,6,6,800 es 5. La media es 117,7!
Algunas frmulas
Datos sin agrupar: x1, x2, ..., xn
Media
x x=
i
n
Datos organizados en tabla
si est en intervalos usar como xi las marcas de clase. Si no ignorar la columna de intervalos. Media
Variable L0 L1 L1 L2 ... Lk-1 Lk xk n
Estadstica. U. Sucre Tema 1: Introducin Morinson
xn x=
i
i i
fr. x1 x2 n1 n2 nk
C = Li 1 +
Melba Vertel
n N i 1
ni
( Li Li 1 )
38
Altura mediana
Estadstica. U. Sucre
Melba Vertel 39
En el histograma se identifica unidad de rea con individuo. Para calcular la media es necesario elegir un punto representante del intervalo: La marca de clase. La media se desplaza hacia los valores extremos. No coincide con la mediana. Es un punto donde el histograma estara en equilibrio si tuviese masa.
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 40
Ejemplo (continuacin)
xn x=
i i i
M. Clase 45 55 65 75 85 95 115 58
Fr. 5 10 21 11 5 3 3
Fr. ac. 5 15 36 47 52 55 58
45 5 + 55 10 + K + 115 3 = 69,3 58
P75 = C0 , 75 = Li 1 +
Moda = marca de clase de (60,70] = 65 Cada libro ofrece una frmula diferente para la moda (difcil estar al da.)
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 41
Variabilidad o dispersin Los estudiantes de Estadstica reciben diferentes calificaciones en la asignatura (variabilidad). A qu puede deberse?
Diferencias individuales en el conocimiento de la materia.
Podra haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. Las notas seran las mismas en todos? Seguramente No.
Dormir poco el da del examen, el croissant estaba envenenado...
Diferencias individuales en la habilidad para hacer un examen.
En alguna pregunta difcil, se duda entre varias opciones, y al azar se elige la mala
Variabilidad por azar, aleatoriedad.
Estadstica. U. Sucre
Melba Vertel 42
Medidas de dispersin
Miden el grado de dispersin (variabilidad) de los datos, independientemente de su causa. Amplitud o Rango (range): La diferencia entre las observacines extremas.
2,1,4,3,8,4. El rango es 8-1=7 Es muy sensible a los valores extremos.
Varianza S2 (Variance): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media.
1 S = ( xi x ) 2 n i
2
Es sensible a valores extremos (alejados de la media). Sus unidades son el cuadrado de las de la variable. Si habis odo hablar en fsica de porqu un patinador gira a diferente velocidad cuando tiene los brazos recogidos (menor dispersin), puede que les suene elcoeficiente de inercia.
Estadstica. U. Sucre
Melba Vertel 44
S= S
50 40 30
20
10
0 50
0 90
3 1.
3 3.
7 1.
1 2.
9 2.
5 2.
00
00
00
00
00
00
Estadstica. U. Sucre
Centrado en la media y a una desviacin tpica de distancia tenemos ms de la mitad de las observaciones (izq.) A dos desviaciones tpicas las tenemos a casi todas (dcha.)
Estadstica. U. Sucre
Melba Vertel 46
Coeficiente de variacin
Es la razn entre la desviacin tpica y la media.
Mide la desviacin tpica en forma de qu tamao tiene con respecto a la media Tambin se la denomina variabilidad relativa. Es frecuente mostrarla en porcentajes
S CV = x
No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente Por ejemplo 0C 0F Los ingenieros electrnicos hablan de la razn seal/ruido (su inverso).
Tema 1: Introducin Morinson Melba Vertel 47
Estadstica. U. Sucre
Asimetra o Sesgo
Una distribucin es simtrica si la mitad izquierda de su distribucin es la imagen especular de su mitad derecha. En las distribuciones simtricas media y mediana coinciden. Si slo hay una moda tambin coincide La asimetra es positiva o negativa en funcin de a qu lado se encuentra la cola de la distribucin. La media tiende a desplazarse hacia las valores extremos (colas). Las discrepancias entre las medidas de centralizacin son indicacin de asimetra.
Estadstica. U. Sucre Tema 1: Introducin Morinson Melba Vertel 48
En funcin del signo del estadstico diremos que la asimetra es positiva o negativa. Distribucin simtrica asimetra nula.
La asimetra es adimensional.
Tema 1: Introducin Morinson Melba Vertel 49
Estadstica. U. Sucre
Apuntamiento o curtosis
La curtosis nos indica el grado de apuntamiento (aplastamiento) de una distribucin con respecto a la distribucin normal o gaussiana. Es adimensional. Platicrtica: curtosis < 0
Frecuencia
160
140
120
100
80
60
40 45 48 51 54 57 60 63 66 69 72 75 78 81 84
Platicrtica
300
Frecuencia
Los grficos que ven poseen la misma media y desviacin tpica, pero con diferente grado de apuntamiento. En el curso sern de especial inters las mesocrticas y simtricas (parecidas a la normal).
Estadstica. U. Sucre
300
200
200
100
Frecuencia
100
0 27 32 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 99
Leptocrtica
Mesocrtica
50
Descriptivos para Nmero de hijos Media Intervalo de confianza para la media al 95% Estadstico 1,90 Lmite inferior Lmite superior 1,81
20%
n=419
25% n=375
25%
1,99
Media recortada al 5% 1,75 Mediana Varianza Desv. tp. Mnimo Mximo Rango Amplitud intercuartil 2,00 3,114 1,765 0 8 8 3,00 Asimetra Curtosis
Estadstica. U. Sucre
Porcentaje
8% n=127
10%
4% n=54
5%
2%
2%
1%
7 Ocho o ms
Nmero de hijos
Est sombreado lo que sabemos interpretar hasta ahora. Verifica que comprendes todo. Qu unidades tiene cada estadstico? Variabilidad relativa?
,063 ,126
1,034 1,060
Qu hemos visto?
Parmetros Estadsticos y estimadores Clasificacin
Posicin (cuantiles, percentiles,...)
Diagramas de cajas
Medidas de dispersin
con unidades: rango, rango intercuartlico, varianza, desv. tpica sin unidades: coeficiente de variacin
Qu usamos para comparar dispersin de dos poblaciones?
Asimetra
positiva negativa
Podemos observar asimetra sin mirar la grfica? Cmo me gustan los datos?
Estadstica. U. Sucre
Melba Vertel 52
Estadstica
Teniendo m=6 y C=1.7; podemos realizar la TABLA O DISTRIBUCIN DE FRECUENCIA TABLA O DISTRIBUCIN DE FRECUENCIA: [ [Y i-1 - Y i ) hi Ni Hi ni 42.0-43.7 1 0.0417 1 0.0417 43.7-45.4 4 0.1667 5 0.2083 45.4-47.1 4 0.1667 9 0.3750 47.1-48.8 2 0.0833 11 0.4583 48.8-50.5 8 0.3333 19 0.7917 50.5-52.2 5 0.2083 24 1.0000 24 1.0000
Yi 42.85 44.55 46.25 47.95 49.65 51.35
, )
Yi
Promedio aritmtico
Moda
ni 1 4 4 2 8 5
Pe s o (Kg.)
4%
17%
33%
8%
ni 1 4 4 2 8 5
Peso (Kg.)
Media Armnica
ni 1 4 4 2 8 5
Poligono de frecuencia
10 8 6 4 2 0 42.85 44.55 46.25 47.95 49.65 51.35
frec.abs.
Estadstica. U. Sucre
53