Sei sulla pagina 1di 9

ESTADSTICA CONCEPTOS TERICOS Definicin: Es la ciencia que nos proporciona un conjunto de mtodos y procedimientos para la recoleccin, clasificacin e interpretacin

de datos, lo cual sirve para sacar conclusiones que permitan tomar decisiones y aplicar los correctivos en caso fuera necesario. 2.Poblacin Es un conjunto de elementos con una caracterstica comn. Por ejemplo: Todos los alumnos matriculados en un Colegio. 3. Muestra Es una parte o subconjunto de la poblacin. Generalmente se elige en forma aleatoria (al azar). Por ejemplo: una muestra de 1 000 alumnos de un Colegio elegidos al azar. 4. Variable Estadstica Es una caracterstica de la poblacin y puede tomar diferentes valores. Se clasifican en: A. Cualitativa.- Son variables cuyos valores son cualidades que representa la poblacin. Por ejemplo: la variable profesin puede adoptar las modalidades: Ingeniero, Mdico, Profesor, etc. B. Cuantitativa.- Son variables que pueden ser expresadas mediante nmeros. Por ejemplo: nmero de alumnos matriculados, estatura, peso, edad, etc. Las variables cuantitativas pueden ser a su vez: B.1. Discretas Cuando toma valores enteros. Por ejemplo: nmero de alumnos, nmero de colegios en el distrito de Miraflores, etc. B.2. Continuas Cuando puede tomar cualquier valor numrico, enteros o decimales. Por ejemplo: el peso, la talla, el tiempo, etc. 5. Distribucin de Frecuencias Consideramos una muestra de tamao n (nmero de elementos de la muestra) y la variable estadstica x que puede tomar k valores diferentes: x1, x2, x3, ., xk. 5.1.Frecuencia absoluta (f1) Tambin llamado simplemente frecuencia, es el nmero de veces que aparece repetido el valor xi. 5.2.Frecuencia absoluta acumulada (Fi) Es la que resulta de acumular sucesivamente las frecuencias absolutas. 5.3.Frecuencia Relativa (hi) Es el cociente de la frecuencia absoluta y el nmero total de datos. Sus valores son nmeros reales que oscilan entre 0 y 1. La suma de todas las frecuencias relativas es igual a 1. 5.4.Frecuencia Relativa Acumulada (Hi) Es la que resulta de acumular sucesivamente las frecuencias relativas. 6. Representacin de Datos Los datos pueden ser representados por: 6.1.Tablas Estadsticas Es un arreglo de filas y columnas en los cuales se encuentran distribuidos los datos. 6.2.Grficos Estadsticos Se pueden representar mediante barras o sectores circulares. Enunciado: Se tiene los promedios ponderados (PP) de 10 estudiantes del curso de Matemtica I: 10,2; 12,6; 11,2; 14,4; 10,8; 16,4; 13,6; 14,0; 12,5; 11,5. Se pide clasificar los datos para un k = 4, para los problemas 9 y 10. * Cul es el porcentaje de estudiantes con promedio ponderado correspondiente a la segunda clase? a) 25 % b) 15 % c) 10 % d) 20 % e) 40 % * Cul es el porcentaje de estudiantes con promedio ponderado inferior al lmite inferior de la tercera clase? a) 80 % b) 75 % c) 60 % d) 50 % e) 45 % Estadstica Desde la antigedad, reyes y emperadores se preocuparon por conseguir datos sobre sus posesiones. El censo, por ejemplo, es un vasto proyecto de recopilacin de datos y no es una idea nueva; hace 2 mil aos el emperador Augusto mand realizar una gran encuesta sobre las riquezas del imperio Romano: soldados. navos, recursos , rentas , etc. Mucho antes los egipcios haban registrado informacin numrica que an se . estudia, al igual que los misteriosos quipus que almacenaban informacin para la administracin del imperio Inca. Durante mucho tiempo se entendi por estadstica a la informacin relacionada con el gobierno. La palabra se deriva del latn statisticus que significa del Estado y este trmino pas a referirse, durante el siglo XIX, a otros tipos de informacin numrica y ms tarde a los mtodos para analizar dicha informacin. 14.0 OBJETIVOS Saber qu significa Estadistica y sus campos de estudio.

Diferenciar entre una variable cualitativa y una variable cuantitativa. Organizar los datos en una distribucin de frecuencias. Presentar datos empleando histogramas y otros grficos. Calcular la media aritmtica, la mediana y la moda para datos agrupados y no agrupados . Calcular otras m~c}das de centralizaCin corno la media ponderada, media geomtrica y armnica. 14.1 ESTADSTICA Es la parte de la matemtica que estudia los fenmenos que se pueden cuantificar y generan un conjunto de datos. El especialista en esta rea debe simplificar al mximo la informacin disponible para que pueda ser clara y til; y cuando sea posible tratar de inferir las leyes que explique el comportamiento de este fenmeno. El estudio de la estadstica puede dividirse en dos reas principales: Estadstica descriptiva.- que comprenden las tcnicas que se emplean para la recopilacin, organizacin, resumen y presentacin de los datos (o informacin). Estadstica inferencial.- comprende tcnicas que con base nicamente en una muestra o subconjunto de la poblacin sometida a observacin. se torna decisiones sobre toda la poblacin. Dado que esta decisin se torna en condiciones de incertidumbre. supone el uso de conceptos de probabilidad . . Se entiende por poblacin la totalidad de elementos de la variable en estudio. 14.2 VARIABLES ESTADSTICAS Al estudiar una poblacin o muestra nos concentrarnos en una caracterstica de los individuos u objetos que le conforman; si esta caracteristica tiene variabilidad o variacin se denomina variable estadstica y el resultado de las observaciones o mediciones de la caracteristica se llama dato estadstico. Cuando la caracterstica o variable en estudio es no numrica se le denomina variable cualitativa o atributo. As por ejemplo: el estado civil de una persona. su nacionalidad. tipo de automvil que posee. etc. son variables cualitativas. Cuando la variable de estudio se puede expresar numricamente. entonces se denomina variable cuantitativa. As por ejemplo: el saldo de una cuenta bancaria; la estatura de una persona. el nmero de hijos en un familia . son variables cuantitativas. Adems. estas variables pueden ser discretas. cuando solo pueden tomar ciertos valores. por lo general nmeros enteros . pues resultan casi siempre de un conteo (nmero de habitaciones de una casa. nmero de empleados de una empresa. nmero de ruedas de un vehculo) o continuas. cuando la variable puede tomar todos los valores reales de un intervalo y se expresan con decimales (pesos y estaturas de personas. tiempo de duracin de un proceso. etc.). Cuadro de Clasificaci6n de Variables 14.3 PRESENTACIN Y ORDENACIN DE DATOS La informacin que se ha recopilado pero que an no se organiza se debe ordenar. Si los datos incluyen valores repetidos se puede organizar una distribucin de frecuencias que es una tabla o lista de los distintos valores de la variable (x) junto con su respectiva frecuencia (ij. La frecuencia designa al nmero de veces que el valor correspondiente aparece en el conjunto de datos y se le denomina frecuencia absoluta. Tambin es til presentar la frecuencia relativa (h) de cada valor, esto es la frecuencia expresada como fraccin o porcentaje del total. Si N es en nmero de datos, la frecuencia relativa h est dado por: A esta forma de presentar los datos se le denomina tabla de datos no agrupados. Ejemplo 1: Se realiz una encuesta entre los 50 empleados de una empresa, consultando sobre el nmero de hijos en edad escolar que tena cada empleado, a fin de estimar el pago de una bonificacin por gastos escolares que proyecta hacer la empresa. Estos fueron los resultados: . o 2 103 2 O O 1 124 1 O 2~OO3OO O 024110 1 103 5 1 2

1 1 1 1 1 1O 1O 21 2O 32 Organizar los datos en una distribucin de frecuencias, enlistanda cada valor diferente (xl en una columna, luego empleamos marcas para contar el nmero de veces que aparece cada valor de x y al acabar, anotamos la frecuencia absoluta (f) y luego calculamos la frecuencia relativa (hl. o ~~~\ 16 16/50 = 0.32 = 32% ~~~\\\ 18 18/50 = 0 .36 = 36% 2 ~ \\\\ 9 9/50 = 0.18 = 18% 3 \\\\ 4 4/50 = 0 .08 = 8% 4 \\ 2 2/50 = 0 .04 = 4% 5 \ l/50 = 0.02 = 2% n = 50 Total = 100% Tabla l. N de hijos por empleados de una empresa El total de frecuencias absolutas debe ser el total de datos y el total de frecuencias relativas debe ser el 100%. Ambos totales permiten verificar los clculos realizados. Observando la tabla podemos afirmar lo siguiente: Cerca de 1/3 de los empleados no requieren bonificacin por escolaridad (32%) Los restantes 2/3 de los empleados tienen por lo menos 1 nio en edad escolar y se benefician con la bonificacin. La tendencia ms comn. es decir el valor con frecuencia ms alta es 1 (tener un nio. 36%). 14.4 DATOS AGRUPADOS Cuando los datos consisten en solo unos cuantos valores dis. tintos (es el caso de los datos del ejemplo anterior que tomaba solo los valores O. 1. 2. 3. 4 Y 5). podemos organizarlos fcilmente y determinar cualquier tendencia. sin embargo cuando los datos consisten en muchos valores en su mayora no repetidos es conveniente agrupar los datos y determinar las frecuencias absolutas y relativas de cada grupo que llamaremos clase. Necesitamos estas definiciones: 1. Rango o Recorrido (R). Es la diferencia entre el mayor de los datos xmx Y el menor de los datos xmn. 2. Intervalo de clase [ai' b) Son cada una de las categoras excluyentes (o clases) en los que se pueden clasificar los datos. Los extremos de un intervalo (aj. b > son a y b. donde a = lmite inferior del intervalo de clase b = lmite ~uperior del intervalo de clase Cada intervalo excepto el ltimo es cerrado por la derecha y abierto por la izquierda. 3. Marca de clase (xli) Son los puntos medios de cada clase. as en el intervalo ( a j, b) la marca de clase xi ser: Xl=1 4. Nmero de intervalos (k) No existen reglas fijas para establecer el valor de k . Una regla sugiere que sea un nmero prximo a JN y otra dice que el nmero ideal es k = 1 + 3 .3 Lag N (Regla de Sturges), siendo N el total de datos. En muchos casos. entre 5 y 10 intervalos puede ser el nmero adecuado. 5. Amplitud del intervalo (A) Es la diferencia entre sus extremos. Es conveniente que todos los intervalos tengan la misma longitud A A=Rk Es preferible redondear el valor de "A" por exceso para no perder datos. 6. Frecuencia absoluta (f) Es el nmero de datos que corresponden al i-simo intervalo de clase. 7. Frecuencia acumulada (Fi)

Se define para cada i-simo intervalo de clase. como la. suma de todas las frecuencias absolutas fl desde el primero hasta el i-simo intervalo: 8. Frecuencia relativa (h) Es el cociente entre la frecuencia absoluta del i-simo intervalo y el nmero total de datos. f i h. = 1N 9. Frecuencia relativa acumulada (H) Es el cociente entre la frecuencia acumulada absoluta correspondiente al i-simo intervalo y el nmero total de datos. Ejemplo 2: El administrador del gimna sio ABe es t interesado en conocer la distribucin de las edades de las 42 personas inscritas y recopil las siguientes edades: 26 16 21 34 45 18 41 38 22 48 27 22 30 39 62 25 25 38 29 31 28 20 56 60 24 6 !J 28 .' 32 33 18 23 27 46 30 34 ( 6~ 49 59 19 20 23 24 La distribucin de frecuencias requiere los siguientes clculos: 1. Determinacin del rango: El dato mayor es 62 y el menor 16, por lo tanto R = 62 - 16 = 46 aos 2. Nmero de intervalos: Segn una de las reglas elegimos K = 6 intervalos (un valor prximo a J42) 3. Amplitud: el cociente por exceso de R entre k : R = k ~6 = 7,6 ~ A = 8 4. Intervalos de' clase: elegimos [16; ... ) el menor dato como lmite inferior del primer intervalo, el lmite superior se obtiene al sumarle la ampli~ud : 16 + 8 = 24. queda as establecido [16;24) como primer intervalo; [24 ;32) el segundo y as sucesivamente. '. Frecuen':ia [16;24) ~~\ 20 11 2 [24;32) ~~\\\ 28 13 3 [32;40) ~ \\ 36 7 4 ;48) \\\ 44 3 5 [48, 56) \\ 52 2 6 [56;64 ] ~ \ 60 6 Tabla 2. Edades de asistentes al gimnasio . a .+b. 5. Marca de clase: se obtiene por la frmula xi = T , _ 16 + 24 _ 20 xl 2 X 2 = 24 + 32 = 28 2 etc 6. La frecuencia de cada intervalo se obtiene contando las marcas que resultan del conteo. Si se consideran adems las frecuencias relativas y las frecuencias acumuladas, se obtiene la siguiente tabla: <1 < liitefYalt( ...... :-:',:::::::.-:<::;::::::::::.::::::;!:::::::::::::>: :U*h . H . ~ J > ~f . .H t <.) 1 [16;24) 20 11 11 0 ,26 0 .26 2 [24;32) 28 .. 13 24 0 .31 0 .57 3 [32;40) 36 7 31 0 ,17 0 ,74 4 [40;48) 44 3 34 0,07 0 .81 5 [48;56) 52 2 36 0,05 0 ,86 6 [56;64] 60 6 42 0 ,14 1.00 n = 42 1,00 Tabla 3. Edades de asistentes al gimnasio Ahora con estos datos organizados se puede afirmar: '. Las edades de 24 a 32 son las ms comunes (31 % es la frecuencia relativa ms alta) Las edades de 48 a 56 son las menos comunes (50/0 es la menor frecuencia) Cerca de la mitad de la gente van de los 16 a 32 aos (57%)

14.5 REPRESENTACIN GRFICA Un grfico estadstico debe ser una representacin clara. fcil de leer y de entender. y ajustado a los datos. Es simple si se refiere a frecuencias absolutas o relativas y acumulativo si representa los valores de las frecuencias acumuladas. Los tipos ms utilizados son: Diagrama de sectores Tiene forma circular. cada caracterstica viene representada por un sector circular de rea proporcional a la frecuencia. Es conveniente para representar variables cualitativas. Diagrama de Barras Asignan a cada valor de la variable una barra de altura proporcional a su frecuencia. Griifico 1. N de hijos en ed~d escolu de los 50 emple~dos de un~ empres~ 20,--------------------------------, 16 15 10 5 O235 N de hijos Histogramas Son grficos especficos para datos agrupados por intervalos. Los histogramas asocian a cada intervalo un rectngulo de superficie proporcional a la frecuencia. Los lmites de clase se marcan en el eje horizontal y determinan las bases de los rectngulos y las frecuencias se anotan en el eje vertical y determinan sus alturas. Polgono de frecuencias Es la lnea que une los puntos correspondientes a las frecuencias de cada elemento. Si los datos estn agrupados por intervalos. se construye de modo similar al histograma. pero los puntos que se unen son los correspondientes a las marcas de clase. "'" "r:: o il c::Io Z ,1 12 10 8 6 4 2 O " Grtfico 2. Histograma de edades de un grupo de personas que asisten a un Gimnasio Edades 111 ":: el 111 ' lo< CI 1=10 .C.,I Z Grfico 3. Polgono de Frecuencias de las edades de un grupo de personas que asisten a un gimnasio 14 12 10 8 6 4 2 O 20 28 , 36 44 52 60 Edades Ojivas Son grficos de frecuencias acumuladas. En el eje vertical se

anotan la frecuencias acumuladas asociadas a cada lmite superior de clase (acumula frecuencias "menores que" un valor dado). En algunos casos se grafican las frecuencias acumuladas de todos los valores mayores o iguales al lmite inferior de cada intervalo (ojivas "mayor que"). Siempre que se mencione una ojiva sin especificar su tipo. se entender que es de tipo "menor que". Grfico 4. Ojiva "menor que" de la gente por edad que asiste al gimnasio Frecuencias acumuladas 50 40 30 20 10 Frecuencias a cumuladas relativas (en%) y~ 74% 7% 26% O+--'~~----r---~r---~-----r-----r----h 16 24 32 40 48 56 64 Edades Observacin Si "f' es la frecuencia en el intervalo de clase la, b> y se considera que los datos se distribuyen de manera uniforme en ese intervalo, entonces podemos considerar por ejemplo que en el intervalo la, c) contenido en la, b> existen aproximadamente: f = c a . f datos b-a Por semejanza Igualmente para una frecuencia relativa h: aeb -f- f b-a c-a Ejemplo: En el intervalo 124; 32> la frecuencia es 13 (hay 13 datos). luego en el intervalo 124; 27) habr f= 27-24. 13 = 4 .875=5 datos 32-24 14.6 MEDIDAS DE CENTRALIZACIN Los nmeros que describen de manera concisa el comportamiento y las caractersticas generales de un conjunto de datos son los parmetros estadsticos . Los parmetros que miden la tendencia central de los datos se llaman medidas de centralizacin y los ms representativos son la media, la mediana y la moda. Media Aritmtica Se calcula dividiendo la suma de los vaores de todos los datos entre el nmero de datos. x. ~ 1 Para datos no agrupados: x = N , f.x. ~ 1 1 Para datos agrupados: x = -NEn la ltima frmula fi es la frecuencia de cada intervalo y xi es la marca de clase. Media Aritmtica Ponderada Se aplica cuando no todos los datos tienen la misma importancia o peso. Su frmula es similar a la de los datos agrupados. cambiando fi por los pesos Pi y el denominador N por la suma de todos los pesos; en este caso xi sera el valor de cada dato. x1P +x2P2 + +xkPk = Mediana Es el valor del dato que ocupa la poslclOn central cuando stos se ordenan de menor a mayor (o viceversa) . Divide a la lista de datos en dos grupos de igual nmero de elementos. Si el nmero de datos es par la mediana es la media de los dos que ocupan las posiciones centrales. Si el nmero de datos es impar la mediana es el dato central. Ejemplo:

Sean los datos: 9. 7 . 8 . 10. 8 . 11; al ordenar se tiene: 7 . 8 . 8 . 9. 10. 11. La mediana es: 8 + 9 = 8,5 2 Para datos agrupados debe encontrarse primero el intervalo mediano, y luego ubicar en dicho intervalo la mediana (Me) con la frmula: = lmite inferior del intervalo mediano = nmero de datos i F_} = f A el menor intervalo que cu~ple F > n/Z frecuencia acumulada del intervalo i ]: frecuencia absoluta del intervalo mediano amplitud del intervalo Ejemplo: En el caso de la gente que va al gimnasio, de la tabla 3, la mediana es: 42 -11 2 Me=24+ 13 8=3015 Es decir, la mitad de las personas tienen 30 aos o menos y la otra mitad supe~a esta edad. Moda Se define como el valor que ms veces se repite en el conjunto de datos. Si hay dos valores que se repiten mayoritariamente y con igual frecuencia, la distribucin se llama bimodal. Para datos agrupados la moda es: Mo= a+d dA 1+2 a lmite inferior de la clase modal (la que tiene la mayor frecuencia) dI exceso de la frecuencia modal sobre la frecuencia de la clase inmediatamente anterior a la clase modal d2 exceso de la frecuencia modal sobre la frecuencia de la clase que sigue inmediatamente a la clase modal A amplitud del intervalo de clase modal. Ejemplo: En el caso de la gente del gimnasio la clase modal es la segunda. Mo = 24+_2-8 = 26 2+6 Es decir tienen 26 aos la mayora de las personas que va a ese giInnasio. Media Geomtrica Es la raz n-sima del producto de los n datos. la media geomtrica es siempre menor o igual que la media aritmtica. Media Armnica Es el inverso de la media aritmtica de los inversos de los datos. Sus frmulas son: Para N datos: Para datos que se repiten: (fi es el nmero de veces que cada valor xi se repite) La media armnica es siempre menor o igual que la media geomtrica. Ejemplo: en los datos : 7 ; 8 ; 8 ; 9 ; 10; 11 La media aritmtica es: 5 6 3 = 8 .833 La media geomtrica es: 6J7.8.8.9.1O.11 = 8 .63 = 8 .63 14.7 MEDIDAS DE DISPERSIN Las medidas de tendencia central determinan el centro de los datos estadisticos. pero no nos indican nada acerca de la posicin respecto al centro. Por lo tanto se necesita una medida que nos indique el grado de dispersin o variacin respecto al centro con la finalidad de tener una comparacin y ampliar la descripcin de los datos. Las medidas de dispersin son: El rango. rango intercuartil. la varianza. la desviacin estndar y el coeficiente de variacin. En este curso solo veremos la varianza y la desviacin estndar.

Varianza y Desviacin estndar Definicin: La varianza es una medida que indica el grado de dispersin o variacin de los valores de una variable cuantitativa respecto a la media aritmtica. Si los valores de la variable tienden a acercarse alrededor de la media, la varianza es pequea. Si los valores de la variable tienden a estar lejos de la media, la varianza es grande. Definicin Matemtica La varianza es la media aritmtica de los cuadrados de las diferencias de los datos respecto a su media aritmtica. Sus unidades estn elevadas al cuadrado. Definicin Matemtica La desviacin estndar es la raz cuadrada de la varianza. La varianza calculada a partir de un conjunto de datos se denota s2 y la desviacin estndar es j;,2 = s Varianza para datos no agrupados Si xl X2 . , Xn son variables estadsticas cuantitativas y x es su media, entonces la varianza es : 2s n _ 2 L (Xi -X) i; l N aplicando propiedades de sumatorias. se obtiene: 2s n2 L Xi i;l2=X N Ejemplo: Si: {18, 19, 20, 16, 17, 22} son datos que represenlan las edades de los alumnos del CEPRE-UNl. La varianza y la desviacin estndar son: Resolucin nn n = 6, LXi = 112 . i=1 x = 18.6 : xt = 2114 1=1 Luego la varianza es: n 2 LXI s 2 = -i =- 1- -x-2 n 2114 _ 18 62 = 6,373 aos 8 La desviacin estndar es: S = .fs2 = J6,373 = 2,52 aos. Varianza para datos agrupados por Intervalos Si xl X2 . Xk. son las marcas de cIase de k intervalos, f1 . f2, . , fk, son las frecuencias absolutas de una variable X y x es la media, entonces la varianza s2 es: 2s= k L 2 f(xi -X) i=1 N Ejemplo: aplicando propiedadt:s de sumatorias, se obtiene: 2 s= k L fiX~ i=1 N -2 -X El siguiente cuadro representa el nmero de hijos de una urbanizacin A, se desea saber. cul es la varianza y desviacin estndar. [0,2) 1 15 15 15 [2,4) 3 12 36 108 [4,6) 5 7 35 175

[6,8) 7 1 7 49 [8, 10) 9 3 27 243 [10, 12] 11 2 22 242 40 142 832 k k 2 142 n = 40. k = 6 . L fx = 142. L fxj = 832 x = = 3 .55 40 =1i=1 hijos Luego la varianza es: K L fx,2 52 = = 1 -x- 2 = ~302 _ 3 ,552 = 8 .1975 hijos2 n La desviacin estndar es: s = j;,2 = J8.1975 = 2 .86 hijos. => J8.1975 = 2 .86 hijos 14.8 PROBLEMAS RESUELTOS 1. El ingreso percpita anual de un pas es de SI. 4000. El sector obrero que constituye el 60% de la poblacin recibe l/5 del ingreso total. Calcular el ingreso percpita del sector no obrero. Resolucin:

Potrebbero piacerti anche