Sei sulla pagina 1di 6

PROBABILIDAD Y ESTADICTICA

Estadstica rama de las matemticas que se ocupa de reunir, organizar y analizar datos numricos y que ayuda a resolver problemas como el diseo de experimentos y la toma de decisiones. Muestreo en estadstica, proceso por el cual se seleccionan los individuos que formarn una muestra. Para que se puedan obtener conclusiones fiables para la poblacin a partir de la muestra, es importante tanto su tamao como el modo en que han sido seleccionados los individuos que la componen. El tamao de la muestra depende de la precisin que se quiera conseguir en la estimacin que se realice a partir de ella. Para su determinacin se requieren tcnicas estadsticas superiores, pero resulta sorprendente cmo, con muestras notablemente pequeas, se pueden conseguir resultados suficientemente precisos. Por ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchsima precisin los resultados de unas votaciones en las que participarn decenas de millones de votantes. Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar qu individuos de entre toda la poblacin forman parte de la muestra. Si se procede como si de un sorteo se tratara, eligiendo directamente de la poblacin sin ningn otro condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio. Cuando la poblacin se puede subdividir en clases (estratos) con caractersticas especiales, se puede muestrear de modo que el nmero de individuos de cada estrato en la muestra mantenga la proporcin que exista en la poblacin. Una vez fijado el nmero que corresponde a cada estrato, los individuos se designan aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignacin proporcional. Las inferencias realizadas mediante muestras seleccionadas aleatoriamente estn sujetas a errores, llamados errores de muestreo, que estn controlados. Si la muestra est mal elegida no es significativa se producen errores sistemticos no controlados. Variable cada una de las letras que se utilizan en lgebra en expresiones algebraicas, polinomios y ecuaciones, para designar nmeros desconocidos. Vase Indeterminada. Tambin se llaman variables a las letras (x, y) que se relacionan mediante las funciones. Variable discreta Los distintos valores que puede tomar un carcter cuantitativo configuran una variable estadstica. La variable estatura, en cierta poblacin estadstica, toma valores en el intervalo 147-205; y la variable nmero de hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadstica como esta ltima es discreta, ya que slo admite valores aislados. Una variable estadstica es continua si admite todos los valores de un intervalo, como ocurre con la estatura. Variable continua Un carcter puede ser cuantitativo si es medible numricamente o cualitativo si no admite medicin numrica. El nmero de hermanos y la estatura son caracteres cuantitativos mientras que el sexo y el estado civil son caracteres cualitativos. Los distintos valores que puede tomar un carcter cuantitativo configuran una variable estadstica. La variable estatura, en cierta poblacin estadstica, toma valores en el intervalo 147-205; y la variable nmero de hermanos toma los valores 0, 1, 2, 3, 4, 5, 6, 7 y 8. Una variable estadstica como esta ltima es discreta, ya que slo admite valores aislados. Una variable estadstica es continua si admite todos los valores de un intervalo, como ocurre con la estatura. Muestra de poblacin seleccin de un conjunto de individuos representativos de la totalidad del universo objeto de estudio, reunidos como una representacin vlida y de inters para la investigacin de su comportamiento. Los criterios que se utilizan para la seleccin de muestras pretenden garantizar que el conjunto seleccionado represente con la mxima fidelidad a la totalidad de la que se ha extrado, as como hacer posible la medicin de su grado de probabilidad. La muestra tiene que estar protegida contra el riesgo de resultar sesgada, manipulada u orientada durante el proceso de seleccin, con la finalidad de proporcionar una base vlida a la que se pueda aplicar la teora de la distribucin estadstica. Se distinguen varios tipos de muestras: la muestra simple, en la que cada individuo del universo considerado tiene las mismas probabilidades de resultar elegido; la muestra estratificada, si la seleccin se realiza sobre grupos o estratos diferentes; y, finalmente, la muestra por agrupamientos, que se basa en los segmentos o asociaciones organizadas dentro del universo considerado. ESTADSTICA DESCRIPTIVA La estadstica descriptiva analiza, estudia y describe a la totalidad de individuos de una poblacin. Su finalidad es obtener informacin, analizarla, elaborarla y simplificarla lo necesario para que pueda ser interpretada cmoda y rpidamente y, por tanto, pueda utilizarse eficazmente para el fin que se desee. El proceso que sigue la estadstica descriptiva para el estudio de una cierta poblacin consta de los siguientes pasos: Seleccin de caracteres dignos de ser estudiados. Mediante encuesta o medicin, obtencin del valor de cada individuo en los caracteres seleccionados. Elaboracin de tablas de frecuencias, mediante la adecuada clasificacin de los individuos dentro de cada carcter. Representacin grfica de los resultados (elaboracin de grficas estadsticas). Obtencin de parmetros estadsticos, nmeros que sintetizan los aspectos ms relevantes de una distribucin estadstica. ESTADSTICA INFERENCIAL La estadstica descriptiva trabaja con todos los individuos de la poblacin. La estadstica inferencial, sin embargo, trabaja con muestras, subconjuntos formados por algunos individuos de la poblacin. A partir del estudio de la muestra se pretende inferir aspectos relevantes de toda la poblacin. Cmo se selecciona la muestra, cmo se realiza la inferencia, y qu grado de confianza se puede tener en ella son aspectos fundamentales de la estadstica inferencial, para cuyo estudio se requiere un alto nivel de conocimientos de estadstica, probabilidad y matemticas. Estudio Estadstico La materia prima de la estadstica consiste en conjuntos de nmeros obtenidos al contar o medir elementos. Al recopilar datos estadsticos se ha de tener especial cuidado para garantizar que la informacin sea completa y correcta. El primer problema para los estadsticos reside en determinar qu informacin y en que cantidad se ha de reunir. En realidad, la dificultad al compilar un censo est en obtener el nmero de habitantes de forma completa y exacta; de la misma manera que un fsico que quiere contar el nmero de colisiones

por segundo entre las molculas de un gas debe empezar determinando con precisin la naturaleza de los objetos a contar. Los estadsticos se enfrentan a un complejo problema cuando, por ejemplo, toman una muestra para un sondeo de opinin o una encuesta electoral. El seleccionar una muestra capaz de representar con exactitud las preferencias del total de la poblacin no es tarea fcil. Para establecer una ley fsica, biolgica o social, el estadstico debe comenzar con un conjunto de datos y modificarlo basndose en la experiencia. Por ejemplo, en los primeros estudios sobre crecimiento de la poblacin, los cambios en el nmero de habitantes se predecan calculando la diferencia entre el nmero de nacimientos y el de fallecimientos en un determinado lapso. Los expertos en estudios de poblacin comprobaron que la tasa de crecimiento depende slo del nmero de nacimientos, sin que el nmero de defunciones tenga importancia. Por tanto, el futuro crecimiento de la poblacin se empez a calcular basndose en el nmero anual de nacimientos por cada 1.000 habitantes. Sin embargo, pronto se dieron cuenta que las predicciones obtenidas utilizando este mtodo no daban resultados correctos. Los estadsticos comprobaron que hay otros factores que limitan el crecimiento de la poblacin. Dado que el nmero de posibles nacimientos depende del nmero de mujeres, y no del total de la poblacin, y dado que las mujeres slo tienen hijos durante parte de su vida, el dato ms importante que se ha de utilizar para predecir la poblacin es el nmero de nios nacidos vivos por cada 1.000 mujeres en edad de procrear. El valor obtenido utilizando este dato mejora al combinarlo con el dato del porcentaje de mujeres sin descendencia. Por tanto, la diferencia entre nacimientos y fallecimientos slo es til para indicar el crecimiento de poblacin en un determinado periodo de tiempo del pasado, el nmero de nacimientos por cada 1.000 habitantes slo expresa la tasa de crecimiento en el mismo periodo, y slo el nmero de nacimientos por cada 1.000 mujeres en edad de procrear sirve para predecir el nmero de habitantes en el futuro. Media nmero calculado mediante ciertas operaciones a partir de los elementos de un conjunto de nmeros, x1, x2,,xn, y que sirve para representar a ste. Hay distintos tipos de medias: media aritmtica, media geomtrica y media armnica. La media aritmtica es el resultado de sumar todos los elementos del conjunto y dividir por el nmero de ellos:

La media geomtrica es el resultado de multiplicar todos los elementos y extraer la raz n-sima del producto:

La media armnica es el inverso de la media aritmtica de los inversos de los nmeros que intervienen:

Por ejemplo, para el conjunto de valores 4, 6, 9:

En estadstica, la media es una medida de centralizacin. Se llama media de una distribucin estadstica a la media aritmtica de los valores de los distintos individuos que la componen. Mediana en estadstica, una de las medidas de centralizacin. Colocando todos los valores en orden creciente, la mediana es aqul que ocupa la posicin central. En geometra, cada uno de los tres segmentos rectilneos que unen un vrtice de un tringulo con el punto medio del lado opuesto. Moda (matemticas) en estadstica, el valor que aparece con ms frecuencia en un conjunto dado de nmeros. Es una de las medidas de centralizacin. En el conjunto {3,4,5,6,6,7,7,7,10,13} la moda es 7. Si son dos los nmeros que se repiten con la misma frecuencia, el conjunto tiene dos modas. Otros conjuntos no tienen moda. Distribucin de Frecuencias: tabla de datos, referentes a una variable en cuestin, en la que se exponen varias categoras de la misma, junto con sus frecuencias o nmero de veces que se repite en la muestra (puede expresarse tambin en porcentaje). La tabla puede tener diferentes formatos y es llamada tabla de frecuencias. Cuando se comparan la frecuencia de dos variables, se compone una tabla de contingencia, en la cual una variable ocupa las filas y la otra las columnas. Ejemplo de una tabla de frecuencias simple de la variable COMA, en sus categoras: Ausente y Presente. (SPSS).

Grfico de barra

grfico de pastel

Si se unen los puntos medios de la base superior de los rectngulos se obtiene el polgono de frecuencias. Los histogramas se utilizan para representar tablas de frecuencias con datos agrupados en intervalos. Si los intervalos son todos iguales, cada uno de ellos es la base de un rectngulo cuya altura es proporcional a la frecuencia correspondiente. El histograma Medidas de dispersin parmetros estadsticos que miden cmo de diseminados se encuentran los datos de una distribucin. Los ms utilizados se refieren al grado de lejana de los datos respecto a la media y son la desviacin media, la varianza, la desviacin tpica y el coeficiente de variacin. La desviacin media, D.m., es un promedio de los valores absolutos de las desviaciones, |xi - |, de cada elemento, xi, de la distribucin respecto a su media, :

Por ejemplo, en la distribucin 4, 6, 6, 7, 9, 11, 13, cuya media es 8, la desviacin media es:

La varianza, V, es el promedio de los cuadrados de las desviaciones, (xi - )2, de cada elemento, xi, respecto a la media, :

La frmula anterior es equivalente a esta otra:

que resulta ms cmoda de aplicar, sobre todo cuando la media, , no es un nmero entero. En la distribucin 4, 6, 6, 7, 9, 11, 13, de media 8, la varianza es:

Aplicando la segunda frmula se obtiene, obviamente, el mismo resultado:

La desviacin tpica o desviacin estndar es la raz cuadrada de la varianza:

La razn de ser de este parmetro es conseguir que la medida de dispersin se exprese en las mismas unidades que los datos a los que se refiere. Por ejemplo, en una distribucin de estaturas en la que los datos estn dados en centmetros (cm), la media viene dada en centmetros, pero la varianza en centmetros cuadrados (cm2). Para evitar este inconveniente se calcula su raz cuadrada, obtenindose as la desviacin tpica en centmetros. El par de parmetros formado por la media y la desviacin tpica (, ) aporta una informacin suficientemente buena sobre la forma de la distribucin. El coeficiente de variacin, C.V., es el cociente entre la desviacin tpica y la media de la distribucin:

Este parmetro sirve para relativizar el valor de la desviacin tpica y as poder comparar la dispersin de dos poblaciones estadsticas con gamas de valores muy discretas. Por ejemplo, si en una compaa mexicana los salarios de los empleados tienen una media 1 = 7.000 pesos y una desviacin tpica 1 = 500 pesos y en otra empresa espaola la media de los salarios es 2 = 200.000 pesetas y la desviacin tpica 2 = 40.000 pesetas, para comparar la dispersin de salarios se recurre al coeficiente de variacin: C.V.1 = 500/7.000 = 0,07 C.V.2 = 40.000/200.000 = 0,2 Se aprecia as que en la primera compaa los salarios tienen menor dispersin que en la segunda. Otras medidas de dispersin son el recorrido y el recorrido intercuartlico. El recorrido es la diferencia entre los valores mayor y menor de la distribucin. Indica, pues, la longitud del tramo en el que se hallan los datos. Tambin se llama rango. El recorrido intercuartlico es la diferencia, Q3 - Q1 , entre el cuartil superior, Q3, y el cuartil inferior, Q1. El par de parmetros formado por la mediana, Me, y el recorrido intercuartlico, Q3 - Q1, proporciona una buena informacin sobre la forma de la distribucin. Medidas de centralizacin parmetros estadsticos que marcan, bajo distintos criterios, los valores en torno a los cuales se disponen los datos de una distribucin. Tambin se llaman medidas de tendencia central, pues entorno a ellas se disponen los elementos de las distribuciones. Las ms importantes son la media, la mediana y la moda. La media aritmtica, promedio o, simplemente, media, de los valores x1, x2,, xn, se designa por y se obtiene as:

Por ejemplo, si las edades de 7 nios son 4, 6, 6, 7, 9, 11 y 13, la media es:

La mediana, Me, es un nmero que supera a la mitad de los valores de la distribucin y es superada por la otra mitad. Si el nmero de trminos de la distribucin es impar, la mediana es el valor del individuo que ocupa el lugar central cuando los datos estn ordenados de menor a mayor. Por ejemplo, en la distribucin de edades 4, 6, 6, 7, 9, 11, 13, la mediana es Me = 7, pues hay tres datos menores que 7 y tres mayores que 7. Si el nmero de trminos de la distribucin es par, la mediana es el valor medio de los datos centrales. As, en la distribucin 4, 6, 6, 7, 8, 9, 11, 13, los valores 7 y 8 son los centrales. La mediana es Me = 7,5. La moda, Mo, de una distribucin estadstica es el valor que ms se repite. Una distribucin puede tener ms de una moda o no tener ninguna. En la distribucin 4, 6, 6, 7, 9, 11, 13, la moda es Mo = 6. Grfico Lineal de Perfil en el siglo XIX, el matemtico alemn Johann Benedict Listing demostr que un grfico lineal con 2n vrtices impares se puede dibujar utilizando n trazos continuos, si cada uno de ellos comienza y termina en un vrtice impar.

Frecuencias Matemticas Frecuencia (matemticas), en estadstica, el nmero de veces que ocurre un cierto suceso. Tambin se denomina frecuencia absoluta, en contraposicin con la frecuencia relativa, que consiste en la proporcin de veces que ocurre dicho suceso con relacin al nmero de veces que podra haber ocurrido. Por ejemplo, si una experiencia aleatoria se repite 80 veces y un cierto suceso, S, ocurre 36 veces, decimos que su frecuencia ha sido 36, y su frecuencia relativa 36/80 = 0,45: f(S) = 36 fr(S) =36/80 = 0,45 La frecuencia relativa tambin se expresa, en ocasiones, en tantos por ciento (45%). FRECUENCIAS ACUMULADAS En una tabla de frecuencias, cuando la variable es cuantitativa y, por tanto, los distintos valores de la tabla aparecen ordenados de menor a mayor, se llama frecuencia acumulada de un valor de la variable a la suma de su frecuencia con las frecuencias de los valores anteriores. Por ejemplo, si al lanzar un dado 100 veces se obtienen los siguientes resultados: f(1) = 16 f(2) = 13 f(3) = 21 f(4) = 19 f(5) = 14 f(6) = 17 las frecuencias acumuladas son: fa(1) = 16 fa(2) = 16 + 13 = 29 fa(3) = 29 + 21 = 50 fa(4) = 50 + 19 = 69 fa(5) = 69 + 14 = 83 fa(6) = 83 + 17 = 100 Estos resultados se aprecian mejor en una tabla:

Las frecuencias relativas acumuladas son las frecuencias acumuladas divididas por el nmero total de individuos. Diagramas de Tallo y Hojas Una tcnica de recuento y ordenacin de datos la constituye los diagramas de Tallos y Hojas. Supongamos la siguiente distribucin de frecuencias 36 25 37 24 39 20 36 45 31 31

39 24 29 23 41 40 33 24 34 40 que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuacin efectuamos un recuento y vamos aadiendo cada hoja a su tallo Por ltimo reordenamos las hojas y hemos terminado el diagrama Diagrama de Cajas y Bigotes Teniendo en cuenta que con las representaciones anteriores los datos estn ordenados, podemos aprovechar estas disposiciones para representar los diagramas de Cajas y Bigotes (boxplots o box and whiskers). Estos diagramas se basan en los siguientes parmetros de la distribucin: valor mnimo, los cuartiles Q 1, Q 2 y Q 3 y el valor mximo. Para la primera distribucin

Su diagrama de Cajas y Bigotes es Intervalo de clase En la tabla adjunta se muestra cmo se han repartido 1.200 calificaciones entre 0 y 10, en 10 intervalos iguales columna (a). Las marcas de clase (centros de los intervalos) estn en la columna (b), las frecuencias en la (c), las frecuencias relativas en la (d), las frecuencias acumuladas en la (e) y las frecuencias acumuladas relativas en la columna (f). (a) INTERVALO 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 (b) MARCA DE CLASE 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 8,5 9,5 (c) FRECUENCIA 20 15 18 25 44 88 222 335 218 215 (d) FRECUENCIA RELATIVA 0,017 0,012 0,015 0,021 0,037 0,073 0,185 0,279 0,182 0,179 (e) FRECUENCIA ACUMULADA 20 35 53 78 122 210 432 767 985 1.200 (f) FRECUENCIA ACUMULADA RELATIVA 0,017 0,029 0,044 0,065 0,102 0,175 0,360 0,639 0,821 1,000

1.200 CALIFICACIONES DISTRIBUIDAS EN 10 INTERVALOS Rango y amplitud El nmero de clases y la amplitud de los intervalos los fija el investigador de acuerdo con el conocimiento que posea de la poblacin, la necesidad de hacer comparacin con otras investigaciones y la presentacin de la informacin. Sin embargo, se recomienda que la informacin no sea demasiado compacta, lo cual le restara precisin, ni demasiado dispersa, ya que no se tendra claridad. La amplitud debe ser igual para todos los intervalos y, en lo posible, no se debe trabajar con clases abiertas.

Potrebbero piacerti anche