Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
HISTORIA DE LA ESTADSTICA
Desde los comienzos de la civilizacin han existido formas sencillas de estadsticas, pues ya se utilizaban representaciones grficas y otros smbolos en pieles, rocas, palos de madera y paredes de cuevas para contar el nmero de personas, animales o cosas. Hacia el ao 3000 A.C. los babilonios usaban ya pequeas tablillas de arcilla para recopilar datos en tablas sobre la produccin agrcola y de los gneros vendidos o cambiados mediante trueque. Los egipcios analizaban los datos de la poblacin y la renta del pas mucho antes de construir las pirmides en el siglo XXXI a.C. Los libros bblicos de Nmeros y Crnicas incluyen, en algunas partes, trabajos de estadstica. El primero contiene dos censos de la poblacin de Israel y el segundo describe el bienestar material de las diversas tribus judas. En China existan registros numricos similares con anterioridad al ao 2000 A.C. Los griegos clsicos realizaban censos cuya informacin se utilizaba hacia el ao 594 A.C. para cobrar impuestos. El Imperio romano fue el primer gobierno que recopil una gran cantidad de datos sobre la poblacin, superficie y renta de todos los territorios bajo su control. Durante la edad media slo se realizaron algunos censos exhaustivos en Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer estudios minuciosos de las propiedades de la Iglesia en los aos 758 y 762 respectivamente. En nuestros das, la estadstica se ha convertido en un mtodo efectivo para describir con exactitud los valores de los datos econmicos, polticos, sociales, psicolgicos, biolgicos y fsicos, y sirve como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadstico no consiste ya slo en reunir y tabular los datos, sino sobre todo el proceso de interpretacin de esa informacin. El desarrollo de la teora de la probabilidad ha aumentado el alcance de las aplicaciones de la estadstica. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando determinadas distribuciones probabilsticas; los resultados de stas se pueden utilizar para analizar datos estadsticos. La probabilidad es til para comprobar la fiabilidad de las inferencias estadsticas y para predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadstico.
Definicin de ESTADSTICA
1. "Ciencia que se ocupa del estudio de fenmenos de tipo genrico, normalmente complejos y enmarcados en un universo variable, mediante el empleo de modelos de reduccin de la
1 Prof. Lic. Mara Elisa M. de Fernndez
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I informacin y de anlisis de validacin de los resultados en trminos de representatividad". La informacin puede ser numrica, alfabtica o simblica. Consta de las fases de recogida de informacin, de anlisis y de presentacin e interpretacin de los resultados y elaboracin de mtodos.
2. Estudia los mtodos cientficos para recoger, organizar, resumir y analizar datos, as como para sacar conclusiones vlidas y tomar decisiones razonables basadas en tales anlisis. La estadstica trata sobre la comprensin exacta y control del error estadstico, los grados conocidos de imprecisin en los procedimientos para reunir y procesar informacin. 3. Puede decirse que la Estadstica es la ciencia que se preocupa de la recoleccin de datos, su organizacin y anlisis, as como de las predicciones que, a partir de estos datos, pueden hacerse. Deriva del vocablo ESTADO. Los aspectos anteriores hacen que pueda hablarse de dos tipos de Estadstica: La Estadstica Descriptiva se ocupa de tomar los datos de un conjunto dado, organizarlos en tablas o representaciones grficas y del clculo de unos nmeros que nos informen de manera global del conjunto estudiado. La Estadstica Inferencial estudia cmo sacar conclusiones generales para toda la poblacin a partir del estudio de una muestra. La Inferencia estadstica persigue la obtencin de conclusiones sobre un gran nmero de datos, basndose en la observacin de una muestra obtenida de ellos; tambin intenta medir su significacin, es decir la confianza que nos merecen. La Inferencia Estadstica es la parte de la estadstica matemtica que se encarga del estudio de los mtodos para la obtencin del modelo de probabilidad (forma funcional y parmetros que determinan la funcin de distribucin) que sigue una variable aleatoria de una determinada poblacin, a travs de una muestra (parte de la poblacin) obtenida de la misma. Existen dos formas de hacer Inferencia Estadstica: La estimacin de parmetros Las pruebas de hiptesis POBLACIN Y MUESTRAS Una poblacin es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones. Debemos definir dicha poblacin de modo que
2 Prof. Lic. Mara Elisa M. de Fernndez
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I quede claro cundo un cierto elemento pertenece o no a la poblacin. Una muestra es una coleccin de algunos elementos de la poblacin, pero no de todos. Cualquier grupo que cumple con los requisitos de la poblacin, puede constituir una muestra, siempre y cuando el grupo sea una fraccin de la poblacin completa.
Una muestra representativa contiene las caractersticas relevantes de la poblacin en las mismas proporciones en que estn incluidas en tal poblacin.
La muestra es el subgrupo pequeo de la poblacin, que ser observada y se mide con intenciones de obtener conclusiones que puedan ser generalizadas a la poblacin. Es por ello que es sumamente importante definir bien la muestra de manera a que sea representativa de la poblacin y no llegar a generalizaciones inapropiadas. Como elegimos la muestra? Nunca se debe perder de vista que es la poblacin la que interesa. Ya que es difcil aplicar el estudio a la totalidad de la poblacin para obtener un parmetro (clculo resumido de mediciones realizadas en todos los sujetos en una poblacin), por lo que se utiliza la muestra de la cual se obtendr un estadstico (clculo resumido de mediciones en una muestra para estimar un parmetro). As el estadstico de una muestra nica es slo una estimacin del verdadero parmetro de la poblacin. Un aspecto importante es el tamao de la muestra. Este est relacionado directamente con la precisin de los resultados que se obtendrn. Cuanto mayor sea el tamao de la muestra mayor precisin tendrn los resultados, pues el tamao de la muestra estar mas cerca del tamao de la poblacin y cuanto mas pequea sea el tamao de la muestra, estar mas lejos del tamao de la poblacin por lo que los resultados sern menos precisos.
b) Variables ordinales (secuenciales) Implican orden entre sus categoras, pero no grados de distancia iguales entre ellas; estn referidas a un orden o jerarqua donde las categoras expresan una posicin de orden. Ejemplos: grado de instruccin (primaria, secundaria, universitaria), orden de mrito( primero, segundo, tercero),nivel socioeconmico, clase social (media, pobre, alta), lugar en la clase (primer, segundo, tercer..),los meses del ao( enero, febrero, marzo), abecedario (a ,b, c) etc. c) Variables de intervalo Tienen las caractersticas de las variables nominales y ordinales, pues suponen a la vez orden y grados de distancia iguales entre las diversas categoras, pero no tienen un origen natural, sino convencional, tiene un cero relativo. Mientras las variables nominales permiten algunos clculos, como diferencias en rango y rango promedio, tienen utilidad matemtica limitada. Las variables de intervalo poseen utilidad matemtica mucho mayor que las variables nominales. Ejemplos: coeficiente de inteligencia (60-69) Muy inferior; (70-85) Inferior;(95-105) Normal;(115-125) Superior;(135-160) Muy superior, temperatura, puntuacin obtenida en una escala (0-59) 1; (60-70) 2 etc.
d) Variables de razn
Comprenden a la vez a todos los casos anteriores, distincin, orden, distancia origen nico; el valor se expresa con un nmero real, tiene un cero absoluto. Ejemplos: edad (<1 ao),(1- 5 aos), peso, ingresos, nmero de hijos, produccin, accidentes de trnsito, etc.
a)
Variables cualitativas o estadsticas de atributos: Cualidad, caracterstica o atributo, carcter cualitativo; los datos se expresan mediante una palabra; no numrica. Son las variables que expresan distintas cualidades, caractersticas o modalidad. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales. Las variables cualitativas pueden ser dicotmicas cuando slo pueden tomar dos valores posibles como s y no, hombre y mujer o son politmicas cuando pueden adquirir tres o ms valores Dentro de ellas se puede distinguir: Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave. Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. Ej. Estado civil (soltero, casado, viudo), los colores (rojo, amarillo, verde, azul) , lugar de nacimiento, profesiones, causas de accidentes. Variables cuantitativas (numricas): Son las variables que se expresan mediante cantidades numricas. El dato puede resultar de la operacin de contar o medir. Ej.edad, nmero de hijos, ingresos, viviendas por centro
5 Prof. Lic. Mara Elisa M. de Fernndez
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I poblado, niveles de desempleo, produccin, utilidades por empresas, cualquier cosa que se pueda representar con nmeros,etc.
Las variables cuantitativas adems pueden ser: Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores especficos que la variable pueda asumir. El valor de la variable resulta de la operacin de contar y est representado por nmeros naturales (enteros positivos). Ejemplo: El nmero de hijos (1, 2, 3, 4, 5), nmero de accidentes por da, poblacin por distrito, habitaciones por viviendas, etc. Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores.,la variable puede medirse; su valor se obtiene por medicin o comparacin con una unidad o patrn de medida. Pueden tomar cualquier valor dentro de su rango o recorrido, o sea expresarse con cualquier nmero real. Por ejemplo el peso (2,3 kg, 2,4 kg, 2,5 kg, ...) o la altura (1,64 m, 1,65 m, 1,66 m, ...), que solamente est limitado por la precisin del aparato medidor, en teora permiten que siempre exista un valor entre dos cualesquiera. Ejemplos: rea de parcelas, ingresos monetarios, produccin de maz, peso, estatura, tiempo de servicios, horas trabajadas, niveles de empleo, etc.
REPRESENTACIONES GRFICAS
Otra forma de presentar la informacin es a travs de grficos: La finalidad de presentar los datos en forma de grficos es que es una forma simple de mostrar en imagen las proporciones de la distribucin de una variable, ayudan a: brindar una perspectiva global de las estadsticas descriptivas (% y promedios), discernir las formas de distribuciones de frecuencia, incluso alertan sobre fuentes de error potenciales que puedan influir en el anlisis realizado.
es un crculo que divide desde un punto central, donde cada rebanada representa la frecuencia proporcional y porcentual de determinada categora de una variable nominal/ordinal. Se construye tomando ngulos proporcionales a las frecuencias para cada una de las clases. Es especialmente til para mostrar equidad o igualdad.
1. Comparar magnitudes entre varias categoras o 2. La evolucin en el tiempo (el cambio) de una determinada magnitud. 3. La comparacin de la evolucin en el tiempo de varias categoras, se usan tambin como combinacin de las dos utilidades anteriores.
cantidad de personas de un sexo supervivientes a una edad determinada y hacia la izquierda el equivalente del sexo opuesto.
Pictricos
Se denominan as cuando las barras estn constituidas por la repeticin de una serie de smbolos que tpicamente representan la naturaleza de los datos. Por ejemplo una serie de motocicletas o coches uno detrs de otro para representar las ventas comparativas de motos y coches. Los smbolos pueden ser todos del mismo tamao o estar distorsionados para ajustarse a la longitud requerida de la barra.
Grficos de Lneas
Los grficos de lneas resultan tambin tiles, sobre todo cuando interesa estudiar tendencias a lo largo del tiempo. No son ms que una serie de puntos conectados entre s mediante rectas, donde cada punto puede representar distintas cosas segn lo que nos interese en cada momento (el valor medio de una variable, porcentaje de casos en una categora, el valor mximo en cada grupo, etc).
DISTRIBUCIONES DE FRECUENCIAS
Una de las finalidades de la estadstica descriptiva es resumir gran cantidad de informacin en pocos valores. La distribucin de frecuencias consiste en un agrupamiento de datos en categoras (o clases) que muestren el nmero de observaciones registradas en cada categora. La poblacin o sucesos elementales posibles, tambin llamados unidades elementales, y que se estn estudiando, poseen ciertos atributos o caractersticas comunes que son de particular inters para los investigadores, Por ejemplo, dado un grupo de estudiantes, el atributo que se va a estudiar puede ser la calificacin obtenida por cada estudiante en un examen, o su situacin acadmica en cuanto aprobado o aplazado. Es por ello que deseamos saber la cantidad de elementos (objetos, personas) que tienen ciertos atributos, esto se logra a travs de la distribucin de frecuencia, que es una lista de todas las calificaciones observadas de una variable y la frecuencia (f) de cada puntuacin (o categora). Por tanto permite al investigador sealar cun a menudo ocurre cada valor de la variable. Para indicar la frecuencia se utilizan tablas que sumarizan la informacin generalmente en trminos de frecuencia absoluta y de frecuencia relativa (porciento o proporcin) de casos que corresponden a cada categora. En la tabla slo es necesario presentar las categoras y la frecuencia absoluta (cantidad de sujetos) o relativa (proporcin o porcentaje) de esas categoras. Los pasos previos para hacer una distribucin de frecuencia son obviamente la recoleccin, y el conteo de las observaciones (datos). La frecuencia absoluta es el nmero de observaciones que la variable toma en cada clase. Dicho de otra manera, la frecuencia absoluta de una clase (siendo k el nmero de categoras de la variable) es el nmero de observaciones que presentan una modalidad perteneciente a esa variable. Claramente puede verse que las frecuencias son nmeros no negativos. Adems, la suma de las frecuencias absolutas es el nmero total N de observaciones. La frecuencia relativa es la proporcin del valor de la frecuencia absoluta de cada clase con relacin al total de las observaciones de la variable. Es el cociente, entre las frecuencias absolutas de dicha clase y el nmero total de observaciones.
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I Se clasifica tambin la informacin de acuerdo a caractersticas cualitativas, como raza, religin y sexo, que no entran de manera natural en clasificaciones numricas. Como clases de atributos cuantitativos, stas deben ser completamente inclusivas y mutuamente exclusivas.
La categora "otros" se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificacin cuantitativa no estn limitados. Los esquemas de clasificacin pueden ser tanto cuantitativos como cualitativos y tanto discretos como continuos. Las clases discretas son entidades separadas que no pasan de una clase discreta a otra sin que haya un rompimiento. Los datos discretos son aquellos que pueden tomar slo un nmero limitado de valores.
Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican mediciones numricas. Los datos continuos pueden expresarse con nmeros fraccionarios o con enteros.
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I Nmero de intervalos k =n , donde n es el nmero de datos Frmula de Sturges: nmero de intervalos k =1+3.3 log n, donde n es el nmero de datos. Un criterio para determinar el nmero de intervalos o clases es el propuesto por Ryan en 1982 presentado en la siguiente tabla:
TABLA DE RYAN
POLGONOS DE FRECUENCIAS
Son GRFICOS que se utilizan para representar distribuciones tanto de frecuencias simples como relativas. Para construir un polgono de frecuencias sealamos stas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuacin, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una lnea recta para formar un polgono. Se aaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polgono alcance el eje horizontal en ambos extremos de la distribucin. Un polgono de frecuencias es slo una lnea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de lneas verticales desde los lmites de clase y luego conectando tales lneas con rectas horizontales a la altura de los puntos medios del polgono. Un polgono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del nmero real de puntos, se conoce como polgono de frecuencias relativas. Este polgono tiene la misma forma que el polgono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical.
Histograma de Frecuencias
Este grfico se usa para representar una distribucin de frecuencias de una variable cuantitativa continua. Habitualmente se representa la frecuencia observada en el eje Y, y en el eje X la variable. La escala del eje correspondiente a la variable se rotula con los lmites inferiores de notacin de las clases consideradas y se agrega al final el que le correspondera a una clase subsiguiente inexistente. En este caso, las frecuencias deben resultar proporcionales no a la altura de las barras, sino al rea de las mismas, lo que significa que la obtencin de las alturas de las barras resulta un poco ms compleja que en los grficos anteriores. Adems, las barras van contiguas y no separadas, por la naturaleza continua de la variable de clasificacin Para lograr la proporcionalidad entre la frecuencia y el rea de la barra que esta representa el procedimiento es el siguiente: sabemos que el rea de un rectngulo es el producto de la base por la altura y que la base de una barra en el grfico es, precisamente, la amplitud del intervalo de clase, luego la formulacin de esa 'proporcionalidad' sera: Frecuencia observada = amplitud del intervalo* altura de la barra Conocemos la frecuencia observada y la amplitud de cada uno de los intervalos, por tanto, para calcular las alturas de las barras slo se tendra que despejar en la frmula correspondiente, lo que quedara: Altura de la barra = frecuencia observada / amplitud del intervalo Debido a la forma de obtencin de esas alturas, el eje de las frecuencias debe rotularse como nmero de individuos por unidad de medida de la variable en cuestin, por ejemplo: 'defunciones por ao de edad'; 'nmero de individuos por kg de peso; etc. El procedimiento anterior es el general, pero sucede, en el caso particular de que las amplitudes de todos los intervalos de clase sean iguales, no es estrictamente necesario realizar estos clculos: sera dividir todas las frecuencias por una constante y eso no alterara el grfico, pues se mantendra la misma relacin de proporcionalidad entre las frecuencias. El Histograma es especialmente til cuando se tiene un amplio nmero de datos que es preciso organizar, para analizar ms detalladamente o tomar decisiones sobre la base de ellos. Es un medio eficaz para transmitir a otras personas informacin sobre un proceso de forma precisa e inteligible.
FACULTAD DE CIENCIAS EXACTAS Y NATURALES PROBABILIDAD Y ESTADISTICA I Permite la comparacin de los resultados de un proceso con las especificaciones previamente establecidas para el mismo. En este caso, mediante el Histograma puede determinarse en qu grado el proceso est produciendo buenos resultados y hasta qu punto existen desviaciones respecto a los lmites fijados en las especificaciones. Proporciona, mediante el estudio de la distribucin de los datos, un excelente punto de partida para generar hiptesis acerca de un funcionamiento insatisfactorio.
OJIVAS
Una distribucin de frecuencias acumuladas nos permite ver cuntas observaciones estn por encima de ciertos valores, en lugar de hacer un mero registro del nmero de elementos que hay dentro de los intervalos. La grfica de una distribucin de frecuencias acumuladas se conoce como ojiva. En ocasiones, la informacin que utilizamos se presenta en trminos de frecuencias acumuladas "mayores que". La ojiva adecuada para tal informacin tendra una inclinacin hacia abajo y hacia la derecha, en lugar de tener una inclinacin hacia arriba y a la derecha. Podemos construir una ojiva de una distribucin de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribucin de frecuencias absolutas. Slo habr un cambio: la escala del eje vertical. Una grfica similar al polgono de frecuencias es la ojiva, pero sta se obtiene de aplicar parcialmente la misma tcnica a una distribucin acumulativa y de igual manera que stas, existen las ojivas mayores que y las ojivas menores que. Existen dos diferencias fundamentales entre las ojivas y los polgonos de frecuencias (y por esto la aplicacin de la tcnica es parcial): Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan los lmites o fronteras de clase. Para el caso de la ojiva mayor que es el lmite inferior o real inferior; para la ojiva menor que, el lmite real superior o lmite superior. Las siguientes son ejemplos de ojivas, a la izquierda la mayor que, a la derecha la menor que: