Sei sulla pagina 1di 12

Departamento de ingeniera elctrica y electrnica Probabilidad y Estadstica

Unidad No. 1

Tema: Estadstica descriptiva

Tarea: Resumen de la unidad No.1

Estadstica descriptiva
La estadstica descriptiva es una parte de la estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la poblacin las primeras conclusiones obtenidas tras un anlisis descriptivo, su poder inferencial es mnimo y debera evitarse tal proceder. Otras ramas de la estadstica se centran en el contraste de hiptesis y su generalizacin a la poblacin. POBLACIN Y MUESTRA ALEATORIA Una poblacin en estadstica es el conjunto de todas las observaciones en las que estamos interesados. Se llama tamao de la poblacin al nmero de individuos que la componen, siendo cada posible observacin un individuo; as pues, las poblaciones pueden ser finitas e infinitas. Existen distintos tipos de poblaciones que son:

Poblacin base: es el grupo de personas designadas por caractersticas personales, geogrficas o temporales, que son elegibles para participar en el estudio. Poblacin muestreada: es la poblacin base con criterios de viabilidad o posibilidad de realizarse el muestreo. Muestra estudiada: es el grupo de sujetos en el que se recogen los datos y se realizan las observaciones, siendo realmente un subgrupo de la poblacin muestreada y accesible. El nmero de muestras que se puede obtener de una poblacin es una o mayor de una.

Poblacin diana: es el grupo de personas a la que va proyectado dicho estudio, la clasificacin caracterstica de los mismos, lo cual lo hace modelo de estudio para el proyecto establecido.

Cada observacin en una poblacin es un valor de una variable aleatoria X con una funcin de probabilidad o densidad determinada f(x) Normalmente, se denomina a las poblaciones con el nombre de la distribucin de la variable; es decir, hablaremos de poblaciones normales, binomiales, etc. Una muestra aleatoria de tamao n es un conjunto de n individuos tomado de tal manera que cada subconjunto de tamao n de la poblacin tenga la misma probabilidad de ser elegido como muestra; es decir, si la poblacin tiene tamao N, cada una de las combinaciones posibles de n elementos debe ser equiprobable.

Los sistemas de muestreo se basan normalmente en la asignacin de un nmero a cada uno de los individuos de la poblacin y la posterior obtencin de una muestra de n nmeros aleatorios que se obtendr por sorteo utilizando bolas numeradas, ordenadores, etc.

OBTENCIN DE DATOS ESTADSTICOS Para la recoleccin de datos primarios en una investigacin cientfica se procede bsicamente por observacin, por encuestas o entrevistas a los sujetos de estudio, y por experimentacin o un registro administrativo.

Medidas de Centralizacin Nos dan un centro de la distribucin de frecuencias, es un valor que se puede tomar como representativo de todos los datos. Hay diferentes modos para definir el "centro" de las observaciones en un conjunto de datos. Por orden de importancia, son: u MEDIA : (media aritmtica o simplemente media). es el promedio aritmtico de las observaciones, es decir, el cociente entre la suma de todos los datos y el numero de ellos. Si xi es el valor de la variable y ni su frecuencia, tenemos que:

Si los datos estn agrupados utilizamos las marcas de clase, es decir ci en vez de xi.

u MEDIANA (Me):es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que el 50% de estas son menores que la mediana y el otro 50% son mayores. Si el nmero de datos es impar la mediana ser el valor central, si es par tomaremos como mediana la media aritmtica de los dos valores centrales.

u MODA (M0): es el valor de la variable que ms veces se repite, es decir, aquella cuya frecuencia absoluta es mayor. No tiene porque ser nica.

Medidas de Dispersin Las medidas de tendencia central ttienen como objetivo el sintetizar los datos en un valor representativo, las medidas de dispersin nos dice hasta que punto estas medidas de tendencia central son representativas como sntesis de la informacin. Las medidas de dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la distribucin respecto al valor central. Los distinguimos entre medidas de dispersin absolutas, que no son comparables entre diferentes muestras y las relativas que nos permitirn comparar varias muestras.

MEDIDAS DE DISPERSIN ABSOLUTAS u VARIANZA ( s2 ): es el promedio del cuadrado de las distancias entre cada observacin y la media aritmtica del conjunto de observaciones.

Haciendo operaciones en la frmula anterior obtenemos otra frmula para calcular la varianza:

Si los datos estn agrupados utilizamos las marcas de clase en lugar de Xi. u DESVIACIN TPICA (S): La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersin la desviacin tpica que se define como la raz cuadrada positiva de la varianza

Para estimar la desviacin tpica de una poblacin a partir de los datos de una muestra se utiliza la frmula (cuasi desviacin tpica):

RECORRIDO O RANGO MUESTRAL (Re). Es la diferencia entre el valor de las observaciones mayor y el menor. Re = xmax - xmin

TABLA DE DISTRIBUCIN DE FRECUENCIAS

Cuantiles
Los cuantiles son valores de la distribucin que la dividen en partes iguales, es decir, en intervalos, que comprenden el mismo nmero de valores. Los ms usados son los cuartiles, los deciles y los percentiles.

u PERCENTILES: son 99 valores que dividen en cien partes iguales el conjunto de datos ordenados. Ejemplo, el percentil de orden 15 deja por debajo al 15% de las observaciones, y por encima queda el 85% u CUARTILES: son los tres valores que dividen al conjunto de datos ordenados en cuatro partes iguales, son un caso particular de los percentiles: - El primer cuartil Q 1 es el menor valor que es mayor que una cuarta parte de los datos - El segundo cuartil Q 2 (la mediana), es el menor valor que es mayor que la mitad de los datos - El tercer cuartil Q 3 es el menor valor que es mayor que tres cuartas partes de los datos u DECILES: son los nueve valores que dividen al conjunto de datos ordenados en diez partes iguales, son tambin un caso particular de los percentiles. Ejemplo: Dada la siguiente distribucin en el nmero de hijos (Xi) de cien familias, calcular sus cuartiles. xi 0 1 2 ni 14 10 15 26 4 5 20 15 n=100 Solucin: Ni 14 24 39 65 85 100

Primer cuartil:

Segundo cuartil:

Tercer cuartil:

Grficos estadsticos Los grficos son medios popularizados y a menudo los ms convenientes para presentar datos, se emplean para tener una representacin visual de la totalidad de la informacin. Los grficos estadsticos presentan los datos en forma de dibujo de tal modo que se pueda percibir fcilmente los hechos esenciales y compararlos con otros.

Tipos de grficos estadsticos

Barras

Lneas

Circulares

reas

Cartogramas

Mixtos

Histogramas

Otros

Dispersograma

Pictogramas

Cajas y alambres
El diagrama de caja es un grfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos. En un grfico que se suministra informacin sobre la mediana El cuartil Q1 y Q3, sobre la existencia de atpicos y la simetra de la distribucin. Es un poco confusa y mas cuando desconocemos o tenemos poco conocimiento de estos trminos pero en si el diagrama de caja es la representacin grfica de los cuartiles. Los diagramas de caja sirven para proporcionar una visin general de la simetra de la distribucin de los datos, si la media no est en el centro del rectngulo, la distribucin no es simtrica y tambin son tiles para ver la presencia de valores atpicos.

Ejemplo: El Q (2) = mediana = 150 Q (3)=190 Q (1)= 130

Diagrama de Tallo y hoja Una forma fcil de explicar el diagrama de tallo y hoja: Un diagrama donde cada valor de datos es dividido en una "hoja" (normalmente el ltimo dgito) y un "tallo" (los otros dgitos). Por ejemplo "32" sera dividido en "3" (tallo) y "2" (hoja). Los valores del "tallo" se escriben hacia abajo y los valores "hoja" van a la derecha (o izquierda) del los valores tallo. El "tallo" es usado para agrupar los puntajes y cada "hoja" indica los puntajes individuales dentro de cada grupo.

Un ejemplo visto en clase: De este conjunto de datos construiremos el diagrama de hoja y tallo. 76 87 97 101 105 110 115 118 120 121 123 131 133 133 134 135 135 141 142 143 145 146 148 149 149 150 150 151 153 154 154 156 157 157 158 158 158 158 160 160 160 163 163 165 167 167 168 169 170 171 171 172 174 174 175 176 178 180 180 181 181 183 184 186 190 193 194 196 199 199 200 201 207 208 218 221 228 229 237 245

Diagrama de Pareto
El diagrama de pareto hace que nos adentremos un poco en la historia se debe su nombre en honor del economista italiano Wilfredo Pareto.

Pero quien es este tipo? Que fue lo que hizo?, asiendo una breve consulta a monografias.com

Pareto fue un economista italiano, realiz un estudio sobre la riqueza y la pobreza Descubri que el 20% de las personas controlaba el 80% de la riqueza en Italia. Pareto observ muchas otras distribuciones similares en su estudio.

El Diagrama de Pareto consiste en un grfico de barras similar al histograma que se conjuga con una ojiva o curva de tipo creciente y que representa en forma decreciente el grado de importancia o peso que tienen los diferentes factores que afectan a un proceso, operacin o resultado.

Para qu sirve?

Al identificar y analizar un producto o servicio para mejorar la calidad. Cuando existe la necesidad de llamar la atencin a los problemas o causas de una forma sistemtica. Al analizar las diferentes agrupaciones de datos (ejemplo: por producto, por segmento del mercado, rea geogrfica, etc.) Al buscar las causas principales de los problemas y establecer la prioridad de las soluciones. Al evaluar los resultados de los cambios efectuados a un proceso (antes y despus). Cuando los datos puedan agruparse en categoras.