Apunte Estadistica Descriptiva

Apunte de clase Estadstica 2011
Estadstica descriptiva
1. Introduccin a la estadstica
1.1Conceptos bsicos
Se definen a continuacin las palabras bsicas del lenguaje estadstico Individuo: es cualquier elemento (acotado en un tiempo y en un espacio determinados, con alguna caracterstica comn observable o medible) que porte informacin sobre el fenmeno que se estudia. Por ejemplo un da, un animal, una semilla, una planta, una persona, una localidad. Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin sobre el fenmeno que se estudia. Por ejemplo das, animales, semillas, plantas, personas o localidades de una cierta regin. La poblacin puede ser: o Finita: est formada por una cantidad finita de elementos o individuos, pudiendo realizarse un enumeracin finita de los mismos. Por ejemplo: la cantidad de vacunos en una regin. o Infinita: no puede identificarse la cantidad de elementos de dicha poblacin. Por ejemplo, la cantidad de peces en un ro, las plantas de trigo de una parcela, etc. Dato: valor en particular observable o medible en un individuo de la poblacin. Variable: es una caracterstica, propiedad o atributo, con respecto a la cual los elementos de una poblacin difieren de alguna forma. La variable se analiza mediante observaciones o mediciones sobre los elementos de una poblacin obtenindose datos para cada individuo. Las variables pueden ser de dos tipos: o Variables cualitativas o atributos: no se pueden medir numricamente (por ejemplo: nacionalidad, color de la piel, sexo). Se llaman tambin variables categricas, pues su escala de medida es un conjunto de categoras. Entre ellas podemos distinguir al menos: Nominales: puede tomar un conjunto determinado de valores nominales. Por ejemplo, la orientacin de los vientos (que se podran considerar como Norte, Sur, Este, Oeste); el color del tegumento de las semillas, el sexo, etc. Ordinales: indican un determinado orden o grado de intensidad. Por ejemplo, el grado de ataque de una virosis vegetal que puede ser "severo", "moderado" o "leve". o Variables cuantitativas: tienen valor numrico el cual representa una magnitud y sus respectivas unidades de medicin. Por ejemplo medida de una cantidad fsica como longitud, masa, tiempo, energa, etc. Por su parte, las variables cuantitativas se pueden clasificar en: Discretas: slo pueden tomar valores enteros. En general las variables discretas surgen de conteos, como por ejemplo el nmero de das hasta la germinacin del 50% de las semillas de una bandeja, nmero de colonias de microorganismos sobre plantas enfermas, el nmero de frutos de un rbol, el nmero de mazorcas en plantas de maz, etc. Continuas: pueden tomar cualquier valor real en un intervalo, por ejemplo, las que surgen de mediciones como longitud, velocidad, temperatura, etc. Las variables tambin se pueden clasificar en: o Variables unidimensionales: slo recogen informacin sobre una caracterstica (por ejemplo: edad de los alumnos de una clase). o Variables bidimensionales: recogen informacin sobre dos caractersticas de la poblacin (por ejemplo: edad y altura de los alumnos de una clase). o Variables pluridimensionales: recogen informacin sobre tres o ms caractersticas (por ejemplo: edad, altura y peso de los alumnos de una clase).
T. Gibelli
-1-
Muestra: subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una ciudad, lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. Experimento o muestreo: es un procedimiento mediante el cual se puede obtener informacin acerca de una poblacin. El objetivo principal es el obtener informacin acerca de la poblacin bajo estudio, y a partir de ella obtener conclusiones. Para ello se recoge una muestra finita de la poblacin. El experimento puede ser: o Determinstico: si al realizarse bajo las mismas condiciones se obtiene invariablemente en mismo resultado o dato. o Probabilstico o Aleatorio: si al realizarse bajo las mismas condiciones se obtienen resultados o datos diferentes Fundamentos de la estadstica
1.2-
La estadstica es la parte de las matemticas encargada de la presentacin, anlisis e interpretacin de los datos de un experimento. La estadstica interviene en la investigacin a travs de la experimentacin. La investigacin contempla una serie de pasos: 1. Formulacin del Problema: precisar conceptos a utilizar, formulacin clara de preguntas, deteccin de limitaciones del problema, etc. 2. Diseo del Experimento: determinar tipo de muestreo y tamao de la muestra, elegir el mtodo de obtencin de un mximo de informacin minimizando costo y tiempo, etc. 3. Desarrollo del Experimento: recoleccin de datos. 4. Tabulacin y descripcin de resultados: construccin de tablas y grficos. 5. Inferencia Estadstica: formular conclusiones a partir de la muestra acerca de la poblacin bajo estudio. Normalmente la estadstica se divide en: ESTADSTICA DESCRIPTIVA: se encarga de la presentacin adecuada de la informacin (tablas, grficas, histogramas, etc.) ESTADSTICA INFERENCIAL: se especializa en la estimacin e inferencia de parmetros (promedio, desviacin estndar, etc.). A continuacin veremos las formas principales de resumir la informacin que proveen muestras de una poblacin (estadstica descriptiva). Luego (en prximas unidades) se ver cmo, a partir de los resmenes muestrales, se puede estimar o inferir acerca de los parmetros distribucionales (estadstica inferencial).
T. Gibelli
-2-
2. Resumen de la informacin Se analiza una variable X de una cierta poblacin y para ello se realiza un experimento y se toma una muestra de n individuos de esa poblacin. Los valores observados de dicha variable para cada individuo i lo notamos xi , con i = 1,2, , n . Como el nmero de observaciones que puede ser muy grande y su simple listado es de poca relevancia en el sentido interpretativo. Es por esto deseable presentar las observaciones en forma resumida. A los fines de ordenar, resumir y presentar la informacin, se utilizan tablas (de distribucin de frecuencias) y grficos. 2.1Distribucin de frecuencias
Supongamos que los valores observados de la variable X analizada, los agrupamos en clases: C j para j = 1,2, , k . Las clases pueden estar formadas por: o o Para variable discreta: se eligen los k valores distintos observados: x1 , x 2 ,..., x k . Para variable continua: se agrupar los valores registrados mediante un conjunto de intervalos (que formarn las clases). La determinacin de la cantidad y amplitud de los intervalos es arbitraria. Existen algunas sugerencias respecto a cmo obtener el nmero de intervalos: - por frmula k = log 2 (n + 1) . - por Regla de Sturgs: k = 1 + 3.3 log(n) . Una regla prctica para definir la amplitud de los intervalos consiste en calcular el rango de la variable tomando la diferencia entre el mayor y el menor valor y dividir el rango por la cantidad de intervalos que se quiere tomar. El resultado de ese cociente es la amplitud que tendr cada intervalo. Se considera para cada intervalo el punto medio que se denomina la marca de la clase, y se nota con X j para j = 1,2, , k (donde k es el nmero de intervalos
considerados). o Para variable cualitativa: los distintos atributos. Cuando la cantidad de clases, es excesiva, se procede agrupando los valores posibles de la variable, formando as los llamados Intervalos de Clase. Este procedimiento se utiliza para variables que son del tipo numrica; discretas y continuas. Se analizan las distintas frecuencias con que aparece cada clase C j con j = 1,2, , k en la muestra analizada. Podemos diferenciar: Frecuencia absoluta: es el nmero de veces que la clase de variable se repite en el conjunto de datos. Notamos con n j al nmero de veces que se observa la clase C j en la muestra. Frecuencia relativa: es la frecuencia absoluta dividida por el nmero total de muestras. Notamos f j a la frecuencia relativa de la clase C j . Entonces, f j =
nj n
, para j = 1,2, , k .
Cuando las clases C j para j = 1,2, , k se pueden ordenar (variables cuantitativas o cualitativas ordinales), se puede analizar la frecuencia acumulada: Frecuencia absoluta acumulada: se obtiene, para cada clase C j de la muestra (con
j = 1,2, , k ), sumando las frecuencias absolutas observadas para las clases menores incluyendo la de C j . La frecuencia absoluta acumulada de la clase categora C j se nota con
N j . Entonces: N j = n1 + n2 + + n j = i =1 ni .
j
T. Gibelli
-3-
Frecuencia relativa acumulada: se obtiene, para cada clase C j de la muestra (con
j = 1,2, , k ), sumando las frecuencias relativas observadas para las clases menores incluyendo la de C j . La frecuencia absoluta acumulada de la clase categora C j se nota con
F j . Entonces: F j = f1 + f 2 + + f j = i =1 f i .
j
La informacin podr resumirse en un tabla de frecuencia de la siguiente manera: Clases Simple Frecuencia absoluta Acumulada Simple Frecuencia relativa Acumulada
C1 C2 Ck
n1 n2 nk
N 1 = n1 N 2 = n1 + n2 N k = n1 + n2 + + n k = n
f1 = n1 / n f 2 = n2 / n f k = nk / n
F1 = f1 F2 = f1 + f 2 Fk = f 1 + f 2 + + f k = 1
Como las tablas difieren para cada tipo de variable (variables numricas, continuas o discretas, o bien, variables no numricas o de naturaleza categrica) daremos ejemplos por separado. Ejemplo 1.1: Variable discreta Un experimento consisti en contar el nmero de flores por planta de una muestra con n=50 plantas. Los valores resultantes del conteo fueron los siguientes:
Los datos as presentados son de difcil interpretacin, por lo que se pueden resumir en la siguiente tabla de distribucin de frecuencias:
Qu informacin se obtiene de la tabla de frecuencias as construida? Los valores 6, 7 y 8 de la variable nmero de flores por planta, fueron los que se observaron con mayor frecuencia, 9 plantas (18%) presentaron 6 flores, 8 plantas (16%) tuvieron 7 flores, 7 plantas tuvieron 8 flores; pocas fueron las plantas sin flores (2%); el 10% de las plantas tuvieron 2 o menos flores; el nmero mximo de flores por planta en esta experiencia fue de 10 y slo en el 6% de la muestra se registr este valor mximo.
T. Gibelli
-4-
Ejemplo 1.2: Variable continua Se toma una muestra de 100 espigas de trigo y en cada una de ellas se registra la longitud en cm. En este caso la variable X es longitud de espiga. Los resultados son los que se presentan a continuacin:
Aplicando la regla para calcular el nmero de intervalos se tiene que: log 2 (100 + 1) 7 . Para el clculo de la amplitud de los intervalos en este ejemplo se tiene: El recorrido es 16 - 6.3 = 9.7 Como el nmero de intervalos a tomar es 7, la amplitud resultante es 9.7/7 = 1.39. Para facilitar la construccin de la tabla se redondea de 1.39 a 1.4. Por lo tanto, los conjuntos de valores de 6.3 a 7.7 cm, 7.7 a 9.1,..., 14.7 a 16.1 cm, constituyen los 7 intervalos para agrupar los valores observados de la variable longitud de espiga. La tabla de distribucin de frecuencias es la siguiente:
Ejemplo 1.3: Variable cualitativa ordinal La calificacin de los consumidores para un nuevo producto en el mercado fue la siguiente, considerando una muestra de tamao 40 personas: muy bueno, 8 personas; bueno 15; regular 10; malo 4 y muy malo 3. Considerando la variable X: calificacin de los consumidores, la tabla de frecuencia ser: Calificacin ni Ni fi Fi Muy bueno Bueno Regular Malo Muy malo 8 15 10 4 3 8 23 33 37 40 0.200 0.375 0.250 0.100 0.075 0.200 0.575 0.825 0.925 1
T. Gibelli
-5-
Ejemplo 1.4: Variable cualitativa nominal En una cuidad balnearia de Argentina se recoge como dato la nacionalidad de los turistas que ingresan en el mes de Enero. Los datos pueden resumirse en la siguiente tabla de frecuencias: Nacionalidad ni fi Argentina 20 0.40 Boliviana 1 0.20 Brasilea 5 0.10 Venezolana 15 0.30 Total 50 1.00 En ese caso las frecuencias acumuladas no tienen sentido ya que las clases sern los distintos atributos, que no tienen un orden. 2.2Grficos
Grafico de barras: La informacin de una tabla de frecuencias tambin puede ser representada en un grfico de barras llamado histograma, disponiendo en el eje de las ordenas las frecuencias absolutas o relativas y en el eje de las abscisas los distintos valores que toma la variable. La grfica de las clases vs las frecuencias acumulas es conocida como ojiva. Ejemplo: histograma de distribucin de frecuencia del ejemplo 1.1:
Observacin: para datos agrupados, como dentro de cada intervalo existen varios valores de la variable, se construir una barra de altura igual a la frecuencia de dicho intervalo y ancho igual a la amplitud del mismo.
T. Gibelli
-6-
Polgono de frecuencias que se construye uniendo los puntos medios de los extremos superiores de las barras de un histograma por segmentos de recta. Ejemplo 1.5: histograma y polgono de frecuencias relativas del Ejemplo 1.2:
Diagrama de torta Consiste en distribuir las frecuencias relativas en el sector circular que corresponde a dicha proporcin. Se utiliza generalmente, para representar grficamente datos de variables cualitativas. Ejemplo 1.6: diagrama en torta del ejemplo 1.4
Diagrama de tallo y hoja Se utiliza para variables cuantitativas. Se presentan los datos empleando los dgitos que constituyen los valores observados. Cada dato observado se divide en dos partes: el tallo: el (los) dgito(s) principal(es) la hoja: los dgitos posteriores al principal. El diagrama se construye considerando todos los datos observados, ubicando los tallos a los largo del eje principal (primera columna), y luego en la fila de cada tallo, se ubican las todas las hojas (tantas como datos) correspondientes a ese tallo. Ejemplo 1.7: Consideremos los siguientes datos sobre puntajes obtenidos en un examen en un curso de 19 alumnos: 76 74 82 96 66 76 78 72 52 68 86 84 62 76 78 92 82 74 88 El diagrama de tallo y hoja considerando como dgito principal la decena es: 5 2 6 6 8 2 7 6 4 6 8 2 6 8 4 8 2 6 4 2 8 9 6 2 Puede observarse que los puntajes estn centrados en los 70 puntos.
T. Gibelli
-7-
3. Medidas de resumen de la informacin Consideraremos una muestra de tamao n , donde x1 , x 2 ,..., x n son los valores observados. Para datos agrupados en k clases notamos con: X i a la marca de la clase i-sima Los aspectos relevantes de una muestra son generalmente descriptos usando medidas de posicin y de dispersin. 3.1Medidas de posicin
ni a la frecuencia absoluta de la i-sima clase f i a la frecuencia relativa de la i-sima clase
Son aquellas medidas que nos ayudan a saber donde estn los datos. 3.1.1- Medidas de tendencia central Son funciones de los datos de una muestra que miden, segn diferentes criterios, el centro de la distribucin de frecuencias en la muestra. Las ms usadas para este fin son: Media: es el valor medio de los observados en la muestra. La notaremos X .
x
Para datos no agrupados: X =
k i =1
n
i
x1 + x 2 + + x n n X 1 n1 + X 2 n2 + + X k nk n
X
Para datos agrupados: X =
k
i =1
ni =
n
i
o X =
X
i =1
f i = X 1 f1 + X 2 f 2 + + X k f k
Observacin: La media aritmtica es nica y viene expresada en las mismas unidades que la variable. En su clculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna informacin (es el centro de gravedad de toda la distribucin). Sin embargo, presenta el problema de que su valor se puede ver muy influido por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anmalos podran condicionar en gran medida el valor de la media, perdiendo sta representatividad. Mediana: es el valor que ocupa la posicin central de un conjunto de observaciones ordenadas. El 50% de las observaciones son mayores que este valor y el otro 50% son menores. La notaremos Me . - Para datos no agrupados: si ubicamos los n valores observados ordenados, entonces: o Si n es impar: Me = x( n +1) / 2 (valor que est en el medio). o Si n es par: Me =
x n / 2 + x( n / 2 )+1
2
(valor promedio entre que los dos del medio)
Para datos agrupados: se determina el intervalo i-simo que contiene a la mediana, es decir, aquel en el cual se encuentra el 50% de la frecuencia. Luego:
n c N i 1 2 = L + c(0.5 Fi 1 ) Me = Li + i ni fi
donde:
T. Gibelli
-8-
o o o o o o
Li es el lmite inferior del intervalo que contiene a la mediana N i 1 es la frecuencia absoluta acumulada en la clase anterior i-sima ni es la frecuencia absoluta de la clase que contiene a la mediana Fi 1 es la frecuencia relativa acumulada en la clase anterior i-sima f i es la frecuencia relativa en la clase que contiene a la mediana c es el tamao del intervalo de clase.
Observacin: la mediana es la medida ms representativa en el caso de variables que solo admitan la escala ordinal. Es fcil de calcular. En la mediana solo influyen los valores centrales y es insensible a los valores extremos o atpicos como lo es la media (a esta propiedad se la conoce como robustez). En su determinacin no intervienen todos los valores de la variable. Moda: es el valor que ms se repite en la muestra (que ocurre con mayor frecuencia). La notaremos Mo . - Para datos no agrupados: Mo es el valor que tiene la mayor frecuencia absoluta - Para datos agrupados: Mo es la marca de clase que posee mayor frecuencia absoluta. Observacin: Pueden existir uno o ms valores modales. Su clculo es sencillo. Es de fcil interpretacin. Es la nica medida de posicin central que puede obtenerse en las variables de tipo cualitativo. En su determinacin no intervienen todos lo valores de la distribucin. Para distribuciones simtricas unimodales, la media, la mediana y la moda corresponden al mismo valor. Ejemplo 1.8: Tabla de frecuencia:
Clases 52.5 -57.5 57.5 - 62.5 62.5- 67.5 67.5 -72.5 72.5 - 77.5 77.5 - 82.5 82.5 - 87.5 87.5 - 92.5 92.5 - 97.5 Xi 55 60 65 70 75 80 85 90 95 Total ni 2 3 4 5 8 10 8 6 4 Ni 2 5 9 14 22 32 40 46 50 Xi*ni 110 180 260 350 600 800 680 540 380 3900
Las medidas de posicin son: media: X =
3900 = 78 50
50 5 22 2 = 79 mediana: Me = 77.5 + 10 moda: Mo = 80 (marca de clases del

sexto intervalo).
T. Gibelli
-9-
3.1.2- Medidas de posicin no centrales (cuantiles) Las medidas de posicin no centrales permiten conocer otros puntos caractersticos de la distribucin que no son los valores centrales. Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribucin en partes, de tal manera que cada una de ellas contiene el mismo nmero de frecuencias. Son valores de la variable caracterizados por superar a cierto porcentaje de observaciones en la poblacin (o muestra). Tenemos fundamentalmente a los percentiles y, asociados a ellos, los cuartiles y deciles. Percentiles: son 99 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados. Se denotan con: Pi para i = 1,2,...,99 . Para datos no agrupados: Pk (percentil de orden k) es primer valor xi observado, que deja por debajo el k% de la poblacin; es decir, el primer valor cuya frecuencia acumulada es
k k (es decir, Pk es el primero valor que verifica Pk > n ) 100 100 Para datos agrupados: se determina el intervalo i-simo donde se encuentra Pk (buscando
mayor o igual a n el que deja debajo de si al k% de las observaciones), luego,
k k c n N i 1 c Fi 1 100 = L + 100 Pk = Li + i ni fi
donde: o Li es el lmite inferior del intervalo que contiene al percentil o o o o o
N i 1 es la frecuencia absoluta acumulada en la clase anterior i-sima ni es la frecuencia absoluta de la clase que contiene al percentil Fi 1 es la frecuencia relativa acumulada en la clase anterior i-sima f i es la frecuencia relativa en la clase que contiene a la mediana c es el tamao del intervalo de clase.
Cuartiles: son 3 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados. Se denotan con: Q1 (deja a su izquierda el 25 % de los datos); Q2 (deja a su izquierda el 50% de los datos), y Q3 (deja a su izquierda el 75% de los datos). Observacin: El cuartil Q2 es igual a la mediana.
Deciles: son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Se denotan con: Di para i = 1,2,...,9
Ejemplo 1.9: Cuartiles de la muestra (datos no agrupados) que tiene la siguiente tabla de frecuencia:
1 = 25 , luego Q1 = 2 4 2 Segundo cuartil: primera xi tal que N i > n = 50 , luego Q2 = 3 4 3 Tercer cuartil: primera xi tal que N i > n = 75 , luego Q3 = 4 4
Primer cuartil: primera xi tal que N i > n
T. Gibelli
- 10 -
Ejemplo 1.10: Cuartiles de la muestra (datos agrupados) que tiene la siguiente tabla de frecuencia:
Primer cuartil: el i -simo intervalo tal que N i > 21
1 = 5,25 , es i = 3 , entonces: 4
1 c n N i 1 4 = 52 + 7(5,25 5) = 52,25 Q1 = Li + ni 7 2 Segundo cuartil: el i -simo intervalo tal que N i > 21 = 10,5 , es i = 3 , entonces: 4 2 c n N i 1 4 = 52 + 7(10,5 5) = 57,5 Me = Q2 = Li + ni 7 3 Tercer cuartil: el i -simo intervalo tal que N i > 21 = 15,75 , es i = 5 , entonces: 4 3 c n N i 1 4 = 66 + 7(15,75 15) = 66,875 Q3 = Li + ni 6
Diagramas de Tukey (o diagrama de caja y bigotes) Se construye una caja que contiene a la mayora de los valores observados (el 50%), que tiene por extremos el primer cuartil Q1 y el tercer cuartil ( Q3 ). El segundo cuartil ( Q2 = Me ) es la lnea central de la caja. Luego se grafican los bigotes que son lneas que salen de los extremos de la caja hasta los valor extremos que sern los percentiles P5 (mnimo) y P95 (maximo). Los valores que estn fuera de los bigotes valores anmalos o atpicos y suele dibujarse con un punto. Ejemplo 1.11:
T. Gibelli
- 11 -
3.2-
Medidas de dispersin
Los estadsticos de variabilidad o dispersin nos indican si los valores de la muestra analizada estn prximos entre s o si por el contrario estn o muy dispersos. Los ms usados son: Rango: mide la amplitud de los valores de la muestra y se calcula por diferencia entre el valor ms elevado y el valor ms bajo.
R = x max x min
Observacin: el rango es fcil de calcular y sus unidades son las mismas que las de la variable. No utiliza todas las observaciones (slo dos de ellas) y se puede ver muy afectada por alguna observacin extrema. El rango aumenta con el nmero de observaciones, o bien se queda igual (nunca disminuye). Varianza y desvo estndar La varianza mide la distancia existente entre los valores de la muestra y la media. Se nota S 2 .
(x
Para datos no agrupados: se calcula por la frmula S 2 =
i =1
X )2
La frmula dada puede dar lugar a errores por redondeo, por lo que suele usarse una frmula equivalente que suele ser ms exacta:
2 n x n 2 i 2 1 1 n 2 i =1 S2 = xi n X xi = n 1 i =1 n n 1 i =1
n 1
(x
Para datos agrupados: se calcula por la frmula S 2 =
2 n ni xi 1 n i =1 2 2 S = ni xi n 1 i =1 n
X ) 2 ni
i =1
De igual manera al caso de datos no agrupados, suele usarse la frmula equivalente:
n 1
2 1 n = ni xi2 n X n 1 i =1
La varianza tiene como unidad el cuadrado de las unidades de las observaciones de la muestra. Si queremos que la medida de dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su raz cuadrada. Por ello se define el desvo estndar que se calcula como raz cuadrada de la varianza:
S = S2
Observaciones: 1) Ambas son sensibles a la variacin de cada una de las observaciones, es decir, si una observacin cambia, cambia con ella la varianza. No es recomendable el uso de ellas, cuando tampoco lo sea el de la media como medida de tendencia central. 2) Siempre toman un valor mayor que cero. Mientras ms se aproximas a cero, ms concentrados estn los valores de la muestra alrededor de la media. Por el contrario, mientras mayor sean, ms dispersos estn.
T. Gibelli
- 12 -
Distribuciones de frecuencia con diferentes desviaciones estndar
s1 < s 2
3) Interpretacin del desvo estndar Los siguientes resultados dan una interpretacin de los valores del desvo estndar que se puede emplear tambin para medir las variaciones de los valores con respecto a la media. Un valor pequeo de la desviacin tpica estndar indica una mayor probabilidad de obtener un valor ms cercano a la media. Esta idea se expresa en un teorema enunciado por el matemtico ruso Tchebycheff. Teorema de Tchebycheff: La proporcin de cualquier conjunto de valor observados que se
1 . k2 1 1 Por ejemplo, si k = 2 el teorema indica que al menos una proporcin de 1 2 = 1 = 0.75 4 2 (el 75 %) de los valores observados se encuentra en el intervalo: X 2 S , X + 2 S
encuentra a menos de k desvos estndar de la media es al menos de 1
Interpretacin del teorema de Tchebycheff para
k =2
La siguiente regla establece una relacin similar para distribuciones de tipo normal o gaussiana cuyos histogramas tienen una forma de campana simtrica (se definir en detalle ms adelante). Regla de la normal: si la distribucin es normal, entonces: o el 68% de las observaciones se encuentra en el intervalo: X S , X + S o o
( ) el 95% de las observaciones se encuentra en el intervalo: (X 2 S , X + 2 S ) casi el 100% de las observaciones se encuentra en el intervalo: (X 3S , X + 3S )
- 13 -
T. Gibelli
Interpretacin de la Regla de la Normal
Coeficiente de variacin: es el cociente entre la desviacin tpica y la media CV = Suele considerarse el siguiente criterio: Grado de variabilidad Variabilidad baja Variabilidad moderada Variabilidad alta Coeficiente de variacin menos de 0.1 (<10%) entre 0.1 y 0.3 (10% a 30%) ms de 0.3 (>30%)
S . X
Observacin: elimina la dimensionalidad de las variables, al ser una proporcin (porcentaje) permite comparar el nivel de dispersin de dos muestras. Adems es invariante a cambios de escala (por ejemplo, el coeficiente de variacin de una variable medida en metros no cambia si la medicin se realiza en centmetros). Slo se debe calcular para variables con todos los valores positivos. Ejemplo 1.12: considerando los datos de la tabla referida a edades de un grupo de personas:
Media: X =
2.065 = 13,15 157 2 1 n 1 593,41 Varianza: S 2 = ni xi2 n X = 27.742,25 157 (13,15) 2 = = 3,80 aos 2 n 1 i =1 156 156
S 2 = 3,80 = 1,95 aos S 1,95 = = 0.15 . Coeficiente de variacin: CV = X 13,15
Desvo estndar: S =
T. Gibelli
- 14 -
3.3-
Medidas de forma
Los estadsticos de forma hacen referencia a la forma que tiene la distribucin de frecuencias. Los ms usados son: Asimetra o sesgo: Evala el grado de distorsin o inclinacin que adopta la distribucin de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de asimetra ms preciso es el de Fisher, que se define por:
El coeficiente de asimetra de Pearson es ms fcil de calcular:
m3 g1 = 3 , donde m3 = S
(x
i =1
X ) 3 ni n
Ak =
El coeficiente se basa en el hecho de que cuanto mayor sea la asimetra, mayor ser la diferencia entre la media y la mediana. Se analiza la simetra de acuerdo al siguiente criterio: Grado de Valor del Grfico asimetra coeficiente Simetra perfecta ( X Asimtrica a derecha (o positiva) ( X
3( X Me) S
g1 = 0 = Me = Mo ) g1 > 0 > Me > Mo )
Asimtrica g1 < 0 a izquierda (o negativa) ( X < Me < Mo ) Curtosis: Sirve para medir si una distribucin de frecuencias es muy apuntada (larga y estrecha) o no, tomando como patrn de referencia la distribucin normal o gaussiana. El coeficiente de aplastamiento de Fisher (curtosis) se define como:
g2 =
Se analiza la curtosis de acuerdo al siguiente criterio: Curtosis Valor del coef. Mesocrtica g2 = 0 (simula a la normal) Leptocrtica (ms apuntada g 2 > 0 que la normal) Platicrtica (ms achatada que la normal)
m4 3 , donde m4 = S4
(x
i =1
X ) 4 ni n
Grfico
g2 < 0
T. Gibelli
- 15 -
ndice Introduccin a la estadstica ............................................................................................ 1 1.1Conceptos bsicos ...................................................................................................... 1 1.2Fundamentos de la estadstica .................................................................................... 2 2. Resumen de la informacin.............................................................................................. 3 2.1Distribucin de frecuencias.......................................................................................... 3 2.2Grficos ....................................................................................................................... 6 3. Medidas de resumen de la informacin........................................................................... 8 3.1Medidas de posicin .................................................................................................... 8 3.2Medidas de dispersin............................................................................................... 12 3.3Medidas de forma...................................................................................................... 15 1.
T. Gibelli
- 16 -

Apunte Estadistica Descriptiva

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apunte Estadistica Descriptiva

Caricato da

Copyright:

Formati disponibili

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Frecuencia relativa acumulada: se obtiene, para cada clase C j de la muestra (con

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

ni a la frecuencia absoluta de la i-sima clase f i a la frecuencia relativa de la i-sima clase

(valor promedio entre que los dos del medio)

Apunte de clase Estadstica 2011

Las medidas de posicin son: media: X =

50 5 22 2 = 79 mediana: Me = 77.5 + 10 moda: Mo = 80 (marca de clases del

Apunte de clase Estadstica 2011

Apunte de clase Estadstica 2011

Primer cuartil: el i -simo intervalo tal que N i > 21

Apunte de clase Estadstica 2011

De igual manera al caso de datos no agrupados, suele usarse la frmula equivalente:

Apunte de clase Estadstica 2011

Distribuciones de frecuencia con diferentes desviaciones estndar

Interpretacin del teorema de Tchebycheff para

Apunte de clase Estadstica 2011

Interpretacin de la Regla de la Normal

S 2 = 3,80 = 1,95 aos S 1,95 = = 0.15 . Coeficiente de variacin: CV = X 13,15

Apunte de clase Estadstica 2011

El coeficiente de asimetra de Pearson es ms fcil de calcular:

g1 = 0 = Me = Mo ) g1 > 0 > Me > Mo )

Apunte de clase Estadstica 2011

Potrebbero piacerti anche