Sei sulla pagina 1di 26

1

GENERALIDADES DE ESTADISTICA DESCRIPTIVA Y AED


1. INTRODUCCIN
La Estadstica est constituida por un conjunto de mtodos de anlisis
de datos que pueden agruparse en tres categoras: La Estadstica
Descriptiva, el Anlisis Exploratorio de Datos y la Inferencia Estadstica.
Estadstica Descriptiva. Es un conjunto de procedimientos que tienen
por objeto resumir masas de datos por medio de nmeros calculados a
partir de ellos, o medidas de resumen, tablas y grficos.
Anlisis Exploratorio de Datos. Conjunto de procedimientos que tienen
por finalidad la bsqueda de estructuras en una masa de datos, que
conduzcan a la percepcin de las caractersticas que posee la fuente de
donde provienen.
Inferencia Estadstica. Conjunto de procedimientos que permiten
confirmar o concluir propiedades de una poblacin fuente de
informacin, de la cual slo conocemos una parte representativa, o
muestra.
Conceptos bsicos:
a) Variabilidad. Nombre que se da a las diferencias en el
comportamiento de todo fenmeno observable que se repite bajo
iguales condiciones, debidas a cambios en factores no controlables, que
influyen sobre l. Estas diferencias pueden ser casi imperceptibles, como
en el caso de experimentos de laboratorio, donde hay un alto grado de
control sobre los factores que influyen sobre el fenmeno; pueden ser
pequeas, como en el caso de en procesos industriales, y pueden ser
grandes, como en el caso de fenmenos en que est involucrado el
comportamiento humano, como los fenmenos sicolgicos, sociolgicos
y econmicos. La variabilidad existente en los fenmenos se puede
reducir, se puede explicar parcialmente, pero no se puede eliminar.
Las variables pueden ser cualitativas o cuantitativas. Generalmente se
utiliza el trmino modalidad cuando hablamos de caracteres
cualitativos y el trmino valor cuando estudiamos caracteres
cuantitativos. Una variable no es sino el conjunto de las distintas
modalidades o valores que toma un carcter.
Variables cualitativas (o categricas): aquellas que no aparecen
en forma numrica, sino como categoras o atributos (sexo, profesin,
color de ojos). Las variables cualitativas slo pueden ser nominales u
ordinales.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

Variables cuantitativas: las que pueden expresarse numricamente


(temperatura, salario, nmero de goles en un partido). Se pueden
cuantificar los resultados experimentales por medio de instrumentos
adoptando unidades de medida para valorar los diferentes resultados.
Variables cuantitativas segn el tipo de valores que pueda tomar pueden
ser discretas o continuas.
o Variables discretas: son el resultado de contar y slo toman valores
enteros (nmero de hijos).
o Variables continuas: son el resultado de medir, y pueden contener
decimales (temperatura, peso, altura). Se pueden subdividir a voluntad.
Pueden tomar, entonces, cualquier valor de un determinado intervalo.
Los siguientes conceptos se relacionan con el acto de extractar datos de
una fuente de informacin, lo que comnmente se denomina medir:
o Medicin. Es la observacin de un fenmeno o propiedad, y la
asignacin de un nmero o categora, como forma de representar ese
fenmeno. Suele usarse el trmino observar como sinnimo de medir.
Por ejemplo, pesar un objeto es observar una propiedad, su peso, y
asignarle un nmero, el nmero de kilogramos que pesa. Determinar el
estado civil de una persona tambin es efectuar una medicin, que
consiste en clasificar esa propiedad en una de varias categoras: soltera,
casada, etc.
o Medida. Es el nmero o categora que se asigna al medir un
fenmeno. Un sinnimo de medida es observacin.
o Escala de Medida. Una escala de medida es el conjunto de valores
que puede tomar una determinada medida. Se pueden clasificar en los
siguientes tipos: o Escalas de medida Categricas: Nominales u
ordinales.
o Escalas de medida Numricas: de intervalos o de razn.
Las escalas categricas slo asignan una categora, o clasifican el
fenmeno o propiedad que se mide. Las Ordinales se distinguen de las
nominales, en el hecho que sus valores tienen un orden natural. Las
escalas numricas asignan nmeros. Si la escala tiene un cero absoluto,
la escala es de razn, si el cero es arbitrario, la escala es de intervalo
(Ver Cuadro 1).

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

Ejemplo General. Al determinar el color de ojos de una persona se est


midiendo en una escala categrica nominal, su fecha de nacimiento se
mide en escala categrica ordinal. Su temperatura corporal, en grados
centgrados, se mide en una escala numrica de intervalos. Su peso, en
escala numrica de razn. En esta escala tiene sentido decir que una
persona tiene el doble de peso que la otra.
o Instrumento de medida. Es un elemento sensible al fenmeno que
se desea medir, y que se emplea para medir. Por ejemplo, una regla
graduada, un examen de laboratorio, una encuesta, el juicio de una
persona, etc.
o Validez de un instrumento de medida. Un instrumento de medida
es vlido respecto de una propiedad, si es relevante a ella, es decir, un
cambio en la propiedad, determina un cambio en la medida, y un cambio
en la medida obedece slo a un cambio en la propiedad. Un instrumento
vlido proporciona una medida vlida. Por ejemplo, para medir pesos se,
debe usar una balanza, para medir cortesa se debe usar un instrumento
adecuado, como una encuesta, si se desea que sean vlidas las
medidas.
o Exactitud de un instrumento de medida. Un instrumento de
medida es exacto si tiene la capacidad de describir el fenmeno sin
sobrevalorarlo o subvalorarlo sistemticamente. Si un instrumento no es
exacto, se dice que tiene sesgo. Un instrumento de medida exacto
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

proporciona medidas exactas. Por ejemplo, un examen puede no rendir


una medida exacta de los conocimientos de los alumnos si es
extremadamente fcil o extremadamente difcil, en relacin al
conocimiento que se quiere medir.

o Confiabilidad de un instrumento de medida. Un instrumento de


medida es confiable si tiene la capacidad proporcionar medidas similares
cuando se aplica reiteradas veces al mismo fenmeno. Como sinnimo
se usa el trmino precisin. Un instrumento confiable proporciona
medidas confiables.
Los conceptos siguientes se relacionan con las fuentes de informacin y
los conjuntos de observaciones disponibles para el anlisis:
o Poblacin. O poblacin objetivo, es el conjunto de todos los valores
de un fenmeno o propiedad que se quiere observar. Tambin se usa el
nombre de variable para designar a este conjunto. Por ejemplo, las
edades de los escolares de enseanza media del pas, las preferencias
de marca de jabn manifestadas por un conjunto de consumidores, los
dimetros de los ejemplares de un objeto producido por una mquina,
etc.
Muestra. Es la parte de la poblacin que efectivamente se mide, con el
objeto de obtener informacin acerca de toda la poblacin. La seleccin
de la muestra se hace por un procedimiento que asegure en alta grado
que sea representativa de la poblacin. Los mtodos de seleccin de
muestras se describen ms adelante.
o Censo. Es el proceso de observar la poblacin completa. Es decir,
tomar una muestra igual a la poblacin.
o Unidad Muestral. Es cada una de los miembros individuales de una
poblacin. Cada unidad muestral proporciona una medida.
o Marco muestral. Es la parte de la poblacin desde donde se
selecciona la muestra. Idealmente el marco muestral coincide con la
poblacin. Sin embargo, por razones de costo, se suele no considerar
una parte de la poblacin, al seleccionar la muestra.
o Parmetro. Nombre dado a una caracterstica global de una
poblacin. En general, un parmetro no es conocido. Por ejemplo, la
edad promedio de una poblacin de habitantes de una regin.
o Estadstico o estadgrafo. Es una caracterstica de la muestra. Es un
valor conocido, que vara de una muestra a otra. Se utiliza para obtener
conclusiones acerca de la poblacin. Por ejemplo, el promedio de edad
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

de los habitantes seleccionados en una muestra es un estadstico. Se


puede utilizar para estimar la edad promedio de la poblacin de la que
se obtuvo la muestra.
o Errores muestrales. Son errores causados por el acto de obtener la
informacin a partir de una muestra, en lugar de la poblacin completa.
Se deben a la variacin existente entre una muestra y otra.
o Errores no muestrales. Son errores no asociados al hecho de
obtener informacin a partir de una muestra. Por ejemplo, datos
faltantes, errores de recoleccin de datos, errores de respuesta, errores
de transcripcin, errores de proceso.
ACTIVIDAD 1. Agrpese de a 5 estudiantes y responda las siguientes
preguntas, puede socializar con los dems grupos.
1. Analice las siguientes variables segn naturaleza, escala..etc.:
a) Nmero de acciones vendidas cada da en la Bolsa.
b) Color ojos de las personas
c) Peso muestra laboratorio.
d) Nmero de libros que usted ley el ao pasado
e) Temperatura ambiente
f) Nivel de glicemia.
g) Estado nutricional
h) Tiempo de atencin
i) Nmero de visitas de personas mayores de 60 aos a centro de salud.
j) Calidad de atencin
k) El dimetro de las ruedas de varios autos.
2. Identifique si las siguientes cifras son: parmetros o estadsticos,
determine de que parmetro o estadstico se trata.
a) Cuando Lincon (EEUU) fue elegido presidente, recibi el 39,82% de
1.865.908 votos. Qu es el 39,82; Parmetro o Estadstico?
b) Con base a una muestra de 877 ejecutivos encuestados, se encontr
que el 45% de ellos no contratara a alguien con un error ortogrfico en
su solicitud de empleo. Qu es el 45%; Parmetro o estadstico?
c) Se selecciona una muestra de padres al inicio de ao a los cuales se
les consult el nmero libros de texto que tuvieron que comprar para
sus hijos, Como resultado se encontr que compraban 6 libros en
promedio por hijo. Qu es el 6 parmetro o Estadstico?.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

3. Un fabricante de medicamentos est interesado en la proporcin de


personas que padecen hipertensin (presin arterial elevada) cuya
condicin pueda ser controlada por un nuevo producto desarrollado por
la empresa. Se condujo un estudio en el que participaron 5000 personas
que padecen de hipertensin, y se encontr que 80% de las personas
pueden controlar su hipertensin con el medicamento. Suponiendo que
las cinco mil personas son representativas del grupo con hipertensin,
conteste las siguientes preguntas:
a) Cul es la poblacin?
b) cul es la muestra?
c) Identifique el parmetro de inters.
d) Identifique la estadstica y proporcione su valor.
e) se conoce el valor del Parmetro?
4. El tiempo medio necesario para pagar y salir de la caja de
recaudacin de la empresa de luz de la ciudad de Valdivia, debe
estimarse utilizando el tiempo medio para pagar y salir necesario de 75
clientes personas elegidas en forma aleatoria. Haga corresponder las
expresiones de la columna dos con los trminos estadsticos de la
columna uno.
1
2
Dato
a) Los 75 clientes
Datos (conjunto)
b) El tiempo medio para los
clientes
Experimento
c) 5 minutos, el tiempo para
pagar y salir de un cliente
Parmetro
d) El tiempo medio de los 75
clientes
Poblacin
e) Todos los clientes de la
empresa de luz de la ciudad de
Valdivia
Muestra
f) El tiempo para pagar y salir
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

del cliente
Estadstica-Estadgrafos
g) Los 75 tiempos
Variable
h) El proceso utilizado para
seleccionar a los 75 clientes y
medir sus tiempos

ANLISIS ESTADSTICO UNIDIMENSIONAL


Consiste en realizar un anlisis estadstico grfico y numrico de las
variables del problema con el fin de tener una idea inicial de la
informacin contenida en el conjunto de datos as como detectar la
existencia de posibles errores en la codificacin de los mismos.
El tipo de anlisis a realizar depende de la escala de medida de la
variable analizada. En el cuadro 2 se sugieren las representaciones
grficas y resmenes descriptivos numricos ms aconsejables para
realizar dicho anlisis. En el cuadro se sobre entiende que las escalas
ms informativas pueden utilizar las medidas numricas y
representaciones grficas de las escalas menos informativas adems de
las suyas propias (razn > intervalo >ordinal > nominal).

Variables cualitativas. Como se mencion las variables cualitativas


son aquellas que no aparecen en forma numrica, sino como categoras
o atributos como, por ejemplo, el sexo o la profesin de una persona. En
dichas categoras puede haber un orden subyacente (variable ordinal) o
no (variable nominal).

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

Los datos correspondientes a variables cualitativas se agrupan de


manera natural en diferentes categoras o clases y se cuenta el nmero
de datos o porcentaje que aparecen en cada una de ellas. Se suelen
representar mediante diagrama de barras, sectores o lneas. La base de
datos de pases segn fue definido tiene tres variables cualitativas. La
figura 1, muestra dos ejemplos de grficos y tablas de frecuencia que se
pueden construir con ellas.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

Variables cuantitativas. En el caso de las variables cuantitativas


podemos realizar un anlisis grfico dependiendo del tipo de variables
discreta o continua y adems un resumen estadstico descriptivo.
Grficos asociados: Histograma, Diagrama de tallo y hoja y grfico de
caja. Si la variable analizada es continua o discreta con un elevado
nmero de valores distintos se tabula como una distribucin de
frecuencias agrupadas y se representa grficamente mediante
histogramas, diagramas de tallos y hojas y box-plots con el fin de
estudiar la forma de la distribucin y analizar, en particular, la posible
existencia de varias modas en la misma que pongan de manifiesto la
presencia de diversos grupos homogneos en la muestra.
A) HISTOGRAMA.
Objetivo: Mostrar una distribucin de frecuencias absolutas o relativas.
Tipo de variables: Cuantitativas continuas o discretas con muchos
valores.
Nmero de variables: Una.
Es la presentacin ms frecuente para datos agrupados. Las clases se
marcan en el eje horizontal con la amplitud del intervalo. Las frecuencias
de clase van en el eje vertical y se representan por las alturas de las
barras que se trazan adyacentes entre s (Ver figura 2).

La Figura 3 presenta de forma estilizada, algunos de los patrones que


ms frecuentemente presentan los histogramas. Las distribuciones (a) y
(b) son simtricas alrededor de un valor central. El caso (a) presenta un
nico mximo se dice que es una distribucin unimodal que
necesariamente ha de coincidir con el centro de simetra y, en este caso,
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

10

las medidas de tendencia central son una sntesis adecuada de la


informacin contenida en la variable. La distribucin (b) tiene dos
mximos o modas uno a cada lado del centro de simetra Este patrn
aparece cuando los datos responden a una mezcla de dos grupos
heterogneos y, siempre que sea posible, conviene estudiar ambos
grupos por separado. Las formas que aparecen en (c) y (d) se
denominan asimtricas a la derecha y a la izquierda, respectivamente, e
indican la presencia de un nmero significativo de valores muy altos (c)
y bajos (d) susceptibles de distorsionar los resultados de anlisis
estadsticos posteriores. En estos dos ltimos casos, los coeficientes de
asimetra son significativamente distintos de cero - positivo en el caso
(c) y negativo en el caso (d). Conviene hacer notar finalmente, que
aunque una distribucin sea unimodal, no est libre de la presencia de
valores anormalmente altos y bajos en ambas colas de la distribucin
que puedan distorsionar los resultados de un anlisis estadstico. Para
detectar este hecho se utiliza el coeficiente de curtosis, de forma que si
la distribucin es leptocrtica (curtosis muy elevada), indica que sus
colas son "muy pesadas" y, por lo tanto, se corre el riesgo antes
nombrado.

B) DIAGRAMA DE TALLOS Y HOJAS (STEAM AND LEAF PLOT).


Son procedimientos semigrficos, es decir, aparece un grfico y una
tabla. Representan la informacin para caracteres cuantitativos (no
corresponde si los datos son cualitativos) (ver figura 4). Elementos del
diagrama:

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

11

- Tallo: constituido por los primeros elementos o dgitos, y aparece


puesto en vertical.
- Hojas: son los siguientes elementos de cada uno de los datos de
nuestra variable.
Si lo giramos 90 es parecido a un histograma pero con ms
informacin. El inconveniente de estos diagramas es que cuando
tengamos un nmero elevado de datos, son difciles de construirlos a
mano, y adems, cuanto ms grande sea el nmero de datos, la
eficacia es menor. (Si hay ms de 100 datos, el diagrama de tallos y
hojas no es eficiente).
Utilidad. La utilidad de estos semi-grficos es que podemos representar
dos distribuciones a la vez, poniendo un tallo comn y hojas a la derecha
y a la izquierda y as compararlas. Se utiliza para explicar el patrn de
comportamiento.

Se obtiene o se observa:
1) Rango
2) Localizacin de los valores centrales
3) Concentraciones o agrupaciones
4) Identificacin de valores (ej_ lo que no son frecuentes o al contrario)
5) Lagunas (o gaps): cuando no se han registrado valores (habr
espacios en los tallos)
6) Dispersin y simetra
7) Anomalas (datos extremos, outliers) Adems identificarn qu dato
es.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

12

c) DIAGRAMA DE CAJAS Y BIGOTES (BOX and- WHISHER PLOT)


Es una forma de representar grficamente un conjunto de estadsticos
descriptivos. Esto permite detectar datos extraos (outliers) y asimetras
ya que el grfico se divide en cuatro reas de igual frecuencia (ver figura
5).
Las caractersticas del grfico son:
1. Tamao no muy grande. (Si tengo muchos datos, este diagrama no es
significativo. Se utiliza cuando hacemos un histograma y no vemos muy
clara su interpretacin).
2. Grfico basado en las medidas de localizacin.
3. Intervienen 5 cantidades: Mediana (Q2), cuartiles (Q1 y Q3), mnimo
(xmin) y mximo (xmax).
4. Ofrece un resumen de la informacin ms relevante de la distribucin
(SIN QUE LOS DATOS APAREZCAN)
5. Da los valores de extremos y los outliers.
6. Sirve para comparar distribuciones de dos variables.

Valores indicativos principales:


Localizaciones
Agrupaciones significativas de valores
Zonas en las que predomina la dispersin
Relacin entre agrupaciones y dispersin
Referencia visual de la simetra central y de los extremos
Referencia visual de la curtosis (relacionando la longitud de la caja y
patillas o bigotes)
Longitud de colas
Rango
Outliers, anomalas o valores alejados del grupo central de los dato

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

13

El grfico de cajas es una representacin grfica no paramtrica de los


datos (ver grfico); los limites inferior y superior de la caja son los
cuartiles primero (Q1) y tercero (Q3); por lo tanto la caja contiene el 50%
de los datos, la lnea dentro de la caja indica cul es la posicin de la
mediana: si esta lnea no est en el centro de la caja, indicara la falta de
simetra. Cuanto mayor es la longitud de la caja, mayor es la variabilidad
de las observaciones. Las lneas que se extienden desde cada lado de la
caja se llaman bigotes; los bigotes van desde cada lado de la caja hasta
la ltima observacin cuyo valor es inferior a 1,5 veces el rango
intercuartilico.
Los valores comprendidos entre 1,5 y 3 veces el rango intercuartilico se
consideran valores atpicos moderados y se representan mediante el
smbolo o; los valores a ms de 3 veces el rango intercuantilico se
consideran valores atpicos fuertes y se representan mediante el smbolo
*.

ESTADSTICA DESCRIPTIVA
OBJETIVO DE DESCRIBIR LOS DATOS. Reducir una serie de datos a
unos pocos coeficientes que contengan la mayor parte de la informacin
relevante, con el fin de descubrir regularidades estadsticas en el grupo
analizado. Los parmetros (o estadgrafos) de posicin de Tendencia
Central tratan de ubicar e identificar el valor de la variable alrededor
del cual tienden a centrarse los datos. Recuerde que:
Estadgrafos: resumen informacin de la muestra.
Parmetros: resumen en la poblacin.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

14

Las tablas de frecuencia y grficos nos dan una idea general del
patrn de la distribucin de los valores, pero no nos indican un valor
tpico, medio o promedio o central.
A. MEDIDAS DE TENDENCIA CENTRAL
Son estadgrafos de posicin que son interpretados como valores que
permiten resumir a un conjunto de datos dispersos, podra asumirse que
estas medidas equivalen a un centro de gravedad que adoptan un valor
representativo para todo un conjunto de datos predeterminados.
Estas medidas son:
1.
2.
3.
4.
5.
6.
7.

Promedio Aritmtico (Media o simplemente promedio)


Mediana
Moda
Promedio Geomtrico
Promedio Ponderado
Promedio Total
Media Armnica

Otras medidas de posicin son: Cuartiles, Deciles y Percentiles


B. MEDIDAS DE VARIABILIDAD
Son estadgrafos de dispersin que permiten evaluar el grado de
homogeneidad, dispersin o variabilidad de un conjunto de datos. Estas
medidas son:
1. Amplitud o Rango
2. Variancia
3. Desviacin Estndar
4. Coeficiente de Variabilidad

C. MEDIDAS DE FORMA
Evala la forma que adopta la distribucin de frecuencias respecto al
grado de distorsin (inclinacin) que registra respecto a valor promedio
tomado como centro de gravedad, el grado de apuntamiento
(elevamiento) de la distribucin de frecuencias. A mayor elevamiento de
la distribucin de frecuencia significar mayor concentracin de los
datos en torno al promedio, por tanto, una menor dispersin de los
datos. Estas medidas son: 1. Asimetra o Sesgo - 2. Curtosis
ESTADGRAFOS DE POSICIN

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

15

I. PROMEDIO
Valor que representa un conjunto de datos y que trata de sealar una
posicin central de los datos. Puede significar:
El promedio aritmtico. (La Media Aritmtica).
El valor ms comn. (La Moda).
El valor central. (La Mediana).
Se distingue entre parmetros o estadgrafos para datos no
agrupados (datos originales sin agrupar) y para datos agrupados.
A) LA MEDIA: La media aritmtica medida de tendencia central que
normalmente se conoce como promedio. La media de una poblacin es
el parmetro Si hay N observaciones en el conjunto de datos de la
poblacin, la media se calcula as:

PROPIEDADES DE LA MEDIA ARITMTICA


1) Todas las variables de nivel de intervalo o de razn tienen Media
Aritmtica.
2) Al evaluar la media se incluyen todos los valores de la variable y su
valor final puede no ser un valor observado.
3) Un conjunto de valores slo tiene una media aritmtica.
4) Es el nico estadgrafo (o parmetro) de posicin tal que la suma de
las desviaciones de cada valor respecto a la media es cero.

Ejemplo. Para la propiedad 4: Sean los tres valores: 3, 8 y 4. La media


es 5.
La propiedad 4 indica que: (3 - 5) + (8 - 5) + (4 - 5) = - 2 + 3 1 = 0
DESVENTAJAS DE LA MEDIA ARITMTICA. La media aritmtica es
muy sensible a los valores extremos de la variable. Se desplaza en la
direccin del valor extremo. Luego, no se recomienda usar como medida
central en distribuciones muy asimtricas.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

16

B) LA MEDIANA (ME): Consideramos una variable discreta X cuyas


observaciones en una tabla estadstica han sido ordenadas de menor a
mayor. Llamaremos mediana, Me al primer valor de la variable que deja
por debajo de s al 50% de las observaciones. Por tanto, si n es el
nmero de observaciones, la mediana corresponder a la observacin
n+1/2

PROPIEDADES DE LA MEDIANA
Es nica para un conjunto de datos.
No es afectada por valores extremos.
Puede calcularse para variables ordinales, de intervalo y de razn.
Usa menos informacin que la media, ya que slo depende del orden
de los datos.
C) LA MODA (MD O MO): La observacin modal es aquella que ocurre
con mayor frecuencia.
-Determine la moda de la altura de los alumnos.
- Determine la moda del siguiente grupo de datos.
VENTAJAS DE LA MODA
La moda es vlida para todos los niveles de medida de las variables.
No es afectada por valores muy extremos.
Igual que la mediana, se puede usar en distribuciones con extremo
abierto.
DESVENTAJAS DE LA MODA
Muchas variables no tienen moda, pues ningn valor aparece ms de
una vez.
Si existe puede no ser nica. Algunas variables tienen ms de una
moda. Esto ocurre cuando la poblacin muestreada no es homognea
respecto a ciertas variables del estudio. Por ejemplo una poblacin que
incluya hombres (machos) y mujeres (hembras).
D) LA MEDIA GEOMTRICA , es la media de los logaritmos de los
valores de la variable. Proporciona una medida precisa de un cambio
porcentual promedio en una serie de nmeros.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

17

La media geomtrica se utiliza con mayor frecuencia para calcular la


tasa de crecimiento porcentual promedio de algunas series dadas, a
travs del tiempo.
E). MEDIA ARMNICA. El promedio armnico de los valores: (X1 X2 .....
Xn) donde ninguno toma el valor cero es:

Este promedio se utiliza para que los valores extremos no afecten al


valor del promedio. Los valores extremos s afectan cuando se usa el
promedio aritmtico o el promedio geomtrico.
F) MEDIA RECORTADA. La media recortada es un promedio que
elimina del anlisis a una proporcin p de observaciones extremas de la
distribucin. Con este ndice se puede obtener una medida de
localizacin resistente tras el recorte de los posibles valores anmalos
presentes en la distribucin.
G) MEDIA WINSORIZADA. La media winsorizada es un promedio que,
en lugar de eliminar un nmero entero de observaciones, como lo hace
la media recortada, los sustituye por el ltimo valor que forma parte del
clculo, en cada extremo. Este ndice es una medida de localizacin
resistente tras el recorte de los posibles valores anmalos presentes en
la distribucin.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

18

ESTADGRAFOS, LOCALIZACIN. Estos estadgrafos (o parmetros)


sirven

para

clasificar (localizar)
a un individuo
dentro de una
determinada
poblacin (o muestra). Dividen la
distribucin de los datos en grupos
iguales de acuerdo a un cierto porcentaje. Genricamente se llaman
CUANTILES. Los ms usados son los percentiles, cuartiles, quintiles,
deciles.
A) Cuartiles
Primer cuartil es ese valor debajo del cual clasifica al 25% de las
observaciones, y sobre el cual puede encontrarse el 75% restante.
B) Deciles
Los Deciles separan un conjunto de datos en 10 subconjuntos iguales
Percentiles
Los Percentiles separan un conjunto de datos en 100 subconjuntos
iguales
ESTADGRAFOS de POSICIN. Determinar el grado de alejamiento de
los datos respecto a un estadgrafo (parmetro) de centralizacin que,
generalmente suele ser la media aritmtica. Nos dan una idea acerca de
lo agrupados que estn los datos, y por lo tanto indican la
homogeneidad de estos. En resumen, muestran la representatividad de
los estadgrafos (parmetros) de tendencia central. A mayor dispersin
menor representatividad.
A) Rango: La medida de dispersin ms simple (y menos til) es el
rango o recorrido. El rango es simplemente la diferencia entre la
observacin ms alta y la ms baja.
Varianza y desviacin estndar de una poblacin: La varianza y su raz
cuadrada, y la desviacin estndar son medidas de dispersin mucho
ms tiles. Proporcionan una medida ms significativa sobre el punto
hasta el cual se dispersan las observaciones alrededor de la media.
B) Varianza: El promedio de las desviaciones respecto a su media
elevadas al cuadrado
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

19

C) La desviacin estndar es la raz cuadrada de la varianza. Es una


medida que tiene la misma unidad que la media aritmtica.

D)
Coeficiente de Variacin (CV): Es una medida

relativa de dispersin. Determina el grado de dispersin


de un conjunto de datos relativo a su media. Es
muy til cuando se consideran dos o ms
distribuciones que tiene medidas significativamente
diferentes.

E) Usos frecuentes de la desviacin Estndar. Existen dos


aplicaciones adicionales para la aplicacin de la desviacin estndar.
a) Teorema de Chebyshev. Establece que para todo conjunto de
datos, por lo menos 1-1/k2% de las observaciones estn dentro de K

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

20

desviaciones estndar de la media, en donde K es cualquier nmero


mayor que 1.

b) La Distribucin Normal y la Regla emprica. Si la muestra es

simtrica y tiene
la forma de una
campana,

ESTADISTICOS DE FORMA: Objetivo miden la cantidad de


deformacin respecto de una distribucin Normal. Los Estadgrafos
de forma permiten conocer que forma tiene la curva que representa la
serie de datos de la muestra. En concreto, podemos estudiar las
siguientes caractersticas de la curva:

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

21

Asimetra: Indican si la curva tiene una forma simtrica, es decir, si


respecto al centro de la misma (centro de simetra) los segmentos de
curva que quedan a derecha e izquierda son similares.
Curtosis: Indican si los valores de la distribucin estn ms o menos
concentrados alrededor de los valores medios de la muestra.
ndice de Asimetra: Hemos comentado que el concepto de asimetra
se refiere a si la curva que forman los valores de la serie presenta la
misma forma a izquierda y derecha de un valor central (media
aritmtica)
Para cuantificar el nivel de asimetra se utiliza el llamado Coeficiente
de Asimetra de Fisher, que viene definido: Los resultados pueden ser
los siguientes:

Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada


uno de los valores, () la media de la muestra y (ni) la frecuencia de cada
valor. Los resultados de esta ecuacin se interpretan (ver figura 6):
(g1 = 0): Se acepta que la distribucin es Simtrica, es decir, existe
aproximadamente la misma cantidad de valores a los dos lados de la
media. Este valor es difcil de conseguir por lo que se tiende a tomar los
valores que son cercanos ya sean positivos o negativos ( 0,5).
(g1 > 0): La curva es asimtricamente positiva por lo que los valores
se tienden a reunir ms en la parte izquierda que en la derecha de la
media (media mayor que la mediana).
(g1 < 0): La curva es asimtricamente negativa por lo que los valores
se tienden a reunir ms en la parte derecha de la media (media menor
que la mediana).

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

22

ndice de Curtosis: El Coeficiente de Curtosis analiza el grado de


concentracin que presentan los valores alrededor de la zona central de
la distribucin (ver figura 6b). El Coeficiente de Curtosis viene
definido por la siguiente frmula:

Se definen 3 tipos de distribuciones segn su grado de curtosis:


Distribucin mesocrtica: g2=0, presenta un grado
concentracin medio alrededor de los valores centrales de la variable
mismo que presenta una distribucin normal).
Distribucin leptocrtica: g2>0, presenta un elevado grado
concentracin alrededor de los valores centrales de la variable.
Distribucin platicrtica: g2<0 presenta un reducido grado
concentracin alrededor de los valores centrales de la variable.

de
(el
de
de

ESTUDIO DE LA NORMALIDAD

Muchos mtodos estadsticos se basan en la hiptesis de normalidad de


la variable objeto de estudio. De hecho, si la falta de normalidad de la
variable es suficientemente fuerte, muchos de los contrastes utilizados
en los anlisis estadstico-inferenciales no son vlidos. Incluso aunque
las muestras grandes tiendan a disminuir los efectos perniciosos de la no
normalidad, el investigador debera evaluar la normalidad de todas las
variables incluidas en el anlisis. Existen varios mtodos para evaluar la
normalidad de un conjunto de datos que pueden dividirse en dos grupos:
los mtodos grficos y los contrastes de hiptesis.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

23

Mtodos grficos. El mtodo grfico univariante ms simple para


diagnosticar la normalidad es una comprobacin visual del histograma
que compare los valores de los datos observados con una distribucin
normal. Aunque atractivo por su simplicidad, este mtodo es
problemtico para muestras pequeas, donde la construccin del
histograma puede distorsionar la representacin visual de tal forma que
el anlisis sea poco fiable.
Otras posibilidades, tambin basadas en informacin grfica, consisten
en realizar diagramas de cuantiles (Q-Q plots). Los diagramas de
cuantiles comparan en un sistema de coordenadas cartesianas, los
cuantiles
muestrales (eje X) con los cuantiles esperados bajo la hiptesis
normalidad. Si la distribucin de partida es normal dichos diagramas
tendern a ser rectas que pasan por el origen. Cuanto ms se desven
de una recta menos normales sern los datos. En la Figura 7 se
muestran posibles diagramas de cuantiles segn la forma de la
distribucin de frecuencias.
Para comprobar el supuesto de normalidad existen pruebas analticas y
graficas que veremos a continuacin. Por sencillez, muchas veces se
prefieren las pruebas graficas. Estas tienen el inconveniente de que son
exactas, pero aun as, en la mayora de las situaciones prcticas
proporcionan la evidencia suficiente en contra o a favor de los
supuestos. El uso de las pruebas graficas requiere una fuerte evidencia
visual para concluir que el supuesto en cuestin no se cumple, ya que se
requiere que la evidencia en contra de un supuesto este soportada por
ms de dos puntos. Cuando son uno o dos los puntos que se salen del
comportamiento esperado de las graficas, se puede tratar de un
problema de puntos aberrantes (outliers), no de violacin del supuesto
en cuestin. En ese caso debe investigarse la obtencin de dichas
mediciones atpicas, ya que ese tipo de puntos pueden afectar
sensiblemente los resultados del anlisis.
Un procedimiento grafico para verificar el cumplimiento del supuesto de
normalidad de los residuos consiste en graficar los residuos en la grafica
de probabilidad normal que se incluye casi en todos los paquetes
estadsticos. Esta grafica del tipo X - Y tiene las escalas de tal manera
que si la variable siguen una distribucin normal, al graficarlos tienden a
quedar alineados en una lnea recta; por lo tanto, si claramente no se
alinean se concluye que el supuesto de normalidad no es correcto. Cabe
enfatizar el hecho de que el ajuste de los puntos a una recta no tiene
que ser perfecto, en la figura 7 a y b se representan, en la grfica de
probabilidad normal, dos aspectos de variables, en los cuales el
supuesto de normalidad no se cumple. En la figura 8 se presentan otras
alternativas posibles.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

24

Mtodos estadsticos-inferenciales, para verificar la normalidad.


Existe una extensa lista de pruebas estadsticas diseadas para verificar
la distribucin de un conjunto de datos. Entre las ms populares
podemos mencionar: Shapiro- & Wilks Anderson-Darling, DarlingPearson, Kolmogorov-Smirnov y X2 de bondad de ajuste.
Se mostrar el procedimiento para la prueba de Shapiro & Wilk por su
simplicidad porque existen varias aplicaciones que permiten obtener
rpidamente el estadstico de prueba. Debemos aclarar que esta prueba
se recomienda el nmero de observaciones es inferior a 2000. Para una
mayor cantidad de datos resulta adecuada la prueba de KolmogorovSmirnov. Tambin necesitamos mencionar nuevamente que las variables
sobre las que se verificar su distribucin normal deben estar medidas en
al menos escala de intervalo.
La prueba de Shapiro & Wilks. La prueba W de Shapiro & Wilks data
de 1965 y contempla de acuerdo a Fidelis G., C (2004) los siguientes
Hiptesis y pasos:
Ho: Los datos tiene distribucin normal v/s H1: Los datos no proceden de
distribucin normal.
a. Ordenar en forma ascendente las j observaciones para la variable que
se estudia
b. Se denota X(1), X(2) ,,X(n) los datos ordenados.
USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

25

c. De la tabla dada se obtienen los coeficientes a1, a2,, ak, donde k es


aproxima
d. se calcula el estadstico W definido como:

Donde S2 es la varianza muestral, si el valor de la estadstica de prueba


es mayor que su valor crtico obtenido de tabla estadstica se rechaza
H0 y por tanto la normalidad de los datos.

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

26

USS, VALDIVIA, 2013

Mg. A. C. R

Basado en PhD. A. B.

Potrebbero piacerti anche