Sei sulla pagina 1di 13

http://reyesestadistica.blogspot.com.ar/2011/07/estadistica-inferencial-con-microsoft.

html

Estadística, Matemática y Computación


Material de los cursos impartidos por el Ingeniero Luis Manfredo Reyes Guatemala, Centro
América para el mundo.
VIERNES, 1 DE JULIO DE 2011

Estadística Inferencial con Microsoft Excel (R)


ESTADISTICA INFERENCIAL CON MICROSOFT EXCEL®

1. INTRODUCCION:
La inferencia es la rama de la estadística que se dedica a elaborar conclusiones válidas para
toda una población, a partir de un conjunto de datos, que generalmente son solamente una
fracción del total de datos (muestra).

Existe una variedad de técnicas para elaborar dichas conclusiones, las que dependen
básicamente de tres cosas:
a) La naturaleza de los datos (cuantitativos, cualitativos)
b) La cantidad de datos
c) La naturaleza de la comparación realizada

Microsoft Excel es una herramienta ampliamente utilizada en la sociedad actual, sin embargo
se desconocen muchas de sus capacidades de cálculo en diferentes áreas. El objetivo de
este curso corto es dar a conocer las aplicaciones de Excel en la inferencia estadística, que
están disponibles para el usuario.

2. CONCEPTOS BÁSICOS DE LA INFERENCIA ESTADÍSTICA

POBLACIÓN: Es un conjunto, cuyos elementos poseen características comunes, las cuales


son del interés del investigador, y que pueden ser observadas (medidas)

La estadística como ciencia se dedica al estudio de las poblaciones. Sin embargo en la


mayoría de situaciones no es posible estudiar a la población completa. La solución es
estudiar una fracción de la población (muestra) y elaborar conclusiones para toda la
población a partir de dichos datos.

MUESTRA: Es una fracción de la población extraída para el estudio de la misma. Para que
los resultados sean válidos, es necesario que la muestra sea REPRESENTATIVA de la
población de donde proviene. Para ello, debe reunir los siguientes requisitos
a) Debe extraerse al azar
1
b) Debe generar suficiente varianza
c) Debe tener un tamaño apropiado

NIVEL DE CONFIANZA: Debido a que la mayoría de veces se trabaja con muestras,


siempre existirá la posibilidad de cometer errores al momento de elaborar una
inferencia. Para enfrentar esta situación, se define una probabilidad de éxito llamada Nivel de
confianza. Debido a costumbres que han ido quedando, se trabaja con un nivel de
confianza del 95%, sin embargo el investigador tiene el derecho de escoger otro nivel a su
gusto o conveniencia.

NIVEL DE SIGNIFICANCIA: Es el complemento del nivel de confianza. Usualmente se


representa con la letra griega alfa (α). Corresponde a la probabilidad de fracaso.

HIPÓTESIS
Cualquier suposición preliminar acerca de cualquier fenómeno. En el caso de la estadística,
la suposición se realiza sobre los parámetros de una población. Básicamente existen dos
tipos de hipótesis: la Nula (Ho), que se plantea con la intención de ser rechazada, y la alterna
(Ha) que se plantea con la intención de ser aceptada.
El procedimiento para una prueba de hipótesis, incluye las siguientes etapas:
a) Planteamiento de las hipótesis
b) Cálculo de un estadístico de prueba (Z, t, F, o Chi cuadrado)
c) Obtención de un comparador, de una tabla (Z, t, F, Chi Cuadrado)
d) Aplicación de una regla de decisión

En este curso no se hará énfasis en las fórmulas sino en las aplicaciones, tomando en
cuenta la naturaleza de los datos.

3. MÓDULO DE ANÁLISIS DE DATOS DE MICROSOFT EXCEL®


Uno de los complementos que posee Microsoft Excel es un módulo de análisis de datos. En
la mayoría de instalaciones de Excel éste módulo no esta habilitado, por lo cual lo primero
que debe hacerse es habilitarlo, siguiendo los siguientes pasos:

a) Dar Click sobre el menú de Excel.(El símbolo --)


b) Seleccionar la pestaña OPCIONES DE EXCEL
c) Seleccionar la pestaña COMPLEMENTOS
d) Seleccionar la opción Administrar complementos (IR)
e) Activar las casillas de Análisis de Datos y Análisis de datos VBA
f) Dar click en la opción ACEPTAR

Descripción del Menú de Análisis


El menú de análisis está dentro de la pestaña DATOS--> Análisis de Datos
El menú tiene la siguiente apariencia:

2
Aunque las opciones se encuentran en un orden extraño, se describirán en el orden lógico de
un curso de estadística inferencial.

4. Análisis descriptivo:
Aunque Excel tiene funciones individuales para análisis de datos cuantitativos, existe la
opción de un análisis más extenso. Para ello se selecciona la pestaña ESTADISTICA
DESCRIPTIVA en el menú de análisis de datos.

Se presenta la siguiente ventana:

El rango de entrada puede tener una o más variables, las cuales pueden estar ordenadas por
filas o por columnas. Se debe definir esto activando el indicador respectivo. Si en la primera
fila o columna hay nombres de variables, se debe activar la opción Rótulos en la primera fila

3
Los resultados se pueden mostrar en una hoja nueva, un libro nuevo, pero usualmente es en
la misma hoja, para lo cual se debe definir el lugar .

Si se desea un detalle de las estadísticas más importantes se marca la casilla “Resumen de


Estadísticas.

Si se desea un intervalo de confianza para la media, debe marcarse la casilla y definirse un


nivel de confianza.
Se pueden obtener los números mayor y menor del conjunto o bien los segundos, terceros,
etc, para lo cual se marcan las casillas y se indica el orden (1,2,3)

EJERCICIO:
Para el siguiente conjunto de datos, calcule las estadísticas más importantes y un intervalo
de confianza al 97%
15 9 20 11 18 12 14 19 22 18 17 19 14 12 10 10 18 10 15

Los resultados obtenidos son los siguientes

4
5. Prueba de igualdad de varianzas
El objetivo de esta prueba es determinar si las varianzas de dos poblaciones (o en todo caso
de sus muestras son iguales)
Se requieren datos de las dos poblaciones y no se asume normalidad de las variables.
El estadístico de prueba es un F, la razón de dos varianzas.
En el menú de análisis de datos se escoge la opción “Prueba de F para varianzas de dos
muestras”: Se debe ingresar la ubicación de los datos y el nivel de significancia deseado.
Ejemplo:para los siguientes datos, comprube con 5% de significancia si las
varianzas son iguales
Se toman 10 datos al azar de ambas secciones de un curso son los siguientes resultados:

SECCION 1 2 3 4 5 6 7 8 9 10
A 62 48 55 33 65 46 70 55 40 49
B 33 38 15 39 57 45 38 40 42 55

6. Prueba de medias para la diferencia de medias de dos poblaciones


Se asume que las poblaciones tienen distribución normal. Existen tres casos para esta
situación:
a) Cuando las varianzas poblacionales son conocidas
b) Las varianzas poblacionales son desconocidas pero iguales
c) Las varianzas poblacionales son desconocidas y no son iguales

CASO 1: VARIANZAS CONOCIDAS

5
Se debe escoger la opción “Prueba de Z para medias de dos muestras”. Además de los
datos de las dos poblaciones se ingresan los datos de las varianzas poblacionales.

Ejemplo: Se conoce que las varianzas de las calificaciones de los Cursos de Matemática 1
Sección “A” y Matemática 1 sección “B” son respecivamente 625 y 2,500 puntos cuadrados.
Se toman 10 datos al azar de ambas secciones son los siguientes resultados:
SECCION 1 2 3 4 5 6 7 8 9 10
A 62 48 55 33 65 46 70 55 40 49
B 33 38 15 39 57 45 38 40 42 55

Pruebe la hipótesis que los alumnos de la sección “A” tienen mayor promedio que los de la
sección “B” , con un 97% de confianza.

CASO 2: VARIANZAS DESCONOCIDAS PERO IGUALES


En este caso se aplica una prueba de t de student. En el menú de análisis de datos se
escoge la opción “Prueba de t para dos muestras suponiendo varianzas iguales”

6
Ejemplo: Se desea probar si hay diferencia entre los salarios diarios de los empleados de
dos diferentes empresas. Los resultados del muestreo son los siguientes.
POBLACION 1 2 3 4 5 6 7 8 9
Empresa1 350 419 385 360 405 395 389 409 375
Empresa 2 370 425 369 375 389 385 395 425 400

a) Compruebe si las varianzas son iguales, con 95% de confianza


b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Ejercicio: con los datos del archivo nuevo compruebe si las notas de los graduados de
establecimientos públicos son iguales que las de graduados de establecimientos privados.

Caso 3. Las varianzas son desconocidas y no son iguales.


7
En este caso también se aplica una prueba de t de Student, pero los cálculos se realizan en
otra forma. En el menú de análisis de datos se escoge la opción “Prueba de t para dos
medias suponiendo varianzas desiguales”.

Ejemplo: comparación del rendimiento de dos automóviles compactos, uno japonés y


el otro coreano, del mismo cilindraje. Variable: kilómetros por galón.

ORIGEN 1 2 3 4 5 6 7 8 9
JAPONES 66 67 68 66 67 67 68 65 68
COREANO 61 69 66 59 60 62 69 63 65

a) Compruebe si las varianzas son iguales, con 95% de confianza


b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Prueba de datos apareados

8
En este caso se trata de dos poblaciones que de alguna manera están correlacionadas, por
ejemplo Antes/después. El número de datos es el mismo para cada población porque hay
una correspondencia de uno a uno entre los mismos. Se aplica una prueba de t de student .

Ejemplo
Un investigador compara las calificaciones de diez estudiantes antes y después de tomar una
pastilla a base de Ginko biloba (que se supone mejora la inteligencia). En base a los
resultados indique con un 97% de confianza si se produce un aumento de 10 puntos en los
resultados, si se usan las cápsulas.

JUAN PEDRO CARLOS ESTELA MARTIN JUANY KARLA JOSE MANUEL STEFANI
ANTES 45 52 61 33 49 75 64 39 54 60
DESPUES 48 55 59 33 54 80 64 39 53 68

Ejercicio: con los datos del archivo nuevos compruebe si las notas de álgebra son iguales a
las notas de física .

9. Análisis de varianza de un factor (completamente al azar)


Excel puede realizar análisis de varianza para diseño al completo azar, ya sea balanceado
(iguales repeticiones por tratamiento) o desbalanceado (desiguales repeticiones por
tratamiento). En el menú de análisis de datos se escoge la opción “Análisis de Varianza de
un factor.

Ejemplo No. 1: Diseño balanceado


En el centro de investigación de los Hombres de Negro, se ensayan nuevas armas para
atacar a una especie extraterrestre de plantas mutantes. El producto usado hasta la fecha es

9
“Alien X”. Se aplicaron a especimenes dosis de los productos y se midiò la variable
respuesta: porcentaje de destrucción de tejidos. Los resultados finales fueron:

X-1 45 ALIEN X 65 L4 82 ALIEN X 60


M6 42 M6 44 X-1 52 L4 86
L4 88 ALIEN X 62 M6 42 X-1 61
X-1 50 M6 42 L4 88 ALIEN X 65

Realice el andeva al 3% de significancia y escriba conclusiones y recomendaciones


Primero debe ordenarse los datos, obteniéndose lo siguiente:
X1 45 52 61 50
ALIEN X 65 60 62 65
L4 82 86 88 88
M6 42 44 42 42

Ejemplo 2: Diseño desbalanceado


Al probar concentraciones de 1, 2, 3 y 4 ppm de cierta encima más un control (en que no se
añadió encima) para estudiar el efecto en la separación de un jugo de naranja. A cada
tratamiento se aplicó 4 veces y se usó un diseño al completo azar. Se añadió agua a las 20
muestras y se midió el tiempo de separación (minutos) en cada muestra, los resultados
fueron los siguientes
IMPORTANTE: LAS CELDAS DONDE FALTAN DATOS SE DEJAN EN BLANCO (NO
INGRESAR CEROS)
Datos I II III IV
A CONTROL 3.96 6.24 5.42 11.11
B 1PPM 27.31 26.96 32.21 30.13
C 2PPM 35.30 34.71 Perdido 38.38
D 3PPM 41.09 43.99 48.70 41.78
E 4PPM 48.90 47.61 50.38 Perdido

10
a) realice el análisis de varianza al 5%
b) calcule el coeficiente de varianza
c) escriba conclusiones y recomendaciones

Análisis de varianza de dos factores (Bloques al azar)


También Excel puede realizar análisis de varianza para diseño en bloques al azar. Se escoge
la opción “Análisis de varianza de dos factores con una sola muestra por grupo”

Esta opción no permite el caso de los diseños desbalanceados. En este caso se deben
estimar los datos faltantes y efectuar el ajuste manual de grados de libertad, cuadrados
medios, F calculada y F tabulada.

Ejemplo:
En un hospital hay cuatro sillones dentales, que son operados por cinco operadores distintos.
Se cree que hay diferencias en el tiempo que tardan en cada sillón para realizar una
extracción, por lo que se realiza un experimento en el cual cada operador realiza una
extracción en cada sillòn dental. Se mide el tiempo necesario en minutos. Los resultados
finales fueron:
Sillones/operador JOSE CARLOS XIMENA KARLA MANUEL
1 15 9 20 11 18
2 12 14 25 19 22
3 18 17 19 14 12
4 10 10 18 10 15

Plantee la hipótesis pertinente


Calcule el análisis de varianza al 5% de significancia
Escriba conclusiones y recomendaciones

11
Análisis de Regresión
Excel puede realizar análisis de regresión para modelos simples y múltiples, El módulo de
análisis tiene una opción para regresión:

Se debe definir el rango que contiene los datos de la variable dependiente (y)
En el rango de x, si el modelo es múltiple se ingresan varias columnas según la cantidad de
variables independientes.

Ejemplo:
Los siguientes datos muestran el crecimiento poblacional de una aldea del interior del país:
año habitantes
1900 300
1925 750
1950 1500
1975 4000
2000 7500

efectúe el ajuste del modelo lineal y estime que población habrá en la aldea para el año
2012

12
13

Potrebbero piacerti anche