Sei sulla pagina 1di 42

MAESTRIA EN CIENCIAS QUIMICAS

DISEÑO ESTADISTICO DE EXPERIMENTOS


Estadística
Dr Fernando Hernández Blanco

Miércoles 2-4 pm Laboratorio

Jueves 4-6 pm clase


DEFINICIÓN CLÁSICA
La Estadística se  ocupa  de  los  métodos  y  procedimientos  para  recoger, 
clasificar,  resumir,  hallar  regularidades  y  analizar  los datos,  siempre  y 
cuando  la  variabilidad  e incertidumbre sea  una  causa  intrínseca  de  los 
mismos; así como de realizar inferencias a partir de ellos, con la finalidad 
de ayudar a la toma de decisiones y en su caso formular predicciones.

Clasificación

Estadística descriptiva: Describe, analiza y  Estadística inferencial: Apoyándose en el 


representa un grupo de datos utilizando  cálculo de probabilidades y a partir de datos 
métodos numéricos y gráficos que resumen y  muestrales, efectúa estimaciones, 
presentan la información contenida en ellos. decisiones, predicciones de datos. 
Conceptos Teóricos
Consideremos todos los estudiantes de la Universidad del Cauca, donde se va a evaluar la altura
media de los hombres en cm y para ello se selecciona los alumnos de la Facultad de Ciencias
naturales, exactas y de la educación.

¿Cual es la población?.
¿Cuál es el parámetro?
¿Cuál es la muestra?
¿Hay algún estadístico?
¿Cuáles son los elementos a evaluar?
¿Qué tamaño tiene la población?

En relación al tamaño de la población, ésta puede ser:

Parámetro: función definida sobre los valores numéricos de características medibles de una 
Finita, como es el caso del numero de personas que llegan al servicio de urgencia de un hospital 
Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes
Muestra: subconjunto representativo de una población.
Individuos o elementos: personas u objetos que contienen cierta información que se desea 
Estadístico: función definida sobre los valores numéricos de una muestra.
población
en un día;
estudiar.

Infinita, si por ejemplo estudiamos el mecanismo aleatorio que describe la secuencia de caras y 
cruces obtenida en el lanzamiento repetido de una moneda al aire.
Variables estadísticas

Variable cualitativa: Aquella cuyas modalidades son de tipo nominal.
Variable semicuantitativa: Modalidades de tipo nominal, en las que existe un orden.
Variable cuantitativa discreta: Sus modalidades son valores enteros.
Variable cuantitativa continua: Sus modalidades son valores reales.
Clasificar las siguientes variables:
1. Preferencias políticas (izquierda, derecha o centro).
2. Marcas de cerveza.
3. Velocidad en Km/h.
4. El peso en Kg.
5. Signo del zodiaco.
6. Nivel educativo (primario secundario, superior).
7. Años de estudios completados.
8. Tipo de enseñanza (privada o pública).
9. Número de empleados de una empresa.
10. La temperatura de un enfermo en grados Celsius.
11. La clase social (baja, media o alta).
12. La presión de un neumático en Nw/cm2
¿Como se representan gráficamente?
Variables cualitativas y
semicuantitativas

Diagrama de sectores

Pictograma

Diagrama de barras
Variables cuantitativas (discretas y
continuas)
Diagramas diferenciales

Histograma

Diagramas integrales
Tablas estadísticas
En el siguiente conjunto de datos, se proporcionan los pesos (redondeados a libras) de niños nacidos en cierto intervalo de 
tiempo
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 10, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 
6, 5, 6, 7, 9, 5, 7, 4, 8, 8, 8, 6, 5, 7, 9, 5, 5, 7, 8, 5, 9, 6, 7, 7, 5, 3, 4, 4, 5, 10, 3, 6, 9

3 3 0,037 3,70 3 0,037 3,7


4 7 0,086 8,64 10 0,123 12,3
5 12 0,148 14,81 22 0,272 27,2
6 13 0,160 16,05 35 0,432 43,2
7 18 0,222 22,22 53 0,654 65,4
8 13 0,160 16,05 66 0,815 81,5
9 9 0,111 11,11 75 0,926 92,6
10 6 0,074 7,41 3
81 1,000 100,0
total 81 10
Frecuencia AbsolutaAcumulado
Porcentaje Acumulada:
Frecuencia
Frecuencia
Porcentaje: absoluta
relativa: Relativa
: Acumulada:
:
La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la
Análogamente se define el Porcentaje Acumulado y lo vamos a 
La
Es el
frecuencia
cociente
Al
Esta medida igual
absoluta
entre
que la
resulta en
defrecuencia
de
el caso
una variable
anterior
multiplicar absoluta
la estadística
la frecuencia
y el tamaño
frecuencia es el
relativa
relativade
número
la muestra.
por acumulada
100de veces es
quela aparece
frecuencia
en la
muestra un valor menor
denotar por P o igual que el de la variable y lo representaremos por N .
muestraabsoluta
dicho valor de lai como la frecuencia relativa acumulada por 100.  
acumulada variable
dividido por el tamaño de la muestra, y la denotaremos i
por Fi
MEDIDAS DESCRIPTIVAS
En la mayoría de las ocasiones resulta más eficaz “condensar” dicha información en
algunos números que la expresen de forma clara y concisa.
1. La tendencia central de los datos;
2. La dispersión o variación con respecto a este centro;
3. Los datos que ocupan ciertas posiciones.
4. La simetría de los datos.
5. La forma en la que los datos se agrupan.
Tendencia Central
Las tres medidas más usuales de tendencia central son:

Media Mediana Moda.

La media aritmética de una variable Llamaremos mediana, al primer valor Llamaremos moda a cualquier máximo relativo
estadística es la suma de todos sus de la variable que deja por debajo de de la distribución de frecuencias, es decir,
posibles valores, ponderada por las sí al 50% de las observaciones cualquier valor de la variable que posea una
frecuencias de los mismos. frecuencia mayor que su anterior y su posterior
3 3 3-4 1010
3-4 3 3 4 4 3.5 3.5 1 1 10 10
10
4 7 5-6 2525
5-6 5 5 6 8 6 5.5 5.5 1 1 35 25
35
5 12 7-8 3131
7-8 7 7 8 8 7.5 7.5 1 1 66 31
66
6 13 9-10 1515
9-10 9 9 10 10 9.5 9.5 1 1 81 15
81
7 18
8 13
9 9 Arreglo de rangos
10 6
N 81

MEDIANA
PROMEDIO
Frecuencias
Arreglo de el valor de la variable
frecuencias
MODA Frecuencias Xi de mayor repetición
que deja por debajo de si
estrictamente N/2 de las
observaciones
18 31

25

13 13
12

15
9
7 10
6

3
3-4 5-6 7-8 9-10
3 4 5 6 7 8 9 10

6
8
Posición
Los estadísticos de posición van a ser valores de la variable caracterizados por superar a cierto
porcentaje de observaciones en la población (o muestra). Tenemos fundamentalmente a los
percentiles como medidas de posición (cuartiles y deciles).

Cuartiles
Los cuartiles, Ql, son un caso particular de los percentiles. Hay 3, y se definen
como:

Deciles
Se definen los deciles como los valores de la variable que dividen a las observaciones en 10 grupos de igual
tamaño. Di = P10 i i = 1, . . . , 9

Para una variable discreta, se define el percentil de orden k,


como la observación, , que deja por debajo de si el %k de la
población.
3 3
3-4
Calcular los Deciles
10 3 4 3.5 1 10 10
4
5
7
12
5-6
7-8
25
31
Calcular el y
5
7
6
8
5.5
7.5
1
1
35
66
25
31
6 13 9-10 15 9 10 9.5 1 81 15
7 18
8 13
9 9
10
N
6
81
Calcular los Deciles
Calcular el y
Simetría
Para saber si una distribución de frecuencias es simétrica, hay que precisar con respecto a qué. Un buen
candidato es la mediana, ya que para variables continuas, divide al histograma de frecuencias en dos
partes de igual área.

Una distribución de frecuencias es simétrica si el lado derecho de la grafica (a partir de la mediana) es la


imagen por un espejo del lado izquierdo

Cuando la variable es discreta,


decimos que es simétrica, si lo
es con respecto a la media
Dentro de los tipos de asimetría posible, vamos a destacar los dos fundamentales:

1. Asimetría positiva: Si las frecuencias más altas se encuentran en el lado izquierdo de la media, mientras
que en derecho hay frecuencias más pequeñas (cola).

2. Asimetría negativa: Cuando la cola está en el lado izquierdo.

Se definen entonces toda una familia de estadísticos que ayuden a interpretar la asimetría, denominados
índices de asimetría.
Índice basado en los tres cuartiles (Yule–Bowley)

1
Índice basado en la mediana

Índice basado en la moda

Diremos que hay asimetría positiva si As > 0 y negativa si As < 0


3 3
1
4 7
5 12 1
6 13
7 18
8 13 1
9 9
10 6
N 81 Índice basado en los tres cuartiles (Yule–Bowley)

3-4 10 3 4 3.5 1 10 10
5-6 25 5 6 5.5 1 35 25
7-8 31 7 8 7.5 1 66 31
9-10 15 9 10 9.5 1 81 15
Dispersión
Se obtiene restando el valor más bajo de un conjunto de
Rango observaciones del valor más alto

Varianza

Desviación típica o estándar

Coeficiente de variación

Tipificación
Índice basado en la mediana Índice basado en la moda
Ejercicio 2
Dadas las siguientes distribuciones, calcular sus
cuartiles

0
0 14
14
1 10 0-1
0-1 10
10
1 10
2 15 1-2
1-2 12
12
2 15
3 26 2-3
2-3 12
12
3 26
4 20 3-4
3-4 10
10
4 20
5 15 4-5
4-5 7
7
5 15
A continuación se dan los resultados obtenidos con una muestra de 50
universitarios. la característica es el tiempo de reacción ante un estímulo auditivo

Tiempo
0,110 0,110 0,126 0,112 0,117 0,113 0,135 0,107 0,122
0,113 0,098 0,122 0,105 0,103 0,119 0,100 0,117 0,113
0,124 0,118 0,132 0,108 0,115 0,120 0,107 0,123 0,109
0,117 0,111 0,112 0,101 0,112 0,111 0,119 0,103 0,100
0,108 0,120 0,099 0,102 0,129 0,115 0,121 0,130 0,134
0,118 0,106 0,128 0,094 0,111

1. Construir una distribución de frecuencia de estos pesos.


2. Establecer una distribución por rangos
3. Estadísticos de posición (cuartiles)
4. Estadísticos de simetría
5. Estadísticos de Dispersión
Ejercicio 4
Un estudio consistió en anotar el número de palabras leídas en 15 segundos por un grupo
de 120 sujetos disléxicos y 120 individuos normales. Teniendo en cuenta los resultados de la
tabla

calcule:
1. Las medias aritméticas de ambos grupos.
2. Las medianas de ambos grupos.
3. El porcentaje de sujetos disléxicos que superaron la mediana de los normales.
4. Compare la variabilidad relativa de ambos grupos.
En una epidemia de escarlatina, se ha recogido el número de muertos en 40 ciudades de
un país, obteniéndose la siguiente tabla

1. Representar gráficamente estos datos.


2. Obtener la distribución acumulada y representarla.
3. Calcular media, mediana y moda.
4. Calcular la varianza y la desviación típica.
5. Porcentaje de ciudades con al menos 2 muertos.
6. Porcentaje de ciudades con más de 3 muertos.
7. Porcentaje de ciudades con a lo sumo 5 muertos.
ESTADISTICA INFERENCIAL
¿Qué es la distribución normal?
La distribución normal es una distribución con forma de
campana donde las desviaciones estándar sucesivas con
respecto a la media establecen valores de referencia para
estimar el porcentaje de observaciones de los datos. El
área bajo la curva representa el numero total de
elementos de una población y es asintótica.

• 95% de los valores se ubicará dentro de 1.96 desviaciones estándar con respecto a la media (entre −1.96 y +1.96).
• Menos del 5% (0.05) de las observaciones estará fuera de este rango
• Aproximadamente el 68% de las observaciones está dentro de una 1 desviación estándar de la media (-1 a +1),
• Alrededor del 99.7% de las observaciones estarían dentro de 3 desviaciones estándar
Análisis estadístico
de datos

Pruebas
normalidad
Qué hacer con
datos no
normales
Pruebas Pruebas No-
paramétricas paramétricas

Tipos de Tipos de
pruebas pruebas
Pruebas de normalidad
Los resultados de la prueba indican si usted debe rechazar o no puede rechazar la hipótesis nula de
que los datos provienen de una población distribuida normalmente.

PRUEBA DE SHAPIRO-WILK
Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la
prueba de shapiro Shapiro-Wilk. Se rechazará la hipótesis nula de normalidad si el estadístico W
es menor que el valor crítico.
Se calculan las diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y
el antepenúltimo, etc.

PRUEBA DE KOLMOGOROV-SMIRNOV
Cuando la muestra es mayor a 50 Tal vez el método más recomendable para el caso en que F(x)
es una distribución continua. Si el valor p de esta prueba es menor que el nivel de significancia
(α) elegido, usted puede rechazar la hipótesis nula y concluir que se trata de una población no
normal.
Esta prueba compara la función de distribución acumulada empírica (ECDF) de los datos de la
muestra con la distribución esperada si los datos fueran normales. La hipótesis nula afirma que
los datos sí se ajustan a la distribución F(x) y la hipótesis alterna establece que no se ajustan
PRUEBA DE NORMALIDAD DE RYAN-JOINER

Esta prueba evalúa la normalidad calculando la correlación entre los datos y las puntuaciones
normales de los datos. Si el coeficiente de correlación se encuentra cerca de 1, es probable que la
población sea normal. El estadístico de Ryan-Joiner evalúa la fuerza de esta correlación; si se
encuentra por debajo del valor crítico apropiado, usted rechazará la hipótesis nula de normalidad de
la población. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk.

PRUEBA DE ANDERSON-DARLING

Esta prueba compara la función de distribución acumulada empírica (ECDF) de los datos de la
muestra con la distribución esperada si los datos fueran normales. Si la diferencia observada es
adecuadamente grande, usted rechazará la hipótesis nula de normalidad de la población.

LOS QUIMICOS BUSCAMOS SIEMPRE QUE LOS DATOS SEAN NORMALES PARA
QUE PUEDAN SER REPRESENTADOS POR LA MEDIA Y LA ESTADISTICA
DESCRIPTIVA
¿Que hacer con datos no normales?

Continuar con el análisis


si la muestra no es lo Transformar los datos
suficientemente grande

Teorema del limite central Transformación de Box-Cox


Cuando el tamaño de la
muestra es lo suficientemente
grande, la distribución de las Transformación de
medias sigue aproximadamente Johnson
una distribución normal
Prueba log-normal
Las pruebas paramétricas asumen los parámetros de la distribución de la variable (media
y varianza) y un tipo de distribución normal

Para usarlas deben cumplirse supuestos:

 Las variables tienen que ser cuantitativas y estar medidas en escalas de intervalo o
razón
 Los datos siguen una distribución normal
 Las varianzas son iguales (homocedasticidad)
 Muestras iguales (n>30)
Muestras grandes (n > 30)
Estadístico de prueba de Estadístico de prueba de Bartlett
Estadístico de prueba F
Levene Cuando únicamente hay dos niveles,
Cuando únicamente hay dos niveles. La
Para estas pruebas, la hipótesis nula es
La hipótesis nula es que lashipótesis nula es que las varianzas son
varianzas son iguales y la hipótesis que las varianzas son iguales y la
iguales y la hipótesis alternativa es que las
alternativa es que las varianzas no no son iguales. Utilice hipótesis alternativa es que las varianzas
varianzas el estadístico
son iguales. Utilice la prueba de F cuando los datos provengan no son iguales. Utilice la prueba de
de
Levene cuando los datos provengan distribuciones normales. Bartlett cuando los datos provengan de
de distribuciones continuas, pero distribuciones normales; la prueba de
Si no
el valor p es menor que el nivel ɑ, se
necesariamente distribuciones Bartlett no es sólida cuando los datos se
rechaza la hipótesis nula de que las varianzas
normales. apartan de la normalidad.
¿ QUÉ VENTAJAS TIENEN LAS PRUEBAS PARAMETRICAS SOBRE
LAS NO PARAMETRICAS?

Las pruebas paramétricas tienen más poder de contraste y


pueden analizar interacciones entre variables independientes

Menos posibilidad de errores.

Más sensibles a los rasgos de los datos recolectados


Las pruebas no paramétricas no asumen parámetros de distribución ni se preocupa por el
tipo de distribución, sino trabajan con simple ordenación y recuento (asignando rankings) a
los valores de la variable sin importar la distribución.

Se deben usar con:


 Datos de distribución libre (no necesariamente normal).
 Si un grupo tiene distribución normal mientras el otro no.
 Si se trata de datos cuantitativos, ordinales o nominales con varianza grande, o un
grupo con varianza 0 y el otro no
 Al trabajar con muestras pequeñas.
¿ QUÉ VENTAJAS DE LAS PRUEBAS NO PARAMETRICAS?

 Los métodos no paramétricos pueden ser aplicados a una amplia variedad de


situaciones porque ellos no tienen los requisitos rígidos.

 Los métodos no paramétricos usualmente involucran simples computaciones que los


correspondientes en los métodos paramétricos y son por lo tanto, más fáciles para
entender y aplicar.

 Diferente a los métodos paramétricos, los métodos no paramétricos pueden


frecuentemente ser aplicados a datos no numéricos, tal como el género de los que
contestan una encuesta.
Prueba Propósito Ejemplo
t de 1 muestra Prueba si la media de una población
individual es igual a un valor objetivo
¿Es la estatura media de las estudiantes universitarias
mayor que 5.5 pies?

t de 2 muestras Prueba si la diferencia entre las


medias de dos poblaciones
¿Difiere significativamente la estatura media de las
estudiantes universitarias con respecto a la de los
independientes es igual a un valor estudiantes universitarios?
objetivo

t pareada Prueba si la media de las diferencias Si usted registra el peso de estudiantes universitarios
entre las observaciones dependientes antes y después de que cada uno de ellos tome una
o pareadas es igual a un valor objetivo píldora para adelgazar, ¿es suficientemente significativa la
pérdida media de peso para llegar a la conclusión de que
la píldora es efectiva?

Prueba t en la salida Prueba si los valores de los


coeficientes en la ecuación de
¿Son predictores significativos de los GPA universitarios las
puntuaciones de las pruebas SAT de educación
de regresión regresión difieren significativamente secundaria?
de cero
Coeficiente de Correlación de Pearson y la regresión lineal

Coeficiente de correlación de Spearman

Anova
 Análisis de varianza unidireccional (ANOVA Oneway)
 Análisis de varianza factorial (ANOVA)
 Análisis de covarianza (ANCOVA)
 Análisis multivariado de la varianza (MANOVA )
Chi cuadrada
Cuantitativa y
1 muestra
cualitativa
Binomial

U de mann
Independientes Cuantitativa Whitney

2 muestras
Cuantitativa Wilcoxon
Relacionadas
Cualitativa Mc Nemar

Independientes Cuantitativa Kruskal Wallis


Más de 2
muestras Cuantitativa Friedman
Relacionadas
Cualitativa Q de Cochran
Ejemplo pruebas normalidad

Entre más pegadas estén a la


línea indica que es normal
Trabajo
• Realizar ejemplos de cada una de las pruebas paramétricas y
no paramétricas empleando SPSS, Minitab o el programa
estadístico de su preferencia, realizando los pantallazos en su
explicación.

Potrebbero piacerti anche