Sei sulla pagina 1di 27

Promedios

Donde x son los valores de cada uno de los datos de la muestra y n es el tamao de la muestra o poblacin. Desviacin estndar y varianza poblacional:

Varianza
( )

Muestral

SD2 = MS = SS/N SD2 = varianza SS = Suma de los cuadrados. SP = suma de productos cruzados.

Covarianza
(
(

) (
)

Variance = MS = SS / N Covariance = COV = SP / N} Correlacin +1 perfecta correlacin, 0 no correlacin (independencia) y -1 perfecta correlacin negativa. Usar Pearson r, cuando ambas variables son continuas. Point bi serial correlation cuando una sea continua y la otro dicotmica o 1 o 0. Phi coeficcient cuando ambas variables sean dicotmicas. Spearman Rank correlation cuando ambas sean ordinales (ranking) ( ) ( )

Formula de z para estandarizar variables:

COVARIANZA (S)
( )( )

Regresin
B= a la covariancia de X y Y, sobre la varianza de la variable independiente X.

( ( (

) ( ) )

Coeficiente de Pearson
Para la poblacin

Para la muestra
( ) ( )

Teorema del lmite central tres principios:

La media de la distribucin muestral es la misma que la media de la poblacin La desviacin estndar de la distribucin muestral es la raz cuadrada de la varianza de la distribucin muestral.

La forma de la distribucin muestral es aproximadamente normal si a) N=>30 o b) la forma de la distribucin poblacional es normal.

Sampling error Error estndar de la media. SE= error estndar = SEM


SI SE TIENE LA DESVIACIN ESTNDAR DE LA POBLACIN

Si p es demasiado pequeo entonces se rechaza la hiptesis nula, si no se retiene. p demasiado pequeo da un resultado estadsticamente significativo. ( )

r es significativamente diferente de cero para las variables bajo anlisis? B es la pendiente de la lnea de regresin para X significativamente diferente de cero?

Intervalos de confianza
Grado de confianza

Intervalos de confianza para medias de muestra (m)


Intervalo de confianza: es un estimado del parmetro de la poblacin basado en una muestra aleatoria. Grado de confianza, ej 95% representa la probabilidad que el intervalo captura el parmetro real de la poblacin. Si p es menor que 0.05 se considera que es estadsticamente confiable, o representativo. Si el intervalo de confianza incluye el cero, quiere decir que la recta podra no tener pendiente, por lo tanto no hay relacin estadstica. FACTORES QUE INFLUYEN EN EL INTERVALO DE CONFIANZA Tamao de la muestra Varianza en la poblacin (y en la muestra) Error estndar

Lmite superior = M + t (SE) Lmite inferior = M - t (SE) t depende del nivel de confianza elegido.

Intervalos de confianza para coeficientes de regresin

Regresin mltiple.

Mltiples predictores

= Valor estimado de la variable de salida Y B0 = Valor estimado de Y cuando todos los valores de las variables independientes son iguales a cero xk = Variables predictores BK = coeficientes no estandarizados de regresin Y- = residual (error de prediccin) K= nmero de variables predictores R = coeficiente de correlacin mltiple R = ry = a la correlacin entre valores estimados de Y y los valores observados. R2 el porcentaje de varianza en Y explicada por el modelo.

Cuando una de las variables sea discreta sexo (masculino y femenino) con un 0 o 1, depende del criterio elegido. Los coeficientes estandarizados varan. Preguntas: Qu es B0 = en el caso del salario es un profesional con experiencia cero, cero publicaciones y que adems es hombre por que se codific al hombre con 0. El aumento de una unidad en una variables no afecta exclusivamente al valor estimado. Esta se estim con la colaboracin de las otras dos variables. Cul es el ms fuerte predictor del salario (de la variable dependiente) De acuerdo al ejemplo dado, es la diferencia de gnero estadsticamente significante?. Quien hace ms dinero? Mujeres o hombres?

SS. residual = sumatoria de las diferencias entre el actual Y y el Y observado elevados al cuadrado

Para resolver el problema, primero se cambian los por los Y observados.

) ( )

Eliminar variables redundantes, esto se puede realizar con correlacin una de las variables ser significativa, mientras otra no.

General linear model


GLM es la estructura matemtica utilizada para explicar regresin mltiple y ANOVA (anlisis de varianza). ANOVA es un caso especial de regresin mltiple. Relacin lineal entre variables Si un grupo de variables predice otra variable, los efectos de esta sern aditivos.

ANOVA Apropiado cuando los predictores (IVs) son todos categoras y la salida (DV) es continua Utilizada en experimentos que utilizan toma de medidas aleatorias Experimentos que generen ms de dos medidas

Si se tienen solo dos medidas, utilizar mtodo dependiente t-prueba, independiente prueba t.

Dummy coding
Es un sistema para codificar predictores de categoras en un anlisis de regresin

Nmero de cdigos es igual a n-1, en este caso cuatro variables, tres cs C1 -( N V2)/(N V1) ( N V2)/(N V1) C2 -( N V3)/(N V1) ( N V3)/(N V1) ( N V4)/(N V1) C3 -( N V4)/(N V1)

V1 V2 V3 V4

Para el modelo en R, se realiza el clculo de manera normal, se utiliza la funcin C y se le brindan cdigos a un modelo automticamente.

Moderation (moderacin)
Variable moderadora, tiene influencia sobre las relaciones dadas en las diferentes variables. Una variable mediadora est diseada para explicar una relacin. Una variable moderadora Z mejorar un modelo de regresin si la relacin de Y y X vara como funcin de Z. La manipulacin de la variable independiente (IV) X, causa cambio en la variable independiente Y (DV) Una variable moderadora Z implica que el efecto de la IV sobre DV (X en Y) no es consistente a travs de la distribucin de Z.

Moderation model
Si X y Z son variables continuas ( )

Si X es categora y Z es una variable continua (ejemplo para tres categorias) ( ) ( )

Para evaluar los modelos, primero si tanto X como Z son continuos, entonces: Modelo 1:

Modelo 2: ( )

Si B3 es significante, entonces el modelo se ajusta. O comparar los dos modelos.

Para modelos donde X es categrica y Z continua, entonces, Modelo 1:

Modelo 2: ( ) ( )

Comparar modelos 1 y 2 en trminos de la varianza explicada por el modelo R2 NHST Evaluar coeficientes

Centrar predictoras.

Razn conceptual: Ejemplo Y= Habilidad verbal de los hijos. X= vocabulario de la madre. Z= edad de los hijos. B0 es el valor de Y cuando las variables predictoras son 0. Pero cuando por ejemplo, en el ejemplo dado, las variables son X=0 o Z=0 no tienen sentido, es decir un hijo de cero aos o una madre con cero vocabulario, el valor de B0 carecer de sentido y ser difcil de interpretar. Si se centran los valores, ahora el valor de B0 ser el resultado para un nio de edad promedio y una madre con vocabulario promedio. El coeficiente de regresin B1 es la pendiente para X asumiendo, un resultado promedio en Z. Si no hay efecto de moderacin implica que B1 es consistente a travs de la distribucin entera de Z. En contraste, si hay efecto moderador B1 NO es consistente a travs de la distribucin entera de Z. entonces como se sabe dnde tiene ms influencia B1 en la distribucin de Z. RAZONES ESTADSTICAS. Las variables de prediccin pueden estar altamente correlacionadas debidas al producto XZ, esto puede desencadenar en multicolinearealidad, cuando dos variables estn tan correlacionadas que resultan redundantes, y se vuelve complejo describir los valores B asociados con cada predictor

EJEMPLO. X = Experimental manipulation Estereotipos trato

Y= Behavioral outcome Resultados de examen de IQ

Z = Moderator Capacidad de memoria de trabajo (WMC)

Mediation (mediacin)
Structural equation model ms GLM, en este caso la variable mediadora, es el mecanismo por el cual los efectos ocurren. Un anlisis de mediacin es conducido para entender mejor un efecto observado de una IV en DV. O lo que es lo mismo en la correlacin de X y Y. Por qu y Cmo, Estereotipos trato influencia los Resultados de examen de IQ Si X y Y estn correlacionadas debido al mediador M entonces (X->M->Y): Y

Finalmente si X y Y estn correlacionados por causa del mediador M y:

Revisar qu pasar con X, es decir determinar si B2 ser estadsticamente significativo. La variable M cuenta para algunas o todas las relaciones de X y Y Algunas: Mediacion Parcial All: mediacin total. Mediacin no es lo mismo que una verdadera mediacin causal. Como funciona mediacin: Modelo 1: lm(y - X) Para el modelo 1 el coeficiente de x debe ser significativo Modelo 2: lm(M - X) Para el modelo 2 el coeficiente de x debe ser significativo

Modelo 3: lm (Y X - M) Para el modelo 3 el coeficiente de m debe ser significativo Mientras el de X no.

Full mediation: El efecto directo X, no es significativo despus de adicionar la variable M en el anlisis. El Sobel test es significativo Structural equation model Path models Rectangulos: variables observadas (X, Y, M) Circles: variables no observadas (e) Triangles: constantes Arrows: Asociaciones
1
Bo X B1 Y 1 e

Bo X B1 Y 1 e

Para evitar errores se etiquetan los caminos a: camino de X a M b: camino de M a Y c: camino directo de x a y antes de incluir M c: camino directo de x a y despus de incluir M a*b = camino indirecto

Bo X c Y 1 e

1
a*b X c Bo Y 1 e a M

1
b

Sobel TEST, prueba de Sobel Prueba el efecto del camino indirecto. El efecto indirecto es cero (Ba*Bb) = 0

Z debe ser mayor a 1.96 para concluir que es estadsticamente representativo

97.32

Trato

-11.00

IQ

56.00 -2.41 X -11.42 M Y 1 e

0.75 1 e

Estructural equation model

Student t- test
Dos promedios pueden ser comparados usando T-test. NHST puede ser ejecutado, produciendo un valor p. Efecto de tamao puede ser calculado Intervalos de confianza alrededor de las medias muestrales pueden ser reportadas. z-test t-test (single sample) t-test (dependent) t-test (independent)

z= (observed)-(expected)/SE t= (observed)-(expected)/SE z-test

Cuando se compara un media muestral y la media de la poblacin y la desviacin estndar de la poblacin es conocida. t-test (single sample) Cuando se compara un media muestral y la media de la poblacin y la desviacin estndar de la poblacin NO es conocida.

t-test (independent) Cuando se evala la diferencia entre dos muestras independientes. (diferentes muestras, por ejemplo hombres vs mujeres) Observed Sample mean Sample mean Sample mean of diference of scores Difference between two samples means Expected Population mean Population mean Population mean of difference scores Difference between twopopulation means SE SE of mean SE of mean SE of the mean difference SE of the diference between Ms

z-test t-test (single sample) t-test (dependent) t-test (independent)

P-Values for z and t Exact p value depende de: Direccional o no direccional test Grados de libertad (Df)-diferentes t-distributions, para tamaos de muestra Df NA N-1 N-1 (N-1)+(N2-1)

z-test t-test (single sample) t-test (dependent) t-test (independent)

SE = SD/raz (N)

t-test (dependent)
Cuando se evala la diferencia entre dos muestras relacionadas. (la misma muestra medida dos veces, revisar si la diferencia de medias de las diferentes muestras, es significativamente diferente de cero, entonces se tiene un cambio significativo).

Un anlisis exhaustivo (thorough), debe incluir p-value, t-value, Cohens d (efecto de tamao) e intervalos de confianza. ( ( ) )

M es la media de las diferencias de los resultados para cada fila. Se espera que el resultado esperado sea cero (diferencia cero), por lo que la fomula queda: ( )

Ahora el valor de p depender del valor de t y la distribucin de t y de si el anlisis es direccional o no direccional. El anlisis d de Cohen, depender sigue la siguiente formula, donde los valores se refieren a las diferencias de los resultados de cada individuo.

( )

( )

( ( ) )

T depende del nivel de confianza seleccionado y la distribucin t.

t-test (independent)
Cuando se evala la diferencia entre dos muestras independientes. (diferentes muestras, por ejemplo hombres vs mujeres, control y experimental, patients y saludables) ( ( ) ) ( )

( ( )

Asuncin de homogeneidad de la varianza Promediar las varianzas solo es posible si ambas son equivalentes. SI no la suposicin de homogeneidad es violada. Esto resulta en un aumento del error de tipo I. Se detecta mediante levenes test si es significante entonces la asuncin de homogeneidad es violada. Si esto ocurre se debe: Ajustar Df, y p value. (Welchs procedure) Usar un test no paramtrico (ver ms adelante).

Si se realizan muchas comparaciones es mejor realizar un anlisis de varianza ANOVA.

Anlisis de varianza (ANOVA)


Apropiado cuando se tienen multiples predictores (IV) y estos son todos categricos o de categoras, y la salida es continua (DV). Especficamente en experimentos randomicos controlados que generan ms de dos medias. Si se tienen ms de tres grupos y estos son independientes, se debe utilizar between groups ANOVA. Si se tienen ms tres grupos y estos son dependientes, se debe utilizar repetead measures ANOVA.

One way between groups ANOVA


IV: Number of training sections DV: IQ gain ANOVA utiliza NHST, se utiliza la prueba F

F tiene una familia de distribuciones, estas dependen de Nmero de sujetos en el grupo y el nmero de grupos.

Yj Son las medias de los grupos Yt es la media general.

( Yij son los resultados individuales. Yj Son las medias de los grupos.

Efecto de tamao se revisa utilizando eta cuadrado.

Supuestos DV es continua (interval o ratio variable) y est normalmente distribuida. Se supone homogeneidad de varianzas, prueba de levene. Si est es significativa, se debe realizar una comparacin de parejas usando un trmino de error restringido. Para determinar los cambios entre grupos, se realiza un anlisis post hoc, en este caso Tukey HSD, La ecuacin para este modelo es: Y = B0 + B1X1 + e

Post Hoc tests.


Sirven para hacer comparaciones entre grupos, sin aumentar el error de tipo I. pueden ser conservadores o liberales, el extremos liberal es no corregir el valor, mientras el procedimiento de Bonferroni es el ms conservador.

Factorial ANOVA
Se utiliza con: Una variable dependiente (DV) Dos variables independientes (IV)

Se pueden plantear tres hiptesis: FA FB FAXB

A es la primera variable independiente y B la segunda. Factorial ANOVA es un caso especial de regresin mltiple, es una regresin mltiple con predictores perfectamente independientes.

Main effect (ANOVA anlisis)

Se refiere al efecto de una variable independiente (IV), ignorando la otra variable. Interaction effect (ANOVA anlisis) El efecto de una variable independiente depende de la otra. Es igual al concepto de moderation. En otras palabras el efecto simple de una variable, cambia a travs de los niveles de la otra variable. Efecto simple (simple effect) El efecto de una variable independiente, en un nivel particular de la otra variable independiente.

MS MEAN SQUARE O error cuadrtico medio.

( (

)( )

Se utilizar: Main effects: Post Hoc tests Interaction: Analiis de efectos simples, mediante one way ANOVA (o T test. )

Effect size

Eta cuadrado completo : Eta cuadrado parcial ( )

Supuestos DV es continuo (intervalo o radio) DV est normalmente distribuido Homogeneidad de la varianza. Ejemplo. 1- Aplicar levenes test, para confirmar homogeneidad de la varianza. 2- Realizar anlisis de varianza, en este en el ejemplo dado todos los valore dieron significativos. 3- Revisar el efecto de la variable A en cada nivel de B o visceversa, para esto se aplica un anlisis t, para realizar las comparaciones. En el grupo de control, es decir ningn tipo de conversacin se presenta que la diferencia no es significativa, mientras en el grupo con baja y altas demandas de conversacin la diferencia es significativa.

Repetead mesures ANOVA


Es equivalente a dependent t-test (t-paired). Se presenta el ejemplo en el que se medan cuatro grupos unos con cero entrenamiento otros con 5, 20, 15, todos con diferentes sujetos y cada uno con tamao de 20 unidades, en vez de esto se propone realizar medicin a 20 personas 4 veces. Pros Cuesta menos, se requieren menos muestras.

Existe mayor poder estadstico. La varianza a travs de los sujetos, puede ser sistemtica, por lo tanto no contribuir al trmino de error.

SS between groups design (SS)

Sistemticos corresponden a la manipulacin y la no sistemtica a las diferencias entre los individuos. La no sistemtica a la diferencia dentro del grupo. (S/A-subjects dentro del grupo A). SS repeated mesures design (SS)

Contras Orden de los efectos Counterbalancing: por ejemplo se tienen dos condiciones A1 y A2, y se tiene preocupacin por el orden de las mismas, por lo tanto se soluciona con un diseo de bloque, por lo tanto se asigna a la primera mitad A2, A1 y a la segunda mitad A1, A2. Es decir se asignan en el orden 1 o en el orden 2. Otra opcin en un diseo randomizado, aleatoriamente se asignan las condiciones. Otra opcin es utilizar un mtodo denominado Latin squares, no

es un contrabalance, pero permite que cada condicin aparezca en cada posicin al menos una vez. MIssing data: por ejemplo si uno de los sujetos de estudio no se presenta. Se debe considerar el monto relativo de la perdida de datos, que monto de perdida de datos est bien? Y cunto no? no hay reglas especficas, se dice que mes de 10% es aceptable, ms no. Es est perdida de datos un patrn o es legitimo, para esto se debe crear una variable adicional por cada variable X->XM XM= 0 si X est perdido y XM=1, si no. Hacer un t-test, con XM cmo IV, si es significativo el resultado, entonces es legitima la perdida de datos. Se pueden eliminar los datos incompletos, es drstico, pero si se tienen muchos datos no importa. Estimar datos faltantes con multiple regresin. Extra assumption

Esfericidad
Se supondr para este caso que: Homogeneidad de la varianza Homogeneidad de la covarianza. Se refiere a que los valores de correlacion entre las variables es muy parecido (o lo que es lo mismo los coeficientes en el caso estandarizado). Utilizar Mauchlys test, despus ajustar con Greenhouse Geiser o Huyn Feldt.

One-way ANOVA is to the independent t-test as repeated measures ANOVA is to: dependent t-test An experiment with a repeated measures design shows that some subjects perform better in all the conditions than other subjects. This is an example of: systematic variance that is not
included in the error term

Prueba de Chi cuadrado bondad de ajuste (goodness of fit)


Todos los anlisis realizados previamente, asumen una distribucin normal. Y las salidas eran variables continuas, en caso de que todas las variables sean categricas. Por ejemplo: Diagnstico (positivo, negativo) Veredicto (culpable, inocente) Voto (Candidato a, candidato b y candidato c)

Determina que tan bien una distribucin de proporciones se ajusta a una distribucin esperada. (en elecciones, existe una diferencia significativa de votos entre los candidatos)

Hiptesis nula= proporciones iguales, alternative hiptesis-> diferentes proporciones. ( )

O= observado E= esperado Df = nmero de categoras 1 p-value, depende de phi y de los grados de libertad. Se complementa el anlisis con un estimado del efecto de tamao. Cramers V (or Phi) ( )

N= simple size K= No de categoras.

Prueba de Chi cuadrado independencia


Determina si hay una relacin entre dos variables categricas. (en elecciones, existe una relacin entre el gnero y la preferencia de voto?) Hiptesis nula= no hay relacin entre los gneros de los votantes y sus preferencias, alternative hiptesis-> existe una relacin entre los gneros de los votantes y sus preferencias.
( )

O= observado E= esperado Df = (nmero de filas 1) * (nmero de columnas 1) p-value, depende de phi y de los grados de libertad. Se complementa el anlisis con un estimado del efecto de tamao. Cramers V (or Phi) ( ) N= simple size K= Nmero de filas o de columnas (el que sea menor) ( )

E= frecuencias esperadas (este valor se calcula para cada celda) R= nmero de entradas en la celda de la fila (total de la fila) N = Nmero total de entradas (total de totales, sea fila o columna) C= Nmero de entradas en la celda de la columna (total de la columna).

Supuestos Cuentas de celdas adecuadas: una regla comn es 5 o ms en cada celda en una tabla de 2X2 y cinco o ms en 80% de las celdas si se tienen tablas ms grandes y no celdas con cero. Fishers test o no paramtricos test, deberan aplicarse si no se cumple el anterior supuesto. Se supone que las observaciones son independientes unas de otras. Chi cuadrado no puede ser usado, para evaluar datos correlacionados (como parejas relacioandas o datos de panel). En casos como los anteriores, la prueba de McNemmar de proporciones dependientes es recomendada.

The chi-square test of independence is appropriate when testing the relationship between what type of two variables? Two categorical variables that each have two or more levels.

Binary logistic regression


Es un mtodo apropiado cuando se debe inferir una variable binaria a partir de variables continuas y /o categricas. Es la misma lgica de regresin mltiple, pero la variable de salida es categrica o binaria. -cuando la variable tiene dos niveles, se utiliza regresin binaria logstica. - cuando la variable tiene ms de dos niveles, mltiples niveles, Regresin mltiple

El lado izquierdo de la funcin se denomina funcin logstica, que bsicamente entrega valores entre 0 y 1. Probabilidad= P(salida)/(1-P(salida)) Logit = (

), el valor se debe convertir en probabilidad, para tener un anlisis ms fcil de su

significado. To evaluate individual predictors in a binary logistic regression, the two statistics to consider are: Odds ratio and wald test. To evaluate the overall model in a binary logistic regression, the two statistics to consider are: Classification success (porcentaje de casos clasificados correctamente) and model chi-square

Repaso de supuestos
Correlacin
Distribucin normal de X y Y. Relacin lineal entre X y Y. Homocedasticidad

Para comprobar Graficar histogramas y dispersin. Obtener estadsticas de resumen.

Regresin
Distribucin norma en Y Relacin lineal entre X y Y. Homocedasticidad Correlacion entre variables predictoras <.08- No Multicolinealidad

Para comprobar Graficar histogramas y dispersin. Obtener estadsticas de resumen.

t- tests
Distribucin normal en Y (DV) Homogeneidad de la varianza. Tamao de muestra equivalente Levenes test.

Between groups and factorial ANOVA


Distribucin normal en Y (DV) Homogeneidad de la varianza. Tamao de muestra equivalente Levenes test.

Repeated measures ANOVA


Distribucin normal en Y (DV) Sphericity Assumption o Homogeneidad de la varianza o Homogeneidad de la covarianza Tamao de muestra equivalente

Levenes test. Mauchlys test.

Chi cuadrado
Independencia Adecuados valores esperados por celda.

Potrebbero piacerti anche