Sei sulla pagina 1di 9

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-1

UNIVERSIDAD DE JAN

Material del curso Anlisis de datos procedentes de investigaciones mediante programas informticos
Manuel Miguel Ramos lvarez

ndice 9.

M I T P L G E L T R N R I I E I C V S A A A L C R I I A N D A O N A X U E I T P L G E L T R N R I I E I C V S A A A L C R I I A N D A C O N MA A IX X E EX X MU U RE E I T P L G E L T R N R I I E I C V S A A A LI C R I I A NM D AC C O NR

Acercamiento con el fin explicativo: anlisis inferencial orientado a Regresin. ................ 2 9.1. Bases de Regresin Lineal.............................................................................. 2 9.2. Anlisis tipo regresin en el contexto Multivariado ............................................. 3 9.2.1. Bases de Regresin mltiple ....................................................................... 3 9.2.2. El caso general: anlisis de regresin de modelos complejos ........................... 3 9.2.3. Anlisis de correlacin cannica................................................................... 6 9.3. Secuencia de investigacin en el Anlisis de Regresin Multivariante .................... 9

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-2

9. Acercamiento con el fin explicativo: anlisis inferencial orientado a Regresin.


9.1. Bases de Regresin Lineal
Todas las predicciones del modelo, Yi , descansan sobre la lnea recta. Los errores de prediccin residuales, ei = Yi Yi , se definen como la distancia vertical entre los puntos de datos y la recta. Los parmetros: o El parmetro de interseccin B0 corresponde al valor de Yi cuando Xi es cero o punto de origen de la recta. La pendiente B1 cuantifica el cambio en Yi por cada incremento unitario en Xi. Bien postivo (crecimiento en el criterio conforme aumenta el predictor) bien negativo (decrementos en el criterio correspondiendo a incrementos en el predictor). Para adoptar decisiones de significacin estadstica se compara el valor de F con un valor crtico obtenido a partir del modelo de distribucin F segn el nivel de significacin que imponemos. Si el valor de F asociado a la magnitud RPE supera el valor crtico, entonces nos inclinamos en contra de la Hiptesis Nula, o lo que es equivalente, a favor del modelo Ampliado frente al modelo Compacto y al contrario si el valor es inferior.

A) Anlisis global de la regresin lineal

Reducc . Err. AMP Error AMP Error COM

Fuente Regres. Err. o Residual Total

SC gl ( ) MC Fk 2 p

Fk =

MCR MC

RPE / gl (1 RPE ) / gl

*p

2 =

SCR SCE (COM )

Supuesto M2 Analizar Regresin lineal Dependiente: ExCard; Independientes: Cigarrillos; Estadsticos Estimaciones Continuar Aceptar Statistics Multiple Regression Variables: Dependent: ExCard; Independent: Cigarrillos OK AceptarPestaa Advanced Summary ANOVA Pestaa Residuals

B) Anlisis de los parmetros Para B0 comparar los modelos:

AMP : Yi = 0 + 1 X i + i 0 : 0 = 0 COM 1: Yi = 1 X i + i 1 : 0 0 AMP : Yi = 0 + 1 i X i + i 0 : 1 = 0 COM 2 : Yi = 0 + i 1 : 1 0

Para B1 entonces compararamos:

C) Resumen del Modelo Los Intervalos Cofidenciales, para la interseccin y para la pendiente Para estimar la potencia estadstica nos basaremos en RPE como medida del efecto de tratamiento, o mejor la medida ajustada, y a partir del mismo buscaremos en las curvas de potencia o mediante un programa especializado (i.e. Mdulo Statistica: Power Calculation).

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-3

9.2. Anlisis tipo regresin en el contexto Multivariado


9.2.1.

Bases de Regresin mltiple

Evaluar la significacin de cada uno de los predictores a travs de su pendiente asociada:

AMP : Yi = 0 + 1 X 1i + 2 X 2i + + p 1 XP 1i + p XPi + i 0 : P = 0 COM 1: Yi = 0 + 1 X 1i + 2 X 2i + + p 1 XP 1i + i 1 : P 0

La correlacin que interviene en la estimacin del parmetro es bsicamente una correlacin semiparcial en la que se controla el influjo del resto de predictores secundarios. Informa del influjo de una variable relevante sobre el predictor objetivo de manera selectiva, asociacin o interrelacin entre los predictores en el modelo general. r( X 1 X 1')Y . Cunto se incrementa la correlacin mltiple al aadir una variable predictora en la ecuacin de regresin, o, de otra manera, la correlacin semiparcial de esa variable aadida con el criterio, parcializando el influjo sobre dicha variable objetivo de los otros predictores que ya estaban incluidos en el modelo.
2

RPE ( ) equivale directamente al coeficiente R2

Reducc Err.SAT Reducc Err. AMP1 Error SAT Error COM

Fuente Regres X1 Xp Err. Residual Total

SC gl ( ) MC Fk 2 p

Fk =

MCR MC

RPE / gl (1 RPE ) / gl

2 =
*p

SCR SCE (COM )

12 =

SCR1 SCE (COM 1)

Supuesto M2.1 Analizar Regresin lineal Dependiente: Ex.Card; Independientes: Hostilidad, Estres; Estadsticos Estimaciones Continuar Aceptar Statistics Multiple Regression Variables: Dependent: ExCard; Independent: Hostilidad, Estres OK AceptarPestaa Advanced Summary ANOVA Pestaa Residuals

Conceptos destacados: Redundancia. La correlacin


2 Rp es la medida RPE obtenida cuando se emplea a todos

los predictores p-1 restantes en la prediccin del predictor focal p, a modo de asociacin entre predictores. A veces su complementaria: medida de tolerancia, lo que es nico para Xp en la prediccin. Si la tolerancia asociada a un predictor Xp es baja entonces Xp ser poco til en la prediccin. 1 R p
2

Incluso la inversa de la tolerancia, exactamente lo que entra en el intervalo de confianza, recibe un nombre: el factor de inflacin de la varianza (VIF: Variance Inflation Factor).

9.2.2.

El caso general: anlisis de regresin de modelos complejos

1 2 (1 R p )

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-4

A) Regresin simultnea (estndar) Todas las variables independientes se introducen a la vez en la ecuacin de prediccin. B) Regresin mltiple secuencial o jerrquico Se introducen en la ecuacin de modo progresivo (por bloques) de acuerdo con un criterio terico especificado por el investigador. Puesto que en ella ya hay algn predictor presente, lo que se evala es la aportacin que hace la nueva variable a la prediccin. Variantes: Introducir (Regresin). Procedimiento para la seleccin de variables en el que todas las variables de un bloque se introducen en un solo paso. Borrar. Procedimiento de seleccin de variables en el que todas las variables de un bloque se eliminan en un solo paso. C) Regresin mltiple o paso a paso El orden en que entran las variables en la ecuacin de prediccin puede establecerse por criterios estadsticos en lugar de tericos o lgicos. El mtodo de regresin interactivo regresin paso a paso que va incorporando (forward o hacia delante) o eliminando (backward o hacia atrs) sucesivamente variables, o una mezcla de ambos eliminando-introduciendo de manera convergente (stepwise regression o por etapas). El objetivo general es explicar un porcentaje de varianza del criterio similar al explicado por el total de predictores. o Se fija un nivel de significacin, lo que impone un umbral de inclusin de variables. o En el mtodo incremental, se calculan las correlaciones de todos los predictores con el criterio y se selecciona la variable con mayor correlacin, siempre que supera el umbral de inclusin (F-entrar). o A continuacin se elige el siguiente mejor predictor pero segn la correlacin parcial para controlar la influencia del predictor que ya estaba en el modelo y siempre que vuelva a superar el umbral. o As sigue el procedimiento hasta que el incremento en correlacin mltiple deja de ser significativo, es decir no sobrepasa el umbral. o La otra variante opera a la inversa (segn Fsalir). o Tambin se puede plantear por bloques o secuencial (variante anterior).

Supuesto M2.3 Analizar Regresin lineal Dependiente: Y; Independientes: X1, X2, X3, X4; Mtodo: Introducir Estadsticos: Matriz de covarianzas; Correlaciones Parcial y Semiparcial Continuar Aceptar Statistics Multiple Regression Pestaa Advanced Variables: Dependent: Y; Independent: X1, X2, X3, X4; Advanced Options & Review descriptive OK OK Method: Standard

Supuesto M2.3 Analizar Regresin lineal Dependiente: Y; Independientes: X3, X4; Bloque Siguiente X1, X2 Aceptar Statistics Multiple Regression Method: Standard (forward stepwise/ backward stepwise)

Supuesto M2.3 Analizar Regresin Lineal Independiente: Y Dependientes: X1, X2, X3, X4 Mtodo: Hacia delante (Hacia atrs/Pasos sucesivos) Opciones Probabilidad de F: Entrada: 0.05; Salida: 0.10 Continuar Aceptar Statistics Multiple Regression Method: Standard (forward stepwise/ backward stepwise)

Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-5

Problemas Si los predictores son redundantes (recordar los conceptos asociados como tolerancia o tasa de Inflacin), entonces el algoritmo implementado por algunos programas especializados no lleva a modelos realmente ptimos. Adems, la interpretacin del modelo resultante puede ser difcil. Siempre es preferible realizar un anlisis guiado por hiptesis de investigacin que doten de sentido a los resultados del anlisis estadstico. Los criterios estadsticos pueden promover que diferencias mnimas entre variables pueden llevar a excluir a unas a favor de otras. F-entrar < F-salir, para que la variable que acaba de entrar no sea inmediatamente eliminada de la ecuacin. o Para introducir muchas variables en la ecuacin: incrementar la probabilidad (i.e. 0.10 mejor que 0.05). o Para ser exigente con las variables que queden en la ecuacin: probabilidades de salida bajas (i.e. 0.05 en lugar de 0.10). Comparacin mtodos: o Simultneo. para realizar predicciones/ comprobar correlaciones. o Por etapas. Si el objetivo es la construccin de un modelo de regresin, tanto ms interesante cuanto mayor nmero de variables y si no tenemos modelos tericos que guen el anlisis. o Secuencial. Si hemos medido variables independientes por razones tericas, que no est orientado a la construccin de modelos, sino a su contraste. Si la investigacin incluye muchos predictores estar claramente enfocada desde el punto de vista correlacional/covariacional y ser preferible realizar los anlisis dentro de la perspectiva especializada de anlisis causal, en la que se corrige el problema de colinealidad. Recordar la posibilidad de incluir la interaccin en el modelo o bien Modelos Polinmicos para Relaciones curvilneas. Para evaluar la interaccin o efecto conjunto de los dos predictores: Modelos Polinmicos: Cuadrtica u orden-2: = AMP : Y 0 + 1 X i + 2 X i2 + 3 X i3 0 : 2 = 0 i 3 COM : Yi = 0 + 1 X i + 3 X i 1 : 2 0 Cbica u orden-3:
AMP : Yi = 0 + 1 X i + 2 X i2 + 3 X i3 0 : 3 = 0 2 COM : Yi = 0 + 1 X i + 2 X i 1 : 3 0

SAT : Yi = 0 + 1 i X 1i + 2 i X 2i + 3 i X 1i X 2i + i COM : Yi = 0 + 1 i X 1i + 2 i X 2i + i
Supuesto M2.1 Primero Creamos la interaccin: Transformar Calcular Interacc = Hostilidad * Estres; Aceptar. Entonces Anlisis regresin: Analizar Regresin lineal Dependiente: Ex.Card; Independientes: Hostilidad, Estres, Interacc,; Estadsticos Estimaciones Continuar Aceptar Analizar Estadsticos Estimaciones, Intervalos de confianza, Correlaciones parcial y semiparcial, Diagnsticos Colinealidad Statistics Advanced Linear/NonLinearGeneral Linear Models Factorial Regression OK Variables: Dependent: Ex.Card; Predictor: Hostilidad, Estres OK AceptarPestaa Summary Coefficients Pestaa Advanced Summary ANOVA Pestaa Residuals Pestaa AdvancedPartial Correlations & Redundancy & Current sweep matrix.

Supuesto M2.2 Analizar Regresin Estimacin curvilnea Dependientes: Y; Independiente: X1; Modelos: Lineal, Cuadrtico, Cbico Aceptar. Statistics Advanced Linear/NonLinearGeneral Linear Models Polynomial Regression Una vez definidas las variables, el Botn Between Effects permite ampliar la complejidad del modelo polinmico.

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-6

9.2.3.

Anlisis de correlacin cannica

1) Cundo se puede emplear la tcnica? Para ajustar modelos de regresin lineal pero entre dos conjuntos de variables ms que entre variables aisladamente. Usualmente servir para predecir un conjunto a partir del otro aunque en origen los dos conjuntos de variables tienen el mismo estatus. Cuando se hayan medido a varios sujetos dos conjuntos de variables (mtricas todas ellas) diferentes, e interese determinar si los conjuntos correlacionan.

2) Bases conceptuales de la tcnica Se logra computando un coeficiente de correlacin entre sendos conjuntos. Se combinan linealmente (se suman) las variables de cada conjunto por separado segn una suma ponderada y normalizndolas para evitar las diferencias dadas por la escala. Cada una de las sumas es el variado cannico del conjunto. Los pesos se estiman para maximizar la correlacin entre los dos conjuntos. Por tanto, la correlacin cannica es la correlacin lineal entre dos variados cannicos. Como vimos en las bases de anlisis Multivariado, habr ms de un coeficiente de correlacin cannico pues hay ms de un variado normalmente. Pero nicamente nos quedaremos con los que resultan significativos. Podremos construir, todas las matrices de correlacin y combinarlas en la supermatriz M RYY entre las variables de uno de los dos conjuntos. RYY RYX R XX entre las variables del otro de los M = R dos conjuntos. XY R XX RYX, y su complementaria RXY, que es entre sendos conjuntos. A partir de M, se invierten RYY y RXX para obtener una matriz R:
1 1 R = RYY RYX R XX R XY ,

Por lo dems se aplican las bases de ajuste multivariado, para obtener los valores propios de R, y entonces los vectores propios a partir de la ecuacin determinantal:
1 1 RYY RYX R XX R XY 2 I = 0 .

Supuesto M2.4 En SPSS, en el editor de sintaxis ejecutamos la orden: manova E D with P S /discrim all alpha (1) /print=sig(eigen dim) Statistics Multivariate Exploratory Technics Canonical Analysis Variables: ALL Ok Variables for canonical analysis First variable list: E, D; Second variable list: P, S > Ok Ok Canonical factors Eigenvalues Canonical Scores Left & right set canonical weights.

Interpretacin:

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-7

Aunque las correlaciones cannicas constituyen el clculo ms destacado, hay otras estimaciones de inters. A) Las correlaciones cannicas se obtienen a partir de la raz cuadrada de los valores propios y el porcentaje de varianza compartida a partir de la traduccin en porcentajes de los mismos. La significacin de cualquier coeficiente de correlacin cannica puede contrastarse mediante el test de Bartlett,

= (1 i )
i =1

que se aproxima a una chi-cuadrado segn:


2 = N 1 ab

a + b + 1 2 ln ; ab 2

a y b son el nmero de variables en los conjuntos X e Y N es el nmero total de sujetos. B) Los pesos para combinar linealmente las variables de cada conjunto nos informarn de la importancia relativa de cada una. Para ello tendremos que operar en los dos sistemas siguientes:

(R (R

1 YY 1 XX

1 RYX R XX R XY 2 I b = 0 ; para los pesos del conjunto Y 1 R XY RYY RYX 2 I a = 0 ; para los pesos del conjunto X

) )

Mejor las cargas cannicas (correlacin entre cada variable y sus variados) para muestras pequeas. C) La Varianza de las variables observadas en cada conjunto por cada variado cannico.
2 2 a cLi cRi pY = y pX = ; donde c son las cargas cannicas i =1 b i =1 a b

D) La redundancia viene dada por:

RY / X = RVi /Wi RVi / Wi = pW i

Es decir la suma de las redundancias del conjunto Y. Y cada redundancia se obtiene con el producto de la varianza por la raz asociada al variado. Interpretacin Supuesto M2.4 (tomado de Catena, Ramos y Trujillo (2003): Valores propios Races Raz 1 Vectores de pesos Variables E D Cargas cannicas Variables E
D

Raz 2

Valor 0,833791 0,070008 Raz 1 -0,9058 -0,1616 Raz 2 -0,7457 1,1621 Variables P S Raz 1 0,33479 -0,7923 Raz 2 1,0975 0,8299

Raz 1 -0,990
-0,636

Raz 2 -0,138
0,772

Variables P
S

Raz 1
-0,956

Raz 2 0,690
0,292

0,723

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-8

3) Variantes principales de la tcnica. En esta tcnica sencilla no hay variantes pues las estimaciones son siempre de este tipo. Lo nico que podra suceder es que se complicara el anlisis por mayor nmero de variables en cada uno de los conjuntos. 4) Alternativas No Paramtricas y Robustas Anlisis de regresin cannica no lineal (OVERALS) mediante Escalamiento ptimo en el men: Analizar Reduccin de datos Escalamiento ptimo 5) Limitaciones, supuestos y condiciones de aplicacin Linealidad. Grfico Predichos (abcisas) vs Errores de prediccin (ordenadas). Multicolinealidad y Singularidad. El diagnstico de la multicolinealidad se realiza a travs de la tolerancia. Alternativas: regresin sesgada (ridge regresin) o regresin por componentes principales (los Variados son los predictores). Normalidad Multivariada. Grficos de de probabilidad normal y Prueba de KolmogorovSmirnov o de Shapiro-Wilks. Alternativa No paramtrica basada en la prueba de BrownMood Problema de puntos extremos. Estadsticos de influencia indebida. Alternativa robusta basada en los MM-Estimadores de regresin Tamao muestral: n>50+8p. Para detalles ver el captulo 6 (Apdo.4) del manual de Catena, Ramos y Trujillo (2003).

Manuel Miguel Ramos lvarez

Curso de Anlisis de investigaciones con programas Informticos

IX-9

9.3. Secuencia de investigacin en el Anlisis de Regresin Multivariante


Para detalles ver el captulo 6 (Apdo.5) del manual de Catena, Ramos y Trujillo (2003).
2) Diseo de investigacin 1) Problema de investigacin Qu predictores (factores) son los que explican la variabilidad observada en el criterio a) Qu predictores medir b) Son categricas o mtricas c) Qu variables controlar (mediadoras o terceras variables) d) Cmo controlar variables mediadoras

3) Evaluacin de supuestos y limitaciones a) b) c) d) e) f) Linealidad Multicolinealidad Normalidad multivariada Homocedasticidad Puntos extremos y/o Atricin Sensibilidad muestral

R. Robusta o No Paramtrica Problemas Supuestos Alternativas: Regresin Robusta Regresin sesgada Por Componentes Principales y Causal Reducir Multicolinealidad creando Variados

Se cumplen?

N S
N Criterios Estrategias paliativas tipo transformacin de los datos o eliminacin de casos completos

1
Regresin Lineal

>1
Regresin Cannica

Modelos muy complejos

4) Aplicacin del anlisis regresin

Anlisis Causal o de Ecuaciones Estructurales

Componentes principales

a) Es significativa la prediccin b) Son significativos los coeficientes de

c) Cul es la importancia de cada predictor

regresin de los distintos predictores

5) Interpretacin resultados

a) b) c) d)

Se resuelve el problema? Otras investigaciones derivadas Importancia terica resultados Usar soluciones convergentes para diferentes mtodos de estimacin

[6) Comunicacin resultados] Informe de investigacin tipo APA

Volver Principio

Potrebbero piacerti anche