Sei sulla pagina 1di 37

ESTADISTICA II: “Introducción al Análisis

Multivariado de Datos”

Flexibilidad Curricular
Universidad de Nariño

Arsenio Hidalgo Troya - Docente


Análisis Multivariado de Datos
Contenido sintético:
 Introducción
 Variables y transformación de variables
 Matrices de Datos
 Exploración de los Datos
 Clasificación de técnicas Multivariadas
 Etapas de un análisis Multivariado
 Métodos de Dependencia con SPSS

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
INTRODUCCIÓN
 Las técnicas multivariantes herramienta analítica explicar el comportamiento
de una serie de datos y predecir sus posibles resultados a través de Modelos
Estadísticos.

 Análisis Exploratorio de los datos disponibles, antes de aplicar cualquier tipo


de análisis multivariante.

 Análisis univariante, bivariante, multivariante.

 Tres clases de técnicas multivariantes, teniendo en cuenta las escala de


medida de las variables que intervienen en el análisis.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

VARIABLES, MEDIDAS Y ESCALAS.


 Las variables: características no uniformes de las unidades de información.

 Unidades: entidades de las que se obtienen las observaciones

 Medición: proceso por el que se asignan números a las observaciones de una variable.

 Medida: observación cuantificada o categorizada.

 Una misma variable puede ser medida de diversas maneras.

 Medidas debe ser válidas y fiables: Válida cuando mide lo que pretende medir, Fiable si al
repetir la medición en circunstancias similares se obtiene el mismo resultado.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
VARIABLES, MEDIDAS Y ESCALAS.
Representación de variables : X, Y, Z ... Etc.

X: variable medible, xi : valor de variable X en observación i .

Clasificación según rol:


 Variable dependiente (explicada, respuesta, predicha o pronosticada): variable
que se quiere explicar
 Variable independiente (explicativa, factor, predictiva o regresora): variable
que explica la variable dependiente
 Variable interviniente (de confusión): variable que no es de interés pero
también explica la variable dependiente

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

VARIABLES, MEDIDAS Y ESCALAS.


Variables dependientes: comportamiento explicado o pronosticado por una o
mas variables independientes (explicada, criterio o respuesta).
En Investigaciones no experimentales el contexto de la investigación decide rol de
las variables.

Una misma variable diferentes roles en distintas situaciones.

En algunas situaciones todas las variables tienen el mismo estatus, se tiene


relaciones de interdependencia entre variables. No hay variables dependientes e
independientes.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
NATURALEZA DE LASVARIABLES
Clasificación según su naturaleza:

 Cualitativas (categóricas o no métricas): indican a qué grupo o


categoría pertenece un individuo (grupo sanguíneo, estado civil, etc.).
Pueden ser Dicotómicas o Politómicas.

 Cuantitativas (métricas) : la variable toma valores numéricos con los


que tiene sentido hacer operaciones aritméticas. Pueden ser Continuas o
Discretas.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
ESCALAS DE MEDIDA

 Escala nominal: Las categorías pueden ser nombres o números,


pero los números no indican orden ni diferencias en magnitud.
 Escala ordinal: variable en categorías que se pueden ordenar.
(Clase social, nivel de estudios, etc.)
 Escala de intervalo: existe escala numérica, cero se fija en
función del instrumento de medida, no significa ausencia de la
característica estudiada. Temperatura (o C, o F, etc.)
 Escalas de razón (cociente o proporción): son escalas
numérica con un cero absoluto. Peso, edad, distancia, etc.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
TRANSFORMACIÓN DEVARIABLES
1. Variable Cuantitativa en Categórica: rangos de valores para formar grupos. S

2. Variable Categórica en Cuantitativa: variables ficticias, llamadas variables


dummy o indicadoras.

3. Puntuaciones típicas o Estandarizadas:

Z = (X - 𝑋 )/ S

I = (X – Min) / (Max –Min)

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
TRANSFORMACIÓN DEVARIABLES
4. La combinación lineal de variables: La mayor parte de las técnicas multivariables
combinan las variables de alguna forma "útil“, llamada variante.
Una combinación lineal es una suma ponderada de las variables, para un conjunto k de
variables observadas tendremos

V = w1 X1 + w2 X2 + ... + w k X k

V es la nueva variante o combinación lineal, y X j y w j representan las variables


originales y sus pesos o ponderaciones, respectivamente (j = 1,2, k).

En cuanto al número de variables que interesa incluir en un análisis multivariante como


regla general se debe observar la llamada parsimonia científica, es decir obtener la
mejor solución con el menor número posible de variables.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

MATRICES O BASES DE DATOS

Datos: conjunto de valores que representan las puntuaciones de n


unidades de análisis sobre k variables.

Variables cuantitativas: puntuaciones numéricas

Variables cualitativas: códigos numéricos que representan niveles


diferentes de la variable categórica (soltero, casado, viudo, etc.)

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
MATRICES O BASES DE DATOS
Los datos de los n individuos en las k variables se disponen en una matriz X i j ,
i=1...n , j=1... k

X11 X12 …… X1k


X21 X22 …… X2k
…… …… …… ……
Xn1 Xn2 …… Xnk

Se introducen en el un computador como una BASE DE DATOS y serán


procesados por el programa SPSS u otro similar.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

OTRAS MATRICES IMPORTANTES


Matriz de Varianzas-Covarianzas: Matriz C que tiene como elementos
en la diagonal principal las varianzas de cada una de las variables y como
elementos externos a la diagonal, las covarianzas entre las variables.

Matriz de correlaciones R: Matriz R, que contiene los coeficientes de


correlación entre las variables analizadas en el estudio, tiene unos en la
diagonal principal y los elementos externos a la diagonal son las
correlaciones entre las variables indicadas por la fila y columna
correspondiente.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

OTRAS MATRICES IMPORTANTES


Matrices de proximidad (similaridad o disimilaridad): Matriz que refleja la
proximidad (similaridad) entre dos puntos en un espacio de n dimensiones (que no se
puede representar físicamente, si n es mayor que 3). De igual forma, a medida que los
sujetos son mas diferentes (disimilares) los puntos que los representan estarán más alejados.

Las matrices proxidad pueden estar formadas por diferentes índices, según el nivel métrico
de las variables y el procedimiento de recogida de datos.

Un tipo especial de medida de proximidad (disimilaridad), del que se parte y/o al que se
llega en algunas técnicas multivariantes es la distancia, que da lugar a las denominadas
matrices de distancia entre objetos o unidades (de orden nxn) con elementos d i j que
representa la distancia entre un objeto i representado en la fila de la matriz y un objeto j
indicado en la columna.
Arsenio Hidalgo Troya
Análisis Multivariado de Datos

LOS RESIDUOS
Diferencia entre los valores reproducidos (estimados) y los valores observados, es
una medida de la mayor o menor eficacia del modelo. Cuanto menores sean los
residuos mejor ajuste proporcionará el modelo.

La suma de los residuos de toda la muestra generalmente es cero, se trabaja con los
valores de los residuos al cuadrado (residuos al cuadrado). Cuando los valores
observados son cercanos a los valores pronosticados, la predicción es buena y los
errores al cuadrado son pequeños.

En algunas técnicas multivariantes la distribución de los residuos se usan para


evaluar si se cumplen algunos de los requisitos requeridos para usar la técnica.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

ANÁLISIS EXPLORATORIO DE LOS DATOS


Antes de aplicar una técnica multivariante, se debe estudiar la distribución
de las variables

Este estudio inicial de los datos tiene varios objetivos:


 Detección de observaciones aisladas o extremas (outliers),
 Tratamiento de los casos perdidos (missing data)
 Comprobación de los supuestos que han de cumplir los datos para poder
aplicar la técnica multivariable en cuestión (Linealidad, Normalidad,
Homocedasticidad , Independencia)

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
Detección de casos aislados o atípicos
Observaciones con valores extremos en una variable o en una combinación de variables.
Pueden convertirse observaciones influyentes que distorsionan los resultados y dar
lugar a resultados no generalizables.

Pueden presentarse por las siguientes razones:


 Introducción incorrecta de los datos en el archivo por errores de grabación o
codificación. (se detectan con un análisis de frecuencias, se pueden corregir o eliminarlos
y tratarlos como casos perdidos).
 El caso no pertenece a la población objeto de estudio de la que se ha obtenido la
muestra. (eliminar el caso).
 El caso pertenece a la población, pero tiene un valor extraño en relación a los restantes
casos. (se debe decidir si el dato se detiene o se excluye del análisis).

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
DATOS AUSENTES O PERDIDOS
Un problema muy frecuente del análisis multivariante es la presencia de datos ausentes (en
encuestas como consecuencia de la no respuesta).

Puede generar sesgo en los resultados del estudio.


Preguntas: ¿difieren estos sujetos de los que contestan a todas las preguntas? ¿Tienen estas
diferencias impacto sobre los resultados de la investigación?.

Pueden existir dos razones para la presencia de datos ausentes:


 Procesos sistemáticos externos a los sujetos (problemas de recogida de datos o errores
de transcripción o grabación).
 Acción del sujeto que responde de dejar de hacerlo a ciertas preguntas.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

Tratamiento de casos perdidos


Hay dos opciones para tratar los datos perdidos.
 Eliminar los casos con datos incompletos (opción mas simple-por defecto)
 Usar algún procedimiento para asignar un valor al dato perdido (imputación)

Patrón de reparto de los datos perdidos:


Aleatorio: eliminar los casos puede tener como consecuencia una reducción
importante del tamaño de la muestra con lo que no sería posible realizar análisis
multivariantes.
No aleatorio: eliminar los casos con datos perdidos puede introducir sesgos
notables en los resultados.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
Supuestos en los modelos multivariantes
Normalidad.
Supuesto fundamental del análisis multivariante, exigir que la distribución de los datos de
variables métricas sean normales. Resultados no serán válidos si no se cumple esta condición.
Técnicas:
 Normalidad Univariante: gráficos como histograma (muestras grandes) y gráficos de
normalidad, test estadístico de normalidad
 SPSS opción explorar, para la normalidad univariante y test estadísticos basados en el
contraste Kolmogorov-Smirnov, Shapiro Wilks . Gráficos: el histograma, el diagrama de tallo
y hojas el diagrama de cajas y especialmente q-q plot, es una linealización de la distribución
normal
 Normalidad multivariante: variables individualmente normales y sus combinaciones también.
Más difícil de contrastar, existen varios test para cuando la técnica multivariante exige este
supuesto con los residuos.
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
Homocedasticidad
Supuesto relativo básicamente a las relaciones de dependencia entre variables. Se
refiere a que las variables dependientes tengan iguales niveles de varianza
a lo largo del rango del predictor de las variables.

Técnica:
Nube de puntos de residuos tipificados (ZRES) frente a observaciones tipificadas
(ZPRED). Si la varianza de los residuos fuera constante, la nube de puntos se
concentra en una banda (centrada en el cero y paralela al eje de abscisas).

Cuando la dispersión no es constante , se puede hacer una transformación en la


variable que permite estabilizar la varianza.

Con una sola variable dependiente: test de Levene en SPSS

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

Linealidad de las relaciones


Establece que la relación entre dos o mas variables es lineal. Fundamental en las técnicas que
se basan en Modelo Lineal General (combinaciones lineales entre variables).
Técnica: Forma mas frecuente es examinar los diagramas de dispersión de las parejas de
variables.

Independencia de las variables.


El valor observado en una variable para un individuo no esté influenciado por los valores de
esta variable en otros individuos. Se hace sobre los residuos (diferencia entre valor
observado y valor predicho por el modelo). No deben tener ningún patrón sistemático de
comportarse respecto a la secuencia de observación.
Técnica: Estadístico Durbin Watson, D, mide autocorrelación entre el residuo de una
observación con la anterior. D cercano a 2 , los residuos no tienen autocorrelación, D
cercano a 4 autocorrelación negativa y D próximo a cero, autocorrelación positiva.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
LAS TÉCNICAS MULTIVARIANTES
Análisis Multivariante: conjunto de métodos estadísticos cuya finalidad es analizar
simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias variables
medidas para cada individuo ú objeto estudiado.

Permite mejor entendimiento del fenómeno objeto de estudio obteniendo información que los
métodos estadísticos univariantes y bivariantes son incapaces de conseguir.

Los pasos que se han de dar para realizar un análisis multivariable son:
1. Establecer los objetivos del análisis
2. Diseñar el análisis
3. Evaluar las hipótesis subyacentes a la técnica a utilizar
4. Realizar el análisis
5. Interpretar los resultados obtenidos
6. Validar dichos resultados

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
CLASIFICACIÓN DE LAS TECNICAS MULTIVARIANTES
1. Métodos de dependencia. Variables analizadas se dividen en dos grupos: las
dependientes e independientes. Objetivo: determinar si el conjunto de variables
independientes afecta al conjunto de variables dependientes y de qué forma.

2. Métodos de interdependencia. No distinguen entre variables dependientes e


independientes. Objetivo: identificar qué variables están relacionadas, cómo lo están y
por qué.

3. Métodos estructurales. Variables están divididas en dos grupos: dependientes y las


independientes. Objetivo: analizar, no sólo como las variables independientes afectan a
las variables dependientes, sino también cómo están relacionadas las variables de los dos
grupos entre sí.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
Tabla 1. Métodos Multivariados de Dependencia.

Variables Dependientes Variables Independientes Modelo

Una Cualitativa Cualitativas Lineal General

Una Cuantitativa Cuantitativas Regresión Lineal Múltiple

Varias Cuantitativas Cuantitativas Correlación Canónica

Una Cuantitativa Cualitativas ANOVA Multifactorial

Una Cuantitativa Cualitativas y cuantitativas ANCOVA

Varias Cuantitativas Cualitativas MANOVA

Varias Cuantitativas Cualitativas y cuantitativas MANCOVA

Una Cualitativa Cuantitativas Discriminante

Regresión Logística

Análisis Conjunto

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

Tabla 2. Métodos Multivariados de Interdependencia.

Variables Agrupación Técnica

Cualitativas Categorias de variables Análisis de Correspondencias

Cuantitativas Variables Análisis Factorial

Cuantitativas y cualitativas Objetos Análisis de Conglomerados

Cuantitativas y cualitativas Objetos Escalamiento Multidimensional

Arsenio Hidalgo Troya


Ejemplo 1 Ejemplo 2 Ejemplo 3

Análisis Multivariado de Datos


Se desea explicar…

Variable Dependiente (Efecto)


Distribución Ingreso Familiar

Ingreso familiar (miles de $)


Trastornos de conducta alimentaria

TCA (si/no)
(TCA)
Permanencia de Estudiante universitario

Graduó (si/no) tiempo (años)


Supuestos o "Causas" que se desean
Años de Escolaridad Jefe de H Autoestima Rendimiento Académico
valorar
Variables independientes Edad Edad Edad

Sexo Nivel social Sexo

Años de Escolaridad IMC Estrato social

Estado civil de padres Ingreso familiar

Comer a solas Escolaridad JHogar

Procedencia

Estado civil estudiante

Tipo Universidad

Acreditación Institucional

Se emplea ……. Regresión Múltiple Regresión Logística Regresión de COX


Arsenio Hidalgo Troya
Por qué? VD es una métrica VD es cualitativa VD es el tiempo hasta Grado
Análisis Multivariado de Datos

Métodos de dependencia:
Si la variable dependiente es cuantitativa o métrica algunas de las técnicas que
se pueden aplicar son las siguientes:

1. Análisis de Regresión: Es la técnica adecuada si en el análisis hay una


variable dependiente métrica cuyo valor depende de una o varias
variables independientes métricas. Por ejemplo, intentar predecir el
gasto anual en cine de una persona a partir de su nivel de ingresos, nivel
educativo, sexo y edad. (Regresión Lineal o no Lineal, Regresión de
Poisson, Regresión de Cox)
2. Análisis de Supervivencia: Es similar al análisis de regresión pero
con la diferencia de que la variable dependiente es el tiempo (de
supervivencia) hasta que ocurre un evento en un individuo ú objeto. Por
ejemplo, intentar predecir el tiempo de desempleo de un individuo a
partir de su nivel de estudios y de su edad.
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
Métodos de dependencia:
3. Análisis de la varianza : Se utilizan en situaciones en las que la
muestra total está dividida en varios grupos basados en una o varias
variables independientes no métricas y las variables dependientes
analizadas son métricas. Su objetivo es averiguar si hay diferencias
significativas entre dichos grupos en cuanto a las variables dependientes
se refiere. Por ejemplo, ¿hay diferencias en el rendimiento académico
por sexos? ¿depende, también, del tipo de programa?.
4. Correlación Canónica: Su objetivo es relacionar simultáneamente
varias variables métricas dependientes e independientes calculando
combinaciones lineales de cada conjunto de variables que maximicen
la correlación existente entre los dos conjuntos de variables. Por
ejemplo, analizar cómo están relacionadas el tiempo dedicado al
trabajo, al ocio y actividades deportivas, de una persona con su nivel
de ingresos, su edad y su nivel de educación
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
Métodos de dependencia:
Si la variable Dependiente es cualitativa algunas de las técnicas que se pueden aplicar son las
siguientes:

1. Análisis Discriminante: Esta técnica proporciona reglas de clasificación óptimas de


nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la
información proporcionada los valores que en ella toman las variables independientes.
Por ejemplo, determinar los ratios financieros que mejor permiten discriminar entre
empresas rentables y poco rentables.
2. Modelos de regresión logística: Son modelos de regresión en los que la variable
dependiente es no métrica. Se utilizan como una alternativa al análisis discriminante
cuando no hay normalidad

Arsenio Hidalgo Troya


Análisis Multivariado de Datos

Métodos de dependencia:

3. Análisis Conjunto : Es una técnica que analiza el efecto de variables


independientes no métricas sobre variables métricas o no métricas. La diferencia
con el Análisis de la Varianza radica en dos hechos: las variables dependientes
pueden ser no métricas y los valores de las variables independientes no métricas son
fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de
Experimentos. Por ejemplo, una empresa quiere diseñar un nuevo producto y para
ello necesita especificar la forma del envase, su precio, el contenido por envase y su
composición química. Presenta diversas composiciones de estos cuatro factores. 100
clientes proporcionan un ranking de las combinaciones que se le presentan. Se
quiere determinar los valores óptimos de estos 4 factores.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
Métodos de Interdependencia:
Se pueden clasificar en dos grandes grupos según que el tipo de datos que analicen sean métricos
o no métricos.
Si los datos son métricos se pueden utilizar, entre otras, las siguientes técnicas:

- Análisis Factorial y Análisis de Componentes Principales: Se utiliza para analizar


interrelaciones entre un número elevado de variables métricas explicando dichas
interrelaciones en términos de un número menor de variables denominadas factores (si son
inobservables) o componentes principales (si son observables). Así, por ejemplo, si un analista
financiero quiere determinar cual es el estado financiero de una empresa a partir del
conocimiento de un número de razones financieras, construyendo varios índices numéricos
que definan su situación, el problema se resolvería mediante un Análisis de Componentes
Principales. Si un psicólogo quiere determinar los factores que caracterizan la inteligencia de
un individuo a partir de sus respuestas a un test de inteligencia, utilizaría para resolver este
problema un Análisis Factorial.

Arsenio Hidalgo Troya


Análisis Multivariado de Datos
- Escalas Multidimensionales: Su objetivo es transformar juicios de semejanza o
preferencia en distancias representadas en un espacio multidimensional. Como
consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos
comparados, de forma que aquéllos percibidos como similares están cercanos unos de
otros y alejados de objetos percibidos como distintos. Por ejemplo, analizar, en el
mercado de refrescos, las percepciones que un grupo de consumidores tiene acerca de
una lista de refrescos y marcas con el fin de estudiar qué factores subjetivos utiliza un
consumidor a la hora de clasificar dichos productos.

- Análisis Cluster: Su objetivo es clasificar una muestra de entidades (individuos o


variables) en un número pequeño de grupos de forma que las observaciones
pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto. A
diferencia del Análisis Discriminante se desconoce el número y la composición de dichos
grupos. Por ejemplo, clasificar grupos de alimentos (pescados, carnes, vegetales y leche)
en función de sus valores nutritivos.
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
Etapas de una análisis multivariante:

1. Objetivos del análisis


Predecir el gasto en recreación de una familia a partir de: el nivel de ingresos familiar, nivel educativo, sexo y
edad del jefe de hogar, lo cual permitiría entender mejor cuáles son las pautas de comportamiento de la
población de hogares. Para ello se propone un análisis de regresión lineal múltiple en el que la variable
dependiente sería el gasto en recreación y las variables restantes serían independientes.
2. Diseño del análisis
Se decide cómo elegir la muestra, el tamaño de la misma y cómo medir las variables implicadas en el análisis.
El gasto en recreación podría medirse como el gasto promedio mensual medido en pesos colombianos. El
nivel de ingresos serán los ingresos mensuales de la familia dadas las reticencias a dar información precisa
sobre este tipo de variables; el nivel educativo sería los años de escolaridad ; el sexo una variable binaria y
la edad una variable cuantitativa medida en años.

El tamaño de la muestra se tomaría en función de la potencia que se quiera dar a la regresión múltiple. Así, por
ejemplo, con un tamaño muestral de 100 observaciones se podría detectar, en una regresión múltiple
lineal, las relaciones con un coeficiente de correlación múltiple (R2) de aproximadamente igual a 0.3 con
una potencia de 80% utilizando un nivel de confianza del 95%. Conviene, además, que la ratio ( razón o
cociente) del número de observaciones al número de parámetros a estimar sea lo suficientemente amplio
para estimar los parámetros del modelo con el menor error posible .
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
3. Hipótesis del análisis
Hay que comprobar la linealidad de la relación, la normalidad y la homocedasticidad. No haya datos ausentes
(missing) y se deben estudiar la posible existencia de ouliers en cada una de las variables.
4. Realización del análisis
Se puede utilizar el estimador de mínimos cuadrados del que se conoce su distribución muestral bajo hipótesis
de normalidad. Se puede también utilizar el método de regresión paso a paso para determinar las variables
independientes a incluir en la regresión. Una vez estimada la ecuación de regresión se estudia la bondad de
ajuste mediante el cálculo de (R2) y el análisis de los residuos. Se estudia la homocedasticidad,
independencia, posible omisión de variables, existencia de outliers e influencia de observaciones
individuales

5. Interpretación de los resultados


Se interpretaría el valor de los coeficientes obtenidos así como su signo teniendo cuidado con la posible
existencia de multicolinealidad

6. Validación del análisis


Se divide la muestra en dos submuestras de tamaño 50 y se vuelve a estimar la ecuación de regresión en cada
submuestra comparando los resultados.
Arsenio Hidalgo Troya
Análisis Multivariado de Datos
Ejemplo:Tabla de datos del estudio sobre Ingreso familiar y Años de Escolaridad del jefe de hogar.

Se trata de un pequeño estudio transversal (n=20) en el que se pretende explorar la asociación de la


Ingreso y Años de Escolaridad.
Se han recogido cuatro variables:
Ingreso familiar (miles de $)
Años de Escolaridad del jefe de hogar
Edad en años cumplidos del jefe de hogar
Sexo del jefe de hogar(0=hombre; 1=mujer)

En la parte de estadística descriptiva se trata de explorar la distribución de las variables cuantitativas y


obtener las medidas resumen de todas ellas, así como sus representaciones gráficas. También es
interesante analizar sus distribuciones y estadísticos sintéticos en los dos grupos que pueden obtenerse
por la variable “Ingreso familiar".

Se realiza un análisis bivariado para establecer la correlación entre las variables independientes y la
variable dependiente.
Análisis Multivariado de Datos
Bibiografia:

Dillon, W. R., and Goldstein, M. 1984. Multivariate analysis: Methods and


applications. NewYork.Wiley.
Hair JF, Anderson RE, Tatham RL, Black WC. Análisis multivariante 5ª ed. Madrid:
PrenticeHall; 1999.
Johnson, R. A. And Wicherrn, D. A. 1998. Applied Multivariate statistical analysis
(4th ed.). Englewood Cliffs, NJ: Prentice-Hall.
Martinez-Gonzalez Editor (2010). Bioestadistica Amigable. Diaz de Santos,
España.
Morrison, D. (1967). Multivariate statistical methods. New York: McGraw-Hill.

Potrebbero piacerti anche