Sei sulla pagina 1di 5

GESTIÓN Y ANÁLISIS DE DATOS ESTADÍSTICOS

MÓDULO 3: PRINCIPIOS DE ECONOMETRÍA APLICADA CON STATA. ALGUNAS


COMPARACIONES CON E-VIEWS

Dr. Enrique Cuevas Rodríguez

TAREA 1: Correlación Lineal

Introducción
El coeficiente de correlación lineal de Pearson, es un estadístico que mide el grado de
asociación entre dos variables. Aunque muchos autores recomiendan utilizarlo para medir el
grao de asociación entre dos variables cuantitativas, generalmente se utiliza aún cuando las
variables son cualitativas, o multinomiales, ya sea ordenadas o no ordenadas.
Además de proporcionar el grado de asociación entre dos variables (X e Y), muestra
si esa relación es positiva o negativa. Una correlación es positiva cuando al incrementarse en
valor una de las variables (X, por ejemplo), la otra (Y), aumenta también. Es negativa cuando
ante el aumento de una de las variables, la otra se reduce. El signo, positivo o negativo del
coeficiente es lo que muestra dicha asociación.
Una forma de analizar el grado de correlación entres dos variables es la construcción
de un diagrama de dispersión. Podría comenzarse a analizar el grado de correlación entre dos
variables construyendo dicho diagrama. Se observaría “alta” correlación lineal si los puntos
que asocian un valor de X con su respectivo valor de Y siguen una tendencia lineal y están
muy poco dispersos entre ellos; por el contrario, se observaría “baja” correlación si la
dispersión es, visiblemente, muy grande. El caso de “nula” correlación, es cuando los puntos
de dispersión no muestran una tendencia visible.
Pero no sólo se requiere hacer el cálculo y la interpretación de coeficiente de
correlación, es fundamental realizar una prueba de hipótesis de dicho coeficiente para
determinar si dicha correlación (coeficiente) es significativa (significativo) o no, dado un
nivel de confianza (significancia) deseado o determinando.
Finalmente, dado que la interpretación del coeficiente de correlación es relativamente
subjetiva o arbitraria, ya que en muchos casos no es clara la diferencia entre “alto” y “muy
alto”, o “bajo” y “muy bajo”, es fundamental obtener el cuadrado del coeficiente de
correlación, llamado: coeficiente de determinación, cuya interpretación es relativamente más
sencilla y podría prestarse a menos confusiones.
De esta manera, el análisis de correlación puede realizarse mediante los siguientes
pasos:
1. Construir e interpretar un diagrama de dispersión
2. Calcular e interpretar el coeficiente de correlación
3. Realizar una prueba de hipótesis y elaborar una conclusión
4. Calcular e interpretar el coeficiente de determinación
Gráficos de dispersión
En lo siguiente se muestran tres conjuntos de datos. Elabore un diagrama de
dispersión para cada uno de ellos y determine, en su opinión, qué grado (de “muy baja” a
“muy alta”) y tipo (positiva o negativa) de correlación es. Los resultados, realizados con
Excel, se muestran más abajo.
Conjunto 1 Conjunto 2 Conjunto 3
X Y X Y X Y
4 4 3 13 3 4
5 6 6 9 5 3
2 3 4 9 4 2
7 6 9 8 6 2
8 11 2 3 9 2
6 5 4 3 7 3
6 7 5 4 4 4
8 10 2 6 5 3
3 2 8 5 2 2
5 7 7 2 3 4
5 4 10 3 6 5
3 4 11 6 8 4

Conjunto 1 Conjunto2
"Alta" correlación positiva
"Media" o "Baja" correlación negativa
12
14
10
12

8 10

8
6
6
4
4
2
2

0 0
0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 12 14

Conjunto 3
"Nula" correlación
6

0
0 2 4 6 8 10
Cálculo del coeficiente de correlación
El coeficiente de correlación poblacional () se define, matemáticamente como:

𝜎𝑋𝑌 𝐸[𝑋 − 𝜇𝑋 ][ 𝑌 − 𝜇𝑌 ] 𝐶𝑜𝑣(𝑋, 𝑌)


𝜌= = =
𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑌 𝜎𝑋 𝜎𝑌

En donde:
𝐶𝑜𝑣(𝑋, 𝑌) = 𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎 𝑑𝑒 𝑋 𝑒 𝑌
𝜎𝑋 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑋
𝜎𝑌 = 𝐷𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑌

La forma de calcular este coeficiente de correlación con datos muestrales (r) es la


siguiente:

∑ 𝑋𝑌 − 𝑛𝑋̅𝑌̅ 𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟𝑋𝑌 = =
(𝑛 − 1)𝑠𝑋 𝑠𝑌
√𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 √𝑛 ∑ 𝑌 2 − (∑ 𝑌)2

Para realizar estos cálculos, se recomienda construir una tabla que contenga, además de las
columnas de valores X e Y, las columnas que contengan: la multiplicación de XY, la X2 y la
Y2, y en la última fila realizar las sumas de cada columna. Es decir, tomando como ejemplo
el primer conjunto de datos anterior, se tendría:
Conjunto 1
N X Y XY X2 Y2
1 4 4 16 16 16
2 5 6 30 25 36
3 2 3 6 2 9
4 7 6 42 49 36
5 8 11 88 64 121
6 6 5 30 36 25
7 6 7 42 36 49
8 8 10 80 64 100
9 3 2 6 9 4
10 5 7 35 25 49
11 5 4 20 25 16
12 3 4 12 9 16
SUMAS 62 69 407 362 477

Recuerde que el valor del coeficiente de correlación r está entre -1 y +1, es decir:
−1 ≤ 𝑟 ≤ +1
De tal manera que si r se aproxima a +1 se dice que la correlación es alta (o muy alta)
positiva, o si se aproxima a -1 es alta (o muy alta) negativa. Si r es muy aproximada a 0 (o
igual a 0), la correlación es muy baja o nula. Si el coeficiente es igual a -1 o +1, la correlación
es perfecta negativa, o positiva, respectivamente, que corresponderían a los casos de la
correlación de una variable consigo misma.

Prueba de significancia de la correlación


Para analizar qué tan significativa es la correlación entre las dos variables X e Y, se
recurre a una prueba de hipótesis. Las hipótesis nula y alternativa que se diseñan son las
siguientes:
𝐻0 : 𝜌 = 0
𝐻1 : 𝜌 ≠ 0
El nivel de significancia, aunque generalmente es de 5% (es decir, un nivel de
confianza de la prueba de 95%), pueden aceptarse niveles de significancia (máximos errores
permitidos) de 1 o hasta de 10%, es decir, valores de  = 1%, 5% o 10%.
El estadístico de prueba es el estadístico t de student, diseñado de la siguiente manera:
𝑟√𝑛 − 2
𝑡= , 𝑐𝑜𝑛 𝑛 − 2 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 (𝑔. 𝑙. )
√1 − 𝑟 2
Para realizar esta prueba de significancia estadística, tiene usted qué recurrir y
recordar al procedimiento estudiado con antelación referido como “prueba de hipótesis”. Si
no se rechaza la hipótesis nula, se dice que la correlación es “no significativa”, resultando
entonces que el coeficiente obtenido es “espurio” (engañoso, o falso). Y si se rechaza esa
hipótesis, y por consiguiente se acepta la alternativa, el coeficiente de correlación se dice que
es “estadísticamente significativo al 1, 5 o 10%”, según el nivel deseado para la prueba.

Coeficiente de determinación R2
Un estadístico derivado del coeficiente de correlación, cuya interpretación es menos
“subjetiva”, es el llamado coeficiente de determinación R2. Éste se obtiene al elevar al
cuadrado el coeficiente de correlación, es decir:
𝑅 2 = (𝑟)2
El de R2, si se multiplica por 100, su interpretación es más simple y directa: es el
porcentaje en el que las variaciones de la variable Y están explicadas (determinadas) por las
variaciones en X. Ejemplo, si r = 0.7, R2 = 0.49, que al multiplicarlo por 100 nos daría 49 por
ciento. Una forma de interpretar ese valor es: “las variaciones de la variable Y están
explicadas (determinadas) en un 49% por las variaciones de la variable X”. O de manera más
simple: Y está explicada (determinada) en un 49% por X.
Note una cuestión que es necesario subrayar: el análisis de correlación no requiere
especificar cuál (o cuales) son las variables que se cree que determinan, o explican, a otra,
pero en el análisis de determinación, o regresión lineal, eso es fundamental. Es decir, se
requiere que el analista determine, ex ante, cuál o cuales son las variables explicativas,
conocidas también como deterministas, o independientes, y cuál es la variable explicada,
determinada o dependiente, como también se le conoce. Generalmente, a las variables
explicativas se les representa con la variable X, y a la dependiente con Y.
Realice como ejercicio tanto las pruebas de significancia de los tres conjuntos de datos
proporcionados con antelación, como el cálculo del coeficiente de determinación. Interprete
sus resultados.
Ejercicios con bases de datos
En un archivo de Excel el profesor proporcionará tres bases de datos, con los cuales
el estudiante realizará un análisis de correlación para cada conjunto de datos.
1. Se proporciona una pequeña base de datos (n=10), en la que se muestra el resultado
de un estudio hipotético. Se pregunta a 10 agentes de ventas que ofrecen tarjetas de
crédito por vía telefónica, cuántas llamadas telefónicas realizaron en la semana
pasada, y cuántas personas aceptaron la tarjeta. Se supone que Y = Tarjetas aceptadas,
y X = Numero de llamadas telefónicas realizadas. Realice este ejercicio con EXCEL.
2. Con datos de 113 estudiantes del nivel superior en la Universidad de Guadalajara, a
los cuales se preguntó cuál es su promedio general de aprovechamiento, y cuál es su
promedio de bachillerato y su promedio que obtuvieron en la prueba de aptitud
académica (examen de admisión a la Universidad). Realice un análisis de correlación
entre el promedio general y el promedio de bachillerato, y otro entre el promedio
general y el de la prueba de aptitud académica. El primero realícelo con EXCEL y el
segundo con STATA. Posteriormente realice ambos con STATA y construya una
matriz de correlación y una matriz de dispersión.
3. Con datos del índice de marginación del CONAPO a nivel de entidad federativa y de
los promedios de escolaridad, ingresos, de la tasa de desempleo y de informalidad
laboral, por entidad federativa, obtenidos de la ENOE (2º TRIMESTRE DE 2017),
realice en STATA los análisis de correlación y determinación pertinentes. Los datos
obténgalos usted mismo, y construya su propia base de datos, a nivel de entidad
federativa. Las filas de la base de datos serán 32, correspondientes a cada entidad
federativa. Y las columnas corresponderán a: índice de marginación (im), escolaridad
promedio (esc), tasa de desempleo (td) y tasa de informalidad laboral (til).

Potrebbero piacerti anche