Sei sulla pagina 1di 10

Apuntes del curso de estadstica I Datos bivariados

Datos bivariados.
Presentacin y anlisis descriptivo de datos bivariados

INTRODUCCIN.

Haz visitado la Sierra de La Laguna?


Sabes que temperatura hay all arriba
en verano? Con solo saber la altura
(con un altmetro, GPS mapa) es
posible saber la temperatura
promedio.

Esto se logra con la adquisicin de dos


variables emparejadas o datos
bivariados.

Datos bivariados: valores de dos diferentes variables que se obtienen a partir del mismo elemento
de la poblacin. Las variables pueden ser cualitativas, cuantitativas en combinacin. Los datos
bivariados se presentan en tablas cruzadas, grficas mixtas y diagramas de dispersin.

DATOS CON DOS VARIABLES CUALITATIVAS.

Cuando los datos son dos variables cualitativas (atributo nominal u ordinal) generalmente se ordenan
en una tabla cruzada o de contingencia. Por ejemplo:

Treinta alumnos fueron elegidos aleatoriamente y clasificados por su gnero (M, F) y por su
especializacin (Ciencias, Administracin e Informtica). Las anotaciones de campo se presentan
en la siguiente tabla:

Nombre Gen Esp Nombre Gen Esp Nombre Gen Esp


Pancracio M C Benedicto M I Ceferino M A
Anastasia F A Cndido M C Santino F A
Edelmiro M C Adolfina F C Pnfilo M I
Epifania F C Fidencio M I Heliodora F C
Eufemio M I Gualteria F I Landolfo M I
Agapito M A Celestino M A Nemesio M A
Ermelinda F C Estanislao M C Gandolfa F C
Graciano M I Doroteo M A Agripina F I
Hiplita F A Clotilde F C Fulgencio M A
Anacleta F A Simplicio M I Teobaldo M C
Gen= gnero, Esp=especialidad, M=masculino, F=femenino, C=ciencias, A=Administracin, I=informtica.

Estos datos se pueden resumir en una tabla cruzada de 2x3, es decir, dos filas (para el gnero) y 3
columnas (para la especialidad):

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Tabla cruzada de gnero y especialidad (f). Tabla cruzada de gnero y especialidad (f %).

Especialidad Especialidad
Gnero C A I Total Gnero C A I Total
M 5 6 7 18 M 17% 20% 23% 60%
F 6 4 2 12 F 20% 13% 7% 40%
Total 11 10 9 30 Total 37% 33% 30% 100%

Tambin se puede usar grficas de barras donde la frecuencia (conteo) o frecuencia relativa se
coloca tanto en la vertical como en la horizontal.

En ocasiones es necesario representar el 100% de los atributos para cada variable, de tal manera
que se apilen en una barra:

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Por otro lado, se pueden desarrollar tablas cruzadas donde las filas o columnas sumen el 100%. De
esta manera y grficamente se representa el 100% por cada atributo tomando como base una de las
variables cualitativas:

Tabla cruzada de gnero y especialidad (% Tabla cruzada de gnero y especialidad (%


total en fila total en columna)

Especialidad Especialidad
Gnero A C I Total fila Gnero A C I Total
M 33% 28% 39% 100% M 60% 45% 78% 60%
F 33% 50% 17% 100% F 40% 55% 22% 40%
Total Col. 33% 37% 30% 100% Total col. 100% 100% 100% 100%

DATOS DE UNA VARIABLE CUALITATIVA Y OTRA CUANTITATIVA.

Cuando los datos bivariados resultan de una variable cualitativa y una cuantitativa; los valores
cuantitativos se manejan con grficas de datos cuantitativos, pero agrupados por la variable
cualitativa, de esta manera se puede comprar con tablas o grficas mixtas. Por ejemplo:

Suponga que se desea comprar el diseo de 3 neumticos nuevos (A, B y C =variable cualitativa). El
experimento consiste en frenar con un automvil en pavimento mojado, midiendo la distancia de
frenado (variable cuantitativa). Los resultados se muestran en la siguiente tabla:

Distancias de frenado en pavimento mojado de tres diseos de neumtico.

Diseo A (n=6) Diseo B(n=6) Diseo C (n=6)


37, 36, 38, 34, 40, 32 33, 35, 38, 34, 42, 34 40, 39, 40, 41, 41, 43

Las siguientes tablas y grficas son ejemplos para representar variables cuantitativas-cualitativas
(datos bivariados):

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Esta tabla resume los estadsticos Diseo A Diseo B Diseo C


para cada diseo. Note que se Media 36.2 36 40.7
presenta los datos cuantitativos Desviacin estndar 2.9 3.4 1.4
para cada atributo cualitativo. Varianza 8.4 11.5 1.9

Diseo A Diseo B Diseo C


Otra manera prctica de resumir el Alto 40 42 43
conjunto de datos bivariados es por medio Q3 38 38 41
del resumen de los 5 nmeros, Mediana 36.5 34.5 40.5
comparando cada diseo. Q1 34 34 40
Bajo 32 33 39

Dos maneras de mostrar datos bivariados son el diagrama de puntos y grfica de cajas, comparando
las variables cuantitativas en la vertical y las cualitativas en la horizontal:

CORRELACION LINEAL (CON DOS VARIABLES CUANTITATIVAS)

Cuando los datos bivariados son resultado de dos variables cuantitativas, se acostumbra expresarlos
como pares ordenados (x,y). Donde x es la variable de entrada (o independiente) y y es la
variable de salida (o dependiente). Estos datos se presentan en diagramas de dispersin.

Diagramas de dispersin: Grfica de todos los pares ordenados de datos bivariados sobre un
sistema de eje coordenados. La variable de entrada (dependiente) se grafica en la horizontal y la de
salida (independiente) va sobre la vertical.

Ejemplo: La siguiente tabla se presenta la longitud (cm) y peso (kg) de un marlin tomados en un
torneo de pesca deportiva.

(230,85) (275,109) (215,58)(170,35) (188,40) (247,83) (205,44) (239,64) (231,56) (234,50)

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Los diagramas de dispersin ayudan a visualizar s existe una relacin entre dos variables
cuantitativas. Se le llama anlisis de correlacin lineal cuando mides la fuerza con la que todos los
datos de las dos variables se relacionan linealmente entre s.

Cmo se s hay correlacin? Existe correlacin lineal s conforme aumenta la variable x, hay un
desplazamiento en la variable y. Para un anlisis visual, los siguientes diagramas de dispersin
muestran algunos tipos de correlacin:

La correlacin lineal entre dos variables se mide con el coeficiente de correlacin lineal r (o de
Pearson). El coeficiente mide la fuerza de la relacin entre las dos variables. Tiene un valor entre +1
y -1. Cuando r=1, significa que s x aumenta una unidad, la variable y aumenta otra unidad igual.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

La siguiente frmula (momento-producto de Pearson) define el coeficiente de correlacin lineal. Se


usa r para muestras (estadstico) y R para la poblacin (parmetro). Adicionalmente se presenta una
frmula equivalente:

Una manera de comprender r, es


imaginando que tus datos caben en un
rectngulo. Si comparas el nmero de
veces que es ms largo que ancho (k
1
veces), entonces r es aproximado a (1- ).

Analiza los siguientes esquemas:

Cuando realices una interpretacin de una correlacin r ten en cuenta los siguientes puntos:

1. No razones a partir de una correlacin para la causa de un fenmeno, ms bien para un


efecto. El coeficiente r te dice que si aumenta x, puede aumentar o disminuir y. Supn que
mides altura (x) y peso (y) de una persona y r=0.9 (una fuerte correlacin) Un aumento de
peso causa un aumento de estatura? R= no! por que la variable dependiente es el peso (el
efecto).

2. Siempre que hagas una correlacin de cualquier fenmeno de estudio existirn variables
ocultas; por ejemplo el gnero y la edad pueden tener un efecto sobre la relacin peso-
estatura. Ten en cuenta que una correlacin solo es para dos variables: una dependiente
(y) y la otra independiente (x).

REGRESIN LINEAL (CON DOS VARIABLES CUANTITATIVAS)

En el ejemplo del peso y longitud del marlin, los datos presentan una buena correlacin lineal de
r=0.86, sin embargo este valor no ayuda a predecir cunto pesara un marlin de 260 cm de largo (ver
diagrama de dispersin).

El coeficiente r mide la fuerza de relacin de todos los datos de una muestra, pero no hace
predicciones de valores. Para realizar predicciones () se puede calcular una relacin matemtica
(una ecuacin) por medio de un anlisis de regresin lineal (simple).

El anlisis consiste en elegir un modelo lineal o no lineal (una ecuacin) que mejor se ajuste a los
datos y por lo tanto, poder adquirir la mejor prediccin de valores. El modelo ms utilizado es el de
lnea recta, pero existen otras opciones. Los modelos de regresin ms comunes son:

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Relacin entre Nombre del Ecuacin del modelo de Ejemplo de


Notas
variables. modelo (curva) regresin grfica
A veces es posible mejorar
LINEAL Lnea recta = bo + b1x la recta con una
transformacin lineal.

Cuadrtica = (bo + b1x) 2


(parbola) = bo+ b1x+ b2x2
Cuando la relacin lineal
entre variables no es tan
= (bo + b1x) 3
favorable, se hacen
Cbica
= bo+ b1x+ b2x2+ b3x3 trasformaciones (de tipo
no lineal) para incrementar
= 10 bo+ b1x
NO LINEAL dicha relacin.
(lneas curvas)
Exponencial = b1 b2 x
log = log b1+ (log b2) x
Lo anterior se logra al
Recproco 1
modelar varias curvas
=
(hiperblica) bo + b1x
hasta encontrar la de mejor
ajuste.
Geomtrica log = log b1+ b2 (log x)
(logartmica) = b1 xbo

La recta de mejor ajuste es aquella lnea que pasa por el medio de todos los valores en un diagrama
de dispersin, por lo tanto debe pasar por el centroide que se ubica siempre en la coordenada
media de cada variable ( , ). Las computadoras usan generalmente el mtodo de mnimos
cuadrados para elegir el mejor ajuste.

El mtodo consiste en encontrar el valor mnimo de (y - )2 (llamado a veces bondad de ajuste).


Por consiguiente se calcula la ordenada al origen bo y la pendiente de la recta b1. En el siguiente
diagrama se muestra como se llega a una lnea de mejor ajuste cuando la suma de cuadrados de las
desviaciones es mnimo:

La desviacin (y - ) de cada ( y - )2 = (1)2 + (-1)2 + (2.5)2 ( y - )2 = (-4.5)2 + (-7)2 +


valor y se obtiene al restarle + (-2.5)2 + (1.5)2 +(-1.5)2 (-1)2 + (1.5)2 +(-4)2 + (2.5)2 +(0.5)2 (2)2
la prediccin . (1)2 =21 valor mnimo + (5)2 =98 la recta no
indica que la recta tiene el presenta un buen ajuste.
La (y - ) es conocida tambin mejor ajuste.
como error (e) o residuo.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

La ecuacin de la recta de mejor ajuste se determina calculando la pendiente y la ordenada al origen


con las siguientes frmulas:

Ejercicio: Con los datos del torneo de pesca de marlin (n=10, x=largo y y=peso.) calcule:

a) el coeficiente de correlacin de Pearson. Interprete sus resultados.


b) la ecuacin de la recta de mejor ajuste.
c) el centroide, comprobando que la recta pasa por este punto.
d) Realice las siguientes predicciones para: cuando x1= 170, x2 =275, x3 =190, x4 =260.

Nota: cuando realices predicciones, debes usarlas dentro del domino preferentemente*

COEFICIENTE DE DETERMINACIN (R2)

Para cualquier modelo de regresin (lineal o no lineal) que realices deberas preguntarte Qu tan
bien se ajusta el modelo a mis datos? Una manera de evaluar el ajuste es a travs del coeficiente de
determinacin, el cual se calcula con una computadora que emplea la siguiente frmula (para rectas):

Propiedades e interpretacin:
El R2 predice valores entre 0 y 1.
Cuando R2 = 0, significa que la variable dependiente (y) no puede predecirse a partir de la variable
independiente x. Entonces, s R2 es cercano a 0 no uses el modelo.
Cuando R2 = 1, significa que la variable dependiente (y) puede predecirse sin error a partir de la
variable independiente x. Entonces, s R2 es cercano a 1 no usa el modelo.
Cuando R2 est entre 0 y 1, por ejemplo R 2 =0.3, significa que el 30% de la varianza de y puede
predecirse a partir de x.
Utiliza R2 se puede utilizar cuando tengas varios modelos y requieras elegir uno de ellos.

Cuando calcules el R2 entre ms elevado sea, mejor prediccin tendrs. En el rea de ciencias se
podra considerar un bueno ajuste cuando R2 > 0.45.

ANALISIS RESIDUAL EN REGRESIONES (ARes)

Para evaluar si tu modelo es apropiado para un modelo de lnea recta (lineal) o para otro tipo (no
lineal), puedes realizar un anlisis residual o de error construyendo un diagrama residual.

El trmino residual proviene del error (e) desviacin, el cual es la diferencia entre el valor observado
(y) y el valor predictivo () de una lnea o curva, entonces: e = y - la e = 0

El diagrama residual muestra los valores residuales en el eje vertical (variable y- ) sobre el eje
horizontal (con valor de x).

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Pasos para el Anlisis Residual.

1) S los puntos en el diagrama estn dispersos al azar alrededor del eje horizontal, el modelo de
regresin de lnea recta es apropiado.

2) De lo contrario, s los puntos tiene un patrn en forma de U, conglomerados curvas, el modelo


no es apropiado y se debe buscar otros modelos.

REGRESIONES CON RELACIN NO LINEAL (CON DOS VARIABLES CUANTITATIVAS)

Cuando el diagrama residual te dice que tus datos no son apropiados para un modelo lineal,
entonces debes buscar un modelo no lineal, que te permita alcanzar una mayor linealidad.
Recuerda que necesitas una ecuacin que te ayude hacer predicciones lo mejor posible.

Se le llama transformaciones cuando realizas operaciones que hacen cambiar a las variables para
alcanzar un mejor ajuste. Cuando tienes un modelo lineal apropiado, todava puedes hacerlo ms
lineal con una transformacin de tipo lineal.

Cuando tu modelo no es lineal, las computadoras hacen las transformaciones (de tipo no lineal)
necesarias para arrojar un modelo de curva que mejor se ajuste a los datos. Por ejemplo: una curva
hiperblica, una curva cuadrtica. Analiza con cuidado las siguientes grficas:

Este modelo lineal tiene Este modelo cuadrtico (no A partir del primer modelo,
R2=0.77. Esto indica un muy lineal) lo sugiri el software y manualmente se elev x 4 .Esto
buen ajuste. tiene un R2=0.97. Esto indica un transforma linealmente el
excelente ajuste. modelo alcanzando un R2=0.98.

urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados

Los pasos para encontrar una lnea de mejor ajueste (modelo) para tus datos bivariados, se resume
en el siguiente diagrama de flujo. Nota: en el labotario 3 se abordarn los ejercicios de regresin.

urcadiz@me.com 2015

Potrebbero piacerti anche