Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Datos bivariados.
Presentacin y anlisis descriptivo de datos bivariados
INTRODUCCIN.
Datos bivariados: valores de dos diferentes variables que se obtienen a partir del mismo elemento
de la poblacin. Las variables pueden ser cualitativas, cuantitativas en combinacin. Los datos
bivariados se presentan en tablas cruzadas, grficas mixtas y diagramas de dispersin.
Cuando los datos son dos variables cualitativas (atributo nominal u ordinal) generalmente se ordenan
en una tabla cruzada o de contingencia. Por ejemplo:
Treinta alumnos fueron elegidos aleatoriamente y clasificados por su gnero (M, F) y por su
especializacin (Ciencias, Administracin e Informtica). Las anotaciones de campo se presentan
en la siguiente tabla:
Estos datos se pueden resumir en una tabla cruzada de 2x3, es decir, dos filas (para el gnero) y 3
columnas (para la especialidad):
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Tabla cruzada de gnero y especialidad (f). Tabla cruzada de gnero y especialidad (f %).
Especialidad Especialidad
Gnero C A I Total Gnero C A I Total
M 5 6 7 18 M 17% 20% 23% 60%
F 6 4 2 12 F 20% 13% 7% 40%
Total 11 10 9 30 Total 37% 33% 30% 100%
Tambin se puede usar grficas de barras donde la frecuencia (conteo) o frecuencia relativa se
coloca tanto en la vertical como en la horizontal.
En ocasiones es necesario representar el 100% de los atributos para cada variable, de tal manera
que se apilen en una barra:
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Por otro lado, se pueden desarrollar tablas cruzadas donde las filas o columnas sumen el 100%. De
esta manera y grficamente se representa el 100% por cada atributo tomando como base una de las
variables cualitativas:
Especialidad Especialidad
Gnero A C I Total fila Gnero A C I Total
M 33% 28% 39% 100% M 60% 45% 78% 60%
F 33% 50% 17% 100% F 40% 55% 22% 40%
Total Col. 33% 37% 30% 100% Total col. 100% 100% 100% 100%
Cuando los datos bivariados resultan de una variable cualitativa y una cuantitativa; los valores
cuantitativos se manejan con grficas de datos cuantitativos, pero agrupados por la variable
cualitativa, de esta manera se puede comprar con tablas o grficas mixtas. Por ejemplo:
Suponga que se desea comprar el diseo de 3 neumticos nuevos (A, B y C =variable cualitativa). El
experimento consiste en frenar con un automvil en pavimento mojado, midiendo la distancia de
frenado (variable cuantitativa). Los resultados se muestran en la siguiente tabla:
Las siguientes tablas y grficas son ejemplos para representar variables cuantitativas-cualitativas
(datos bivariados):
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Dos maneras de mostrar datos bivariados son el diagrama de puntos y grfica de cajas, comparando
las variables cuantitativas en la vertical y las cualitativas en la horizontal:
Cuando los datos bivariados son resultado de dos variables cuantitativas, se acostumbra expresarlos
como pares ordenados (x,y). Donde x es la variable de entrada (o independiente) y y es la
variable de salida (o dependiente). Estos datos se presentan en diagramas de dispersin.
Diagramas de dispersin: Grfica de todos los pares ordenados de datos bivariados sobre un
sistema de eje coordenados. La variable de entrada (dependiente) se grafica en la horizontal y la de
salida (independiente) va sobre la vertical.
Ejemplo: La siguiente tabla se presenta la longitud (cm) y peso (kg) de un marlin tomados en un
torneo de pesca deportiva.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Los diagramas de dispersin ayudan a visualizar s existe una relacin entre dos variables
cuantitativas. Se le llama anlisis de correlacin lineal cuando mides la fuerza con la que todos los
datos de las dos variables se relacionan linealmente entre s.
Cmo se s hay correlacin? Existe correlacin lineal s conforme aumenta la variable x, hay un
desplazamiento en la variable y. Para un anlisis visual, los siguientes diagramas de dispersin
muestran algunos tipos de correlacin:
La correlacin lineal entre dos variables se mide con el coeficiente de correlacin lineal r (o de
Pearson). El coeficiente mide la fuerza de la relacin entre las dos variables. Tiene un valor entre +1
y -1. Cuando r=1, significa que s x aumenta una unidad, la variable y aumenta otra unidad igual.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Cuando realices una interpretacin de una correlacin r ten en cuenta los siguientes puntos:
2. Siempre que hagas una correlacin de cualquier fenmeno de estudio existirn variables
ocultas; por ejemplo el gnero y la edad pueden tener un efecto sobre la relacin peso-
estatura. Ten en cuenta que una correlacin solo es para dos variables: una dependiente
(y) y la otra independiente (x).
En el ejemplo del peso y longitud del marlin, los datos presentan una buena correlacin lineal de
r=0.86, sin embargo este valor no ayuda a predecir cunto pesara un marlin de 260 cm de largo (ver
diagrama de dispersin).
El coeficiente r mide la fuerza de relacin de todos los datos de una muestra, pero no hace
predicciones de valores. Para realizar predicciones () se puede calcular una relacin matemtica
(una ecuacin) por medio de un anlisis de regresin lineal (simple).
El anlisis consiste en elegir un modelo lineal o no lineal (una ecuacin) que mejor se ajuste a los
datos y por lo tanto, poder adquirir la mejor prediccin de valores. El modelo ms utilizado es el de
lnea recta, pero existen otras opciones. Los modelos de regresin ms comunes son:
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
La recta de mejor ajuste es aquella lnea que pasa por el medio de todos los valores en un diagrama
de dispersin, por lo tanto debe pasar por el centroide que se ubica siempre en la coordenada
media de cada variable ( , ). Las computadoras usan generalmente el mtodo de mnimos
cuadrados para elegir el mejor ajuste.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Ejercicio: Con los datos del torneo de pesca de marlin (n=10, x=largo y y=peso.) calcule:
Nota: cuando realices predicciones, debes usarlas dentro del domino preferentemente*
Para cualquier modelo de regresin (lineal o no lineal) que realices deberas preguntarte Qu tan
bien se ajusta el modelo a mis datos? Una manera de evaluar el ajuste es a travs del coeficiente de
determinacin, el cual se calcula con una computadora que emplea la siguiente frmula (para rectas):
Propiedades e interpretacin:
El R2 predice valores entre 0 y 1.
Cuando R2 = 0, significa que la variable dependiente (y) no puede predecirse a partir de la variable
independiente x. Entonces, s R2 es cercano a 0 no uses el modelo.
Cuando R2 = 1, significa que la variable dependiente (y) puede predecirse sin error a partir de la
variable independiente x. Entonces, s R2 es cercano a 1 no usa el modelo.
Cuando R2 est entre 0 y 1, por ejemplo R 2 =0.3, significa que el 30% de la varianza de y puede
predecirse a partir de x.
Utiliza R2 se puede utilizar cuando tengas varios modelos y requieras elegir uno de ellos.
Cuando calcules el R2 entre ms elevado sea, mejor prediccin tendrs. En el rea de ciencias se
podra considerar un bueno ajuste cuando R2 > 0.45.
Para evaluar si tu modelo es apropiado para un modelo de lnea recta (lineal) o para otro tipo (no
lineal), puedes realizar un anlisis residual o de error construyendo un diagrama residual.
El trmino residual proviene del error (e) desviacin, el cual es la diferencia entre el valor observado
(y) y el valor predictivo () de una lnea o curva, entonces: e = y - la e = 0
El diagrama residual muestra los valores residuales en el eje vertical (variable y- ) sobre el eje
horizontal (con valor de x).
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
1) S los puntos en el diagrama estn dispersos al azar alrededor del eje horizontal, el modelo de
regresin de lnea recta es apropiado.
Cuando el diagrama residual te dice que tus datos no son apropiados para un modelo lineal,
entonces debes buscar un modelo no lineal, que te permita alcanzar una mayor linealidad.
Recuerda que necesitas una ecuacin que te ayude hacer predicciones lo mejor posible.
Se le llama transformaciones cuando realizas operaciones que hacen cambiar a las variables para
alcanzar un mejor ajuste. Cuando tienes un modelo lineal apropiado, todava puedes hacerlo ms
lineal con una transformacin de tipo lineal.
Cuando tu modelo no es lineal, las computadoras hacen las transformaciones (de tipo no lineal)
necesarias para arrojar un modelo de curva que mejor se ajuste a los datos. Por ejemplo: una curva
hiperblica, una curva cuadrtica. Analiza con cuidado las siguientes grficas:
Este modelo lineal tiene Este modelo cuadrtico (no A partir del primer modelo,
R2=0.77. Esto indica un muy lineal) lo sugiri el software y manualmente se elev x 4 .Esto
buen ajuste. tiene un R2=0.97. Esto indica un transforma linealmente el
excelente ajuste. modelo alcanzando un R2=0.98.
urcadiz@me.com 2015
Apuntes del curso de estadstica I Datos bivariados
Los pasos para encontrar una lnea de mejor ajueste (modelo) para tus datos bivariados, se resume
en el siguiente diagrama de flujo. Nota: en el labotario 3 se abordarn los ejercicios de regresin.
urcadiz@me.com 2015