Sei sulla pagina 1di 10

Notas de Estadística.

Profesor PABLO GARCIA BELLO

REPRESENTACIÓN Y ANÁLISIS DE DATOS DE DOS VARIABLES

Existen muchos casos de dos variables relacionadas.


Ejemplos:
Edad-Peso , Edad- Estatura , Tiempo-Población , Inflación- Desempleo ,
Tiempo de estudio- Rendimiento académico, Ingresos- Niveles de formación,
resistencia física- edad,
Niveles de motivación- Rendimiento académico o laboral. etc.

El objetivo de esta sección es representar datos de dos variables en forma de gráficos,


tablas y ecuaciones.

Caso 1.

DATOS DE DOS VARIABLES CUALITATIVAS. Estos datos se representan mediante


TABLAS CRUZADAS O DE CONTINGENCIA; en ellas las filas representan las
categorías de una de las variables y las columnas las categorías de la otra variable.

Ejemplo.
En un grupo de 48 personas, se encontró que 28 eran hombres, 12 casados y 16
solteros., 20 eran mujeres; 6 casadas y 14 solteras.
a) Expresar los datos como una tabla de frecuencias
b) Elaborar una tabla de contingencia en porcentajes totales.
c) Elaborar una tabla de contingencia en porcentajes por filas.
d) Elaborar una tabla de contingencia en porcentajes por columnas.
e) Que porcentaje de las personas del grupo son hombres casados.
f) Que porcentajes de los hombres del grupo son casados.
g) Qué porcentajes de los solteros son mujeres.

1
Notas de Estadística. Profesor PABLO GARCIA BELLO
Solución.

a) Estado Civil
Casados Solteros
Hombres 12 16 28
Mujeres 6 14 20
18 30 48

b) Estado Civil
Casados Solteros
Hombres 25% 33.3% 58.3%
Mujeres 12.5% 29.2% 41.7%
37.5% 62.5% 100%

c) Estado Civil
Casados Solteros
Hombres 42.8% 57.2% 100%
Mujeres 30% 70% 100%
37.5% 62.5% 100%

d) Estado Civil
Casados Solteros
Hombres 66.7% 53.3% 58.3%
Mujeres 33.3% 46.7% 41.7%
100% 100% 48

a) El 25% de las personas del grupo son hombres casados.


b) El 42.8% de los hombres del grupo son casados
c) El 46.7% de los solteros son mujeres.
Ejercicio.
En una encuesta realizada a estudiantes de la Universidad Católica se encontró que 18
de ellos eran hombres, 5 de sicología, 6 de Ingeniería Industrial y 7 de Sistemas. Doce
eran mujeres; 6 de ellas de sicología, 4 de industrial y 2 de sistemas.
a) Expresar los datos como una tabla de frecuencias

2
Notas de Estadística. Profesor PABLO GARCIA BELLO
b) Elaborar una tabla de contingencia en porcentajes totales.
c) Elaborar una tabla de contingencia en porcentajes por filas.
d) Elaborar una tabla de contingencia en porcentajes por columnas.
e) Que porcentaje de los estudiantes encuestados son de sistemas.
f) Que porcentajes de los estudiantes de sistemas son hombres.
g) Qué porcentajes de las mujeres encuestadas son de sicología.

CASO 2.

DATOS DE DOS VARIABLES CUANTITATIVAS.


Estos datos se representan como pares ordenados ( x , y) ubicados en un plano
coordenado.
y

Observaciones:
1) x: es la variable de entrada ó independiente
2) y : es la variable de salida ó dependiente
3) “ la variable de entrada se usa para predecir la salida y”
x y

4) La representación gráfica de los datos de una muestra {(x 1,y1), (x2,y2),……..


(xn, yn)} se denomina Diagrama de Dispersión.

Ejemplo.
Elaborar el diagrama de dispersión para los siguientes conjunto de datos.
a) { (0 , 5) , ( 1, 3) , ( 2, 4) , ( 3, 3) , ( 4 , 2)}
b) { ( 1, 1) , ( 2, 4) , (3 , 6) , ( 4, 5) , ( 5, 10) }
Solución a)

3
Notas de Estadística. Profesor PABLO GARCIA BELLO

6
5
4 Solución b)
3
2
1
0
0 1 2 3 4 5

12
10
8
6
4
2
0
0 1 2 3 4 5 6

CORRELACIÓN Y COEFICIENTES DE CORRELACIÓN.


Definición. Se llama correlación a la relación entre dos variables. Se dice que hay
correlación entre x, y, si y cambia cuando x crece.
El Coeficiente de correlación de Pearson: r , Es un valor entre -1 y 1 que mide el nivel
de asociación entre dos variables de escala (intervalo o razón) y está dado por:

SC ( xy )
r donde:
SC ( x ) SC ( y )

 x 2

SC ( xy )   xy 
 x y
SC ( x)   x 2
y
n n

Observaciones:
1)  1  r  1
2) r0 significa que “ y crece cuando x crece”

4
Notas de Estadística. Profesor PABLO GARCIA BELLO
Ejemplo. Peso y edad en los niños
Motivación y Rendimiento
# de organizaciones armadas y Violencia Homicida
3) r  0 significa que “ y decrece cuando x crece”

Ejemplo. Edad y resistencia física.


4) Cuando r se acerca a  1 . El conjunto de puntos ( x, y ) se acerca mas y mas a una
recta, por lo tanto la relación entre las dos variables es muy fuerte.
5) Cuando r se acerca a “0” el conjunto de puntos ( x, y ) tiene poca
correlación.
6) No existe correlación entre x-y, si el conjunto de puntos ( x, y ) estan
alineados en una recta horizontal o vertical, Ya que una variable no afecta a
la otra.
7) Calificación de una correlación lineal.
r : entre 0 y 1 : Correlación Positiva
r : entre 0 y 0.5 : Correlación Positiva débil
r: entre 0.5 y 1: Correlación positiva fuerte
r: entre –1 y 0 : Correlación Negativa
r: entre –0.5 y 0: Correlación negativa débil
r: entre -1 y –0.5: Correlación negativa fuerte

8) Para hallar el coeficiente r, de un conjunto de datos: ( x1 , y1 ) , ( x 2 , y 2 ), ..., ( x n , y n )


Elabórese la siguiente tabla de extensión:

xi yi xiyi xi2 y i2

x1 y1 x1y1 x12 y12


. . . . .

. . . . .

5
Notas de Estadística. Profesor PABLO GARCIA BELLO
. . . . .

xn yn xnyn xn2 y n2

x i y i x i yi x i
2
y i
2

Ejemplo. Hallar el coeficiente de correlación lineal r, para los siguientes conjuntos de


datos y calificarlo. (Usar formulas y manejo de calculadoras)
1) { (0 ,5) , ( 1 , 3) , ( 2, 4) , ( 3 ,3) , ( 4, 2) }
2) { ( 1 , 1) , ( 2 , 4) , ( 3, 6) , ( 4, 5) , ( 5 , 10) }
Solución 1. (Por Calculadoras)
i) Mode: Reg/ Lin
ii) Borrar memoria: Shif / mode / 1. ó Shif / AC
iii) Digitar datos: x1 , y1 M+...........xn , yn M+
vi) Shif / r ó Shif / s-var / r DEBE aparecer r = -0.83
Solución 1. (Por formulas)
x y x2 y2 xy
0 5 0 25 0
1 3 1 9 3
2 4 4 16 8
3 3 9 9 9
4 2 16 4 8
10 17 30 63 28

(10)(17) (10) 2 (17) 2


SC ( xy )  28   6 , SC ( x)  30   10 , SC ( y )  63   5.2
5 5 5
6
Entonces r  0.83
10(5.2)

COEFICIENTE DE DETERMINACIÓN: r2
El coeficiente de determinación de Pearson: r2 , mide la proporción de datos de la
variable y, explicados por la variable x.
Ejemplo. Si para las variables, x: Promedio de notas de un estudiante en Secundaria
Y y: promedio de nota en el primer semestre universitario, se obtiene un coeficiente

6
Notas de Estadística. Profesor PABLO GARCIA BELLO
r  0.90 Esto significa que la correlación entre las dos variables es positiva fuerte; es
decir que los estudiantes que en secundaria tuvieron buenos promedios tienden a tener
buenos promedios en el primer semestre universitario.
r 2  0.81 significa que el 81% de los promedios de los estudiantes en su primer
semestre universitario, están explicados ( determinados) por los promedios que
obtuvieron en secundaria. El 19% restante de los promedios estarán determinados por
otras razones.

RECTA DE REGRESIÓN LINEAL (O DE MEJOR AJUSTE)


Definición. Se llama recta de regresión ó recta de mejor ajuste, a la recta que está mas
cerca de un conjunto de puntos ( x1 , y1 ) , ( x 2 , y 2 ), ..., ( x n , y n ) y su ecuación es de la
forma:

yˆ  Bx  A donde:

n xy  ( x )( y )  y  B x  y  B x
B y A
n x  ( x)
2 2
n

Observaciones:
1) B: Es la pendiente de la recta e indica el cambio en y, debido al cambio de x en una
unidad.
2) A: Es el valor de y, cuando x  0
3) La recta de mejor ajuste siempre pasa por el punto ( x , y)

Ejemplo.
Los siguientes datos relacionan los promedios de calificaciones de los estudiantes de
secundaria (PCS) y universitaria (PCU).

PCS 2.0 2.5 3.0 3.0 3.5 3.5 4.0 4.0


PCU 1.5 2.0 2.5 3.5 2.5 3.0 3.0 3.5

a) Hallar la ecuación de regresión lineal


b) Determinar el grado de asociación entre las dos variables

7
Notas de Estadística. Profesor PABLO GARCIA BELLO
c) Calcular el coeficiente de determinación e interpretarlo.
d) Estimar el PCU para un estudiante cuyo PCS fue de 3.75

Solución. a) Por calculadora . i) Mode: Reg/ Lin


ii) Borrar memoria: Shif / mode / 1. ó Shif / AC
iii) Digitar datos: x1 , y1 M+...........xn , yn M+
iv) Shif / B ó Shif / s- var / B DEBE aparecer: B  0.78
v) Shif / A ó Shif / s-var / A DEBE aparecer: A  0.19
Por lo tanto yˆ  0.78 x  0.19 donde: yˆ  PCU ,y , x  PCS
Solución b) Por calculadora: r  0.78 significa que la correlación entre los PCS y
PCU es positiva fuerte, es decir los estudiantes con muy buenos PCS tienden a tener
muy buenos PCU.
Solución c) El coeficiente de determinación es r 2  0.61 Significa que el 61% de los
PCU están determinados ( explicados ó justificados) por los PCS, el 39% restante de los
PCU están determinados por otros factores.
Solución d) Queremos hallar el valor de y , estimado para x  3.75 :
yˆ  0.78(3.75)  0.19  3.12

Solución a) Por formulas


Sea x  PCS , y  PCU , para n  8 tenemos la siguiente tabla de extension:
x y x2 xy
2.0 1.5 4.0 3.0
2.5 2.0 6.25 5.0
3.0 2.5 9.0 7.5
3.0 3.5 9.0 10.5
3.5 2.5 12.25 8.75
3,5 3.0 12.25 10.5
4.0 3.0 16.0 12.0
4.0 3.5 16.0 14.0

25.5 21.5 84.75 71.25

8(71.25)  25.5( 21.5) 21.5  0.78(25.5)


B  0.78 A  0.20
8(84.75)  ( 25.5) 2 8

8
Notas de Estadística. Profesor PABLO GARCIA BELLO

TALLER.
El empleo en cierta ciudad, durante los años de 2009 al 20175 tuvo el siguiente
comportamiento:
x: año 2009 2010 2011 2012 2013 2014 2015 2016 2017
Y: #de 1.9 2.2 2.3 2.4 2.7 2.7 2.9 2.9 3.2
empleo
en mlls
a) Estime el número de empleos en dicha ciudad para el año 2.020
b) En que año el número de empleo será de aproximadamente 4.5 millones
c) Determine el porcentaje de empleos que es explicado (determinado) por el tiempo
transcurrido desde el 2009.
d) Que porcentaje del número de empleos no es explicado por la variable tiempo?.

COEFICIENTES DE CORRELACIÓN.
1) Coeficiente de correlación de Pearson: r
Es un valor entre -1 y 1 que mide la asociación entre dos variables de escala (
intervalo o razón) y está dado por:
SC ( xy )
r donde:
SC ( x ) SC ( y )

 x 2

SC ( xy )   xy 
 x y
SC ( x)   x  2 y
n n

2) El coeficiente de determinación de Pearson: r2 , mide la proporción de datos de la


variable de entrada (y), explicados por la variable de entrada ( x).
Ejemplo. Si para las variables, x: Promedio de notas de un estudiante en Secundaria
Y y: promedio de nota en el primer semestre universitario, se obtiene un coeficiente

r  0.90 Esto significa que la correlación entre las dos variables es positiva fuerte; es
decir que los estudiantes que en secundaria tuvieron buenos promedios tienden a tener
buenos promedios en el primer semestre universitario.
r 2  0.81 significa que el 81% de los promedios de los estudiantes en su primer
semestre universitario, están explicados (determinados) por los promedios que
obtuvieron en secundaria.

9
Notas de Estadística. Profesor PABLO GARCIA BELLO

10

Potrebbero piacerti anche