Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1.1
Organizacin y presentacin de
datos
Trminos
estadsticos
Estadstica: Es la ciencia que proporciona un conjunto e mtodos que se utilizan para recolectar, resumir, clasificar
e interpretar el comportamiento de los datos con respecto a una caracterstica materia de estudio o investigacin. En primera instancia se encarga de obtener informacin, describirla y luego utiliza esta informacin
para predecir algo respecto a la fuente de informacin.
La estadstica descriptiva: Es el conjunto de mtodos que implican la recoleccin, presentacin y caracterizacin de
un conjunto de datos a fin de describir en forma apropiada las diversas caractersticas de sta, es decir, un
estudio estadstico se considera descriptivo cuando solo se analiza y describe los datos.
Estadstica inferencial: Luego de describir, el segundo aspecto de la definicin de la estadstica es: predecir algo con
respecto a la fuente de informacin, es lo que constituye la estadstica inferencia que es el conjunto de tcnicas
que posibilitan la generalizacin o toma de decisiones en base a una informacin parcial obtenida mediante
tcnicas descriptivas.
Poblacin: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten informacin sobre el fenmeno que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la poblacin ser el
total de las viviendas de dicha ciudad.
Muestra: Subconjunto que seleccionamos de la poblacin. As, si se estudia el precio de la vivienda de una ciudad,
lo normal ser no recoger informacin sobre todas las viviendas de la ciudad (sera una labor muy compleja),
sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo. El
proceso y/o tcnica de obtencin de la muestra a partir de la poblacin se denomina muestreo.
Unidad de anlisis: Cualquier elemento que porte informacin sobre el fenmeno que se estudia. As, si estudiamos
la altura de los nios de una clase, cada alumno es una unidad de anlisis; si estudiamos el precio de la vivienda,
cada vivienda es una unidad de anlisis.
Variable: Es una caracterstica que puede tomar varios valores. Las variables son caractersticas observables, susceptibles a tomar distintos valores o ser expresados en varias categoras. Variable es un aspecto especfico de la
realidad referido a la unidad de anlisis y que puede ser susceptible a ser medido o cuantificado, adquiere un
valor determinado en cada unidad de anlisis
Dato: Es el valor o respuesta que adquiere la variable en cada unidad de anlisis. Dato es el resultado de la observacin, entrevista o recopilacin en general, ellos son la materia prima de la estadstica
1.2
1.2.1
Presentacin de datos
Sean x1 , x2 , , xn las n observaciones (datos) correspondientes a una variable cuantitativa X. Si el nmero de valores
diferentes que asumen estos datos es muy pequeo en relacin al nmero de datos, los agruparemos en una tabla
de distribucin de frecuencias sin intervalos. Sean y1 , y2 , , ym los valores diferentes que asumen estos datos donde
y1 < y2 < < ym , entonces la tabla de distribucin de frecuencias sin intervalos ser:
i
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
y1
n1
N1
N1
h1
H1
H1
100h1
100H1
100H1
y2
n2
N2
N2
h2
H2
H2
100h2
100H2
100H2
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
ym
nm
Nm
Nm
hm
Hm
Hm
100hm
100Hm
100Hm
100
Para disear la tabla anterior se debe tener en cuenta los siguientes pasos
De los datos x1 , x2 , , xn , separar a los valores diferentes.
Ordenar los valores diferentes y1 , y2 , , ym .
Contar cuantos datos son iguales a cada valor diferente yi .
A continuacin definimos las expresiones que estn en la tabla anterior.
Definicin 1.1 (Frecuencias absolutas)
1
La frecuencia absoluta simple ni correspondiente al valor yi es el nmero de observaciones que son iguales a yi .
La frecuencia relativa simple hi correspondiente al valor yi es la proporcin, con respecto del total, del nmero
de observaciones que son iguales a yi .
La frecuencia relativa acumulada menor que Hi correspondiente al valor yi es la proporcin, con respecto del
total, del nmero de observaciones que son menores o iguales a yi .
La frecuencia relativa acumulada mayor que Hi correspondiente al valor yi es la proporcin, con respecto del
total, del nmero de observaciones que son mayores o iguales a yi .
La frecuencia porcentual simple 100hi correspondiente al valor yi es el porcentaje de observaciones que son
iguales a yi .
La frecuencia porcentual acumulada menor que 100Hi correspondiente al valor yi es el porcentaje de observaciones que son menores o iguales a yi .
La frecuencia porcentual acumulada mayor que 100Hi correspondiente al valor yi es el porcentaje de observaciones que son mayores o iguales a yi .
6. De la definicin resultan hi =
ni
,
n
Hi =
Ni
n
Hi =
Ni
n
H3 = h1 + h2 + h3 , , Hm = h1 + h2 + + hm = 1.
H2 = h2 + h3 + + hm , H3 = h3 + h4 + + hm , ,
Hm = hm .
Por lo tanto: 100h1 = 100H1 < 100H2 < 100H3 < < 100Hm = 100.
11. Por definicin para cada i = 1, 2, , m tenemos 100Hi = 100hi + 100hi+1 + + 100hm , de donde
100H1 = 100h1 + 100h2 + + 100hm = 100, 100H2 = 100h2 + 100h3 + + 100hm , , 100Hm = 100hm .
Por lo tanto: 100 = 100H1 > 100H2 > 100H3 > > 100Hm = 100hm .
3
Ejemplo 1.1
Sean los 50 datos correspondientes a una variable cuantitativa
20
20
20
20
20
20
22
22
22
22
22
22
22
23
23
23
23
23
23
23
23
23
23
23
25
25
25
25
25
25
25
25
25
25
25
25
25
27
27
27
27
27
27
27
27
27
27
30
30
30
Los valores diferentes de los datos son y1 = 20, y2 = 22, y3 = 23, y4 = 25, y5 = 27 y y6 = 30; agrupamos estos datos en
una tabla de distribucin de frecuencias sin intervalos
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
20
50
0.12
0.12
12
12
100
22
13
44
0.14
0.26
0.88
14
26
88
23
11
24
37
0.22
0.48
0.74
22
48
74
25
13
37
26
0.26
0.74
0.52
26
74
52
27
10
47
13
0.20
0.94
0.26
20
94
26
30
50
0.06
0.06
100
50
100
Las frecuencias absolutas ni , Ni y Ni representan nmero de datos; las frecuencias relativas hi , Hi y Hi representan proporcin de datos y las frecuencias porcentuales 100hi , 100Hi y 100Hi representan porcentaje de datos. Interpretemos
algunas frecuencia que estn en la tabla anterior.
n3 = 11: Significa que 11 datos son iguales a 23.
n6 = 3: Significa que 3 datos son iguales a 30.
n3 + n4 = 24: Significa que 24 datos son iguales como mnimo a 23 y como mximo a 25 (esto no significa que
uno de ellos es igual a 24, menos, que la mitad son iguales a 23 y la otra mitad iguales a 25).
N3 = 24: Significa que 24 datos son iguales como mnimo a 20 y como mximo 23.
N3 = 37: Significa que 37 datos son iguales como mnimo a 23 y como mximo 30.
1
h5 = 0.20 = : Significa que 1 de cada 5 datos son iguales a 27.
5
h1 = 0.12 =
3
: Significa que 3 de cada 25 datos son iguales a 20.
25
H3 = 0.48 =
12
: Significa que 12 de cada 25 datos son iguales como mnimo a 20 y como mximo a 23.
25
H4 = 0.52 =
13
: Significa que 13 de cada 25 datos son iguales como mnimo a 25 y como mximo a 30.
25
100h5 = 20: Significa que el 20% de los datos son iguales a 27.
100h1 = 12: Significa que el 12% de los datos son iguales a 20.
100H3 = 48: Significa que el 48% de los datos son iguales como mnimo a 20 y como mximo a 23.
100H4 = 52: Significa que el 52% de los datos son iguales como mnimo a 25 y como mximo a 30.
A continuacin presentamos los diagramas de barras o diagramas de bastones de las frecuencias simples correspondientes a la tabla anterior
DIAGRAMA DE BARRAS DE FRECUENCIAS
ABSOLUTAS SIMPLES
ni
Nmero
de datos
hi
13
0,26
11
10
0,22
0,20
7
6
0,14
0,12
0,06
Valores
diferentes
de datos
20
22 23
25
27
Valores
diferentes
de datos
30
20
22 23
25
27
30
Si diseamos el diagrama de barras de las frecuencias absolutas simples (ni ), stas se disponen sobre el eje vertical (si
dos frecuencias absolutas simples son iguales, solo se debe escribir una) y los valores diferentes de los datos sobre el
eje horizontal, sobre cada valor que est en el eje horizontal dibujamos una barra vertical cuya altura debe ser igual
a la frecuencia absoluta simple que le corresponde, tal como se aprecia en el siguiente diagrama sobre 20 una barra
de altura 6, sobre 22 una barra de altura 7, sobre 27 una barra de altura 10, etc.
Para disear los diagramas de barras de otras frecuencias solo debemos cambiar los nmeros del eje vertical con las
respectivas frecuencias cuyo diagrama se va elaborar.
DIAGRAMA DE BARRAS DE FRECUENCIAS
PORCENTUALES SIMPLES
100hi
Porcentaje
TITULO :(Debe ser el mismos ttulo de la tabla)
de datos
0,26
0,22
0.20
0,14
0,12
0,06
Valores
diferentes
de datos
20
22 23
25
27
30
1.2.1.1
Si los datos x1 , x2 , , xn
corresponden a una variable cualitativa X y los valores diferentes que asumen estos datos son
Caracterstica1, Caracterstica2, , Caractersticam;
que no son nmeros entonces la tabla de distribucin de frecuencias ser:
i
Caractersticas
ni
hi
100hi %
Caracterstica1
n1
h1
100h1
Caracterstica2
n2
h2
100h2
..
.
..
.
..
.
..
.
..
.
Caractersticam
nm
hm
100hm
100%
aqu:
La frecuencia absoluta simple ni es el nmero de observaciones que son iguales a la i sima caracterstica.
La frecuencia relativa simple hi es la proporcin de observaciones que son iguales a la i sima caracterstica.
La frecuencia porcentual simple 100hi es el porcentaje de observaciones que son iguales a la i sima caracterstica.
En este tipo de tablas no figuran las frecuencias acumuladas pues no representan nada, y para elaborar su diagrama
de barras de las frecuencias se procede del mismo modo que para variables cuantitativas.
Ejemplo 1.2
Sean los datos correspondientes a las nacionalidades de los 40 participantes del Tercer Seminario Internacional de
Fsica Cuntica
P
Br
Br
Br
Br
Br
Br
Br
Ru
Ru
Ru
Ru
Ru
Ru,
donde P: Peruano, B: Boliviano, Br: Brasileo, E: Espaol, F: Francs y Ru: Ruso, la tabla de distribucin de frecuencias
para estos datos es
Nacionalidad
ni
hi
100hi
Peruano
0,150
15
Boliviano
0,175
17,5
Brasileo
0,175
17,5
Espaol
0,225
22,5
Francs
0,125
12,5
Ruso
0,150
15
40
100
ni
Nmero de
participantes
hi
0,225
7
6
0,175
0,15
0,125
Proporcin de
participantes
ru
e
P
ru
a
liv no
B ia
ra n
s o
i
E le
s
p o
F a
ra o
n l
c
e
R s
u
s
o
Nacionalidades
a
liv no
i
ra an
s o
ile
E
s o
p
F a
ra o
n l
c
e
R s
u
s
o
Nacionalidades
100hi
Porcentaje de
participantes
22,5
17,5
15
12,5
e
P
1.2.2
ru
a
liv no
B ia
ra n
s o
i
E le
s
p o
F a
ra o
n l
c
e
R s
u
s
o
Nacionalidades
Sean x1 , x2 , , xn las n observaciones (datos) correspondientes a una variable cuantitativa X. Si el nmero de valores
diferentes que asumen estos datos no es muy pequeo en relacin al nmero de datos, entonces los agruparemos
en una tabla de distribucin de frecuencias con intervalos (tambin llamados clases) todos ellos posiblemente de la
misma amplitud (longitud) y del tipo [y0i1 ; y0i i a excepcin del primero y el ltimo que tendrn formas particulares
de acuerdo a la ampliacin del recorrido de la variable. A continuacin presentamos los
1.2.2.1
Hallar el mnimo y mximo: El mnimo y mximo valor de los datos son definidos respectivamente por:
xmn = min{x1 , x2 , , xn }
y xmx = max{x1 , x2 , , xn }.
Es obvio que xmn < xmx , por tanto xmx xmn > 0
7
Hallar el rango y su amplitud: El intervalo [xmn ; xmx ] es el rango o recorrido de la variable, y contiene a
todos los datos; su longitud
` = xmx xmn
es denominado amplitud del recorrido de la variable.
Hallar la amplitud de cada intervalo: Si m representa el nmero de intervalos que tendra la tabla, entonces la
amplitud de cada subintervalo es
c=
`
m
y1
y 0
y2
y 1
yi
y 2
ym
y i-1
y i
y m-1
y m
Definicin 1.4
y0i1 + y0i
, representa a todos los datos que estn en
2
esta clase y es utilizado para el clculo de algunos estadgrafos como la media aritmtica, desviacin tpica, etc.
[y0i1 y0i i
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
[y00 y01 i
y1
n1
N1
N1
h1
H1
H1
100h1
100H1
100H1
[y01 y02 i
y2
n2
N2
N2
h2
H2
H2
100h2
100H2
100H2
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
..
.
[y0m1 y0m ]
ym
nm
Nm
Nm
hm
Hm
Hm
100hm
100Hm
100Hm
100
Definicin 1.5
1
La frecuencia absoluta simple ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn
en esta clase.
La frecuencia absoluta acumulada menor que Ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn en esta clase y las anteriores a ella.
La frecuencia absoluta acumulada mayor que Ni correspondiente a la clase [y0i1 y0i i es el nmero de observaciones que estn en esta clase y las posteriores a ella.
Definicin 1.6
1
La frecuencia relativa simple hi correspondiente a la clase [y0i1 y0i i es la proporcin, con respecto del total, del
nmero de observaciones que estn en esta clase.
La frecuencia relativa acumulada menor que Hi correspondiente a la clase [y0i1 y0i i es la proporcin, con
respecto del total, del nmero de observaciones que estn en esta clase y las anteriores a ella.
La frecuencia relativa acumulada mayor que Hi correspondiente a la clase [y0i1 y0i i es la proporcin, con
respecto del total, del nmero de observaciones que estn en esta clase y las posteriores a ella.
Definicin 1.7
1
La frecuencia porcentual simple 100hi correspondiente a la clase [y0i1 y0i i es el porcentaje de observaciones que
estn en esta clase.
La frecuencia porcentual acumulada menor que 100Hi correspondiente a la clase [y0i1 y0i i es el porcentaje de
observaciones que estn en esta clase y las anteriores a ella.
La frecuencia porcentual acumulada mayor que 100Hi correspondiente a la clase [y0i1 y0i i es el porcentaje
de observaciones que estn en esta clase y las posteriores a ella.
Observaciones:
1
Las frecuencias cumplen las mismas propiedades de las frecuencias para tablas de distribucin sin intervalos.
Una observacin xi pertenece solo a un intervalo y no puede estar en dos intervalos a la vez.
1 La
n.
regla de Sturges, propuesta por Herbert Sturges en 1926, es una regla prctica acerca del nmero de clases que deben considerar al elabo-
rarse un histograma. Este nmero viene dado por la siguiente expresin: m = 1 + log2 N, donde N es el tamao de la muestra que puede pasarse a
logaritmo base 10 de la siguiente forma m = 1 + 3.3 log N: El valor de m (nmero de clases) es comn redondearlo al entero ms cercano. FUENTE:
http://es.wikipedia.org/
1.2.2.2
cuantitativa
1
Halle xmn y xmx , entonces ` = xmx xmn es la amplitud del rango de la variable
Segn la Regla de Sturges el nmero de intervalos a considerarse se calcula con m = 1 + 3.3 log n, dado que este
nmero no siempre resulta entero, elegimos como el nmero de intervalo a uno de los enteros prximos a m.
`
, este valor de c
m0
0
0
0
0
debe ser redondeado por exceso a c , el valor ampliado de ` es ` = c m y el error de ampliacin es e = `0 `.
`
, este valor de c
m0
0
0
0
0
debe ser redondeado por exceso a c , el valor ampliado de ` es ` = c m y el error de ampliacin es e = `0 `.
Entonces elegimos como nmero de intervalos a aquel valor redondeado de m que genera el menor error
de ampliacin; pero si en ambos casos tenemos el mismo error de ampliacin el nmero de intervalos ser
el valor redondeado por exceso de m.
3
Con los redondeos ampliamos los valores mximo y mnimo de los datos del siguiente modo
e1
e+1
0
0
Si e es impar xmn = xmn
y xmx = xmx +
2
2
e
e
0
0
Si e es par xmn
= xmn y xmx
= xmx +
2
2
Los intervalos que estarn en la tabla son
hy00 ; y01 i , [y01 ; y02 i , , [y0i1 ; y0i i , , [y0m1 ; y0m i,
0
donde y00 = xmn
;
0
; y0m = xmx
Ejemplo 1.3
Sean los datos x1 , x2 , , xn con n = 200, xmn = 325 y xmx = 986.
En este caso tenemos ` = 986 325 = 661, m = 1 + 3.3 log 200 = 8.59 . . .
661
`
=
= 82.625, de donde c0 = 83. El rango ampliado es `0 = m0 c0 = (8)(83) = 664 y el
m0
8
error de ampliacin es e = `0 ` = 664 661 = 3
Si m0 = 8, entonces c =
`
661
= 73.44 . . ., de donde c0 = 74. El rango ampliado es `0 = m0 c0 = (9)(74) = 666 y
=
0
m
9
el error de ampliacin es e = `0 ` = 666 661 = 5
Si m0 = 9, entonces c =
El redondeo por defecto m0 = 8 origina el menor error e = 3 lo cual indica que la tabla de distribucin tendr 8
intervalos todos ellos de amplitud 83,
los valores ampliados del mximo y mnimo son
e1
31
0
xmn = xmn
= 325
= 324
2
2
e+1
3+1
0
xmx = xmx +
= 986 +
= 988
2
2
y los intervalos sern:
h324 407i ,
[656 739i ,
10
[407 490i ,
[739 822i ,
[490 573i ,
[822 905i ,
[573 656i ,
[905 988i
Ejemplo 1.4
Sean los datos x1 , x2 , , xn con n = 100, xmn = 325 y xmx = 725.
En este caso tenemos ` = 725 325 = 400, m = 1 + 3.3 log 100 = 7.6
`
400
=
= 57, 14 . . ., de donde c0 = 58. El rango ampliado es `0 = m0 c0 = (7)(58) = 406 y
m0
7
el error de ampliacin es e = `0 ` = 406 400 = 6
Si m0 = 7, entonces c =
`
400
=
= 50, de donde c0 = 50. El rango ampliado es `0 = m0 c0 = (8)(50) = 406 y el error
m0
8
de ampliacin es e = `0 ` = 400 400 = 0
Si m0 = 8, entonces c =
El redondeo por exceso m0 = 8 origina el menor error e = 0 lo cual indica que la tabla de distribucin tendr 8 intervalos todos ellos de amplitud 50, los valores ampliados del mximo y mnimo son
0
e
0
xmn
= xmn = 325 = 325
2
2
e
0
0
y xmx
= xmx + = 725 + = 725
2
2
y los intervalos sern
[325 375i ,
[375 425i ,
[525 575i ,
[425 475i ,
[575 625i ,
[475 525i ,
[625 675i ,
[675 725]
Ejemplo 1.5
Sean los datos x1 , x2 , , xn con n = 80, xmn = 80 y xmx = 359.
En este caso tenemos ` = 359 80 = 279, m = 1 + 3.3 log 80 = 7.28 . . .
279
`
=
= 39.8 . . ., de donde c0 = 40. El rango ampliado es `0 = m0 c0 = (7)(40) = 280 y el
0
m
7
error de ampliacin es e = `0 ` = 280 279 = 1
Si m0 = 7, entonces c =
`
279
=
= 34.875, de donde c0 = 35. El rango ampliado es `0 = m0 c0 = (8)(35) = 280 y el
m0
8
error de ampliacin es e = `0 ` = 280 279 = 1
Si m0 = 8, entonces c =
En ambos casos obtenemos el mismo error e = 1, elegimos la mayor cantidad de intervalos, lo cual indica que la tabla
de distribucin tendr8 intervalos
todos
ellos de amplitud 35, los valores ampliados del mximo y mnimo son
e
1
1
1
0
xmn
= xmn
= 80
= 80
2
2
e+1
1+1
0
xmx = xmx +
= 359 +
= 360
2
2
y los intervalos sern
[80 115i ,
[115 150i ,
[220 255i ,
[150 185i ,
[255 290i ,
[185 220i ,
[290 325i ,
[325 360i
11
1.2.3
En estadstica, un histograma es una representacin grfica de una variable en forma de barras, donde la superficie
de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente sealando las clases y las marcas de clase.
En trminos matemticos, puede ser definida como una funcin inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una particin. El histograma, como es tradicionalmente entendido,
no es ms que la representacin grfica de dicha funcin. Se utiliza cuando los datos de una variable se agrupan en
intervalos
Pasos para la elaboracin de histogramas de frecuencias En esta parte enunciamos los pasos para la elaboracin
de histogramas para datos agrupados en una tabla de distribucin de frecuencia con intervalos todos ellos de la
misma amplitud, cada uno de los tipos de frecuencia tienen su propio histograma, decir para una tabla en total son 9
histogramas
1
Sobre el eje horizontal representar todos los intervalos y sus respectivas marcas de clase que aparecen en la
tabla. Estos tres primeros pasos son los mismos que se han de seguir cuando se elaboren los 9 histogramas que
se va elaborar a partir de la tabla.
Sobre el eje vertical representar las frecuencias (si por ejemplo se esta diseando el histograma de frecuencias
absolutas simples ni entonces sobre el eje vertical sealamos los puntos que corresponden a estas frecuencias,
si es que hubieran dos de ellas iguales en el grfico solo se presenta una).
Sobre cada intervalo dibujar un rectngulo cuyas altura debe ser igual a la frecuencia que le corresponde a
dicho intervalo.
Para histogramas de frecuencias simples: Ubicar los puntos medio de las bases superiores de cada rectngulo y
unirlas consecutivamente con segmentos de recta obtenindose una poligonal, en el eje horizontal a la izquierda
del mnimo ubicar el punto que est a la distancia c/2, luego unirla al primer punto de la poligonal anterior,
finalmente en el eje horizontal a la derecha del mximo ubicar el punto que est a la distancia c/2, luego unirla
al ltimo punto de la poligonal anterior obtenindose as el polgono de frecuencias
Para histogramas de frecuencias acumuladas menor que: Ubicar los extremos derechos de las bases superiores
de cada rectngulo, luego unirlas consecutivamente con segmentos de recta obtenindose una poligonal, finalmente en el eje horizontal ubicar el mnimo, luego unirla al primer punto de la poligonal anterior obtenindose
as la ojiva menor que.
Para histogramas de frecuencias acumuladas mayor que: Ubicar los extremos izquierdos de las bases superiores
de cada rectngulo, luego unirlas consecutivamente con segmentos de recta obtenindose una poligonal, finalmente en el eje horizontal ubicar el mximo, luego unirla al ltimo punto de la poligonal anterior obtenindose
as la ojiva mayor que.
12
Ejemplo 1.6
La siguiente tabla corresponde a los salarios semanales en nuevos soles de todos los trabajadores de la constructora
NEXT durante el ao 2011.
Trabajadores de la constructora NEXT segn salarios semanales durante el ao 2011.
i
Salarios(S/.)
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
[ 80 110i
95
50
0,10
0,10
10
10
100
[110 140i
125
14
45
0,18
0,28
0,90
18
28
90
[140 170i
155
14
28
36
0,28
0,56
0,72
28
56
72
[170 200i
185
34
22
0,12
0,68
0,44
12
68
44
[200 230i
215
10
44
16
0,20
0,88
0,32
20
88
32
[230 260]
245
50
0,12
0,12
12
100
12
50
100
Vemos que la constructora NEXT posee 50 trabajadores, el salario mnimo y mximo es de 80 y 260 nuevos soles respectivamente. Las frecuencias ni , Ni y Ni representan nmero de trabajadores; hi , Hi y Hi proporcin de trabajadores;
100hi , 100Hi y 100Hi porcentaje de trabajadores, interpretemos algunas de ellas
1
n3 = 14: Significa que 14 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 140 y menores a S/. 170.
n4 + n5 = 16: Significa que 16 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales
a S/. 170 y menores a S/. 230.
N4 = 34: Significa que 34 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 80 y menores a S/. 200.
N3 = 36: Significa que 36 trabajadores de la constructora NEXT tienen salarios semanales mayores o iguales a
S/. 140 y menores o iguales a S/. 260.
1
h5 = 0, 20 = : Significa que 1 de cada 5 trabajadores de la constructora NEXT tienen salarios semanales mayores
5
o iguales a S/. 200 y menores a S/. 230.
7
: Significa que 7 de cada 25 trabajadores de la constructora NEXT tienen salarios semanales
25
mayores o iguales a S/. 80 y menores a S/. 140.
H2 = 0, 28 =
8
: Significa que 8 de cada 25 trabajadores de la constructora NEXT tienen salarios semanales
25
mayores o iguales a S/. 200 y menores o iguales a S/. 260.
H5 = 0, 32 =
100h4 = 12: Significa que el 12% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 170 y menores a S/. 200.
100H3 = 56: Significa que el 56% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 80 y menores a S/. 170.
10
100H4 = 44: Significa que el 44% de los trabajadores de la constructora NEXT tienen salarios semanales mayores
o iguales a S/. 170 y menores o iguales a S/. 260.
13
A continuacin elaboramos los 9 histogramas que corresponden a la tabla anterior, en ellas adjuntamos los polgonos
de frecuencias y las ojivas.
HISTOGRAMA DE FRECUENCIAS ABSOLUTAS SIMPLES
ni
Nmero de
trabajadores
14
Polgono de frecuencias
10
9
6
5
Salarios
(S/.)
semanales
65
80
110
140
170
200
230
260
275
Ni
Nmero de
trabajadores
N*i
50
50
44
45
Nmero de
trabajadores
36
34
28
22
16
14
Salarios
(S/.)
semanales
80
110
140
170
200
230
Salarios
(S/.)
semanales
260
80
110
140
170
200
hi
Proporcin de
trabajadores
0,28
Polgono de frecuencias
0,20
0,18
0,12
0,10
Salarios
(S/.)
semanales
65
80
110
140
170
200
14
230
260
275
230
260
Hi
Proporcin de
trabajadores
H*i
0,88
0,90
Proporcin de
trabajadores
0,72
0,68
0,56
0,44
0,32
0,28
0,10
Salarios
(S/.)
semanales
80
110
140
170
200
230
0,12
Salarios
(S/.)
semanales
260
80
110
140
170
200
230
260
100hi trabajadores
28
Polgono de frecuencias
20
18
12
10
Salarios
(S/.)
semanales
65
80
110
140
170
200
230
260
275
100Hi
Porcentaje de
trabajadores
100H*i
100
100
88
90
Porcentaje de
trabajadores
72
68
56
44
32
28
10
Salarios
(S/.)
semanales
80
110
140
170
200
230
260
12
Salarios
(S/.)
semanales
80
110
140
170
200
230
260
15
Distribuciones Simtricas: Una tabla de distribucin de frecuencias, con o sin intervalos, se dice que es simtrica
m
con respecto a la frecuencia absoluta simple si ni = nmi+1 para cada i .
2
Observaciones:
1
Si una tabla de distribucin de frecuencias, con o sin intervalos, es simtrica con respecto a la frecuencia absoluta
simple, entonces es simtrica con respecto a la frecuencia relativa simple y la frecuencia porcentual simple.
Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 7; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n7 , n2 = n6 y n3 = n5 .
Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 6; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n6 , n2 = n5 y n3 = n4 .
Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 9; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n9 , n2 = n8 , n3 = n7 y n4 = n6 .
Sea una tabla de distribucin de frecuencias, con o sin intervalos, con m = 8; para que sea simtrica con respecto
a la frecuencia absoluta simple debe verificarse n1 = n8 , n2 = n7 , n3 = n6 y n4 = n5 .
Ejemplo 1.7
Presentamos
algunas
i
yi
tablas
de
distribucin
simtricas
ni
con
y1
n1
y2
n2
n4
y3
n3
n1 = n7
n3
y4
n4
n2 = n6
n2
y5
n5
n3 = n5
y6
n6
y7
n7
[y0i1 y0i i
yi
ni
n1=n7
n2=n6
n3=n5
y2
y3
y4
y5
y6
y7
ni
y1
n1
[y01 y02 i
y2
n2
[y02 y03 i
y3
n3
n1 = n7
n3
[y03 y04 i
y4
n4
n2 = n6
n2
[y04 y05 i
[y05 y06 i
[y06 y07 ]
y5
n5
n3 = n5
y6
n6
y7
n7
n
16
frecuencias
Nmero
de datos
y1
[y00 y01 i
sus
n1
ni
n
i
respecto
Nmero
de datos
n1=n7
n2=n6
n3=n5
n4
n1
y0
y1
y2
y3
y4
y5
y6
y7
simples.
yi
ni
y1
n1
ni
y2
n2
n4
y3
n3
n1 = n8
y4
n4
n2 = n7
y5
n5
n3 = n6
y6
n6
n4 = n5
y7
n7
y8
n8
n1=n8
n2=n7
n3=n6
n4=n5
n2
n3
n1
y1 y2
y3
y4 y5
y6 y7
y8
n
i
[y0i1 y0i i
yi
ni
[y00 y01 i
[y01 y02 i
[y02 y03 i
[y03 y04 i
[y04 y05 i
[y05 y06 i
[y06 y07 i
[y07 y08 ]
y1
n1
ni
y2
n2
n4
y3
n3
n1 = n8
y4
n4
n2 = n7
y5
n5
n3 = n6
y6
n6
n4 = n5
y7
n7
y8
n8
2
3
4
5
6
7
8
n1=n8
n2=n7
n3=n6
n4=n5
n2
n3
n1
y0
y1
y2
y3
y4
y5
y6
y7
y8
CUESTIONARIO
1 Diga qu tipo de variable es cada una de las siguientes:
a
Ocupacin de los padres y/o apoderados de los estudiantes de la I.E. Mariscal Cceres de Ayacucho.
Grado de instruccin acadmica de los padres y/o apoderados de los estudiantes de la I.E. Mariscal
Cceres de Ayacucho.
l
m
Cantidad de medallas Olmpica obtenidas por cada Nacin participante en las Olimpiadas de verano 2012.
2 Debido a la falta de personal de la empresa SMART, dedicada al servicio de mensajera, los trabajadores laboraron horas extras durante el ao 2010. El nmero de horas extras realizadas por 50 trabajadores de esta fueron:
20
20
20
30
30
35
35
35
35
35
35
35
35
35
40
40
40
40
40
40
40
40
50
50
50
50
50
50
50
50
50
55
55
55
55
55
55
55
60
60
60
60
60
60
65
65
65
65
65
75
3 A continuacin presentamos la cantidad de vehculos vendidos por todos los trabajadores de la importadora
Nissan durante el verano 2012.
20
21
21
21
24
22
25
21
21
22
22
21
20
22
21
23
20
20
24
20
24
23
24
25
22
26
25
23
23
23
25
24
25
21
21
26
26
24
26
20
21
21
22
23
23
21
22
21
21
21
4 Una fbrica de gaseosas proyecta lanzar al mercado un nuevo sabor. Se realiza un test de aceptacin de dicho
sabor en una muestra de 40 nios, utilizando una escala de 10 puntos, para medir el grado de aceptacin. Los
puntos obtenidos en los 40 nios fueron
3
La muestra estuvo compuesta por igual nmero de nios de ambos sexos de 5 a 12 aos de edad residentes en
el barrio San Bernardo de la ciudad de Maracaibo.
18
Toshiba
Samsung
OTRAS
Toshiba
HP
Samsung
Vaio
Toshiba
Lenovo
Vaio
HP
Apple
Toshiba
OTRAS
HP
Vaio
Toshiba
Lenovo
Toshiba
Acer
Acer
Acer
OTRAS
Toshiba
Toshiba
HP
HP
Samsung
Acer
Apple
HP
Lenovo
Lenovo
Toshiba
Samsung
Apple
OTRAS
Acer
HP
6 Se realiza un estudio en la ciudad de Guayaquil a 150 familias de clase media, para conocer el tipo de aceite
o manteca usados en la cocina. Los resultados son los siguientes: Maz, 14 hogares; Soya 65, hogares; Ajonjol,
21 hogares; Pescado, 10 hogares; Manteca de cerdo, 21 hogares; Grasa de origen vegetal, 6 hogares; Oliva, 13
hogares.
a
7 Las nacionalidades de todos los participantes en el 1er Seminario Internacional de Fsica realizado en la UNI en
el ao 2010 son los siguientes:
Donde:
B: Boliviano
x1 = C,
x2 = B,
x3 = P,
x4 = E,
x5 = P,
x6 = Pa
x7 = P,
x8 = V ,
x9 = C,
x10 = B,
x11 = P,
x12 = Ch
x13 = P,
x14 = C,
x15 = E,
x16 = P,
x17 = B,
x18 = B
x19 = V ,
x20 = Pa,
x21 = Ch,
x22 = B,
x23 = P,
x24 = C
x25 = C,
x26 = E,
x27 = P,
x28 = P,
x29 = P,
x30 = V
x31 = P,
x32 = V ,
x33 = Ch,
x34 = C,
x35 = P,
x36 = V
x37 = P,
x38 = V ,
x39 = Ch,
x40 = C,
C: Colombiano
E: Ecuatoriano
Pa: Paraguayo
P: Peruano
V: Venezolano
Ch: Chileno
Agrupe los datos en una tabla de distribucin de frecuencias, luego interprete todas las frecuencias.
19
8 El seor Robles, al llegar a su vejez, decide adaptarse a los tiempos modernos, adquiriendo un telfono mvil.
Transcurrido un mes, la compaa de telfonos le remite el siguiente detalle de las llamadas efectuadas durante
ese periodo.
duracin en minutos
Llamadas a mviles
Llamadas a fijos
Llamadas al extranjero
< 00 10]
< 10 20]
10
25
< 20 30]
25
10
El precio por llamadas a mviles es de 0.12 euros, a fijos 0.15 euros y 0.8 euros al extranjero.
a
Elabore la tabla de distribucin de frecuencias para llamadas a mviles y para llamadas a fijos.
Calcule el monto que pagar por todas las llamadas a telfonos fijos.
Calcule el monto que pagar por todas las llamadas a telfonos mviles.
9 Los sueldos mensuales (en euros) de 60 empleados de la empresa Pirmide S.A. durante el ao 1998 son los
siguientes:
440
560
335
587
613
400
424
466
565
393
453
650
407
376
470
560
321
500
528
526
570
430
618
537
409
600
550
432
591
428
440
340
558
460
560
607
382
667
512
492
450
530
501
471
660
470
364
634
580
450
574
500
462
380
518
480
625
507
645
382
Agrupe los datos en una tabla de distribucin de frecuencias, calcule el nmero de clases empleando la Regla
de Sturges, interprete todas las frecuencias
10 Un nuevo hotel va a abrir sus puertas en Huamanga. Antes de decidir el precio de sus habitaciones, el gerente
investiga los precios por habitacin de 40 hoteles de esta ciudad. Los datos obtenidos en dlares fueron:
39
47
37
56
43
49
50
61
51
45
53
39
43
50
60
47
51
42
44
58
33
43
41
58
44
48
63
43
53
45
40
54
39
47
33
45
47
42
45
48
Cunto hoteles tienen un precio por habitacin entre 35,5 y 40,5 dlares?.
11 Suponiendo que se pierden todos los exmenes de estadstica, pero se recuerdan que las 120 notas tenan una
distribucin simtrica con 7 intervalos de clase de igual amplitud. Adems en los archivo se encuentra la siguiente informacin:
100h1 % = 5%, 100h3 % = 15%,
100H3 = 85%,
yi = 400,
i=3
20
y4 = 72.
Si para aprobar el examen se necesita por lo menos 70 puntos, Cuntos desaprobaron aquel examen?
12 La siguiente informacin se refiere a las masas (en kg) de los 50 ingresantes a la EFP de Economa en el Examen
de Admisin del 2008: m = 6, y01 = 41, y04 = 59, 100h2 = 10, 100H1 = 6, h4 = 0.30, N3 = 21, 100h5 = 22.
a
13 El siguiente histograma incompleto se refiere a los salarios semanales (en dlares) de todos los trabajadores de
la empresa SONY
Nmero de
trabajadores
HISTOGRAMA DE FRECUENCIAS
ABSOLUTAS ACUMULADAS
80
79
76
61
44
24
11
Salarios
semanales ($)
90 105
A partir de ello Construya la tabla de distribucin de frecuencias, si los intervalos de clase tienen todas la
misma amplitud.
Calcule e interprete n4 + n5 ,
n2 + N3 ,
100H5 % + 100h6 %.
21
14 De un examen realizado a un grupo de alumnos, cuyas notas se han evaluado del 1 al 8, se ha obtenido la
siguiente tabla de distribucin de frecuencias:
Notas
ni
Ni
Ni
hi
16
7
100hi
100Hi
100Hi
0,08
3
4
Hi
Hi
0,16
0,14
28
38
0,14
Se pide:
a
15 Una fbrica empaqueta en lotes de 100 unidades los tornillos que produce. Se establece un plan de inspeccin
por muestreo consistente en examinar, de cada lote, 20 tornillos elegidos al azar y rechazar el lote si de los 20
aparecen ms de 4 defectuosos; almacenar el lote como revisable si el nmero de defectuosos es menor que 5
pero mayor que 1, y aceptarlo en otro caso. Se inspeccionan 64 lotes y resulta el siguiente nmero de tornillos
defectuosos de cada uno:
1
16 Las estaturas (en centmetros) de los socios de un club juvenil de Pker de Panam, son:
22
153
123
129
132
147
138
137
134
131
147
138
128
134
148
125
139
146
145
148
135
152
128
146
143
138
138
122
146
137
151
145
124
132
138
144
141
137
146
138
146
152
136
160
159
157
150
160
142
148
130
Agruparlas en una tabla de distribucin de frecuencias con 6 intervalos, luego elaborar los histogramas de
frecuencia relativas.
17 Con los siguientes datos, correspondientes a los saldos (en miles de dlares) de cuentas pendientes
77
70
65
62
53
78
41
48
74
63
34
38
69
79
76
55
59
69
78
75
68
56
61
41
83
54
49
68
48
64
84
74
68
73
69
31
69
78
64
34
18 En una investigacin realizada a 800 empresas sobre valor de las ventas, en una quincena, se obtuvo la siguiente
distribucin
ventas($)
Proporcin de empresas
[18 28i
0,30
[28 48i
0,25
[48 98i
0,20
[98 148i
0,15
[148 198]
0,10
se pide
a
19 Con los siguientes datos correspondientes al nmero de retrasos (en la maana) por parte de los empleados del
Banco de la Nacin
2
Se pide elaborar una tabla de frecuencias y los diagramas de frecuencia simples correspondientes.
20 Segn la Asociacin de lucha contra la Bulimia y la Anorexia, las pautas culturales han determinado que la
delgadez sea sinnimo de xito social. Muchos jvenes luchan para conseguir el fsico ideal motivados por
modelos, artistas o por la publicidad comercial. Durante el mes de marzo del ao 2006, en el colegio Alcntara de la ciudad de Talca, despus de las vacaciones de verano, se observ con precaucin a 27 alumnos con
sntomas de anorexia, registrndose los siguientes signos visibles:
Dieta Severa
Miedo a Engordar
Hiperactividad
Dieta Severa
Miedo a Engordar
Dieta Severa
Dieta Severa
Dieta Severa
Dieta Severa
Hiperactividad
Uso de Laxantes
Uso de Laxantes
Dieta Severa
Uso de Laxantes
Hiperactividad
Dieta Severa
Uso de Laxantes
Miedo a Engordar
Uso de Laxantes
Dieta Severa
Hiperactividad
21 La tabla muestra una distribucin de frecuencias de la duracin de 400 tubos de electricidad de radio comprobados en la L& M Tube Company.
Duracin (horas)
Nmero de tubos
[300 400i
14
[400 500i
46
[500 600i
58
[600 700i
76
[700 800i
68
[800 900i
62
[900 1000i
48
[1000 1100i
22
[1100 1200i
Porcentaje de tubos cuya duracin es al menos de 500 horas pero menor de 1000 horas.
22 En una empresa el personal (500 empleados) se distribuye de acuerdo con su actividad desarrollada en la
misma, como se indica a continuacin en el siguiente diagrama de pastel:
Profesional
10%
Operario
10%
70%
8%
2%
Tcnica
Ayudante
Aseo
A partir de esta informacin construya la tabla de distribucin de frecuencias y sus diagramas de barras correspondientes.
24
23 Los datos que se muestran a continuacin, son los cargos (en dlares) por los servicios de electricidad, agua y
gas durante el mes de julio del 2000 para una muestra de 50 apartamentos de 3 habitaciones en Caracas.
96
171
202
178
147
102
153
197
127
82
157
185
90
116
172
111
148
213
130
165
141
149
206
175
123
128
144
168
109
167
95
163
150
154
130
143
187
166
139
149
108
119
183
151
114
135
191
137
129
158
Elaborar:
a
Una tabla de distribucin de frecuencias, hallando el nmero de clases con la regla de Sturges.
Un histograma porcentual.
Una ojiva.
Determinar:
a
El porcentaje de apartamentos cuyo gasto es al menos de 120 dlares, pero menor de 196 dlares.
24 En Beverage Digest se informa que, con base en las ventas de 1998, las 5 marcas de refrescos que ms se
vendieron fueron Coke Classic, Diet Coke, Dr.Pepper, Pepsi Cola y Sprite. La lista siguiente proviene de una
muestra de 50 compras de esas marcas fue:
Coke Classic
Dr.Pepper
Sprite
Coke Classic
Pepsi Cola
Pepsi Cola
Sprite
Diet Coke
Diet Coke
Coke Classic
Diet Coke
Coke Classic
Coke Classic
Diet Coke
Pepsi Cola
Pepsi Cola
Diet Coke
Coke Classic
Coke Classic
Pepsi Cola
Coke Classic
Diet Coke
Pepsi Cola
Coke Classic
Diet Coke
Coke Classic
Pepsi Cola
Pepsi Cola
Coke Classic
Coke Classic
Coke Classic
Coke Classic
Pepsi Cola
Coke Classic
Dr.Pepper
Coke Classic
Dr.Pepper
Sprite
Sprite
Coke Classic
Pepsi Cola
Dr.Pepper
Sprite
Pepsi Cola
Pepsi Cola
Pepsi Cola
Coke Classic
Diet Coke
Coke Classic
Dr.Pepper
a
25
25 La siguiente informacin se refiere al tiempo, en minutos, que han utilizado los usuarios del Banco de la Nacin
Sede Huamanga durante el 12 de mayo de 2011 para llevar a cabo una operacin bancaria en ventanilla (el
tiempo se midi desde que el usuario llega al banco hasta realizar la operacin bancaria):
y02 = 46,
a
y05 = 70,
N1 = 12,
100H5 = 90, n2 = 2 n1 ,
100h4 = 30.
tiempo(min)
H6 = 1, h1 = 0.04, H4 = 0, 74,
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
Si la atencin en aquel banco se considera BUENA cuando la operacin bancaria dura como menos de 40
minutos, cuantas personas atendidas durante ese da califican la atencin bancaria como MALA.
Calcule el porcentaje de personas cuya operacin bancaria duro como mnimo 50 minutos.
26 Elabore una grfica circular y una grfica circular porcentual de la siguiente distribucin, que representa los
nmeros de vehculos de motor registrados en la Oficina Regional Automotriz de Denver durante el 2013.
Tipo de vehculo
Cantidad de vehculos
Automvil de pasajeros
248
Minivan
74
62
Camin multiejes
22
Matocicleta
75
lancha a motor
19
Proporcin de vehculos
Porcentaje de vehculos
Total
15
15
15
15
15
15
15
15
15
15
15
15
15
15
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
16
17
17
17
17
17
17
17
17
18
18
18
18
18
18
18
18
18
18
18
19
19
19
19
20
20
20
20
20
20
20
25
25
25
25
25
25
25
corresponde al nmero de viajes al extranjero via area durante el periodo 20062010 de los 80 Senadores
Venezolanos que fueron designados para labores externas a su pais y labores de representacin en el extranjero,
26
La muestra es:
La variable es:
ni
Ni
Ni?
hi
Hi
Hi?
100hi
100Hi
100Hi?
1
2
3
4
5
6
7
Total
FUENTE:
g
TTULO
ni
FUENTE
TTULO
100hi
FUENTE
27
TTULO
TTULO
FUENTE
FUENTE
n2 =
: Significa que
periodo 20062010.
n6 =
: Significa que
: Significa que
n3 + n4 =
N4 =
: Significa que
N3? =
: Significa que
h3 =
: Significa que
de cada
viajes al extranjero
h5 =
: Significa que
de cada
viajes al extranjero
H4 =
: Significa que
de cada
H3? =
: Significa que
de cada
: Significa que el
100h6 =
100H5? =
: Significa que el
viajes al
y menos de
viajes al extranjero va
viajes al extranjero va
viajes al extranjero va
viajes al extranjero va
y como mximo
viajes al
viajes al extranjero va
28 En el siguiente grfico circular se representan a todos los accidentes de trnsito segn causa principal durante
la dcada de los 90s (1990-1999) ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100.
DIAGRAMA CIRCULAR DE FRECUENCIAS PORCENTUALES SIMPLES
TTULO:
TTULO:
i
IMPRUDENCIA DEL CONDUCTOR
36,3%
DESACATO DE SEALES
FALLAS MECANICAS
7 ,5
%
8%
8,
hi
100hi
8,2%
19,1%
8,7%
ni
2
EXCESO DE VELOCIDAD
11,4%
OTRAS CAUSAS
3
4
5
6
7
Total de accidentes
13000
FUENTE:
29
La muestra es:
La variable es:
Elabore la tabla de distribucin de frecuencias para estos datos (slo frecuencias simples)
TTULO
NMERO DE
ACCIDENTES
LEYENDA
A
B
C
D
PORCENTAJE DE
ACCIDENTES
E
F
G
FUENTE
CAUSAS DE LOS
ACCIDENTES
A
LEYENDA
A
B
C
D
TTULO
CAUSAS DE LOS
ACCIDENTES
E
F
G
FUENTE
n2 =
: Significa que
en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
n4 =
: Significa que
en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
n6 =
: Significa que
en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
30
: Significa que
n3 + n5 =
en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
o por
: Significa que
n4 + n1 =
en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
o por
: Significa que el
100h5 =
ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente
por
: Significa que el
100h3 =
ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente
por
: Significa que el
100h2 + 100h5 =
90s ocurridos en la Panamericana Sur en Per entre los kilmetros 0 y 100 fueron causados principalmente por
o por
11
13.5
16.2
18
19.1
20.4
22.5
24.1
26.4
7.7
11.2
14.4
16.7
18
19.2
20.5
22.7
24.3
26.6
8.3
11.8
14.5
16.9
18.1
19.3
20.8
22.7
24.6
26.8
12.3
14.7
17
18.1
19.4
20.9
22.9
24.6
27.5
9.4
12.8
15.2
17.3
18.4
19.4
21.4
23
24.8
28.5
9.8
13.2
15.5
17.5
18.5
20
21.6
23.5
25.7
28.6
10.5
13.3
15.8
17.6
18.7
20.1
21.9
23.7
25.9
29.6
10.7
13.3
15.9
17.9
19
20.1
22.3
23.9
26.1
31.8
corresponde a la cantidad de xido de azufre (en toneladas) emitidas por La Standar Oil en los ltimos 80 das
del verano de 2004, dicha informacin fue obtenida y publicada en La Revista Ecolgica Canadiense
a
TTULO:
yi
Total
ni
Ni
Ni?
hi
Hi
Hi?
100hi
100Hi
100Hi?
FUENTE:
31
Elabore el histograma de frecuencias absolutas simples, el histograma de frecuencias porcentuales acumuladas, el polgono de frecuencias y la ojiva.
PORCENTAJE
DE DAS
NMERO
DE DAS
CANTIDAD DE
OXIDO DE
AZUFRE
(toneladaS)
FUENTE:
CANTIDAD DE
OXIDO DE
AZUFRE
(toneladaS)
FUENTE:
n2 =
: Significa que en
n5 =
: Significa que en
y menores a
n3 + n4 + n5 =
: Significa que en
y menores a
n6 + n7 =
: Significa que en
y menores a
N3 =
: Significa que en
N5 =
: Significa que en
y menores a
N5? =
: Significa que en
y menores a
100h3 =
100h6 =
: Significa que en el
: Significa que en el
y menores a
y menores a
: Significa que en el
y menores a
y menores a
100H4 =
: Significa que en el
100H3? =
: Significa que en el
y menores a
Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:
Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 14 toneladas y menores a 21 toneladas. Rta:
Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 5 toneladas y menores a 17 toneladas. Rta:
Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:
Halle el nmero de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil tuvo emisiones de xido de azufre mayores a 9 toneladas y menores o iguales a 19 toneladas. Rta:
Halle el porcentaje de das de los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 9 toneladas y menores a 19 toneladas. Rta:
Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 14 toneladas y menores a 31 toneladas. Rta:
Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 25 toneladas y menores a 18 toneladas. Rta:
Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores o iguales a 13 toneladas y menores a 21 toneladas. Rta:
Halle el porcentaje de das de entre los ltimos 80 das del verano de 2004 en los cuales La Standar Oil
tuvo emisiones de xido de azufre mayores a 27 toneladas y menores o iguales a 30 toneladas. Rta:
30 Los pesos de los jugadores de un equipo de ftbol americano varan entre 168 y 267 libras. Indique los lmites
de las once clases en que se van agrupar estos pesos.
33
34
2
Z
Nro:
2.1
E.F.P:
Introduccin
Las medidas de tendencia central nos permiten determinar la posicin de un valor respecto a un conjunto de datos,
el cual consideramos como representativo o tpico para el total de las observaciones, su valor ser prximo al centro
de la distribucin.
Xmn
Xmx
Xmx
Xmn
Observaciones:
1. Las medidas de tendencia central son para datos de variable cuantitativa.
2. Una medida de tendencia central de un conjunto de datos puede ser menor al punto medio del rango.
3. Una medida de tendencia central de un conjunto de datos puede ser mayor al punto medio del rango.
4. Una medida de tendencia central de un conjunto de datos puede ser igual al punto medio del rango.
4. No debe ser una abstraccin matemtica, que nicamente pueda ser entendida por personas muy versadas en
esta ciencia, ya que una de las condiciones de la estadstica, es simplificar los datos y no hacerlos ms complejos.
5. Debe ser fcil de calcular, pero esta condicin no debe preferirse en perjuicio de otras ventajas.
6. Debe depender de cada uno de los elementos del grupo, de tal manera que si se altera alguno de estos, consecuentemente se altera el valor del promedio ya que por definicin, esta es representante tpica de todos los
miembros del grupo y no solamente de algunos de ellos.
7. A pesar de que cada uno de los valores de los elementos del grupo debe tener influencia en el valor de la
medida, esta debe ser de tal calidad que no se deje influenciar demasiado por alguno o algunos pocos valores.
8. Debe tener lo que los estadsticos llaman estabilidad en el muestreo.
9. Deber ser de uso fcil para clculos matemticos posteriores.
2.2
Media
La media es el valor promedio de un conjunto de observaciones, entre ellas tenemos: la media aritmtica, media
geomtrica, media armnica, media cuadrtica, media cubica, entre otros
Definicin 2.1 (Media aritmtica)
Sean X una variable cuantitativa que caracteriza a todos los integrante de una poblacin P, M una muestra extrada
de P. Si x1 , x2 , , xn son todos los datos correspondientes a la variable X que asumen en la muestra M, definimos su
media aritmtica muestral por
n
XM = X =
x1 + x2 + + xn
=
n
xi
i=1
1 n
xi
n i=1
Observaciones:
1. Si de la poblacin P extraemos dos muestra, digamos M1 y M2 , entonces la media aritmtica de la variable X
con respecto a estas muestras pueden ser diferentes.
2. Para poder calcular la media de un conjunto de datos, ste tiene que ser finito.
3. Dado que en la formula de X se observa una suma finita, la media es solo vlida para datos de una variable
cuantitativa.
4. La media aritmtica que se presenta en la definicin 2.1 es la media muestral, solo se ha calculado para los datos
que la variable adquiere en una muestra M
5. La media aritmtica muestral tiende a ser diferente a la media aritmtica que se calculara con los datos que la
variable adquiere en la poblacin P.
6. Si la poblacin P es finita con N elementos y los datos que la variable X adquiere en P son x1 , x2 , , xN , entonces
la media aritmtica poblacional ser
N
xi
XP = X =
36
x1 + x2 + + xN
= i=1
N
N
1 N
xi
N i=1
Ejemplo 2.1
Los siguientes datos son los puntajes obtenidos en un examen de aptitud por cuatro grupos de estudiantes.
Grupo
39
47
37
56
43
49
50
61
51
45
Grupo
53
39
43
50
60
47
51
42
44
58
Grupo
33
43
41
58
44
48
63
43
53
45
Grupo
40
54
39
47
33
45
47
42
45
48
39 + 47 + 37 + 56 + 43 + 49 + 50 + 61 + 51 + 45
= 47.8 puntos
10
53 + 39 + 43 + 50 + 60 + 47 + 51 + 42 + 44 + 58
= 48.7 puntos
10
33 + 43 + 41 + 58 + 44 + 48 + 63 + 43 + 53 + 45
= 47.1 puntos
10
40 + 54 + 39 + 47 + 33 + 45 + 47 + 42 + 45 + 48
= 44 puntos
10
Al extraer 4 muestras diferentes de la poblacin de los 40 estudiantes, vemos que la media en cada una de ellas
adopta su propio valor y es diferente a la media poblacional.
2.2.1
1.
X=
2.
xi
x1 + x2 + + xn
=
n
i=1
1 n
xi
n i=1
Para datos agrupados en una tabla de distribucin de frecuencias con o sin intervalos.
?
Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y stos se han agrupado en una
tabla de distribucin de frecuencias sin intervalos, como el que sigue,
i
yi
ni
yi ni
y1
n1
y1 n1
2
..
.
y2
..
.
n2
..
.
y2 n2
..
.
ym
nm
ym nm
yi ni
yi ni
X=
?
i=1
Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y stos se han agrupado en una
tabla de distribucin de frecuencias con intervalos, como el que sigue,
i
[y0i1 y0i i
yi
ni
yi ni
[y00 y01 i
y1
n1
y1 n1
2
..
.
[y01 y02 i
..
.
y2
..
.
n2
..
.
y2 n2
..
.
[y0m1 y0m ]
ym
nm
ym nm
yi ni
yi ni
X=
38
i=1
NOTA: Para utilizar la frmula anterior, primero se debe conocer a cada yi , a cada ni y obtener cada yi ni , luego
sumarlos. Para la primera tabla los yi son los valores diferentes de los datos, mientras que para la segunda tabla los
yi son las marcas de clase de los intervalos.
Mientras que cuando se agrupa del siguiente modo
i
yi
hi
yi hi
[y0i1 y0i i
yi
hi
yi hi
y1
h1
y1 h1
[y00 y01 i
y1
h1
y1 h1
2
..
.
y2
..
.
h2
..
.
y2 h2
..
.
2
..
.
[y01 y02 i
..
.
y2
..
.
h2
..
.
y2 h2
..
.
ym
hm
ym hm
[y0m1 y0m ]
ym
hm
ym hm
yi hi
yi hi
X = yi hi
i=1
NOTA: Para utilizar esta frmula primero se debe conocer a cada yi , a cada hi y obtener cada yi hi , luego sumarlos.
Para la primera tabla los yi son los valores diferentes de los datos, mientras que para la segunda tabla los yi son las
marcas de clase de los intervalos.
Ejemplo 2.2
Los siguientes datos son los puntajes obtenidos en un examen de aptitud por cuatro grupos de estudiantes.
Grupo
39
47
37
56
43
49
50
61
51
45
Grupo
53
39
43
50
60
47
51
42
44
58
Grupo
33
43
41
58
44
48
63
43
53
45
Grupo
40
54
39
47
33
45
47
42
45
48
a estos datos los agrupamos en una tabla de distribucin de frecuencias con 6 intervalos tal como sigue
i
Puntajes
yi
ni
Ni
Ni
hi
Hi
Hi
100hi
100Hi
100Hi
yi ni
yi hi
[33 38i
35,5
40
0,075
0,075
7,5
7,5
100
106,5
2,6625
[38 43i
40,5
10
37
0,175
0,25
0.925
17,5
25
92,5
283,5
7,0875
[43 48i
45,5
14
24
30
0,35
0,6
0.75
35
60
75
637
15,925
[48 53i
50,5
31
16
0,175
0,775
0.4
17,5
77,5
40
353,5
8,8375
[53 58i
55,5
35
0,1
0,875
0.225
10
87,5
22,5
222
5,55
[58 63]
60,5
40
0,125
0.125
12,5
100
12,5
302,5
7,5625
1905
47,625
sumas
40
100
yi ni
X=
i=1
40
1905
= 47, 625 puntos
40
39
Observacin: En el ejemplo 2.1 la media aritmtica hallada fue X = 46.9 puntos, mientras que en el ejemplo 2.2 es
X = 47.625 puntos, esta diferencia es debido a que en el ejemplo 2.2 se est suponiendo que 3 datos son iguales a
35.5 puntos, 7 datos son iguales a 40.5 puntos, 14 datos son iguales a 45.5 puntos, 7 datos son iguales a 50.5 puntos, 4
datos son iguales a 55.5 puntos y 5 datos son iguales a 60.5 puntos, lo cual no es cierto, este es el error que se comete
en el clculo de la media cuando los datos se agrupan en tablas de distribucin de frecuencias con intervalos. Este
error no se cometera si los datos se agrupan en tablas de distribucin de frecuencias sin intervalos. El valor exacto de
la media se obtiene cuando se agrupan en tablas sin intervalos, mientras cuando agrupamos en tablas con intervalos
el valor de la media es aproximado.
2.2.2
Este procedimiento tiene su justificacin por que en muchas situaciones existe la necesidad de obtener diferentes
muestras de una poblacin, ya sea por razones tcnicas o por disponibilidad de informacin.
M1
M2
Mk
X1
X2
Xk
n1 datos
n2 datos
nk datos
Supongamos que de una poblacin se obtienen las muestras M1 , M2 , , Mk disjuntas dos a dos y de tamaos
n1 , n2 , . . . , nk respectivamente. Si sus respectivas media aritmtica son X 1 ,
X 2,
n1 X 1 + n2 X 2 + + nk X k
n1 + n2 + + nk
Ejemplo 2.3
La empresa A tiene 50 empleados, con un sueldo promedio mensual de $200. La empresa B tiene 100 empleados con
un sueldo promedio mensual de $190.
a) Cul es el sueldo promedio mensual de los trabajadores de las dos empresas en conjunto?
b) Si a las dos empresas se une una tercera con 40 empleados con sueldos promedio mensual de $250, cul es el
sueldo promedio mensual de los trabajadores de las tres empresas juntas?.
Solucin.
a) Vemos que nA = 50,
X A = 200; nB = 100, X B = 190, entonces el sueldo promedio mensual de las dos empre-
sas en conjunto es
X AB =
nA X A + nB X B
50(200) + 100(190)
=
= $193.33
nA + nB
50 + 100
empresas en conjunto es
X ABC =
40
nAB X AB + nC X C
150(193.33) + 40(250)
=
= $205.26
nAB + nC
150 + 40
Propiedades de la media aritmtica: Sean {x1 , x2 , xn } y {y1 , y2 , yn } los datos correspondientes a las variables X
e Y en dos muestras cada una de tamao n, al denotar por M[X] la media de X y por M[Y ] el media de Y , es decir;
M[X] = X y M[Y ] = Y , entonces tenemos las siguientes propiedades:
1. M[X Y ] = M[X] M[Y ]
2. Si c es una constante, entonces M[c] = c
3. Si c es una constante, M[cX] = cM[X]
4. Si c es una constante, M[X c] = M[X] c
5. Si a y b son constantes, entonces M[aX b] = aM[X] b
Ejemplo 2.4
Supngase que en la E.F.P. de Economa de la UNSCH el curso de Anlisis Matemtico I (MA-241) del semestre 2010-I
cont como nico requisito obtener la calificacin promedio mnimo de 11 puntos luego de rendir cuatro exmenes
parciales, supongamos adems que un estudiante matriculado en tal curso obtuvo 15 puntos en el primer examen
parcial, 15 puntos en el segundo examen parcial, 15 puntos en el tercer examen parcial y 15 puntos en el cuarto
examen parcial, entonces dicho estudiante tiene la calificacin promedio de 15 puntos.
Ejemplo 2.5
Cinco hermanos trabajan simultneamente en dos empresas A y B.
1
200
210
250
300
290
200
120
150
180
100
Salario promedio
en ambas empresas.
Ejemplo 2.6
Los salarios mensuales de todos los empleados de la empresa papelera Atlas se mantuvieron invariantes hasta el mes
de agosto del 2014, pero en los meses siguientes los salarios tendrn algunos cambios. Supongamos que el salario
mensual promedio, hasta agosto, de todos los empleados era de 400 dlares.
a) Si para el mes de setiembre los salarios de todos se duplican, entonces el salario mensual promedio de todos
los empleados ser 800 dlares.
b) Si para el mes de setiembre los salarios de todos aumentan en 100 dlares, entonces el salario mensual promedio
de todos los empleados ser 500 dlares.
c) Si para el mes de setiembre los salarios de todos disminuyen en 50 dlares, entonces el salario mensual promedio de todos los empleados ser 350 dlares.
41
Ejemplo 2.7
Los siguientes datos, son los gastos (en dlares) de representacin de julio del 2010 de todos los trabajadores de la
financiera SMALL.
Tcnicos
96
171
202
178
147
102
153
197
127
82
Tcnicos
157
185
90
116
172
111
148
213
130
165
Profesionales
141
149
206
175
123
128
144
168
109
167
Profesionales
95
163
150
154
130
143
187
166
139
149
Ejecutivos
108
119
183
151
114
135
191
137
129
158
Interpretacin:
Interpretacin:
Interpretacin:
d) Utilizando la frmula de la media a partir de submuestras, calcular e interpretar la media aritmtica de los 50
trabajadores.
=
=
=
Interpretacin:
42
)(
yi
ni
yi ni
Gasto($)
yi
[ 82
[ 82
sumas
hi
yi hi
sumas
2.3
Mediana
Es un estadgrafo que localiza el centro de la distribucin en base a la posicin media o central que ocupa, una vez
ordenados o clasificados los datos.
43
2.3.1
1.
Clculo de la mediana
Para datos no agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a una variable cuantitativa X y estn ordenados en forma creciente o decreciente entonces la mediana lo
calculamos como sigue.
i
1h
a Me =
x n2 + x 2n +1 , si n es par; es decir es la semisuma de los 2 trminos centrales.
2
b Me = x n+1 , si n es impar; es decir es el trmino central.
2
Ejemplo 2.8
Presentamos un conjunto de datos cada uno con sus respectivas medianas.
1
1. La mediana de los datos 4, 5, 5, 7, 8 , 8, 9, 50 es Me = (7 + 8) = 7.5. El nmero de datos es par.
2
2. La mediana de los datos -5, 5, 7, 8 , 9, 10, 950 es Me = 8. El nmero de datos es impar.
3. La mediana de los datos 1, 1, 1, 2, 2 , 2, 2, 2, 3 es Me = 2.
1
1
4. La mediana de los datos 1, 1, 1, 2, 2, 2 , 2, 2, 3, 3 es Me = (x5 + x6 ) = (2 + 2) = 2.
2
2
2.
Para datos agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a
una variable cuantitativa X y estn agrupados en una tabla de distribucin de frecuencias entonces la mediana
lo calculamos como sigue.
a
n
2
en la columna de las Ni
n
< Nj,
2
y j1 + y j
.
2
yi
ni
Ni
1
..
.
y1
..
.
n1
..
.
N1
..
.
j1
y j1
n j1
j
..
.
yj
..
.
nj
..
.
Nj
..
.
ym
nm
Nm
44
N j1 =
?
n
2
n
2
en la columna de las Ni
? Si
N j1 <
n
< Nj,
2
yi
ni
Ni
1
..
.
y1
..
.
n1
..
.
N1
..
.
j1
y j1
n j1
j
..
.
yj
..
.
nj
..
.
N j1
2n
Nj ?
..
.
ym
nm
Nm
n
c
n
2
en la columna de las Ni
n
< Nj,
2
[y0i1 y0i i
yi
ni
Ni
1
..
.
[y00 y01 i
..
.
y1
..
.
n1
..
.
N1
..
.
j1
[y0j2 y0j1 i
y j1
n j1
j
..
.
[y0j1 y0j i
..
.
yj
..
.
nj
..
.
Nj
..
.
[y0m1 y0m i
ym
nm
Nm
N j1 =
n
2
45
n
2
en la columna de las Ni
? Si
N j1 <
entonces N j es la primera que supera a
n
< Nj,
2
n
2
n
2
n
N j1
N j1
= y0j1 + c 2
,
N j N j1
nj
[y0i1 y0i i
yi
ni
Ni
1
..
.
[y00 y01 i
..
.
y1
..
.
n1
..
.
N1
..
.
j1
[y0j2 y0j1 i
y j1
n j1
j
..
.
[y0j1 y0j i
..
.
yj
..
.
nj
..
.
N j1
n2
Nj ?
..
.
[y0m1 y0m i
ym
nm
Nm
Observaciones:
1. Si los datos de una variable cuantitativa estn ordenados (en forma creciente o decreciente), la mediana de stos
es aquel valor de la variable que separa a los datos en dos grupos, siendo un grupo el que contiene a la mitad
de los datos con valores menores o iguales a la mediana y el otro grupo que contiene a la mitad de los datos
con valores mayores o iguales a la mediana, ello es posible si el nmero de datos es par.
xmx
Me
xmn
2. La mediana puede ser uno de los datos. Tambin es posible que la mediana no sea uno de los datos.
Ilustremos las observaciones con los siguientes ejemplos
Ejemplo 2.9
Sin agrupar en una tabla de frecuencias, calcule e interprete la mediana si los siguientes datos son el nmero de horas
extras laboradas por los trabajadores de SMART durante el ao 2010.
46
20
20
20
30
30
35
35
35
35
35
35
35
35
35
40
40
40
40
40
40
40
40
50
50
50
50
50
50
50
50
50
55
55
55
55
55
55
55
60
60
60
60
60
60
65
65
65
65
65
75
Interpretacin:
Ejemplo 2.10
Sin agrupar en una tabla de frecuencias, calcule e interprete la mediana si los siguientes datos son la cantidad de
vehculos vendidos por todos los trabajadores de la importadora Nissan durante el verano 2012. Ordene los datos,
luego calcule la mediana.
20
21
21
21
24
22
25
21
21
22
22
21
20
22
21
23
20
20
24
20
24
23
24
25
22
26
25
23
23
23
25
24
25
21
21
26
26
24
26
20
21
21
22
23
23
21
22
21
21
21
Me =
Interpretacin:
Interpretacin:
yi
ni
Ni
yi
ni
Ni
20
20
22
11
22
11
24
17
24
17
25
10
27
25
n
2
12
29 =
27
16
45
27
12
2n = 30.5
39 ?
30
53
30
13
52
33
58
33
61
58
61
Me =
25 + 27
= 26
2
Me = 27
47
[y0i1 y0i i
yi
ni
Ni
[y0i1 y0i i
yi
ni
Ni
[120 127i
123,5
[120 127i
123,5
[127 134i
130,5
[127 134i
130,5
[134 141i
137,5
16
[134 141i
137,5
15
[141 148i
144,5
10
25
[141 148i
144,5
10
26 =
[148 155i
151,5
14
40
[155 162i
158,5
47
[162 169i
165,5
52
n
2
[148 155i
151,5
16
2n = 28.5
41 ?
[155 162i
158,5
10
51
[162 169i
165,5
57
52
57
Me [148 155i,
Me [148155i,
Me = 148
Me = 148+7
28.5 25
= 149.53125
41 25
Ejemplo 2.12
La siguiente tabla se refiere a las estaturas de los estudiantes del 3er grado de secundaria (ambas secciones) de la IE
San Carlos, halle e interprete la mediana
Estaturas(cm)
yi
ni
Ni
Estatura(cm)
ni
[130 140i
135
[130 140i
[140 150i
145
25
[140 150i
25
[150 160i
155
43
27
70 ?
[150 160i
43
[160 170i
22
[160 170i
165
22
92
[170 180i
[170 180i
175
100
n
2
= 50
100
De la segunda tabla n = 100,
n
2
= 50; al ubicar
n
2
n
2
n
2
50 27
Me = 150 + 10
= 155, 34 cm
70 27
Interpretacin:
El 50% de los estudiantes del 3er grado de secundaria de la IE San Carlos, de menor estatura, tienen estaturas inferiores o iguales a 155,34 cm.
El 50% de los estudiantes del 3er grado de secundaria de la IE San Carlos, de mayor estatura, tienen estaturas superiores o iguales a 155,34 cm. Ambas interpretaciones son vlidas.
2. Si los datos estn agrupados en tablas de frecuencias, esta medida es fcil de calcular y por otro lado, los datos
extremos no tienen ninguna influencia en ella.
3. Tiene menor estabilidad en el muestreo que el promedio aritmtico, pero es ms estable que otras medidas
4. Hay situaciones en que la nica medida de tendencia central que puede calcularse es la mediana, tal y como
sucede en el caso de una distribucin cuyos intervalos primero y ltimos no estn definidos completamente.
Desventajas de la mediana:
1. No es tan conocida como la media aritmtica.
2. Es necesario ordenar los datos para poderla calcular.
3. La mediana no se adapta a clculos posteriores aritmticos, por cuanto que si obtenemos las medianas de
diferentes grupos, no podemos obtener una mediana de los grupos reunidos.
4. La mediana no es sensible a cambios de valores de los elementos que componen la distribucin, si se mantienen
ordenados los datos.
5. La mediana no siempre es exacta cuando los datos estn agrupados en tablas con intervalos.
2.4
Moda
La moda, Mo, de una muestra es aquel valor de la variable que tiene una frecuencia mxima. En otras palabras, es el
valor que ms se repite. Hay que indicar que puede suceder que la moda no sea nica, es decir que aparezcan varias
mximas frecuencias en la distribucin. En ese caso diremos que tenemos una distribucin bimodal, trimodal, etc.
Evidentemente, en el caso de una variable discreta que no toma valores repetidos, la moda no tiene sentido. Cuando
si existen valores repetidos su clculo es directo ya que puede leerse directamente de la tabla de distribucin de
frecuencias.
Observaciones:
1. La moda se puede calcular para datos de variable cualitativa.
2. Es posible encontrar en un conjunto de datos x1 , x2 , , xn ms de un dato que tenga mayor frecuencia, si son
dos, entonces diremos que el conjunto de datos es bimodal
2.4.1
1.
Clculo de la Moda
Para datos no agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente
a una variable X la moda ser aquel dato ms frecuente.
2.
Para datos agrupados en una tabla de distribucin de frecuencias. Si x1 , x2 , , xn son datos correspondiente a
una variable X y estn agrupados en una tabla de distribucin de frecuencias entonces la moda lo calculamos
como sigue.
49
ym
nm
? Es posible que hayan dos frecuencias absolutas simple que sean iguales
[y00 y01 i
..
.
y1
..
.
n1
..
.
j1
[y0j2 y0j1 i
y j1
n j1
[y0j1 y0j i
yj
nj
j+1
..
.
[y0j y0j+1 i
..
.
y j+1
..
.
n j+1
..
.
[y0m1 y0m i
ym
nm
soluta simple.
valo que le corresponde se denomina clase modal, el
n j n j1
,
(n j n j1 ) + (n j n j+1 )
Ejemplo 2.13
Presentamos conjuntos de datos cada uno con su respectiva moda.
1. La moda de los datos: 5, 4, 5, 5, 3, 8, 1, 9, 5 es Mo = 5.
2. La moda de los datos: Blanco, Rojo, Negro, Rojo, Azul, Verde, Rojo es Mo = Ro jo.
3. La moda de los datos: 5, 4, 5, 5, 1, 8, 1, 9, 5, 1, 4, 1 es Mo = 5 Mo = 1, son datos con tendencia bimodal.
4. La moda de los datos: 4, 5, 5, 7, 8, 8, 9, 50 es Mo = 5 Mo = 8, son datos con tendencia bimodal.
5. Los datos: 14, 25, 16, 7, 8, 39, 10, 15 no tienen Moda.
50
Desventajas de la moda:
1. Muy a menudo, no hay un valor modal, por que el conjunto de datos no contiene valores que se repitan ms de
una vez. Otras veces, cada valor es la moda, porque cada uno aparece el mismo nmero de veces. Claramente,
la moda no es una medida til en estos casos.
2. Cuando el conjunto de observaciones contiene dos, tres o ms modas, stas son difciles de interpretar y comparar.
3. Es muy difcil de calcular en tablas con intervalos y las aproximaciones de su clculo no son de mucha confianza.
4. Es muy inestable en el muestreo.
5. No puede ser usado fcilmente en procesos algebraicos posteriores.
6. No es sensible a cambios de valores de la distribucin, a menos que tales cambios afecten su propio valor.
Ejemplo 2.14
Sin agrupar en una tabla de frecuencias, calcule e interprete la moda si los siguientes datos son nmero de horas
extras laboradas por los trabajadores de SMART durante el ao 2010.
20
20
20
30
30
35
35
35
35
35
35
35
35
35
40
40
40
40
40
40
40
40
50
50
50
50
50
50
50
50
50
55
55
55
55
55
55
55
60
60
60
60
60
60
65
65
65
65
65
75
Mo =
Interpretacin:
Ejemplo 2.15
Sin agrupar en una tabla de frecuencias, calcule e interprete la moda si los siguientes datos son cantidad de vehculos
vendidos por todos los trabajadores de la importadora Nissan durante el verano 2012. No es necesario ordenar los
datos.
20
21
21
21
24
22
25
21
21
22
22
21
20
22
21
23
20
20
24
20
24
23
24
25
22
26
25
23
23
23
25
24
25
21
21
26
26
24
26
20
21
21
22
23
23
21
22
21
21
21
Mo =
Interpretacin:
Observacin: En los dos ejemplos anteriores, la moda es posible calcularlo si los datos fueran agrupados en una
tabla de distribucin de frecuencias.
51
Ejemplo 2.16
Una imprenta saca once materiales impresos, que se clasifican en: muy claro, claro, oscuro, muy claro, claro, borroso,
claro, muy claro, oscuro, borroso, claro. Hallemos la moda para este caso.
Solucin:
Clasificacin
Frecuencia
muy claro
claro
oscuro
borroso
Total
11
Ejemplo 2.17
De la siguiente tabla calcule la media, mediana y moda.
Intervalo
yi
ni
[ 14 36i
[ 36 58i
12
[ 58 80i
16
[ 80 102 i
20
[102 124i
24
[124 146i
10
Solucin:
Intervalo
yi
ni
Ni
yi ni
[ 14 36i
25
200
[ 36 58i
47
12
20
564
[ 58 80i
69
16
36
1104
1820
[ 80 102 i
91
20
45
56 ?
[102 124i
113
24 ?
80
2712
[124 146i
135
10
90
1350
90
a
Media:
Mediana:
X=
7750
7750
= 86, 11
90
Me [80 102i,
45 36
Me = 80 + 22
= 89, 9
56 36
c
Moda:
Mo [102 124i,
24 20
Mo = 102 + 22
= 106, 88
(24 20) + (24 10)
52
2.5
Medidas de posicin:
La mediana marca una posicin dentro de un conjunto de datos, cuando estn ordenados en forma creciente, simplemente los separa en 50% y 50%, el primer 50% de los datos es inferior o igual a la mediana y el otro 50% de los
datos es superior o igual a la mediana, es decir la mediana a dividido al rango [xmn ; xmx ] en dos intervalos, no
necesariamente de longitudes iguales, cada uno de ellos conteniendo el 50% de los datos.
xmx
Me
xmn
Sin embargo estamos interesados en dividir el conjunto de datos en partes (intervalos) que contenga porcentajes
enteros especficos; por ejemplo 25%, 10%, 1%, etc.
2.5.1
Cuartiles:
Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en cuatro intervalos cada uno conteniendo un 25% del total de los datos. Para hacer efectiva tal divisin
es necesario 3 cortes, a cada uno de stos los denominaremos cuartiles, siendo Q1 el primer cuartil, Q2 el segundo
cuartil y Q3 el tercer cuartil.
Q1
xmn
25% de los datos
Q2
25% de los datos
Q3
25% de los datos
xmx
25% de los datos
Cuando los datos estn ordenados en forma creciente, los cuartiles se relacionan como sigue
Q1 < Q2 < Q3
2.5.2
adems Q2 = Me
Deciles:
Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en diez intervalos cada uno conteniendo un 10% del total de los datos. Para hacer efectiva tal divisin es
necesario 9 cortes, a cada uno de stos los denominaremos deciles, siendo D1 el primer decil, D2 el segundo decil y
as sucesivamente D9 el noveno decil.
xmn
D1
D2
D5
10% de
10% de
los datos los datos
D8
D9
10% de
los datos
xmx
10% de
los datos
Cuando los datos estn ordenados en forma creciente, los deciles se relacionan como sigue
D1 < D2 < < D5 < < D9
2.5.3
adems D5 = Me
Percentiles:
Tienen la cualidad de dividir al conjunto de datos de una variable cuantitativa, cuando estn ordenados en forma
creciente, en cien intervalos cada uno conteniendo un 1% del total de los datos. Para hacer efectiva tal divisin es
necesario 99 cortes, a cada uno de stos los denominaremos percentiles, siendo P1 el primer percentil, P2 el segundo
percentil y as sucesivamente P99 el noventainueveavo percentil.
53
xmn P1 P2
P10
P20
P25
P50
P75 P80
P90
Cuando los datos estn ordenados en forma creciente, los percentiles se relacionan como sigue
P1 < P2 < < P99
adems
P50 = Me
P50 = D5 , P60 = D6 ,
2.5.4
Solo presentar su forma de clculo para datos agrupados en una tabla de distribucin de frecuencias.
Si x1 , x2 , , xn son los datos correspondiente a una variable cuantitativa X y estn agrupados en una tabla de distribucin de frecuencias entonces el percentil Pk lo calculamos como sigue.
a
yi
ni
Ni
1
..
.
y1
..
.
n1
..
.
N1
..
.
j1
y j1
n j1
j
..
.
yj
..
.
nj
..
.
Nj
..
.
ym
nm
Nm
N j1 =
kn
100
n
Pasos:
? Calcular
? Ubicar
kn
100 .
kn
100
en la columna de las Ni
kn
100 ,
kn
< Nj,
100
54
y j1 + y j
.
2
kn
100 ,
es
yi
ni
Ni
1
..
.
y1
..
.
n1
..
.
N1
..
.
j1
y j1
n j1
j
..
.
yj
..
.
nj
..
.
N j1
kn
100
Nj ?
..
.
ym
nm
Nm
n
Pasos:
? Calcular
? Ubicar
kn
100 .
kn
100
en la columna de las Ni
? Si
N j1 <
entonces N j es la primera que supera a
kn
100 ,
kn
< Nj,
100
es decir
Pk = y j .
c
[y0i1 y0i i
yi
ni
Ni
1
..
.
[y00 y01 i
..
.
y1
..
.
n1
..
.
N1
..
.
j1
[y0j2 y0j1 i
y j1
n j1
j
..
.
[y0j1 y0j i
..
.
yj
..
.
nj
..
.
Nj
..
.
[y0m1 y0m i
ym
nm
Nm
N j1 =
kn
100
n
Pasos:
? Calcular
? Ubicar
kn
100 .
kn
100
en la columna de las Ni
kn
100 ,
kn
100 ,
es
decir,
N j1 =
kn
< Nj,
100
? El intervalo que correspondes a N j es el que contiene al valor de Pk , en este caso el percentil Pk es el extremo
inferior de dicho, intervalo, es decir
Pk = y0j1 .
55
[y0i1 y0i i
yi
ni
Ni
1
..
.
[y00 y01 i
..
.
y1
..
.
n1
..
.
N1
..
.
j1
[y0j2 y0j1 i
y j1
n j1
j
..
.
[y0j1 y0j i
..
.
yj
..
.
nj
..
.
N j1
kn
100
Nj ?
..
.
[y0m1 y0m i
ym
nm
Nm
n
Pasos:
? Calcular
? Ubicar
kn
100 .
kn
100
en la columna de las Ni
? Si
N j1 <
entonces N j es la primera que supera a
kn
< Nj,
100
kn
100
N
j1
j1
Pk = y0j1 + c 100
= y0j1 + c 100
,
N j N j1
nj
donde c es la amplitud de la clase donde esta Pk .
Observacin:
Dado un conjunto de datos, si a partir de ellos se calcula el k-simo percentil, obtendremos el k% de los datos cuyos
valores son iguales o inferiores a Pk , el resto, es decir el 100 k% de los datos, con valores iguales o superiores a Pk .
k % de los datos
56
xmx
Pk
xmn
CUESTIONARIO
1 Los siguientes datos son los importes, en nuevos soles, por consumo de electricidad correspondiente al mes de
abril 2012 de las 50 viviendas de la residencial Cuman
153
123
129
132
147
138
137
134
131
147
158
128
134
148
125
139
146
145
148
135
152
128
146
143
138
121
122
146
137
151
145
124
132
138
144
141
137
146
138
146
152
136
160
159
157
150
160
142
148
130
Monto(s/.)
Monto(s/.)
h120 127i
h120 127i
yi
ni
yi ni
sumas
c
y
yi
y00 = 120
hi
yi hi
sumas
Si en el conjunto de las 50 viviendas se dividen en tres grupos del siguiente modo: El Grupo 1 consta de
aquellos cuyos consumos por electricidad es mayor a s/.120 y menor a s/. 134, El Grupo 2 consta de aquellos cuyos consumos por electricidad es mayor o igual a s/.134 y menor a s/. 155 y El Grupo 3 consta de
aquellos cuyos consumos por electricidad es mayor o igual a s/.155 y menor a s/. 162, calcule el importe
promedio por consumo de electricidad de cada grupo.
En funcin a los clculos del item anterior calcule el importe promedio por consumo de electricidad de las
50 viviendas.
Si en el mes de mayo cada vivienda duplica el importe por consumo de electricidad, cul sera el importe
promedio por consumo de electricidad de las 50 viviendas.?
Si en el mes de junio de cada vivienda el importe por consumo de electricidad aumenta en s/. 50, cul
sera el importe promedio por consumo de electricidad de las 50 viviendas.?
2 Las siguientes son los salarios diarios, en dlares, correspondientes a los trabajadores de la unidad de almacn
de la Constructora REX
20
20
20
20
20
20
22
22
22
22
22
22
22
23
23
23
23
23
23
23
23
23
23
23
25
25
25
25
25
25
25
25
25
25
25
25
25
27
27
27
27
27
27
27
27
27
27
30
30
30
57
Salarios($)
ni
yi ni
6
sumas
Salarios($)
hi
yi hi
sumas
En el mes que se aproxima cada uno de estos trabajadores recibirn $7 de aumento, cul ser el salario
medio diario del grupo?.
En el ao prximo a cada uno de estos trabajadores se les triplicara el salario diario, cul ser el salario
medio diario del grupo?.
3 Los ingresos, en miles de dlares, de 40 empresas exportadoras de la costa peruana durante abril 2012 son los
siguientes. Calcule su ingreso medio.
ingresos (miles de$)
yi
ni
200 250
Ni
250 300
300 350
12
22
350 400
29
400 450
34
450 500
500 550
58
Nro de empleados
Sueldos($)
Recepcionista
642
Mecanografa
12
751
Secretaria
758
Aux de Contabilidad
10
794
Tcnicos elctricos
24
801
Tcnicos mecnicos
14
911
yi
ni
642
751
12
758
794
10
801
24
911
14
yi
ni
642
751
24
758
16
794
20
801
48
911
=
=
Xn1
x2
Xn
Xn1
yi
ni
124
x2
[120
12
14
Xn
50
Xn1
[y0i1 y0i i
Xn
28
[y0i1 y0i i
x2
yi
x2
ni
442
551
12
558
594
10
601
24
711
14
yi
ni
1284
1502
12
1516
1588
10
1602
24
1822
14
x2
Xn
Xn1
x2
Xn
Xn1
ni
12
[ 43
10
Xn
50
Xn1
78
yi
59
6 La siguiente informacin se refiere a la clasificacin por grado de instruccin acadmica de un grupo trabajadores no docentes de la UNSCH.
Grado
Nro de trabjs.
Analfabetos
Primaria incompleta
Primaria completa
Secundaria incompleta
Secundaria completa
10
Superior incompleta
12
Superior completa
11
Universitaria incompleta
Universitaria completa
Ni
7 El presidente de un sindicato clasific a sus compaeros segn el salario mensual en miles de pesos de la
siguiente forma:
Salario (miles de pesos)
menos a 600
[600 800i
[800 1000i
[1000 1200i
1200 ms
30
60
45
15
50
Nro de trabajadores
a
8 La siguiente distribucin corresponde a los salarios semanales (en $) de los trabajadores de las empresas y .
[ 49 58 >
[ 58 67 >
[ 67 76 >
[ 76 85 >
[ 85 94 >
[ 94 103 >
Empresa (ni )
11
17
10
Empresa (ni )
13
16
10
Salarios ($)
60
Empresa
Salarios($)
yi
ni
Empresa
Salarios($)
Ni
total
yi
ni
Ni
total
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
aprox.
61
Suponiendo que pagan hoy, Cul de las empresas gastar menos pagando a todos sus trabajadores y
cuanto dinero debe disponer exactamente?.
Suponiendo que usted est dispuesto a comprar ambas empresas Cunto gastar cada semana pagando
a todos sus trabajadores?, Cuntos trabajadores tendra usted en ambas empresas?.
yi
ni
Ni
642
751
12
19
758
15
34
794
20
54
801
34
88
911
12
100
yi
ni
Ni
342
451
12
19
458
15
34
494
20
54
501
34
88
611
12
100
[y0i1 y0i i
62
Me
Mo
P70
P34
P88
P6
Me
Mo
P70
P34
P88
P6
yi
ni
124
Me
Me
Mo
Mo
P30
Ni
[ 120
12
14
P30
50
P95
P95
yi
ni
Ni
1642
1751
12
19
1758
15
34
1794
20
54
1801
34
88
1911
12
100
Me
Mo
P70
P34
P88
P6
Intervalos
yi
ni
Ni
P20
Me
P20
Mo
P60
48
[ 43
32
Mo
P60
40
P40
P10
P40
P10
P5
P90
P5
P90
Me
P25
Me
P25
Mo
P60
Intervalos
78
16
yi
ni
Ni
[ 37
64i
80
Mo
P60
100
P30
P40
40
140
P30
P40
P4
P72
P4
P72
Me
P20
Me
P20
20
500
Intervalos
200
Me
yi
ni
Ni
84
72
[ 51
48
Mo
P60
73i
60
Mo
P60
P5
P88
P5
P88
24
300
ni
30
25
33
65
36
X2
56
40
47
Xn
42
75
45
102
48
30
yi
[ 72 79 i
ni
10
X2
15
25
Xn
40
18
Xn1
(Xn )2
Xn
X
Xn1
(Xn )2
Xn
X
63
11 Considere las 20 observaciones siguientes, donde cada una representa la duracin en horas de un cierto tipo de
lmpara incandescente
612
623
666
744
883
898
964
970
983
1003
1016
1022
1029
1058
1085
1088
1122
1135
1197
1201
Si la primera lmpara dura 500 horas en lugar de 612 y la ltima lmpara dura 2000 horas en lugar de
1201, cul sera el valor de la Me del conjunto de observaciones?.
horas.
Cul sera la duracin promedio y la duracin mediana de las lmparas, si ellas duplican la capacidad de
horas.
horas.
horas.
horas.
duracin?.
i
Cul sera la duracin promedio y la duracin mediana de las lmparas, si ellas duran 500 horas con
respecto a la capacidad de duracin registradas anteriormente?.
Cul sera la variabilidad de la duracin de las lmparas, si ellas duran 800 horas con respecto a la capacidad de duracin registradas anteriormente?.
yi
[ 72 79 i
ni
Ni
10
Me
P20
15
Me
P20
Mo
P60
25
40
Mo
P60
18
P5
P90
P5
P90
13 A partir de la siguiente distribucin de frecuencias correspondiente al nmero de errores ortogrficos cometidos en un ejercicio de dictado por los estudiantes de las tres secciones del 3er grado de Educacin Primaria del
Colegio Los lamos, calcular la media, mediana y moda e interprtelos.
# de errores
[16 22i
[22 28i
[28 34i
[34 40i
[40 46i
[46 52i
[52 58i
[58 64i
[64 70]
14
18
25
22
22
18
14
12
yi
ni
Ni
yi : marcas de clase, ni : nmero de estudiantes, Ni : nmero acumulado de estudiantes.
a
Cuntos errores ortogrficos como mnimo cometieron los estudiantes del quinto inferior?
Rta:
Cuntos errores ortogrficos como mximo cometieron los estudiantes del quinto inferior?
Rta:
64
Cuntos errores ortogrficos como mnimo cometieron los estudiantes del quinto superior?
Rta:
Cuntos errores ortogrficos como mximo cometieron los estudiantes del quinto superior?
Rta:
Cuntos errores ortogrficos como mximo cometieron los estudiantes del tercio inferior?
Rta:
Cuntos errores ortogrficos como mnimo cometieron los estudiantes del tercio superior?
Rta:
14 Diga los motivos por los cuales es imposible calcular la media, la mediana y la moda a partir de la siguiente
tabla
Salarios semanales(nuevos soles)
nmero de trabajadores
menos de 200
50
[200 300i
20
300 o ms
10
15 Los salarios mensuales de los empleados de una empresa varan entre $300 y $800 distribuidos en forma
simtrica en 5 intervalos de igual amplitud, con el 15%, 20% y 30% de casos en el primer, segundo y tercer
intervalo respectivamente
Salarios ($)
yi
Ni
100Hi
Si se aplica un impuesto a los sueldo localizados en el cuarto superior, cul es el salario mnimo que debe
tener un empleado para pagar dicho impuesto? Rta:
y cuntos empleados seran?Rta:
Si se aplica una bonificacin extra a los sueldo localizados en el quinto inferior, cul es el salario mximo
para beneficiarse de dicha bonificacin extra? Rta:
y cuntos empleados seran?Rta:
Si se aplica un impuesto del 20% a todos los sueldos, cul es el salario neto promedio que perciben los
empleados luego de pagar dichos impuestos? Rta:
Si se aplica una bonificacin extra del 25% a todos los sueldos, cul es el salario promedio que perciben
los empleados luego de obtener la bonificacin extra? Rta:
.
65
16 Para calcular el suministro de agua que una ciudad requiere mensualmente se escogen 15 viviendas familiares
de tal ciudad, resultando los siguientes consumos en metros cbicos
11,2
21,5
16,4
19,7
14,6
16,9
32,2
18,2
13,1
23,8
18,3
15,5
18,8
22,7
14,0
Si en la ciudad hay 5000 viviendas familiares, cuntos metros cbicos mensualmente se requieren como mnimo para abastecer la ciudad de agua si el consumo promedio no vara?
17 Dado el siguiente histograma que se refiere a los salarios semanales (en dlares) de los trabajadores de la empresa SONY, responda el siguiente cuestionario, justificando su clculo:
Histograma de frecuencias
absolutas acumuladas
nmero de
trabajadores
80
79
79
80
76
76
61
61
44
44
24
24
11
11
90 105
Salarios($)
salarios
semanales ($)
yi
ni
Ni
Media
: X
Mediana : Me
Moda
: Mo
P20
P25
P40
total
a
El 50% de los trabajadores de la empresa SONY de mayor salario tienen un sueldo semanal igual o superior
a
aprox.
aprox.
El 25% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o inferior
a
66
aprox.
aprox.
El 20% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o superior
aprox.
a
f
El 20% de los trabajadores de la empresa SONY de menor salario tienen un sueldo semanal igual o inferior
a
aprox.
Calcule el sueldo mnimo del 75% de los trabajadores de la empresa SONY de mayor salario.
aprox.
Rta:
h
Calcule el sueldo mximo del 40% de los trabajadores de la empresa SONY de menor salario.
aprox.
Rta:
2.6
2.6.1
Manual de calculadoras
Aqu presentar algunos pasos para utilizar las herramientas estadsticas de las calculadoras que no contienen tablas.
1
ni
21
32
10
47
15
51
Fila : 2 1 A
7 A
Fila : 3 2 A
1 0 A
EN PANTALLA
Fila : 4 7 A
1 5 A
EN PANTALLA
Fila : 5 1 A
8 A
EN PANTALLA
EN PANTALLA
67
X =
Media aritmtica
X=
X2 =
Desviacin standar
Xn =
Nmero de datos
n=
Desviacin standar
Xn1 =
Observacin:
En otros modelos de calculadoras las notaciones de las desviaciones standar Xn y Xn1 son otras,
por ejemplo Xn = X
2.6.2
Xn1 = SX .
Aqu presentar algunos pasos para utilizar las herramientas estadsticas de las calculadoras que contienen tablas.
1
H A
68
yi
ni
FREQ
21
21
32
10
32
10
47
15
47
15
51
51
FREQ
Al inicio aparecer
2
3
FREQ
21
32
10
47
15
51
3 2 =
4 7 =
1 0 =
5 1 =
1 5 =
8 =
X =
Media aritmtica
X=
X2 =
Desviacin standar
Xn =
Nmero de datos
n=
Desviacin standar
Xn1 =
Observacin:
En otros modelos de calculadoras las notaciones de las desviaciones standar Xn y Xn1 son otras,
por ejemplo Xn = X
Xn1 = SX .
ANOTACIONES:
69
70
3
Z
Nro:
3.1
E.F.P:
Introduccin
Las medidas de dispersin o de variabilidad son nmeros que miden el grado de separacin de los datos con respecto
a un valor central, que generalmente es la media aritmtica.
Distribucin A
xmn
xmx
xmx
Distribucin B
xmn
En el grfico anterior se ve claramente que los datos en la distribucin A son ms dispersos que los datos en la
distribucin B.
Las principales medidas de dispersin son: El rango, el rango intercuartlico, la desviacin media, la varianza, la
desviacin estndar y el coeficiente de variacin.
xmx
xmn
R
El rango es una medida de dispersin fcil de calcular, pero es muy inestable, porque depende de los valores extremos. Su valor puede cambiar si se agrega o quita un dato, su uso es muy limitado.
71
Ejemplo 3.1
Sean los siguientes datos correspondientes a una variables cuantitativa medida en dos muestras:
A:
1 4
4 5
5 5
6 6
B:
Xmn
Xmx
Xmn
Xmx
Para ambas muestras la media es 5 y el rango es R = 9 1 = 8, pero las datos de las dos muestras no tienen la
misma dispersin, ya que la segunda tiene mayor variabilidad. Este inconveniente se subsana en parte utilizando el
recorrido intercuartlico.
xmn
Q1
Q2
Q3
xmx
RI
El rango intercuartlico es una medida que excluye el 25% de los datos de mayor valor y el 25% de los datos de menor
valor, dando un rango central dentro del cual se encuentra el 50% de los datos.
Esta medida de dispersin es, evidentemente, ms exacta que el simple recorrido de la variable, ya que evita el
inconveniente de valores extremos anormales, tomando aquellos dos valores que dejan entre s el 50% de los valores
(los ms centrales) de los datos de la variable.
Ejemplo 3.2
Sean los siguientes datos correspondientes a una variables cuantitativa medida en dos muestras:
A: 1
12
B: 1
10
11
12
Q1
10
11
12
Q3
Para B: Q1 = 3, 5 y Q3 = 9, 5
1 2
y
Q1
72
y
Q3
12
xmn
D1
D2
D5
D8
D9
xmx
RID
Q3 Q1
2
El rango semiintercuartlico mide el recorrido promedio de un cuarto de los datos. Es representativo de la dispersin
de los datos, ya se calcula, tomando el promedio de la mitad de los elementos del medio en lugar de escoger uno de
los cuartos.
[ 58 67i
[ 67 76i
[ 76 85i
[ 85 94i
[ 94 103]
Empresa (ni )
13
19
12
Empresa (ni )
15
16
12
Salarios ($)
calcule el rango de la variable, el recorrido intercuartlico, el recorrido interdeclico para cada grupo de salarios y
luego diga qu grupo de salarios presenta mayor dispersin.
73
3.2
Desviacin media
Una de las medidas de dispersin que intenta solucionar los inconvenientes de las anteriormente presentadas es la
desviacin media que lo denotaremos por DM, ella mide el promedio de las desviaciones de cada dato con respecto
su media.
Definicin 3.5
Sean x1 , x2 xn los datos correspondientes
a una
variable cuantitativa y X la media de estos datos. La deviacin
absoluta de xi con respecto a la media X es xi X , es decir es la distancia de xi a la media X.
x1 X + x2 X + + xn X
DM =
=
n
xi X
i=1
Prcticamente la definicin (3.6) nos indica la forma del clculo de la desviacin media, cuando los datos no estn
agrupados.
yi
ni
yi ni
y1
n1
y1 n1
2
..
.
y2
..
.
n2
..
.
y2 n2
..
.
ym
nm
ym nm
yi ni
yi X ni
y2 X n1
y2 X n2
..
.
ym X nm
yi X ni
[y0i1 y0i i
yi
ni
yi ni
[y00 y01 i
y1
n1
y1 n1
2
..
.
[y01 y02 i
..
.
y2
..
.
n2
..
.
y2 n2
..
.
[y0m1 y0m ]
ym
nm
ym nm
yi ni
yi ni
X=
i=1
yi X ni
DM =
74
i=1
yi X ni
y1 X n1
y2 X n2
..
.
ym X nm
yi X ni
Ejemplo 3.4
Halle la desviacin media en los siguientes casos:
1
yi
20
23
24
28
30
ni
10
12
Intervalos
[22, 5 27, 5i
[27, 5 32, 5i
[32, 5 37, 5i
[37, 5 42, 5i
[42, 5 47, 5i
ni
10
12
Solucin:
1
Para emplear la frmula de la desviacin media generamos columnas adicionales a la tabla presentada al inicio.
i
yi
ni
yi ni
yi X
|yi X|
|yi X|ni
20
80
20
23
10
230
20
24
12
288
12
28
252
27
30
150
25
40
1000
1000
= 25
40
Enseguida elaboramos las columnas
La media es
X=
yi X,
|yi X|,
|yi X|ni
104
104
= 2, 6
40
Para emplear la frmula de la desviacin media generamos columnas adicionales a la tabla presentada al inicio.
i
[y0i1 y0i i
yi
ni
yi ni
yi X
|yi X|
|yi X|ni
[22, 5 27, 5i
25
100
10, 125
10, 125
40, 5
[27, 5 32, 5i
30
10
300
5, 125
5, 125
51, 25
[32, 5 37, 5i
35
12
420
0, 125
0, 125
1, 5
[37, 5 42, 5i
40
360
4, 875
4, 875
43, 875
[42, 5 47, 5i
45
225
9, 875
9, 875
49, 375
40
1405
1405
= 35, 125
40
Enseguida elaboramos las columnas
La media es X =
yi X,
|yi X|,
|yi X|ni
as la desviacin media es
DM =
186,5
186, 5
= 4, 6625
40
OBSERVACIN: Las unidades en las cuales se expresan la media y la desviacin media son las mismas.
Ejemplo 3.5
Dada siguiente distribucin corresponde a los salarios semanales (en $) de los trabajadores de las empresas y
[ 49 58i
[ 58 67i
[ 67 76i
[ 76 85i
[ 85 94i
[ 94 103]
Empresa (ni )
13
19
12
Empresa (ni )
15
16
12
Salarios ($)
calcule la desviacin media para cada grupo de salarios y luego diga qu grupo de salarios presenta mayor dispersin.
75
Empresa
Salarios($)
yi
ni
yi ni
|yi X|ni
ni
yi ni
|yi X|ni
[49 58i
53,5
13
695,5
215,71875
214
98,4375
[58 67i
62,5
19
1187,5
144,28125
562,5
140,484375
[67 76i
71,5
12
858
16,875
15
1072,5
99,140625
[76 85i
80,5
724,5
93,65625
16
1288
38,25
[85 94i
89,5
626,5
135,84375
12
1074
136,6875
[94 103]
98,5
394
113,625
788
163,125
64
4486
720
64
4999
676,125
total
1
4486
yi ni
=
= $ 70, 09375,
n
64
con ello diseamos la columna |yi X|ni , de donde |yi X|ni = 720, por lo tanto la desviacin media es
Para los salarios de los trabajadores de la empresa , el salario promedio es X =
DM =
720
|yi X|ni
=
= $11, 25.
n
64
4999
yi ni
=
= $ 78, 109275,
n
64
con ello diseamos la columna |yi X|ni , de donde |yi X|ni = 676, 125, por lo tanto la desviacin media es
DM =
3
Empresa
676, 125
|yi X|ni
=
= $10, 56445313.
n
64
Comparando las desviaciones media concluimos que el grupo de los trabajadores de la empresa tienen los
salarios ms dispersos.
3.3
Sin lugar a dudas la medida ms usada para estimar la dispersin de los datos es la desviacin tpica. Esta es especialmente aconsejable cuando se usa la media artimtica como medida de tendencia central. Al igual que la desviacin
media, est basada en un valor promedio de las desviaciones respecto a la media. En este caso, en vez de tomar
valores absolutos de las desviaciones, para evitar as que se compensen desviaciones positivas y negativas, se usan
los cuadrados de las desviaciones. Esto hace adems que los datos con desviaciones grandes influyan mucho en el
resultado final.
Definicin 3.7
Sean x1 , x2 xn los datos correspondientes a una variable cuantitativa y X la media de estos datos. La deviacin
2
cuadrtica de xi con respecto a la media X es xi X , es decir es el cuadrado de la distancia de xi a la media X.
76
La varianza es una medida que cuantifica el grado de dispersin (variacin) de los valores de una variable cuantitativa con respecto a su media aritmtica. Si los valores tienden a concentrarse alrededor de su media, la varianza ser
pequea. Si los valores tienden a distribuirse lejos de la media, la varianza ser grande.
V=
x1 X
2
2
+ x2 X + + xn X
n
2
=
xi X
2
i=1
Clculo de la varianza
1
( xi )2
i=1
V=
Poblacional o terica
( xi X )2
V=
i=1
n1
Muestral o prctica
: promedio poblacional
: promedio muestral
xi
( yi )2 .ni
V=
i=1
Donde:
Poblacional o terica
( yi X )2 .ni
V=
i=1
n1
yi
: marca de clase
ni
Muestral o prctica
2
2
xi X
xi X
OBSERVACIN: La diferencia entre
y
es grande para muestras pequeas, y es mnima para
n
n1
muestras grandes, prcticamente son iguales. Entonces para muestras grandes, n 60, puede usarse cualquiera de
2
xi X
las frmulas. Para muestras pequeas se usa
, la cual es llamada varianza muestral o varianza corregida.
n1
V (X) 0
5
3
Ejemplo 3.6
En un centro de ayuda a la familia que atiende a mujeres maltratadas, se hace un recuento de las edades (aos) de las
mujeres ingresadas el da 25 de octubre de 2010 y el resultado es el siguiente 22, 23, 24, 25, 23. Determinar la varianza
de las edades de la muestra.
Solucin: Se procede como sigue
1
Se multiplica a cada uno de estos resultados por sus respectivas frecuencias absolutas simples
xi
ni
yi ni
xi x
(xi x)2
(xi x)2 ni
22
22
1, 4
1,96
1,96
23
46
0, 4
0,16
0,32
24
24
0, 6
0,36
0,36
25
25
1, 6
2,56
2,56
117
5,2
yi ni
117
=
= 23, 4 aos
n
5
En promedio se tiene que la edad de las mujeres maltratadas es de 23,4 aos aproximadamente.
La media de las edades es X =
i=1
Luego calculamos la varianza poblacional y muestral respectivamente (Ver la tabla anterior en donde se ha
elaborado las columnas yi X, (yi X)2 , (yi X)2 ni
4
2
yi X ni 5, 2
V = i=1
=
= 1, 04 aos2 ,
varianza poblacional
n
5
4
2
yi X ni 5, 2
V = i=1
=
= 1, 3 aos2 ,
varianza muestral
n1
51
Ejemplo 3.7
Tenemos la siguiente informacin sobre el gasto semanal en ocio de un grupo de estudiantes universitarios.
Nivel de Gasto($)
N de jvenes
Hallar la varianza de la muestra.
78
[0 5i
[5 10i
[10 15i
[15 20i
[20 25i
[25 30i
11
16
22
ni
yi ni
yi X
(yi X)2
(yi X)2 ni
[0 5i
2, 5
10
121, 76
162, 8176
651, 2704
[5 10i
7, 5
11
82, 5
7, 76
60, 2176
662, 3936
[10 15i
12, 5
16
200
2, 76
7, 6176
121, 8816
[15 20i
17, 5
22
385
2, 24
5, 0176
110, 3872
[20 25i
22, 5
180
7, 24
52, 4176
419, 3408
[25 30i
27, 5
165
12, 24
149, 8176
898, 9056
67
1022, 5
Gasto($)
Totales
2864, 1792
yi ni
i=1
1022, 5
= 15, 26119403 . . . 15, 26 dlares
67
( yi X )2 ni
V=
i=1
2864, 1792
= 42, 748943 dlares2 ,
67
varianza poblacional
2864, 1792
= 43, 396654 dlares2 ,
67 1
varianza muestral
( yi X )2 ni
V=
i=1
n1
Nota: Al expresar cuantitativamente la dispersin de un conjunto de datos, ocurre el inconveniente en la interpretacin de esta cantidad, ya que ella esta dado por el cuadrado de las dimensiones la que expresa la caracterstica,
y en ocasiones trae confusin. Es conveniente, entonces contar con otro estadgrafo que basado en el valor de la varianza, sirva para dar una medida de dispersin en la misma dimensin en que estn los datos. Esta medida es la
desviacin estndar o desviacin tpica.
Poblacional o terica
Muestral o prctica
S=
v
u m
u
u (yi )2 ni
t i=1
S=
N
v
u m
u
u (yi X)2 ni
t i=1
n1
Poblacional o terica
Muestral o prctica
79
La desviacin estndar es sin duda, la medida de dispersin que posee una mayor estabilidad frente a las
fluctuaciones de la muestra tomada.
Se basa en todos los valores de la variable, tanto atendiendo a su magnitud como a su signo.
Su estudio es indispensable cuando se trata de interpretar datos en relacin con la distribucin normal.
Nota: En general, los estadgrafos de dispersin se usan para comparar dos o ms poblaciones en funcin a sus
datos. A mayor dispersin o heterogeneidad entre los valores o elementos de una poblacin, le corresponde un valor
mayor para el estadgrafo de dispersin.
Ejemplo 3.8
En un centro de mujeres maltratadas se hace un recuento de las edades (aos) de las mujeres ingresadas y el
resultado es el siguiente: 22, 23, 24, 25, 23. Determinar desviacin tpica de las edades de la muestra.
Solucin: Como ya calculamos la varianza poblacional y muestral que resultaron respectivamente, V = 1, 04
aos2 y V = 1, 3 aos2 y dado que la desviacin estndar es la raz cuadrada de la varianza, entonces las desviaciones
estndar poblacional y muestral son
q
S = 1, 04 aos2 = 1, 019803903 aos
S=
Ejemplo 3.9
Las estaturas (en centmetros) de un grupo de personas se distribuyen como sigue
talla(cm)
frecuencias
[150 155i
[155 160i
[160 165i
10
[165 170i
18
[170 175i
24
[175 180i
17
[180 185i
[185 190i
[190 195i
[195 200i
80
talla(cm)
yi
ni
yi ni
(yi X)2 ni
[150 155i
152,5
457,5
1329,3075
[155 160i
157,5
787,5
1288,0125
[160 165i
162,5
10
1625
1221,025
[165 170i
167,5
18
3015
658,845
[170 175i
172,5
24
4140
26,46
[175 180i
177,5
17
3017,5
265,2425
[180 185i
182,5
1642,5
720,9225
[185 190i
187,5
1312,5
1362,2175
[190 195i
192,5
962,5
1795,5125
10
[195 200i
197,5
395
1147,205
100
17355
9814,75
Totales
Primero hallamos la media y es X =
17355
= 173, 55 cm, este resultados los utilizamos para completar la ltima
100
10
( yi X )2 ni
9814, 75
La varianza poblacional de la distribucin es V = S2 = i=1
=
= 98, 1475 cm2
100
p n
OBSERVACIONES:
1
Las unidades en las cuales se expresan los datos, la media y la desviacin estndar son las mismas.
Las unidades en las cuales se expresan los datos no son las mismas para la varianza. Por ejemplo si los datos
estn en dlares, entonces la varianza se expresa en dlares2 .
3.4
S
X
OBSERVACIONES:
1
El coeficiente de variacin se utiliza para comparar la variabilidad de dos o ms conjuntos de datos que tengan
medias iguales o diferentes, o tengan unidades de medida iguales o diferentes, por ejemplo salarios de dos
grupos de trabajadores de dos empresas en el cual para un grupo se miden en dlares y para otro en euros .
81
El coeficiente de variacin no tiene unidades y se utiliza para comparar distribuciones con distintas unidades
de medidas. Por ejemplo tallas y pesos.
Suele expresarse en porcentajes. Tambin se utiliza cuando al comparar dos distribuciones sobre la misma
variable estn medidas en distintas unidades, por ejemplo en metros y Kilmetros
Su ventaja es que permite comparar distribuciones distintas, incluso con unidades de medidas distintas.
Su desventaja es que deja de ser representativa y no debe utilizarse cuando la media de una de las distribuciones
sea muy baja, pues la fraccin tiende a ser grande.
Ejemplo 3.10
En dos pruebas de conocimiento A y B que se aplic a un grupo de estudiantes, la prueba A se calific en la escala
de 0 100 puntos; la media aritmtica de los resultados fue de 75 puntos con una desviacin estndar de 8 puntos.
La prueba B se calific en la escala de 0 80 puntos; la media aritmtica de los resultados fue de 50 puntos con una
desviacin estndar de 5 puntos. En cul de las pruebas hubo mayor variacin de los resultados?.
Solucin:
Para conocer en que prueba hay mayor variacin comparemos sus coeficientes de variacin.
CVA =
SA
8
= 0, 1066 . . .
=
75
XA
SB
5
=
= 0, 1
50
XB
Por tanto, la prueba de conocimiento A tiene mayor variacin de sus resultados.
CVB =
Nota:
?
Si dos o ms series de datos (observados en el mismo tipo de medicin) tienen medias aritmticas iguales (o
casi iguales) es ms dispersa la serie que tiene mayor medida de variabilidad: Rango, RI, S2 , S, CV .
Si dos o ms series de datos, no tienen medias iguales (o casi iguales), o no tienen las mismas unidades de
medicin, entonces, es ms dispersa la serie que tenga mayor coeficiente de variacin.
xX
S
82
Ejemplo 3.11
En una evaluacin de Estadstica e Historia resultan las medias de 11 puntos y 15 puntos, mientras que las desviaciones estndar son 3 puntos y 4 puntos respectivamente. Si un estudiante obtiene 14 puntos en Estadstica y 16
puntos en Historia, en cul de los dos cursos tiene mejor rendimiento relativo?.
Solucin:
Que tenga 16 en Historia y 14 en Estadstica no significa que tiene mejor rendimiento en Historia. Se deben calcular
los rendimientos relativos con la puntuacin estandarizada Z.
En Estadstica ZE
En Historia
ZH
=
=
14 11
=1
3
16 15
= 0, 25
4
3.5
Medidas de Forma
En trabajos propios de algunas disciplinas encontramos la necesidad de calcular una medida que muestre las direcciones de la dispersin de los datos con respecto a su centro y que completan la descripcin de las distribuciones
de frecuencias. Estas caractersticas se llaman: Asimetra y curtosis o apuntamiento. Las medidas de dispersin slo
indican la magnitud de las variaciones, pero no dan informacin acerca de la direccin de las variaciones.
3.5.1
Medidas de Asimetra
Se dir que una distribucin de frecuencias unimodal presenta asimetra negativa o concentrada a la derecha,
si tiene una ramificacin ms extendida hacia la izquierda o hacia valores pequeos de la variable.
Se dir que una distribucin de frecuencias unimodal es simtrica cuando la media aritmtica, la mediana, y la
moda, coinciden.
Se dir que una distribucin de frecuencia unimodal presenta asimetra positiva o concentrada a la izquierda,
si tiene una ramificacin ms extendida hacia la derecha o hacia valores grandes de la variable.
ni
ni
Me Mo
ASIMETRA NEGATIVA
ni
X = Me = Mo
SIMTRICA
Mo Me X
ASIMETRA POSITIVA
83
ni
ni
ni
Me Mo
X = Me = Mo
ASIMETRA NEGATIVA
Mo Me X
SIMTRICA
ASIMETRA POSITIVA
X Mo
S
3(X Me)
S
Para su interpretacin:
?
(Desigualdad de Chebyshev)
Cualquiera que sea la forma de la distribucion de frecuencias (simtrica o asimtrica), el intervalo [X kS, X + kS],
1
1
k > 1, contiene al (1 2 ) 100% de los datos y el porcentaje de los datos que no estn en tal intervalo es 2 100% .
k
k
Ejemplo 3.12
Para la siguiente distribucin de frecuencias, se pide calcular e interpretar los coeficientes de la asimetra de Pearson.
84
intervalo
frecuencia
[60 66i
[66 72i
[72 78i
[78 84i
11
[84 90i
[90 96]
yi
ni
Ni
[60 66i
63
[66 72i
69
10
[72 78i
75
17
[78 84i
81
11
28
[84 90i
87
36
[90 96]
93
40
totales
media
: X = 78, 75
Mediana
: Me = 79, 64
Moda
: Mo = 81, 42
40
X Mo 78, 75 81, 42
=
= 0, 3045963174
S
8, 877369673
3(X Me) 3(78, 75 79, 64)
=
= 0, 3045963174
S
8, 877369673
Ejemplo 3.13
Para la distribucion de los datos del ejemplo 3.12, utilice la desigualdad de Chebyshev para:
1
En este caso (1
En este caso k = 3, (1
3.5.2
1
1
) 100% = (1 2 ) 100% = 88, 88888888 %, el porcentaje da datos requerido es
k2
3
88, 88% aproxiamdamente.
Mide el grado de deformacin vertical de la distribucin de frecuencias. La curtosis es la propiedad de una distribucin de frecuencias por la cual se compara la dispersin de los datos observados cercanos al valor central con la
dispersin de los datos cercanos a ambos extremos de la distribucin. La curtosis se mide en comparacin a la curva
simtrica normal.
La curtosis utilizando percentiles se define por el cociente
K=
P75 P25
2(P90 P10 )
85
Para su Interpretacin:
ni
ni
DISTRIBUCIN PLATICRTICA
ni
ni
DISTRIBUCIN MESOCRTICA
ni
DISTRIBUCIN PLATICRTICA
DISTRIBUCIN LEPTOCRTICA
ni
DISTRIBUCIN MESOCRTICA
DISTRIBUCIN LEPTOCRTICA
Nota: Al igual que el coeficiente de asimetra de una distribucin, los que representan a curtosis o apuntamiento
se utiliza para ayudar a describir las caractersticas de una distribucin y no precisamente como medidas, ya que a
veces el valor de la curtosis se contradice con la realidad por estar relacionada con la distribucin normal.
Ejemplo 3.14
Del ejercicio anterior calcular el coeficiente de curtosis e interpretar.
Solucin: Calculamos los siguientes percentiles:
P10 = 66
P25 = 72
30 28
P75 = 84 + 6
36 28
= 85, 5
P90 = 90
Luego:
K=
P75 P25
85, 5 72
=
= 0, 28125
2(P90 P10 ) 2(90 66)
Como K = 0, 28125 > 0, 263 es un apuntamiento muy prximo a la curva normal, la distribucin es ligeramente
leptocrtica.
86
Ejemplo 3.15
Cierta empresa tiene 100 trabajadores profesionales, para los nombrados el sueldo bsico mximo es de 450 soles
y el mnimo 60 soles mensuales, Hay un 6% de practicantes que trabajan ad-honoren o perciben compensaciones
inferiores a 60 soles, 16 trabajadores nombrados perciben sueldos inferiores a 250 soles, el 87% de los profesionales
tienen sueldos inferiores a 400 soles. Con esta informacin, se pide calcular:
a
Sueldos
ni
Ni
yi
yi ni
y2i ni
amplitud
[0 60i
30
180
5400
60
1,2
[60 250i
16
22
155
2480
384400
190
3,8
4,21
[250 400i
65
87
325
21125
6865625
150
21,67
[400 450]
13
100
425
5525
2348125
50
13
29310
9603550
100
(a.e) =
altura =
ni
a.e
29310
= 293, 10
100
50 22
Mediana: Me = 250 + 150
= 314, 62
65
49
Moda: Mo = 250 + 150
= 322, 77
49 + 52
Desviacin Tpica: S = 103, 53
Media: y
X Mo 293, 10 322, 77
=
= 0, 3099
S
103, 53
3(X Me) 3(293, 10 314, 62)
=
= 0, 6936
S
103, 53
Como As < 0 entonces la distribucin es ligeramente asimtrica negativa o concentrada hacia la derecha.
El coeficiente de curtosis es:
K=
donde:
P75 P25
372, 31 256, 92
=
= 0, 182,
2(P90 P10 ) 2(411, 54 94, 55)
10 6
25 22
25(100)
= 10
P10 = 60 + 190
= 94, 55
P25 = 250 + 150
= 256, 92
100 = 25
65
22
75 22
90 87
75(100)
P75 = 250 + 150
= 372, 31 90(100)
= 90
P90 = 400 + 50
= 411, 54
100 = 75
100
65
13
Como K = 0, 182 < 0, 263 la distribucin es platicrtica (ms achatada que la normal).
10(100)
100
87
3.6
Diagramas de caja
El diagrama de caja es una presentacin visual que describe al mismo tiempo varias caractersticas importantes de
un conjunto de datos, tales como el centro, la dispersin, la simetra o asimetra y la identificacin de observaciones
atpicas. El diagrama de caja representa los tres cuartiles, y los valores mnimo y mximo de los datos sobre un
rectngulo (caja), alineado horizontal o verticalmente.
El grfico de cajas, proporciona informacin acerca de:
?
Las colas (por la longitud de los segmentos que salen de los lados de la caja) cuya parte final contiene, una el
con
P75 Me
mnimo y la otra el mximo. las colas estn dibujadas sobre los valores anormales de los datos.
Construccin:
1
f3 = Q3 + 1, 5(RI)
Se calculan los puntos a1 y a3 llamados valores adyacentes. El punto a1 es el dato ms cercano a f1 ( f1 puede
coincidir con un valor de los datos) sin ser el menor de esa barrera, El punto a3 es el dato ms cercano a f3 ( f3
puede coincidir con un valor de los datos) pero mayor que esa barrera.
Se localizan todos los puntos en la escala horizontal o vertical, segn se haya elegido.
Se dibuja una caja con los extremos en el primer y tercer cuartil. Se dibuja la mediana con una lnea interior en
el lugar adecuado.
Los valores adyacentes se unen a la caja por medio de lneas, esto genera los brazos de las cajas.
Si existen datos que queden fuera de las barreras interiores, se dibujaran con crculos abiertos. Estos datos se
conocen como datos atpicos.
Ejemplo 3.16
Los siguientes datos corresponden a los tiempos de hospitalizacin, en das, despus de una ciruga de crneo de un
conjunto de pacientes.
12
13
13
15
15
17
23
25
21
88
28
33
36
36
26
38
38
21
45
44
73
90.
12
13
13
15
15
17
21
21
23
25
26
28
33
36
38
38
44
45
73
90.
f1 = 14 1, 5(23) = 20, 5,
y
36
f3 = 37 + 1, 5(23) = 71, 5
Solamente tenemos un dato que cae fuera las valores adyacentes, es en el lado derecho, y el dato es 90. Se
procede a construir el diagrama de caja, quedando de la siguiente manera:
Tiempo (das) de
hospitalizacin
14
8 9
24
12 13 15 17
37
21 23 25 26 28
33
36 38
44 45
73
90
Del diagrama de caja podemos establecer anlisis como los siguientes: El 90 es un dato atpico, el 50% de los pacientes
fueron hospitalizados ms de 24 das, etc. Tenga en mente para el anlisis la informacin que proporcionan los
cuartiles.
En el diagrama de caja se puede observar que los tiempos de hospitalizacin estn concentrados a la izquierda. Qu
significa que los tiempos de hospitalizacin estn concentrados a la izquierda?, significa que la distribucin tiene
simetra positiva.
Ejemplo 3.17
En una prueba de conocimientos 20 alumnos han obtenido las calificaciones:
1 2
3 4
5 6
7 9
10
12
13
12
13
14
15
12
13
14
15
Me =
3 4
5 6
7 8
10
12
12
12
13
13
13
14
14
15
15
x(10) + x(11)
10 + 12
=
= 11 puntos
2
2
89
U = xmx = 15,
L = xmn = 1
Los datos atpicos (discordantes, outliers (aislados)) son aquellos que se encuentran fuera del intervalo
[P25 1, 5RI; P75 + 1, 5RI] = [5, 5 1, 5(7, 5); 13 + 1, 5(7, 5)] = [5, 75; 24, 25]
Todos los datos estn en el intervalo mencionado, entonces no hay datos atpicos.
En este caso Me P25 = 5, 5 puntos y P75 Me = 2, entonces la distribucin de los datos tiene asimetra negativa.
OBSERVACIONES:
?
CUESTIONARIO
1 Las longitudes de rutas de autobs para un sistema de transito particular varan por lo comn de una ruta a
otra. En un artculo de la Planing City Buss Routes aparece la siguiente informacin acerca de las longitudes
en kilmetros para un determinado sistema (Suponer L :longitud en kilmetros, F :frecuencias)
L
F
90
[6 8i [8 10i [10 12i [12 14i [14 16i [16 18i [18 20i [20 22i [22 24i [24 26i [26 28i [28 30]
6
23
30
35
32
48
42
40
28
27
26
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
aprox.
aprox.
kms. aprox.
kms. aprox.
kms. aprox.
kms. aprox.
Los datos presentados agrpelos en una tabla de frecuencias con intervalos de amplitud 4, luego:
aprox.
Interpretacin:
2 Las siguientes tablas se refieren a los puntajes obtenidos en un examen de BECAS Internacionales por los alumnos de las carreras de Matemtica y Fsica de todo el Per.
91
MATEMTICA
Punta jes
[ 21 29i
yi
ni
6
[ 29 37i
[ 37 45i
Ni
16
14
30
[ 45 53i
44
[ 53 61i
54
[ 61 69i
60
FSICA
C
V
Punta jes
yi
ni
Ni
[ 21 29i
[ 29 37i
11
[ 37 45i
28
[ 45 53i
39
[ 53 61i
48
[ 61 69i
60
total
C
V
aprox.
aprox.
El 50% los estudiantes de Fsica, de mayor calificacin, tienen un puntaje igual o superior
a
aprox.
aprox.
El 10% de los estudiantes de Matemtica, de menor puntaje, tienen un puntaje igual o inferior
a
aprox.
El 10% de los estudiantes de Matemtica, de mayor puntaje, tienen un puntaje igual o superior
a
aprox.
El 25% de los estudiantes de Matemtica, del cuarto superior, tienen un puntaje igual o superior
a
aprox.
El 25% de los estudiantes de Matemtica, del cuarto inferior, tienen un puntaje igual o inferior
a
aprox.
El 50% los estudiantes de Fsica, de mayor calificacin, tienen un puntaje igual o inferior
a
aprox.
aprox.
superior a
total
aprox.
Calcule el coeficiente de asimetra de Pearson para los datos de los estudiantes de Fsica, luego interprete.
Rta:
Interpretacin:
Calcule la Krtosis para los datos de los estudiantes de Matemtica, luego interprete. Rta:
Interpretacin:
Suponiendo que un solo grupo de estudiantes, por buen rendimiento, se hace merecedor a un premio
adicional, que grupo de estudiantes se lleva el premio y Cul es el puntaje total acumulado por este
grupo?.
92
Dibuje la curva de frecuencias para los datos del grupo de los matemticos y los fsicos ubicando X, Me y
Mo.
3 Se seleccionaron tres tipos distintos de cables de acero y se estableci el lmite de ruptura (medido en Kilonewtons KN) frente a tensiones altas, para cada muestra con resultados siguientes
Tipo I
350
350
350
358
370
370
370
371
371
372
372
384
391
391
392
395
Tipo II
350
354
359
363
365
368
369
371
373
374
376
380
383
388
392
400
Tipo III
350
361
362
364
364
365
366
371
377
377
377
379
380
380
392
392
4 Si la media de 75 artculos es de 52, 6 galones y la de 25 artculos es de 48, 4 galones, calcule la media de los 100
artculos.
5 De 500 estudiantes de educacin secundaria cuya estatura media es de 1, 57m, 150 son mujeres. Si la estatura
media de las mujeres es de 1, 52m. Cul es la estatura media de todos los varones?
6 Se propone a los estudiantes de Historia un examen difcil, resulta que la mayora de los estudiantes obtendrn
calificaciones bajas y solo algunos destacaran con notas altas. Qu tipo de asimetra tendr la distribucin de
sus calificaciones?.
7 Carlos se presenta a dos exmenes, uno de Historia y otro de Fsica. En Historia la media de las notas de su
grupo es de 80 pts (la nota mxima es 100pts), con una varianza de 16pts2 . En Fsica la media de las notas de
su grupo tambin es 80pts con una varianza de 9pts2 . Carlos obtuvo 90pts en Historia y 92pts en Fsica. Qu
puede decir de estos resultados?, En qu examen tiene mejor rendimiento relativo?.
8 En una regin, resulta que los precios de ciertos productos en la zona turstica para los mismos productos son
mucho ms caros que en las zonas rurales. A continuacin se muestra el precio en dlares de 5 productos de la
zona turstica {3, 4, 4, 6, 8} y los productos de la zona rural {2, 2, 3, 4, 4}. Estandarice el 4 en ambas distribuciones,
compare los resultados, luego diga donde resulta ms caro el producto de 4 dlares.
9 Se toma nota de las edades de un grupo de inmigrantes recin llegados a un centro de la Cruz Roja y son
{20, 20, 22, 24, 24}. Cul sera la media y la mediana?. Suponga que llega otro grupo igual excepto que una
persona tiene 26 aos en vez de 24. Cmo afecta eso la media?, cmo afecta a la mediana? y cmo afecta a la
dispersin tpica?.
Dentro de la telefona mvil fue de 7, 51 millones de dlares, mientras que la media en el sector fue de 6, 61
millones de dlares y la varianza de 86, 5 millones de dlares2 .
En el caso de la telefona fija, las ventas fueron de 8, 41 millones de dlares, mientras que la media del
sector fue de 7, 2 millones de dlares y la varianza de 117, 79 millones de dlares2 .
93
11 Se realiz un estudio de cmo influye la violencia social y poltica en los riesgos de de complicacin de embarazo en mujeres de edades entre 19 y 40 aos inscritas en cuidados prenatales en el Hospital Regional de
Huamanga, los siguientes datos muestran el nmero de complicaciones prenatales durante el embarazo de 12
mujeres. Calcule e interprete el coeficiente de asimetra de Pearson y la curtosis.
2
10
12 Una fbrica de beeper A, asegura que en promedio los beeper fallan a los 2 aos continuos de uso con desviacin
estndar de S = 0, 96 aos. Otra fbrica B de la competencia asegura que en promedio los beeper fallan a los 2
aos de uso con desviacin estndar de S = 1, 3 aos. En cul de las dos fbricas presenta mayor dispersin
relativa?
13 Las ayudas concedidas, en millones de pesetas, por el Fondo Europeo para el Desarrollo Regional (FEDER) a
62 proyectos espaoles vienen reflejadas en la siguiente tabla:
importe de ayuda
[0 100i
[100 250i
[250 500i
[500 1000i
n de proyectos
12
15
20
15
Calcula la ayuda mxima concedida al 60% de los proyectos menos favorecidos en el reparto.
Si para el ao siguiente las ayudas aumentan un 5% sobre el valor inicial, mantenindose el criterio del
reparto, cul ser ahora la ayuda media y la desviacin tpica?
Supongamos que queremos contactar con el 20% de as empresas a quienes han sido concedidas estas
ayudas, pero no queremos que sean ni las empresas que ms han recibido, ni las que menos, sino que
queremos quedarnos con el 20% centrales. Entre qu valores se mueven las ayudas concedidas a este
grupo de empresas?
14 En un barrio de una gran ciudad espaola se ha constatado que las familias residentes se han distribuido, segn
su composicin (nmero de integrantes), de la siguiente forma:
Composicin
[0 2i
[2 4i
[4 6i
[6 8i
[8 10i
110
200
90
75
25
Familias
a
Si slo hubiera plazas de aparcamiento para el 50% de las familias, y stas se atendieran de mayor a menor
nmero de miembros, Cuntos componentes debera tener una familia para entrar en el cupo?
Si el coeficiente de variacin de Pearson de otro barrio de la misma ciudad es 1,8; cul de los dos barrios puede ajustar mejor sus previsiones en base al diferente nmero de miembros de las familias que lo
habitan?
Si el ayuntamiento concede una ayuda de 5 000 ptas. fijas por familia, ms 10000 ptas. por cada miembro
de la unidad familiar, determinar el importe medio por familia y la desviacin tpica.
94
Nmero de miembros que tienen como mximo el 85% de las familias menos numerosas.
[0 50i [50 100i [100 150i [150 200i [200 250i [250 300i [300 350i [350 400]
accionistas
23
72
62
48
19
14
Nmero de acciones que debe poseer un accionista para que la mitad de los restantes tengan menos acciones que l.
16 Se ha realizado un estudio de las rentas de alquiler de 390 viviendas (donde la renta viene dada en miles de
pesetas), en una poblacin de tamao medio, obtenindose
Tipos de alquiler
0-25
25-50
50-100
100-150
150-200
nmero de viviendas
20
140
180
40
10
El propietario de la vivienda debe pagar el 10% del precio que establece como alquiler, ms una cantidad
fija de 3000 ptas., al Ayuntamiento, en concepto de impuestos, cul es el impuesto medio que se ha de
pagar?
17 Supongamos que dos empresas desean repartir beneficios entre sus cuatro principales accionistas, y que el
reparto se realiza de la siguiente forma:
Empresa A
Empresa B
1er accionista
100 000$
1 200000$
2do accionista
500 000$
1 300000$
3er accionista
300 000$
1 400000$
4to accionista
100 000$
1 100000$
18 La distribucin de la superficie de los 90 despachos que se han construido en un nuevo edificio comercial es:
Superficie (m2)
[40 60i
[60 80i
[80 120i
[120 200i
[200 400i
N oficinas
12
16
20
32
10
Se puede considerar el tamao medio que acabamos de calcular como representativo de la superficie total
de los despachos?
Qu tamao mnimo debe tener una oficina para poder ser considerada en el grupo del 15% de las ms
grandes?.
ANOTACIONES:
96
4
4.1
Distribuciones bidimensionales
Variables bidimensionales
A cerca de un grupo de individuos podemos estudiar ms de una variable, por ejemplo de un grupo de estudiantes
de la UNSCH observamos su edad, ndice acadmico, distrito de residencia, nmero de crditos aprobados, carrera
profesional que estudia, etc.
Cuando estudiamos a dos variables en conjunto estamos en un caso de variable bidimensional, cada unidad de
anlisis de una muestra o poblacin responde con un dato del tipo (X,Y ) a una variable bidimensional, veamos el
siguiente
Ejemplo 4.1
Supongamos que de un grupo de 10 estudiantes de la Facultad de Derecho matriculados en ES-150 se investig el
nmero de horas que se dedic en todo octubre de 2014 exclusivamente a estudiar Estadstica y el puntaje obtenido
en el segundo examen parcial. Como resultado de la pesquisa se obtiene la siguiente informacin:
Estudiante Nro
10
12
12
10
15
10
12
12
130
124
100
165
160
140
83
155
50
126
Aqu tenemos dos variables (la primera es el nmero de horas de estudio de estadstica en octubre y la segunda es
el puntaje en el segundo examen parcial) que se observ a una sola muestra, estas dos variables en conjunto es un
ejemplo de variable bidimensional, las dos variables que constituyen la variable bidimensional son c/u cuantitativas.
Las variables bidimensionales estn constituidas de dos variables que sern llamadas componentes de la variable
bidimensional, las variables componentes pueden ser de cualquier tipo, por ejemplo
1
cuantitativa cuantitativa,
cuantitativa cualitativa,
cualitativa cuantitativa,
cualitativa cualitativa,
Observaciones:
1
Si de una muestra que tiene n elementos extraemos los datos correspondientes a una variable bidimensional,
dichos datos son de la forma: (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), esto es debido a que una variable bidimensional
suele denotarse por (X,Y ).
Para variables bidimensionales, es posible que una de las variables dependa de la otra, si este es el caso e Y
depende de X entonces a X le denominamos variable independiente y a Y variable dependiente.
97
Distribuciones bidimensionales
4.2
4.2.1
Sean (b
x1 , yb1 ); (b
x2 , yb2 ); (b
x3 , yb3 ); . . . ; (b
xn , ybn ); los datos correspondientes a una variable bidimensional (X,Y ) extradas de
una muestra que posee n elementos (a estos datos los denominaremos, datos originales de la variable (X,Y ))
Para la variable X, asumiendo que es cuantitativa, sean x1 , x2 , x3 , , xk los valores diferentes que toman los xbi .
Para la variable Y , asumiendo que es cuantitativa, sean y1 , y2 , y3 , , yr los valores diferentes que toman los ybj .
Suponiendo que se ordenan los valores diferentes de los datos de cada variable como sigue x1 < x2 < x3 < < xk
, y1 < y2 < y3 < < yr , y que los nmeros k y r son pequeos en comparacin con el nmero de datos n, entonces
tenemos la siguiente tabla bidimensional de distribucin de frecuencias absolutas simples
r
HH
HH Y
H
X
H
H
y1
x1
n11
n12
n13
...
n1 j
...
n1r
n1
x2
n21
n22
n23
...
n2 j
...
n2r
n2
x3
..
.
n31
..
.
n32
..
.
n33
..
.
...
..
.
n3 j
..
.
...
..
.
n3r
..
.
n3
..
.
xi
..
.
ni1
..
.
ni2
..
.
ni3
..
.
...
..
.
ni j
..
.
...
..
.
nir
..
.
ni
..
.
xk
nk1
nk2
nk3
...
nk j
...
nkr
nk
ni j
n1
n2
n3
...
n j
...
nr
y2
...
y3
yj
...
yr
ni j
j=1
k
i=1
donde los valores diferentes de los datos de la variable X se disponen ordenadamente en la primera columna y los
valores diferentes de los datos de la variable Y se disponen ordenadamente en la primera fila.
Definicin 4.1
Los nmeros ni j , con i = 1, , k y j = 1, , r, se denominan frecuencias absolutas simples. Cada ni j es el nmero de
datos que son iguales a (xi , y j ) en el grupo de los datos originales de la variable (X,Y ).
Observaciones y propiedades:
1
Una de las frecuencias absolutas simples puede ser igual a CERO, pero no todas la frecuencias absolutas simples
de una fila o columna.
n1 j ;
j=1
r
n2 j ;
j=1
r
n3 j ; etc.
j=1
98
Distribuciones bidimensionales
n j .
j=1
ni j
n
Luego de definirse las frecuencias relativas simple tenemos la siguiente tabla bidimensional de distribucin de
frecuencias relativas simples
r
HH
Y
H
H
X
H
H
y1
y2
y3
...
yj
...
yr
hi j
j=1
x1
h11
h12
h13
...
h1 j
...
h1r
h1
x2
h21
h22
h23
...
h2 j
...
h2r
h2
x3
..
.
h31
..
.
h32
..
.
h33
..
.
...
..
.
h3 j
..
.
...
..
.
h3r
..
.
h3
..
.
xi
..
.
hi1
..
.
hi2
..
.
hi3
..
.
...
..
.
hi j
..
.
...
..
.
hir
..
.
hi
..
.
xk
hk1
hk2
hk3
...
hk j
...
hkr
hk
hi j
h1
h2
h3
...
h j
...
hr
h = 1
k
i=1
Distribuciones bidimensionales
Ejemplo 4.2
De las 40 empresas formales de la ciudad de Huamanga, se considera a la variable X: nmero de accionistas, y la
variable Y : nmero de sucursales que posee a nivel nacional. Los datos son:
Empresa Nro
10
11
12
13
14
15
16
17
18
19
20
Empresa Nro
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Solucin
?
Tenemos 40 datos presentados en un recuadro, se debe suponer que se tratan datos del tipo (x, y). Al hacer
algunas identificaciones tenemos: (x1 , y1 ) = (6, 2); (x9 , y9 ) = (5, 3), , (x20 , y20 ) = (4, 1), , (x30 , y30 ) = (5, 4), ,
(x40 , y40 ) = (5, 1), etc.
Los valores diferentes de los datos correspondientes a la variable X son 4, 5, 6, 7, 8 y 9 a los cuales los denotaremos por
x1 = 4, x2 = 5, x3 = 6, x4 = 7, x5 = 8 y x6 = 9.
Los valores diferentes de los datos correspondientes a la variable Y son 1, 2, 3, 4 y 5 a los cuales los denotaremos
por
y1 = 1, y2 = 2, y3 = 3, y4 = 4 y y5 = 5.
A cada xi , donde i = 1, 2, 3, 4, 5, 6, los disponemos en la primera columna de la tabla en forma ordenada (de
arriba hacia abajo).
A cada y j , donde j = 1, 2, 3, 4, 5, los disponemos en la primera fila de la tabla en forma ordenada (de izquierda
a derecha).
100
Distribuciones bidimensionales
y1 = 1
y2 = 2
y3 = 3
y4 = 4
y5 = 5
ni j
j=1
x1 = 4
x2 = 5
x3 = 6
x4 = 7
x5 = 8
x6 = 9
6
ni j
i=1
n11 =
, significa que
n22 =
, significa que
n32 =
, significa que
n53 =
, significa que
cionistas y
?
n45 =
cionistas y
, significa que
, significa que
n2 =
, significa que
, significa que
n2 =
accionistas
ac-
ac-
, significa que
accionistas
sucursales
accionistas.
accionistas
n23 =
n2 =
accionistas
sucursales
accionistas.
sucursales a
n4 =
, significa que
sucursales
accionistas.
101
Distribuciones bidimensionales
, significa que
n4 =
, significa que
n4 =
sucursales
accionistas.
sucursales a
, significa que
n5 =
, significa que
n5 =
, significa que
n5 =
accionistas.
sucursales
accionistas, pero no
sucursales
accionistas.
sucursales a
, significa que
n3 =
poseen
, significa que
n3 =
poseen entre
?
n3 =
, significa que
accionistas
, significa que
cada uno.
?
n1 =
o
n1 =
entre
n1 =
, significa que
y
, significa que
accionistas
, significa que
cada uno.
?
n5 =
poseen
h22 =
poseen
?
h32 =
accionistas y
=
h2 =
de cada
de cada
h2 =
poseen
?
h3 =
, significa que
de cada
, significa que
h3 =
poseen
102
de cada
accionistas.
empresas formales de la ciudad de Huamanga
, significa que
, significa que
accionistas y
poseen
?
, significa que
, significa que
accionistas cada uno.
de cada
y
Distribuciones bidimensionales
4.2.3
Tablas para variables bidimensionales con una componente cuantitativa y otra cualitativa
En el siguiente ejemplo veremos un caso en el cual una variable bidimensional esta constituida por una variable cuantitativa y otra cualitativa, el diseo de la tabla bidimensional de frecuencias es similar al de variables bidimensionales
con componentes cuantitativas.
Ejemplo 4.3
De los 40 ingresantes a la Facultad de Enfermera a la UNSCH del ao 2010 se estudi la variable bidimensional
(X,Y ), donde X es la edad en aos e Y es el distrito de residencia de los ingresantes, la tabla bidimensional es:
INGRESANTES A LA FACULTAD DE ENFERMERA DE LA UNSCH AO 2010
Carmen
Alto
San Juan
Bautista
Jess
Nazareno
hhh
Ayacucho
n1 =
18
n2 =
20
n3 =
21
n4 =
22
n5 =
25
n6 =
n1 =
n2 =
n3 =
n4 =
n =
SUMAS
n22 =
: Significa que
n42 =
: Significa que
n24 =
: Significa que
n5 =
: Significa que
n5 =
: Significa que
SUMAS
103
Distribuciones bidimensionales
n3 =
: Significa que
n3 =
: Significa que
4.3
En esta subseccin presentamos los pasos para el manejo de calculadoras con estadsticas bidimensionales, como
estamos familiarizados con el manejo de calculadoras para estadsticas unidimensionales los pasos son similares, por
ello presentaremos algunos pasos adicionales para tal fin.
1
En una calculadora que no posee tabla, para ingresar al modo estadstico de dos variables (REG) presione las
teclas:
REG
MODE A
LIN
En una calculadora que posee tabla, para ingresar al modo estadstico de dos variables presione las teclas:
STAT
MODE A
A+BX
A
X
FREQ
10
15
12
Solucin:
Para calculadoras que no poseen tablas
1
Tercer dato: 1 0 A, A 9 M+
Quinto dato: 1 5 A, A 6 M+
Cuarto dato: 4 A, A 4 M+
Luego de culminar con el ingreso de los datos presione la tecla AC , los datos estn en la memoria de la
calculadora.
104
Distribuciones bidimensionales
SSUM
X =
n=
Y 2 =
Y =
XY =
SVAR
, en pantalla obtendr
Xn =
Xn1 =
Y=
Y n =
Y n1 =
A=
B=
r=
FREQ
5
7
10
4
15
12
8
9
4
6
1
1
1
1
1
SUM
X =
Y 2 =
Y =
XY =
X3 =
VAR
, en pantalla ob-
Xn =
Xn1 =
Y=
Y n =
Y n1 =
B=
r=
105
Distribuciones bidimensionales
Ejemplo 4.5
Utilice su calculadora para obtener algunos resultados a partir de la siguiente tabla
X
Solucin:
4.4
X2 =
X =
n=
Y 2 =
Y =
XY =
X=
Xn =
Xn1 =
Y=
Y n =
Y n1 =
A=
B=
r=
Cuando tratemos con variables bidimensionales con componentes cuantitativas, es posible que los datos da cada
variable componente se agrupen en intervalos
Ejemplo 4.6
A continuacin se presenta la tabla que indica Y: el tiempo de servicios (aos) y X: los ingresos mensuales (dlares)
correspondientes a los 40 empleados bancarios de la financiera AVIRA.
TRABAJADORES DE LA FINANCIERA AVIRA SEGN TIEMPO DE SERVICIOS (aos)
E INGRESOS MENSUALES (dlares)
yi
HH
11
15
19
23
27
[5 9i
[9 13i
[13 17i
[17 21i
[21 25i
[25 29]
285
HH Y
[1 5i
H
X
H
H
[268 302 >
4
319
353
387
421
455
xi
ni
n j
X: los ingresos mensuales (dlares)
106
Distribuciones bidimensionales
, significa que
n24 =
iguales a
dlares y menores a
y menores a
aos
aos.
, significa que
n32 =
iguales a
dlares y menores a
y menores a
aos.
, significa que
n34 =
aos
igual a
dlares y menor a
menor a
aos.
, significa que
n46 =
aos y
igual a
dlares y menor a
menor a
aos y
aos.
, significa que
n2 =
iguales a
dlares y menores a
, significa que
n4 =
dlares.
iguales a
dlares y menores a
, significa que
n3 =
iguales a
iguales a
iguales a
4.5
aos.
aos y menores a
, significa que
n7 =
aos y menores a
, significa que
n5 =
dlares.
aos.
aos.
Distribuciones Marginales
Cuando trabajamos con variables bidimensionales y queremos hallar las distribuciones de frecuencias de cada una
de manera independiente, nos encontramos con las distribuciones marginales.
Sea la tabla bidimensional de distribucin de frecuencias absolutas simples
107
Distribuciones bidimensionales
HH
Y
H
HH
X
H
H
y1
y2
y3
...
yj
...
yr
ni
x1
n11
n12
n13
...
n1 j
...
n1r
n1
x2
n21
n22
n23
...
n2 j
...
n2r
n2
x3
..
.
n31
..
.
n32
..
.
n33
..
.
...
..
.
n3 j
..
.
...
..
.
n3r
..
.
n3
..
.
xi
..
.
ni1
..
.
ni2
..
.
ni3
..
.
...
..
.
ni j
..
.
...
..
.
nir
..
.
ni
..
.
xk
nk1
nk2
nk3
...
nk j
...
nkr
nk
n j
n1
n2
n3
...
n j
...
nr
DISTRIBUCIN MARGINAL DE X
Datos de
Frec. Abs.
Frec. Rel.
Datos de
Frec. Abs.
Frec. Rel.
ni
hi
n j
h j
x1
n1
h1
y1
n1
h1
x2
n2
h2
y2
n2
h2
x3
..
.
n3
..
.
h3
..
.
y3
..
.
n3
..
.
h3
..
.
xi
..
.
ni
..
.
hi
..
.
yj
..
.
n j
..
.
h j
..
.
xk
nk
hk
yr
nr
hr
Total
h = 1
Total
h = 1
Ejemplo 4.7
De la tabla obtenida en el ejemplo 4.2 obtenemos las distribuciones marginales de cada variable
DISTRIBUCIN MARGINAL DE X
DISTRIBUCIN MARGINAL DE Y
Nro de accionistas
Nro de Emprs.
Prop. de Emprs.
Nro de sucursales
Nro de Emprs.
Prop. de Emprs.
ni
hi
n j
h j
x1 = 4
n1 = 7
h1 = 0, 175
y1 = 1
n1 = 6
h1 = 0, 150
x2 = 5
n2 = 12
h2 = 0, 300
y2 = 2
n2 = 6
h2 = 0, 150
x3 = 6
n3 = 10
h3 = 0, 250
y3 = 3
n3 = 14
h3 = 0, 350
x4 = 7
n4 = 6
h4 = 0, 150
y4 = 4
n4 = 8
h4 = 0, 200
x5 = 8
n5 = 2
h5 = 0, 050
y5 = 5
n5 = 6
h5 = 0, 150
x6 = 9
n6 = 3
h6 = 0, 150
Total
n = 40
h = 1
Total
n = 40
h = 1
Observaciones:
1
Con las distribuciones marginales obtenidas de cada variable las medidas de tendencia central, de dispersin y
de forma sern obtenidas sin ninguna dificultad.
Tambin son posibles los clculos de la media y desviacin de cada variable sin obtener sus distribuciones
marginales, pera ello emplearemos calculadoras.
108
Distribuciones bidimensionales
Ejemplo 4.8
HH
Y
H
6
HH
X
H
H
5
3
ni
10
n j
20
Y 2
XY
Xn
Xn1
Y n
Y n1
MODE A
2
A+BX
MODE A
LIN
FREQ
5 , 6 SHIFT , 3 M+
5
5
8
8
10
10
6
7
7
8
6
9
3
2
2
6
4
3
5 , 7 SHIFT , 2 M+
8 , 7 SHIFT , 2 M+
8 , 8 SHIFT , 6 M+
10 , 6 SHIFT , 4 M+
10 , 9 SHIFT , 3 M+
ciones.
?
ciones.
ciones.
?
ciones.
?
X2 =
X =
n=
Y2
Y =
XY =
X=
Xn =
Xn1 =
Y=
Y n =
Y n1 =
A=
B=
r=
109
Distribuciones bidimensionales
4.6
Presentamos un breve resumen a cerca de rectas en el plano cartesiano XY , una recta posee varias ecuaciones las
cuales describen la relacin entre las coordenadas de cada uno de sus puntos, por ejemplo existe una recta en donde
todos sus puntos tienen su primera y segunda coordenadas iguales y la ecuacin de dicha recta es
y=x
La ecuacin anterior es un caso particular de
y = mx + b,
con m = 1 y b = 0.
Origen de
coordenadas
q
0
X
tan q = pendiente de la recta L
Dependiendo del signo de la tangente de un ngulo presentamos los tres casos de inclinacin de una recta
L
L
X
X
recta con
pendiente
igual a cero
recta con
pendiente
negativa
y = mx + b
X
recta con
pendiente
positiva
lo abreviaremos por
L : y = mx + b.
El nmero m es la pendiente de la recta L y el nmero b es la interseccin de la recta L con el eje Y .
?
110
Distribuciones bidimensionales
4
2
X
-2
Recta L : y = x + 2,
Recta L : y = 2x + 4,
Recta L : y = x 2,
donde m = 1 y b = 2
donde m = 2 y b = 4
donde m = 1 y b = 2
Y
3
L
4
-4
Recta L : y = 2x 4,
Recta L : y = 3,
donde m = 2 y b = 4
donde m = 0 y b = 3
111
Distribuciones bidimensionales
4.7
Regresin y Corelacin
Ejemplo 4.9
Supongamos que a un grupo de 10 empleados de la financiera AV IRA se les gratific con dinero extra de acuerdo al
nmero de horas extras que laboraron durante el mes de octubre del 2014. Como resultado se obtiene el siguiente
cuadro:
Empleado Nro
10
X:
10
10
12
15
15
15
18
18
20
20
Y:
300
300
340
400
400
400
460
460
500
500
Pues:
2
depende de la variable
depende del
Si el empleado nmero once durante octubre labor 17 horas extra, a cunto asciende su gratificacin?
Rta:
Si el empleado nmero doce tuvo S/. 260 de gratificacin, cuntas horas extra labor?
Rta:
Ejemplo 4.10
El siguiente cuadro muestra las edades y crditos acumulados de un grupo de 10 estudiantes de la UNSCH.
Estudiante Nro
10
X:
Edad (aos)
17
17
17
18
18
19
19
19
20
20
Y:
Nro de crditos
50
96
34
10
95
140
40
60
150
50
Pues:
2
112
pues
pues
.
.
Distribuciones bidimensionales
Trataremos con variables cuantitativas medibles Y y X; el objetivo es estudiar la asociacin entre dos variables conocida tambin como asociacin simple.
La primera forma del estudio de la asociacin entre las variables Y y X es la regresin, que consiste en determinar
una relacin entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra.
La segunda forma del estudio de la asociacin entre las variables X e Y, es denominada correlacin, que consiste en
determinar la variacin conjunta de las dos variables, su grado de relacin.
4.7.1
Diagramas de Dispersin
Sean (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), los datos correspondientes a una variable bidimensional (X,Y ). Denominaremos como diagrama de dispersin o nube de puntos, a la grfica de los datos (xi , yi ) de la variables bidimensional
(X,Y ) en el sistema cartesiano.
(a)
(b)
(c)
Una observacin
! muy importante
(d)
mensional, se ve la tendencia de tales puntos en el sentido de que se asemeja a una curva conocida, el objetivo es
determinar esa curva y su ecuacin a la cual ms se ajusta la nube de puntos a este proceso se denomina regresin y
para analizar la validez de una regresin utilizamos el coeficiente de correlacin.
Nos concentraremos en el estudio de la regresin lineal simple, cuando el diagrama de dispersin se asemeje a una
recta y obtendremos la ecuacin de la recta de regresin que tendr la forma
Y = A + BX,
donde los coeficiente A y B se obtendrn con el mtodo de los mnimos cuadrados que presentamos ms adelante.
4.7.2
Sean (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), los datos correspondientes a una variable bidimensional (X,Y ), donde cada
una de las variables Y y X son cuantitativas.
?
Los nmeros xi X son las desviaciones de cada dato con respecto a su media en la variable X,
113
Distribuciones bidimensionales
Los nmeros yi Y son las desviaciones de cada dato con respecto a su media en la variable Y ,
Con los nmeros anteriores generamos los productos (xi X)(yi Y ) que los denotaremos por Zi ,
Cov(X,Y ) = SXY =
xi X yi Y
i=1
Observaciones:
1
La covarianza es una estadgrafo que mide el grado de dispersin o variabilidad conjunta de los datos de las
variables Y y X con respecto a sus medias aritmticas Y y X.
xi yi
Cov(X,Y ) = SXY =
i=1
X Y .
Y si usted va utilizar su calculadora, luego de ingresar datos de variable bidimensional digite hasta que en la
pantalla de su calculadora aparezca:
( XY ) n (X)(Y )
3
Las unidades en las cuales resulta la covarianza es el producto de las unidades de las variables Y y X.
El inconveniente de las unidades es preferible evitarlo con alguna fraccin, por ello definimos el coeficiente de correlacin.
Cov(X,Y )
X Y
donde:
?
Observaciones:
1
114
SXY
,
X Y
Distribuciones bidimensionales
n xi yi
v
u
u n
tn x2
i
i=1
xi
!2 v
u
u
x tn
i
i=1
yi
i=1
i=1
r=
i=1
n
!2 .
y2i yi
i=1
i=1
1 r 1 .
(a)
4.7.3
(b)
(c)
dos.
pendiente positiva.
Sea (X,Y ) una variable bidimensional con ambas componentes cuantitativas, donde Y es la variable dependiente y X
es la variable independiente.
Consideremos un conjunto de datos (x1 , y1 ); (x2 , y2 ); (x3 , y3 ); ; (xn , yn ), de la variable bidimensional (X,Y ) cuyo
diagrama de dispersin se asemeja al de una recta, con la regresin lineal simple obtendremos la ecuacin de la recta
que mejor se ajuste a los datos, para ello supondremos que la ecuacin de dicha recta es
y = A + Bx,
a tal recta lo denominaremos recta de regresin.
Lo nico que faltara es obtener los valores de los coeficientes A y B, esto es posible con el mtodo de los mnimos
cuadrados que aqu no expondremos por tener un desarrollo matemtico muy elaborado.
Al finalizar tal desarrollo matemtico muy elaborado los resultados de A y B son:
!
!
n
n xi yi
B=
i=1
i=1
n xi2
i=1
xi
n
yi
i=1
!2
Cov(X,Y )
X
A=Y
Cov(X,Y )
X.
X
xi
i=1
115
Distribuciones bidimensionales
Luego de obtener la recta de regresin L : y = A + Bx, es necesario obtener su respectivo coeficiente de correlacin r
para ver si tenemos cierto grado de confiabilidad en el proceso de regresin.
! muy importante
! muy importante
Usted no debe preocuparse del clculo de los coeficientes A, B y r; ya que todo ello es posible
Ejemplo 4.11
A un concurso de Gimnasia se presentan 10 atletas, tal concurso cuenta con dos jurados calificadores, el siguiente
cuadro muestra las calificaciones que proporcionan los jurados a cada concursante.
Concursante Nro
10
10
10
Cov(X,Y ) =
r=
Ejemplo 4.12
La empresas para obtener utilidades tienen la necesidad de invertir en publicidad, sobre todo en publicidad televisiva, el siguiente cuadro muestra el tiempo (minutos) en publicidad televisiva que emplean 5 empresas durante una
semana y las utilidades obtenidas como consecuencia de su inversin en publicidad.
Empresa Nro
20
30
25
35
40
17
25
22
28
34
116
A=
B=
r=
X=
Y=
SXY =
Distribuciones bidimensionales
Utilidades
(miles de nuevos soles)
34
28
L : y=
25
El coeficiente de correlacin es r =
22
17
20
25
30
35
40
Rta:
l
Ejemplo 4.13
En cierto concurso de ortografa participaron 150 estudiantes de Educacin Primaria que obtuvieron calificaciones
diversas. El siguiente cuadro muestra el nmero de errores ortogrficos cometidos por 6 estudiantes y sus respectivas
calificaciones.
Estudiente Nro
: Nro de errores
30
40
35
45
50
48
: Calificacin (puntos)
60
38
46
28
20
22
B=
r=
X=
Y=
SXY =
errores.
de calificacin.
g
Distribuciones bidimensionales
Calificaciones (puntos)
60
L : y=
.
a
46
i
. 38
El coeficiente de correlacin es r =
28
a
22
20
Nmero de
errores cometidos
Rta:
Rta:
35
40
45
48 50
CUESTIONARIO
1 Dada un conjunto de datos de una variable bidimensional (X,Y )
B=
r=
X=
Y=
XY =
n=
SXY =
En su calculadora digite
4 yb
7 xb
160
165
170
180
185
192
175
182
172
Y : pesos (kg)
58
61
73
80
85
83
68
74
67
Hallar la recta de regresin que mejor ajuste a los datos luego dibujarlo sobre el diagrama anterior
3 A continuacin se muestran las edades en aos de los padres de los nacidos en una maternidad durante mayo
del 2011. (Considere X: Edad de la madre, Y : Edad del padre)
118
Distribuciones bidimensionales
Nio Nro
10
11
12
13
14
15
16
17
18
19
20
36
26
26
29
30
16
17
18
27
37
28
17
31
27
22
27
23
21
30
17
37
31
26
27
32
17
25
23
24
33
17
22
33
26
36
23
39
38
24
35
Agrupar a los datos de cada variable en 5 intervalos de amplitud igual a 5 aos, empezando con el mnimos
de 15 aos, luego interprete algunas frecuencia absolutas simples y algunas frecuencias marginales de cada
variable.
yi
xi
HH
HH Y
h15 20i
H
X
H
H
h15 20i
[20 25i
[25 30i
[30 35i
[35 40i
ni
[20 25i
[25 30i
[30 35i
[35 40i
n j
4 Se supone que el alargamiento de un cable de acero est relacionado linealmente con la intensidad de la fuerza
aplicada. Cinco especmenes idnticos de cable dieron los resultados siguientes:
Fuerza en Newtons (X)
1.0
1.5
2.5
3.5
5.4
6.9
8.4
Alargamiento en centmetros (Y )
a
Halle la covarianza
5 Para analizar la degradacin de la seal emitida por una antena, se tomaron los siguientes datos: la frecuencia
de la seal en el momento de ser emitida (X) y la frecuencia de la seal al ser recibida (Y). Los resultados
medidos en Megahercios fueron:
X
1.75
1.8
1.78
2.01
2.48
2.58
2.98
2.65
2.01
3.87
1.56
1.45
1.75
0.84
2.02
2.41
2.75
1.44
1.55
2.02
Es significativa la relacin lineal entre las variables?. Influye significativamente la variable X sobre Y ?.
Qu frecuencia se predice en la seal al ser recibida si al ser emitida es de 3.5 Megahercios?. Es fiable la
prediccin?.
119
Distribuciones bidimensionales
Estudiente Nro
10
Calificaciones (puntos)
12
11
12
15
14
Nro de horas de TV
18
12
14
10
120