Sei sulla pagina 1di 39

ESTADSTICA DESCRIPTIVA

ESTADSTICA DESCRIPTIVA
Estadstica es la ciencia que utilizando las matemticas y de modo
particular el clculo estudia las leyes de comportamiento de aquellos
fenmenos que no estando sometidos a leyes rgidas dependen del azar y
basndose en ella, se predicen resultados.
La estadstica tiene dos grandes ramas: Descriptiva e Inferencial.
-

Estadstica Descriptiva analiza las caractersticas de una


poblacin o muestra definindose unas propiedades acerca de su
estructura y composicin.

Estadstica Inferencial basndose en los resultados obtenidos de


una muestra induce o estima las leyes reales de comportamiento
de la poblacin de la que proviene dicha muestra.

Poblacin son todos y cada uno de los elementos que se quieren


analizar. Puede ser finita o infinita( en realidad las poblaciones
infinitas no existen, pero cuando se trata de un nmero grande se
trata como si lo fuera).

Muestra es un subconjunto de la poblacin o parte de la poblacin


que se observa.

Caracterstica de una poblacin es la propiedad que se estudia.

Variables Funcin que puede tomar diversos valores. .

Ejemplo: Poblacin Estudiantes de Econmicas de Salamanca, Caracterstica


Edad de ellos, la caracterstica se designa con letras maysculas X, Y, Z,....,
los valores de esas edades son numricos entonces es una variable
cuantitativa y los valores que toman se denotaran X={x 1, x2, x3,........xn }.

Recorrido de la variable es la diferencia entre el valor mayor y el


menor de los que toma la variable.

Variable Discreta cuando toma un nmero finito de valores o bien


cuando toma infinitos y son numerables es decir entre dos no hay
otro intermedio. Ejemplo: la edad, las notas, ......

Variable Intervalar cuando entre dos valores cualesquiera siempre


puede haber otro. Ejemplo: Talla, peso,......

Variable unidimensional Estudia solo una caracterstica de la


poblacin. Ejemplo: Estudiar el peso (X)

Variable bidimensional Estudia dos caractersticas de una


poblacin. Ejemplo Estatura(X) y peso (Y)

Variable infidimensional estudiara infinitas caractersticas

Atributos son caractersticas de la poblacin no susceptibles de


cuantificacin numrica. Ejemplo.: Color del pelo, los atributos se
designan con letras A, B, C, .......y sus valores A={a 1, a2, .............., an}.

En Economa son muchos ms importantes las variables (toman valor


numrico)) que los atributos.
ETAPAS DEL ANLISIS ESTADSTICO
1) Recogida de Datos
2) Ordenacin de los mismos en tablas
3) Resumen de la informacin recogida a travs de las
medidas(Descriptiva)
4) Analizar los datos provenientes de una muestra para sacar
conclusiones sobre la poblacin de la que proviene la muestra
( Inferencial).
ESCALAS DE MEDIDA
-

Escala nominal la caracterstica estudiada se clasifica en una serie


de caractersticas no numricas y mutuamente excluyentes y no se
puede establecer ningn orden entre ellos.

Escala ordinal el carcter medido no es numrico pero puede


establecerse algn tipo de orden. Ejemplo estudios de una
persona.

Escala de intervalos la caracterstica puede cuantificarse


numricamente, establecindose intervalos entre dos operaciones.
Ejemplo: Renta mensual que percibe una persona.

ANLISIS
ESTADSTICO
UNIDIMENSIONALES

DE

DISTRIBUCIONES

Distribucin unidimensional est formada por los valores que toma


la variable que se estudia acompaados de sus respectivas
frecuencias.

Frecuencia absoluta ( ni ) es el nmero de veces que se repite un


determinado valor.

Frecuencia Porcentual ( ni%) es el cociente entre la frecuencia


absoluta y el nmero total de observaciones, por tanto la
frecuencia relativa est siempre entre cero y uno.

Frecuencia absoluta acumulada Fi n j es decir se suman las


j 01

frecuencias anteriores a un valor dado, por tanto la acumulada al


final coincide con la poblacin N.
-

Distribucin por datos no agrupados es cuando se especifican


todos y cada uno de los valores de la variable.

Distribucin por datos agrupados los valores de la variable se


miden en intervalos , la amplitud del intervalo es la diferencia
entre el extremo superior e inferior del intervalo y la suma de las
amplitudes de todos los intervalos es igual al recorrido
( diferencia entre el valor mayor y el menor de la distribucin).

Marca de clase de un intervalo es la semisuma de los extremos del


intervalo y es el valor que sustituye a todo el intervalo

l i 1 l i

xi
2

siendo el intervalo [li-1 , li ].

Las representaciones grficas tienen que estar hechas para que el


simple impacto visual nos d informacin de la distribucin
En distribuciones cuantitativas si los datos no estn agrupados, se
emplea el diagrama de barras, si estn agrupados el histograma., si la
distribucin es cualitativa se suele emplear el diagrama de sectores.

Diagrama de barras Datos sin agrupar y las barras proporcionales


a las frecuencias.

Diagrama de Barras
12
Frecuencias

10
8
6
4
2
0

x1

x2

x3

x4

x5

Datos X

Diagrama rectngulos

Frecuencias

10
8
6
4
2
0
x1

x2

x3

x4

x5

En datos agrupados el Histograma pone en el eje vertical las


densidades de frecuencia de cada intervalo de forma que el rea de cada
rectngulo es la frecuencia absoluta del intervalo.

Densidad de frecuencia di = ni/ai

Frecuencias absolutas

Diagrama en escalera para datos no agrupados se utiliza para las


frecuencias acumuladas , son histogramas en los que en el eje vertical se
acumulan las frecuencias absolutas, por eso se llaman en escalera.

x1

x2

x3

xn

Datos

Frecuencias acumuladas

Diagrama de barras acumulado para datos agrupados

Intervalos clase

Histograma para datos agrupados en intervalos


El rea de cada rectngulo nos da la frecuencia del intervalo, por
tanto la base es la amplitud y la altura la densidad de frecuencia de dada
uno di

Densidades

f5

f3
f1
a1

f4

f2
a2

a3

a4

a5
Amplitudes

MEDIDAS DE POSICIN
Se trata de resumir la informacin en un nico nmero.
Las medidas de posicin pueden ser:

De tendencia central
1. Media
2. Mediana
3. Moda

De Posicin
1. Cuantiles.

Las medidas de posicin tienen que cumplir que intervengan todos los
valores de la variable, que se puedan calcular y que su valor sea nico para
cada distribucin de frecuencias.

1.- MEDIA

Media aritmtica simple


Se suman de todos los valores de la variable ponderados por sus frecuencias
absolutas y dividido todo ello por el nmero total de observaciones
n

xn
i 1

i i

N
La media aritmtica es siempre el centro de gravedad de la
distribucin y es siempre un valor que entra dentro del campo de variacin
de la variable.
Si los datos estn agrupados en intervalos se toma la marca de clase de
cada intervalo para su clculo.

Propiedades
1.- Cuando a los valores de la variable se les suma una constante, la
nueva media es la antigua ms la constante.

x x K x x K

Demostracin
_

x n
i

(x

N
de las fi es N.

K ) ni
N

xn

i i

x K puesto que la suma

2.- Si a los valores de la variable se les multiplica por una constante,


la nueva media es la antigua multiplicada por la constante.

x, xi K x K x
Demostracin

x n
i

Kx n

i i

xn

i i

kx

3.- Como consecuencia de las dos anteriores si a los valores de una


variable se les multiplica por constante y se les suma un nmero, la
media aritmtica queda multiplicada por la constante y sumado el
nmero.
Es decir si :

Y KX B entonces Y K X B

4.- La media aritmtica se puede hacer siempre con variables


cuantitativas y es perfecta, pero tiene un inconveniente que es que si
los valores son muy extremos ( desviados del resto), puede
desvirtuarse la situacin y hacerla poco representativa, debido a este
problema, a veces se hace la media truncada que es quitar los
extremos y hacer la media de los que quedan.

Media Aritmtica ponderada


Es igual que la media aritmtica simple, pero se pondera cada valor de
la variable por un coeficiente distinto de la frecuencia absoluta.

10

2.- MEDIANA
Es el valor de la variable que ocupa el lugar central de la distribucin, es
decir el valor de la variable que deja el 50% de observaciones hacia la
izquierda y el 50% a la derecha.
Para poder hallar la mediana, lo primero que hay que hacer es ordenar los
valores de la variable de forma creciente, y escribir los valores de las
frecuencias acumuladas Fi.
Distinguiremos dos casos, datos no agrupados y datos agrupados.

Para datos no agrupados


Se calcula primero el 50% de la poblacin N/2, se lleva ese valor a la
columna de frecuencias absolutas acumuladas.

Si el valor no est en la columna de acumuladas, se toma como valor


de la mediana el de la variable correspondiente al siguiente.

Si el valor si est en la columna de acumuladas, se toma como mediana


la media aritmtica del valor de la variable y el siguiente.

Para datos agrupados en intervalos


Se calcula como antes la mitad de la poblacin, y se lleva ese valor a la
columna de frecuencias absolutas acumuladas.

11

Si el valor no est en la columna, se toma como intervalo al que


pertenece la Mediana el siguiente al valor de N/2, y despus de
situarnos en el intervalo por la hiptesis de uniformidad hacemos una
proporcin entre la amplitud del intervalo, los elementos que tiene y
la amplitud que correspondera a la diferencia entre N/2 y la
frecuencia acumulada anterior valor que aadiramos al extremo
inferior del intervalo.

Si el valor s est en la columna de frecuencias acumuladas, se toma


como Mediana el extremo superior del intervalo correspondiente.

Tambin se puede hallar grficamente con el diagrama correspondiente a


las frecuencias absolutas acumuladas.

3.- MODA
Es el valor de la variable que ms veces se repite. En algunos casos existen
varias modas, pero normalmente es una, si son dos se llama bimodal.

Para datos no agrupados


La moda es el valor de la variable correspondiente a la mayor frecuencia
absoluta.

Para datos agrupados en intervalos


Se halla la densidad de frecuencia de cada uno de los intervalos (d i) y el de
mayor densidad de frecuencia se selecciona como intervalo modal, para
determinar el valor de la Moda, se aplica la siguiente frmula, basada en la
proporcionalidad:

Mo Li

d i d i 1
.a i
(d i d i 1 ) (d i d i 1 )

Si los intervalos tienen todos la misma amplitud el intervalo modal es el de


mayor frecuencia absoluta.

CUARTILES
Son medidas de posicin que no tiene porqu ser central. Hay varios tipos
de cuantiles:

12

1.- Cuartiles Son valores de la variable que dividen a la distribucin en


cuatro partes iguales, por lo tanto los cuartiles son tres C 1 que deja por
detrs de l al 25% de la poblacin, C2 que divide a la poblacin en dos
partes iguales y C3 que deja dtrs de l al 75% de la poblacin.
2.- Deciles Son valores e la variable que dividen a la distribucin en diez
partes iguales, por lo tanto los deciles son nueve, D1 deja al 10% antes, D2 al
20% y as sucesivamente hasta D9 que deja al 90% antes y al 10% despus
de l.

3.- Percentiles.- Son valores de la variable que dividen a la distribucin


en cien partes iguales, por lo tanto los percentiles son 99.
En realidad tanto cuartiles como deciles se calculan con el
correspondiente percentil.

D1= P10D9 = P90

C1 = P25

C2 = D5 = P50 = ME .

Para calcular cualquiera de ellos se utiliza por lo tanto el mismo


procedimiento que el descrito en el clculo de la Mediana.

MEDIDAS DE DISPERSIN
Las medidas de dispersin nos indican el mayor o menor alejamiento
de los valores de una variable respecto a un promedio. Casi siempre
acompaando a un promedio debe ir una medida de dispersin que nos
indica la mayor o menor representatividad del promedio.
Las medidas de dispersin absoluta ms utilizadas son:

Recorrido
Recorrido Intercuartlico

13

Desviacin Media
Varianza
Desviacin Tpica

RECORRIDO
Es la diferencia entre el mayor y el menor valor de la variable
R = xn x1

RECORRIDO INTERCUARTLICO
Es la diferencia entre el tercer cuartil y el primer cuartil
RI = Q3 Q1
DESVIACIN MEDIA
Es la suma de los valores en valor absoluto de la diferencia entre cada valor
de la variable y la media aritmtica por su frecuencia y dividido por el
nmero de datos.
in

D
x


i 1

xi x ni

VARIANZA

(x

x) 2 ni
N

Siempre es positiva (por estar al cuadrado). Como la varianza es


siempre positiva, a mayor varianza mayor ser la dispersin.

14

Propiedades:
1.-La varianza siempre es mayor o igual que cero. Tan solo hay un caso en
que es cero y es cuando todos los valores de la variable son iguales.
2.- Si a los valores de la variable le sumo una constante, la varianza de la
nueva variable es la misma que la que tena antes.
Es decir si xi= xi+K entonces S2x= S2x

Demostracin:

S x2

( xi x)ni
N

( xi k ( x k ))2 ni
N

S x2

3.- Si a los valores de la variable se les multiplica por una constante, la


varianza de la nueva variable es la que tena por el cuadrado de la constante.
Es decir si xi= k xi entonces S2x= k2 S2x

Demostracin

S x2

( x x)

ni

(kx

k x) 2 ni
N

k2

(x

x) 2 ni
N

k 2 S x2

4.- Es consecuencia de las dos anteriores, la varianza de la variable Y=aX+b


es la varianza de X multiplicada por el cuadrado de a.
S y2 a 2 S x2

5.- Si los datos estn divididos en estratos, entonces la varianza total ser
igual a la suma de la varianza entre estratos y la varianza dentro de los
estratos.

15

DESVIACIN TPICA (Sx)


Es la raz cuadrada positiva de la varianza y es la medida de dispersin ms
utilizada.

Clases de medidas de dispersin relativas


Se caracterizan por ser adimensionales, las ms importante es el
coeficiente de variacin de Pearson, nos indica la mayor o menor
homogeneidad de los datos respecto de la media y por lo tanto nos da la
representatividad de la media en la distribucin.

CVx

Sx

Tipificacin de variables
Tipificar una variable es cambiarla por otra que tenga de media cero
y desviacin tpica 1. Se utiliza para comparar distribuciones .
Cada valor se tipifica restando la media y dividiendo por la desviacin
tpica, la nueva variable z, tiene de media cero y desviacin tpica 1.

xx
z
Sx

MEDIDAS DE FORMA
Hacen referencia a la forma de la distribucin, simtrica, asimetra a
la derecha o a la izquierda. En general la mejor manera de verlo es por la
representacin grfica, pero si no la tenemos existen coeficientes que nos
indican la forma de la distribucin. Los ms utilizados son:
Coeficiente de asimetra de Pearson, slo se puede utilizar en
distribuciones campaniformes (forma de campana) y unimodales

16

Ap

x M o
Sx

Este coeficiente puede ser:


0 entonces la media igual que la moda, distribucin simtrica
>0 entonces la media mayor que la moda, asimetra a la derecha
positiva
<0 entonces la media menor que la moda asimetra a la izquierda
negativa

Coeficiente de asimetra de Fisher, tiene la ventaja de que se puede


hallar para todas las distribuciones, aunque su clculo es complicado y
laborioso.

g1

( x x) n

N .S

3
x

Este coeficiente puede ser:


0 entonces la distribucin es simtrica
>0 entonces asimetra a la derecha
<0 entonces asimetra a la izquierda.
Curtosis hace referencia al mayor o menor apuntamiento que tiene
una distribucin de frecuencias respecto a una distribucin Normal,
por lo tanto slo se estudia en distribuciones campaniformes , para
compararlas con la campana de Gauss, su calculo tambin es muy
laborioso.

g2

( x x) n

N .S

4
x

Este coeficiente puede ser:


0 la curva es igual que la normal, se llama Mesocrtica
>0 la curva es ms puntiaguda que la normal se llama Leptocrtica
<0 la curva es ms aplastada quie la normal, se llama Platicrtica

17

18

ANEXO MEDIDAS DE CONCENTRACIN


La concentracin estudia el mayor o menor grado de distribucin de
los valores de la variable, la mayor o menor equidad o igualdad en el reparto,
por lo tanto slo se puede estudiar en variables de tipo econmico, rentas,
sueldos, subvenciones, etc...........
Las medidas ms utilizadas son el ndice de Gini y la curva de Lorentz, su
clculo se basa en la siguiente tabla de distribucin:
Li-1-Li

mi

ni

Ni

ui

10-20
20-40
40-50
50-70
70-80
80-100

15
30
45
60
75
90

6
4
3
5
2
3
N=23

6
10
13
18
20
23

n .m
i

90
210
345
645
795
1065

pi

u
Ni
.100 qi i i .100
un
N

26,09
43,48
56,52
78,26
86,96

8,45
19,72
32,39
60,56
74,65

291,31

Los pi nos indican el porcentaje de poblacin y los qi correspondientes la


cantidad que se reparte ese porcentaje de poblacin, tambin claro est en
porcentaje.
Siempre pi > qi en caso de igualdad implica que todos perciben la misma
cantidad, por lo tanto hay nula concentracin o total uniformidad en el
reparto.
Si pi se aproxima a qi hay poca concentracin o sea bastante uniformidad,
caso contrario mucha concentracin o sea no hay uniformidad.
Indice de Gini
IG

( p q ) 95,54 0,3280
291,31
p
i

en nuestro ejemplo hay escasa

concentracin por lo tanto bastante uniformidad en el reparto.

19

EJERCICIOS ESTADSTICA DESCRIPTIVA


UNIVARIADA Y BIVARIADA

1.- Dada la siguiente distribucin de frecuencias de variable discreta .


Calcular:

a) Mediana b) Moda
xi
47
48
49
50
51
52
53

c) Media

d) Varianza y desviacin tpica

fi
1
3
2
8
3
2
1

2.- Consultados 350 trabajadores sobre la renta cotizada en una AFP, se


confecciona la siguiente tabla:
Renta Cotizada
15.20
20.25
25.30
30.35
35.40
40.50
50.70

N de trabajadores
23
28
76
54
60
42
67

Calcular Media, Mediana y Moda Interprete resultados


Calcule las medidas de dispersin o de variabilidad Comente
resultados
Analice la asimetra u oblicuidad de esta distribucin
Opine sobre la curtosis
Calcule e interprete el coeficiente de Gini.

20

3.- Un hotel tiene cinco tipos de habitaciones cuyos precios as como los
ingresos son:
Precio por Habitacin
200
500
750
1.000
1.300

Ingresos
16.000
20.000
37.500
30.000
26.000

Calcula precio medio


Si el coeficiente de variacin de los precios de otro hotel es 0,75
Cal de los dos hoteles posee una estructura de precios ms
homogneos?

4.- Un empresario desea repartir unas bonificaciones entre sus


empleados en base a la categora y productividad de los mismos. Dicha
distribucin qued de la siguiente forma:
Bonificaciones (Cientos Euros)
10.15
15.25
25-28
28.32
32.40
40.55

N Empleados
3
8
12
15
7
5

Bonificacin media por trabajador


Bonificacin ms frecuente
Bonificacin tal que la mitad de las restantes sea inferior a
ella
La varianza
El coeficiente de variacin y significado
El coeficiente de asimetra de Pearson y significado.

21

5.- Los beneficios en millones de euros de un grupo de empresas vienen


detallados en el siguiente histograma de frecuencias absolutas acumuladas:

3
2,8
2,6
2,4
2,2
2
1,8
1,6
1,4
1,2
1
0,8
0,6
0,4
0,2
0
25

50

75

100

125

150

Calcular:

Tabla estadstica
Establecer n de empresas con beneficios superiores a 75
millones
Calcular media mediana y moda
Coeficiente de variacin y de asimetra de Pearson
( significado)

6.- Los siguientes resultados corresponden al nmero de pokemones


capturados ( Xi) y la frecuencia con que se haba logrado este objetivo (ni).
xi
ni
0
4
1
10
2
13
3
11
4
13
5
10
6
9
7
7
8
7
9
4
10
2

22

Se pide calcular todas las medidas de tendencia central, de


posicin y de dispersin. Comente estos resultados

7.- La tabla adjunta muestra la distribucin de los salarios/mes en Euros


percibidos por los 65 empleados de la empresa AVISO.
Salario mes
500.600
600.700
700.800
800.900
900.1000
1000.1100
1100.1200

N empleados
8
10
16
14
10
5
2

Se pide Salario medio de la empresa


Salario tal que la mitad de los empleados ganan menos
Salario ms frecuente
Presentar los datos en un histograma.

8.- Una variable estadstica tiene una media igual a 7, y una desviacin tpica
igual a 5.
Calcular la media y la varianza de las variables:

Y = (X-2)/4
Z= 5X+2

23

9.- Completar los datos que faltan en la siguiente tabla de distribucin de


frecuencias:
xi
70
60
50
40
30
20
10

ni
2
8
6
4
3

NI
12
34
-

ni%
-

NI%
-

Calcular:

Media aritmtica
Varianza
Coeficiente de variacin
Mediana
Recorrido intercuartlico

10.- La puntuacin que han obtenido 50 personas que se presentaron para


ocupar un puesto en la plantilla de una empresa, ha sido la siguiente:
Puntuacin
14.18
18.20
20.25
25.28
28.32
32.36

N personas
3
6
11
15
8
7

Puntuacin media y puntuacin ms frecuente


Coeficiente de asimetra de Pearson y significado
Qu tipo de curtosis presenta la distribucin?

24

11.- Las ltimas cien ventas facturadas por un establecimiento se haban


agrupado en cuatro intervalos de clase, recordamos tan slo la siguiente
informacin:

El primer intervalo tiene seis semanas como extremo superior, una


frecuencia relativa de 0,2 y una amplitud de cuatro semanas.
La marca de clase del segundo y cuarto intervalo son ocho y cincuenta
semanas respectivamente.
Hasta el segundo intervalo se acumulan sesenta ventas.
El tercer intervalo presenta una frecuencia de treinta ventas y una
amplitud de treinta semanas.

Con esta informacin construye la distribucin de frecuencias y calcula


la media, mediana, moda y coeficiente de variacin.
12.- Las indemnizaciones recibidas por los 42 propietarios de reas de
cultivo despus de unas recientes inundaciones, se distribuyen del siguiente
modo:
Cientos de Euros
20.50
50.100
100.140
150
220

Propietarios
8
20
8
5
1

Si las perdidas se han valorado en ms de 400.000


Euros, puede afirmarse que las indemnizaciones son
suficientes?
Calcular la indemnizacin ms frecuente
Calcular la mediana y la media
Si a todos los propietarios se les subiera la
indemnizacin en 2.000 Euros seran suficientes las
indemnizaciones? Cul sera entonces la media?.

25

13.- Durante la ltima semana dos libreras han vendido los libros que
ocupan los tres primeros puestos en las listas de ventas a los siguientes
precios
Librera 1
Precio
N Ejemplares
18
10
21
13
23
15

Librera2
Precio
N Ejemplares
15
25
19
18
20
25

Qu establecimiento ha presentado una recaudacin media ms


representativa
Cul de los establecimientos presenta una mayor disparidad de
precios?

14.- Una empresa automovilstica ha abierto una nueva factora en un pas


del este. En este ao en dicha factora se han obtenido unas ventas medias
mensuales de 100 automviles con una desviacin tpica de 10, mientras que
en Espaa por trmino medio se han vendido 75 coches con una desviacin
tpica de 8.

En la factora de qu pas las ventas medias de automviles


son ms representativas?
Si en el ltimo mes las ventas de la nueva factora son de 105
vehculos y en la espaola de 80 qu factora presenta
mayores ventas en trminos relativos este mes? ( Tipificar los
valores)
Si la empresa piensa abrir otra factora en Asia, y se espera
que la distribucin de ventas sea Y= X 10 , siendo X la
distribucin de ventas en Espaa En cul de estas dos
factoras las ventas son ms representativas?

26

15.- Las calificaciones obtenidas por un grupo de alumnos en


Matemticas y Economa son:
Se pide a los alumnos de la clase las notas de la evaluacin en las dos
asignaturas y se anotan los resultados. Una vez anotados los resultados en
dos filas, se pide:

Cuntos alumnos tiene el grupo?


Tabla de correlacin
Distribuciones marginales, medias y varianzas
Cul de las dos es ms homognea?
Hallar la distribucin de matemticas condicionada a la Economa
sea 7
Distribucin de Economa condicionada a Matemticas superior a
4
Porcentaje de personas que aprobaron la Economa
Nota mnima obtenida por el 30% de los alumnos que ms nota
tienen en Economa
Calcular la covarianza
Calcular el coeficiente de correlacin lineal y significado.
Nube de puntos.

16.- Con los datos de la siguiente tabla obtngase las medias, varianzas y
covarianza de las variables X e Y
xi

ni

5
10
15

1
2
0

0
1
1

2
0
3

3
3
4

nij

10

27

yj

17.- Dada la distribucin :


xi
2
2
3
3
5

yj
1
4
2
5
4

nij
6
7
4
2
1

Determnese el coeficiente de correlacin lineal entre las


variables y dar su significado, relaciona el resultado obtenido
con la nube de puntos de la distribucin
18.- Se ha encuestado a 100 familias en una ciudad sobre su gasto mensual
en ocio (variable Y) y sus ingresos mensuales (Variable X). En la siguiente
tabla se presentan los resultados obtenidos, donde las variables vienen
expresadas en Euros.

Y
X
600-1000
1000-1500
1500-2000
2000-3000
3000-5000

0-100

100-200

200-400

400-800

4
9
9
5
1

1
8
12
8
1

1
3
20
12
-

3
3
-

Obtener el ingreso medio mensual por familia


Obtener el gasto en ocio medio mensual por familia
Obtener la media de gasto en ocio para las familias con
ingresos inferiores a 2000 Euros
Cal de las dos distribuciones es ms homognea?
Halla la correlacin lineal entre ambas y explica su significado
Cul es el ingreso mximo que tienen el 20% de las familias
que menos ingreso tienen?

28

19.- En un determinado sector, la produccin y las exportaciones durante


los ltimos aos han sido:
Ao
2000
2001
2002
2003
2004

Produccin (miles)
400
420
440
480
500

Exportacin (miles)
80
80
90
92
98

Calcule la covarianza y el coeficiente de correlacin lineal y d su


interpretacin
Realice un ajuste lineal entre ambas variables
Determine el coeficiente de determinacin e interprete el resultado.

20.- Calcular las rectas de regresin de una variable bidimensional (X,Y)


sabiendo los siguientes datos :

x 14 y 7 S x2 3 S y2 1 r 0,95

Qu valor asignara a X para un valor Y=5

21.- Dada la recta de regresin Y = - 0,25 + 3,2X Puede ser Sy< 6,4 si Sx
= 2?
22.- En una regin de Espaa se observ el precio del vino y la cantidad de
produccin durante algunos aos , obtenindose los siguientes datos :
X
Y

35
100

31
140

42
120

60
110

52
200

49
200

61
110

50
160

55
160

58
200

donde X es el precio por litro del vino en cntimos de Euro e Y es la


cantidad producida en miles de litros. Considerando la variable X agrupada
en intervalos de amplitud constante y considerando que el primer intervalo
es 25-35; se pide:

Distribuciones marginales
Media, mediana, desviacin tpica y coeficiente de variacin de
Pearson de X
Covarianza entre las variables

29

Porcentaje de aos en los que el precio del vino fue inferior a


48 cntimos
Recta de regresin de Y/X
Coeficiente de correlacin y de determinacin , significado .

23.- La recta de regresin entre dos variables viene dada por Y = 5 + b.X.
Sabiendo que las medias de las variables son respectivamente 5 y 20 .
Calcular el coeficiente de regresin .
24.- Contestar razonadamente si las afirmaciones siguientes son ciertas:

1. Si el coeficiente de regresin es negativo, se deduce que:

El coeficiente de correlacin es menor que cero


La variable Y aumenta cuando X disminuye
La covarianza es negativa

2. Si el coeficiente de determinacin en un ajuste es 0,9

El ajuste es bueno
El coeficiente de correlacin es 0,9
El 10% de los valores no se explican por la regresin

25.- ( 2 puntos) Responda razonadamente a las siguientes cuestiones:

Qu prediccin sera ms fiable en un modelo lineal?


a1) Aquella en la que R = 0,9
a2) Aquella en la que r = 0,92
Es posible que una variable estadstica tenga de coeficiente de
asimetra de Pearson 2, siendo la media mayor que la moda?
Obtener la varianza de la variable Y = 2X + 4 siendo S x = 6
Si una variable estadstica toma un nico valor constante K cual es su
media y su varianza.

30

26.- Realizada una encuesta entre fumadores se ha obtenido la siguiente


tabla de frecuencias:
N Cigarrillos diarios
5.10
10.15
15.20
20.30

N de individuos
20
15
25
40

Nmero medio de cigarrillos fumados por individuo y da


Desviacin tpica y coeficiente de variacin de Pearson
El valor ms frecuente de la variable
Histograma de frecuencias absolutas
Nmero de cigarrillos que fuman el 30% de la poblacin ms
fumadora.

27.- Halle las rectas de regresin de una variable bidimensional (X,Y)

sabiendo x 20 y 10 S x 4 S y 2 , siendo el coeficiente de correlacin


lineal r = 0,95.
En cual de las dos variables la media es ms representativa?. Qu
valor asignara a Y = 6? Sera la prediccin fiable?

28.En una muestra de 20 empresas del sector metalrgico se


obtuvieron los siguientes datos sobre el nmero de empleados X y sus
ingresos anuales Y en miles de Euros

N empleados(X)

10-30
30-50
50-100

Ingresos
Anuales(Y)
5-15
6
1
0

Ingresos
anuales(Y)
15-25
2
1
0

Ingresos
anuales(Y)
25-45
0
0
10

Calcule los ingresos medios anuales


La mediana del nmero de empleados
La recta que te permita calcular los ingresos sabiendo el nmero de
empleados

31

Sera fiable la prediccin que se hiciera?


En los mismos ejes representa nube de puntos y recta de regresin
hallada.

29.- Responda razonadamente las siguientes cuestiones:

Si la media y la varianza de la variable X son 10 y 36


respectivamente, es el coeficiente de variacin de Pearson mayor que
1?
Es posible que Sx sea mayor que 4 si Sxy=4 y Sy2 = 0,9?
Si a una variable se le multiplica por dos y despus se le suma 5 que
le ocurre a la media?Qu le ocurre a la varianza?
Si una variable toma nicamente los valores uno y menos uno Cul
sera su media?Cul sera su varianza?

30.- Una empresa quiere realizar un estudio sobre la influencia de las


campaas publicitarias en sus cifras de ventas. Para ello dispone del gasto
destinado a publicidad y sus ventas en los ltimos cinco aos:
Aos
2000
2001
2002
2003
2004

Gastos publicidad
(Millones de Euros)
2,5
2,8
2,9
3,1
3,5

Ventas
(Millones de Euros)
200
221
230
239
248

Obtenga la recta de regresin que permita predecir las


ventas a partir de los gastos en publicidad
Prediga las ventas para el ao 2005 si se piensa invertir en
publicidad 4.000.000 de Euros.
Juzgue la bondad del modelo y la fiabilidad de la prediccin
realizada.

32

31.-Calcular los tres cuartiles de las dos distribuciones siguientes:


Xi
2
3
8
12
15

fi
8
10
12
6
3

Li-1-Li
5-10
10-15
15-20
20-30

fi
6
7
10
9

Calcular tambin estas medidas grficamente en ambos casos


Calcula la Moda en la segunda distribucin.

32.- Dada la variable X , que toma los valores 2, 4, 20 y 24.

Hallar la media y la varianza de los valores de esa variable


tipificados.
Hallar la media y la varianza de la variable Y= 2X + 5
Hallar el coeficiente de variacin de la variable X y de la variable
Y e interpretar el resultado.
Si a todos los valores de la variable X se les resta 2Cul sera la
media y la varianza de la nueva variable?

33.- La Empresa YOGULIN encarga permanentemente estudios de mercado


para decidir cul de sus productos yoghurt requiere ser modificado,
mayor publicidad o ser retirado del mercado. Como estudio preliminar
se determina el volumen de ventas mensual en miles de unidades. Los
datos del ltimo mes son:
Tipo de yoghurt
Unidades vendidas
-----------------------------------------------------Diet
----Batido
72000
Gold
32000
Requetegurt
56000

33

Uno+Dos

44000

Se sabe que el 15% de las ventas del ltimo mes corresponden al


yoghurt Diet.
a) Cuntas unidades del yoghurt Diet se vendieron el ltimo mes?.
b) Construya una tabla de frecuencias completa para las ventas del
ltimo mes.
c) Represente grficamente los datos.
d) Es el yoghurt Diet la clase modal?.
34.- Los siguientes datos corresponden al consumo mensual de energa elctrica, en
de 60 familias :

Kw/h,

55 58 59 57 56 59 61 56 58 55 56 57 62 63 59 60 62 59 60 58 59 61
60 58 54 64 58 61 63 56 60 58 56 60 59 61 59 57 59 59 61 55 61 55
60 57 63 60 57 61 62 60 58 55 58 59 54 62 57 65
a) Presente los datos en una tabla de frecuencias y represntelos en un grfico
b) Determine moda, mediana y media.
c) Determine varianza, desviacin standard y desviacin media.
d) Qu porcentaje de las familias consume menos de 58 Kw/h ?.

35.- Se consulta a dos grupos distintos de televidentes respecto a la calidad de los


comerciales. Sus opiniones aparecen resumidas en la siguiente tabla:
Calidad de los
Nmero de Personas
Comerciales
Grupo I
Grupo II
----------------------------------------------------------------Muy Malos
8
8
Regulares
14
14
Buenos
5
8
Muy Buenos
3
5
Compare la actitud de los grupos hacia los comerciales de T.V.

34

36.- Se da la siguiente tabla con respecto a la distribucin de los sueldos en la fbrica, que
posee dos plantas, A y B:
PLANTA A
PLANTA B
Sueldo mensual
% obreros
Sueldo mensual
obreros
(miles de um $)
(miles de um$)
---------------------------------------------------------------------------------------------------

10-12
12-14
14-16
16-18
18-20
20-25

15%
50%
20%
10%
4%
1%

8-11
11-14
14-17
17-20
20-23
23-28

100
200
480
100
80
40

a) Calcule la media, mediana, moda y desviacin estndar de los sueldos en cada


planta.
b) Compare los sueldos de ambas plantas.
c) Calcule el sueldo medio por obrero en la fbrica.
d) Qu medida representa mejor los sueldos en cada planta?. Explique.
e) Si los sueldos se reajustan en un 10% y cada obrero recibe adicionalmente un bono
de $15000, cules son la nueva media y desviacin estndar de los sueldos de los
obreros de toda la fbrica?
f) Suponga que usted requiere conocer el valor del coeficiente de variacin de los
sueldos de todos los trabajadores (1600) en total despus del reajuste. Cunto es
este valor?
NOTA: Suponga que en la Planta A existen 600 obreros.

37.- A fin de decidir cuntos mostradores de servicio se necesitarn en tiendas


que sern construidas en el futuro, una cadena de supermercados quiso obtener
informacin acerca del tiempo (en minutos) requerido para atender a los clientes.
Se registr la duracin de 60 casos:
3,6
1,1
1,4
0,6
1,1
1,6

1,9
1,8
0,2
2,8
1,2
1,9

2,1
0,3
1,3
2,5
0,8
5,2

0,3
1,1
3,1
1,1
1,0
0,5

0,8
0,5
0,4
0,4
0,9
1,8

0,2
1,2
2,3
1,2
0,7
0,3

1,0
0,6
1,8
0,4
3,1
1,1

1,4
1,1
4,5
1,3
1,7
0,6

1,8
0,8
0,9
0,8
1,1
0,7

1,6
1,7
0,7
1,3
2,2
0,6

a) Cul es la variable a analizar? Es cuantitativa o cualitativa?


b) Elaborar un diagrama de tallos y hojas con esos datos.
c) Organizarlos de la manera que le resulte ms conveniente (de forma simple
o en intervalos) y justificar la organizacin elegida.
d) Construir una distribucin de frecuencias absolutas y relativas.
e) Representar grficamente las frecuencias anteriores mediante un
histograma y un polgono de frecuencias.

35

38.- A continuacin se presenta un polgono de frecuencias absolutas


correspondiente a los tiempos de demora (en minutos) en atencin al pblico
para 60 trmites:
Polgono de frecuencias absolutas
25

trmites

20

20

15

15

10

10

10

0
0

0
2

10

12

14

minutos

a) Cul es la variable? Cul es el tipo?


b) Construir una distribucin de frecuencias absolutas.
c) Construir una distribucin de frecuencias acumuladas crecientes y
representarla grficamente.
d) Cuntos trmites tienen un tiempo de demora inferior a 4 minutos?
e) Qu porcentaje de trmites tiene un tiempo de demora superior o igual a 8
minutos?
f) Cunto tiempo de demora hubo para los primeros 40 trmites?

36

39.- Un banco determin el tiempo (en minutos) que permanecen 70 de sus clientes
frente a dos de sus cajeros automticos ms frecuentados, transcribiendo la
informacin en las siguientes ojivas:
Ojivas
80
70
60

personas

50
40
30
20
10
0
1

tiempo (en minutos)

cajero A

cajero B

a) Cuntos clientes que frecuentan el cajero A tardan menos de 3 minutos?


b) Qu porcentaje de clientes que frecuentan el cajero B tarda 5 o ms
minutos?
c) Cuntos clientes que frecuentan el cajero A tardan entre 2 y 3 minutos?
d) Cunto tiempo tardan los 50 clientes del cajero B que tardan menos?
e) Cul de los dos cajeros tienen ms clientes que tardan menos de 4
minutos?
f) Cuntos clientes de cada cajero tardan menos de 2 minutos o ms de 5?
g) Reconstruir la distribucin de frecuencias absolutas para cada cajero.

40.-El siguiente cuadro muestra la distribucin de ingresos de obreros en la


Ciudad A:
Ingresos miles
de $
250 X < 500
500 x < 1000
1000 x < 2000
2000 x < 2500
2500 X < 3250

a)
b)
c)
d)

Cantidad de
obreros
10
40
50
30
20

Fa
10
50
100
130
150

Graficar la distribucin de los ingresos.


Con qu indicador de posicin podra representarla? Hallar y justificar.
dem para la dispersin.
Para futuros estudios se requiere una distribucin que tenga tres intervalos
de igual amplitud, determine dicha disribucin.

37

41.- La siguiente tabla muestra distintas tasas de inters, en las ltimas 5


semanas, de tres financieras diferentes (A, B y C). Si se busca aqulla en la cual la
tasa de inters flucte lo menos posible, qu financiera elegira?
Semana
1
2
3
4
5

A
0,05
0,12
0,60
0,55
0,25

Financiera
B
0,35
0,24
0,12
0,65
0,39

C
0,05
0,08
0,09
0,15
0,01

42.- En la siguiente tabla se muestran los gastos de publicidad (en millones de


dlares) y los embarques (en millones de barriles) para 10 marcas principales de
cerveza.

Utilizando excel
a) Realizar un anlisis descriptivo para la variable Gastos de publicidad.
Escribir un pequeo informe que contenga: indicadores de posicin y
dispersin y una breve conclusin sobre la distribucin de los datos.
b) dem para la variable Embarques.
Marca
Budweiser
Bud Light
Miller Lite
Coors Light
Busch
Natural Light
Miller Genuine Draft
Miller High Life
Busch Light
Milwaukees Best

Gastos de publicidad
120
68,7
100,1
76,6
8,7
0,1
21,5
1,4
5,3
1,7

Embarques
36,3
20,7
15,9
13,2
8,1
7,1
5,6
4,4
4,3
4,3

43.- En una ciudad existen 3 grandes plantas de fabricacin de automviles: A, B y


C, cada una con 50 empleados. En cada una de estas plantas se registr el salario
de cada uno de los empleados. En la tabla siguiente, se muestran los valores de los
indicadores de posicin y dispersin calculados para cada conjunto de datos:

A
B
C

Media

Mediana

Cuartil 1

Cuartil 3

$ 550
$ 1200
$ 1300

$ 510
$ 1000
$ 600

$ 505
$ 800
$ 550

$ 515
$ 1500
$ 2400

Valor
mn.
$ 500
$ 500
$ 500

Valor
mx.
$ 2500
$ 2500
$ 2500

Desv.
estndar
$ 280
$ 500
$ 900

N
50
50
50

a) Realizar un polgono de frecuencias aproximado para los ingresos en cada


una de las plantas de automviles. Compararlos y sacar conclusiones.

38

b) Realizar un boxplot (Investigar sobre este tema) para los ingresos en cada
una de las plantas de automviles. Compararlos y sacar conclusiones.
c) Si recibiera una propuesta para trabajar en alguna de estas 3 plantas y te
aseguraran que vas a estar entre el 50% de los que menos cobran, en qu
planta elegiras trabajar y por qu?
d) Si recibiera una propuesta para trabajar en alguna de estas 3 plantas y te
aseguraran que vas a estar entre el 25% de los que ms cobran, en qu
planta elegiras trabajar y por qu?
e) En cul de las 3 plantas se observa una menor variabilidad de salarios (con
respecto a la media)?. Justificar.
f) En cul o cules de las 3 plantas de fabricacin de automviles el salario
promedio no es representativo de los salarios de los 50 empleados? En ese
caso, con qu indicadores resumiras la informacin? Justificar.

44.- Se muestran los gastos de publicidad (en millones de dlares) y los embarques
(en millones de barriles) para 10 marcas principales de cerveza:
Marca
Budweiser
Bud Light
Miller Lite
Coors Light
Busch
Natural Light
Miller Genuine Draft
Miller High Life
Busch Light
Milwaukees Best

Gastos de publicidad
120
68,7
100,1
76,6
8,7
0,1
21,5
1,4
5,3
1,7

Embarques
36,3
20,7
15,9
13,2
8,1
7,1
5,6
4,4
4,3
4,3

a) Cules son las variables medidas sobre cada marca de cerveza? Cul es el
tipo de tales variables?
b) Trazar un diagrama de dispersin para estos datos, con gastos de
publicidad como variable independiente.
c) Calcular e interpretar la covarianza.
d) Calcular e interpretar los coeficientes de correlacin y determinacin.
e) Determinar la recta de regresin e interpretar sus parmetros. Cul es el
poder explicativo del modelo (bondad de ajuste)?

39

Potrebbero piacerti anche