Sei sulla pagina 1di 66

Estadstica I

Profesor de teora:
Andrs M. Alonso
Despacho 10.1.32
E. Mail: andres.alonso@uc3m.es
Web: www.est.uc3m.es/amalonso
Web docente: http://www.est.uc3m.es/amalonso/esp/docencia.html

Profesores de prctica:
Concepcin Molina (Grupo 30)
Javier Reques (Grupo 31)
Natalia Fojo (Grupo 32)
1

Estadstica I
Temario de la asignatura

Anlisis de datos univariantes.

Anlisis de datos bivariantes.

Probabilidad.

Variables aleatorias multidimensionales.

Distribuciones muestrales.

Estimacin puntual.

Estimacin por intervalos.

Contrastes de hiptesis.
2

Estadstica I
Bibliografa bsica
Newbold, P., Carlson, W.L. y Thorne, B. (2008)
Estadstica para Administracin y Economa,
Editorial Prentice Hall, Madrid.
Pea, D. (2001) Fundamentos de Estadstica, Alianza
Editorial, Madrid.
Pea, D. y Romo, J. (1997) Introduccin a la
Estadstica para las Ciencias Sociales, Editorial
McGraw Hill, Madrid.
3

Estadstica I
Bibliografa complementaria
Levin, R.I. y Rubin, D.S. (2004) Estadstica para
Administracin y Economa, Editorial Prentice Hall,
Madrid.
Newbold, P. (2001) Estadstica para los Negocios y la
Economa, Editorial Prentice Hall, Madrid.
Martn Pliego, F.J. (2004) Introduccin a la Estadstica
Econmica y Empresarial, Thomson Editores,
Madrid.
Moore, D.S. (1998) Estadstica Aplicada Bsica,
Editorial Antoni Bosch, Barcelona.
4

Tema 1: Anlisis de datos univariantes


1. Introduccin
2. Representaciones y grficos



Tablas de frecuencias
Diagrama de barras, Diagrama de sectores, Histograma, y
Diagrama de caja

3. Resumen numrico




Medidas de localizacin
Medidas de dispersin
Medidas de forma

Lecturas recomendadas:
Captulos 1 al 3 del libro de Newbold, Carlson, y Thorne (2008).
Captulos 1 y 2 del libro de Pea (2001).
Captulos 1 al 5 del libro de Pea y Romo (1997).
5

Objetivos del tema

Despes de estudiar este tema, se podr:




Explicar las siguientes definiciones bsicas:


Poblacin frente a Muestra
Parmetro frente Estadstico
Estadstica Descriptiva frente a Estadstica Inferencial

Describir un muestreo aleatorio

Objetivos del tema

Despes de estudiar este tema, se podr:




Identificar tipos de datos y niveles de medidas.

Crear e interpretar grficos para describir variables categricas:




Distribucin de frecuencias, frecuencias absolutas y relativas,


diagrama de barras, diagrama de tartas.

Crear e interpretar grficos para describir variables numricas:




Distribucin de frecuencias, frecuencias absolutas y relativas,


frecuencias acumuladas absolutas y relativas, histograma,
diagrama de cajas.

Objetivos del tema

Despes de estudiar este tema, se podr:




Calcular e interpretar la media, mediana, y


moda de un conjunto de datos.
Calcular el rango, varianza, desviacin estndar,
y coeficiente de variacin e interpretar dichos
valores.
8

Definiciones bsicas


Una poblacin es la coleccin completa de todos los


elementos de inters que se investigan.


Una muestra es un subconjunto observado de la


poblacin


N representa el tamao de la poblacin

n representa el tamao muestral

Un parmetro es una caracterstica especfica de una


poblacin (fija)
Un estadstico es una caracterstica especfica de una
muestra (puede variar entre diferentes muestras)
9

Poblacin frente a muestra

Poblacin

a b cd
ef gh i jk l m n
o p q rs t u v w
x y
z

Valores calculados usando todos


los elementos de la poblacin se
llaman parmetros

Muestra

c
gi
o

r
y

n
u

Valores calculados usando los


elementos de la muestra se
llaman estadsticos
10

Ejemplos de poblaciones


Nombres de todos los votantes de la Unin


Europea
Ingresos de todas las familias que viven en
Getafe
Indice anual de las acciones en la bolsa de
Londres
Nota media de todos los estudiantes de la
universidad
11

Muestreo aleatorio

El muestreo aleatorio simple es un procedimiento


en el que



Cada miembro de la poblacin se elige al azar,


Cada miembro de la poblacin tiene la misma posibilidad
de ser elegido,
Cada posible muestra de n elementos tiene la misma
probabilidad de ser elegida

La muestra resultante se denomina muestra

aleatoria simple

12

Estadstica descriptiva e Inferencia estadstica

Dos ramas de la estadstica:




Estadstica Descriptiva


Recoger, resumir y procesar los datos para


transformar dichos datos en informacin

Inferencia Estadstica


Proporciona las bases para predicciones y


estimaciones para convertir la informacin en
conocimiento.
13

Tipos de variables o datos


Datos

Numricos

Categricos
Ejemplos:




Estado Civil
Es mayor de edad?
Color de Ojos
(Categoras definidas o
grupos)

Discretos
Ejemplos:

Continuos
Ejemplos:

Nmero de hijos

Defectos por hora


(recuento de
elementos)

Peso
Voltaje
(Caractersticas Medibles)
14

Niveles de medida
Diferencias entre
medidas, dado que
existen ceros
verdaderos
Diferencias entre
medidas pero no
existe un cero
verdadero
Categoras ordenadas
(rangos, orden, o
escalamientos)

Datos de Razn
Datos Cuantitativos

Datos de Intervalo

Datos Ordinales
Datos Cualitativos

Categoras (no hay


orden o direccin)

Datos Nominales
15

Representaciones y grficos


Datos en bruto en forma de listas no son


fciles de usar para tomar decisiones
Se necesita algn tipo de organizacin:
 Tablas
 Grficos
El tipo de grfico depende de la variable
que se va a resumir
16

Representaciones y grficos
Tcnicas que se presentan en este tema
Variables
Categricas
Distribucin Frecuencias
Diagrama de Barras
Diagrama de Tarta

Variables
Numricas
Distribucin Frecuencias
Histograma
Diagrama de Caja

17

Tablas y grficos para variables categricas


Datos
Categricos

Tabulacin Datos
Tabla
Distribucin
Frequencias

Graficos Datos

Diagrama
Barras

Diagrama
Tarta

18

Tabla de frecuencias
Resumir datos por categoras
Ejemplo: Pacientes de un Hospital segn Servicio
Indice
Clase

i=

Servicio
Hospital
Clase

ci

1,...,k
1
2
3
4
5 (=k)

Cardiologa
Emergencias

UCI
Maternidad
Ciruga

Nmero de Pacientes
Frequencia Absoluta
ni = nmero de
observaciones clase ci
1052
2245
340
552
4630

Proporcin de
Pacientes
Frequencia
Relativa
f i = ni / n
0.12
0.25
0.04
0.06
0.53

n1 + n2 +...+ nk = n = 8819 f1 +...+ fk = 1.00


19

Diagrama de Barras y de Sectores

Los Diagramas de Barras y los Diagramas


de Sectores o Tartas se usan a menudo
para datos cualitativos (categricos)
La altura de la barra, o el tamao de la
porcin de tarta, muestran la frecuencia o
porcentaje de cada categora
20

Ejemplo de Diagrama de Barras

Hospital Patients by Unit


5000
4000
3000
2000
1000

Surgery

Maternity

Intensive
Care

0
Emergency

1052
2245
340
552
4630

Cardiac
Care

Cardiac Care
Emergency
Intensive Care
Maternity
Surgery

Nmero
Pacientes

Number of
patients per year

Hospital
Unidad

21

Ejemplo de Diagrama de Sectores


Hospital
Unidad
Cardiac Care
Emergency
Intensive Care
Maternity
Surgery

Numero
Pacientes

% de
Total

1052
2245
340
552
4630

11.93
25.46
3.86
6.26
52.50

Hospital Patients by Unit


Cardiac Care
12%

Surgery
53%

(Porcentajes
se redondean
al valor ms
cercano)

Emergency
25%

Intensive Care
4%
Maternity
6%

22

Tablas y grficos para variables cuantitativas

Datos
Numricos
Distribuciones de
Frecuencias y
Distribuciones
Acumuladas
Histogramas
23

Distribucin de frecuencias

Qu es una Distribucin de Frecuencias?





Una distribucin de frecuencias es una tabla


que contiene agrupamientos en clases
(categoras o rangos en donde caen los datos)
y las frecuencias correspondientes con las que
se presentan los datos en cada clase o categora

24

Por qu usar tablas de frecuencias?

Una distribucin de frecuencias es una manera de


resumir los datos.
La distribucin condensa la lista de datos en bruto de
una forma ms til que

permite una interpretacin visual rpida de los datos

y permite la comparacin con otros conjuntos de datos

25

Intervalos y extremos de clase


 Cada clase de agrupamiento tiene, generalmente, la
misma anchura.
 Determinar la anchura de cada intervalo por:
A = anchura de intervalo =

Nmero mayor Nmero menor


Nmero deseado de intervalos





Usar al menos 5, pero no ms de 15-20 intervalos


Intervalos nunca solapan.
Se redondea la anchura de los intervalos para obtener los
extremos de ms facil manejo
26

Ejemplo de distribucin de frecuencias

Ejemplo: un fabricante de aislamientos


selecciona al azar 20 das de invierno y
recoge las temperaturas mximas diarias:
24, 35, 17, 21, 24, 37, 26, 46, 58, 30,
32, 13, 12, 38, 41, 43, 44, 27, 53, 27

27

Ejemplo de distribucin de frecuencias

Ordenar los datos en bruto en orden ascendente :


12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43,
44, 46, 53, 58.

Calcular el rango: 58 - 12 = 46

Seleccionar nmero de clases: 5 (usualmente entre 5 y 15)

Calcular anchura de intervalos: 10 (46/5 por lo que se redondea)

Determinar extremos de intervalos: 10 pero menos que 20, 20


pero menos que 30, . . . , 60 pero menos que 70
Contar las observaciones y asignarlas a las clases.

28

Ejemplo de distribucin de frecuencias


Datos ordenados:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Intervalos

10 y menos que 20
20 y menos que 30
30 y menos que 40
40 y menos que 50
50 y menos que 60
Total

Frecuencias

3
6
5
4
2
20

Freq.
Relativas

.15
.30
.25
.20
.10
1.00

Porcentaje

15
30
25
20
10
100
29

Histograma

El grfico de los datos en una distribucin de frecuencias


se llama un histograma.
Los extremos de intervalos aparecen en el eje
horizontal.
El eje vertical representa frecuencias, frecuencias
relativas, porcentajes.
Se usan barras de alturas adecuadas para representar el
nmero de observaciones dentro de cada clase.

30

Ejemplo de Histograma

Intervalo

Frecuencia

His togram : Daily High Te m pe rature


3
6
5
4
2

2
1

(Sin huecos
entre barras)

6
Frequency

10 y menos que 20
20 y menos que 30
30 y menos que 40
40 y menos que 50
50 y menos que 60

0
0

10
20 30 40
50
Temperature in Degrees

60
31

Cmo agrupar los datos?

Cuantas clases deben usarse?




Si n no es demasiado grande tomar n, en


caso contrario tomar 1+3.22 ln(n)
A menudo se responde por prueba y error,
sujeto al juicio del investigador
El objetivo es crear una distribucin que no
sea ni demasiado dentada ni demasiado en

bloques


El objetivo es mostrar apropiadamente el


patrn de variacin de los datos.
32

Cuantos intervalos de clase?


3

2
1.5
1
0.5
60

More

56

52

48

44

40

36

32

28

24

20

16

12

Temperature

Pocos (Intervalos de clase


Anchos)

12
10
Frequency

Puede comprimir mucho la variacin y


originar una distribucin en bloque.
Puede oscurecer patrones
importantes de variacin.

2.5

Puede dar lugar a una distribucin


dentada con huecos de clases vacas
Puede ocultar cmo vara la
frecuencia entre las clases

3.5

Frequency

Muchos (Intervalos de clase


Estrechos)

8
6
4
2
0
0

30

60

More

Temperature

33

Distribucin de frecuencias acumuladas


Datos ordenados:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Clase

Frecuencia Porcentaje

Frecuencia Porcentaje
Acumulada Acumulada

10 y menos que 20

15

15

20 y menos que 30

30

45

30 y menos que 40

25

14

70

40 y menos que 50

20

18

90

50 y menos que 60

10

20

100

20

100

Total

34

Forma de la distribucin
La forma de la distribucin se dice que es
simtrica si las observaciones estn
equilibradas, o distribuidas simtricamente
respecto al centro.

Frequency

Symmetric Distribution
10
9
8
7
6
5
4
3
2
1
0
1

35

Forma de la distribucin
La forma de la distribucin se dice que es asimtrica
si las observaciones NO estn equilibradas, o
distribuidas simtricamente respecto al centro.
Positively Skewed Distribution
12
10
Frequency

Una distribucin asimtrica positiva


(asimtrica a la derecha) tiene una
cola que se extiende a la derecha en
direccin de los valores positivos.

8
6
4
2
0
1

Negatively Skewed Distribution


12
10
Frequency

Una distribucin asimtrica negativa


(asimtrica a la izquierda) tiene una
cola que se extiende a la izquierda
en direccin de los valores negativos.

8
6
4
2
0
1

36

Resumen numrico
Descripcin numrica de datos

Tendencia Central

Variacin

Media Aritmtica

Rango

Mediana

Rango Intercuartlico

Moda

Varianza
Desviacin estndar
Coeficiente de Variacin
37

Medidas de tendencia central


Tendencia Central

Media

Mediana

Moda

x
x=

i=1

Media
Aritmtica

Punto central
de los valores
ordenados

Valor observado
ms frecuente

38

Media aritmtica
La media aritmtica (media) es la medida ms
comn de tendencia central
Para una poblacin de N valores:
N

x1 + x 2 + + x N
=
=
N
N
i=1

Valores
Poblacin

Tamao Poblacin

Para una muestra de n valores:


n

x
x=

i=1

Valores
observados

x1 + x 2 + + x n
=
n
Tamao muestra

39

Media aritmtica
Es la medida ms comn de tendencia central
Es una medida de fcil clculo
Afectada por valores extremos (outliers)

0 1 2 3 4 5 6 7 8 9 10

Media = 3
1 + 2 + 3 + 4 + 5 15
=
=3
5
5

0 1 2 3 4 5 6 7 8 9 10

Media = 4
1 + 2 + 3 + 4 + 10 20
=
=4
5
5
40

Mediana
En una lista ordenada, la mediana es valor
central (50% por encima, 50% por debajo)
0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

No resulta afectada por valores extremos

41

Clculo de la mediana
La localizacin de la mediana:

Posicin Mediana =

n +1
posicin en los datos ordenados
2

Si el nmero de valores es impar, la mediana es la observacin


central
Si el nmero de valores es par, la mediana es la media de las
dos observaciones centrales

n +1
no es el valor de la mediana, slo es
2
la posicin de la mediana en los datos ordenados

Ntese que

42

Moda

Es una medida de tendencia central


Valor que aparece ms en la muestra
No afectada por valores extremos
Usada para valores numricos o categricos
Puede no haber una moda
Puede haber varias modas

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Moda = 9

0 1 2 3 4 5 6

Sin Moda
43

Ejemplo
Cinco casas en una colina cerca de la playa
$2,000 K

Precios Casas:
2.000.000
500.000
300.000
100.000
100.000

$500 K
$300 K

$100 K
$100 K
44

Ejemplo
Precios Casas:
2.000.000
500.000
300.000
100.000
100.000
Suma 3.000.000

Media:

(3.000.000/5)
= 600.000

Mediana: valor medio de los datos


ordenados
= 300.000
Moda: valor ms frecuente
= 100.000
45

Cual es la mejor medida de centralidad?

Media: se usa generalmente, salvo que existan


valores extremos (outliers).
En ese caso se usa la mediana, porque no es
sensible a valores extremos.
 Ejemplo: Mediana de los precios de inmuebles
para una regin: es menos sensible a outliers.

46

Forma de la distribucin
Describe cmo se distribuyen los datos
Medidas de forma
Simtrica o asimtrica
Asim. Izquierda
Media < Mediana

Simtrica

Asim. Derecha

Media = Mediana

Mediana < Media

47

Medidas de variacin
Variacin
Rango

Rango
Intercuartlico

Varianza

Desviacin
estndar

Coeficiente
de Variacin

Las medidas de variacin


dan informacin sobre la
dispersin o variabilidad
de los datos.
Mismo centro,
diferente variacin

48

Rango
Medida ms simple de variacin
Diferencia entre la mayor y la menor de las
observaciones:

Rango = Xmayor Xmenor


Ejemplo:
0 1 2 3 4 5 6 7 8 9 10 11 12

13 14

Rango = 14 - 1 = 13
49

Desventajas del rango


Ignora el modo en el que se distribuyen los datos
7

10

11

12

Rango = 12 - 7 = 5

10

11

12

Rango = 12 - 7 = 5

Muy sensible a outliers


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Rango = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Rango = 120 - 1 = 119
50

Rango intercuartlico
Se pueden eliminar algunos problemas de
outliers usando el rango intercuartlico
Elimina valores muy grandes y muy pequeos
calculando el rango de la parte central formada
por el 50% de los datos
Rango Intercuartlico = 3er cuartil 1er cuartil
IQR = Q3 Q1
51

Rango intercuartlico

Ejemplo:
X

mnimo

Q1

25%

12

Mediana
(Q2)
25%

30

25%

45

Q3

mximo

25%

57

70

Rango Intercuartlico
= 57 30 = 27
52

Cuartiles
Cuartiles dividen los datos ordenados en 4 segmentos
con igual nmero de valores por segmento
25%

25%
Q1

25%
Q2

25%
Q3

Primer cuartil, Q1, es el valor tal que el 25% de las


observaciones son menores y el 75% son mayores
Q2 es la mediana (50% son menores, 50% son
mayores)
Slo el 25% de las observaciones son mayores que el
tercer cuartil
53

Clculo de los cuartiles




Calcular un cuartil determinando el valor en la posicin


adecuada en los datos ordenados:

Posicin primer cuartil :

Q1 = 0.25(n+1)

Posicin segundo cuartil:

Q2 = 0.50(n+1)

Posicin tercer cuartil:

Q3 = 0.75(n+1)

donde n es el nmero de valores observados

54

Clculo de los cuartiles


Ejemplo: Calcular el primer cuartil
Datos Muestrales Ordenados: 11 12 13 16 16 17 18 21 22

Q1 = est en la posicin 0.25(9+1) = 2.5 de los datos


ordenados
As, se usa el valor intermedio entre los valores 2o y 3ero :
Q1 = 12.5
55

Varianza poblacional
Media de las desviaciones al cuadrado de los
valores a la media
N

(x
2

=
donde

i =1

= media poblacin
N = tamao poblacin
xi = iesimo valor de la variable x
56

Varianza muestral
Promedio de las desviaciones al cuadrado de
los valores a la media
n

(x

Varianza Muestral:
2

s =
donde

x)

i =1

n -1

x = media aritmtica
n = tamao muestral
xi= iesimo valor de la variable x
57

Desviacin estndar poblacional

Medida de variacin ms comnmente usada


Muestra la variacin alrededor de la media
Tiene las mismas unidades de medida que los
datos originales
N

(x
=

i =1

N
58

Desviacin estndar muestral

La medida de variacin usada ms comn


Muestra la variacin respecto a la media
Tiene las mismas unidades de medida que los
datos originales
n

2
(x

x
)
i

s=

i =1

n -1
59

Medida de variacin

Desviacin estndar pequea

Desviacin estndar grande

60

Ejemplo
Datos
Muestrales (xi): 10

12

14

15

n=8
s =

17

18

18

24

Media = x = 16

(10 - x ) 2 + (12 x ) 2 + (14 x ) 2 + + (24 x ) 2


n -1
(10 16)

126
7

+ (12 16)

4 . 2426

+ (14 16)
7

+ + (24 16)

Medida del promedio de la


dispersin alrededor de la media
61

Clculo de la desviacin estndar




SC = Suma de Cuadrados:
n

SC(x) = (x i x) = x nx
2

i =1

2
i

i =1

x
s=

2
i

nx

i =1

n -1
62

Comparacin de desviaciones estndar


Datos A
11

12

13

14

15

16

17

18

19

20 21

Media = 15.5
s = 3.122

20 21

Media = 15.5
s = 0.866

20 21

Media = 15.5
s = 4.275

Datos B
11

12

13

14

15

16

17

18

19

Datos C
11

12

13

14

15

16

17

18

19

63

Ventajas de la varianza y de la desviacin estndar

Se usan todos los valores del conjunto de


datos en los clculos.
A los valores alejados de la media se les
asigna un peso extra (porque las
desviaciones a la media se elevan al cuadrado)

64

Coeficiente de variacin
Medida de la variacin relativa
Se expresa en porcentaje (%)
Muestra la variacin relativa respecto a la media
Se puede usar para comparar dos o ms conjuntos de
datos, medidos en diferentes unidades

s
100%
CV =
x
65

Comparacin de coeficientes de variacin


Stock A:
Precio medio ltimo ao = 50
Desviacin estndar = 5

s
CVA =
x

5
100% = 10%
100% =
50

Stock B:
Precio medio ltimo ao = 100
Desviacin estndar = 5

s
CVB =
x

5
100% = 5%
100% =
100

Ambos stocks
tienen la misma
desviacin
estndar, pero
el stock B es
menos variable
en relacin a su
precio

66

Potrebbero piacerti anche