Sei sulla pagina 1di 18

Introduccin a la estadstica

Para qu sirve la estadstica?


La Ciencia se ocupa en general de fenmenos observables
La Ciencia se desarrolla observando hechos, formulando leyes que los
explican y realizando experimentos para validar o rechazar dichas
leyes
Los modelos que crea la ciencia son de tipo determinista o aleatorio
(estocstico)
La Estadstica se utiliza como tecnologa al servicio de las
ciencias donde la variabilidad y la incertidumbre forman parte de su
naturaleza
La Bioestadstica [...] ensea y ayuda a investigar en todas las
reas de las Ciencias de la Vida donde la variablidad no es la
excepcin sino la regla
Carrasco de la Pea (1982)
2

Definicin
La Estadstica es la Ciencia de la
Sistematizacin, recogida, ordenacin y
a
v
i
presentacin
de los datos referentes a un
t
p
ri fenmeno que presenta variabilidad o incertidumbre
c
s
e
para su estudio metdico, con objeto de
D
deducir
las leyes que rigen esos fenmenos,
d

a
d
i
il
b
a
b
o
Pr

y poder de esa forma hacer previsiones sobre los


ia
mismos,
tomar decisiones u obtener
c
n
re conclusiones.
e
f

In

Pasos en un estudio estadstico

Plantear hiptesis sobre una poblacin

Decidir qu datos recoger (diseo de experimentos)

Qu individuos pertenecern al estudio (muestras)

Estratificado? Sistemticamente?

Describir (resumir) los datos obtenidos

tiempo medio de baja en fumadores y no (estadsticos)


% de bajas por fumadores y sexo (frecuencias), grficos,...

Realizar una inferencia sobre la poblacin

Nmero de bajas
Tiempo de duracin de cada baja
Sexo? Sector laboral? Otros factores?

Recoger los datos (muestreo)

Fumadores y no fumadores en edad laboral.


Criterios de exclusin Cmo se eligen? Descartamos los que padecen enfermedades
crnicas?

Qu datos recoger de los mismos (variables)

Los fumadores tienen ms bajas laborales que los no fumadores


En qu sentido? Mayor nmero? Tiempo medio?

Los fumadores estn de baja al menos 10 das/ao ms de media que los no fumadores.

Cuantificar la confianza en la inferencia

Nivel de confianza del 95%


Significacin del contraste: p=2%
4

Mtodo cientfico y estadstica

Plantear
hiptesis

Disear
experimento

Obtener
conclusiones

Recoger datos
y analizarlos

Poblacin y muestra

Poblacin (population) es el conjunto sobre el que


estamos interesados en obtener conclusiones (hacer
inferencia).
Normalmente es demasiado grande para poder
abarcarlo.

Muestra (sample) es un subconjunto suyo al que


tenemos acceso y sobre el que realmente hacemos las
observaciones (mediciones)
Debera ser representativo
Esta formado por miembros seleccionados de la
poblacin (individuos, unidades experimentales).

Variables
Una variable es una caracterstica observable que vara entre
los diferentes individuos de una poblacin. La informacin que
disponemos de cada individuo es resumida en variables.

En los individuos de la poblacin espaola,


de uno a otro es variable:
El grupo sanguneo
{A, B, AB, O} Var. Cualitativa

Su nivel de felicidad declarado


{Deprimido, Ni fu ni fa, Muy Feliz} Var. Ordinal

El nmero de hijos
{0,1,2,3,...} Var. Numrica discreta

La altura
{162 ; 174; ...} Var. Numrica continua

Tipos de variables
Cualitativas
Si sus valores (modalidades) no se pueden asociar naturalmente a un
nmero (no se pueden hacer operaciones algebraicas con ellos)
Nominales: Si sus valores no se pueden ordenar
Sexo, Grupo Sanguneo, Religin, Nacionalidad, Fumar (S/No)

Ordinales: Si sus valores se pueden ordenar


Mejora a un tratamiento, Grado de satisfaccin, Intensidad del dolor

Cuantitativas o Numricas
Si sus valores son numricos (tiene sentido hacer operaciones
algebraicas con ellos)
Discretas: Si toma valores enteros
Nmero de hijos, Nmero de cigarrillos, Num. de cumpleaos

Continuas: Si entre dos valores, son posibles infinitos valores intermedios.


Altura, Presin intraocular, Dosis de medicamento administrado, edad
8

Es buena idea codificar las


variables como nmeros para
poder procesarlas con facilidad en
un ordenador.
Es conveniente asignar etiquetas
a los valores de las variables para
recordar qu significan los cdigos
numricos.
Sexo (Cualit: Cdigos arbitrarios)

1 = Hombre
2 = Mujer

Raza (Cualit: Cdigos arbitrarios)

1 = Blanca
2 = Negra,...

Felicidad Ordinal: Respetar un


orden al codificar.

Se pueden asignar cdigos a


respuestas especiales como

1 = Muy feliz
2 = Bastante feliz
3 = No demasiado feliz

0 = No sabe
99 = No contesta...

Estas situaciones debern ser


tenidas en cuentas en el anlisis.
Datos perdidos (missing data)
9

Aunque se codifiquen como nmeros, debemos recordar


siempre el verdadero tipo de las variables y su significado
cuando vayamos a usar programas de clculo estadstico.
No todo est permitido con cualquier tipo de variable.

10

Los posibles valores de una variable suelen denominarse


modalidades.
Las modalidades pueden agruparse en clases (intervalos)
Edades:

Menos de 20 aos, de 20 a 50 aos, ms de 50 aos

Hijos:
Menos de 3 hijos, De 3 a 5, 6 o ms hijos

Las modalidades/clases deben forman un sistema exhaustivo y


excluyente
Exhaustivo: No podemos olvidar ningn posible valor de la variable
Mal: Cul es su color del pelo: (Rubio, Moreno)?
Bien: Cul es su grupo sanguneo?

Excluyente: Nadie puede presentar dos valores


simultneos de la variable
Estudio sobre el ocio

Mal: De los siguientes, qu le gusta: (deporte, cine)


Bien: Le gusta el deporte: (S, No)
Bien: Le gusta el cine: (S, No)
Mal: Cuntos hijos tiene: (Ninguno, Menos de 5, Ms de 2)
11

Presentacin ordenada de datos


Gnero

Frec.

Hombre

Mujer

Las tablas de frecuencias y las representaciones


grficas son dos maneras equivalentes de presentar
la informacin. Las dos exponen ordenadamente la
informacin recogida en una muestra.
12

Tablas de frecuencia

Exponen la informacin recogida en la muestra, de forma que no se pierda nada


de informacin (o poca).
Frecuencias absolutas: Contabilizan el nmero de individuos de cada modalidad
Frecuencias relativas (porcentajes): Idem, pero dividido por el total
Frecuencias acumuladas: Slo tienen sentido para variables ordinales y numricas

Muy tiles para calcular cuantiles (ver ms adelante)

Qu porcentaje de individuos tiene menos de 3 hijos? Sol: 83,8


Entre 4 y 6 hijos? Soluc 1: 8,4%+3,6%+1,6%= 13,6%. Soluc 2: 97,3% - 83,8% = 13,5%
Nivel de felicidad

Vlidos

Perdidos
Total

Muy feliz
Bastante feliz
No demasiado feliz
Total
No contesta

Frecuencia
467
872
165
1504
13
1517

Porcentaje
30,8
57,5
10,9
99,1
,9
100,0

Nmero de hijos
Porcentaje
vlido
31,1
58,0
11,0
100,0

Porcentaje
acumulado
31,1
89,0
100,0

Vlidos

Sexo del encuestado

Vlidos

Hombre
Mujer
Total

Frecuencia
636
881
1517

Porcentaje
41,9
58,1
100,0

Porcentaje
vlido
41,9
58,1
100,0

Perdidos
Total

0
1
2
3
4
5
6
7
Ocho o ms
Total
No contesta

Frecuencia
419
255
375
215
127
54
24
23
17
1509
8
1517

Porcentaje
27,6
16,8
24,7
14,2
8,4
3,6
1,6
1,5
1,1
99,5
,5
100,0

Porcentaje
vlido
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcentaje
acumulado
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

13

Datos desordenados y ordenados en


tablas
Variable: Gnero
Modalidades:

H = Hombre
M = Mujer

Gnero Frec.

Frec. relat.
porcentaje

Hombre 4

4/10=0,4=40%

Mujer

6/10=0,6=60%

6
10=tamao
muestral

Muestra:
MHHMMHMMMH
equivale a
HHHH MMMMMM
14

Ejemplo
Cuntos individuos tienen
menos de 2 hijos?
frec. indiv. sin hijos
+
frec. indiv. con 1 hijo
= 419 + 255
= 674 individuos
Qu porcentaje de
individuos tiene 6 hijos o
menos?
97,3%
Qu cantidad de hijos es tal
que al menos el 50% de la
poblacin tiene una
cantidad inferior o igual?
2 hijos

Nmero de hijos

0
1
2
3
4
5
6
7
Ocho+
Total

Frec.
419
255
375
215
127
54
24
23
17
1509

Porcent.
(vlido)
27,8
16,9
24,9
14,2
8,4
3,6
1,6
1,5
1,1
100,0

Porcent.
acum.
27,8
44,7
69,5
83,8
92,2
95,8
97,3
98,9
100,0

50%

15

Grficos para v. cualitativas

Diagramas de barras
Alturas proporcionales a las frecuencias (abs.
o rel.)
Se pueden aplicar tambin a variables
discretas

Diagramas de sectores (tartas, polares)


No usarlo con variables ordinales.
El rea de cada sector es proporcional a su
frecuencia (abs. o rel.)

Pictogramas
Fciles de entender.
El rea de cada modalidad debe ser
proporcional a la frecuencia. De los dos, cul
es incorrecto?.

Bioestadstica. U. Mlaga.

16

Grficos diferenciales para variables numricas


419
400

Son diferentes en funcin de que


las variables sean discretas o
continuas. Valen con frec. absolutas
o relativas.

300

255
215
200

127
100

54
24
0

Diagramas barras para v. discretas


Se deja un hueco entre barras para
indicar los valores que no son posibles

375

23

17

7 Ocho o ms

Nmero de hijos

250

200

Histogramas para v. continuas


El rea que hay bajo el histograma
entre dos puntos cualesquiera indica la
cantidad (porcentaje o frecuencia) de
individuos en el intervalo.

150

100

50

20

40

60

80

Edad del encuestado

17

Diagramas integrales

Cada uno de los anteriores diagramas tiene su correspondiente diagrama integral. Se


realizan a partir de las frecuencias acumuladas. Indican, para cada valor de la variable, la
cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. No los
construiremos en clase. Se pasan de los diferenciales a los integrales por integracin y a
la inversa por derivacin (en un sentido ms general del que visteis en bachillerato.)

18