Sei sulla pagina 1di 54

Predicción y Estadística

Jornadas de Estadística 2007


IIMAS

9 de mayo

Dr. Ignacio Méndez Ramírez


IIMAS UNAM
Panorama de la Plática
• Extrapolación - predicción
• Causalidad. Conceptos
• Modelos.
• Aleatoriedad y probabilidad
• Cuatro ejemplos de modelos estadísticos,
con predicción
La palabra riesgo deriva del latín risicare, que significa
“atreverse”.
En este sentido, es una elección, antes que una suerte.
Las acciones que nos atrevemos a tomar,
dependen de que tan libres somos para efectuar
la elección.
El concepto de predecir posibles evoluciones de un
fenómeno, para escoger entre alternativas es inherente
al ser humano.

La expresión de la visión determinística: si conocemos


perfectamente el comportamiento de todas las
partículas que existe en el universo, podremos
predecir el futuro (Laplace)
¿Me
enfermaré
si como el
fruto rojo?
¿Me
enfermaré
si como el
fruto rojo?
Estudio unos pocos frutos “iguales”, se
los doy a comer a ratones, si se mueren
todos, concluyo “Todos los frutos
rojos son dañinos”. Me enfermaré si
como un fruto rojo
Estudio unos pocos frutos “iguales”, se
los doy a comer a ratones, se mueren 14%
de ellos, concluyo “Es poco probable que
me enferme si como el fruto rojo”
Estudio unos pocos frutos “iguales”, se
extrae un compuesto que interfiere con la
digestión en ratones. Concluyo “Esos
frutos rojos son dañinos” Me enfermaré
si como un fruto rojo
Estudio unos pocos frutos “iguales”, se los
doy a comer a ratones, se mueren 92% de
ellos, concluyo “Es probable que me
enferme, si como el fruto rojo”
Conocimiento

¿Me
enfermaré
si como un
fruto como
ese?
¿¿Me enfermaré si Extrapolación
“Predicción”
como un fruto rojo??
Dudas:
¿todos los frutos rojos semejantes son
indigestos? ¿influye el tamaño del
fruto?
¿el tono de rojo?
¿la época del año?
¿el tipo de árbol o arbusto?
¿la persona que lo consume?
etcétera.
¿Qué es ser semejante o “igual”?
Extrapolación

La Ciencia hace extrapolaciones y con


ellas predicciones.

Ejemplo de ello son las investigaciones


que se llevan a cabo con ciertos
elementos (enfermos de amibiasis,
fumadores empedernidos, plantas de
maíz, cajas de Petri con un medio para
crecer bacterias, etcétera), cuyas
conclusiones se aplican a otros
elementos semejantes a los estudiados.
Extrapolación

Elementos
Elementos semejantes
a los
estudiados
Extrapolación estudiados
Predicción
Poblaciones y
Muestras

Se puede considerar que lo


estudiado, o experiencia previa, es
una muestra de todo un conjunto
de otros elementos o nuevas
experiencias semejantes a los
estudiados.

Este conjunto no estudiado es la


población.
Poblaciones y
Muestras

Muestra Población
Extrapolación
Poblaciones y Muestras

¿ Es la Extrapolación(predicion) Válida?
Nos preguntamos:
¿la extrapolación no se equivoca?,
¿cómo hacer que no se equivoque?
La respuesta es sí , se puede
equivocar, pero frecuentemente no se
equivoca.
Poblaciones y
Muestras

Si se pueden encontrar leyes


deterministas que expresen relaciones
(necesarias y suficientes) entre
propiedades de las instancias estudiadas
(muestras),
muestras entonces:
se pueden aplicar los resultados o
conclusiones a todas las instancias
(población) no estudiadas aún, que
cumplan con las propiedades requeridas.
Poblaciones y
Muestras
Aquí están muchas leyes de la
naturaleza, principalmente inorgánicas,
como la física clásica, termodinámica
(macroscópica), etcétera.
Así la experiencia (traducida en leyes)
con ciertos planetas, se aplica a otros;
con ciertos gases se aplica a otros; con
ciertas moléculas se aplica a otras;
etcétera.
ALEATORIEDAD
No se puede predecir No hay modelos matemáticos
con certeza el resultado que liguen todos los
de un estudio o evento elementos del fenómeno
¿Por que hay aleatoriedad? Rechazar la
aleatoriedad.
1. Complejidad de los fenómenos y no se Einstein: “Diós no
conoce todos los aspectos y leyes juega dados”
involucradas, pero el mundo es determinado.
2. Hay aleatoriedad intrínseca. Admitir la
aleatoriedad.
3. Pequeños cambios de condiciones iniciales Heisenberg
tienen efectos muy grandes (t. Caos)
Bifurcaciones, atractores

Para estudiar fenómenos aleatorios se usa la probabilidad


Aleatoriedad e indeterminismo

Hay procesos o fenómenos en los que no se


pueden encontrar relaciones entre sus
propiedades, que sean necesarias y
suficientes.
Hay mucha variabilidad,
variabilidad hay indeterminismo.
indeterminismo
Se pueden encontrar ciertas “leyes” pero son
de naturaleza probabilística y no
determinística.
Aleatoriedad e
indeterminismo

Estas leyes nos permiten hacer


extrapolaciones, pero nunca son
seguras, siempre hay la posibilidad de
equivocarse.
La estadística lo que busca es que la
“probabilidad” de equivocarse sea
“pequeña”.
Aleatoriedad e
indeterminismo

Ejemplo:
Considere el esquema siguiente donde
se tienen datos de desarrollo de
enfermedad cardiovascular en 50,000
personas.
Aquí hay dos tipos de extrapolación,
una es a toda la población de la cual los
50,000 se consideran una muestra; y la
otra a una persona en el futuro que es
considerada un elemento tomado al
azar de la población.
Aleatoriedad e indeterminismo
muestra población
Se estudian 5,000 personas
Se tiene una población
de 40 años que fuman (20
de un millón de personas
cigarros al día o más) y
que fuman,semejantes a
con colesterol elevado. Se
las estudiadas.
encuentra que 15% de ellas extrapolación
Se espera “alrededor” de
desarrolla enfermedad
150,000 con enfermedad
cardiovascular antes de
cardiovascular antes de
cumplir 50 años.
los 50 años.

extrapolación

Una persona de 40 años que fuma, con


elemento colesterol elevado, semejante a los
estudiados, tiene una probabilidad de
0.15 de enfermedad cardiovascular antes
de cumplir 50 años.
Aleatoriedad e
indeterminismo

En la primera inferencia o extrapolación se


puede predecir con poco error cuántas
personas en ese millón desarrollarán la
enfermedad; en cambio en el caso de una
persona no se puede predecir con poco error,
únicamente se le asignan las probabilidades de
desarrollar la enfermedad de la población a que
pertenece.
En estos razonamientos es crucial la validez del
supuesto que las condiciones de la muestra
sean semejantes a las de la población o
individuo.
tiempo
Predicción: si se da esa configuración va a
ocurrir el efecto. La causalidad determinística
tiempo
Predicción: si se da esa configuración van a
ocurrir los efectos con ciertas probabilidades.
La causalidad probabilística
CAUSALIDAD
Ejemplos Pobreza Salud
Represión Agresión
Hipótesis Teórica. Un Educación Ingresos
concepto influye en otro(s)-
Conceptos o “Constructos” x y
X1 Y1

X2 Y2
Hipótesis Empírica (s)
X3 Y3
Relaciones entre
Indicadores de los X4 Y4
conceptos. ... ...

Xk Ym
CONCEPTOS DE CAUSALIDAD
Causalidad determinística
La causa es necesaria y
Trisomía Sx.
21 Down suficiente para el efecto. La
configuración del mundo está
X Y totalmente determinada por la
configuración anterior.

X Y Causa necesaria pero no


Amiba Amibiasis
suficiente

Deficiencia Fe Anemia
Causa suficiente pero no
X Y necesaria
CONCEPTOS DE CAUSALIDAD

Tabaquismo

X Y

Cáncer pulmonar

Causalidad probabilística
•Causa no necesaria ni suficiente
•Asociación estadística
•Las probabilidades de Y cambian al
cambiar X
Se decubren leyes que describen matemáticamente
las variables importantes de un proceso, sin incluir
consideraciones aleatorias. E=mc2 , f=ma,
mecánica clásica, ecuaciones diferenciales para muy
variados fenómenos, fluidos, dinámica poblacional,
etc.

No se encuentran leyes que sin incluir


consideraciones aleatorias, describan
matemáticamente a las variables del proceso. Se
encuentran modelos, pero ahora son probabilísticos
• Con un modelo matemático,
determinístico o probabilístico
podemos derivar consecuencias
siguiendo su lógica interna y en
esta medida, efectuar predicciones.
Estas siempre están sujetas a la
validez del modelo. En el caso de
los modelos probabilísticos, además
se debe tener una idea del grado
de incertidumbre en predicciones
individuales.
El uso de los modelos en el trabajo de
investigación se da de acuerdo al esquema:
2. Probabilidad clásica o de “juegos”
• La probabilidad de un
evento A es el cociente resultados _ con _ A
P ( A) =
del número de posibles resultados _ totales
resultados favorables al Espacio muestral: El
evento entre el número conjunto que comprende
total de resultados a todos los resultados
posibles. posibles
Supone un “espacio muestral” equiprobable. Todos los
posibles resultados son igualmente probables. Por
esto es “a priori” y “subjetiva”.
En el mundo no hay espacios equiprobables exactos.
2. Probabilidad clásica o de “juegos”
• Probabilidad de “águila” al lanzar una moneda es igual a ½,
que resulta de tener un caso favorable entre dos posibles.
• Probabilidad de un número mayor de 4 al lanzar un dado, es
2/6=1/3, ya que el 5 y el 6, dos resultados son mayores que
4, y hay 6 posibles resultados.
• Se dice que debe ser una moneda “ honesta “ o un dado
“honesto”. ¿Qué es esto? Que sean igualmente probables
los posibles resultados.
• ¿Hay dados y monedas honestos en el mundo?
• ¿Se aplica a aspectos biológicos, sociales, económicos, etc.
3.- MODELACION BASADA EN LA REGULARIDAD
ESTADISTICA
La regularidad estadística consiste en el hecho
universalmente observado ,que funciona como un supuesto
muy apoyado, que al estudiar un número grande de veces
un fenómeno en condiciones constantes (o casi ) las
proporciones en las que ocurren los posibles resultados son
muy estables (casi no cambian ) .
Es decir, no se puede predecir el resultado al estudiar uno o
unos pocos elementos, pero en conjuntos grandes de
elementos si es posible la predicción con poco error de las
proporciones o porcentajes con los que ocurren los diversos
resultados.
J. Bernoulli, Ars Conjectandi, 1713
Población muy grande o infinita o
Lim P │p-P│< ε = 1 un proceso que genera elementos
A
→∝
n→∝

Lim p=P
→∝
n→∝
P
La proporción de
ellos con A es p

La proporción de
p Liga con elementos con A es P
A representatividad
Muestra aleatoria
de n elementos de las muestras
REGULARIDAD ESTADISTICA EN VARIABLES DICOTOMICAS
1 × 1 × × 1 × ×
Fre(S)

×
p p .66 p
0 0 0
1 n 1 2 n 1 2 3 n
Pudo ocurrir
así o de otro
1 × × modo, es 1 × × pocos cambios
× impredecible × en la frecuencia
.66
p ×
Fre(S) p × × ... × × ×
.5
P(S)
0 0
1 2 3 4 n 1 2 3 4 100 ∞
Predecible
El valor en el que se estabilizan las proporciones se le
conceptualiza como la probabilidad de sobrevida para esos
pacientes con esa técnica quirúrgica, la población
REGULARIDAD ESTADÍSTICA
Al estudiar un fenómeno aleatorio muchas veces, en condiciones
casi constantes (población), los diferentes resultados ocurren con
una proporción estable.
A esa proporción le llamamos probabilidad de cada resultado.

... ...
¿Se muere el
paciente, dentro del La proporción de pacientes muertos
próximo año? es estable, en la población

En el futuro, el paciente se muere o no se


muere; si se llega a morir, se muere “todito”,
no el 32%.
¡Se le aplica a un elemento una característica
de la población a la que pertenece.!
Regularidad Estadística Variables Categóricas

Población de Autos

El auto durante el
recorrido de 80,000Km., 1
¿se descompone de 0.8
clutch, frenos, motor o Frenos P1
0.6 P2
P(F)
Clutch
no se descompone? 0.4 Motor P3
No
0.2
P4

Constancia de Proporciones = Probabilidades


Los diámetros del pecho de los soldados se modelan bien con una
distribución normal

X = Diámetro del pecho


α/2 =0.025 0.475 0.475
-4 -3 -2 -1 0 1 2 3 4

X
Regularidad estadística, base de la
probabilidad frecuentista
• Al estudiar un fenómeno muchas veces en condiciones
constantes o casi (la población), la frecuencia de los
posibles resultados es muy estable.
• La definición de los resultados de interés (espacio
muestral) y las condiciones de estudio (población) es
subjetiva, sin embargo, los valores en los que se
estabilizan las frecuencias relativas o probabilidades
son objetivos.
• Para entender, describir y predecir fenómenos
aleatorios, se pretende conocer esas probabilidades
Uso de modelos en la regularidad
estadística
Para describir, entender y predecir los fenómenos
aleatorios, frecuentemente se recure a postular
modelos probabilísticos.
Estos pueden haber surgido por tres vías:

f (x θ )
1. Experiencias empíricas previas.
2. Consideraciones teóricas sobre la
naturaleza del fenómeno estudiado, y
3. Combinaciones de las dos anteriores.
4. Simplicidad
FUMAR Y ENFERMEDAD CARDIACA
Relación causal determinada en forma no experimental
En un estudio de seguimiento por varios años de toda una
población de personas, se construyó el modelo logístico
que permite concluir, que en hombres de 45 años la
probabilidad de ataque cardiaco dentro de 12 años se
estima como sigue:
 0.03, si no fuma, con presión y colesterol normales
 0.05. si fuma 20 cigarros al día
 0.075, si fuma y tiene presión 140/88
 0.15, si fuma, tiene presión 140/88 y nivel sérico de
colesterol 250 mg/dL
En estadística es común que se plantee un
modelo para explicar las características de
generación de los datos. El modelo puede
representar la situación esperada de una
hipótesis de causalidad, o bien puede ser el
modelo de negación de una hipótesis dada
(Hipótesis de nulidad)
En ambos casos, se evalúa la concordancia entre
los datos observados, O y los esperados E, si el
modelo es cierto. Usualmente esta discordancia
se valora de acuerdo a la probabilidad de una
discordancia como la obtenida o aún mayor
suponiendo cierto el modelo. Es el ”Valor de P”
Significancia Estadística
¿ Que tanto es tantito?
¿ Cuándo las diferencias entre los datos
obtenidos y los esperados bajo un modelo
probabilistico son “grandes”?

Razonamiento de Fisher : Se supone que el modelo es


cierto, se evalúa la probabilidad de una discrepancia
entre los datos observados y los esperados, como la
obtenida o aun mayor. Este es el llamado Valor de P.
Si la P es menor de .05 , es decir 5%, se considera que
¿QUE?
el modelo no es compatible con los datos. Se dice las
diferencias son significativas
Reaccionamos ante lo improbable
! Es improbable encontrar tres
elefantes en la calle !
La significancia estadística, no demuestra que
el modelo sea falso, solo que los datos son
incompatibles (poco probables) con ese
modelo.
413 trabajadores de una industria del
cemento, con su historia de trabajo
por varios años, se construyó un
índice del grado de exposición a los
P(asma, mv)
0.350
polvos de la caliza y otros
0.300 0.450
componentes del cemento, se le llamó
0.250
“nueva”. Además la edad de los
NUEVA

100 0.200
0.150

0.100
trabajadores es una variable
0.050 0.400
0.350 confusora para la presencia de asma y
0 otros padecimientos. Estimación de
20 30 40 50 60

EDAD probabilidades de asma en modelo


logístico. Se nota claramente la
interacción en el “efecto del
trabajador sano”
800 trabajadores de una empresa siderúrgica. (Datos del Dr. Mariano
Noriega, Maestría “Salud en el Trabajo”, UAM-X). Entre varios
diagnósticos y varias exigencias de trabajo, se selecciona la relación
entre la edad, el trabajo aburrido y con esfuerzos como factores de riesgo
(causa) para el diagnóstico de patología del corazón. Esta relación se
selecciona por que es donde hay una fuerte interacción triple. Las
probabilidades aumentan con la edad pero mucho más si sólo hay trabajo
aburrido, un poco menos con sólo esfuerzos y poco con ambos, casi
nada cuando no esta ninguna de las dos exigencias. Hay un efecto
antagónico, la presencia de ambos riesgos produce menores
probabilidades de diagnóstico corazón, que cada uno de ellos por
separado 0.9
-Abu
0.8
Probabilidades de Corazón
0.7 Máxima Verosimilitud
Interacción Edad*Esf*Abu
Prob[cor.mv]

0.6
Esf-
0.5
0.4
EsfAb
...
0.3
0.2 --

0.1
20 30 40 50 60 70
EDAD
Datos de la Encuesta Nacional de Nutrición.1999. Gráfica 5.
Probabilidades de bajo peso para la edad y desmedro (baja talla para la
edad), y también de emaciación (bajo peso para la talla).

Bajo peso y Emaciación %


Variable desmedro %
Grupo nivel socioeconómico
1 (intermedio) 18.8 2.7
2 (Peor condición) 30.5 2.4
3 (mejor condición) 10.3 1.8
Indigenismo
no 14.4 2.1
si 47.6 2.0
Estrato
Urbano 12.4 2.1
Rural 26.0 2.2
Ensayo clínico doble ciego para probar dos fármacos y
un placebo para disminuir glucosa en diabéticos
28
Placebo: FBG end = -2.43 + 1.16 FBG beg
26

24 glibencamide: FBG end = 2.7 + 0.63 FBG beg


22
V-411: FBG end = 1.8 + 0.62 FBG beg Placebo
20
FBG end

18

16 Glibenclamida
Glucosa
14
final
12
V-411
10

4
7 8 9 10 11 12 13 14 15 16 17 18 19 20
FBG
Glucosa beg
inicial Los dos fármacos producen
Linear Fit Treatment=="Glibencamide" disminuciones semejantes de
Linear Fit Treatment=="Placebo" glucosa, y el placebo produce
Linear Fit Treatment=="V-411" ligeros aumentos

Potrebbero piacerti anche