Ejercicios de Densidad Conjunta

MASTER DE INGENIERA
BIOMDICA.
Mtodos de ayuda al diagnstico
clnico.
Tema 2: Probabilidad y estadstica
Emilio Soria, Antonio Jos Serrano y Jos David Martn Dpto Ingeniera Electrnica, ETSE
Sistemas de Ayuda a la Decisin Clnica, Curso 2009-2010
1
Objetivos del tema

Dar a conocer los conocimientos mnimos de probabilidad/estadstica necesarios
para aplicar procedimientos estadsticos a un conjunto de datos, sin incurrir en los
errores ms comunes. NO ES UN RESUMEN DE BIOESTADSTICA NI SE VA A
DEMOSTRAR NADA
Conocer las ventajas y limitaciones que tienen estos mtodos frente a otros ms
avanzados (redes neuronales, rboles de decisin, etc).
Conocer las implicaciones del Teorema de Bayes en clnica ( se suele utilizar a
menudo !!)
Conocer las condiciones que se tienen que cumplir para realizar un determinado
contraste de hiptesis.
Aprender lo que es un anlisis de supervivencia.
Conocer el software que puedo usar para realizar un anlisis estadstico
2
orias
y
Procesos
Aleatorios
Probabilidad.
La Teora de la Probabilidad analiza lo que se conoce como experimentos aleatorios;

aexperimentos
Bsica de Probabilidad
cuyo resultado no se conoce a priori pero que est limitado a un
a determinado
de Probabilidadconjunto
trata con de
fenmenos
que conocido
pueden sercomo
modelados
por experiresultados
espacio
muestral. Este espacio
cuyos
resultados
estn ogobernados
puede
ser discreto
continuo. por el azar (se denominan experimentos
os). Estos experimentos aleatorios estn caracterizados por
experimentos son repetibles bajo idnticas condiciones
Otra definicin importante es la de evento o suceso que es un subconjunto del espacio
sultado de un experimento es impredecible
muestral. se realiza un gran nmero de veces, el resultado exhibe un cierta
experimento
aridad estadstica (se observa un comportamiento promedio).
Destacar que la frecuencia relativa de los resultados de los experimentos aleatorios,
cuando
realizan
un granresultados
nmero dedeun stos
en lasaleatorio.
mismasSeacondiciones, s es
namos
eventosea uno
de los posibles
experimento
steque
es el
deque
apoyo
para los
ingenieros. el evento A
ntopredecible;
y supongamos
enpunto
n veces
se realiza
el experimento,
N n ( A) veces. La frecuencia relativa asociada al evento A es el cociente
Esta frecuencia relativa
de un evento A es lo que
Donde N (A) es el nmero de veces que ocurre el evento a
N
(
A
)
se conoce intuitivamente n
sobre n experimentos. Evidentemente este cociente tiene como
n
lmites 0 (no ocurre nunca el suceso A) y 1 (ocurre siempre)
y viene definida por la
icasiguiente expresin.
N n ( A)
Cuando se considera 0que
! el nmero
! 1 de experimentos tiende a y la frecuencia
relativa, en ese caso convergen a un valor; dicho valor se conoce como probabilidad del
evento A.
nto A no ocurre nunca, entonces N n ( A) n = 0 , en tanto que si ocurre las n
e se realiza el experimento N n ( A) n = 1.
3
Probabilidad.
Un ejemplo sera el lanzamiento de un dado; el espacio muestral sera 1,2,3,4,5,6; a
priori no se conoce el resultado del lanzamiento pero si se lanza muchas veces el dado
la probabilidad de aparicin de cualquier nmero es 1/6.
Estudiar un evento no tiene mucho sentido prctico; se analiza su frecuencia relativa y se
determina si se le puede asignar una probabilidad; algo ms practico ( y divertido!!!!) es
considerar la probabilidad de la combinacin de varios eventos diferentes.
Unin de dos eventos. Es el evento que consiste en todos los resultados contenidos en uno
de esos dos eventos. Se representa por .
Interseccin de dos eventos. Es el evento que consiste en todos los resultados contenidos en
los dos eventos. Se representa por .
Complemento de un evento. Es el evento que consiste en todos los resultados no contenidos
en dicho evento. Si E es es el evento representaremos su complementario por E(c)
A modo de ejemplo consideremos el lanzamiento de un dado. Definimos E1={4,5,6}; E2={2,4,6}.
Tendramos entonces E1 E2 ={2,4,5,6}; E1E2 ={4, 6}; E1(c)={1,2,3}; E2(c)={1,3,5}
4
Probabilidad.
Otra definicin importante es el de eventos mutuamente exclusivos. Dos eventos
son mutuamente exclusivos si no se pueden dar a la vez. En el lanzamiento de un
dado los eventos A= {1,3,5} y B={2,4} son mutuamente exclusivos.
Lo comentado hasta ahora nos acerca a conceptos de la teora de conjuntos. De
hecho es inmediato comprobar que dos eventos son mutuamente exclusivos si su
interseccin es cero. Existe una aproximacin matemtica a la probabilidad que no
hara uso de las frecuencias relativas.
Axiomas de Probabilidad.
Una medida de probabilidad P[.] es una funcin que mapea eventos en un espacio
muestral (S) a nmeros reales cumplindose los siguientes axiomas.
Axioma 1. Para cualquier evento A, 0P[A]1.
Axioma 2. P[S]=1.
Axioma 3. Si se tienen dos eventos, A y B, mutuamente exclusivos
entonces P(A B)=P(A)+P(B)
5
Probabilidad.
Los axiomas anteriormente mencionados son muy simples pero, a la vez muy
potentes; a partir de ellos se puede demostrar lo siguiente
P[]=0; P[A(c)]=1-P(A)
P[AB]=P[A]+P[B]-P[AB]
Si el evento A est incluido en B; denotado por A B, entonces P(A)P(B)
Si un evento B est formado por los eventos elementales si 1ik B={s1,
s2 ,.... sk} entonces se tiene P[B]= P[si]
Si se tiene una coleccin de eventos Bi 1ik mutuamente exclusivos entre
s entonces el evento unin de todos ellos B= B1 B2 ....... Bk tiene

como probabilidad la suma de las probabilidades de cada uno de ellos;
P[B]= P[Bi]
6
h die we will be rolling.
Independencia.
is then the mixture p1 /2 + p2 /2. The mixture model c

of which die we will be rolling.
Se dice que dos eventos son independientes cuando la probabilidad conjunta es igual al
Independence
2.6
producto de las probabilidades de cada
uno deIndependence
ellos. De manera intuitiva dos procesos
son independientes
o no, Fde and
uno de
ellos
no influyetoen el otro.
probability
spacecuando
(, F ,laPocurrencia,
), twoGiven
events
G
are
defined
a probability space (, F , P ), two events F
Esto es, if P (F G) = P (F )P (G).
pendent
collection
i=
be A
independent
if Pof(Fevents
G) = {F
P (F; )P
(G). A collect
i
0, 1,mutually
. . . , k 1}independent
is said to be independent
, k 1} is said to be independent or
if for anyor mutually
0, 1, . . . , m 1}, lm
li ; i =
subcollection {Fli ; i = 0, 1, . . . , mdistinct
1}, subcollection
lm k, we{F
have
that
Generalizando esta definicin se dice que una
#m1 % m1
#m1
% m1
$
&
coleccin de eventos es$mutuamente &
independiente si,
P
Fl i =
P (Fli ) .
Fli de=esa coleccin
P (Fli ) . de
para cualquier Psubconjunto
i=0
i=0
i=0
eventos, se cumple i=0
In words: the probability of the intersection of any sub

events
equals
the product ofofthe
probabilities
of the
s: the probability of the intersection
of any
subcollection
the
given
'(s
Hay the
que product
tener especial
cuidado
con el
concepto
de
en
primerthat
lugar
el ki
tunately
it'isseparate
notindependencia,
enough
to
simply
require
P
quals
of the
probabilities
of the
events.
Unfor) *
(
k1
k1
hecho
que
se
cumpla
la
igualdad
anterior
para
todo
la
coleccin
de
eventos
no
significa
as
this
does
not
imply
a
similar
result
for
all poss
y it is not enough to simply require that P
F
=
P
(F
)
i
i
i=0
que se cumpla para un subconjunto. events, whichi=0
is what will be needed. For example,
does not imply a similar result case
for where
all possible
subcollections
of(H) for thre
P (F G
H) = P (F )P (G)P
which
be needed.
Foryetexample,
consider
the
following
it is not true
that P (F
G)
= P (F )P (G)no es
NO esislowhat
mismowill
el concepto
de eventos
mutuamente
exclusivos
oindependientes;
erelo Pmismo!.
(F G H) = P (F )P (G)P (H) for three events F , G, and H,
1
not true that P (F G) = P (F )P (G)
P (F ) = P (G) = P (H) =
3
P (F )
Soria, Antonio Jos Serrano1y Jos David Martn Dpto Ingeniera Electrnica, ETSE
1 P (F Emilio
G H)Sistemas=de Ayuda a la Decisin
= PClnica,
(F )P
Curso(G)P
2009-2010(H)
P (G) = P (H) =
27
7
3
Probabilidad condicionada. Teorema de Bayes.
En el mundo real existen muchas interacciones entre variables que forman un determinado
modelo, sea este mecnico, elctrico, electrnico, etc. Esto supone que la observacin de un
determinado fenmeno puede ayudar a predecir mas fcilmente el resultado de otro. Esta
prediccion ms sencilla refleja que la observacin del primer fenmeno modifica o
P ( A " B)
condiciona la probabilidad del segundo.
P(A | B) =
P(B)P ( A " B)
Sean dos eventos A y B definimos la probabilidad de A dado queP(A
el | B) =
P(B)P A " B
evento B ocurri como P[A|B]; esta probabilidad se denomina
(
)
P(A | B) =
P(A "Otra
B) = P ( A | B) # P(B)P(B)
= P (B |
probabilidad condicional de A dado que B ocurri.
P(A " B) = P ( A | B) # P(B) =
denominacin es probabilidad de A condicionada a!B.
!
P P(A
B | A") "B)
P(A)
= P ( A | B) # P
De la ltima expresin se puede obtener el Teorema de Bayes,P ( A | B) = (
P ( B | A) " P(A)
!
!
P(B)
P ( A | B) =
fundamental a la hora de inferir probabilidades; su expresin
!
P(B)
viene dada por:
P ( B | A) " P
P ( A | B) =
!
P ( A | Es ) " P(EsP(B)
)
La generalizacin de este teorema viene dado por la
P ( E s | A) =
siguiente expresin; aqu los Ek son eventos
!
!
# P (Ek ) " P( A | Ek )
mutuamente exclusivos y exhaustivos (U Ek=S).
!
EL DENOMINADOR DE LA LTIMA EXPRESIN HAY QUE ANALIZARLO CON
DETENIMIENTO.......MUY IMPORTANTE!!!!!!
!
8
Ejemplos de lo comentado
Menopausia
TOTAL
SI
NO
Normales
1750
1350
3200
Trastorno A
165
35
200
Trastorno B
45
55
100
TOTAL
1960
1440
3500
Aqu nos encontramos con algo

tpico; hemos recogidos datos
en una poblacin lo
suficientemente grande y
representativa sobre la
aparicin de determinados
trastornos en mujeres; algunas
preguntas.......
Probabilidad de padecer el trastorno A?=200/3500=0.057

Probabilidad de no padecer ningn trastorno?=3200/3500=0.914
EL ENFOQUE PRESENTADO AQU ES UN ENFOQUE DE LA PROBABILIDAD
FRECUENCIAL (EL OTRO PARADIGMA IMPORTANTE ES EL BAYESIANO).
9
Ejemplos de lo comentado
Menopausia
TOTAL
SI
NO
Normales
1750
1350
3200
Trastorno A
165
35
200
Trastorno B
45
55
100
TOTAL
1960
1440
3500
Probabilidad de padecer el
trastorno A el trastorno B
(recordemos que si se da uno no
se da el otro)?
=(200/3500)+(100/3500)=0.085
Probabilidad de padecer el
trastorno A o ser menopasica
(CUIDADO)?
=(200/3500)+(1960/3500)(165/3500)=0.57
Son independientes los sucesos de

Probabilidad de, siendo menopasica padezca
menopausia y de padecer el
el trastorno A?= 165/1960=0.084
trastorno B?. Esto es as si se cumple
P(M B) =P(B)P(M)=
Probabilidad de menopasica y de padecer
P(M B) =45/3500=0.012
el trastorno A?=165/3500=0.047
P(B)P(M)=(100/3500)(1960/3500)=
0.016 NO LO SON (CLARO!!).
Otra manera..P(M A) =P(A|M)P(M)=(165/1960)(1960/3500)=(165/3500)
10
Ejemplo del Teorema de Bayes.
Se escoge una muestra de 1000 personas de las que el 65% son enfermos. De los enfermos hay
un 85% de casos que tienen un cierto sntoma y de los no enfermos el porcentaje de casos de
personas que presentan sntomas es del 5%.
65%
Enfermo
Sintoma
35%
No Enfermo
15%
85%
Muestra
No sntoma
5%
95%
No sntoma
Sntoma
Lo primero es usar una expresin muy til en teora de probabilidad; a modo de ejemplo; si
escogemos una persona al azar; cul sera la probabilidad de que tuviera ese sntoma?
P(S)=P(E)P(S|E)+P(NE)P(S|NE)=0.650.85+0.350.05=0.57
Cul es la probabilidad que, seleccionando una persona que tiene ese sntoma la persona est
enferma?
P(E|S)=[P(S|E)P(E)]/P(S)=[0.850.65]/0.57=0.96
11
Ejemplo del Teorema de Bayes. Pruebas clnicas

1-P
SANO
1-P1
SI
POBLACION
P1
Especificidad
NO
P
ENFERMO
P2
Sensibilidad
SI
1-P2
NO
RESULTADO DE LA PRUEBA
En este esquema tenemos que P es la probabilidad de tener una cierta enfermedad; P1 es la probabilidad que,
estando sano, la prueba acierte, este parmetro se conoce como especificidad, por el contrario P2 es la
probabilidad que estando enfermo la prueba diagnstica acierte; este parmetro se conoce como sensibilidad.
Ejemplo: tomemos p=0.02; p1=0.05 y p2=0.97; con estos valores me realizo la prueba y sale positivo,
cal es la probabilidad que est enfermo?. S=S; N=No.
P(S)= [P(S|Enf)P(Enf)]+ [P(S|Sano)P(Sano)]=0.970.02+(1-0.05)(1-0.02)=0.95
P(Enf|S)=[P(S|Enf)P(Enf)]/P(S)=[0.970.02]/0.95=0.02 (CUIDADO PORQUE EL P2=0.97 NOS PUEDE
CONDUCIR A ERRORES!!!!!!)
12
Ejemplo del Teorema de Bayes. Modelos(I)

Supongamos que nos plantean un problema en el que
tenemos que establecer un modelo que prediga si un
paciente tiene, o no, una determinada enfermedad.
Dicho modelo se aplica sobre la muestra que se tiene
obtenindose lo siguiente:
Enfermo
Sano
25
10
35
No
75
80
TOTAL
30
85
VPP=P(Enf|S)=[P(S|Enf)P(Enf)]/P(S)
TOTAL
Si
VPN=P(Sano|N)=[P(N|Sano)P(Sano)]/P(N)
115
Con esta tabla podramos calcular los parmetros de

la anterior transparencia as como algunos otros que
se utilizan habitualmente en los modelos predictivos
clnicos.
Sensibilidad=P(S|Enf)=25/30=0.833
Especificidad=P(N|Sano)=75/85=0.88
Si nos preocupamos de la capacidad

de prediccin del modelo aparecen
dos cantidades importantes; que
son los valores predictivos (positivo
y negativo).
De la tabla se puede deducir que

P(S)=35/115=0.304
P(N)=1-P(S)=80/115=0.695
P(Enf)=30/115=0,260
P(Sano)=85/115=0.739
por lo que usando la sensibilidad y
la especificidad se tiene
VPP=[0.8330.260]/0.304=0.71
VPN=[0.880.739]/0.695=0.93
13
Ejemplo del Teorema de Bayes. Modelos(II)

La siguiente tabla
da todos los
parmetros de
las tablas 2x2.
Test
(Advanced Data Mining Techniques, Springer 2008)
Una figura muy usada es lo que se conoce como curva

ROC (Receiver Operating Characteristic) donde se
representan las cantidades sensibilidad y (1especificidad) en funcin de un determinado
parmetro de nuestro modelo o de alguna cantidad de
la prueba clnica a realizar.
Enfermedad
Si
No
Sensibilidad
A/(A+C)
Especificidad
D/(B+D)
Valor predictivo
positivo
Valor predictivo
positivo
Aciertos
A/(A+B)
D/(C+D)
(A+D)/(A+B+C+D)
14
Variable aleatoria.
"
#1
Se puede establecer una correspondencia

entre los eventos del espacio muestral, ya sea
discreto o continuo y los nmeros reales. Se
tiene entonces una variable aleatoria, bien
discreta bien continua. En la siguiente figura
es el espacio muestral, wk son los
diferentes eventos y X es la variable
aleatoria.
#2
#4
X (# 4 )
#3
X (#1 )
X (# 3 ) X (# 2 )
x ) as a mapping from to R.
Figure 2.1: Random variable
A modo de ejemplo tenemos las siguientes variables.0 aleatorias:
The cumulative distribution function (cdf), FX (x), of a random variable X i
En el lanzamiento de una moneda le asigno un 1 si sale

y un 0: X()
si sale
FX (x)cara
= P (
x)cruz.
can be puedo
simply written
as
Con la misma asignacin which
anterior
plantear
la variable aleatoria valor
x
FX (x) = P (X x)
acumulado que se tendr tras cinco lanzamientos
!
!
0
x)
cdf has the following properties:
No tiene por qu existir una The
asignacin,
as si considero el lanzamiento
de un dado
el propio valor del dado puede 1.ser0 laFvariable
aleatoria. .0
X (x) 1.
2. FX (x) is nondecreasing:
FX (x
FX (x2 )y Jos
if David
x1 Martn
x2 .Dpto Ingeniera Electrnica, ETSE
1)
Emilio Soria,
Antonio
Jos Serrano
15
las propiedadesEs
de claro
las variables
se necesita dar
descripcin
=
que aleatorias
esta probabilidad
esuna
funcin
de
de las mismas.
F
(x2 )
laXvariabl
! x2
FX (x)
= P ( : X() acu
x)
como la funcin de densidad de
probabilidad
Variablesta
aleatoria.
=
fX (x
ariable
aleatoria
y considrese
la probabilidad
del evento X ! x . Esta x1
Se define
la funcin
de distribucin
decan
la variable
which
be simply written as
se denota:
aleatoria X aquella definida de la siguiente forma! (P
FX (x)
=PP (X
!
x) x
F
x
=
X
0
X
In casePof
or mixed random variables, the pdf
(
X discrete
! x)
denota probabilidad).
( )
x)
The cdf has the following properties:
of
pdf
are
listed
below:
esta probabilidad
es
funcin
de
la
variable
muda
x. Se define entonces
a variable a
o simplemente funcin
de
distribucin
de
la
.
0
1. 0 FX (x) 1.
uncin
de densidad
Esta funcin
puededeserprobabilidad
continua o acumulada FX ( x ) :
el0. 2. FX (x) is nondecreasing: FX (x1) FX (x2) if x1 x2.
discreta, dependiendo1.defcomo
X (x)sea
Una Fdescripcin
alternativa
de
la
probabilidad
de
un
(!x ) =P ( Xtiene
! x)
espacio muestral. Esta
X funcin
3. FX () = 0 and FX (+) = 1.
usando
la
derivada
de FX x para obtener la funcin
una serie de propiedades importantes
2.
f
(x)dx
=
1.
X
e funcin
de variable
la variable4.aleatoria
X.b)X.
como son:de distribucin
P
(a
<
X
= FX (b) FX (a).
(pdf) de la
aleatoria
( )
x)
in alternativa de la probabilidad de una variable aleatoria X se logra
In funcin
general,
Cuando
A) = ladevariable
fX (x)dx.
aleatoria
dFX x
Relacionada
esta
de P (X
rivada
de FX ( x )con
para3.
obtener
la funcin
de densidad
probabilidad
.0
x
=
A sep Xutiliza
University of Saskatchewan
es
discreta
otra
distribucin
se
encuentra
la
funcin
riable aleatoria X.
funcin conocida como dx
densidad de probabilidad
definida
de
For discrete random variables, it is more common to d
funcin de probabilidad
la siguiente forma.
dFX ( x )
p X (x ) =
definida
como sepdebe
which
is
defined
as
{p
}
where
= la
xipro
).
Elpmf,
nombre
densidad
de
probabilidad
que
i
i = Pa(X
dx
"
obtiene
pi como:
= 1.
( )
( )
nsidad de probabilidad se debe a que la probabilidad

queJosxSerrano
!y Jos
X David
! Martn
x2 se
Emilio de
Soria, Antonio
Dpto Ingeniera Electrnica, ETSE
1
i
:
16
Figure 2.5: The pmf and cdf for the Bernoulli random varia
x)
Variable aleatoria.A Bernoulli

Ejemplos
(I).
random variable is a good model for a binary data gener
30
Lanzamiento de un dado. Enbinary
estedata
caso
Binomial.
aleatoria channel,
que da some
el nmero
is transmitted
overVariable
a communication
bits are
habra que determinar el valor de
P(x=k)25 si an de
eventos
que suceden
enofuna
We can model
error
by a modulo-2
addition
a 1 secuencia
to the inputde
bit,n t
estamos interesados en la funcin densidad; independientes
pruebasrandom
de variable
Bernouilli.
into a 1 and
a
1
into
a
0.
Therefore,
a
Bernoulli
can be em
20
tenemos entonces 1/6 para todo k; o bien, si Ejemplos nmero de caras tras n lanzamientos
channel de
errors.
estamos interesados en la the
funcin
de una moneda; nmero de personas que
15
This
is a discrete
that
Binomial Random
Variable.una
distribucin se tendra F(1)=1/6; F(2)=1/3;
padecern
enfermedad
si random
se tienevariable
una cierta
F(3)=1/2; F(4)=2/3; F(5)=5/6 y F(6)=1.
of 1s in a 10
sequenceprobabilidad
of n independent
Bernoulli trials. The pmf is given by
de aparicin.
$ %
05
n k
p (1 p)nk , 0 k n
P (X = k) =
k
EE456.3 Digital Communications, Fall 2004

Ha H. Nguy
0,
otherwise
Bernouilli. Variable aleatoria que toma dos
4
0
2
6
8
10
valores con probabilidades p y 1-p.
Ejemplos
f X (x )
where
the binomial coefficient
is defined as
lanzamiento de una moneda asignando 1 a 0.30
$ %
n
n!
=
cara y 0 a cruz; que un determinado
k
k!(n k)!
x
)
x)
456.3 Digital Communications, Fall 2004
Ha H. Nguyen 0.25
tratamiento mdico vaya bien.
0.20
random variable
models, for example, the total number of bits receiv
0.15
a sequence of n bits is transmitted over a channel with cross1bit-error pro
FXThis
(x )
f X (x )
0.10
example of the pmf for a binomial random variable is shown in Figure 2.6
0.05
1! p
a
Uniform Random Variable. This is a continuous random variable tha
p
1! p
10
12
tween
a1 and b xwith equal probabilities over intervals of equal length. The
0
Figure 2.6: Thexpmf for the binomial random variable.
is
given
Figure 2.5: The pmf and cdf for the Bernoulli random
variable.by
a
0
b
x)
Sistemas de&
Ayuda a la Decisin Clnica, Cursoa
2009-20100
1
x)
x)
This is a model for continuous random variables ,whose
range
is known,
but nothing
a<
x<
b
17 el
A Bernoulli random variable is a good model for a binary data generator. Also, when
0
This randomEjemplos
variable models, (II).
for example, the total number of bit
Variable aleatoria.
Poisson. Variable aleatoria

que esof nuna
a sequence
bits is Uniforme.
transmitted
over aaleatoria
channelcon
with
cross1bit-er
Variable
densidad
de
aproximacion de la binomial cuando n es
probabilidad
constante
en un
intervalo.
example
of
the
pmf
for
a
binomial
random
variable
is
shown
in Fig
grande (n>30) y el valor de p es pequeo
Tpica en problemas donde no se tiene un
a
(p<0.1). Es la que manejanUniform
compaas
de
Random
Variable.
Thisais priori
a continuous
random del
varia
conocimiento
del resultado
seguros (sucesos raros con una poblacin
experimento;
como
veremos
siempre
la
tween
a
and
b
with
equal
probabilities
over
intervals
of
equal
lengt
relativamente alta).
utilizamos de forma
encubierta
x
k given by
is
a
a
b
0
& 1
P[ X = k ] = e " #
k = 0,1, 2.. 0
, a<x<b
k!
fX (x) =
ba
0,
otherwise
University of Saskatchewan
Applied Statistics and Probability for Engineers,

John Wiley & Sons, 2003
18
Variable aleatoria. Ejemplos (III).
Normal. Es la reina de las variables aleatorias a

causa del Teorema del Lmite Central. Este
teorema viene a decir que, la suma de un
conjunto de
aleatorios sigue una
munications,
Fall sucesos
2004
distribucin normal. Su
densidad de
probabilidad
sity
function es
!
(x )
fX (x) =
exp
2
2 2
2
1
"
Ha H. Nguyen
(2.16)
e two parameters whos meaning will be described later. A Gaussian pdf
and 2 is usually denoted as N (, 2 ). The Gaussian random variable
t frequently
de Student.
Variable
aleatoria
t and
encountered
random
variable in communications. The
parecida
en is
forma
a la normal
que
se in communication systems,
al noise,
which
the major
sourcey of
noise
utiliza muy a menudo en los

bution.
The properties
of Gaussian
contrastes
de hiptesis
de noise
tipo will be investigated in more
paramtrico.
Existe
unaparmetro
en
hapter.
The pdf and
cdf of
Gaussian random
variable are illustrated
su funcin de densidad que es el
nmero de grados de libertad, ,
denotndose dicha variable Fpor(xt)
Statistics and Data with R; An Applied Approach Through Examples, Wiley 2008
X
19
fs k " fm ) " n
(
$
fs k
(
y(n) = A " cos!
2
"
#
"
&
)
y(n)
=A
fm
%
( " cos& 2 " # "
Variable aleatoria. Momentos.
f
%
n
n
Hasta ahora se tiene una serie de experimentos
aleatorios
que se corresponden con nmeros reales;
!
= $ ( x " m ) # f (x) # dx
[
]
podemos encontrar algn significado
anteriormente?.
$ fsico fusando
" n las
2 " funciones
k " n " f "definidas
#'
A#" m
cos
2="que
#
"xsigue
Aparecen entonces los"y(n)
momentos.
(en
densidad
&]lo
)$ de probabilidad)
= E=
X
# m )fx$esf la
(x)funcin
$ dx
(
)
(
%
[
!
f
f
fs " n
%
(
E ( X " mx )
2
x
Definimos
el
!
valor esperado
de la !
variable
aleatoria
X
!
como
!
E[ g(X)] =
y(n) = A " cos& 2 " # "

%
" f (x) " dx

# g(x)
x
# " f x (x) " dx
fm
A partir de ahora se
Variable continua. s u p o n d r q u e l a
variable es continua,
m x = E[ X ] =
xes" inmediato
f x (x) " dx
xn= E[ X ] =
x k " P(x
= xk )
n
n
obtener
m x = E X = x " f x (x) " dxVariable discreta.
k
la expresin discreta.
m x = E[ X ] =
#
[ ] #
Generalizando esta definicin se tienen los

momentos de orden n, (resaltar que la anterior
!
!
definicin es
el momento de orden 1) !
[ ] #
m xn = E X n =
x n " f x (x) " dx
$
'
f
"
n
s
Otros parmetros y(n)
importantes
son
= A " cos& 2 " #E" ( X " m) x ) n = $ ( x " m x ) n # f x (x) # dx
los momentos centrales de orden n % !
f mE ((X " m ) n = ( x " m ) n # f (x) # dx
x
x
x
[
] $
] ] %% ((x # m) )
Uno de los momentos centrales$ ms" x2$ = E'2( X '# m x ) 2 2=

f s" x = E ( X # mx ) =
utilizados es la varianza
como
y(n)definida
= A " cos
&2 " # " & ) " n)
!
!
%f (
fs
$ f (x) $ d
x # m x x $ f x (x)x $ dx
# "f
# g(x)
E[ g(X)
" fa xla Decisin
(x) " dx
] = Sistemasg(x)
de Ayuda
Clnica, Curso 2009-2010
E[ g(X)] =
x (x) " dx
20
Significado de algunos momentos.

VALOR ESPERADO; da idea de la tendencia central
de la variable aleatoria de acuerdo a su
distribucin de probabilidades.
VARiANZA; da idea de la dispersin de la variable

aleatoria (refleja la anchura de la distribucin). Un
parmetro que se utiliza mucho ms que la
varianza es la DESVIACIN ESTNDAR, , que es la
raz cuadrada de la varianza.
Kurtosis; da idea de lo picuda que es la

funcin densidad de probabilidad de una
determinada variable aleatoria tomando como
referencia una distribucin normal.
4
Kurtosis = 4 # 3
"
3
Sesgo = 3
"
SESGO; define el grado de asimetra de una determinada

funcin densidad de probabilidad; el parmetro ms
utilizado es el cociente entre el momento central de orden
3 y la desviacin estndar al cubo
4
Kurtosis = 4
"
3
Sesgo = 3
"
21
Estadstica.
Hasta ahora hemos analizado las caractersticas y los parmetros que definen una magnitud que
procede de un experimento aleatorio; esa aleatoriedad puede ayudarnos a explicar diferentes
comportamientos en situaciones reales. Podramos definir la estadstica como aquella parte de
conocimiento que analiza procesos donde existe un determinado grado de aleatoriedad
Planteamos hiptesis
Recopilamos datos
(muestreo)
Anlisis de datos
Obtencin de conclusiones
Estas son las etapas clsicas de cualquier

anlisis estadstico.El problema que nos
encontraremos en muchas ocasiones es
que la toma de datos o muestreo, que es
una etapa esencial en el desarrollo de
modelos, se realiza sin ningn control de
tal forma que se tienen los datos que el
clnico ha recopilado a lo largo del
tiempo pero no se ha diseado una
toma de muestras. Debemos empezar a
tener en cuenta que una cosa es lo ideal
y otra cosa lo que nos vamos a
encontrar.....
22
Estadstica. Definiciones.
Poblacin; conjunto sobre el que estamos interesados en obtener
conclusiones, en la mayora de las ocasiones es demasiado grande para
poder analizarlo.
Muestra; subconjunto de la poblacin y del cual tenemos datos y
observaciones. Evidentemente debera ser representativo de la poblacin.
Estadstico; es una funcin de los valores de la muestra; uno de los ms
sencillos es la media muestral.
Contraste de hiptesis; tambin se le conoce como prueba de
significacin o prueba estadstica y consiste en decidir si una determinada
hiptesis sobre la poblacin debe ser aceptada, o no, analizando
estadsticamente la muestra.
Paramtrico y no paramtrico, son los dos tipos de contrastes que
puedo realizar dependiendo si la caracterstica sobre la que se realiz la
hiptesis se ajusta a una determinada distribucin de probabilidad o no.
23
Contraste de hiptesis.
El punto de partida de este anlisis son
dos hiptesis; la que se conoce como
hiptesis nula y se designa por H0 y la
que se denomina alternativa y que se
designa por H1. Hay que escoger como
hiptesis nula la ms simple y la que
conlleve (si se da el caso) un signo de
igualdad.
Ejemplos de planteamiento de hiptesis
podra ser:
H0: existe igualdad de salarios entre
hombres y mujeres
H1: no existe igualdad de salarios entre
hombres y mujeres
H0: la edad media de jubilacin
anticipada es de 62 aos
H1: no es de 62 aos
CLASE DE ERROR
H0 cierta H0 falsa
Acepto
H0
No hay
error
Error de
tipo II
Rechazo Error de
tipo I
H0
No hay
error
La idea es establecer un modelo

probabilstico para tomar una
decisin de una determinada
magnitud que se conoce como
estadstico de contraste. . En dicho
modelo se establecern dos zonas
disjuntas y complementarias
denominadas zona de rechazo y
zona de aceptacin.
24
Rechazo
Zona de
aceptacin
La pregunta evidente es; qu umbral

ponemos para aceptar/rechazar la
hiptesis nula?. Ese umbral denotado
por , se conoce como umbral de
significacin y, normalmente, se toma
igual a 0.05. Si se quiere mayor
seguridad de cumplimiento se puedo
reducir ese umbral, otras elecciones
son tomarlo igual a 0.01 o a 0.001
Los paquetes estadsticos devuelven

Rechazo
el valor de la probabilidad, p, que se
conoce como significacin muestral
de la hiptesis nula, de tal forma que
se procede de la siguiente forma:
El problema aqu radica en conocer todas las posibles

distribuciones que se pueden tener segn el tipo de
hiptesis a comprobar y segn las condiciones que se
cumplan en nuestros datos (si el test tiene que ser
paramtrico o no paramtrico).
p< : Rechazamos H0
p> : Aceptamos H0
25
Establecemos hiptesis de
trabajo
Recogemos los datos necesarios
Fijamos H0
Determinamos el anlisis a
realizar de acuerdo a las
condiciones que se cumplan
Aceptamos o rechazamos H0 de
acuerdo al valor de p obtenido y
al de fijado con anterioridad.
Esta parte se conoce como

muestreo y existen muchas
formas de hacer dicha recogida.
Es la etapa crtica ya que los
datos tienen que ser
suficientemente representativos
de lo que se quiere determinar.
Lo que uno se encuentra, en
muchas ocasiones es la base de
datos que se tiene de la prctica
diaria (la teora est bien
pero......)
Recordemos siempre lo que estamos
haciendo; el resultado de p indica la
evidencia en contra de la hiptesis
nula; cuanto menor es este valor
mayor es la evidencia contra dicha
hiptesis.
26
Flow charts
appropriate techniques
in different circumstances*
Contraste
deindicating
hiptesis.
Resumen.
Flow chart for hypothesis tests
I
Numerical data
Categorical data
I
1 group
I
One-sample
t-test (19)
Sign test (19)
2 groups
I
Paired
Paired t-test (20)

Wilcoxon signedl
ranks test (20)
Sign test (19)
1
Independent
Unpaired
t-test (2"
Wicoxon rank
sum test (21)
> 2 groups
2 categories
(investigating
proportions)
I
I
Independent
One-way
ANOVA (22)
Kroskal-Wallis
test (22)
I
proponion (23)
Sign test (23)
> 2 groups
2 groups
1 group
z test for a
II
paid
McNemar's
Independent
Chi-squared
test (25)
Chi-squared
trend test (25)
Chi-squared
test (25)
Chi-squared
Medical Statistics at a Glance, Blackwell
Flow chart for further analyses
Longitudinal
studies
Systematic reviews and
Survival analysis (41)
Additional
topics
kappa
(36)
Agreement
Emilio Soria, Antonio
Jos Serrano
y Jos David Martn
Dpto Ingeniera
Electrnica,
meta-analyses
(38)
Bayesian
methods
(42) ETSE
27
Anlisis de supervivencia.
En un anlisis de supervivencia
estamos interesados en dos
variables; por una parte la
ocurrencia, o no, de un determinado
suceso y, por otra parte, el tiempo
que transcurre hasta que se produce
dicho suceso.
Tiene aplicaciones en un gran
nmero de campos, por ejemplo, en
la industria se utiliza para evaluar el
tiempo de funcionamiento de los
componentes. En clnica lo podemos
usar para determinar el tiempo de
recuperacin usando un
determinado frmaco, el tiempo que
el paciente sobrevive tras un
determinado trasplante, etc.
Das antes
Variable 1 Variable 2
del suceso
1,2
-0,3
0,6
2,4
2,2
1,1
0,2
-0,7
Usando estas
variables
PREDECIMOS EL
TIEMPO!
28
Survival function
Survival
Anlisis de supervivencia.
function
Aqu nos encontramos con dos

Definimos
una
funcin
de
supervivencia
que
da
ility that an individual survives at least t
la probabilidad que un determinado individuo no problemas importantes de cara a
= P(T > t) Probability that an individualunsurvives
at least
anlisis estadstico;
portuna
tenga la ocurrencia del suceso antes del tiempo t
efinition, S(0) = 1 and S()=0
parte el tiempo no sigue una
S(t) = P(T > t)
distribucin normal y, por otra
mated by (# survivors at t / total patients)
parte,
existirn sujetos que saldrn
S()=0
100 By definition, S(0) = 1 and
fuera del tiempo de estudio y, por
Estimated by (# survivors
at no
t /setotal
patients)
tanto,
conocer
el tiempo en
Survival
el que se produce el suceso. Estos
100
(%)
sujetos se conocen como sujetos
censurados. En este grupo estn
tambin los que son apartados del
Survival
time
estudio por alguna razn o,
0
simplemente abandonan el
S(0)=0 y S()=1. Una(%)
manera de obtenerla a
estudio. Normalmente se asume
partir de los datos es mediante la estimacin
que estos sujetos se comportan
S(t)=N(t)/Ntotal
igual que los sujetos al final del
time
Donde N(t) es el nmero de sujetos en los que
estudio.
0
no se ha producido el suceso en el tiempo t (ni
anteriormente)
29
h(t) is instantaneous
failure rate
Some
other
definitions
Anlisis de supervivencia. Se define
# patients
inothe
int
la funcin dying
de riesgo,
tasa de
Estimated
Otra funcin relacionada
con la funcinby
de fallo, h(t)
la tasa
deb
, como
So can
beinstantnea
estimated
# patients
interval/(survivors
atcalcula
t *interval_w
supervivencia, que denotamos
pordying
F(t), esinlathefallo
en el instante t. Se
como
que da la probabilidad deSo
ocurrencia
del
can be estimated
by # patients dying per unit i
Just like S(t)
is cumulative
survival,
F(t)
is
suceso transcurrido
un tiempo
t; es
h(t)
=
f(t)/S(t)
h
# patients dying per unit interval/survivors at t
inmediato
obtener
cumulative
death probability
h(t) = f(t)/S(t)
h(t) = -S(t)/S(t) = -d log S(t)/dt
S(t) = 1 F(t)
Est claro
que=F(t)
y S(t) tienen un
f(t)
- S(t)
significado de funciones de
distribucin de probabilidad.
Obtendremos ahora una funcin
densidad de probabilidad de
ocurrencia del suceso, f(t), a partir de
F(t) como
f(t)=limt0 (N(t+t)/t)=F(t)
Donde N(t+t) es el nmero de
sucesos que ocurren en el intervalo de
tiempo t y t+t y F(t) es la derivada
de la funcin F(t)
Podemos intentar determinar alguna

de las funciones anteriormente
mencionadas mediante dos
aproximaciones; paramtrica
(asumimos una determinada forma
para la funcin y determinamos sus
parmetros) o bien podemos plantear
una aproximacin no paramtrica (no
se asume ningn modelo y son los
propios datos quienes definen dichas
funciones).
30
e-t
f(t)
=
Anlisis de
supervivencia.
En relacin a las aproximaciones
paramtricas
-t
S(t) =quee consideran la
se tienen losmodelos
Parametric
estimation
exponencial
y su
generalizacin,
h(t) = la distribucin
de Weibull
S(t) = e
$ t ' k*1
*& )
%"(
#e
$ t 'k
*& )
%"(
k*1
$
'
k t
+ h(t) = # & )
" %"(
h(t)
S(t)
Example:
Exponential
Exponencial
1
f(t) = e-t
S(t) = e-t
h(t) =
!
t
Non-Parametric
estimation
Modelo
de Kaplan-Meier es un
modelo no
Non-Parametric
estimation
h(t)
S(t)
paramtrico
en el que se tienen un producto
1
Product-Limit
(Kaplan-Meier)
Product-Limit (Kaplan-Meier)
de probabilidades.
i) = t(nj - dj )/ nj
S(tS(t
i) = (nj - dj )/ nj
S(t)
k $t'
f (t) = # & )
" %"(
k*1
Representacin de
f(t) para diferentes
t
valores de los
parmetros
t
Otra
aproximacin ampliamente extendida es el
modelo de Cox donde la funcin de riesgo es
dj is the number of deaths in interval j

#1 "x1 +.......+ # N "x N
dj nisj isthe
deathsatinrisk
interval j
the number
number of of
individuals
i
0
is from time
1 to j at
Donde
nj Product
is the number
ofinterval
individuals
risk hi(t) es el riesgo para el individuo i en el instante
One interval per death time
t, xk son variables descriptivas de dicho individuo y,
[
h (t ) = h (t ) " e
Product is from time interval 1 to j

finalmente, las i son los parmetros que se han de
One interval per death time
determinar de acuerdo a los datos que se tienen.
2
4 5
4 5
!
t
31
Estadsticos (I)
Queremos
conocer
Parmetro
Poblacin
Tomamos
datos
(muestreo)
Muestra
Estadstico
Calculamos
Una definicin muy general de estadstico es

el de cualquier cantidad determinada a partir
de los datos obtenidos de un muestreo. Esa
cantidad tendr un carcter aleatorio en
cuanto que su origen es un proceso de
muestreo; podemos aqu aplicar nuestros
conocimientos de probabilidad y estadstica.
Hasta ahora se han analizado las

diferentes distribuciones/densidades
de probabilidad mediante una serie
de magnitudes (valor medio,
desviacin estndar, sesgo, etc).
Como se procede cuando no se
conoce EXACTAMENTE la funcin
que genera los datos obtenidos?.
La manera de proceder ser estimar
las magnitudes anteriormente
comentadas a partir de los datos que
se tienen. En las expresiones que
siguen se supone una distribucin
uniforme para el clculo de eses
magnitudes. En todas las expresiones
se puede utilizar la frecuencia de
aparicin del dato para los diferentes
clculos.
32
Estadsticos (II)
Se calcula como
Con estos ndices se puede tener una idea de

la tendencia central (los tres primeros), de la
dispersin (varianza y desviacin estndar) y
de la forma (sesgo y curtosis)en cuanto a la
distribucin de la variable.
Mediana
Es el valor central que queda tras

ordenar los valores; (semisuma si
tengo un nmero par de valores)
Moda
Es el valor que ms aparece
Todos estos ndices, se pueden entender a

travs del histograma. La variable se divide en
intervalos regulares y se representa el
nmero de casos en cada intervalo.
Estadstico
Valor medio
Varianza
Desviacin
estndar
Sesgo
Kurtosis
Fundamentals of Probability and Statistics for

Engineers, Wiley, 2004
33
Estadsticos (III)
Estadstico
Se calcula como
Percentil
Es el valor por debajo del cual

hay un p% de los valores
Cuartil
Es el valor por debajo del cual

hay un p% de los valores
(p=25,50,75)
Principles of Medical
Statistics, Chapman &
Hall, 2002
1.4 Preprocesado de los datos.
(a)
Rango
250
200
N patrones
Rango Intercuartil
150
(IQR)
Diferencia entre el valor

mximo y mnimo
Diferencia entre el tercer

cuartil y el primero
100
Con estos parmetros, junto con el

50
histograma,
se pueden determinar los outliers,
valores!40 atpicos
y que,
en0 la mayora
de
!3
!2
!1
1
2
3
4
Valor
aplicaciones, se eliminan.
(c)
600
(b)
600
500
N patrones
300
25
400
300
OUTLIERS
200
100
0
!4
!2
10
12
14
Valor
(d)David Martn Dpto Ingeniera Electrnica, ETSE

Emilio Soria, Antonio Jos Serrano y Jos
600
34
Valor medio y proporcin
De todos
NA
N Alos estadsticos destacamos, por su importancia para nosotros,
NA
p = medio y la proporcin
p
=
el valor
. Esta proporcin se entiende como el nmero
p
=
NTotal
NTotal
de veces que
se da una determinada posibilidad frente al total.
NTotal
NA
importante es el de N% intervalo de confianza para algn estadstico p; es un
p Un
= concepto
N
pN=Total A intervalo
errorCen
" (1#
errorse
el que
C )se tiene un P% de probabilidad de contener a p.
N
error
errorC Total
zN "
C " (1# errorC )
error
zuna
" Ndistribucin
En el caso de una proporcin podemos, en principio, err
El valor medio
sigue
C
N
errorC " (1# errorC )
!
error
" se conoce la desviacinN
C zN "
asimilar esta variable a una funcinerror
de distribucin
normal
C z N si
N C " (1# errorC )
error
!
binomial.
Se
sabe
que,
si
en una distribucin binomial el
$errorde
'
estndar
la
poblacin
y
una
t-Student
Cp" z(1#
N " p)
$ )dicha
Np '
& p,que estimar
nmero de elementos de la muestra es alto se puede
p
"
1#
si N
desviacin.
El
$hay
'
(
))
p " (1# N
pN)& p, )
&
)
N & p,
normal . conn$ esta distribucin '
%
( Nviene)definido considerar una distribucin
intervalo
de
confianza
&
N
& $
)
!
A
N %(
'
p "de1#
p
p=
( error
%
p
"
1#
p
podemos
establecer
un
intervalo
de
confianza
la
(
)
por
lo
que
se
conoce
como
& p,
)
NTotal
)
N
N & p,
&
)
siguiente forma (aqu
)
N
estandar
de
la
media
(SEM). Si
!error(n) es la &%proporcin).N
%
(
(
consideramos
un
intervalo
de
confianza
m
"1.96
#
SEM,
m
+1.96
#
SEM
]
[ m[ "1.96 # SEM, m +1.96 # SEM ]
errorC " (1# errorC )
m95%
"1.96
#tiene:
SEM, m +1.96 # SEM ]
del
se
[
errorC z N "
!
N
!
" " # SEM, m +1.96 # SEM ]
m
"1.96
[
SEM
= =
SEM
"
N
NSEM =
$
'
Confianza %
80
90
95m "1.96
99 # SEM, m
p
"
1#
p
(
)
"
N
!
)
N & p,
!SEM =
&
)
!
N
N m + t 0.05 # SEM ]
[ m " t 0.05 # SEM,
% 1,28 1,64
( 1,96 2,58
zN
[ m " t 0.05 # SEM, m + t0.05 # SEM ]
"
m + t 0.05 # SEM ]
[ m " t 0.05 # SEM,
SEM
=
N # SEM ]
Qu
relacin
hay
entre
este
intervalo
y
el
definido
para el
m
"
t
#
SEM,
m
+
t
[
!
S0.05
1 0.05
2
N
SEM =
"S=
$ % ( x k # m)
m
"1.96
#
SEM,
m
+1.96
#
SEM
valor
medio?
[
]
!
N
N #1
!
N
k=1
S
1
2
SEM =
"S= S
$ N ( x k1# m)N
2
N"
NSSEM =
" de Ayuda a la Decisin Clnica, Curso 2009-2010
1#1S =
!
2
Sistemas
$
x
#
m
(
)
k=1
k
SEM =
SEM =
"S= N
$ ( xNk ##1
m)
m " t # SEM,35m
N #1
Valor medio (II)

Con estos tres ejemplos grficos se intenta mostrar lo que supone tomar una muestra y calcular
su correspondiente valor medio; una cosa es la poblacin y su valor medio como parmetro y otra
son la muestra y su estadstico
Statistics for Environmental Engineers,
Lewis Publishers

Medical Statistics at a Glance, Blackwell
36
Variables cualitativas (I)

Ahora cabe preguntarse, qu podemos hacer con las variables cualitativas?. Aqu podemos plantear
dos tipos de pruebas; la de homogeneidad e independencia. En la de homogeniedad se busca
determinar si los datos que se tienen son los mismos respecto de la categorizacin establecida. En
la segunda buscamos conocer si las categoras de las filas son indepenedientes de las categoras de
las columnas cuando los datos se dispoenen en tablas.
Este tipo de anlisis se basa en
obtener un estadstico definido
por la siguiente cantidad
Estas cantidades de observado/

esperado hacen referencia a los
que uno observa (los datos que
se tienen) y a lo que se tendra
si se cumplieran las condiciones
de homogeneidad o de
independencia que se intentan
comprobar con este tipo de
anlisis.
Statistics and Data with R; An Applied

Approach Through Examples,Wiley 2008
Este estadstico
sigue una
distribucin de tipo
chi-cuadrado. Este
tipo de distribucin
queda caracterizada
por un parmetro,
, conocido como
grados de libertad
que es igual a su
valor medio. La
varianza de esta
distribucin es el
doble de dicho
parmetro.
37
Variables cualitativas (II)
El valor esperado de hombres con el

sntoma 1 sera de de 30; tenemos
Existe diferencia en cuanto a hombres para los dos
60/100=proporcin de hombres, este valor
sntomas que se tienen (homogeneidad)?. Es decir en
muestra muestra tenemos 32/50 para el sntoma 1 y 28/50 se multiplica por 50 (nmero de personas
con problemas). El resto de trminos se
para el sntoma 2; esta diferencia la tengo para la
calcula igual. Tendramos entonces la
poblacin?
siguiente tabla de valores esperados.
Sintoma 1 Sintoma 2
Sintoma 1 Sintoma 2
Hombres
32
28
Hombres
30
30
Mujeres
18
22
Mujeres
20
20
TOTAL
50
50
TOTAL
50
50
El siguiente paso sera calcular el estadstico
comentado en la anterior transparencia
(o-e)
(o-e)2
H-1
M-1
-2
H-2
-2
M-2
El trmino X2 queda 0.666; ahora queda por

determinar el nmero de grados de libertad que
viene definido por el factor (c-1)(f-1) donde f y c
son el nmero de filas y de columnas de nuestra
(o-e)2/e
tabla. En nuestro caso es una tabla 2x2 por lo que
0,133 tenemos que el nmero de grados de libertad es igual
a 1. Para 1 grado de libertad y un intervalo de
0,200
confianza al 95% este valor debera ser mayor que
0,133
3.841; no podemos rechazar entonces que las dos
relaciones son iguales.
0,200
38
Variables cualitativas (III)

En el siguiente ejemplo estamos
interesados en conocer si el lugar donde
se juega interviene en el resultado de un
partido (problema de independencia).
Casa
Fuera
TOTAL
Ganador
97
69
166
Perdedor
42
83
125
TOTAL
139
152
291
El siguiente paso sera calcular el estadstico
(o-e)
(o-e)2
(o-e)2/e
G-C
17,7
316,3
3,99
P-C
-17,7
316,3
5,30
G-F
-17,7
316,3
3,65
P-F
17,7
316,3
4,84
Hacemos otra tabla igual suponiendo que el lugar de

partido no influye en el resultado, por ejemplo en el
caso de Ganador-Casa tendramos, por una parte
que, la proporcin de los que se ganan es de
166/291; si este factor se multiplica por los que se
juegan en casa (139) se tendra 79.3. Si nos fijamos en
ganador-fuera tendramos 166/291 multiplicado por
152 se tendra 86.7. Si nos fijamos en lo perdido se
tendra que tenemos una proporcin de 125/291;
esta proporcin hay que multiplicar por los partidos
jugados en casa y fuera para acabar la tabla.
Casa
Fuera
Ganador
79,3
86,7
Perdedor
59,7
65,3
El trmino X2 queda 17.78; el nmero de grados de

libertad es igual a 1. Para 1 grado de libertad y un
intervalo de confianza al 95% este valor debera ser
mayor que 3.841; EXISTE evidencia que la posibilidad de
victoria depende del lugar del partido.
39
Variables cualitativas (IV)
Hemos visto dos ejemplos para tablas 2x2; se

puede generalizar dicho resultado para tablas
mayores. En el siguiente ejemplo se intenta
determinar si los miembros de 3 partidos estn
de acuerdo con la importancia de la tasas
(problema de homogeneidad).
Ejemplo extrado de Statistics for

Research, Wiley
No rechazamos H0
40
Representaciones grficas (I).
El uso de estadsticos y de representaciones grficas para la obtencin de conclusiones sobre los

datos se conoce como Anlisis Exploratorio de los Datos (EDA). A continuacin se vern grficas
poco conocidas pero que proporcionan mucha informacin sobre los datos. En prcticas
repasaremos todas las representaciones grficas (diagramas de barras, sectores, lneas, etc).
Histograma,
proporciona
informacin
grfica sobre la
distribucin de
los datos, los
outliers quedan
rpidamente
identificados. Al
dividir por el
nmero total de
datos cada uno
de los diferentes
intervalos
tenemos un
estimador
grfico de la
funcin
densidad de
probabilidad.
41
Representaciones grficas (II).

Boxplot; proporciona informacin visual sobre los 3 cuartiles y los valores mximo y mnimo. Estos
son los 5 nmeros que describen completamente un conjunto de datos.

Experimental Design and Data Analysis for Biologist, Cambridge University Press
En muchos paquetes informticos no se representan los valores mximo y mnimo sino que se
representan valores por encima/por debajo 1.5 veces el rango intercuartil a partir del tercer y
primer cuartil respectivamente. Esto se hace as para evitar problemas cuando existen outliers
ya que estos valores podran provocar que los intervalos fueran muy grandes y poco
representativos.
Este tipo de representacin es muy til en problemas de clasificacin donde queremos
ver si existen diferencias entre dos grupos (especialmente indicado cuando queremos
relacionar variables cualitativas con cuantitativas).
42
Representaciones grficas (III).
Q-Q Plot Salario Actual
Q-Q Plot Tiempo para acelerar
30000
20000
Expected Normal Value
Los grficos de probabilidad se usan para visualizar si unos datos

siguen, o no, una distribucin de probabilidad. Los ms
extendidos son los de normalidad. La idea bsica consiste en
representar, en un mismo grfico, los datos que han sido
observados frente a los datos tericos que se obtendran de una
distribucin normal. Si la distribucin de los datos es una
normal los puntos se concentrarn en una lnea recta.
Existen 2 tipos de grficos de probabilidad; en los grficos P-P
se representan las proporciones acumuladas de una variable con
las de una distribucin normal. Los grficos Q-Q se obtienen
representando los cuantiles de los datos que se tienen respecto
a los cuantiles de la distribucin normal. P-P Plot Tiempo para acelerar
40000
10000
-10000
-10000
10000
0
30000
20000
50000
40000
60000
Observed Value
Normal P-P Salario Actual

1,0
1,0
30
,8
,8
,5
10
,3
0,0
0,0
,3
,5
,8
1,0
Expected Cum Prob
,5
Expected Cum Prob
Expected Normal Value
20
,3
0,0
0,0
,3
,5
,8
1,0
Observed Cum Prob
0
0
10
20
30
Observed Cum Prob
Observed Value
43
MASTER DE INGENIERA
BIOMDICA.
Mtodos de ayuda al diagnstico
clnico.
Tema 2: Probabilidad y estadstica
44

Ejercicios de Densidad Conjunta

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Ejercicios de Densidad Conjunta

Caricato da

Copyright:

Formati disponibili

MASTER DE INGENIERA

Objetivos del tema

La Teora de la Probabilidad analiza lo que se conoce como experimentos aleatorios;

s entonces el evento unin de todos ellos B= B1 B2 ....... Bk tiene

h die we will be rolling.

is then the mixture p1 /2 + p2 /2. The mixture model c

In words: the probability of the intersection of any sub

Probabilidad condicionada. Teorema de Bayes.

mutuamente exclusivos y exhaustivos (U Ek=S).

Aqu nos encontramos con algo

Probabilidad de padecer el trastorno A?=200/3500=0.057

Son independientes los sucesos de

Ejemplo del Teorema de Bayes.

Ejemplo del Teorema de Bayes. Pruebas clnicas

Ejemplo del Teorema de Bayes. Modelos(I)

Con esta tabla podramos calcular los parmetros de

Si nos preocupamos de la capacidad

De la tabla se puede deducir que

Ejemplo del Teorema de Bayes. Modelos(II)

(Advanced Data Mining Techniques, Springer 2008)

Una figura muy usada es lo que se conoce como curva

Se puede establecer una correspondencia

A modo de ejemplo tenemos las siguientes variables.0 aleatorias:

The cumulative distribution function (cdf), FX (x), of a random variable X i

En el lanzamiento de una moneda le asigno un 1 si sale

The cdf has the following properties:

nsidad de probabilidad se debe a que la probabilidad

Variable aleatoria.A Bernoulli

EE456.3 Digital Communications, Fall 2004

tratamiento mdico vaya bien.

Poisson. Variable aleatoria

Applied Statistics and Probability for Engineers,

Variable aleatoria. Ejemplos (III).

Normal. Es la reina de las variables aleatorias a

e two parameters whos meaning will be described later. A Gaussian pdf

and 2 is usually denoted as N (, 2 ). The Gaussian random variable

utiliza muy a menudo en los

y(n) = A " cos& 2 " # "

" f (x) " dx

Generalizando esta definicin se tienen los

x n " f x (x) " dx

Uno de los momentos centrales$ ms" x2$ = E'2( X '# m x ) 2 2=

Significado de algunos momentos.

VARiANZA; da idea de la dispersin de la variable

Kurtosis; da idea de lo picuda que es la

SESGO; define el grado de asimetra de una determinada

Estas son las etapas clsicas de cualquier

La idea es establecer un modelo

La pregunta evidente es; qu umbral

Los paquetes estadsticos devuelven

El problema aqu radica en conocer todas las posibles

Esta parte se conoce como

Paired t-test (20)

Medical Statistics at a Glance, Blackwell

Flow chart for further analyses

Systematic reviews and

Survival analysis (41)

Aqu nos encontramos con dos

Podemos intentar determinar alguna

dj is the number of deaths in interval j

Product is from time interval 1 to j

Una definicin muy general de estadstico es

Hasta ahora se han analizado las