Sei sulla pagina 1di 40

Analisis Estadistico

Tabla de doble entrada o de contingencia

Un cuadro de doble entrada es un


texto que permite visualizar en forma
rpida, datos que se cruzan.
El cuadro de doble entrada es una
matriz que define un conjunto por
filas y otro por columnas.

En estadstica las tablas de contingencia se


emplean para registrar y analizar la relacin
entre dos o ms variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).

Estos datos se organizan en dos ejes, uno


vertical y otro horizontal. En cada eje se ordena
la informacin teniendo en cuenta ciertas
categoras.

Tabla de contingencia de 2 x 2
Distribuciones
condicionales

Variable 1

Variable 2
Si

No

Total fila

Si

a+b

No

c+d

a+c

b+d

Total
columna

Medidas de resultado:
Sensibilidad
Especificidad
Valor predicivo +
Valor predictivo -

Medidas
relativas:
OR : razon de
momios
RR: riesgo
relativo

Distribuciones
marginales

Estimacin del riesgo


EXPOSICION
Si

No

TOTAL

276

No
Dao

187 2097

2560

TOTAL

255 2305

2560

RESULTADO
ADVERSO

208

Dao

68

Frecuencia de expuestos (f)


EXPOSICION
RESULTADO ADVERSO

Si

Si

68

No

208

No

187 2097

TOTAL

255 2305

= --------255 x 100 =
2560

9.96 %

2560

Frecuencia del evento (p)


EXPOSICION
RESULTADO ADVERSO

Si

Si

No

68

No

TOTAL

208

276

187 2097

2284

=276
--------- x 100 =
2560

10.78 %

2560

Frec. del dao entre los


expuestos (p1)
RESULTADO ADVERSO

EXPUESTOS

Si

No

TOTAL

Si

N
o

68

208

208 2097
255 2305
p1

= ------68 x 100 =
255

26.67 %

Frec. del dao entre los no expuestos (p2)

RESULTADO ADVERSO

EXPUESTOS
Si
Si

No

TOTAL

68

N
o

208

187 2097
255 2305
p2

= ------208x 100 =
2305

9.02 %

Riesgo relativo (RR)


Fuerza de asociacin, mide el exceso de
riesgo para un
dao en las personas expuestas al
factor de riesgo,
Incidenciacon
del dao
entre
que
tienen
el factor
comparado
el de
la los
que
no
estn.
RR = ------------------------------------------------------------------Incidencia del dao entre los que no tienen el factor

p1

26.67
RR = ---------- = ------------- =

p2

2.96

9.02

Limite inferior < RR < Limite superior

Odds Ratio (OR)


Razn de los productos cruzados

RESULTADO ADVERSO

Es un estimador indirecto del RR, que se


utiliza en los estudios de casos y controles,
siempre que la prevalencia de dao en los
no expuestos
EXPOSICION sea igual o menor a 5 %.
Si

Si

N
o

68

208

TOTAL

255

68 x 2097
OR = --------------208 x 187
OR = 3.67

187

2097

2305

TOTAL 276

2284

2560

No

Lim. Inf. < OR < Lim.Sup.

Anlisis paramtricos
Supuestos para su uso:
1. La distribucin poblacional de la variable dependiente es normal: el
universo tiene una distribucin normal.
2. El nivel de medicion de la variable dependiente es por intervalo o
razn.
3. Tienen varianzas homogneas (homocedasticidad)
4. Las poblaciones en cuestin tienen una dispersin similar en sus
distribuciones

.
.
.
.
.

Pruebas estadsticas ms usadas:


Coeficiente de correlacin de Pearson
Regresin lineal
Prueba t
ANOVA (oneway y multiple)
ANCOVA

Correlacin

La correlacin bivariada es una tcnica estadstica


destinada a averiguar:
a) si dos variables tienen relacin entre s,
b) si la relacin es fuerte-moderada-o dbil y
c) qu direccin tiene la relacin.

La correlacin es la tcnica ms usada para medir


asociacin lineal en todas las ciencias.
Indica asociacin o relacin entre dos variables, no
implica causalidad.
La correlacin est basada en la asociacin lineal, es
decir, que cuando los valores de una variable aumentan los
valores de la otra variable pueden aumentar o disminuir
proporcionalmente.

Correlacin

Existen 2 grandes tipos de correlaciones: Pearson y Spearman.


Ambas estn basadas en la misma informacin, aunque usan
frmulas diferentes. La correlacin de Pearson es ms adecuada
cuando las variables siguen la curva normal. La correlacin de
Spearman es ms conveniente usarla cuando las variables no
siguen la curva normal.

Por ejemplo, la altura y el


peso tienen una relacin
lineal positiva, a medida
que aumenta la altura
aumenta el peso.
Si realizamos un grfico
de puntos con ambas
variables la nube de
puntos se asemejar a
una diagonal si hay
correlacin entre las
variables.

El nivel de significancia indica si existe


o no relacin entre dos variables. Si
p<0.05 se dice que existe correlacin.
Si existe correlacin significativa
debemos mirar el coeficiente de
correlacin (r).
Este coeficiente puede oscilar entre -1
y +1:
0 a 0.25 ninguna o poca relacin
0.25 a 0.50 indica leve relacin.
0.50 a 0.75 indica moderada relacin
> 0.75 de buena a excelente relacin.
Cuanto ms se aleja de 0, ms
fuerte es la relacin entre las dos
variables.
El signo (positivo o negativo) de la
correlacin indica la direccin de la
relacin.

Evaluar la relacin entre dos variables


cuantitativas
Cor. de Pearson: mide la relacin entre dos
variables medidas en un nivel por intervalos o de
razn.
Simbolo: r
Hiptesis a probar: Correlacional, A mayor X,
mayor Y, A mayor X, menor Y, altos valores
de X estn asociados con altos valores de Y,
altos valores de X estn asociados a con bajos
valores de Y
-1r
1

Regresin lineal
Es un modelo matemtico usado
para estimar el efecto de una
variable sobre otra. Est asociado
con el coeficiente r de Pearson.
Hiptesis: correlaciones y causales.
Variables: dos, una considerada
como independiente y otra como
dependiente.
Nivel de medicin: Intervalos o de
razn.

Ecuacin de regresin lineal:


Y = a + bX
donde Y es un valor de la variable dependiente
que se desea predecir
a es la ordenada en el origen y b la pendiente o
inclinacin de la recta.

Prueba t

Es una prueba estadstica usada para evaluar si dos grupos


difieren entre s de manera significativa respecto a sus medias.
Smbolo: t
Hiptesis: existe diferencia entre los grupos
Nivel de medicin: intervalo o de razn.

Donde X es la media de cada grupo


S es la desviacin estandar de cada grupo
N es el tamao de muestra de cada grupo

Grados de libertad: es el nmero de maneras en que los datos


pueden variar libremente. Cuanto mayor numero de grados de
libertad, la distribucin t de Student se acerca a una
distribucin normal.
gl = (n1 + n2) - 2

Tabla de distribucin t Student

ANOVA Anlisis de varianza de 1 via


Analiza si ms de 2 grupos difieren
significativamente entre s respecto a sus medias
y varianzas.
Hiptesis: los grupos difieren significativamente
entre s.
Variables: Independiente y dependiente
Nivel de medicin: la variable independiente es
categrica y la dependiente es continua.
Homogeneidad intragrupo y heterogeneidad
intergrupo

Calculo de la prueba F de ANOVA


Prueba
F = Media cuadrtica intergrupos
Media cuadrtica entre grupos
Media cuadrtica entre grupos= suma de cuadrados entre
grupos
grados de libertad entre grupos
gl =K 1 (donde K es el numero de grupos)
Media cuadrtica intra grupos= Suma de cuadrados
intragrupos
grados de libertad intragrupos
gl = n K (n es el tamao de la muestra, todos los grupos)

ANOVA - 1 via

Analysis of Variance
SS

Source
df
MS
F
Prob > F
----------------------------------------------------------------------------------------------Between groups
74384461
3 24794820.3
77.53
0.0000
Within groups
1.0135e+11 316910
319805.19
----------------------------------------------------------------------------------------------Total
1.0142e+11 316913 320036.879

Hacer
una prueba
para
ver cuales
grupos
diferentes
Bartlett's
testpos
for hoc
equal
variances:
chi2(3)
= son
606.7972
Prob>chi2 = 0.000

ANOVA multiple
Evalua el efecto de dos o ms variables
independientes sobre una variable dependiente.
Evala los efectos por separado de cada variable
independiente y los efectos conjuntos de dos o
mas variables independientes.
Nivel de medicion: dependiente (continua) e
independientes
( categricas).
X1
X2
X3

Anlisis No paramtrico
Una alternativa en la solucin de
problemas son los mtodos no
paramtricos o de distribucin libre,
los cuales no existen supuestos tan
numerosos ni severos y son
aplicables a cualquier variable, en
particular a las de tipo nominal u
ordinal as como a distribuciones
diversas

Cuales son los supuestos?


La mayora de estos anlisis no
presupuestos acerca de la forma de
poblacional. Aceptan distribuciones no

requieren de
la distribucin
normales

Las variables no necesariamente deben


medidas en un nivel por intervalos o razn
analizarse datos nominales u ordinales

de estar
, pueden

S se quiere anlisis no paramtricos a datos por


intervalos o razn, estos deben se resumidos a
categora discretas. Las variables deben ser
categricas

Estadsticas no
paramtricas:
Pruebas mas usadas:
1. Chi cuadrada
2. Dos muestras independientes: U de Mann
Whitney, Kolmogorov-Smirnov.
3. Varias muestras independientes: Kruskal
Wallis y mediana.
4. Dos muestras relacionadas: Wilconxon,
signos y McNemar.
5. Varias muestras relacionadas: Friedman, W
de Kendall y Q de Cochran.

Chi cuadrada o Ji cuadrado


Es una prueba estadstica que se usa para
evaluar hiptesis acerca de la relacin entre
dos variables categricas.
Simbolo: X2
Hiptesis a probar: Correlacionales
Variables: dos, no evalua relaciones causales

Chi cuadrado

Mide el grado de relacin que existe entre dos variab


n este caso es la relacin de dependencia.
VALORES OBSERVADOS
Si
Si

68

N
o
208

VALORES ESTIMADOS

TOTAL

276

187

2097

2284

TOTAL 255

2305

2560

No

255x 276 2305x 276


2560

2560

255 x 22842305x 2284


2560

2560

Chi cuadrado
VALORES OBSERVADOS
Dao

VALORES ESTIMADOS

No
Dao

TOTAL

Si

68

187

255

No

208

2097

2305

27.49

248.51

227.51

2056.49

TOTAL 276
2560
2284
2
2
2
(187
- 227.51)(2097
2
2
(208
- 248.51)
(68
27.49)
2056.49)
= -------------------+ --------------------+ ---------------------+ -------------------------

27.49
2

248.
51

227.
51

= 74.30Grados de libertad =1

2056.
49

Nivel de signif = 0.05

Tabla de distribucin Chi cuadrada

gl = (f-1)*(c-1)

Correlacion
Adems de la X2, existen otros coeficientes para
evaluar si las variables incluidas en la tabla de
contingencia o tabulacin cruzada estan
correlacionadas.
Coef Fi (): nominal
V de Cramer: nivel de medicion nominal
Lamda (b): nivel de medicion nominal
Gamma: nivel de medicion ordinal
La tau de Kendall (t) es un coeficiente de correlacin
por rangos.
Eta: nivel d emedicion nominal y de razon o intervalo

El coeficiente de correlacin de Spearman, (rho) es


una medida de la correlacin (la asociacin o
interdependencia) entre dos variables ordinales. Para
calcular , los datos son ordenados y reemplazados por su
respectivo orden.
Simbolo: rs
Esta dado por la expresin:

donde d es la diferencia entre los correspondientes


estadsticos de orden de x - y. n es el nmero de parejas.
El coeficiente de correlacin de Spearman es menos sensible
que el de Pearson para los valores muy lejos de lo esperado

Comparacin de medianas

En estadstica la prueba U de Mann-Whitney (tambin


llamada de Mann-Whitney-Wilcoxon, prueba de
suma de rangos Wilcoxon, o prueba de WilcoxonMann-Whitney) es una prueba no paramtrica aplicada
a dos muestras independientes.
Es la versin no paramtrica de la habitual prueba t de
Student.
Para calcular el estadstico U se asigna a cada uno de los
valores de las dos muestras su rango para construir

donde n1 y n2 son los tamaos respectivos de cada


muestra; R1 y R2 es la suma de los rangos de las
observaciones de las muestras 1 y 2 respectivamente.

Comparacin de medianas
La prueba de Kruskal-Wallis (de William Kruskal y W.
Allen Wallis) es un mtodo no paramtrico para probar si
un grupo de datos proviene de la misma poblacin.
Intuitivamente, es idntico al ANOVA con los datos
reemplazados por categoras.
Es una extensin de la prueba de la U de Mann-Whitney
para 3 o ms grupos.
Ya que es una prueba no paramtrica, la prueba de
Kruskal-Wallis no asume normalidad en los datos, en
oposicin al tradicional ANOVA. S asume, bajo la hiptesis
nula, que los datos vienen de la misma distribucin.
Una forma comn en que se viola este supuesto es con
datos heterocedsticos.

Anlisis Multivariado
Los mtodos de anlisis multivariado
son aquellos en que se analiza la
relacin entre diversas variables
independientes y al menos una
dependiente.
X
1

X2
X3
X4
X5

Regresin mltiple
Es una extensin de la regresin lineal slo que con mayor nmero de
variables independientes.
Sirve para predecir el valor de una variable dependiente conociendo el
valor y la influencia de las variables independientes incluidas en el
anlisis.
La informacin bsica que proporciona la regresin mltiple es el
coeficiente de correlacin mltiple (R), que seala la correlacin entre la
variable dependiente y todas las demas variables independientes
tomadas en conjunto.
El coeficiente puede variar de 0 a 1.00; cuanto ms alto sea su valor,
las variables independientes explicaran en mayor medida la diversidad
de la variable dependiente o que son factores ms efectivos para
predecir el comportamiento de esta ltima.
R2 (coef de correlacin mltiple al cuadrado) nos indica el porcentaje de
variacin en la dependiente debida a las independientes

Regresin mltiple
Los valores beta () indican el peso o influencia que tiene cada
variable independiente sobre la dependiente.

y = a + b1X1 + b2X2 + b3X3 + .....bkXk + e


Y : variable dependiente, explicada .
a: es una constante de regresin para el conjunto de
puntuaciones obtenidas.
b1, b2, b3...bk: son los pesos beta de las variables
independientes.
X1, x2, x3, ...xk: variables explicativas, independientes o
regresores que fija el investigador par hacer la prediccin.
K: es el nmero de parmetros independientes a tener en cuenta
en la regresin.
e: es la perturbacin aleatoria que recoge todos aquellos factores
de la realidad no controlables u observables y que por tanto se
asocian con el azar.

Corrida .....

Source |
SS
df
MS
----------------+-----------------------------
Model | 3.7290e+09
8 466123355

Residual | 9.7695e+10316905 308278.066


----------------+-----------------------------
Total | 1.0142e+11316913 320036.879

Number of obs = 316914


F( 8,316905) = 1512.02
Prob > F
= 0.0000
R-squared
= 0.0368
Adj R-squared = 0.0367
Root MSE
= 555.23

-------------------------------------------------------------------------------------------------pesorn |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------------+--------------------------------------------------------------------------------ag1 | -138.1885 2.416767 -57.18
0.000 -142.9253 -133.4517
ag3 | 29.42146 3.254785
9.04
0.000
23.04218 35.80075
an1 | -69.57674 6.897341 -10.09 0.000 -83.09533 -56.05814
an2 | 20.87316 2.306305
9.05
0.000
16.35286 25.39345
an4 | -36.82496 5.057489
-7.28 0.000
-46.7375 -26.91243
etude | -121.9748 10.33063
-11.81 0.000 -142.2225 -101.727
pn1 | -159.8445 2.831581
-56.45 0.000 -165.3943 -154.2946
pn2 | -182.6381 2.217018
-82.38 0.000 -186.9834 -178.2928
_cons | 3339.317 1.644091 2031.10 0.000
3336.095
3342.54
---------------------------------------------------------------------------------------------------

Como interpretar una regresion


multiple...

i: Nos dice cunto se espera que cambie la variable


dependiente si el nivel de la variable Xi se incrementa en
una unidad y los niveles de las variables independientes
restantes permanecen constantes.

Ej.
Coef
EE
p
IC 95 %
educacion: -121.974 10.33063
-11.81 0.000
-142.2225 -101.727
Si se tiene baja educacion (sin estudios o primaria) el peso
al nacer disminuye en 121 gramos si el resto de variables
se mantienen constantes.

Potrebbero piacerti anche