Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
cl
Contenido
Prueba T independiente: http://i.imgur.com/Z4uLQaf.gif ....................................................... 3
Prueba T entre grupos 1 y 5: http://i.imgur.com/MwKazpl.gif ................................................ 4
ANOVA de un factor esperanza de vida / región económica: http://i.imgur.com/lq6alvl.gif 4
ANOVA de un factor Post hoc y opciones: http://i.imgur.com/KP7wE0g.gif .......................... 5
Ejemplo de Chi cuadrado: http://i.imgur.com/SBEi13A.gif .................................................... 10
Ejemplo tabla de contingencia estadístico Chi cuadrado: http://i.imgur.com/Y1OoNat.gif 11
Tabla de frecuencia género / salud general: http://i.imgur.com/LM1zalK.gif ...................... 11
Tabla de contingencia con Chi cuadrado: http://i.imgur.com/bVpHGbJ.gif .......................... 12
La correlación:........................................................................................................................... 13
Tabla de correlación bivariada: http://i.imgur.com/VvvVPdq.gif .......................................... 14
Tabla de correlación bivariada con múltiples variables: http://i.imgur.com/96pRaqn.gif ... 16
Correlación 1 bivariada http://i.imgur.com/ofazKuS.gif ........................................................ 17
Correlación 2 Bivariada excluir casos según lista http://i.imgur.com/EvH8uK8.gif .............. 17
Gráfico de dispersión simple http://i.imgur.com/ASsjB56.gif ............................................... 18
Gráfico de dispersión simple http://i.imgur.com/fZ2e3lU.gif ................................................ 19
Correlación distancias http://i.imgur.com/RDzyZ2N.gif ........................................................ 20
Regresión lineal simple http://i.imgur.com/kd5zISD.gif ........................................................ 22
Regresion 2 http://i.imgur.com/psZCmhC.gif ......................................................................... 24
Regresión lineal múltiple http://i.imgur.com/gCadHlQ.gif .................................................... 25
Regresión 3 http://i.imgur.com/Swk5bgE.gif ......................................................................... 26
Datos de SPSS
Escalas: Números
Ordinal: Variables con categorías que poseen una lógica de orden (mayor a menor importancia, por
ejemplo).
Por ejemplo, la universidad entrega la nómina total de estudiantes de la universidad, y sale que la
media de los estudiantes de la universidad es de 23 años, ese es el valor poblacional. Uno hace la
muestra de 300 casos y efectivamente da en la muestra una media de 30 años. En este caso, uno
ingreso el valor de 30, lo prueba con el parámetro poblacional de 23 años y la prueba dirá si el valor
está dentro de lo permitido, o si hubo un error dentro de las encuestas realizadas.
La prueba T para muestras independientes: sirve para comparar 2 categorías que eran, por
ejemplo, personas de sexos diferentes (hombres y mujeres en cuanto a su ingreso).
En la vista de variables uno puede ver que variables le asigno, por ejemplo: 1 y 4 (GIF)
Prueba T
Con un valor de 0,000 rechazamos la igualdad de medias, lo que podemos decir es: la media de
esperanza de vida femenina de los países africanos respecto a la de los países de la OCDE es
significativamente (estadísticamente) diferente.
En este caso con una Sig. de 0,148 asumimos varianzas iguales, por lo que nos olvidamos de la fila
de abajo.
Valor de significación bilateral de 0,933. Se acepta por lo tanto la igualdad de las medias.
Prueba ANOVA: Con ANOVA es posible poner todos los grupos, no solamente 2 variables.
La lógica de ANOVA para dar la significación de 0,000 es sacar los estadísticos inter-grupos e intra-
grupos.
De aquí se sacan dos valores, el primero reconoce la variable esperanza de vida / región económica.
En el valor inter-grupos saca una diferencia en virtud de las diferencias entre los grupos y saca un
valor final.
Además, lo complementa con el valor intra-grupos que son las diferencias entre los valores de los
grupos mismos. Diferencias entre cada una de las categorías.
Mientras que intra-grupos son el número de las categorías (108 grupos – las 6 categorías)
Si uno toma el valor de la suma de cuadrados y lo divide por los grados de libertad dan la media
cuadrática.
Hipótesis nula: No hay diferencias entre las medias entre las categorías.
Mayor a 0,05: Si fuese mayor, se acepta la hipótesis nula y se rechaza la hipótesis alternativa.
Menor a 0,05: Con un valor menor a 0,05 vamos a rechazar la hipótesis nula. Es decir, aceptar la
hipótesis alternativa que postula la existencia de diferencias entre las medias.
Hipótesis alternativa: No quiere decir que todas las medias son diferentes, quiere decir que existe
al menos una media que es diferente al resto (no podemos saber que media es, solo sabemos que
no son todas iguales).
El más importante es la normalidad de las variables. Pero ANOVA en grupos de casos no demasiado
grandes igual soporta bien cuando no hay normalidades tan similares.
TABLA DE GIF
En virtud de esto, podemos cifrar que hay al menos una media diferente.
Gráfico de las medias
Tukey es una prueba que trata de agrupar a las medias en sus conjuntos, establecer categorías de
medias.
Por ejemplo: podemos concluir que si bien eran 6 valores, Tukey lo puede reducir a 4. Estos son los
grupos de variables realizables. Las 2 pruebas nos dicen que la media de África es imposible de juntar
con algún otro valor.
Nos dice además que la media de Europa Oriental con los países de la OCDE también es posible de
agruparlos en una categoría.
Es un análisis para ver cómo se comportan las medias y sus posibles relaciones.
En este caso Tukey no nos aporta demasiada información, en otros casos nos puede dividir las
variables de mejor manera, esa es su finalidad.
Recordar!
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Estas son pruebas
paramétricas.
En el diagnostico descriptivo, la lógica que tienen las variables no nos sirve de mucho, ya que si son
numéricos o categóricas, para un análisis descriptivo no tendrá mucho sentido, salvo que queramos
sacar una media aritmética en una variable categórica.
Cuando vamos más allá del análisis descriptivo, si nos va a importar cada variable ya que cada una
tendrá una prueba estadística diferente de acuerdo a su lógica.
Recordar que T de Student y ANOVA son pruebas paramétricas (cuando la distribución de la variable
es normal).
Por lo tanto Chi cuadrado es una prueba no paramétrica, a través de Chi cuadrado no voy a poder
establecer resultados que se generalicen al resto de la población. Solo pueden ser útiles para la
muestra específica.
¿Cuál es la lógica de Chi Cuadrado? La lógica de esta prueba es si dos variables categóricas están o
no relacionadas.
Lo que busca es obtener la relación mediante un estadístico que se llama estadístico de Chi
cuadrado, su lógica parte de la hipótesis de que las variables “quizás” no deberían comportarse de
igual manera.
Sin embargo como observamos que las variables son diferentes, podemos pensar que existe una
diferencia (hipótesis alternativa).
Chi cuadrado no nos dice cual variable influye sobre cual, esto puede ser realizado por medio de
inferencias básicas (de cada uno de nosotros).
Las tablas de contingencia sirven para cruzar 2 variables de tipo categóricas, en este caso Equipo /
Sexo.
Ejemplo tabla de contingencia estadístico Chi cuadrado: http://i.imgur.com/Y1OoNat.gif
Con un Chi-cuadrado de Pearson de 17,602 y 2 grados de libertad, podemos ver que se rechaza la
hipótesis nula.
Con un valor menor a 0,05 rechazamos hipótesis nula. Ósea, el género con el equipo de futbol si
están relacionados.
Para que Chi cuadrado funcione de buena manera, no debería ninguno de los cruces ser menor a 5
casos. (a) Si tenemos por ejemplo una muestra de 10 personas, con tablas de 3 x 3, no nos va a
funcionar. Y Chi cuadrado nos avisara el porcentaje de casillas que tienen una frecuencia esperada
menor a 5. En este caso ninguna tiene menos de 5. El valor máximo puede ser de 20% en una o dos
casillas.
Si tenemos 10 casillas que representan a un 80%, significa que Chi cuadrado no servirá y sus
resultados no pueden ser tomados en cuenta.
Archivo pain_medication.sav
Con estos datos ¿Podemos hacer una diferenciación entre hombre y mujer? Para esto lo podemos
hacer con una tabla de contingencia.
Aquí podemos observar que es mayor a 0,05 por lo que no podemos rechazar la hipótesis nula, así
que debemos aceptarlo y afirmar que el sexo no tiene nada que ver con la salud de una persona
(0,103).
Numérica – Numérica -> Correlación de Pearson y Spearman / y Regresión -> Ambas son pruebas
paramétricas.
La correlación:
Es una prueba estadística para medir la relación entre dos variables numéricas.
“Si en todos los países de Mundo_1995, la esperanza de vida femenina se relaciona con la esperanza
de vida masculina” (¿Mayor esperanza femenina = mayor esperanza masculina?)
(Cuando una sube, la otra también sube / Cuando una variable baja, la otra también baja).
Alto x – Bajo y
Alto y – Bajo x
(Cuando una sube, la otra baja / Cuando una variable baja, la otra sube)
La correlación solo mide relación entre dos variables y no la causalidad (en la regresión si es posible
medir causalidad).
0 = correlación nula
Valores cercanos a 0 será ausencia de correlación, mientras que cercanos a 1, tendrán una
correlación que se define en base a cuan cercano se encuentren.
Con valores cercanos al 0,75/-0,75: una correlación fuerte y es generalmente lo más aceptado
dentro de los resultados.
Recuerden que una variable con si misma nos dará un puntaje de 1 ya que cada punto coincide con
el punto de la otra variable (1 es a 1 o relación perfecta)
Una correlación de Pearson se utiliza cuando todas las variables son normales.
Cuando nos aparece que las variables no tienen una distribución normal, vamos a utilizar una
correlación de Spearman.
Tau-b de Kendall nos servirá para hacer correlaciones entre variables ordinales.
Aquí podemos ver por ejemplo que la Esperanza de vida femenina con Esperanza de vida masculina
están correlacionadas en un 0,982 (98,2%).
Nos dice por lo tanto que es casi perfecta y que además es lineal positiva.
Además, nos debemos fijar en el nivel de error que en este caso es de un 0,000.
Por último, si nos fijamos en el 0,982** lo que nos dice es que la correlación es significativa. (**)
Tabla de correlación bivariada con múltiples variables: http://i.imgur.com/96pRaqn.gif
Por ejemplo: En esperanza de vida femenina tenemos que observar los siguientes valores:
Tasa de natalidad / esperanza de vida femenina: -0,861 (a medida que una aumenta la otra
disminuye)
Casos de sida / esperanza de vida femenina: 0,019 (correlación directa casi nula)
Como el nivel de significación es de 0,846 aquí se puede concluir que: Si uno dice que la correlación
existe, tengo un 0,846 o 84,6% de probabilidades de que me equivoque por cada vez que haga
esta correlación.
Los N son 104, 107, 108, etc. debido a la cantidad de casos perdidos que puedan existir.
Entre producto interior bruto per-cápita y esperanza de vida femenina: Existe una correlación lineal
positiva mediana, con un nivel de error inferior a 0,05.
La lectura práctica será: A medida que aumenta el producto interior bruto, aumentará la
esperanza de vida femenina (o al revés: a medida que disminuye el producto interior bruto,
disminuirá la esperanza de vida femenina).
Entre casos de SIDA y esperanza de vida masculina: Existe una correlación nula.
Entre tasa de natalidad y habitantes en ciudades: Existe una correlación lineal negativa con una
fuerza de correlación mediana, con un nivel de error de 0, quiere decir que al aumentar una variable,
la otra disminuye.
Correlación 1 bivariada http://i.imgur.com/ofazKuS.gif
Ho = No están relacionadas
Cuando el valor estadístico es menor a 0,05, se rechaza la hipótesis nula y aceptamos la hipótesis
alternativa. Es decir, la esperanza de vida masculina está relacionada con la esperanza de vida
femenina.
Es posible ver que entre esperanza de vida masculina y esperanza de vida femenina hay una
correlación lineal positiva
Gráfico de dispersión simple http://i.imgur.com/fZ2e3lU.gif
Aquí podemos ver que no existe correlación entre esperanza de vida femenina y casos de sida.
La distancia es una medida estadística que nos va a informar de la similaridad o la disimilaridad de
valores.
Lo que hace es buscar donde hay mayores diferencias entre los valores de una correlación.
La distancia euclidiana es buscar cual es el valor, cuantificarlo, mediante el cruce que se da por una
lógica de cruce de variables.
Acerbaján / Afganistán = 38,013 demasiado alejados las variables de las esperanzas de vida
femenina y masculina.
De = Raiz cuadrada de 16 + 25
De = Raiz cuadrada de 41
De = 6,403
Lo que esto permite es ver las distancias entre las variables, las cuales deben ser analizadas para
captar su significado.
Regresión lineal
La correlación nos entrega solo relación entre las variables, pero no nos habla de cómo se traduce
esa relación, o cuales son las causalidades de esa relación.
Nos dice que el modelo 1, en donde la variable predictor son las personas alfabetizadas en
porcentajes. Estos valores son:
Va a corresponder al mismo valor que si uno hiciera una correlación entre las 2 variables.
Equivale a la desviación típica de los residuos, los espacios entre la línea perfecta de la regresión y
lo que se dio.
Calcula la suma del cuadrado de la regresión, del residuo y sus grados de libertad, y entrega el valor
de F.
Con un R cuadrado bajo, la pendiente no crecería mucho, pero como es de F = 309, vemos que la
pendiente es alta.
Entre las personas alfabetizadas y la esperanza de vida femenina si hay una relación estadística.
Coeficientes tipificados = Para comparar variables que no tuvieran las mismas unidades de medida.
Coeficientes no estandarizados.
Constante = B0
Variable 1 (% alfabetizadas) = B1
Por cada 1% que aumento el porcentaje de personas alfabetizadas se espera que la esperanza de
vida femenina, aumente en 0,4 años (0,402).
Regresion 2 http://i.imgur.com/psZCmhC.gif
Hay relación entre las variables
Por cada 1% de habitantes en ciudades, se espera de que la esperanza de vida femenina aumente
en 0,325 (0,3 años).
Explica en un 81.
Si uno se fija en el error de la estimación, de 5,380 se bajó a 4,655. Mejora la bondad de ajuste del
modelo.
Por cada 1% que aumente las personas alfabetizadas, se espera que aumente la esperanza de vida
femenina en un 0,301 o 0,3 años o 4 meses.
Si tuviese un signo negativo (- ,301) se espera que la esperanza de vida femenina disminuya en 0,3
años.
Regresión 3 http://i.imgur.com/Swk5bgE.gif
Hay relación
Sirven los 3.
Fijarse que aquí la ingesta diaria de calorías: por cada 1 caloría que aumente la ingesta diaria, la
esperanza de vida femenina aumenta en 0,005 años.
Por cada 100 calorías que aumente la ingesta diaria, la esperanza de vida femenina aumenta en 0,5
años.
Los betas sirven para comparar variables con distintas unidades de medida. Dentro de estas
variables la más importante del modelo es personas alfabetizadas (basándonos en el Beta, 0,545 vs
0,244 vs 0,236).
Si agregamos una cuarta variable, población en miles tiene un sig de 0,431 por lo que lo más
recomendable es sacarla.