Sei sulla pagina 1di 14

ESTADISTICA PABLO MONFORT

1. Estadistica descriptiva
Una vez queremos concluir unas hipotesis, recogemos muestra poblacion, y una vez tenemos la
muestra, describimos nuestro conjunto de datos. Describo los datos que yo tengo, si quiero sacar
conclusiones (ej, los alumnos de ps, reduce su ansiedad con ), tomo una muestra, hago estadistica
descriptiva sobre mi muestra, y para sacar conclusiones ya utilizo la inferencial. (Graficos, tablas de
frecuencia)
Medidas estadsticas:
Media, moda,varianza,
Poblacion = conjunto de personas hospitales paceintes sobre los que quiero extraer conclusiones,
donde voy a realizar, necesitamos carcter.
Variable = Resultado de test para medir ansiedad
-Cuantitativas (numerales, numericas)
-Discretas= numero finito de valores que puede tomar la variable (curso en el
que esta un alumno, hay cierto orden y es finito, no se pudee curso1,5, nota si
solo puede tomar valores de 0-10 y son puntuales 1 dos 3,5, pero no 3,52)
-Continuo = puede tomar cualquier valor en ese intervalo (ej, peso con
cualquier decimal de gramos, minutos de deporte, nivel de serotonina)
-Cualitativas (cualidades de la persona, sexo, edad, nivel de glucosa hiper,
hipoglucemico, nivel de ansierdad alto,mediobajo,)
EJ: 2 de cada (2 VV cualit HHSS, HHEM,2 VVCuantiDisc, Curso y nota, 2 VV cuant cont,
Minutos DEP y Nivel Serot)

Una vez tengo toda mi poblacion todos los alumnos de primero, pues no mido a todos si no que
tomo una muestra de tamao N=x (Tamao muestral de mi TFM), aqu se analizaran las variables,
se le pasaran los test.
Ejemplo:
Poblacion = Todos los pacients de la unidad de oncologia
Caracteres: Es lo que yo quiero analizar y variable es lo que uso medir (sexo, edad en aos o meses
que es cuantitativa discreta, numero de leucocitos numero de celulas por metro cubico
Muestra = 50 pacientes N=50 = tamao muestral.

MEDIDAS ESTADSTICAS
(centralizacin dispersin, posicin, forma) (cuadro en f(x) de variables)
(Conceptos)
-Media: (ms completa, todos los datos, valor de todos los datos, se incluyen los valores atpicos)
-Mediana (sirve para cuando hay datos atipicos, que puedan sesgar la media)
-Moda (centralizacion)
Desviacin tipica (cuando no hay datos atipicos)
Varianza
Cuasivarianza,
rango intercuartilico (con datos atpicos)
rango (dispersion, como estan de dispersos los datos)
Asimetria (ver si los datos son simetricos )
Curtosis (si se establece en la campana de gauss normal)

Tablas de frecuencia:
-Conjunto de datos (xi, x2, xn) n pacientes que le he medido n valores,
Frecuencia absoluta (numero de veces en absoluto que aparece ese dato)
Frecuencia relativa (cuantas veces aparece ese dato en porcentaje, sobre la muestra, entre o y 1 o
en %)
Fre absoluta acumulado: Cuantos datos hay que tienen ese valor o uno ms pequeo
Fre relativa acumulado: Cuantos datos hay que tienen ese valor o uno ms pequeo en proporcion
por el total, (0-1) y multiplicada por cien F R A en porcentaje.
Ejemplo CASO Cualittativo:
20 pacientes con 20 grupos sanguineos
Para hacer una tabla de frecuencia de estos valores: Poner los valores que toma mi variable (Ab, a, b
yo) Se ve la tabla de cuales son al relativa que lo explica muy bien.
Ahora otro caso de fr acumulado (que tomen ese valor o ms pequeo en aB, no vale porque no se
pueden ordenar) Ejemplo prisin, trafico de drogas, numero de aos que le queda a cada uno de los
reclusos, 25 reculusos. Si quiere cuanto quedan de aqu a un ao miro al acumulado, por acumula
los del primer ao que tengo un 28 y para dos aos pues ya llevo 36%.
CASO cuantitativo continuo (todos los valores posbiles en un intervalo) Aqui necesito rangos, aqu
si pongo los distintos valores que aprecen y cuantas vecen aparecen cada uno) Si pusiera saldria que
cada valor sale una vez, se hace por rangos por intervalo de 115 a 125 por ejemplo, da igual, pero

asi habra ms frecuencia en los datos


Quiero saber cuantos desecho si hasta 140 son legales, pues llegan 65% acumulados hasta 140 los
que faltan los desecho es decir 35%.
Forma de presentar: En porcentajes es decir relativa porcentaje si hay pocos pacientes, par ano
poner absoluta, que seria dos pacientes o dos coches, es mejor decir el 50%.
Ford disea un motor, g/km de CO2 en 40 simulaciones te dan 40 valores.

MEDIDAS DE POSICION:
Cuantil de orden 0,30 que me deja 30% de los valores hacia abajo, 0,70 es el de 70% hacia abajo
hacia cero, cuantil de orden 0,50 igual que mediana . Los deciles son un tipo concreto de Cuantil
(0,1, 0,20 , decil 1 decil 2, decil 5= mediana, Cuartil 2 = mediana)
Si quiere calcular el cuantil 0,37, busco el dato que deja el 37% hacia abajo y cojo ese dato.
Si te dicen que tu hijo esta en el percentil 73% deja un 73 porciento que estn mas flacos que el.
Varianza: Mide la dispersin de los datos y se calcula en funcin de todos los datos, por eso si hay
datos atpicos no lo uso por que sesga.
Desviacin tpica = Raiz cuadrada de la varianza (sn)
Cuasivarianza = que la varianza pero dividio por N-1, en vez de por N.
Estas cuatro? vienen afectadas por los datos atipicos
Si quiero describir mis datos doy una medida de centralizacin y otra de dispersin, en funcin de si
hay datos atpicos o no.
Rango intercuartlico: la diferencia entre Q3-Q1 (cuartir 3 el valor que me deja por debajo un 75,
cuartil uno el 25% de los datos), sirve por si hay un dato atpico muy arriba o muy abajo, como no
lo uso entre el 25-75, encuentro el rango intercuartlico.
Coeficiente de variacin: Cual de la alturas con el peso,esta ms dispersa por ejemplo, comparo
los dos coeficientes, ya que la varianza, nos sirve para unificar las medidas de dos variables
distintas, y ver si son dispersos o no.
MEDIDAS DE FORMA:
Coeficiente de asimetra: Me dicen si los datos son simtricos o no con respecto a su punto medio
(cuanto ms cerca este de 0 ms simtrico es) Se dice que es asimetrico g1<0 o g1>0, cuanto mas
negativo mas cargado hacia la derecha, cuando mas positivo hacia la izquierda, se dice con sesgo
positivo o sesgo negativo, no cargada der o izq

Coeficiente de Curtosis: Una vez es simtrica, saber si se distribuye con respecto a una campana
de Gauss, a una poblacin normal. (leptocurtica, mesocurtica, laticurtica, mirar en apuntes)

GRFICOS ESTADISTICOS
-Histograma
Cuantitativa continua, no hay espacios entre un valor y el siguiente, toma todo los
valores posibles, frecuencias absolutas, para decidir que numero de intervalos utilizo, en
funcin de los datos que tengo utilizo la regla de Sturges y eso hace el n de intervalos.
(para emisiones de motor entre 130-140, 150-160, decir la frecuencia absoluta de cada
uno de los intervalos, ejemplo en apuntes). Si lo hago con relativas es igual por que es
con porcentaje en vez de decirme que se repite dos veces digo que se me repite un 20%,
por ejemplo) (Si fuera cualitativa discreta si seria de barras)
-Diagrama de barras (cuantitativo discreto o cualitativa) cuantas veces aparece cada una de las
opciones, estn separados por que son valores individuales, no son intervalos)
-Polgono de frecuencias: es poner puntos arriba de cada barra del diagrama, uno por la linea.
-Diagrama de cajas o Boxplots: Variables cuantitativas continuas, lo amarillo es el rango
intercuartilico, la ralla negra es la mediana, la base de la caja es Q1, los datos atpicos son los
circulos por ahi, y las rallas fuera de la caja son datos max y min, sin tener en cuenta datos muy
dispersos, si en el Q3 hubiera altura 1,5 de ah pa bajo ahi un 75% de menos de 1,5 y el 25% son
mayores . (0,25 metros es el rango intercuartlico, es decir el 50 % de las alturas centrales estn
concentradas en 0,25 metros, Q3-Q1) Para ver si es simtrico, miro si la ralla de la mediana esta en
la mitad de la caja, y ademas los valores min y max con respecto a la caja, si no es todo simtrico
menos los datos atpicos, se puede intuir...)
Diagrama de sectores: Se asigna a cada modalidad en un angulo de 360 grados
Diagrama de tallo-hojas: Es mejor histograma que esto (cuantos datos hay entre 110 y 120, 11 + el
primer numero es el primer dato, en la segunda fila 12+ el primo) es ms completo por que en
histograma no se si son 100 los dos o 109 los dos, pero es menos visual.
ESTUDIO DE DOS VARIABLES CUANTITATIVAS
EDAD (AOS, al no poner 1,3 aos, se considera continua) Y PESO (KG) = 2 VV
CUANTITATIVAS CONTINUAS. (puedo hacer un histogramica, decir si es simetrica,
buscar medidad de centralizacin de dispersin, o hacer un bloxspot)
Ver la relacin que hay entre ambas (podemos hacer un diagrama de dispersin, x edad y
peso, y salen puntitos sobre lo disperso que esta los datos, cada punto una persona) Hay
relacion si aumenta x y aumenta, si aumento x disminuye y, hay relacion inversa, si
aumento x, hay un rango de cambio muy grande de y no se ve claro que aumente y o
disminuya, no parece que varie Y) Puede haber relacion cuadratica si hay una curva
convexa, hasta un punto disminuye apartir de hay aumenta. Los graficos nos dan

aproximacion pero necesitamos medirlo para saberlo con exactitud


Medidas que nos dicen como es de exacta esta relacion mas alla de los graficos: (cuantificar la
relacion entre las VV):
-Covarianza (Sxy): Entre dos variables, siempre esta comprendidad entre ((-Sx.-Sy<= Sxy >= Sx.
Sy (cuasivarianza = S)))), esta siempre entre esas cantidadad. Si la covarianza esta cercana a cero
signfica que no hay correlacin lineal, si esta proximo a Sx.Sy significa que si hay relacin lineal
creciente, y si se acerca a -Sx.-sy, hay relacin linea decreciente). Pero esto exige calcular
covarianza y los productos positivos y negativos. Entonces lleg alguien que crea la covarianza en 1
y -1, crea el coeficiente de correlacin lineal. Si en el grafico se ve linea horizontal para bajo, la
covarianza sera cercana a -sx.-sy y hace que sea correlacion lineal. Solo miden correlaciones
lineales, no cuadraticas si sale la parabola inversa, con este producto sigue saliendo que no hay
correlacin porque solo mide lineales.
-Coeficiente de correlacin (regresin) lineal: Siempre es un nmero entre menos 1 y 1, CCL
cerca 1 hay correlacion lineal creciente, cerca de -1 correlacion decreciente, y si esta cerca de cero
no hay correlacin. (cxy) si lo elevo al cuadrado es el coeficiente de determinacin.
-Coeficiente de Determinacin: Cxy al cuadrado, esd ecir covarianza entre desviaciones
tipicas al cuadrado. Nos determina como de bien nos explica la recta de regresion la Vx en
funcion de la Vy. Ejemplo si Cxy es uno, el de det es 1 al cuadrado por 100. Esto nos dice
que la recta de regresion lineal explica al 100% x en base a Y, al igual si fuera -1 es decir
relacin lineal decreciente perfecta. Si mi cxy es 0,9 el de detm es al cuadrado = ,081,
entonces la recta de regresion explica al 81% de y en funcion de x.
-Recta de regresin lineal: si en una recta, con relacin exacta, pues mido la recta te daria
algo como y = 3x +2, entonces queremos coger la recta que tenga menos distancia con
respecto a todos los puntos, (error cuadratico medio es la recta que mejor se ajusta a los
puntos, con menos fallo) Y asi sabes si una persona con ansiedad 7 en el eje X pues seria
igual y = 3x7 +2
Con todo esto veo las relaciones entre dos variables si es lineal o no.
ESTUDIO DE DOS VARIABLES CUALITATIVAS
Tambin hay graficos y medidas para determinar la relacin entre dos VV cualitativas (Segun si es
dicotimca, nominal, etc aplico un coeficiente u otro, pero todo sirve para ver si hay relacin entre
variables)
-Tabla de contingencia (los mismo que la tabla de frecuencia pero en cualittativa) Coeficiente C
de Pearson C= cuanto ms se acerque a cero no hay relacion si se acerca mas al valor de arriba si
hay correlacin.
Dentro de la variable a (a1, a2) y variable b (b1, b2...) Ej.: varon hipoucemico, mujer hipo... etc...
-Saber si el sexo influye en el nivel de glucemia de los pacientes (primer
h0= x e y son independientes ( si el coeficiente se acerca a O

h1 = son dependientes (si el coef se acerca al otro numero)


En funcin del pvvalor <0,05 (proximo dia explica con SSPS)
Grfico de relacin entre dos variables cualitativas:
Barras apiladas o agrupadas

EJERCICIO PRACTICA DIA 1


2 cuantitativas continuas
2 cuantitativas discretas

2 cualitativas
Que hacer en estas:
1) ver si los mintos de deportes influye en serotonina (grfico) 2 VV cuanti continuas.
-Hago un grafico de dispersin y veo como se relacionan

Los datos estan muy dispersos parece no haber relacin alguna.

Tabla de contingencia para ver como se reparten los pacientes con respecto aHHS y HHEM
tabla conjunta siempre contingencia dos variables conjuntas. (2 cualitativas)

Ver si el curso influye en los minutos de deporte, tanto grfico como nmericamente. (una
CuantDis y una Cuantcont)
cuant dis es como una cualit si tienes pocos niveles, pero como tiene muchos niveles hago
dispersin tambin.
Falta ver como relacionar numericamente: Aqui se hace numericamente en el diagrama de
dispersin: Aqui podriamos utilizar el coeficiente C de pearson y ver si hay relacion entre ambas
variables.

-Nota suspendo o no suspende comparar con el numero de min de deporte.


-Recodifico en nueva variable con rango de o a 4 es suspenso de 4 a 10.
Si supieramos hacer medias y contrastes hariamos primero saphiro wilk para ver normalidad y si la
hay ya elegimos con que hacerlo si hubiera normalidad
(Relacion en VV cualitativa, y VV cuant continua) Hago para T independientes= Comparacin de
medias.

Como no sabemos lo hariamos con un bloxspot:

Contraste de hipotesis:
Hnula =Ho
Halternativa = H1
1) ver si se distribuye en una disposicion normalidad
2) Ver si las medias son iguales
3) Ver si hay relacion o son independientes
Obtengo un pvalor y veo si me quedo la nula o la alternativa:
TIPOS DE CONTRASTE:
Ho

>0,05 nula (h0)


Pvalor

H1

<0,05 alternativa (h1)

-Primer paso: Saber si hay normalidad = Saphiro Wilk o Kolmogorof Smirtnov. (esto tb lo veo en
un contrast de hipotesis h0= si hay normalidad VS h1 = no hay normalidad, >0,05 h0 hay
normalidad---- <0,05 = h1 y no hay normalidad)
-Determinar la igualdad de la varianza (prueba de homocestadicidad, prueba de leven
o de Barlett). Si hay normalidad, cuando haga una prueba levene nos dice si las
varianzas son iguales. Me va a dar dos asuminedo que hay varianza o no, entonces
miro los pvalor y si acepto la nula las varianzas son iguales.
H0: VarXA= VarXb
H1: VarXB no es igual VarXB
- Igualdad de medias: Una vez se si hay normalidad, planteo el contraste de Hip de igualdad
de medias (nivel medio de ansiedad es igual en hombres que en mujeres, o en ancianos,nios y
adultos = ejemplos de esto)
Visual hago grfico para una aproximacin y despus ya elijo esto:
Estadstica paramtrica
Estadstica no paramtrica
(normalidad)
(no normalidad)
2 poblaciones

Hombre y mujer ver ansiedad

Hombre y mujer ver ansiedad

-Prueba T Student

-U de uman Whitney
-Friedman

3 o + poblaciones

Anc, adol y ios ver ansiedad

Anc, adol y ios ver ansiedad

(al menos son dos distintas es la H1, no que


las 3 sean distintas, *

-ANOVA

-Wilconson
-Kruskal Wallis

Resultados: H0 : Nivel media de poblacion A es = a nivel medio de poblacinB


H1: Nivel medio A no es igual que Nivel medio B

Mirar pvalor >o,o5 = ho si es < 0,


*Para ver en Que dos niveles hay diferencias? Si he obtenido H1: Analizo entre cuales, eso lo hago
mediante comparaciones mltiples.
Fiabilidad: Alfa de Cronbach para ver si un test es fiable
T de student + Anova =Analizar comparar medias (Anova de un factor, o prueba T
independientes, que sera hombres y mujeres o relacionadas, que seria pre post , o prueba T para
una muestra
Analizar pruebas no paramtricas: Cuadros de dialogos antiguos, pruebas para muestras
relacionadas, para una o para K, aqu ya sale wilconson, U de uman whtiney)
Normalidad: Shapiro Wilk Analizar explorar. Graficos con pruebas de normalidad, cuando salga el
outpout ya se ve la normalidad en shapiro o Kolmogorov.

Aprobado o no aprobado (prueb tde estudent)


y HHSSE (anova)
Primero hacer el de dos poblaciones ver si hay normalidad. si los minutos de deporte estan
relacionados con aprender
1) En histograma de las notas en aprobado

2) Normalidad
Si hay normalidad por que es >0,05

Como hay normalidad, y son 2 poblaciones, entonces escogemos T student

0,425 > 0,05 por lo que acepto H0, por lo que asumo varianzas iguales, por lo tanto me fijo en el
pvalor de arriba que es 0,943 que tb es mayor que o,05 nos dice que se asume la h0 que es que las
medias son iguales, es decir no hay diferencias entre min deporte y suspenso o aprobado.
2 parte con tres o ms niveles:
Min dep en funcion de HHSS
1)Histograma

asimetria: cercano a 0 es simetrico cuanto mas se aleja a - o + (mas asimet a la izquiera o a la


derecha
Curtosis: Si es muy parecido a una normal = 0 si se aleja mucho de cero por arriba o por abajo, hace
que este ms achatada o mas plano (leptocurtico, mesocurtica)
As HHSS alto 0,794 (es asimetrico a la derecha) Curt = 1,5
As HHS medio o,717 (as a la derecha) Curt= 1,4
As HHS bajo 0,717 (asimetrico a la derecha Curt = 1,4

???

2)Normalidad

las tres son >0,05 por lo que se acepta la nula por lo que hay normalidad.
3)Prueba de anova porque las 3 son normales

En el primer cuadro se ve que p-valor es = 0,342 esto es mayor que o,o5 por lo que se acepta la
nula, que nos dice que no hay diferencias entre ambas, por tanto no hay que fijarse en la de
comparaciones mltiples.
Pdf email que se llama ANOVa Practica 7