Sei sulla pagina 1di 12

ESTADISTICA APLICADA

PAQUETES QUE ESTÁN PERO NO ACTIVADOS

Herramientas --- Cargar paquete

También podemos cargar un paquete escribiendo en las instrucciones “librabry (ca,


pos=17) – NOTA: 17 si está en la última versión, sino 19

CREAR NUESTRO PAQUETE:

Datos --- Nuevo conjunto de datos

TENER EL PAQUETE EN EL PC:

Datos --- Cargar conjunto de datos

TRABAJAR CON UN PAQUETE (EJ: MASS):

Datos --- Conjunto datos en paquetes --- Leer conjunto de datos desde paquete
adjunto --- seleccionar paquetes (Paquetes activos que tienen datos) --- Seleccionar
datos (ej: UScereal)

data(UScereal, package=”MASS”) data: comando con el que R ejecuta el paquete

¿Dónde se encuentra un conjunto de datos? --- Escribimos ?Chile (por ejemplo). A


continuación nos aparecerá que Chile se encuentra en car.

Visualizamos tanto Chile como UScereal y podremos comprobar que en la primera


aparecen números y en la segunda el nombre de los cereales (pueden aparecer tanto
números como caracteres)

1. ESTADÍSTICA DESCRIPTIVA
Chile

R no lo interpreta como una matriz, debido a que existen variables de distinto tipo
(números y letras). Este caso R lo conoce como una estructura “data frame” (esto
aparece en la info proporcionada por ?UScereal.

Existen tantos vectores como individuos haya.

Podemos visualizar Chile de dos formas:

1- Cambiando UScereal por Chile (lo azul)


2- Marcar cualquier “Chile” y ejecutar

Para diferenciar una variable de las demás (ej: age) : Chile$age

Para convertir esa variable en días --- Chile$age * 365

Para saber la info de Chile:


Estadísticos --- Resúmenes --- Conjunto de datos activos:

-NA`s : valores faltantes


-Sex : variable cualitativa dicotómica (atributo)

INDEXAR: hacer un índice

NOTA: el 4 es porque en R la edad ha aparecido en la columna situada en el puesto


número 4

Chile [,4] si no se pone nada coge todas las filas

Filas Columnas

Chile [1:30,4] Edades de los 30 primeros individuos.

Chile [1:30,4:5] Edades y nivel educativo de los 30 primeros individuos.

Chile [1:30, c(4,6)] Nos saltamos la columna 5 y sabremos la edad y los ingresos de
los primeros 30 individuos.

VARIABLE REGIÓN: CUALITATIVA = FACTOR

Para saber cuántos niveles:

Estadísticos --- Resúmenes --- Discreción Frecuencias --- Tiene 5 niveles y abunda
SA (Santiago de Chile)

C (600) M (100) N (322)… FRECUENCIA ABSOLUTA Diagrama sectores / barras

C (22,22) M (3,70)… FRECUENCIA RELATIVA

.table – R lo genera, da el resultado y luego lo borra

Histograma (cuidado con las escalas):

- Recuento frecuencias (absoluta)


- Porcentaje (relativa)
- Densidad = frecuencia/amplitud

Diagrama de cajas y bigotes:

Cuanto más largo, mayor


dispersión, menos homogéneo
3º Cuartil

Mediana

1º Cuartil
Cuanto más corto, menor
dispersión, desplazamiento
izquierda
Q3 - Q1  Recorrido Intercuartílico

(Q3 - Q1) * 1,5  Valor Atípico


Estadísticos --- Resúmenes --- Resúmenes numéricos --- Estadísticos:

-Valores centrales: Media, Cuartiles

-Medidas dispersivas: Desviación típica, Coeficiente de variación, Rango intercuartílico

-Medidas de Posición: Mediana, Cuartiles (Intervalo que contenga el 40% central en la


distribución son los percentiles .3 , .7 )

-Medidas de forma: Simetría (g1) – valor de referencia: 0 asimetría.


Curtosis (g2) – valor de referencia: < 0 =0 >0

Cv (Coeficiente de variación) cuanto más alejado del cero menos representativo y


menos homogéneo.

Cuando hay diferentes desviaciones típicas (sd) será más homogéneo el que sea más
pequeño.

INSERTAR DATOS DESDE UNA HOJA DE CÁLCULO

Hoja de Cálculo

1º Fila son variables.

Todo debe ir en el mismo formato (decimales con . o , todo en mayúsculas o


minúsculas…)

Copiamos

Datos --- Importar Datos --- Desde Portapapeles

Una vez visualizamos guardamos los datos, para ello si el procedimiento afecta a todo
el data frame: Conjunto de datos activos, si no afecta a todos: Modificar variables.
(Para este caso: conjunto de datos activos --- guardar conjuntos de datos activos).

Extensiones:

.RData  datos

.R  fichero de instrucciones

RELACIÓN ENTRE DOS VARIABLES DEL MISMO TIPO (USCereal)

Dos variables cuantitativas continuas (grasa y calorías). Este estudio debe empezarse
por los gráficos (diagrama de barras y/o nube de puntos).

Diagrama de Dispersión --- opciones --- caja dispersión marginal --- mostrar
extensión
Observamos que al aumentar una aumenta otra. También podernos observar el
diagrama de cajas y bigotes.

r  (-1,1) cuanto más se acerque al 1 mejor relación, si se da el caso de -0,6 y 0,45


tiene mayor relación el -0,6.

Quitar valores atípicos

Para saber cuáles son los valores atípicos:

Gráficas --- Modelo de cajas y bigotes

Para borrarlos:

Escribir fix(USCereal) --- columna atípico --- espacio + intro

MODELO DE AJUSTES (obtener r^2)

a = intercept
b = nº bajo intercept

 Modelo Lineal: cal ~ fat

Y = a + b*x
CAL = a + b*FAT

 Modelo Parabólico: cal ~ fat + I(fat^2)

Y = a + b*x + c*x^2
CAL = a + b*I(fat^2) + FAT^2

 Modelo Exponencial: log(cal) ~ fat

Y = e^(a + b*x)
CAL = e^(a+b*FAT)

 Modelo Potencial: log(cal) ~ log(fat)

Y = a + x^b
CAL = a + FAT^b

Si se da el caso en el que sea cero  log (cal) ~ log (fat+1)


Si existe algún valor negativo (Ej: -4)  log (cal) ~ log (fat+5)
Si existen muchas variables (grasas, hidratos…) realizaremos un Modelo de
Regresión Lineal Múltiple  y = a + b*x + c*x2 + d*x3…

RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS


Existen 3 formas para saber si una variable es independiente:

1. TABLA DE CONTINGENCIA

Estadísticos --- Tabla de Contingencia --- De doble entrada (si convirtiésemos seft
en factor sería de múltiple entrada) --- opciones (porcentaje files = marginar
columnas, porcentaje total = frecuencia relativa) seleccionamos todo menos el
último.

Una variable es independiente si cumple que 𝐟𝐢𝐣 = 𝐟𝐢. x 𝐟.𝐣

Ej: f11 = 0,046 Como 0,046 no es igual a 0,026


f1. = 22/65 son DEPENDIENTES
f.1 = 5/65

2. CHI CUADRADO

Si el chi cuadrado es pequeño son independientes, como en este caso tenemos un chi
cuadrado de 34,32 son DEPENDIENTES.

3. CONTRASTE DE HIPÓTESIS

Usaremos la metodología de Fisher:

1- Formulación de la hipótesis
2- Elección de la medida de discrepancia
3- Obtención de la discrepancia de la muestra (Chi cuadrado)
4- Discusión

p-valor: probabilidad de obtener una discrepancia mayor que la observada.

α: error tipo 1 ( probabilidad de rechazar H0 siendo cierta )

β: error tipo 2 ( probabilidad de aceptar H0 siendo falsa )

Grado de Libertad (df): (nº filas – 1) * 2 = (6 -1)*2 = 10

Distribuciones --- Distribuciones Contínuas --- Chi cuadrado --- Gráfica (Grados
Libertad = 10)

Cualquier función de densidad tiene dos propiedades:

-Suma de todas las frecuencias relativas = 1 ChiSquared Distribution: Degrees of freedom=10


0.10

-Suma frecuencias relativas = 1


0.08

-Área = 1
0.06
Density

α
Α: establece 2 regiones (aceptación y rechazo) 
0.04
0.02
0.00

5 10 15 20 25 30

Área 0,95  rechazo

𝑥 2 10, 0`95
CALCULAR PERCENTIL

Distribuciones --- Distribuciones continuas --- Chi cuadrado --- Cuantiles

0,05 Cola derecha


F(18,3) = 0,95 = P(X≤ 18,3)
0,95 Cola izquierda  18,30

Si se aumenta α disminuye la región crítica.

CALCULAR P-VALOR

Distribuciones --- Distribuciones continuas --- Chi cuadrado --- Probabilidad

SIEMPRE cola de la derecha. p-valor < α aceptamos H0


p-valor > α rechazamos H0
Valores de la variables = X 2

Xtabs  función que genera la tabla de contingencia


.Table  objetos que genera R y luego los borra, para recuperarlo pichamos sobre
esa línea (la de .Table), marcamos tl.table y ejecutamos.
 Operador asignación
Chisq.test 
plot(.Table)  genera gráfico mosaico
srt(“objeto”)  devuelve la estructura del objeto (Nos dice la info que contiene cada
cajón). Cuando escribo Chile$región nos enseña la info del cajón región

2. PROBABILIDAD
La variable aleatoria puede ser: Nº pruebas probabilidad éxito

-Discreta (valores puntuales) Modelo Binomial (Con reemplazamiento) B(n,p)

-Continua (Valores infinitos)  Modelo Hipergeométrico (Sin reemplazamiento)

Distibución --- Distribución discretas ---Binomial --- Gráficas

Tenemos B(10, 0´3). La media binomial es “N”. Cuando la variable discreta es muy
grande se aproxima a la normal. Idem con Poisson, cuya media es landa.

TIPIFICAR VARIABLE

Datos --- Modificar variables (solo afecta a 1) --- Tipificar


Para saber si ha funcionado se hace Estadísticos con Z.age (Mean = 0)

𝑋−𝜇
Z  N(0,1) (Para tipificar a la media le restamos 𝜇 y dividimos por 𝜎)
𝜎3

𝜇 s

N(𝜇,s)  𝐭 𝐧−𝟏

𝐗 𝟐𝐧−𝟏

𝐅𝐧𝟏
−𝟏

Datos --- Modificar variables --- Calcular nueva variable

3. INFERENCIA
Quiero estudiar a una población, por lo que saco una muestra representativa.
1- Elección de la muestra. ¿Cuánto vale “n”?
Debido a que es una variables aleatoria x1,x2… van cambiando.
Nunca podremos tener 𝜇 (ya que es una muestra de la población) pero sí una
aproximación, la cual obtendremos a partir de x (media), Me, s…

 (gorrito) = x (Media)  estimación

 (gorrito) = g1 (Simetría)  estimación

Como puede existir error introducimos 1-α = Nivel de confianza (Intervalos confianza)
x (media) ± Erro de estimación

Sc
x ± t n1 − 1 ∗α
2 √n
𝜎
X± 𝑧1− 𝛼 ∗
2 √𝑛
Error de estimación

 Para 1 variable y 1 poblacion:

Muestra

ALEATORIO NO ALEATORIO

¿NORMAL?

PARAMÉTRICO NO PARAMÉTRICO
- Descargar peso_altura del Campus
- Cargar conjunto de datos
- Visualizar conjunto de datos

1. Calcular la media ():

Estadísticos --- Resúmenes numéricos y obtenemos que  (gorrito) = x (Media) =


174,31 y que su desviación típica (σ) = 7,04

A partir de un histograma podemos obtener la altura.

2. Aleatoriedad:

Para calcularla utilizaremos el test de Rachas.


Racha: si tenemos una fila de hombres y mujeres en la cual primero están todas las
mujeres y después todos los hombres existirían 2 rachas. No obstante si están de
forma aleatoria (como es normal) sería de la siguiente forma:

H MM HHH M H M (6 rachas)

Es este caso al visualizar los datos podemos saber qué personas se encuentran por
encima de la media (+) y qué personas se encuentran por debajo de la media (-).

Si estuvieran ordenados de mayor a menos solo existirían 2 rachas, por ello solo
podemos aplicar el test de racha a los aleatorios.

H0: Aleatorios
H1: No aleatorios

Estadísticos --- Test no paramétricos --- Test aleatorio para variables “n”

Runs = 58 (rachas)  Si fuera no aleatorios serían 2 rachas, al ser diferente de 2


aceptamos la hipótesis nula.

3. Normalidad:

H0: normal
H1: No normal

Estadísticos ---Test normal de Shapiro Wilk (ALTURA)

Obtenemos que la medida de discrepancia = 0,98 (Como si fuera un r^2 (coef. De


determinación) para estudiar un ajuste) y un p-valor = 0,15 >> 5% por lo que no hay
motivos para rechazar la hipótesis nula.

Admitimos que es normal.


σ 𝑥− Sc
N( ,σ)  N ( , )  (Z, tipificar)  x ± tn1 − 1 ∗α
√𝑛 σ 2 √n

 Para 2 variables y 2 poblaciones:

H0: Am = Ah

H1: Am distinta Ah

2. Aleatoriedad

Volvemos a realizar el test de rachas y observar los valores atípicos con el Diagrama
de Cajas y Bigotes.

3. Normalidad

Si sale que las variables son aleatorias comprobamos la normalidad con el siguiente
contraste:

H0: n = 174 Bilateral: la hipótesis alternativa marca el sentido del


contraste.
H1: n distinto 174

<= y < (Cola de la izquierda), >= y > (Cola de la derecha). Indican hacia donde se
𝑥− 
mueve la medida de discrepancia ( 𝑠 ). Los 3(=,<= y >=) tienen en común el igual y
√𝑛
la metodología de Ficher.

Estadísticos --- Test t para una muestra

t = 0,44 df = 99 p-valor = 0,66

Por lo que se acepta la H0

Nota: región crítica asociada al α.

Para el 95% el intervalo se encuentra entre (172,913-175,707) el 174 se encuentra


dentro, no obstante para un α = 0,67 tendríamos un nivel de confianza de 0,33, por lo
que el 174 ya no estaría en el intervalo.

En el caso de que la altura no fuera normal sustituiríamos la media por la mediana:

No paramétrico  Mediana (coincide con la media en una distribución simétrica


N(0,1).

H0: Me = 174 Usaremos el Test de Wilcoxon, el cual usa rangos, suma los
positivos y negativos y los compara (si se acercan a 174 pone en
H1: Me distinto 174 medio la mediana.
Estadísticos --- Test no paramétricos --- Test Wilcoxon para 1 muestra

H0 = 174 V=2358,5  medida de discrepancia.

TCL  Teorema Central Límite (Cuando “n” es grande la suma de una normal da lugar
a la convergencia.)

4. Homocedasticidad

Una vez comprobado que son aleatorios y normales  𝜎12 = 𝜎22


(HOMOCEDASTICIDAD: ¿son homogéneas las 2 variables?)

tapply ( Variable (altura), Factor (sexo), Procesador)

Test de Rachas:

Estadísticos --- No paramétricos --- Aleatoriedad 1 muestra

-En RScript: tapply(peso_altura$ALTURA, peso_altura$SEXO, numeric.runs.test)

Mujer: p-valor = 0,76


Son Aleatorios
Hombre: p-valor = 0,9

Shapiro Wilk:

Estadísticos ---

En RScript: tapply(peso_altura$ALTURA, peso_altura$SEXO, shapiro.test)

Mujer: p-valor = 0,67

Hombre: p-valor = 0,06

𝜎12 / 𝜎22 = 1, para ello emplearemos la F de Snedecor:

Nota: no se hace diferencia de varianza (𝜎12 − 𝜎22 ) porque puede salir negativo, y la
varianza nunca puede ser negativa.

H0: 𝜎12 = 𝜎22


H1: lo contrario

Estadísticos --- --- Test F para 2 varianza

Obtenemos un p-valor = 0,18  Aceptamos H0, por lo que son HOMOCEDÁSTICAS.

Estadísticos ---- ---Test t para muestras independientes

Obtenemos un p-valor = 5,7*10^-6  Se rechaza la H0, por lo que la media de altura


de hombres no es igual a la de las mujeres.
Resúmenes --- Distribución de Frecuencias

Mujer: 46

Hombre: 54

También podemos cambiar el nivel de referencia:

Datos --- Modificar Variables (afecta a 1) --- Reordenar niveles de factor

Estadísticos --- Varianza --- Test F para 2 varianzas

T de student (1 parámetro)
Distribuciones asociadas N(0,1) Chi cuadrado (1 parámetro)
F de Snedecor (2 parámetros)  Fn1-1, n2-1
, 45 , 53
No hay motivos para rechazar H0

Intervalo de varianza (ratio of variances): si el 1 no estuviera en el intervalo el p-valor


sería menor a 0,05.

Al no haber motivos para rechazar H0 realizaremos el test t para muestras


independientes (paramétrico), soporta la distribución de t de student. Am < Ah el
contraste irá hacia la izquierda.

H0: Am = Ah  Am - Ah =0 Como en el intervalo (al hacer el test t para muestras
independendientes) no aparece el cero se rechaza la H0
H1: Am < Ah

Dos colas: una que da por debajo de -4,7 y la otra por encima, de tal forma que al
sumarlas den cero.

Si los datos no fueran aleatorios deberíamos muestrear de nuevo, ya que no se podría


realizar la inferencia.

Datos no normales usaremos Wilcoxon (No paramétrico)

H0: MeAm = MeAh NOTA: Si algunas de las poblaciones fueran NO


NORMALES podemos hacer Wilcoxon por el TCL,
H1: lo contrario ya que nuestro n>50

W = 636,5  Medida de discrepancia. p-valor = 2,7*10^-5  Rechazamos H0

ALTURA MUJER  N(,σ) ALTURA HOMBRE  N(,σ)

Si las medias no difieres significativamente, admitimos que ambas poblaciones son


iguales (No es nuestro caso ya que las medias difieren).
 Para 2 variables y 1 población:

En relación con los fármacos:

H0: padINI = padFIN  Fármaco no funciona

H1: padINI > padFIN  Después de tomarse el fármaco el efecto debe ser menor
que el inicial.

Si el fármaco es bueno al hacer Inicial – Final debe salir positivo.

Estadísticos --- Medias --- Test t para datos relacionados

p-valor = 0,32  aceptamos H0, fármaco no efectivo.

Si no fuera normal  test de wilcoxon muestras pareadas (Me no difiere


significativamente)

Potrebbero piacerti anche