R Estadística

ESTADISTICA APLICADA
PAQUETES QUE ESTÁN PERO NO ACTIVADOS
Herramientas --- Cargar paquete
También podemos cargar un paquete escribiendo en las instrucciones “librabry (ca,

pos=17) – NOTA: 17 si está en la última versión, sino 19
CREAR NUESTRO PAQUETE:
Datos --- Nuevo conjunto de datos
TENER EL PAQUETE EN EL PC:
Datos --- Cargar conjunto de datos
TRABAJAR CON UN PAQUETE (EJ: MASS):
Datos --- Conjunto datos en paquetes --- Leer conjunto de datos desde paquete
adjunto --- seleccionar paquetes (Paquetes activos que tienen datos) --- Seleccionar
datos (ej: UScereal)
data(UScereal, package=”MASS”) data: comando con el que R ejecuta el paquete
¿Dónde se encuentra un conjunto de datos? --- Escribimos ?Chile (por ejemplo). A

continuación nos aparecerá que Chile se encuentra en car.
Visualizamos tanto Chile como UScereal y podremos comprobar que en la primera

aparecen números y en la segunda el nombre de los cereales (pueden aparecer tanto
números como caracteres)
1. ESTADÍSTICA DESCRIPTIVA
Chile
R no lo interpreta como una matriz, debido a que existen variables de distinto tipo
(números y letras). Este caso R lo conoce como una estructura “data frame” (esto
aparece en la info proporcionada por ?UScereal.
Existen tantos vectores como individuos haya.
Podemos visualizar Chile de dos formas:
1- Cambiando UScereal por Chile (lo azul)

2- Marcar cualquier “Chile” y ejecutar
Para diferenciar una variable de las demás (ej: age) : Chile$age
Para convertir esa variable en días --- Chile$age * 365
Para saber la info de Chile:

Estadísticos --- Resúmenes --- Conjunto de datos activos:
-NA`s : valores faltantes

-Sex : variable cualitativa dicotómica (atributo)
INDEXAR: hacer un índice
NOTA: el 4 es porque en R la edad ha aparecido en la columna situada en el puesto

número 4
Chile [,4] si no se pone nada coge todas las filas
Filas Columnas
Chile [1:30,4] Edades de los 30 primeros individuos.
Chile [1:30,4:5] Edades y nivel educativo de los 30 primeros individuos.
Chile [1:30, c(4,6)] Nos saltamos la columna 5 y sabremos la edad y los ingresos de
los primeros 30 individuos.
VARIABLE REGIÓN: CUALITATIVA = FACTOR
Para saber cuántos niveles:
Estadísticos --- Resúmenes --- Discreción Frecuencias --- Tiene 5 niveles y abunda
SA (Santiago de Chile)
C (600) M (100) N (322)… FRECUENCIA ABSOLUTA Diagrama sectores / barras
C (22,22) M (3,70)… FRECUENCIA RELATIVA
.table – R lo genera, da el resultado y luego lo borra
Histograma (cuidado con las escalas):
- Recuento frecuencias (absoluta)

- Porcentaje (relativa)
- Densidad = frecuencia/amplitud
Diagrama de cajas y bigotes:
Cuanto más largo, mayor

dispersión, menos homogéneo
3º Cuartil
Mediana
1º Cuartil
Cuanto más corto, menor
dispersión, desplazamiento
izquierda
Q3 - Q1  Recorrido Intercuartílico
(Q3 - Q1) * 1,5  Valor Atípico

Estadísticos --- Resúmenes --- Resúmenes numéricos --- Estadísticos:
-Valores centrales: Media, Cuartiles
-Medidas dispersivas: Desviación típica, Coeficiente de variación, Rango intercuartílico
-Medidas de Posición: Mediana, Cuartiles (Intervalo que contenga el 40% central en la

distribución son los percentiles .3 , .7 )
-Medidas de forma: Simetría (g1) – valor de referencia: 0 asimetría.

Curtosis (g2) – valor de referencia: < 0 =0 >0
Cv (Coeficiente de variación) cuanto más alejado del cero menos representativo y

menos homogéneo.
Cuando hay diferentes desviaciones típicas (sd) será más homogéneo el que sea más
pequeño.
INSERTAR DATOS DESDE UNA HOJA DE CÁLCULO
Hoja de Cálculo
1º Fila son variables.
Todo debe ir en el mismo formato (decimales con . o , todo en mayúsculas o

minúsculas…)
Copiamos
Datos --- Importar Datos --- Desde Portapapeles
Una vez visualizamos guardamos los datos, para ello si el procedimiento afecta a todo
el data frame: Conjunto de datos activos, si no afecta a todos: Modificar variables.
(Para este caso: conjunto de datos activos --- guardar conjuntos de datos activos).
Extensiones:
.RData  datos
.R  fichero de instrucciones
RELACIÓN ENTRE DOS VARIABLES DEL MISMO TIPO (USCereal)
Dos variables cuantitativas continuas (grasa y calorías). Este estudio debe empezarse
por los gráficos (diagrama de barras y/o nube de puntos).
Diagrama de Dispersión --- opciones --- caja dispersión marginal --- mostrar
extensión
Observamos que al aumentar una aumenta otra. También podernos observar el
diagrama de cajas y bigotes.
r  (-1,1) cuanto más se acerque al 1 mejor relación, si se da el caso de -0,6 y 0,45

tiene mayor relación el -0,6.
Quitar valores atípicos
Para saber cuáles son los valores atípicos:
Gráficas --- Modelo de cajas y bigotes
Para borrarlos:
Escribir fix(USCereal) --- columna atípico --- espacio + intro
MODELO DE AJUSTES (obtener r^2)
a = intercept
b = nº bajo intercept
 Modelo Lineal: cal ~ fat
Y = a + b*x
CAL = a + b*FAT
 Modelo Parabólico: cal ~ fat + I(fat^2)
Y = a + b*x + c*x^2
CAL = a + b*I(fat^2) + FAT^2
 Modelo Exponencial: log(cal) ~ fat
Y = e^(a + b*x)
CAL = e^(a+b*FAT)
 Modelo Potencial: log(cal) ~ log(fat)
Y = a + x^b
CAL = a + FAT^b
Si se da el caso en el que sea cero  log (cal) ~ log (fat+1)

Si existe algún valor negativo (Ej: -4)  log (cal) ~ log (fat+5)
Si existen muchas variables (grasas, hidratos…) realizaremos un Modelo de
Regresión Lineal Múltiple  y = a + b*x + c*x2 + d*x3…
RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Existen 3 formas para saber si una variable es independiente:
1. TABLA DE CONTINGENCIA
Estadísticos --- Tabla de Contingencia --- De doble entrada (si convirtiésemos seft
en factor sería de múltiple entrada) --- opciones (porcentaje files = marginar
columnas, porcentaje total = frecuencia relativa) seleccionamos todo menos el
último.
Una variable es independiente si cumple que 𝐟𝐢𝐣 = 𝐟𝐢. x 𝐟.𝐣
Ej: f11 = 0,046 Como 0,046 no es igual a 0,026

f1. = 22/65 son DEPENDIENTES
f.1 = 5/65
2. CHI CUADRADO
Si el chi cuadrado es pequeño son independientes, como en este caso tenemos un chi
cuadrado de 34,32 son DEPENDIENTES.
3. CONTRASTE DE HIPÓTESIS
Usaremos la metodología de Fisher:
1- Formulación de la hipótesis
2- Elección de la medida de discrepancia
3- Obtención de la discrepancia de la muestra (Chi cuadrado)
4- Discusión
p-valor: probabilidad de obtener una discrepancia mayor que la observada.
α: error tipo 1 ( probabilidad de rechazar H0 siendo cierta )
β: error tipo 2 ( probabilidad de aceptar H0 siendo falsa )
Grado de Libertad (df): (nº filas – 1) * 2 = (6 -1)*2 = 10
Distribuciones --- Distribuciones Contínuas --- Chi cuadrado --- Gráfica (Grados
Libertad = 10)
Cualquier función de densidad tiene dos propiedades:
-Suma de todas las frecuencias relativas = 1 ChiSquared Distribution: Degrees of freedom=10

0.10
-Suma frecuencias relativas = 1

0.08
-Área = 1
0.06
Density
α
Α: establece 2 regiones (aceptación y rechazo) 
0.04
0.02
0.00
5 10 15 20 25 30
Área 0,95  rechazo
𝑥 2 10, 0`95
CALCULAR PERCENTIL
Distribuciones --- Distribuciones continuas --- Chi cuadrado --- Cuantiles
0,05 Cola derecha

F(18,3) = 0,95 = P(X≤ 18,3)
0,95 Cola izquierda  18,30
Si se aumenta α disminuye la región crítica.
CALCULAR P-VALOR
Distribuciones --- Distribuciones continuas --- Chi cuadrado --- Probabilidad
SIEMPRE cola de la derecha. p-valor < α aceptamos H0

p-valor > α rechazamos H0
Valores de la variables = X 2
Xtabs  función que genera la tabla de contingencia

.Table  objetos que genera R y luego los borra, para recuperarlo pichamos sobre
esa línea (la de .Table), marcamos tl.table y ejecutamos.
 Operador asignación
Chisq.test 
plot(.Table)  genera gráfico mosaico
srt(“objeto”)  devuelve la estructura del objeto (Nos dice la info que contiene cada
cajón). Cuando escribo Chile$región nos enseña la info del cajón región
2. PROBABILIDAD
La variable aleatoria puede ser: Nº pruebas probabilidad éxito
-Discreta (valores puntuales) Modelo Binomial (Con reemplazamiento) B(n,p)
-Continua (Valores infinitos)  Modelo Hipergeométrico (Sin reemplazamiento)
Distibución --- Distribución discretas ---Binomial --- Gráficas
Tenemos B(10, 0´3). La media binomial es “N”. Cuando la variable discreta es muy
grande se aproxima a la normal. Idem con Poisson, cuya media es landa.
TIPIFICAR VARIABLE
Datos --- Modificar variables (solo afecta a 1) --- Tipificar

Para saber si ha funcionado se hace Estadísticos con Z.age (Mean = 0)
𝑋−𝜇
Z  N(0,1) (Para tipificar a la media le restamos 𝜇 y dividimos por 𝜎)
𝜎3
𝜇 s
N(𝜇,s)  𝐭 𝐧−𝟏
𝐗 𝟐𝐧−𝟏
𝐅𝐧𝟏
−𝟏
Datos --- Modificar variables --- Calcular nueva variable
3. INFERENCIA
Quiero estudiar a una población, por lo que saco una muestra representativa.
1- Elección de la muestra. ¿Cuánto vale “n”?
Debido a que es una variables aleatoria x1,x2… van cambiando.
Nunca podremos tener 𝜇 (ya que es una muestra de la población) pero sí una
aproximación, la cual obtendremos a partir de x (media), Me, s…
 (gorrito) = x (Media)  estimación
 (gorrito) = g1 (Simetría)  estimación
Como puede existir error introducimos 1-α = Nivel de confianza (Intervalos confianza)
x (media) ± Erro de estimación
Sc
x ± t n1 − 1 ∗α
2 √n
𝜎
X± 𝑧1− 𝛼 ∗
2 √𝑛
Error de estimación
 Para 1 variable y 1 poblacion:
Muestra
ALEATORIO NO ALEATORIO
¿NORMAL?
SÍ
PARAMÉTRICO NO PARAMÉTRICO
- Descargar peso_altura del Campus
- Cargar conjunto de datos
- Visualizar conjunto de datos
1. Calcular la media ():
Estadísticos --- Resúmenes numéricos y obtenemos que  (gorrito) = x (Media) =

174,31 y que su desviación típica (σ) = 7,04
A partir de un histograma podemos obtener la altura.
2. Aleatoriedad:
Para calcularla utilizaremos el test de Rachas.

Racha: si tenemos una fila de hombres y mujeres en la cual primero están todas las
mujeres y después todos los hombres existirían 2 rachas. No obstante si están de
forma aleatoria (como es normal) sería de la siguiente forma:
H MM HHH M H M (6 rachas)
Es este caso al visualizar los datos podemos saber qué personas se encuentran por
encima de la media (+) y qué personas se encuentran por debajo de la media (-).
Si estuvieran ordenados de mayor a menos solo existirían 2 rachas, por ello solo
podemos aplicar el test de racha a los aleatorios.
H0: Aleatorios
H1: No aleatorios
Estadísticos --- Test no paramétricos --- Test aleatorio para variables “n”
Runs = 58 (rachas)  Si fuera no aleatorios serían 2 rachas, al ser diferente de 2

aceptamos la hipótesis nula.
3. Normalidad:
H0: normal
H1: No normal
Estadísticos ---Test normal de Shapiro Wilk (ALTURA)
Obtenemos que la medida de discrepancia = 0,98 (Como si fuera un r^2 (coef. De

determinación) para estudiar un ajuste) y un p-valor = 0,15 >> 5% por lo que no hay
motivos para rechazar la hipótesis nula.
Admitimos que es normal.

σ 𝑥− Sc
N( ,σ)  N ( , )  (Z, tipificar)  x ± tn1 − 1 ∗α
√𝑛 σ 2 √n
 Para 2 variables y 2 poblaciones:
H0: Am = Ah
H1: Am distinta Ah
2. Aleatoriedad
Volvemos a realizar el test de rachas y observar los valores atípicos con el Diagrama
de Cajas y Bigotes.
3. Normalidad
Si sale que las variables son aleatorias comprobamos la normalidad con el siguiente
contraste:
H0: n = 174 Bilateral: la hipótesis alternativa marca el sentido del

contraste.
H1: n distinto 174
<= y < (Cola de la izquierda), >= y > (Cola de la derecha). Indican hacia donde se
𝑥− 
mueve la medida de discrepancia ( 𝑠 ). Los 3(=,<= y >=) tienen en común el igual y
√𝑛
la metodología de Ficher.
Estadísticos --- Test t para una muestra
t = 0,44 df = 99 p-valor = 0,66
Por lo que se acepta la H0
Nota: región crítica asociada al α.
Para el 95% el intervalo se encuentra entre (172,913-175,707) el 174 se encuentra

dentro, no obstante para un α = 0,67 tendríamos un nivel de confianza de 0,33, por lo
que el 174 ya no estaría en el intervalo.
En el caso de que la altura no fuera normal sustituiríamos la media por la mediana:
No paramétrico  Mediana (coincide con la media en una distribución simétrica

N(0,1).
H0: Me = 174 Usaremos el Test de Wilcoxon, el cual usa rangos, suma los
positivos y negativos y los compara (si se acercan a 174 pone en
H1: Me distinto 174 medio la mediana.
Estadísticos --- Test no paramétricos --- Test Wilcoxon para 1 muestra
H0 = 174 V=2358,5  medida de discrepancia.
TCL  Teorema Central Límite (Cuando “n” es grande la suma de una normal da lugar
a la convergencia.)
4. Homocedasticidad
Una vez comprobado que son aleatorios y normales  𝜎12 = 𝜎22

(HOMOCEDASTICIDAD: ¿son homogéneas las 2 variables?)
tapply ( Variable (altura), Factor (sexo), Procesador)
Test de Rachas:
Estadísticos --- No paramétricos --- Aleatoriedad 1 muestra
-En RScript: tapply(peso_altura$ALTURA, peso_altura$SEXO, numeric.runs.test)
Mujer: p-valor = 0,76

Son Aleatorios
Hombre: p-valor = 0,9
Shapiro Wilk:
Estadísticos ---
En RScript: tapply(peso_altura$ALTURA, peso_altura$SEXO, shapiro.test)
Mujer: p-valor = 0,67
Hombre: p-valor = 0,06
𝜎12 / 𝜎22 = 1, para ello emplearemos la F de Snedecor:
Nota: no se hace diferencia de varianza (𝜎12 − 𝜎22 ) porque puede salir negativo, y la
varianza nunca puede ser negativa.
H0: 𝜎12 = 𝜎22

H1: lo contrario
Estadísticos --- --- Test F para 2 varianza
Obtenemos un p-valor = 0,18  Aceptamos H0, por lo que son HOMOCEDÁSTICAS.
Estadísticos ---- ---Test t para muestras independientes
Obtenemos un p-valor = 5,7*10^-6  Se rechaza la H0, por lo que la media de altura

de hombres no es igual a la de las mujeres.
Resúmenes --- Distribución de Frecuencias
Mujer: 46
Hombre: 54
También podemos cambiar el nivel de referencia:
Datos --- Modificar Variables (afecta a 1) --- Reordenar niveles de factor
Estadísticos --- Varianza --- Test F para 2 varianzas
T de student (1 parámetro)
Distribuciones asociadas N(0,1) Chi cuadrado (1 parámetro)
F de Snedecor (2 parámetros)  Fn1-1, n2-1
, 45 , 53
No hay motivos para rechazar H0
Intervalo de varianza (ratio of variances): si el 1 no estuviera en el intervalo el p-valor

sería menor a 0,05.
Al no haber motivos para rechazar H0 realizaremos el test t para muestras

independientes (paramétrico), soporta la distribución de t de student. Am < Ah el
contraste irá hacia la izquierda.
H0: Am = Ah  Am - Ah =0 Como en el intervalo (al hacer el test t para muestras
independendientes) no aparece el cero se rechaza la H0
H1: Am < Ah
Dos colas: una que da por debajo de -4,7 y la otra por encima, de tal forma que al
sumarlas den cero.
Si los datos no fueran aleatorios deberíamos muestrear de nuevo, ya que no se podría

realizar la inferencia.
Datos no normales usaremos Wilcoxon (No paramétrico)
H0: MeAm = MeAh NOTA: Si algunas de las poblaciones fueran NO

NORMALES podemos hacer Wilcoxon por el TCL,
H1: lo contrario ya que nuestro n>50
W = 636,5  Medida de discrepancia. p-valor = 2,7*10^-5  Rechazamos H0
ALTURA MUJER  N(,σ) ALTURA HOMBRE  N(,σ)
Si las medias no difieres significativamente, admitimos que ambas poblaciones son

iguales (No es nuestro caso ya que las medias difieren).
 Para 2 variables y 1 población:
En relación con los fármacos:
H0: padINI = padFIN  Fármaco no funciona
H1: padINI > padFIN  Después de tomarse el fármaco el efecto debe ser menor
que el inicial.
Si el fármaco es bueno al hacer Inicial – Final debe salir positivo.
Estadísticos --- Medias --- Test t para datos relacionados
p-valor = 0,32  aceptamos H0, fármaco no efectivo.
Si no fuera normal  test de wilcoxon muestras pareadas (Me no difiere

significativamente)

R Estadística

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

R Estadística

Caricato da

Copyright:

Formati disponibili

ESTADISTICA APLICADA

PAQUETES QUE ESTÁN PERO NO ACTIVADOS

Herramientas --- Cargar paquete

También podemos cargar un paquete escribiendo en las instrucciones “librabry (ca,

CREAR NUESTRO PAQUETE:

Datos --- Nuevo conjunto de datos

TENER EL PAQUETE EN EL PC:

Datos --- Cargar conjunto de datos

TRABAJAR CON UN PAQUETE (EJ: MASS):

data(UScereal, package=”MASS”) data: comando con el que R ejecuta el paquete

¿Dónde se encuentra un conjunto de datos? --- Escribimos ?Chile (por ejemplo). A

Visualizamos tanto Chile como UScereal y podremos comprobar que en la primera

Existen tantos vectores como individuos haya.

Podemos visualizar Chile de dos formas:

1- Cambiando UScereal por Chile (lo azul)

Para diferenciar una variable de las demás (ej: age) : Chile$age

Para convertir esa variable en días --- Chile$age * 365

Para saber la info de Chile:

-NA`s : valores faltantes

INDEXAR: hacer un índice

NOTA: el 4 es porque en R la edad ha aparecido en la columna situada en el puesto

Chile [,4] si no se pone nada coge todas las filas

Chile [1:30,4] Edades de los 30 primeros individuos.

Chile [1:30,4:5] Edades y nivel educativo de los 30 primeros individuos.

VARIABLE REGIÓN: CUALITATIVA = FACTOR

Para saber cuántos niveles:

C (600) M (100) N (322)… FRECUENCIA ABSOLUTA Diagrama sectores / barras

C (22,22) M (3,70)… FRECUENCIA RELATIVA

.table – R lo genera, da el resultado y luego lo borra

Histograma (cuidado con las escalas):

- Recuento frecuencias (absoluta)

Diagrama de cajas y bigotes:

Cuanto más largo, mayor

(Q3 - Q1) * 1,5  Valor Atípico

-Valores centrales: Media, Cuartiles

-Medidas dispersivas: Desviación típica, Coeficiente de variación, Rango intercuartílico

-Medidas de Posición: Mediana, Cuartiles (Intervalo que contenga el 40% central en la

-Medidas de forma: Simetría (g1) – valor de referencia: 0 asimetría.

Cv (Coeficiente de variación) cuanto más alejado del cero menos representativo y

INSERTAR DATOS DESDE UNA HOJA DE CÁLCULO

1º Fila son variables.

Todo debe ir en el mismo formato (decimales con . o , todo en mayúsculas o

Datos --- Importar Datos --- Desde Portapapeles

RELACIÓN ENTRE DOS VARIABLES DEL MISMO TIPO (USCereal)

r  (-1,1) cuanto más se acerque al 1 mejor relación, si se da el caso de -0,6 y 0,45

Quitar valores atípicos

Para saber cuáles son los valores atípicos:

Gráficas --- Modelo de cajas y bigotes

Escribir fix(USCereal) --- columna atípico --- espacio + intro

MODELO DE AJUSTES (obtener r^2)

 Modelo Lineal: cal ~ fat

 Modelo Parabólico: cal ~ fat + I(fat^2)

 Modelo Exponencial: log(cal) ~ fat

 Modelo Potencial: log(cal) ~ log(fat)

Si se da el caso en el que sea cero  log (cal) ~ log (fat+1)

RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS

Una variable es independiente si cumple que 𝐟𝐢𝐣 = 𝐟𝐢. x 𝐟.𝐣

Ej: f11 = 0,046 Como 0,046 no es igual a 0,026

Usaremos la metodología de Fisher:

p-valor: probabilidad de obtener una discrepancia mayor que la observada.

α: error tipo 1 ( probabilidad de rechazar H0 siendo cierta )

β: error tipo 2 ( probabilidad de aceptar H0 siendo falsa )

Grado de Libertad (df): (nº filas – 1) * 2 = (6 -1)*2 = 10