Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Datos --- Conjunto datos en paquetes --- Leer conjunto de datos desde paquete
adjunto --- seleccionar paquetes (Paquetes activos que tienen datos) --- Seleccionar
datos (ej: UScereal)
1. ESTADÍSTICA DESCRIPTIVA
Chile
R no lo interpreta como una matriz, debido a que existen variables de distinto tipo
(números y letras). Este caso R lo conoce como una estructura “data frame” (esto
aparece en la info proporcionada por ?UScereal.
Filas Columnas
Chile [1:30, c(4,6)] Nos saltamos la columna 5 y sabremos la edad y los ingresos de
los primeros 30 individuos.
Estadísticos --- Resúmenes --- Discreción Frecuencias --- Tiene 5 niveles y abunda
SA (Santiago de Chile)
Mediana
1º Cuartil
Cuanto más corto, menor
dispersión, desplazamiento
izquierda
Q3 - Q1 Recorrido Intercuartílico
Cuando hay diferentes desviaciones típicas (sd) será más homogéneo el que sea más
pequeño.
Hoja de Cálculo
Copiamos
Una vez visualizamos guardamos los datos, para ello si el procedimiento afecta a todo
el data frame: Conjunto de datos activos, si no afecta a todos: Modificar variables.
(Para este caso: conjunto de datos activos --- guardar conjuntos de datos activos).
Extensiones:
.RData datos
.R fichero de instrucciones
Dos variables cuantitativas continuas (grasa y calorías). Este estudio debe empezarse
por los gráficos (diagrama de barras y/o nube de puntos).
Diagrama de Dispersión --- opciones --- caja dispersión marginal --- mostrar
extensión
Observamos que al aumentar una aumenta otra. También podernos observar el
diagrama de cajas y bigotes.
Para borrarlos:
a = intercept
b = nº bajo intercept
Y = a + b*x
CAL = a + b*FAT
Y = a + b*x + c*x^2
CAL = a + b*I(fat^2) + FAT^2
Y = e^(a + b*x)
CAL = e^(a+b*FAT)
Y = a + x^b
CAL = a + FAT^b
1. TABLA DE CONTINGENCIA
Estadísticos --- Tabla de Contingencia --- De doble entrada (si convirtiésemos seft
en factor sería de múltiple entrada) --- opciones (porcentaje files = marginar
columnas, porcentaje total = frecuencia relativa) seleccionamos todo menos el
último.
2. CHI CUADRADO
Si el chi cuadrado es pequeño son independientes, como en este caso tenemos un chi
cuadrado de 34,32 son DEPENDIENTES.
3. CONTRASTE DE HIPÓTESIS
1- Formulación de la hipótesis
2- Elección de la medida de discrepancia
3- Obtención de la discrepancia de la muestra (Chi cuadrado)
4- Discusión
Distribuciones --- Distribuciones Contínuas --- Chi cuadrado --- Gráfica (Grados
Libertad = 10)
-Área = 1
0.06
Density
α
Α: establece 2 regiones (aceptación y rechazo)
0.04
0.02
0.00
5 10 15 20 25 30
𝑥 2 10, 0`95
CALCULAR PERCENTIL
CALCULAR P-VALOR
2. PROBABILIDAD
La variable aleatoria puede ser: Nº pruebas probabilidad éxito
Tenemos B(10, 0´3). La media binomial es “N”. Cuando la variable discreta es muy
grande se aproxima a la normal. Idem con Poisson, cuya media es landa.
TIPIFICAR VARIABLE
𝑋−𝜇
Z N(0,1) (Para tipificar a la media le restamos 𝜇 y dividimos por 𝜎)
𝜎3
𝜇 s
N(𝜇,s) 𝐭 𝐧−𝟏
𝐗 𝟐𝐧−𝟏
𝐅𝐧𝟏
−𝟏
3. INFERENCIA
Quiero estudiar a una población, por lo que saco una muestra representativa.
1- Elección de la muestra. ¿Cuánto vale “n”?
Debido a que es una variables aleatoria x1,x2… van cambiando.
Nunca podremos tener 𝜇 (ya que es una muestra de la población) pero sí una
aproximación, la cual obtendremos a partir de x (media), Me, s…
Como puede existir error introducimos 1-α = Nivel de confianza (Intervalos confianza)
x (media) ± Erro de estimación
Sc
x ± t n1 − 1 ∗α
2 √n
𝜎
X± 𝑧1− 𝛼 ∗
2 √𝑛
Error de estimación
Muestra
ALEATORIO NO ALEATORIO
¿NORMAL?
SÍ
PARAMÉTRICO NO PARAMÉTRICO
- Descargar peso_altura del Campus
- Cargar conjunto de datos
- Visualizar conjunto de datos
2. Aleatoriedad:
H MM HHH M H M (6 rachas)
Es este caso al visualizar los datos podemos saber qué personas se encuentran por
encima de la media (+) y qué personas se encuentran por debajo de la media (-).
Si estuvieran ordenados de mayor a menos solo existirían 2 rachas, por ello solo
podemos aplicar el test de racha a los aleatorios.
H0: Aleatorios
H1: No aleatorios
Estadísticos --- Test no paramétricos --- Test aleatorio para variables “n”
3. Normalidad:
H0: normal
H1: No normal
2. Aleatoriedad
Volvemos a realizar el test de rachas y observar los valores atípicos con el Diagrama
de Cajas y Bigotes.
3. Normalidad
Si sale que las variables son aleatorias comprobamos la normalidad con el siguiente
contraste:
<= y < (Cola de la izquierda), >= y > (Cola de la derecha). Indican hacia donde se
𝑥−
mueve la medida de discrepancia ( 𝑠 ). Los 3(=,<= y >=) tienen en común el igual y
√𝑛
la metodología de Ficher.
H0: Me = 174 Usaremos el Test de Wilcoxon, el cual usa rangos, suma los
positivos y negativos y los compara (si se acercan a 174 pone en
H1: Me distinto 174 medio la mediana.
Estadísticos --- Test no paramétricos --- Test Wilcoxon para 1 muestra
TCL Teorema Central Límite (Cuando “n” es grande la suma de una normal da lugar
a la convergencia.)
4. Homocedasticidad
Test de Rachas:
Shapiro Wilk:
Estadísticos ---
Nota: no se hace diferencia de varianza (𝜎12 − 𝜎22 ) porque puede salir negativo, y la
varianza nunca puede ser negativa.
Mujer: 46
Hombre: 54
T de student (1 parámetro)
Distribuciones asociadas N(0,1) Chi cuadrado (1 parámetro)
F de Snedecor (2 parámetros) Fn1-1, n2-1
, 45 , 53
No hay motivos para rechazar H0
H0: Am = Ah Am - Ah =0 Como en el intervalo (al hacer el test t para muestras
independendientes) no aparece el cero se rechaza la H0
H1: Am < Ah
Dos colas: una que da por debajo de -4,7 y la otra por encima, de tal forma que al
sumarlas den cero.
H1: padINI > padFIN Después de tomarse el fármaco el efecto debe ser menor
que el inicial.