Sei sulla pagina 1di 7

APUNTES DE

ESTADÍSTICA
MATEMÁTICAS 1º BACHILLERATO CCSS

ÍNDICE

1. Definiciones básicas
2. Distribuciones unidimensionales
Distribuciones de frecuencias agrupadas
Parámetros estadísticos unidimensionales
3. Distribuciones bidimensionales
Tabla de doble entrada
Parámetros estadísticos bidimensionales
Recta de regresión

1. DEFINICIONES BÁSICAS
Muestra: número de datos que tomamos de la población para realizar un estudio

Tamaño muestral (n): número de observaciones en la muestra

Variable (x): característica a medir

 Cualitativa o categórica: no tiene carácter numérico (p. ej.: género, religión…)


 Cuantitativa: tiene carácter numérico. Puede ser:
o Discreta: toma valores numéricos fijos (p. ej.: número de hijos, de botellas…)
o Continua: toma valores en intervalos de números (p. ej.: estatura, peso…)

Dato: cada valor observado de la variable

DISTRIBUCIONES DE FRECUENCIAS: agrupaciones de los datos que se repiten varias veces.


2. DISTRIBUCIONES UNIDIMENSIONALES
 Frecuencia absoluta (ni): número de veces que se repite en la muestra un determinado
valor (xi) de la variable. Por ejemplo, si 12 familias han tenido 2 hijos, para x2=2, n2=12.
 Frecuencia relativa (fi): es la frecuencia absoluta dividida entre el número total de
datos: fi = ni/n
 Frecuencias acumuladas (Ni): número de datos que hay iguales o inferiores a uno
determinado (es la suma del número de frecuencias absolutas anteriores a él).
 Frecuencia relativa acumulada (Fi): división de cada frecuencia acumulada entre el
número total de datos.

2.1. DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS

Cuando la variable es continua y toma muchos valores, conviene agrupar sus valores en
intervalos de clase. Los intervalos, por regla general, están cerrados por la izquierda y abiertos
por la derecha (excepto el último). Su amplitud (ai) está definida por un límite superior (Li) y
un límite inferior (li), que pueden emplearse para calcular la marca de clase (ci) —el punto
medio del intervalo que es representativo del mismo. La marca de clase se utiliza para calcular
la frecuencia de clase (ni), que sería equivalente a la frecuencia absoluta; y también la
frecuencia relativa de clase (fi) y las frecuencias acumuladas (Ni y Fi).

El número de clases depende del tamaño de la muestra. Para un tamaño moderado (n


menor que 50), se suele determinar un número de clases √𝑛. Para muestras mayores se emplea
la fórmula de Struges. Pero todo va guiado por su aplicación práctica.

Para determinar la amplitud de los intervalos, se suele dividir el rango de valores de


la muestra Re (la diferencia entre el valor máximo y el mínimo que toma la variable) entre el
número de intervalos: ai = Re/nº intervalos.

2.2. PARÁMETROS ESTADÍSTICOS

DE CENTRALIZACIÓN

 Media aritmética (𝒙 ̅): cociente entre la suma de todos los datos y el número de datos.
 Mediana: valor que, al ordenar las observaciones de menor a mayor, ocupa el lugar
central, dividiendo al conjunto en dos partes iguales. Si el tamaño de la muestra es
impar, la mediana es un dato; si es par, la mediana son dos datos.
 Moda: valor de mayor frecuencia.

DE POSICIÓN

 Percentil (pn): valor de la variable por debajo de la cual se encuentra el porcentaje de


datos que se indica. Por ejemplo, el valor de la mediana es el percentil 50. En una clase
en la que todos hubiesen suspendido un examen, la nota 5 sería el percentil 100.
Partiendo de este concepto, encontramos que se habla de «cuartiles»,
«deciles»… Los cuartiles corresponden con el 25% (Q1 es el valor por debajo del cual
están el 25% de los datos, Q2 corresponde a la mediana…). Los deciles corresponden
con el 10% (D3 es el valor por debajo del cual están el 30% de los datos, D5 corresponde
a la mediana…)

DE DISPERSIÓN

 Rango o recorrido: diferencia entre el valor mayor y el menor de todos los datos.
 Desviación (respecto de la media): diferencia en valor absoluto entre un valor de la
variable y la media aritmética (|xi–x|).
 Desviación media: media aritmética de la suma de desviaciones.

∑𝑛𝑖=1 |𝑥𝑖 − 𝑥̅ |
𝐷𝑥̅ =
𝑁
Para datos agrupados, se usa la marca de clase ci en el lugar de xi y se multiplica por
la frecuencia absoluta de cada intervalo.

|𝑥1 − 𝑥̅ |𝑓1 + |𝑥2 − 𝑥̅ |𝑓2 + ⋯ + |𝑥𝑛 − 𝑥̅ |𝑓𝑛


𝐷𝑥̅ =
𝑁

∑𝑛𝑖=1 |𝑐𝑖 − 𝑥̅ |𝑓𝑖


𝐷𝑥̅ =
𝑁

 Varianza: media aritmética de la suma del cuadrado de las desviaciones respecto de la


media. Para datos agrupados, de nuevo, se utiliza ci como xi y se multiplica cada
desviación por la frecuencia absoluta de esa clase.

2
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑓𝑖 ∑𝑛𝑖=1 𝑥𝑖 2 𝑓𝑖
𝜎 = = − 𝑥̅ 2
𝑁 𝑁

 Desviación típica: raíz cuadrada de la varianza.


3. DISTRIBUCIONES BIDIMENSIONALES
La estadística bidimensional es el estudio estadístico conjunto de dos variables (x, y), buscando
establecer, cuando sea posible, una relación entre ambas. Especificamos «estadístico» porque
dos variables pueden relacionarse de varias formas. Puede existir:

 Dependencia funcional: se da cuando es posible predecir con exactitud los valores de


una variable a partir de los de la otra, tal que y = f(x).
 Independencia o incorrelación: las dos variables no tienen ninguna relación entre ellas,
como la estatura y la nota de matemáticas de una clase.
 Dependencia estadística o correlación: se da cuando no se puede establecer una
relación funcional pero sí parece que existe una interrelación. Por ejemplo, entre la nota
de matemáticas y la nota de física de una clase.
Esto es importante porque sólo podremos estudiar con los métodos de la
estadística bidimensional las variables que tengan alguna correlación entre sí.

Una manera de estudiar la posible correlación es mediante un diagrama de dispersión, que


es una representación gráfica en un sistema de ejes cartesianos de cada par (x, y) que creemos
relacionados. El resultado es una nube de puntos, que puede tomar la forma de una función
conocida (recta, parábola…) o de una elipse cuya estrechez indica la fuerza de correlación.

3.1. TABLA DE DOBLE ENTRADA

Es una tabla bidimensional de frecuencias en la que se ordenan los datos de las variables que
se creen correlacionadas. Explicamos su elaboración con un ejemplo:

NOTA DE
5 5 2 5 9 10 8 4 1 6
MATEMÁTICAS
NOTA DE FÍSICA 8 6 3 6 0 4 3 4 9 5

Esas son las notas de matemáticas y física (x e y respectivamente) de diez alumnos de una
clase. El que ha sacado un 10 en una ha sacado un 4 en la otra, y así.

Escribiremos en cada casilla el número de veces que se repita para par. Así, para todos los
pares es «1» salvo para (5, 6), combinación que se repite para dos alumnos.

x
0 1 2 3 4 5 6 7 8 9 10 fy
y
0 1 1
1
2
3 1 1 2
4 1 1 2
5 1 1
6 2 2
7
8 1 1
9 1 1
10
fx 1 1 1 3 1 1 1 1 10
fx y fy son las frecuencias marginales de cada variable, es decir, el número de veces que se
repite cada valor de la misma (la distribución que se obtiene al estudiar independientemente
cada variable). En la casilla inferior derecha está el número de pares contabilizados.

Para pasar una tabla de doble entrada a una de entrada simple, sólo tenemos que
«priorizar» una variable, y construir la tabla a partir de ella:

xi yi fi xi · fi yi · fi xi · yi · fi

1 9 1 1 9 9
2 3 1 2 3 6
4 4 1 4 4 16
5 6 2 10 12 60
5 8 1 5 8 40
6 5 1 6 5 30
8 3 1 8 3 24
9 0 1 9 0 0
10 4 1 10 4 40
10 55 44 225

Para cada variable podemos calcular de forma independiente los mismos parámetros que para
las distribuciones unidimensionales: media, mediana, moda, varianza, desviación media,
desviación típica… Para las distribuciones bidimensionales hay un algunos parámetros
específicos.

3.2. PARÁMETROS DE LAS DISTRIBUCIONES BIDIMENSIONALES

 Vector de medias (o centro de gravedad): el par de la media aritmética para una y


otra variable (𝑥̅ , 𝑦̅)
 Covarianza: es la media aritmética de los productos de la suma de las desviaciones de
cada variable respecto de la media.

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ ) (𝑦𝑖 − 𝑦̅)𝑓𝑖 ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 𝑓𝑖


𝜎𝑥𝑦 = = − 𝑥̅ 𝑦̅
𝑁 𝑁

Una covarianza positiva indica que ambas variables crecen o decrecen


simultáneamente (correlación directa); si es negativa, indica que cuando una crece, la
otra decrece (correlación inversa). Cuanto más alta sea la cifra de la covarianza, más
estrecha es la relación entre las variables. Si es cero o próxima a cero, no existe
relación entre las variables.

 Coeficiente de correlación (ρ): cociente entre la covarianza y el producto de la


desviación típica de las dos variables. ρ= ±1 es una correlación positiva o
𝜎𝑥𝑦
𝜌= negativa perfecta
𝜎𝑥 𝜎𝑦
ρ=0 significa que no existe correlación
Cuanto más se acerque ρ a 0, menor lineal (pero puede haber relaciones no
correlación lineal hay. lineales)
3.3. RECTA DE REGRESIÓN

Como decíamos antes, la representación gráfica de la correlación es un diagrama de dispersión,


cuyo resultado es una nube de puntos que puede tomar la forma de una función conocida
(aun cuando la dependencia de datos no es funcional, sino correlacional). Pues bien, llamamos
recta de regresión a la recta que mejor se ajusta a la nube de puntos. ¿Cómo construirla?

Por definición, la recta de regresión pasa por el centro de gravedad (𝑥̅ , 𝑦̅) —ya tenemos
un punto con el que construir la ecuación de la recta. Su pendiente será el cociente entre la
covarianza y la varianza de la variable x. Ya podemos obtener la ecuación punto-pendiente:
𝜎𝑥𝑦
𝑦 − 𝑦̅ = (𝑥 − 𝑥̅ )
𝜎𝑥
BIBLIOGRAFÍA

Vitutor

http://centros.edu.xunta.es/iesaslagoas/metodosesta/0documentos/T02_bidimensional
_03.pdf

Potrebbero piacerti anche