Sei sulla pagina 1di 74

Análisis estadístico

Denisse Ubaldo Suarez.


Introducción
• Al analizar los datos la intención es descubrir patrones y tendencias en los mismos
para poder interpretarlos.

• Las interpretaciones científicas no son verdades absolutas ni opiniones personales:


son inferencias o hipótesis sobre lo que significan los datos, basadas en el
conocimiento científico previo y la interpretación individual.

• Al publicar los datos y las técnicas que usaron para analizarlos e interpretarlos, los
investigadores dan a otros la oportunidad de revisar los datos y de usarlos en
investigaciones futuras.
Estadística
• Es la ciencia que se ocupa de la recopilación y ordenación de los datos que se pueden
valorar numéricamente, para obtener, a partir de ellos, conclusiones basadas en el
cálculo de probabilidades.
• Constituye un valioso e importante instrumento para la reunión, organización,
análisis e interpretación de los datos referentes a fenómenos relativos a la sociedad y
se divide en dos áreas: estadística descriptiva y la estadística inferencial.
Población
• Es un conjunto de personas (objetos) que tienen una característica observable en
común.
• El concepto de población, no necesariamente se refiere a un conjunto de datos no a
personas.
Población
Muestra
• Es un subconjunto de una población.
Parámetro vs estadístico
• Un parámetro se define como cualquier
resumen de los elementos de una
población.

• Un estadístico, es el promedio de los


datos.

• Los parámetros se representan con


letras griegas, mientras que los
estadísticos se representan con el
alfabeto romano o alguno de sus
caracteres.
• .
Parámetro vs estadístico
• Ejemplo: el promedio o media de una
población.
• .
Estadística descriptiva
• Su función es describir los datos, los valores o las puntuaciones obtenidas para cada
variable; es decir, organiza y resume los datos.

• Las principales técnicas que utiliza son:

a. Distribución de frecuencias 50
45
b. Gráficas 40
35

c. Medidas de tendencia central 30


25

d. Medidas de dispersión 20
15
10
e. Puntaciones z
5
0
Ciclo 1 Ciclo2
Industrial Sistemas Civil Electrónica
Distribución de frecuencias y gráficas
• Es un conjunto de datos ordenados en sus respectivas categorías, en donde pueden
agregarse frecuencias, frecuencias acumuladas, porcentajes, porcentajes acumulados,
proporciones, proporciones acumuladas, puntos medios, etc., todos ellos con
determinadas funciones y las gráficas son la representación esquemática de esos
datos.
La presentación de resultados puede hacerse en
tres formas:
I. Serie simple o serie de frecuencias unitarias.

II. Serie de frecuencias

III. Serie de clases y frecuencias.


Serie simple o serie de frecuencias unitarias
• Es la más sencilla, pues únicamente se Alumno Calificación
presentan los datos de la variable en
1 10
estudio.
• Ejemplo: la calificación de 15 alumnos 2 10
en MI puede presentarse en el orden
en que van apareciendo los datos, o de 3 10
mayor a menor o viceversa.
4 9

5 9

6 8

7 7
Serie de frecuencias
• Cuando el número de datos es grande, conviene transformar la serie simple de
frecuencias de la siguiente manera:

Calificaciones 3 4 5 6 7 8 9 10 Total

Frecuencias 1 2 4 6 7 9 7 3 39
Serie de clases y frecuencias

• La serie de frecuencias puede


transformase en una serie de Calificaciones Frecuencias
clases y frecuencias para 3-4 2
sintetizar aún más la
5-6 5
información. El ejemplo anterior,
quedaría así: 7-8 5
9-10 3
Total 15
Parámetros estadísticos

• Un parámetro estadístico es un número que se obtiene a partir de los datos de una


distribución estadística.
• Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o
una gráfica. Existen tres tipos de parámetros estadísticos:
I. De centralización.
II. De dispersión.
III. De posición.
Medidas de tendencia central

• Son las medidas que determinan o explican cual es el centro de la distribución de los
datos que se están analizando, ofrecen los valores centrales de un fenómeno estudiado
y tratan de encontrar un número que represente el promedio de un grupo
determinado, que generalmente se encuentra localizado a la mitad o centro de la
distribución de unos datos.
• Las principales medidas de tendencia central son la moda, la mediana y la media.
Moda (Mo) Edad
5
• La moda es el valor más repetido en 6
una distribución. Se representa 6
con Mo.
7
• Es posible encontrar la moda de 8
variables cualitativas y cuantitativas.
8 Moda
• La moda de la distribución 1, 2, 2, 3, 3, 8
3, 5, 5 es 3.
9
9
19
Edad
Moda (Mo) 8
5
6
• En algunas ocasiones, cuando son dos
los valores que aparecen con mayor 6
Moda
frecuencia, se dice que la distribución 6
es bimodal. 7
Bimodal
8
8 Moda
8
8
9
9
19
Moda (Mo) Edad Frecuencia
(f)
6 2
• Serie de frecuencias 7 3
8 5
9 8 Moda
10 3
11 4
12 6
Moda (Mo). Métodos para calcularla

I. Se observa la distribución de los


datos. Edad Frecuencia
(f)
II. Se localiza la clase con mayor
frecuencia a la que se le da el 3-4 7 Bimodal
nombre de clase modal (no 5-6 9
confundirlo con moda).
7-8 11
III. Se ubica el punto medio de esa clase 9-10 8
y el resultado será el valor modal de 11-12 6
esa serie.

El punto medio de esta clase es 7.5


Por lo tanto, la edad que se repite con mayor
frecuencia es 7.5 que es la moda de la
distribución de frecuencias.
Mediana (Me)
• Es la medida o el valor que divide a la distribución en 2 partes iguales, de manera que
por encima de la mediana se encuentra 50% de los casos y por debajo de ella, el 50%
restante.
• Resulta indispensable que los datos estén ordenados en forma creciente o decreciente.
• La mediana de una serie simple o una serie de frecuencias se obtiene con la siguiente
fórmula:

• Posición de la mediana = N + 1
2
Mediana (Me)
• Donde N es el número total de los datos de la distribución (total de observaciones).
Cuando el total de los datos de una serie simple es un número impar, la fórmula nos
da el lugar de la mediana.

• Ejemplo: la edad de nueve niños

3 4 4 5 6 8 8 8 10

• Posición de la mediana : 9 + 1 / 2 = 5

• Esto significa que en el quinto lugar se encuentra la mediana, que es el valor 6, el


cual queda exactamente a la mitad de la distribución.
Edad
Mediana (Me) 3
4
• Pero si el número de casos es 4
par, se realiza la misma 5
operación, con la salvedad que 6
la mitad de la distribución se 10 + 1 / 2 = 11/2 = 5.5
8
encuentra en medio de dos
8
valores, por lo que se efectúa
otra operación. 9
10
• Ejemplo:
10
Edad
Mediana (Me) 3
4
• Esto indica que la mediana se 4
encuentra entre los lugares que 5
ocupan los valores 6 y 8, por lo 6 6+8/2= 14/2 = 7
que se obtiene el punto medio de 8
esos dos números. La mediana de la serie es 7
8
9
10
10
Mediana (Me). Serie de frecuencias
C.I f fa
• Se saca la frecuencia acumulada
(fa), la cual se obtiene 91 5 5
acumulando las frecuencias de 100 9 14
cada clase desde la frecuencia 110 9 23
inicial .
115 10 33
• Ejemplo: 5+9=14+9=23+10= 33 120 7 33
125 6 46
• La última frecuencia debe ser
igual a la suma de las 130 4 50
frecuencias. 50
50+1/2= 51/2=25.5

El valor 25.5 se encuentra entre la posición


25 y26, pero ambas se encuentran en la fa 33,
por lo que la mediana es 115
Mediana (Me). Serie de clases y frecuencias
• La mediana se calcula con la
siguiente fórmula:
Mediana (Me). Serie de clases y frecuencias
• Ejemplo: Edad (x) F fa
3-4 5 5
5-6 11 16
7-8 17 33
9-10 10 43
11-12 7 50
Total 50
Media (𝑥)
• La media aritmética es el valor promedio de la distribución.
• Se trata del valor obtenido al sumar todos los datos y dividir el resultado entre el
número total de datos.
• La media aritmética se representa con el símbolo 𝑥

• 𝐸𝑗𝑒𝑚𝑝𝑙𝑜:
• 8, 10, 9, 9, 7,8
• X = 8 + 10 + 9 + 9 + 7 + 8 = 51 / 6 = 8,5
Media (𝑥). Serie de frecuencias
• Cuando el número de datos es grande, se transforma la serie simple simple en una
serie de frecuencias y se utiliza la siguiente fòrmula:
Edad (x) F fX
3 3 9
4 3 12
5 6 30
6 5 30
7 5 45
8 7 56
9 6 72
10 9 90
11 4 44
12 2 24
Promedio de edad de los niños es 7.8 50 394
Media (𝑥). Serie de clases y frecuencias
• Se utiliza la siguiente fòrmula:
Edad (x) F fX
3 3 9
4 3 12
5 6 30
6 5 30
7 5 45
• En el ejemplo anterior, se aumentan 2 8 7 56
columnas; una que corresponde la 9 6 72
punto medio (P.M) y otra de 10 9 90
multiplicar la frecuencia (f) por el P.M
11 4 44
12 2 24
50 394
Promedio de edad de los niños es 7.8
Media (𝑥). Serie de clases y frecuencias
Edad F P.M fP.M
Sustituyendo en la fòrmula se obtiene:
(x)
3-4 6 3.5 21
5-6 11 5.5 60.5
7-8 12 7.5 90
9-10 15 9.5 142.5
11-12 6 11.5 69
Total 50 383.0
Medidas de dispersión
• Las MTC no son suficientes para
describir la distribución de los datos,
ya que definen el valor característico
para una variable hacia el centro de
distribución, pero no indican como
están situados los datos con respecto al
centro.
• Las medidas que revelan la dispersión
de los datos reciben el nombre de
medidas de dispersión o
desviación, determinan el carácter
homógeneo o heterógeneo de un
conjunto de datos, presentan una
imagen clara de la distribución .
Rango o amplitud

• Es la medida de
dispersión más
elemental y es la
diferencia entre los
valores máximo y
mínimo de una serie de
valores adoptados por
una variable.
• Depende de los valores
extremos.
Rango o amplitud
• Tiene el inconveniente
de analizar los valores
con respecto a la
media, lo que impide
tener una idea precisa
de la dispersión.
• Por lo tanto, se
considera una medida
preliminar de la
dispersión.
Desviación estándar (s, 𝜎)

• Es la MD de mayor
uso y con ella se
determina que tanto se
desvía cada dato en
promedio con respecto
a la media aritmética.
Desviación estándar (s, 𝜎)

• El promedio de
alejamiento de cada valor
respecto a la media se
expresa en términos
lineales.
• Al aumentar la
desviación estándar, el
grado de dispersión de
los datos será mayor y
viceversa.
Varianza (s2)

• Es la medida de todos los


datos adoptados por la
variable que indica el
promedio de desviación
de todos los valores
respecto a la media.
• La varianza es la
desviación estándar
elevada al cuadrado.
Fórmula para obtener la desviación estándar de
una serie simple
• Es la medida de todos los
datos adoptados por la
variable que indica el
promedio de desviación
de todos los valores
respecto a la media.
• La varianza es la
desviación estándar
elevada al cuadrado.
Ejemplo:
Edad (X) 𝝌-𝝌 (𝝌-𝝌)2 1. Obtener la media aritmética de la
9 9-13 = -4 16
serie simple.
10 10 -13 = -3 9 2. El valor de la media aritmática
11 11 – 13 = -2 4 restarla a c/u de los valores de la
12 12 -13 = -1 1 serie.
13 13 – 13 = 0 0
3. El resultado se multiplica al
14 14 -13 = 1 1 cuadrado y se hace la sumatoria
15 15 – 13 = 2 4 de todos esos valores.
16 16 – 13 = 3 6
17 17 – 13 = 4 8
117 0 60
X = 13
Ejemplo:
4. Sustituir los valores en la fórmula, para esto
se realiza la sumatoria y el resultado se
divide entre 9, que es el número de casos
(con está fórmula se obtiene la varianza).

60
s= =6.6666 varianza
9

s = 6.6666 = 2.5819 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖𝑜𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟


Fórmula para obtener la desviación estándar de una
serie de frecuencias
Fórmula para obtener la desviación estándar de una serie de frecuencias
Edad f 𝝌-𝝌 (𝝌-𝝌)2 f (𝝌-𝝌)2
(X) 1. La columna f (x
9 3 9-13 = -4 16 48
10 5 10 -13 = -3 9 45
11 5 11 – 13 = -2 4 20
12 4 12 -13 = -1 1 4
13 9 13 – 13 = 0 0 0
14 8 14 -13 = 1 1 8
15 7 15 – 13 = 2 4 28
16 4 16 – 13 = 3 6 36
17 5 17 – 13 = 4 8 80
117 50 0 60 269
X = 13
Fórmula para obtener la desviación estándar de una serie de frecuencias

 La columna 𝑓 𝑋 − 𝑋 2 se obtiene multiplicando los valores de la columna 𝑋 − 𝑋 2 por la


frecuencia correspondiente. Ejemplo: 16 x 3 = 48 y 9 x 5 = 45

 Posteriormente se sustituyen los valores correspondientes de la fórmula.

Σ𝑓 𝑋−𝑋 2 269 = 5.38 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎


s= =
50
Σ𝑓

= 5.38 = 2.31 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟


Fórmula para obtener la desviación estándar de una serie de clases y
frecuencias
Edad f P.M. P.M-𝝌 (𝑷𝑴-𝝌)2 f (𝝌-𝝌)2
(X)
2
Σ𝑓 𝑃.𝑀−𝑋 9-10 3 9.5 9.5-13= -3.5 12.25 98
s=
Σ𝑓
11-12 5 11.5 11.5 – 13 = -1.5 2.25 20.25
13-14 5 13.5 13.5 – 13 = 0.5 0.25 4.25
15-16 4 15.5 15.5 -13 = 2.5 6.25 68.75
117-18 9 17.5 17.5 – 13 = 4.5 20.25 101.25
Total 50 292.5

 La columna 𝑓 𝑃𝑀 − 𝑋 2 se obtiene multiplicando los valores de la columna 𝑃𝑀 − 𝑋 2 por la


frecuencia correspondiente. Ejemplo: 12.25 x 8 = 98

 Posteriormente se sustituyen los valores correspondientes de la fórmula.

Σ𝑓 𝑋−𝑋 2 292 = 5.85 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎


s= =
50 = 5.85 = 2.41 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟
Σ𝑓
Puntuaciones z

 Es importante conocer la forma de la curva


que tiene la distribución para elegir los
métodos estadísticos adecuados.
 La curva normal es un tipo especial de
curva simétrica, la cual se basa en el
estudio de un gran número de casos.
 Es unimodal, por lo que su media,
mediana y moda siempre coinciden en un
mismo punto.
 Hace la forma de una campana, su
asimetría es cero, ya que la mitad de la
curva es exactamente igual a la otra mitad.

Campana de Gauss o curva de


los errores
Puntuaciones z

 La forma de campana, refleja la


distribución de frecuencias de
numerosas poblaciones
estadísticas, donde el error
subjetivo se lleva al mínimo.
 Las puntuaciones z son las
transformaciones que se pueden
hacer con el propósito de analizar
su distancia respecto a la media
en unidades de desviación
estándar.
Campana normal
Indica la dirección y el grado en
que un valor individual obtenido
se aleja de la media en unidades
de la DE
Puntuaciones z

x-x x = Puntuación o valor por transformar


z=
s
x = Media de la distribución

s = Distribución estándar

z = puntuación transformada en unidades de DE

Ejemplo: En una distribución de frecuencia se obtuvo una media de 50 y una DE de 10, se


desea comparar una puntuación de 40 con el resto de la distribución, se transforma esta
puntuación a puntuaciones z sustituyendo los valores:

40 - 50
z= = 1.0
10
Puntuaciones z

 Sirven comparar mediciones de distintas


pruebas o escalas aplicadas a los mismos
sujetos o participantes.

 También sirven para analizar distancias


entre puntuaciones de una misma
distribución y áreas de la curva que
abarcan tales distancias o para sopesar el
desempeño de un grupo de sujetos en
varias pruebas.

 Sus valores oscilan entre 0 y 1


Estadística inferencial
Estadística inferencial

 El objetivo de está es hacer


generalizaciones de alguna o
varias características de la
muestra a la población de la
cual se pretende generalizar
los resultados obtenidos.
Estadística inferencial
 Cuando se inicia una
investigación se tienen que definir
las variables que se van a medir,
formular hipótesis, seleccionar a
los sujetos de la muestra y
elaborar instrumentos de
recolección de datos, los cuales
serán analizados mediante la
estadística descriptiva.

 A estos datos ya analizados, se les


da el nombre de estadígrafos y a
las características más
representativas de una población
se les conoce como parámetros.
Probar hipótesis

 Las hipótesis son suposiciones que


el investigador sugiere y pone a
prueba.

 Si dicha afirmación es congruente con


los datos obtenidos en la muestra, se
acepta; si no, se rechaza, pero los datos
no se descartan.
Distribución muestral

 Es un conjunto de valores sobre


una estadística calculada de
todas las muestras de una
población, es decir, es la
distribución de las medias
aritméticas de todas las muestras
posibles que hayamos elegido.
Nivel de significancia

 El investigador debe evaluar si es


baja o alta la probabilidad de que la
media de la muestra esté cerca de la
distribución muestral.

 Esto lo hace con la forma de la curva


que presenta la distribución de sus
datos.
Nivel de significancia

 El NS es un valor de certeza que el


investigador fija a priori respecto a
no equivocarse.

 La clave está en determinar el


tamaño de la muestra.

 Existen 2 niveles de significancia: el


0.05 el cual implica que el
investigador tiene 95% de seguridad
para generalizar sus resultados a
toda la población y sólo el 5% en
contra .
Nivel de significancia

 El 0.01 el cual implica que el


investigador tiene el 99% a su favor y
el 1% en su contra.

 El nivel de significancia de 0.001 es


más riguroso, lo cual implica que la
muestra se incrementa.

 Entre mayor sea el tamaño de la


muestra, menor será la probabilidad
de que el valor de la observación dada
se desvíe del verdadero valor de una
observación.
Nivel de significancia

 Esto quiere decir, que cuanto más


grande sea la muestra, más cerca
estaremos de obtener el verdadero
valor de la población.
Nivel de significancia

 Cuando en una investigación se


tienen 2 o más grupos, ya sea de
muestras o de variables diferentes, se
utiliza la hipótesis nula (HO) y
aunque este bien formulada se
pueden cometer 2 tipos de errores,
que se advierten en los resultados
posibles al probar una hipótesis.
Nivel de significancia

I. Aceptar una hipótesis verdadera


(decisión correcta).

II. Rechazar una hipótesis falsa


(decisión correcta).
III. Rechazar la hipótesis nula cuando
debe ser aceptada (error tipo 1)
IV. Aceptar la hipótesis nula caunque
sea falsa (error tipo 2).
Estimar parámetros

I. La distribución de la o las
características que son de interés
para nuestro estudio dentro de la
población debe ser normal.
II. Los datos deben estar a nivel de
medición nominal, ordinal o
intervalar.
III. Cuando 2 o más poblaciones se
estudian deben tener varianza
homogénea.
Estadística paramétrica
Estadística Paramétrica

 El requisito más importante es la


normalidad, es decir, el que las
muestras deben tomarse de
poblaciones distribuidas de acuerdo
con la curva normal.

 La varianza de los grupos debe ser


igual, es decir, que debe de haber
homogeneidad de varianza.

 Que los datos sean medidas


continuas con intervalos iguales.
Pruebas Paramétricas

 Coeficiente de correlación de
Pearson y regresión lineal
 Prueba T
 Prueba de contraste de la diferencia
de proposiciones
 Análisis de varianza unidireccional
(ANOVA DE 1 VÍA)
 Análisis de varianza factorial
(Anova)
 Análisis de covarianza (Ancova)
Estadística No Paramétrica

 Se aceptan distribuciones no
normales.
 Las variables no necesariamente
tienen que estar medidas en nivel
por intervalo o de razón.
 Se pueden analizar datos nominales
u ordinales.
Pruebas No Paramétricas

 La ji cuadrada (x2)
• Los coeficientes de correlación e
independencia para tabulaciones
cruzadas.
• Prueba de Mann-Whitney
Pruebas No Paramétricas
Agregar un
título de
diapositiva (5)

Potrebbero piacerti anche