Sei sulla pagina 1di 11

Conceptos Básicos

La estadística es la ciencia de los datos, la cual implica su recolección,


clasificación, síntesis, organización, análisis e interpretación, para la toma de
decisiones frente a la incertidumbre.
Se puede decir que la estadística es un estudio que reúne, clasifica y recuenta todos
los hechos que tienen una determinada característica en común, para poder llegar
a conclusiones a partir de los datos numéricos extraídos.
Tipos de Estadística:
Descriptiva: Se puede definir como un método para describir numéricamente
conjuntos numerosos. Por tratarse de un método de descripción numérica, utiliza el
número como medio para describir un conjunto, que debe ser numeroso, ya que las
permanencias estadísticas no se dan en los casos raros. No es posible sacar
conclusiones concretas y precisas de los datos estadísticos.
Inferencial: Estudia la probabilidad de éxito de las diferentes soluciones posibles a
un problema en las diferentes ciencias en las que se aplica y para ello utiliza los
datos observados en una o varias muestras de la población. Mediante la creación
de un modelo matemático infiere el comportamiento de la población total partiendo
de los resultados obtenidos en las observaciones de las muestras.
La probabilidad es una medida de la certidumbre asociada a un suceso o evento
futuro y suele expresarse como un número entre 0 y 1 (o entre 0 % y 100 %).
Una forma tradicional de estimar algunas probabilidades sería obtener la frecuencia
de un acontecimiento determinado mediante la realización de experimentos
aleatorios, de los que se conocen todos los resultados posibles, bajo condiciones
suficientemente estables. Un suceso puede ser improbable (con probabilidad
cercana a cero), probable (probabilidad intermedia) o seguro (con probabilidad uno).
La teoría de la probabilidad se usa extensamente en áreas como la estadística, la
física, la matemática, las ciencias, la administración, contaduría, economía y la
filosofía para sacar conclusiones sobre la probabilidad discreta de sucesos
potenciales y la mecánica subyacente discreta de sistemas complejos, por lo tanto,
es la rama de las matemáticas que estudia, mide o determina los experimentos o
fenómenos aleatorios.
La teoría de la decisión es un área interdisciplinaria de estudio, relacionada con
diversas ramas de la ciencia, como la Administración, la Economía y la Psicología
(basados en perspectivas cognitivo-conductuales). Concierne a la forma y al estudio
del comportamiento y fenómenos psíquicos de aquellos que toman las decisiones
(reales o ficticios), así como las condiciones por las que deben ser tomadas las
decisiones.
Existen tipos de decisión que son interesantes desde el punto de vista del desarrollo
de una teoría, estos son:
 Decisión sin riesgo entre mercancías inconmensurables (mercancías que no
pueden ser medidas bajo las mismas unidades)
 Elección bajo impredecibilidad
 Elección intertemporal: estudio del valor relativo que la gente asigna a dos o
más bienes en diferentes momentos del tiempo
 Decisiones sociales: decisiones tomadas en grupo o bajo una estructura
organizativa
Población. Es el conjunto de todos los posibles elementos que intervienen en un
experimento o en un estudio. La hay de dos tipos:
 Población finita. Es aquella que indica que es posible alcanzarse o
sobrepasarse al contar. Es aquella que posee o incluye un número limitado
de medidas y observaciones.
 Población infinita. Es infinita si se incluye un gran conjunto de medidas y
observaciones que no pueden alcanzarse en el conteo. Son poblaciones
infinitas porque hipotéticamente no existe límite en cuanto al número de
observaciones que cada uno de ellos puede generar.
En estadística, una muestra es la selección de un numero de observaciones de a
partir de una población objeto de investigación; una muestra aleatoria es cuando la
elección sigue un método impredecible. El muestreo aleatorio puede referirse
también a tomar una serie de observaciones independientes de la misma
distribución de probabilidad.
Determinar el tamaño de la muestra que se va a seleccionar es un paso importante
en cualquier estudio de investigación de mercados, se debe justificar
convenientemente de acuerdo al planteamiento del problema, la población, los
objetivos y el propósito de la investigación.
La fórmula para calcular el tamaño de muestra cuando se desconoce el tamaño de
la población es la siguiente:
En donde,
Z = nivel de confianza, P = probabilidad de éxito, o proporción esperada, Q =
probabilidad de fracaso, D = precisión (error máximo admisible en términos de
proporción)
La fórmula para calcular el tamaño de muestra cuando se conoce el tamaño de la
población es la siguiente:

En donde, N = tamaño de la población Z = nivel de confianza, P = probabilidad de


éxito, o proporción esperada Q = probabilidad de fracaso D = precisión (Error
máximo admisible en términos de proporción).
Se llama variable aleatoria aquella que toma diversos valores o conjuntos de
valores con distintas probabilidades. Existen 2 características importantes de una
variable aleatoria, sus valores y las probabilidades asociadas a esos valores.
Una variable de interés es cada una de las características o cualidades que poseen
los individuos de una población.
Tipos de variable estadísticas
Variable cualitativa
Las variables cualitativas se refieren a características o cualidades que no pueden
ser medidas con números. Podemos distinguir dos tipos:
 Variable cualitativa nominal: Una variable cualitativa nominal presenta
modalidades no numéricas que no admiten un criterio de orden.
 Variable cualitativa ordinal: Una variable cualitativa ordinal presenta
modalidades no numéricas, en las que existe un orden.
Variable cuantitativa
Una variable cuantitativa es la que se expresa mediante un número, por tanto, se
pueden realizar operaciones aritméticas con ella. Podemos distinguir dos tipos:
 Variable discreta: Una variable discreta es aquella que solo puede tomar un
número finito de valores entre dos valores cualesquiera de una característica.
 Variable continua: Una variable continua es aquella que puede tomar un
número infinito de valores entre dos valores cualesquiera de una
característica.
Una tabla, gráfico o expresión matemática que dé las probabilidades con que una
variable aleatoria toma diferentes valores, se llama distribución de la variable
aleatoria.

Descripción de datos
Datos agrupados y datos no agrupados
Cuando la muestra que se ha tomado de la población o proceso que se desea
analizar, es decir, tenemos menos de 20 elementos en la muestra, entonces estos
datos son analizados sin necesidad de formar clases con ellos y a esto es a lo que
se le llama tratamiento de datos no agrupados.
Cuando la muestra consta de 30 o más datos, lo aconsejable es agrupar los datos
en clases y a partir de estas determinar las características de la muestra y por
consiguiente las de la población de donde fue tomada. Antes de pasar a definir cuál
es la manera de determinar las características de interés (media, mediana, moda,
etc.) cuando se han agrupado en clases los datos de la muestra, es necesario que
sepamos cómo se agrupan los datos.
Frecuencia de clase
Marca de clase (punto medio): punto que divide a la clase en dos partes iguales. Es
el promedio entre los límites superior e inferior de la clase.
Intervalo de clase: para una distribución de frecuencias que tiene clases del mismo
tamaño, el intervalo de clase se obtiene restando el límite inferior de una clase del
límite inferior de la siguiente.
Frecuencia Relativa
Es la relación o cociente entre la frecuencia absoluta y el número total de
observaciones. Es la proporción entre la frecuencia de un intervalo y el número total
de datos.
Punto Medio
Punto medio es el punto que divide a un segmento en dos partes iguales.
El punto medio de un segmento, es único y equidista de los extremos del segmento.
Cumpliendo esta última condición, pertenece a la mediatriz del segmento.
La fórmula para determinar el punto medio de un segmento en el plano, con
coordenadas: (x1,y1) y (x2,y2) es: [(x1 + x2) / 2] + [(y1 + y2) / 2]
Límites
Son los valores extremos que tiene el intervalo de clase, inferior y superior, entre
los cuales van a estar los valores de los datos agrupados en ese intervalo de clase.
Medidas de tendencia central
Media aritmética
La medida de tendencia central más obvia que se puede elegir, es el simple
promedio de las observaciones del grupo, es decir el valor obtenido sumando las
observaciones y dividiendo esta suma por el número de observaciones que hay en
el grupo.
La media aritmética se puede expresar como:

Ejemplo
Los pesos de seis amigos son: 84, 91, 72, 68, 87 y 78 kg. Hallar el peso medio.

Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media


es:
Ejemplo
En un test realizado a un grupo de 42 personas se han obtenido las puntuaciones
que muestra la tabla. Calcula la puntuación media.

xi fi xi · fi
[10, 20) 15 1 15
[20, 30) 25 8 200
[30,40) 35 10 350
[40, 50) 45 9 405
[50, 60 55 8 440
[60,70) 65 4 260
[70, 80) 75 2 150
42 1,820

Media geométrica
La media geométrica de un conjunto de observaciones es la raíz n-ésima de su
producto.
El cálculo de la media geométrica exige que todas las observaciones sean positivas.
Se puede expresar como:

Ejemplo
En una empresa quieren saber la proporción media de mujeres en los diferentes
departamentos. Para ello, se recoge el porcentaje de mujeres en los cinco
principales departamentos.
Como es la media de porcentajes, calculamos la media geométrica que es más
representativa.

Media ponderada
La media o promedio simple es la medida de tendencia central más utilizada; sin
embargo, cuando algunos de los valores por promediar son más importantes que
otros, por ejemplo, al evaluar a un empleado, su calificación en conocimientos,
puntualidad, presentación y otros conceptos tiene una importancia relativa diferente
en función a quién, hace la evolución.
Tal vez no sea lo mismo un empleado con 10 en conocimientos, 10 en puntualidad
y 7 en presentación (promedio = 9), que otro con 10 en conocimientos, 7 en
puntualidad y 10 en presentación (promedio = 9).
Cuando los valores por promediar tienen diferentes grados de importancia entre sí,
debe utilizarse el promedio ponderado, el cual aplica un factor de ponderación (o
importancia relativa) a cada uno de los valores que se van a promediar.
Ejemplo
La nota final de una asignatura es una media ponderada de las notas que han
obtenido los alumnos en los cuatro elementos evaluables que determina el profesor.
El responsable de la asignatura otorga un peso de 3 al examen inicial, de 1 al trabajo
entregable, 2 al trabajo final y 4 al examen final. Las notas de un alumno han sido
las siguientes:
Se hace la suma de los productos de las notas por el peso de cada nota y se divide
por la suma de los pesos.

Mediana
La mediana es una medida de posición que divide a la serie de valores en dos partes
iguales, un cincuenta por ciento que es mayor o igual a esta y otro cincuenta por
ciento que es menor o igual que ella. Es, por lo tanto, un parámetro que está en el
medio del ordenamiento o arreglo de los datos organizados, entonces, la mediana
divide la distribución en una forma tal que a cada lado de la misma queda un número
igual de datos.
Para encontrar la mediana en una serie de datos no agrupados, lo primero que se
hace es ordenar los datos en una forma creciente o decreciente y luego se ubica la
posición que esta ocupa en esa serie de datos; para ello hay que determinar si la
serie de datos es par o impar, luego el número que se obtiene indica el lugar o
posición que ocupa la mediana en la serie de valores, luego la mediana será el
número que ocupe el lugar de lo posición encontrada.
Ejemplo
Hallar la mediana de las siguientes series de números:
 3, 5 , 2, 6, 5 , 9, 5, 2 , 8 .

2, 2 , 3, 5, 5 , 5, 6, 8 , 9 .

Me = 5

 3, 5 , 2, 6, 5 , 9, 5, 2 , 8 , 6.

2, 2 , 3, 5, 5 , 5, 6, 6 , 8 , 9.

10 / 2 = 5
Moda
La moda es la medida de posición que indica la magnitud del valor que se presenta
con más frecuencia en una serie de datos; es pues, el valor de la variable que más
se repite en un conjunto de datos. De las medias de posición la moda es la que se
determina con mayor facilidad, ya que se puede obtener por una simple observación
de los datos en estudio, puesto que la moda es el dato que se observa con mayor
frecuencia. La moda se designa con las letras Mo.
Ejemplo
Calcular la moda de la siguiente serie de números: 5, 3, 6, 5, 4, 5, 2, 8, 6, 5, 4, 8, 3,
4, 5, 4, 8, 2, 5, 4.
Mo = 5

Un pediatra obtuvo la siguiente tabla sobre los meses de edad de 50 niños de su


consulta en el momento de andar por primera vez:
Meses Niños
9 1
10 4
11 9
12 16
13 11
14 8
15 1
Calcular la moda.
Mo = 12
Medidas de dispersión
Parámetros estadísticos que indican como se alejan los datos respecto de la media
aritmética. Sirven como indicador de la variabilidad de los datos. Las medidas de
dispersión más utilizadas son el rango, la desviación estándar y la varianza.
Varianza
Es otro parámetro utilizado para medir la dispersión de los valores de una variable
respecto a la media. Corresponde a la media aritmética de los cuadrados de las
desviaciones respecto a la media. Su expresión matemática es:

donde Xi es el dato i-ésimo y es la media de los N datos.

Desviación estándar
La desviación estándar mide el grado de disersión de los datos con respecto a la
media, se denota como s para una muestra o como σ para la población. Se define
como la raiz cuadrada de la varianza según la expresión:

Desviación media
Es la media aritmética de los valores absolutos de las diferencias de cada dato
respecto a la media.

Donde:
xi : valores de la variable.
n: número total de datos
Desviación mediana
El criterio que guía esta estadística, radica en el uso de diferencias de cada dato
respecto a la mediana muestral m.
Si estas diferencias son muy grandes, entonces estamos ante un caso de gran
variabilidad, y si son pequeñas se espera que la variabilidad sea pequeña.
Naturalmente que el criterio que parece más apropiado es agrupar las discrepancias
individuales y tratarlas en conjunto.
Un agrupamiento natural sería una suma de ellas, pero el sólo uso de las diferencias
no garantiza que se pueda medir discrepancias porque algunas (prácticamente la
mitad) serán menores que la mediana, con diferencias negativas, y el resto mayores
que la mediana, con diferencias positivas, y al sumar dichos valores habría
compensaciones entre valores negativos y positivos.
Por lo tanto, una salida a esta dificultad es considerar el valor absoluto de las
diferencias calculadas y promediarlos.
Esto conduce a la definición siguiente:
Dado un conjunto de datos, x1, ..., xn su desviación mediana d.m., está definida por

, donde m representa la mediana de los datos.

Puede verse entonces que, cuanto mayor sea la dispersión existente entre los
datos, tanto mayor tenderá a ser el promedio del valor absoluto de las diferencias
de los datos, respecto de la mediana muestral.
Esta estadística se encuentra medida en la misma escala que los datos originales,
lo que facilita su comprensión.
Rango
Indica la dispersión entre los valores extremos de una variable. se calcula como la
diferencia entre el mayor y el menor valor de la variable. Se denota como R.
Para datos ordenados se calcula como:
R = x(n) - x(1)
Donde: x(n): Es el mayor valor de la variable. x(1): Es el menor valor de la variable.

Potrebbero piacerti anche