Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
UNIDAD 1
INTRODUCCION A LA ESTADÍSTICA. CONCEPTOS BÁSICOS. ESCALAS DE MEDICIÓN. CUADROS Y GRÁFICOS PARA
REPRESENTACIÓN DE DATOS
¿QUE ES LA ESTADÍSTICA?
La Estadística es un conjunto procedimientos basados en el método científico utilizados
para recopilar, presentar y analizar los datos extraídos de un sistema en estudio, con el
objeto de interpretarlos tanto para extraer conclusiones y/o realizar inferencias, como para la
toma de decisiones basadas en las evidencias obtenidas en dicho análisis.
1
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
POBLACIÓN:
Constituye el marco de referencia del cual han sido extraídos los datos.
Es el conjunto de todos los elementos que estamos estudiando, acerca de los cuales
intentamos sacar conclusiones.
-Es la totalidad de las observaciones individuales, acerca de las cuales se hacen deducciones y
que existe en un área definida en el espacio y en el tiempo.
MUESTRA:
Es un conjunto de datos u observaciones obtenido de una población cualquiera
mediante un método prefijado.
Un ejemplo de muestra sería un niño pelirrojo, un tubo de ensayo con agua del arroyo.
2
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Esto es, que las características relevantes de la población estén presentes en la muestra en las
mismas proporciones con la que están presentes en la población.
El estudio de la muestra es más sencillo que el de una población completa, cuesta menos
e insume menos tiempo
Las técnicas de medición o las pruebas a las que deben ser sometidos los
elementos extraídos de la población puede significar la destrucción de los mismos
DATO:
Toda cualidad de un elemento (o ente) susceptible de ser medida
VALOR:
Dato individual (muestra elemental) que se obtiene al medir una variable cualquiera.
VARIABLE:
Característica o propiedad susceptible de ser medida en los elementos que
componen la población, que hace que estos se diferencien entre sí o bien se
diferencien con respecto a otra propiedad o característica cualquiera.
Una característica se clasifica como variable si al ser observada toma diferentes valores en
diferentes personas, lugares o cosas.
CUANTITATIVAS
CUALITATIVAS
3
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
La diferencia entre ellas, es que en el caso la variable cualitativa se tiene como respuesta la
pertenencia a una de las categorías posibles de la variable o sea respuestas categóricas,
mientras que las variables cuantitativas dan respuestas numéricas.
V ARIABLES C UANTITATIVAS :
Se denominan así a aquellas que pueden ser medidas en la forma habitual o que el resultado de
la medición es un número.
-Discretas: Solo puede asumir algunos valores. Por ejemplo valores enteros. Ej. Número
de dientes, recuento de glóbulos rojos, etc.
Es decir, los datos cuantitativos discretos, son el resultado de un recuento, mientras que los datos
cuantitativos continuos son respuestas numéricas que surgen de un proceso de medición.
VARIABLES CUALITATIVAS
Corresponden a características que no pueden ser medidas. Muchas de ellas solo pueden ser
clasificadas. Es decir estamos en presencia de una variable cualitativa cuando el resultado de
la medición es una clasificación, es decir establecer si una persona, lugar o cosa posee o no una
característica de interés. Ejemplos: la variable sexo admite dos valores: masculino o femenino.
ESCALAS DE MEDICIÓN
Según la clasificación de Stevens se definen tres escalas de medición que son: nominal,
ordinal y numérica .
Los métodos estadísticos denominados paramétricos exigen que las variables estén medidas en
escala de intervalo o de razón, reservándose los no-parametricos para el caso de variables
medidas en escala nominal u ordinal.
4
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
ESCALA NOMINAL
Existen situaciones, en que los valores de una variable no son numéricos, con ausencia
de orden entre ellos. Se dice en este caso que la variable correspondiente es de tipo cualitativo
y que la escala de medida de sus posibles valores es nominal.
La forma más sencilla de determinar si las observaciones se miden con una escala nominal, es
preguntar si estas se clasifican o colocan en categorías.
En su forma más sencilla la escala nominal es dicotómica, es decir tiene únicamente dos
posibilidades. La clasificación de contaminada y no-contaminada para muestras de agua, por
ejemplo es una escala nominal, pues clasifica a las muestras de acuerdo con la presencia
o ausencia de contaminantes. Es dicotómica, pues no permite más que dos posibilidades.
Existen escalas nominales politómicas, en las cuales las posibilidades de clasificación son más de
dos.
La presentación de los datos, como para cualquier variable cualitativa suele hacerse
mediante cuadros en los que en una de las columnas se indican la s distintas
categorías y en otra el número de observaciones correspondiente a cada una de
ellas.
Se pueden asignar valores numéricos para representar las diferentes clases o categorías
en una escala nominal; pero estos números no poseen propiedades cuantitativas y sirven
únicamente para identificar las clases.
Ejemplos de variables medidas en una escala nominal son: sexo, nacionalidad, tipos de
fuentes de aguas para consumo humano, tipos de contaminantes, etc.
5
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
-Grupo 0
-Grupo A
-Grupo B
-Grupo AB
ESCALA ORDINAL
A veces se le asigna un valor numérico a las distintas categorías, dando una falsa impresión de
que se trata de escalas más refinadas o, lo que es más grave aún, dado el valor numérico, los
datos se procesen utilizando métodos aplicables únicamente para escalas numéricas.
Lo más adecuado sería designar a las categorías por medio de letras (A, B, C, etc.), de manera
de evitar la manipulación estadística, tal como el cálculo de promedios, aplicables solo
a escalas numéricas.
6
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Una característica importante de las escalas ordinales es que aunque exista un orden
entre las categorías, la diferencia entre dos grupos adyacentes no es la misma en toda
la escala.
Para comprender esto consideremos las clasificaciones Apgar, que describen la madurez de
niños recién nacidos en una escala de 0 a 10, los valores menores indican depresión de
funciones cardiorrespiratorias y neurológicas. Sin embargo, es probable que la diferencia entre
una clasificación 8 y una 6 no sea de la misma magnitud que entre 0 y 2. Otros ejemplos de
variables medidas en una escala ordinal son: calidad de un alimento, respuesta a un
tratamiento, nivel socioeconómico, etc.
La escala numérica constituye la etapa más desarrollada de las escalas de medición. En ella, no
solo es posible establecer un orden entre las observaciones, sino también es posible
conocer la distancia que separa una de otras.
ESCALA NUMÉRICA DE I NTERVALO : Si únicamente tiene sentido la diferencia entre los valores,
careciendo de sentido numérico la razón entre ellos, se dirá que la variable esta medida
en escala de intervalo.
En el caso de la escala de intervalo, los valores que representan las categorías de las variables
son efectivamente cuantitativas y es posible calcular “distancias” entre dos mediciones, pero no
el cociente. Esto es, permite cálculos aditivos, pero no multiplicativos y el cero está situado en
una posición arbitraria, es decir no existe un valor límite que exprese realmente la ausencia
completa de la cualidad medida. La temperatura corporal y el cociente de inteligencia (IQ) son
ejemplos da variables medidas en escala de intervalo. En la “medición” de la inteligencia
humana no existe un cero absoluto, lo que equivaldría a ausencia absoluta de inteligencia, ni
puede afirmarse que un alumno con un IQ de 120 es el doble de inteligente que uno con un IQ
7
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
de 60. Tampoco se puede decir que 30° C es el Doble de temperatura de 15°C, ya que en la
escala Centígrada de temperatura el 0°C esta puesto arbitrariamente.
ESCALA NUMÉRICA DE RAZÓN: Si tiene sentido hablar de la razón entre sus valores, se dirá que la
variable está medida en escala de razón.
La escala de razón o de proporciones tiene las mismas propiedades que la escala por intervalo,
con la diferencia de que parten de un cero absoluto y permite cálculos multiplicativos tales
como la obtención de proporciones, cocientes y comparaciones entre razones y tasas.
Cero absoluto implica que hay un punto en la escala donde no existe la propiedad o
característica que se está midiendo. Peso, talla, concentración de colesterol son ejemplos de
variables medidas en escala de razón.
Los métodos estadísticos denominados paramétricos exigen que las variables estén medidas en
escala de intervalo o de razón, reservándose los no-paramétricos para el caso de variables
medidas en escala nominal u ordinal.
8
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
La forma más simple de presentar los datos nominales (u ordinales si no hay demasiadas
categorías) es colocar en un cuadro las categorías en una columna y en la otra las frecuencias
o los porcentajes de las observaciones como se muestra en el siguiente ejemplo:
Se muestran los resultados obtenidos en una encuesta realizada en la vía pública acerca de la
religión. La variable religión presento los siguientes valores: cristianismo, judaísmo, islam, Budismo,
Hinduismo. Los resultados fueron los siguientes:
Budismo Hinduismo
5% 3%
Islam
13%
Cristianismo
Judaismo
Islam
Budismo
Hinduismo
Judaismo Cristianismo
31% 48%
9
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
60%
50%
40%
30%
20%
10%
0%
Cristianismo Judaismo Islam Budismo Hinduismo
Para ilustrar algunos de los métodos más comunes de presentación de datos numéricos
se utilizaran los valores correspondientes a las concentraciones de Fluoruros en el agua de
consumo de la Ciudad de Oberá-Misiones ,correspondiente al año 1987.
1.70 1.10 0.46 0.98 1.30 1.15 1.20 0.98 0.40 0.40
1.60 1.00 0.38 0.42 1.40 1.20 0.88 1.10 0.42 0.40
1.00 0.60 0.44 0.22 1.50 0.96 0.60 1.20 0.44 0.78
1.00 0.55 0.37 0.34 1.40 0.94 0.94 0.90 0.46 0.74
1.00 0.42 0.46 0.43 2.00 0.98 0.94 0.94 0.41 0.82
0.70 0.64 0.36 0.60 1.40 0.94 0.96 1.00 0.43 0.80
0.90 0.50 0.42 0.52 1.30 0.95 0.90 1.05 0.39 0.76
1.70 0.52 0.38 0.61 1.20 1.00 0.84 1.00 0.40 0.72
1.20 0.40 0.45 0.52 0.96 0.92 0.80 1.00 0.41 0.80
0.90 0.44 0.42 0.53 0.95 1.00 0.94 1.00 0.44 0.65
0.98 0.50 0.42 0.38 1.00 0.82 0.93 0.30 0.43 0.68
0.92 0.52 0.40 0.35 1.10 0.80 1.00 0.44 0.44 0.70
0.90 0.44 0.28 0.47 1.10 1.00 1.05 0.42 0.42 0.72
0.94 0.42 0.37 0.42 1.20 1.00 0.98 0.40 0.44 0.65
1.00 0.52 0.34 0.54 1.10 1.10 0.96 0.37 0.40 0.72
1.00 0.48 0.37 1.20 1.00 0.90 1.00 0.38 0.40 0.70
Valores de Concentración de Fluoruros en el Agua de Consumo de la Ciudad de Oberá- Misiones -Año 1987
(mg/l)
10
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
ARREGLO ORDENADO
Cuando se obtienen los datos que componen la muestra, los valores resultantes llegan al
analista en la forma en que fueron obtenidas y sin ningún tipo de ordenación, constituyendo lo
que se denomina datos sin procesar.
Esta forma de presentación no facilita el análisis de la información, de allí que sea necesario
efectuar algún tipo de organización de los datos. El arreglo ordenado constituye una de las
formas más sencillas de presentarlos, y consiste simplemente en disponer los valores de las
observaciones en un orden decreciente o creciente.
0.22
0.30
0.34
Completar
1.60
1.70
1.70
2.00
Este tipo de arreglo permite determinar rápidamente los valores máximo y mínimo, identificar
los valores mas frecuentes y agrupar los datos en secciones.
DISTRIBUCIONES DE FRECUENCIAS
Cuando el número de observaciones aumenta el arreglo ordenado ya no es práctico
para
presentar los datos y resulta más conveniente construir una tabla de distribución de
frecuencia simple o con intervalos de clase.
Una distribución de frecuencia es una tabla resumen la que los datos se arreglan en clases o se
agrupan en categorías ordenadas en forma numérica, establecidas de modo conveniente.
11
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Una distribución de frecuencia (simple), consiste en una tabla donde se consignan en una
columna los valores de la variable ordenados de menor a mayor y en otra sus
correspondientes frecuencias, es decir, el número de veces que se repite cada valor.
12
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Es importante tener presente que se pierde algo de información al construir los intervalos, por
ejemplo ya no sabemos cuántas veces aparece cada valor.
Antes de la introducción de la computadora, agrupar los datos era un paso obligado que
facilitaba él cálculo de varias medidas descriptivas (estadígrafos). Debido a que los programas
estadísticos, pueden ejecutar esos mismos cálculos sin agrupación previa, actualmente el
propósito principal de la utilización este tipo de tablas es resumir la información.
Por otra parte, uno debe pensar, que los datos son una fuente de información y que el
resumen de los mismos facilita su interpretación y análisis.
¿COMO AGRUPAR ?
En el punto anterior se habló de definir un número conveniente de intervalos contiguos no
superpuestos, de modo que las distintas observaciones puedan ser clasificadas como
pertenecientes a uno y solo uno de dichos intervalos o clases.
Una regla empírica establece que el número de intervalos (k) debe estar entre 5 y 15,
dependiendo del número de observaciones. Si este es relativamente pequeño, el número
de clases a emplear será cercano a 5, pero generalmente nunca menor a este valor. Si existe
una cantidad importante de datos, el número de clases deberá encontrarse entre 8 y 12
y generalmente tampoco superará el valor de 15.
Hay que tener presente que si se definen muy pocos intervalos, se pierde información, y si se
utilizan muchos, el objetivo de resumir no se consigue. Por otra parte, el número de intervalos
empleados afecta la estimación de los valores de los estadígrafos (que son medidas que
resumen la información contenida en los datos) calculados a partir de una tabla de
distribución de frecuencias con intervalos de clase.
Aquellos que desean guías más específicas para decidir cuantos intervalos de clase son
necesarios, pueden utilizar la siguiente expresión
𝑲 = √𝒏 (1)
13
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Siendo
k = número de intervalos
n = número de observaciones
El valor obtenido no es definitivo y debe ser considerado solamente como una guía.
Una vez definido el número de intervalos, la amplitud o dimensión (a) del mismo se calcula como:
Una vez definido el valor del ancho de intervalo, se pueden presentar los datos ya sea
en forma tabular o gráfica.
Las reglas señaladas, no son de aplicación general, y hay que tener presente que el número de
intervalos, depende además del tamaño de la muestra, y en forma muy importante de
los objetivos que se persiguen con la recopilación y en estos es preponderante la experiencia
del estadístico.
A partir de las tablas de distribución de frecuencias (d.d.f), para cada valor de la variable o para
cada intervalo es posible calcular, las frecuencias relativas (fr) que expresan las
proporciones o % de observaciones que caen en cada intervalo o que corresponden a cada
valor.
Dicha frec relativa calcula dividiendo la frecuencia absoluta correspondiente al valor o intervalo,
por el total de las observaciones y multiplicando dicho resultado por 100 si se lo quiere expresar
en %. Se obtiene de este modo una distribución de frecuencia relativa (columna 3 -Fig. II. 4).
Es importante señalar, que también se pueden construir d.d.f. Absolutas y relativas, para
variables cualitativas, donde cada intervalo representa una categoría o clase de la variable.
En el caso particular de variables cuantitativas, al definir los intervalos de clase, se pueden utilizar
clases de extremo abierto, cuando se permite que el extremo inferior o superior del intervalo no
14
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
este limitado. Esta alternativa generalmente se emplea para el primero o el último de los
intervalos.
Por ejemplo, para el caso de la variable edad, se podrían utilizar los siguientes intervalos (0-14),
(15-34), (35-54), (55-74) y (75 y más). Como puede apreciarse, se ha definido un último intervalo
con un "extremo abierto".
Sin embargo, la construcción de estas clases abiertas, presenta problemas no solo para
la representación gráfica sino también para el cálculo de las diversas medidas de resumen
descriptivas o estadígrafos. Los esquemas de clasificación son válidos tanto para variables
cualitativas como cuantitativas, y en este último caso, tanto para discretas como continuas.
En el caso de las variables cuantitativas discretas, las clases son entidades separadas y al pasar
de una clase a otra no se produce ningún tipo de salto o discontinuidad. Mientras que en el caso
de las variables continuas las posibles discontinuidades que pueden aparecer a definir los
intervalos deben ser salvadas. Esto se consigue definiendo los límites reales de clases.
Aquí vale la pena realizar una aclaración respecto de los términos límites prácticos o de
escritura y límites reales de clase. Los límites prácticos reflejan el mismo grado de precisión que el
de las observaciones, esto es sus valores tienen tantas cifras significativas como las de las
observaciones.
En cambio los límites reales, que se calculan para cada intervalo como la semisuma del límite
práctico superior de dicho intervalo y él límite práctico inferior del siguiente, cuentan con un
Dígito más que el de las observaciones.
Generalmente se adopta el mismo ancho de intervalo para todas las clases. Si el ancho de los
intervalos variara de una clase a otra, tendríamos una distribución mucho más difícil de
interpretar que una en la que los intervalos tienen el mismo ancho.
Hay que tener cuidado con los programas de computación que establecen de manera
automática el número de clases para el agrupamiento de los datos, porque pueden desconocer
algunos de los criterios a que hemos hecho referencia en los párrafos anteriores.
15
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
HISTOGRAMAS
Una mejor compresión y análisis de los datos se efectúa mediante la representación de las
tablas de d.d.f. en gráficos denominados histogramas.
Este histograma presenta el inconveniente que los intervalos abarcan un rango de valores
mucho mayor (0.19-2.06) que el de los valores de las observaciones (0.22-2.00) y que el número
de intervalos de clase resulta excesivo. Utilizando un número menor de intervalos, por ejemplo k
= 12 y un ancho a= 0.15 que divida casi exactamente a la diferencia entre X´máx. - X mín. se
consigue mejorar mucho el histograma
anterior, como puede observarse en la siguiente figura.
16
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
17
Ing. Iván Escobar
Estadística 2018 Técnico Superior en Administración Contable
Este tipo de histograma tiene la misma forma que el histograma de frecuencias absolutas
construido a partir de mismo conjunto de datos, de modo que para obtener el mencionado
histograma solo agregamos un nuevo eje a la derecha del histograma de frecuencias
absolutas con una escala de frecuencias relativas.
POLÍGONOS DE FRECUENCIA:
Un polígono de frecuencias se traza uniendo con una línea, los puntos medios de la parte
superior de los rectángulos del histograma.
Dicho polígono de frecuencias refleja con mayor claridad el perfil del patrón de los datos.
Es importante mencionar que cuando se construyen histogramas o polígonos, el eje de
ordenadas debe mostrar el cero real (origen) a fin de no deformar o representar en forma
incorrecta el carácter de los datos.
Cuando se quieren comparar dos o más conjunto de datos, con diferentes números de
observaciones, no se pueden construir los distintos histogramas en el mismo gráfico, porque la
superposición de las barras verticales ocasionaría dificultades en la interpretación, debiéndose
utilizar para este propósito los polígonos de frecuencias relativas o de %.
18
Ing. Iván Escobar