Sei sulla pagina 1di 43

UNIVERSIDAD RURAL DE GUATEMALA

CAMPUS QUETZALTENANGO

FACULTAD DE INGENIERIA

CARRERA: INGENIERIA AMBIENTAL CUARTO SEMESTRE

PRIMERA ENTREGA DEL TEXTO PARALELO

CURSO: ESTADISTICA I

Nombre: Eroldani Ancelmo Pérez Tzorín

Carné: 160030012

Quetzaltenango 19 De Agosto De 2017


UNIVERSIDAD RURAL DE GUATEMALA

CAMPUS QUETZALTENANGO

FACULTAD DE INGENIERIA

CARRERA: INGENIERIA AMBIENTAL CUARTO SEMESTRE

PRIMERA ENTREGA DEL TEXTO PARALELO

CURSO: ESTADISTICA I

Nombre: Eroldani Ancelmo Pérez Tzorín

Carné: 160030012

Quetzaltenango 19 De Agosto De 2017


INDICE

No. Contenido Página


I. INTRODUCCIÓN A LA ESTADÍSTICA ....................................................................................................... 4

1.1. Estadística ..................................................................................................................................... 4

1.1.1. Población............................................................................................................................... 4

1.1.2. Muestra. ................................................................................................................................ 5

1.1.3. Muestreo:.............................................................................................................................. 5

1.2. Tipos de estadística ....................................................................................................................... 6

1.2.1. Estadística descriptiva ........................................................................................................... 6

1.2.2. Estadística inferencial ........................................................................................................... 6

1.3. Tipos de variables.......................................................................................................................... 7

1.4. Niveles de medición ...................................................................................................................... 8

1.4.1. Escala Nominal: ..................................................................................................................... 8

1.4.2. Escala Ordinal: ....................................................................................................................... 8

1.4.3. Escalas de intervalos iguales: ................................................................................................ 9

1.4.4. Escala de coeficientes o Razones: ......................................................................................... 9

1.5. Recopilación de datos ................................................................................................................. 10

1.5.1. Fuentes para obtener datos ................................................................................................ 10

1.5.2. Técnicas para recopilar datos. ............................................................................................ 10


II. PRESENTACION DE DATOS DE UNA SOLA VARIABLE .......................................................................... 12

2.1. Distribución de frecuencias.............................................................................................................. 12

2.1.1. Intervalos, marcas de clase y frecuencias ................................................................................. 13

2.1.2. Construcción de una distribución de frecuencias para datos cuantitativos ............................. 14

2.1.3. Distribución de frecuencias relativa ......................................................................................... 14

2.1.4. Distribución de frecuencias acumulada .................................................................................... 15

2.2. Presentación de grafica de datos ..................................................................................................... 15


2.2.1. Datos cualitativos ...................................................................................................................... 15

2.2.2. Datos cuantitativos ................................................................................................................... 17

3.3. Medidas de dispersión ................................................................................................................ 21

3.3.1. Medidas de distancia. ......................................................................................................... 22

3.3.2. Medidas de desviación promedio ....................................................................................... 26

3.4. Medidas de forma ....................................................................................................................... 32

3.4.1. Asimetría ............................................................................................................................. 32

3.3.2. Curtosis o apuntamiento .................................................................................................... 37

REFERENCIAS BIBLIOGRÁFICAS ................................................................................................ 40


4. Presentación y análisis de datos de dos variables .............................................................................. 41

4.1. Tabla de contingencia ................................................................................................................. 41

I. INTRODUCCIÓN A LA ESTADÍSTICA

1.1. Estadística

La estadística es la ciencia que trata de la recolección, clasificación y presentación de los hechos


sujetos a una apreciación numérica como base a la explicación, descripción y comparación de los
fenómenos". (Yale y Kendal, 1954).

Murria R. Spiegel, (1991) dice: "La estadística estudia los métodos científicos para recoger,
organizar, resumir y analizar datos, así como para sacar conclusiones válidas y tomar decisiones
razonables basadas en tal análisis.

1.1.1. Población.
El concepto de población en estadística va más allá de lo que comúnmente se conoce como tal.
Una población se precisa como un conjunto finito o infinito de personas u objetos que presentan
características comunes.

"Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los
cuales intentamos sacar conclusiones". Levin & Rubin (1996).

"Una población es un conjunto de elementos que presentan una característica común". Cadenas
(1974).

1.1.2. Muestra.

"Se llama muestra a una parte de la población a estudiar qué sirve para representarla". Murria R.
Spiegel (1991).

"Una muestra es una colección de algunos elementos de la población, pero no de todos". Levin &
Rubin (1996).

"Una muestra debe ser definida en base de la población determinada, y las conclusiones que se
obtengan de dicha muestra solo podrán referirse a la población en referencia", Cadenas (1974).

1.1.3. Muestreo:

Esto no es más que el procedimiento empleado para obtener una o más muestras de una
población; el muestreo es una técnica que sirve para obtener una o más muestras de población.

Este se realiza una vez que se ha establecido un marco maestral representativo de la población,
se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la
muestra.
1.2. Tipos de estadística
1.2.1. Estadística descriptiva

Se puede definir como un método para describir numéricamente conjuntos numerosos. Por
tratarse de un método de descripción numérica, utiliza el número como medio para describir un
conjunto, que debe ser numeroso, ya que las permanencias estadísticas no se dan en los casos
raros. No es posible sacar conclusiones concretas y precisas de los datos
estadísticos. (Vargas, p.33)

En relación a la estadística descriptiva, Ernesto Rivas Gonzáles dice; "Para el estudio de estas
muestras, la estadística descriptiva nos provee de todos sus medidas; medidas que cuando
quieran ser aplicadas al universo total, no tendrán la misma exactitud que tienen para la muestra,
es decir al estimarse para el universo vendrá dada con cierto margen de error; esto significa que
el valor de la medida calculada para la muestra, en el oscilará dentro de cierto límite de
confianza, que casi siempre es de un 95 a 99% de los casos.(JORGE)

1.2.2. Estadística inferencial

Está fundamentada en los resultados obtenidos del análisis de una muestra de población, con el
fin de inducir o inferir el comportamiento o característica de la población, de donde procede, por
lo que recibe también el nombre de Inferencia estadística.

Según Berenson y Levine; Estadística Inferencial son procedimientos estadísticos que sirven
para deducir o inferir algo acerca de un conjunto de datos numéricos (población), seleccionando
un grupo menor de ellos (muestra).

El objetivo de la inferencia en investigación científica y tecnológica radica en conocer clases


numerosas de objetos, personas o eventos a partir de otras relativamente pequeñas compuestas
por los mismos elementos.(JORGE)

Estudia la probabilidad de éxito de las diferentes soluciones posibles a un problema en las


diferentes ciencias en las que se aplica y para ello utiliza los datos observados en una o varias
muestras de la población. Mediante la creación de un modelo matemático infiere el
comportamiento de la población total partiendo de los resultados obtenidos en las observaciones
de las muestras. (Fernández et.al, p.17)
1.3. Tipos de variables

Una variable es una característica de interés sobre cada elemento individual de una población o
muestra. Un dato es el valor de la variable asociada a un elemento de una población o muestra.
Este valor puede ser número, una palabra o un símbolo. Un experimento es una actividad de la
población planeada curos resultados producen un conjunto de datos. (Guatemala, 2011)

De pendiendo el número de características que se analizan de la población, las variables se


pueden clasificar en:
a) Variables unidimensionales: solo recogen información sobre una característica.
Ejemplo edad de los alumnos de una clase

b) Variable bidimensional es una variable en la que cada individuo está definido por
un par de caracteres, (X, Y). Estos dos caracteres son a su vez variables
estadísticas en las que sí existe relación entre ellas, una de las dos variables es la
variable independiente y la otra variable dependiente. Ejemplo: edad y altura de los
alumnos de una clase.
c) Variables pluridimensionales o multidimensionales: recogen información sobre tres o
más características. Ejemplo: edad, altura y peso de los alumnos de una clase.

Dependiendo el número de datos las variables pueden clasificarse en:

 Variable cuantitativa o escalar. Será una variable cuando pueda asumir sus resultados
en medidas numéricas.
 Variables cualitativas nominales. Cuando no es posible hacer medidas numéricas, son
susceptibles de clasificación. Ejemplo: Color de autos: rojo, verde, azul.

Por su parte las variables cuantitativas se pueden clasificar en:

 Variable cuantitativa discreta. Es aquella que puede asumir sólo ciertos valores,
números enteros. Ejemplo: El número de estudiantes (1,2,3,4)
 Variable cuantitativa continua. Es aquella que teóricamente puede tomar cualquier
valor en una escala de medidas, ya sea entero o fraccionario. Ejemplo, Estatura: 1.90 m
(GestioPolis)
1.4. Niveles de medición
1.4.1. Escala Nominal:

La escala de medida nominal, puede considerarse la escala de nivel más bajo, y consiste en la
asignación, puramente arbitraria de números o símbolos a cada una de las diferentes categorías
en las cuales podemos dividir el carácter que observamos, sin que puedan establecerse relaciones
entre dichas categorías, a no ser el de que cada elemento pueda pertenecer a una y solo una de
estas categorías.

Se trata de agrupar objetos en clases, de modo que todos los que pertenezcan a la misma sean
equivalentes respecto del atributo o propiedad en estudio, después de lo cual se asignan nombres
a tales clases, y el hecho de que a veces, en lugar de denominaciones, se le atribuyan números,
puede ser una de las razones por las cuales se le conoce como "medidas nominales".

Por ejemplo, podemos estar interesados en clasificar los estudiantes de la UNESR Núcleo San
Carlos de acuerdos a la carrera que cursan.

Carrera Número asignada a la categoría

Educación 1

Administración 2

Se ha de tener presente que los números asignados a <cada categoría sirven única y
exclusivamente para identificar la categoría y no poseen propiedades cuantitativas.

1.4.2. Escala Ordinal:

En caso de que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la


medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de "orden" de
los números asignándolo a los objetos en estudio de modo que, si la cifra asignada al objeto A es
mayor que la de B, puede inferirse que A posee un mayor grado de atributo que B.
La asignación de números a las distintas categorías no puede ser completamente arbitraria, debe
hacerse atendiendo al orden existente entre éstas.

Los caracteres que posee una escala de medida ordinal permiten, por el hecho mismo
de poder ordenar todas sus categorías, el cálculo de las medidas estadísticas de posición, como
por ejemplo la mediana.

Ejemplo:

Al asignar un número a los pacientes de una consulta médica, según el orden de llegada, estamos
llevando una escala ordinal, es decir que al primero en llegar ordinal, es decir que al primeo en
llegar le asignamos el nº 1, al siguiente el nº 2 y así sucesivamente, de esta forma, cada número
representará una categoría en general, con un solo elemento y se puede establecer relaciones
entre ellas, ya que los números asignados guardan la misma relación que el orden de llegada a la
consulta.

1.4.3. Escalas de intervalos iguales:

La escala de intervalos iguales, está caracterizada por una unidad de medida común y constante
que asigna un número igual al número de unidades equivalentes a la de la magnitud que posea el
elemento observado. Es importante destacar que el punto cero en las escalas de intervalos iguales
es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo.
Esta escala, además de poseer las características de la escala ordinal, encontramos que la
asignación de los números a los elemento es tan precisa que podemos determinar la magnitud de
los intervalos (distancia) entre todos los elementos de la escala. Sin lugar a dudas, podemos decir
que la escala de intervalos es la primera escala verdaderamente cuantitativa y a los caracteres que
posean esta escala de medida pueden calculársele todas las medidas estadísticas a excepción del
coeficiente de variación.

Ejemplo:

El lapso transcurrido entre 1998-1999 es igual al que transcurrió entre 2000-2001.

1.4.4. Escala de coeficientes o Razones:


El nivel de medida más elevado es el de cocientes o razones, y se diferencia de las escalas de
intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor
cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una
carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales
diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo
presente en el objeto de estudio. Además, siendo que cero ya no es arbitrario, sino un valor
absoluto, podemos decir que A. Tiene dos, tres o cuatro veces la magnitud de la propiedad
presente en B. (JORGE)

Ejemplo:

En una encuesta realizada en un barrio de esta localidad se observó que hay familias que no
tienen hijos, otras tienen 6 hijos que es exactamente el doble de hijos que aquellas que tienen 3
hijos.

1.5. Recopilación de datos


1.5.1. Fuentes para obtener datos

Fuente de Información: Es el lugar, la institución o persona donde están los datos que se
necesitan para cada una de las variables o aspectos de la investigación. Las fuentes de
información son:
 Fuentes Primarias o internas: Cuando los datos se obtienen directamente de la
misma persona o entidad utilizando ciertas técnicas. Ejemplo: Llevar a cabo una
encuesta para conocer el grado de satisfacción laboral en los trabajadores de una empresa ¿?.
 Fuentes Secundarias o externas: Cuando los datos ya han sido elaborados y procesados
por otras personas o instituciones. Ejemplo: La información estadística que publica el
INE de los diferentes ministerios del Perú.

1.5.2. Técnicas para recopilar datos.

La recolección de datos se refiere al uso de una gran diversidad de técnicas y herramientas que
pueden ser utilizadas por el analista para desarrollar los sistemas de información, los cuales
pueden ser la entrevista, la encuesta, el cuestionario y la observación.
1.5.2.1.La encuesta.

Una encuesta es un conjunto de preguntas normalizadas dirigidas a una muestra representativa de


la población o instituciones, con el fin de conocer estados de opinión o hechos específicos.
La intención de la encuesta no es describir los individuos particulares quienes, por azar, son parte
de la muestra sino obtener un perfil compuesto de la población.

Una "encuesta" recoge información de una "muestra." Una "muestra" es usualmente sólo una
porción de la población bajo estudio. (Tecnicas de recolección de datos, 2013)

1.5.2.2.Entrevista

La entrevista es una conversación dirigida, con un propósito especifico y que usa un formato de
preguntas y respuestas.

Se establece así un diálogo, pero un diálogo peculiar, asimétrico, donde una de las partes busca
recoger informaciones y la otra se nos presenta como fuente de estas informaciones. Una
entrevista es un dialogo en el que la persona (entrevistador), generalmente un periodista hace una
serie de preguntas a otra persona (entrevistado), con el fin de conocer mejor sus ideas, sus
sentimientos su forma de actuar. (Tecnicas de recolección de datos, 2013)
Tipo de preguntas
*Preguntas abiertas: Son aquellas preguntas que describen hechos o situaciones por parte del
entrevistado con una gran cantidad de detalles que a juicio del entrevistado son importantes.

*Preguntas cerradas :En las preguntas cerradas las respuestas posibles están cerradas al
entrevistado, debido a que solamente puede responder con un numero finito, tal como “ninguno”,
“uno”, o “quince”. Una pregunta cerrada limita las respuestas disponibles al entrevistado

1.5.2.3. Cuestionario
Los cuestionarios proporcionan una alternativa muy útil para la entrevista; si embargo, existen
ciertas características que pueden ser apropiada en algunas situaciones e inapropiadas en otra. Al
igual que la entrevistas, deben diseñarse cuidadosamente para una máxima efectividad.
Selección de formas para cuestionarios
El desarrollo y distribución de los cuestionarios; por lo tanto, el tiempo invertido en esto debe
utilizarse en una forma inteligente. También es importante el formato y contenido de las
preguntas en la recopilación de hechos significativos.

Existen dos formas de cuestionarios para recabar datos: cuestionarios abiertos y cerrados, y se
aplican dependiendo de si los analistas conocen de antemano todas las posibles respuestas de las
preguntas y pueden incluirlas. Con frecuencia se utilizan ambas formas en los estudios de
sistemas. (Tecnicas de recolección de datos, 2013)

1.5.2.4.Observación

La observación es otra técnica útil para el analista en su proceso de investigación, consiste en


observar a las personas cuando efectúan su trabajo.
La observación es una técnica de observación de hechos durante la cual el analista participa
activamente actúa como espectador de las actividades llevadas a cabo por una persona para
conocer mejor su sistema.

El propósito de la observación es múltiple, permite al analista determinar que se está haciendo,


como se está haciendo, quien lo hace, cuando se lleva a cabo, cuánto tiempo toma, donde se hace
y porque se hace. (Tecnicas de recolección de datos, 2013)

II. PRESENTACION DE DATOS DE UNA SOLA VARIABLE

2.1. Distribución de frecuencias

Las distribuciones de frecuencias son tablas en que se dispone las modalidades de la variable por
filas. En las columnas se dispone el número de ocurrencias por cada valor, porcentajes, etc. La
finalidad de las agrupaciones en frecuencias es facilitar la obtención de la información que
contienen los datos. Ejemplo: Quieren conocer si un grupo de individuos está a favor o en contra
de la exhibición de imágenes violentas por televisión, para lo cual han recogido los siguientes
datos:
La inspección de los datos originales no permite responder fácilmente a cuestiones como cuál es
la actitud mayoritaria del grupo, y resulta bastante más difícil determinar la magnitud de la
diferencia de actitud entre hombres y mujeres.

Podemos hacernos mejor idea si disponemos en una tabla los valores de la variable acompañados
del número de veces (la frecuencia) que aparece cada valor:

X: Símbolo genérico de la variable.

f: Frecuencia (también se simboliza como ni).

La distribución de frecuencias de los datos del ejemplo muestra que la actitud mayoritaria de los
individuos del grupo estudiado es indiferente.

La interpretación de los datos ha sido facilitada porque se ha reducido el número de números a


examinar (en vez de los 20 datos originales, la tabla contiene 5 valores de la variable y 5
frecuencias).

2.1.1. Intervalos, marcas de clase y frecuencias


Cuando los datos contienen una gran cantidad de elementos, para facilitar los cálculos es
necesario agruparlos, a estos grupos se los llama intervalos o clases. Un intervalo es una serie de
números incluidos entre dos extremos, así por ejemplo, el intervalo 40 – 45 está formado por 40,
41, 42, 43, 44 y 45, siendo 40 el límite inferior, 45 el límite superior, 39,5 límite real inferior
(límite inferior disminuido en 5 décimas) y 40,5 el límite real superior (límite superior
aumentado en 5 décimas).
La diferencia entre las fronteras superior e inferior de una clase se denomina amplitud de clase.
El punto medio entre los dos extremos (o las dos fronteras) de una clase se denomina marca de
clase.
El número de datos incluidos en un intervalo de clase se denomina frecuencia de clase.
2.1.2. Construcción de una distribución de frecuencias para datos cuantitativos
Al construir una distribución de frecuencias para datos cuantitativos es necesario primeramente
decidir cuál va ser el número de clases. En general, este número depende fundamentalmente de
la naturaleza de los datos a resumir y del objetivo que se persiga con es resumen. El número de
clases no debe ser menor de 5 y mayor de 20, ya que un número mayor o menor de clases podría
oscurecer el comportamiento de los datos. Para calcular el número de intervalos se aplica la regla
de Sturges:

K= 1+3.3 Log N

Una vez determinado el número de clases, debe decidirse la amplitud de estas. Tomando la
misma amplitud para todas las clases, este valor queda dado por.

Una vez obtenida la amplitud de clase se procede a calcular los intervalos y a realizar el conteo
de valores para determinar la frecuencia de cada uno.

2.1.3. Distribución de frecuencias relativa

Frecuencia Relativa (fr).- Indica la proporción con que se repite un valor. Es el cociente entre la
frecuencia absoluta y el número total de datos. La suma de las frecuencias relativas es siempre

Es aquella que resulta de dividir cada una de las frecuencias absolutas entre el número total de
datos. Las frecuencias relativas se designan con las letras fr. Se calcula.

PROPIEDAD: la suma de todas las frecuencias relativas es igual a la unidad.


Frecuencia Porcentual (f%).- Llamada también frecuencia relativa porcentual. Se obtiene
multiplicando la frecuencia relativa por 100. La suma de las frecuencias porcentuales es siempre
100%. Se calcula así:

2.1.4. Distribución de frecuencias acumulada


Frecuencia Acumulada (fa). Indica el número de valores que son menores o iguales que el
valor dado. Es la suma de la frecuencia absoluta primera con la segunda, este valor con la
tercera, y así sucesivamente.
Las frecuencias acumuladas de una distribución de frecuencias son aquellas que se obtienen de
las sumas sucesivas de la fi que integran cada una de las filas de una distribución de frecuencia,
esto se logra cuando la acumulación de las frecuencias se realiza tomando en cuenta la primera
fila hasta alcanzar la última. Las frecuencias acumuladas se designan con las letras Fi. Se calcula:

PROPIEDAD: La última frecuencia acumulada absoluta es igual al total de observaciones.

2.2. Presentación de grafica de datos

Una vez elaborada la tabla de distribución es importante construir su representación visual. Esta
representación revela patrones de comportamiento de la variable en estudio. El tipo de gráfico
que se utilice dependerá del tipo de datos y el concepto a representar.

2.2.1. Datos cualitativos

Las gráficas que generalmente se utilizan para resumir dataos cualitativos, de atributo o
categorías son las gráficas de barras y la de pastel.

2.2.1.1. Gráfica de barras


Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para
representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual
distancia. Pueden disponerse en forma vertical y horizontal.

2.2.2.2. Gráficas circular


Es el más usual en variables cualitativas. Se representan mediante círculos. A cada valor de la
variable se le asocia el sector circular proporcional a su frecuencia.
Ejemplo: Los siguientes datos corresponden a una encuesta referente a elecciones locales de un
partido político:

xi fi

a favor 50%
en contra 40%
abstención 10%

Para construir el diagrama de sectores partimos del hecho de que un círculo encierra un total de
360 grados. Luego, mediante una regla de tres simple, repartimos los 360 grados en distintos
sectores, de acuerdo con cada porcentaje; tenemos así que para determinar el sector
correspondiente al 50%, resolvemos la ecuación:

Esto es, el 50% corresponde a un sector circular de medida 180 grados. A continuación, con ayuda de
un transportador, señalaremos el sector circular de medida 180 grados. Igualmente, para el 40% se
tiene 144 grados y para el 10% se tiene 36 grados. La siguiente figura muestra la representación
grafica.
2.2.2. Datos cuantitativos

Todo lo que se puede medir y contar, decimos que se puede cuantificar. El concepto “datos
cuantitativos” hace referencia precisamente a eso, a la información tangible, la que es obtenida
mediante algún método de investigación. La manera de cuantificar los datos obtenidos en nuestro
estudio nos dará la pauta de hacia qué rumbo dirigirse, de ahí la importancia de su correcto
análisis para poder demostrar si estamos en lo correcto o no, en la hipótesis planteada.

Se denomina investigación cuantitativa aquella que genera datos numéricos o estadísticos para
cuantificar opiniones, comportamientos o cualquier variable que se haya definido para ser objeto
de estudio. Por lo regular se utiliza como método de recolección las entrevistas caras a cara o vía
telefónica y los diversos tipos de encuestas. Las encuestas online son la mejor solución, ya que
así puedes llegar a más personas en menos tiempo y además, asegurar resultados más honestos
para un posterior análisis. A través de una encuesta online podrás conocer opiniones, actitudes de
los encuestados que formen parte de tu muestra representativa, por lo que también debes de
valorar este factor para reducir el margen de error y el éxito de tu investigación.
2.2.2.1. Histograma

Es la representación gráfica de las frecuencias agrupadas de una variable continua sobre


intervalos. A diferencia de los diagramas de barras, los histogramas dibujan rectángulos
unidos entre sí, lo que significa que existe continuidad en la variable cuyos valores se
representan en el eje horizontal que se halla dividido en intervalos de igual amplitud. Las
áreas de los rectángulos son proporcionales a las frecuencias que representan.

2.2.2.2. Polígono de frecuencias


_ La altura de cada punto la determina el punto medio (abscisa) y la frecuencia simple
(ordenada) de la clase

_ Los puntos se unen con secciones de rectas

_ Se procede como si existiera una clase adicional al principio y al final, ambas con frecuencia
cero

_ Útiles para representar dos distribuciones de frecuencia en un mismo gráfico

2.2.2.3. Ojivas
La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de una
distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la base "menor
que" o sobre la base "o más". Puede determinar el valor de la mediana de la distribución.
Una grafica de distribución de frecuencia acumulada es llamada una sola ojiva. Se trazan
los límites reales superiores contra las frecuencias acumuladas.

_ Para representar la frecuencia acumulada

_ La ordenada se levanta sobre el límite superior

_ Tiene forma de S alargada

2.2.2.4. Graficas lineales


Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se
usan para representar series de tiempo o cronológicas.
En este tipo de gráfico se representan los valores de los datos en dos ejes cartesianos ortogonales
entre sí. Se pueden usar para representar: una serie dos o más series

3.3. Medidas de dispersión

Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda sólo nos
revelan una parte de la información que necesitamos acerca de las características de los datos.
Para aumentar nuestro entendimiento del patrón de los datos, debemos medir también su
dispersión, extensión o variabilidad.

La dispersión es importante porque:

 Proporciona información adicional que permite juzgar la confiabilidad de la medida de


tendencia central. Si los datos se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
 Ya que existen problemas característicos para datos ampliamente dispersos, debemos ser
capaces de distinguir que presentan esa dispersión antes de abordar esos problemas.
 Quizá se desee comparar las dispersiones de diferentes muestras. Si no se desea tener una
amplia dispersión de valores con respecto al centro de distribución o esto presenta riesgos
inaceptables, necesitamos tener habilidad de reconocerlo y evitar escoger distribuciones
que tengan las dispersiones más grandes.

3.3.1. Medidas de distancia.

La dispersión puede medirse en términos de la diferencia entre dos valores seleccionados del
conjunto de datos, a continuación se presentan tres de las llamadas medidas de distancia.

3.3.1.1.El rango o recorrido (r)

Es la medida de variabilidad más fácil de calcular. Para datos finitos o sin agrupar, el rango se
define como la diferencia entre el valor más alto (Xn ó Xmax.) y el mas bajo (X1 ó Xmin) en un
conjunto de datos.

Rango para datos no agrupados;


R = Xmáx.-Xmín = Xn-X1
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 27,34 y 25.,
para calcular la media aritmética (promedio de las edades, se tiene que:

R = Xn-X1 ) = 34-18 = 16 años


Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases
abiertos podemos aproximar el rango mediante el uso de los límites de clases. Se aproxima el
rango tomando el límite superior de la última clase menos el limite inferior de la primera clase.

Rango para datos agrupados;


R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)

Ejemplo:
Si se toman los datos del ejemplo resuelto al construir la tabla de distribución de frecuencia de
las cuentas por cobrar de Cabrera’s y Asociados que fueron los siguientes:

Clases P.M. fi fr fa↓ fa↑ fra↓ fra↑

Xi

7.420 – 21.835 14.628 10 0.33 10 30 0.33 1.00

21.835 – 36.250 29.043 4 0.13 14 20 0.46 0.67

36.250 – 50.665 43.458 5 0.17 19 16 0.63 0.54

50.665 – 65.080 57.873 3 0.10 22 11 0.73 0.37

65.080 – 79.495 72.288 3 0.10 25 8 0.83 0.27

79.495 – 93.910 86.703 5 0.17 30 5 1.00 0.17

Total XXX 30 1.00 XXX XXX XXX XXX

Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidas-


dispersion.shtml#ixzz4wyhXOwbz

El rango de la distribución de frecuencias se calcula así:

R= (lim. Sup. de la clase n – lim. Inf. De la clase 1)

= (93.910 – 7.420) = 86.49


Propiedades del Rango o Recorrido:

 El recorrido es la medida de dispersión más sencilla de calcular e interpretar puesto que


simplemente es la distancia entre los valores extremos (máximo y mínimo) en una
distribución
 Puesto que el recorrido se basa en los valores extremos éste tiende s ser errático. No es
extraño que en una distribución de datos económicos o comerciales incluya a unos pocos
valores en extremo pequeños o grandes. Cuando tal cosa sucede, entonces el recorrido
solamente mide la dispersión con respecto a esos valores anormales, ignorando a los
demás valores de la variable.
 La principal desventaja del recorrido es que sólo esta influenciado por los valores
extremos,, puesto que no cuenta con los demás valores de la variable. Por tal razón,
siempre existe el peligro de que el recorrido ofrezca una descripción distorsionada de la
dispersión.
 En el control de la calidad se hace un uso extenso del recorrido cuando la distribución a
utilizarse no la distorsionan y cuando el ahorro del tiempo al hacer los cálculos es un
factor de importancia.

3.3.1.2.Rango intercuartílico

El rango intercuartílico IQR (o rango intercuartil) es una estimación estadística de la


dispersión de una distribución de datos. Consiste en la diferencia entre el tercer y el primer
cuartil. Mediante esta medida se eliminan los valores extremadamente alejados. El rango
intercuartílico es altamente recomendable cuando la medida de tendencia central utilizada es la
mediana (ya que este estadístico es insensible a posibles irregularidades en los extremos).

Con el IQR podremos elaborar los diagramas de caja, que es un instrumento muy visual para
evaluar la dispersión de una distribución.

Ejercicio
Sea un conjunto ordenado de las edades de los veinte sujetos (N=20) de un club.
Para calcular el rango intercuartílico, tendremos que calcular el primer y el tercer cuartil (Q1 y
Q3).

Primer cuartil
El primer cuartil será el sujeto (N+1)/4=21/4=5,25. Como es decimal, será un número entre el
X5=28 y X6=29.

El número decimal es el 5,25, por lo que i=5 y d=0,25. El cuartil 1 es:

Tercer cuartil
El tercer cuartil es el sujeto 3(N+1)/4=63/4=15,75. Como el número es decimal, el cuartil estará
entre X15=52 y X16=53.

El número decimal es el 15,75, por lo que i=15 y d=0,75. El cuartil 3 es:

Rango intercuartílico
Una vez hemos calculado en primer y tercer cuartil, ya podemos calcular el rango intercuartílico.
http://www.universoformulas.com/estadistica/descriptiva/rango-intercuartilico/

3.3.1.3.Rango interpercentil
Es la dfiferencia entre el percentil 99 (p99) y el percentil 1(p1)
Rip=p99-p1

http://lourdesdemedida.blogspot.com/

Publicadas por lourdes zarate a la/s 14:02

3.3.2. Medidas de desviación promedio

Las descripciones más completas de la dispersión son aquellas que manejan la desviación
promedio respecto a alguna mediad de tendencia central. En esta clasificación las más utilizadas
son la vaianza y la desviación estándar. Ambas medidas dan una distancia promedio de cualquier
observación del conjunto de datos respecto a la medida de la distribución

3.3.2.1.La varianza (s2 ó δ2 )

La varianza es una medida de dispersión relativa a algún punto de referencia. Ese punto de
referencia es la media aritmética de la distribución. Más específicamente, la varianza es una
medida de que tan cerca, o que tan lejos están los diferentes valores de su propia media
aritmética. Cuando más lejos están las Xi de su propia media aritmética, mayor es la varianza;
cuando más cerca estén las Xi a su media menos es la varianza. Y se define y expresa
matemáticamente de la siguiente manera:

La varianza para datos no agrupados

Dado un conjunto de observaciones, tales como X1, X2, … , Xn, la varianza denotada
usualmente por la letra minúscula griega δ (sigma) elevada al cuadrado (δ2)y en otros casos S2
según otros analistas, se define como: el cuadrado medio de las desviaciones con respecto a su
media aritmética"

Matemáticamente, se expresa como:

Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier año, a saber: 18,23, 25, 27, y 34.
Al calcular la media aritmética (promedio de las edades, se obtuvo 25.4 años, encontrar la
varianza de las edades de estos estudiantes:

Para calcular se utiliza una tabla estadística de trabajo de la siguiente manera:

( Xi - )2

Xi ( Xi - )

18 (18 – 25.5)=-7.4 (-7.4)2=54.76

23 (23 – 25.5)=-2.4 (-2.4)2= 5.76

25 (25 – 25.5)=-0.4 (-0.4)2= 0.16

27 (27 – 25.5)= 1.6 ( 1.64)2= 2.16

34 (34 – 25.5)= 8.6 ( 8.6)2 =73.96

Total xxxx 137.20

Respuesta: la varianza de las edades es de 27.4 años


La varianza para datos agrupados
Si en una tabla de distribución de frecuencias. Los puntos medios de las clases son X1, X2, … ,
Xn; y las frecuencias de las clases f1, f2, … , fn; la varianza se calcula así:
Σ(Xi- )2f1
δ2 = ----------------
Σfi

Sin embargo la formula anterior tiene algún inconveniente para su uso en la practica, sobre todo
cuando se trabaja con números decimales o cuando la media aritmética es un número entero.
Asimismo cuando se trabaja con máquinas calculadoras, La tarea de computar la varianza se
simplifica utilizando la formula de computación que se da a continuación:

ΣXi2fi - [(ΣXifi)2/N]
δ2 = ----------------------------
N donde N=Σfi
Ejemplo: Se tienen los datos de una muestra de 30 cuentas por cobrar de la tienda Cabrera’s y
Asociados dispuestos en una tabla de distribución de frecuencias, a partir de los cuales se deberá
calcular la varianza, para lo cual se construye la siguiente tabla estadística de trabajo, si se
calculó anteriormente la media aritmética y se fijó en 43.458 (ver ejemplo del calculo en "media
aritmética para datos agrupados) de la siguiente manera
Punto medios fi Xi2 Xifi X2fi

clases Xi

7.420 – 21.835 14.628 10 213.978 146.280 2,139.780

21.835 – 36.250 29.043 4 843,496 116.172 3,373.984

36.250 – 50.665 43.458 5 1,888.598 217.270 9,442.990

50.665 – 65.080 57.873 3 3,349.284 173.619 10,047.852

65.080 – 79.495 72.288 3 5,225.555 216.864 15,676.665

79.495 – 93.910 86.703 5 7,533.025 433.965 37,665.125

Total XXX 30 19,053.936 1,304.190 78,346.396


= 21,649.344 / 30 = 721.645

Respuesta: la varianza de las cuentas por cobrar es igual B/.721.645

Propiedades de la varianza :

 s siempre un valor no negativo, que puede ser igual o distinta de 0. Será 0 solamente
cuando Xi=
 La varianza es la medida de dispersión cuadrática optima por ser la menor de todas.
 Si a todos los valores de la variable se le suma una constante la varianza no se modifica.
Veámoslo:

Si a xi le sumamos una constante xi’ = xi + k tendremos (sabiendo que )

 Si todos los valores de la variable se multiplican por una constante la varianza queda
multiplicada por el cuadrado de dicha constante. Veámoslo:

Si a xi’ = xi · k tendremos (sabiendo que )


 Si en una distribución obtenemos una serie de subconjuntos disjuntos, la varianza de la
distribución inicial se relaciona con la varianza de cada uno de los subconjuntos mediante
la expresión

Siendo
Ni è el nº de elementos del subconjunto (i)
S2i è la varianza del subconjunto (i)

3.3.2.2.La desviación estándar (s ó δ)

Es una medida de la cantidad típica en la que los valores del conjunto de datos difieren de la
media. Es la medida de dispersión más utilizada, se le llama también desviación típica. La
desviación estándar siempre se calcula con respecto a la media y es un mínimo cuando se estima
con respecto a este valor.

Se calcula de forma sencilla, si se conoce la varianza, por cuanto que es la raíz cuadrada positiva
de esta. A la desviación se le representa por la letra minúscula griega "sigma" ( δ ) ó por la letra
S mayúscula, según otros analistas.

Cálculo de la Desviación Estándar


δ = √δ2 ó S = √S2

Ejemplo:
Del calculo de la varianza de las edades de cinco estudiantes universitarios de primer año se
obtuvo δ2=27.44, como la desviación estándar es la raíz cuadrada positiva, entonces δ = √27.44
= 5.29 años.
Igual procedimiento se aplica para encontrar le desviación estándar de las cuentas por cobrar de
la Tienda Cabrera’s y Asociados, recordemos que la varianza obtenida fue de 721.645, luego
entonces la desviación estándar es igual a δ =√721.645 = 26.86 balboas.

 Propiedades de la Desviación Estándar

A su vez la desviación estándar, también tiene una serie de propiedades que se deducen
fácilmente de las de la varianza (ya que la desviación típica es la raíz cuadrada positiva de la
varianza):

 La desviación estándar es siempre un valor no negativo S será siempre ³ 0 por definición.


Cuando S = 0 è X = xi (para todo i).
 Es la medida de dispersión óptima por ser la más pequeña.
 La desviación estándar toma en cuenta las desviaciones de todos los valores de la variable
 Si a todos los valores de la variable se le suma una misma constante la desviación
estándar no varía.
 Si a todos los valores de la variable se multiplican por una misma constante, la desviación
estándar queda multiplicada por el valor absoluto de dicha constante.

Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidas-


dispersion2.shtml#ixzz4wyiYeEaZ

UNIVERSIDAD DE PANAMÁ

CENTRO REGIONAL UNIVERSITARIO DE SAN MIGUELITO

FACULTAD DE ECONOMÍA

DEPARTAMENTO DE ESTADÍSTICA ECONÓMICO Y SOCIAL

Curso: Est.115 : "Estadística Económica I".

Leer más: http://www.monografias.com/trabajos43/medidas-dispersion/medidas-


dispersion2.shtml#ixzz4wyl5i5cN
3.4.Medidas de forma
3.4.1. Asimetría
Es una medida de forma de una distribución que permite identificar y describir la manera como
los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la
distribución. Permite identificar las características de la distribución de datos sin necesidad de
generar el gráfico.

3.3.1.1.Tipos de asimetría
La asimetría presenta las siguientes formas:
Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos
está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo
hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga
que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo
negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la
mediana a su vez es menor que la moda, en símbolos Nota: Sesgo es el grado de
asimetría de una distribución, es decir, cuánto se aparta de la simetría.

Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad


de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa
por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán
1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una
distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en
símbolos Md=Mo

Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos


está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento
o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más
larga que a la izquierda. También se dice que una distribución es simétrica a la derecha o tiene
sesgo positivo cuando el valor de la media aritmética es mayor que la mediana y éste a valor de

la mediana a su vez es mayor que la moda, en símbolos


3.3.1.2.Medidas de asimetría

Coeficiente de Karl Pearson

Donde:
= media aritmética.
Md = Mediana.
s = desviación típica o estándar.

Nota:
El Coeficiente de Pearson varía entre -3 y 3
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.

Medida de Yule Bowley o Medida Cuartílica

Donde:
= Cuartil uno; = Cuartil dos = Mediana; = Cuartil tres.

Nota:
La Medida de Bowley varía entre -1 y 1
Si As < 0 ? la distribución será asimétrica negativa.
Si As = 0 ? la distribución será simétrica.
Si As > 0 ? la distribución será asimétrica positiva.
Medida de Fisher

Para datos sin agrupar se emplea la siguiente fórmula:

Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

Para datos agrupados en intervalos se emplea la siguiente fórmula:

Donde:

= cada uno de los valores; n = número de datos; = media aritmética; f = frecuencia absoluta
= cubo de la desviación estándar poblacional; xm = marca de clase
Nota:
Si As < 0 ?Indica que existe presencia de la minoría de datos en la parte izquierda de la media,
aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica negativa
Si As = 0 ? la distribución será simétrica
Si As > 0 ? Indica que existe presencia de la minoría de datos en la parte derecha de la media,
aunque en algunos casos no necesariamente indicará que la distribución sea asimétrica positiva

Ejemplo ilustrativo:
Calcular el Coeficiente de Pearson, Medida Cuartílica y la Medida de Fisher dada la siguiente
distribución: 6, 9, 9, 12, 12, 12, 15 y 17

Solución:

Calculando la media aritmética se obtiene:


Para calcular los cuartiles se ordena los datos de menor a mayor

6 9 9 12 12 12 15 17

Calculando el cuartil uno se obtiene:

Calculando el cuartil dos se obtiene:

Calculando el cuartil tres se obtiene:

Calculando la desviación estándar muestral se obtiene:


Calculando el Coeficiente de Pearson se obtiene:

Calculando la Medida de Bowley se obtiene

Calculando la desviación estándar poblacional se obtiene:

Calculando la Medida de Fisher se obtiene

Datos
6 -166,375
9 -15,625
9 -15,625
12 0,125
12 0,125
12 0,125
15 42,875
17 166,375
Total 12
3.3.2. Curtosis o apuntamiento
La curtosis mide el grado de agudeza o achatamiento de una distribución con relación a la
distribución normal, es decir, mide cuán puntiaguda es una distribución.

3.3.2.1.Tipos de curtosis
La curtosis determina el grado de concentración que presentan los valores en la región central de
la distribución. Así puede ser:

Leptocúrtica.- Existe una gran concentración.


Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.

3.3.2.2.Medidas de curtosis

Medida de Fisher

Para datos sin agrupar se emplea la siguiente fórmula:

Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula:

Para datos agrupados en intervalos se emplea la siguiente fórmula:


Donde: = cada uno de los valores; n = número de datos; = media aritmética; = Cuádruplo
de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase

Nota:
Si a < 3 ? la distribución es platicútica
Si a = 3 ? la distribución es normal o mesocúrtica
Si a > 3 ? la distribución es leptocúrtica

Medida basada en Cuartiles y Percentiles

(letra griega minúscula kappa) = Coeficiente percentil de curtosis

Nota:
Si < 0,263 ? la distribución es platicúrtica
Si = 0,263 ? la distribución es normal o mesocúrtica
Si > 0,263 ? la distribución es leptocúrtica
Esta medida no es muy utilizada.

Ejemplo ilustrativo: Determinar qué tipo de curtosis tiene la siguiente distribución: 6, 9, 9, 12,
12, 12, 15 y 17. Emplear la medida de Fisher y el coeficiente percentil de curtosis.

Solución: Calculando la media aritmética se obtiene

Calculando la desviación estándar poblacional se obtiene:


Calculando la Medida de Fisher se obtiene:

Datos
6 915,0625
9 39,0625
9 39,0625
12 0,0625
12 0,0625
12 0,0625
15 150,0625
17 915,0625
Total 2058,5

Para calcular los cuartiles y percentiles se ordena los datos de menor a mayor:

6 9 9 12 12 12 15 17

Calculando el cuartil uno se obtiene:


Calculando el cuartil tres se obtiene:

Calculando el percentil 90 se tiene:

Calculando el percentil 10 se tiene:

Calculando el coeficiente percentil de curtosis se obtiene:

Como a= 2,23 y la distribución es platicúrtica

REFERENCIAS BIBLIOGRÁFICAS
BENALCÁZAR, Marco, (2002), Unidades para Producir Medios Instruccionales en Educación,
SUÁREZ, Mario Ed. Graficolor, Ibarra, Ecuador.

DAZA, Jorge, (2006), Estadística Aplicada con Microsoft Excel, Grupo Editorial Megabyte,
Lima, Perú.

SUÁREZ, Mario, (2004), Interaprendizaje Holístico de Matemática, Ed. Gráficas Planeta,

Ibarra, Ecuador.

SUÁREZ, Mario, (2011), Interaprendizaje de Estadística Básica

TAPIA, Fausto Ibarra, Ecuador.

Autor:

Mario Orlando Suárez Ibujes

Leer más: http://www.monografias.com/trabajos87/medidas-forma-asimetria-curtosis/medidas-


forma-asimetria-curtosis.shtml#ixzz4wydx6Qff

4. Presentación y análisis de datos de dos variables

4.1.Tabla de contingencia

La tabla de contingencia es un medio particular de representar simultáneamente dos carácteres


observados en una misma población, si son discretos o continuos reagrupados en clases. Los dos

carácteres son e , el tamaño de la muestra es . Las modalidades o clases de se

escribirán , las de , . Se denota:

el efectivo conjunto de y : es el número de individuos para los cuales toma el

valor e el valor ,

el efectivo marginal de : es el número de individuos para los cuales

toma el valor ,
el efectivo marginal de : es el número de individuos para los cuales

toma el valor .

Se representan estos valores en una tabla de doble entrada, llamada tabla de contingencia:

Cada fila y cada columna corresponden a una submuestra particular. La fila de índice es la

distribución en , de los individuos para los cuales el carácter toma el valor .

La columna de índice es la distribución sobre , de los individuos para los cuales el

carácter toma el valor . Dividiendo las filas y las columnas por sus sumas, obtenemos en
cada una, distribuciones empíricas formadas por frecuencias condicionales. Para

y , las denotaremos:

y
http://ljk.imag.fr/membres/Bernard.Ycart/emel/cours/sd/node17.html

Potrebbero piacerti anche