Sei sulla pagina 1di 39

Universidad De Oriente

Ncleo De Anzotegui

Escuela De Ingeniera Y Ciencias Aplicadas

Departamento De Electricidad

Seccin 20

Estadstic
as
Alumnos: Arias Adriana C.I 23702387
Montoya Arnold C.I 22844799
Barcelona, Marzo 2017

Distribucin de Frecuencia:
Una distribucin de frecuencias es una serie de datos
agrupados en categoras, en las cuales se muestra el nmero
de observaciones que contiene cada categora. Para
establecer la distribucin de frecuencia son necesarios 10
pasos los cuales son:
1-Rango.
2-Nmero tentativo de los intervalos de clase.
3-Tamao de los intervalos de clase (TIC).
4-Lmite Inferior.
5-Lmite Superior.
6-Lmite Superior Real.
7-Marca de clase (X).
8-Clasificacin de los datos y conteo de frecuencias.
9-Distribucin de frecuencia relativa.
10-Distribuciones de frecuencia acumulada.
Para adentrarnos ms a los pasos ejecutaremos un ejemplo
en el que los siguientes datos son el nmero de meses de
duracin de una muestra de 40 bateras para coche.
1. Rango

Rango = Dato mayor Dato menor = 47 16 = 31

2. Nmero tentativo de los intervalos de clase

El nmero de intervalos (nic) puede ser como mnimo 5 y como mximo 15


de acuerdo a la frmula 2 nic

Como se tienen 40 datos el NIC sera de 6.

3. Tamao de los Intervalos de Clase (TIC).

Para facilitar la clasificacin de los datos, el Tic se redondea a


una cifra ms cerrada.

4. Lmite inferior

Usualmente, el lmite inferior del primer intervalo de clase es


un mltiplo del tamao del intervalo (tic) igual o menor que el
dato ms chico. Si el tic es ms grande que el dato menor, el
primer lmite inferior es cero. En este problema el tic es de 5,
entonces el primer lmite inferior ser el mayor mltiplo de 5
pero inferior o igual al dato menor, el 15.
El lmite inferior de los siguientes intervalos se calcula
sumando el tic al lmite inferior del intervalo anterior hasta
llegar a un nmero no mayor al dato ms grande.

5. Lmite superior

El lmite suprior se calcula con la siguiente frmula LS = LI +


TIC 1

6. Lmite Superior Real

Los lmites anteriores son los lmites nominales pero no son


los reales. Los lmites reales son el punto medio entre el lmite
superior y el lmite inferior del siguiente intervalo.
7. Marca de clase (x)

La marca de clase, tambin llamada punto medio del intervalo


es la mitad de la distancia entre los lmites inferior y superior
de cada intervalo. La marca de clase es el valor ms
representativo de los valores del intervalo.

8. Clasificacin de los datos y conteo de frecuencias

Clasificar las observaciones en los intervalos. La prctica


usual es marcar con una lnea ( / ) que representa una
observacin. En el ejemplo la observacin 22 se clasifica en el
intervalo 20 24 porque se encuentra entre el 20 y el 24
inclusive. Una vez clasificados todos los datos se cuentan las
lneas de cada intervalo y el resultado es la frecuencia de
cada intervalo de clase.
9. Distribucin de frecuencia relativa

Se pueden convertir las frecuencias de clase en frecuencias relativas de clase


para mostrar los porcentajes de observaciones en cada intervalo de clase. Para
convertir una distribucin de frecuencia en una distribucin de frecuencia
relativa cada una de las frecuencias de clase se dividen entre el nmero total
de observaciones.

10. Distribuciones de frecuencia acumulada


Las distribuciones de frecuencia acumulada se usan cuando
queremos determinar cuntas observaciones, o que
porcentaje de observaciones estn debajo de cierto valor.

La distribucin de frecuencia acumulada de cierto intervalo se


calcula sumando las frecuencias de clase desde el primer
intervalo hasta la frecuencia de clase del intervalo de inters.
Si queremos la frecuencia acumulada del intervalo 25 29,
sumamos las frecuencias de clase 2 + 1 + 4 = 7.

La distribucin de frecuencia relativa acumulada de cierto


intervalo se calcula dividiendo la frecuencia acumulada entre
el nmero total de observaciones.

a) Variables Discretas

Las variables discretas pueden asumir solo ciertos valores, y


hay usualmente huecos entre los valores (nmero de cuartos
en una casa, nmero de carros en el estacionamiento del
claustro, nmero de estudiantes en la clase de estadsticas).

Note que cada una de estas variables puede valer un nmero


entero (p.ej. 1, 2,3, etc.) pero no puede valer nmeros
fraccionarios (p.ej. 1.5). Tpicamente, las variables discretas
resultan de un conteo.
b) Variables Continuas

Las variables continuas pueden asumir todos los valores


dentro de un rango especfico (p.ej. presin del aire en una
llanta, el tiempo que se toma en viajar de Chihuahua a Jurez,
el peso de los jugadores de ftbol americano de las guilas de
la U.A.CH., etc.).Tpicamente, las variables continuas resultan
de medir algo, y lgicamente dependen de la exactitud del
instrumento de medicin.

Ejemplos:

Nmero de guilas en 6 lanzamientos de una moneda


Discreta

Tiempo para resolver un examen (Continua)

Altura del mercurio en un barmetro (Discreta)

Nmero de dientes de un nio (Discreta)

Mxima temperatura ambiental durante el da (Continua)

Nmero de juegos ganados por un equipo de basquetbol


(Continua)

Nmero de hijos de una familia (Continua)

Litros de gasolina vendidos el martes anterior en una


gasolinera (Continua)

c) Poblacin y Muestra

Poblacin

El concepto de poblacin en estadstica va ms all de lo que


comnmente se conoce como tal. Una poblacin se precisa
como un conjunto finito o infinito de personas u objetos que
presentan caractersticas comunes.

"Una poblacin es un conjunto de todos los elementos que


estamos estudiando, acerca de los cuales intentamos sacar
conclusiones". Levin & Rubin (1996). "Una poblacin es un
conjunto de elementos que presentan una caracterstica
comn". Cadenas (1974).
Muestra

"Se llama muestra a una parte de la poblacin a estudiar que


sirve para representarla". Murria R. Spiegel (1991).

"Una muestra es una coleccin de algunos elementos de la


poblacin, pero no de todos". Levin & Rubin (1996).

"Una muestra debe ser definida en base de la poblacin


determinada, y las conclusiones que se obtengan de dicha
muestra solo podrn referirse a la poblacin en referencia",
Cadenas (1974).

Ejemplo: El estudio realizado a 50 miembros del Colegio de Ingenieros del


Estado Cojedes.

El estudio de muestras es ms sencillo que el estudio de la poblacin


completa; cuesta menos y lleva menos tiempo. Por ltimo se aprobado que el
examen de una poblacin entera todava permite la aceptacin de elementos
defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de
calidad.

Una muestra representativa contiene las caractersticas relevantes de la


poblacin en las mismas proporciones que estn incluidas en tal poblacin.

Los expertos en estadstica recogen datos de una muestra. Utilizan esta


informacin para hacer referencias sobre la poblacin que est representada
por la muestra. En consecuencia muestra y poblacin son conceptos relativos.
Una poblacin es un todo y una muestra es una fraccin o segmento de ese
todo.

d) Media y Varianza (Datos Agrupados)

Media

Este parmetro lo usamos con tanta cotidianidad que nos ser muy familiar,
aunque tambin aprenderemos algunas propiedades y mostraremos un teorema
sumamente importante.

Si tenemos el siguiente conjunto de datos y deseamos encontrar un valor que


represente a todo el conjunto, seguramente lo primero que vendr a nuestra
mente es sumar todos los valores y dividirlos entre el nmero total de datos.

10, 9, 8, 10, 9, 9, 10, 9, 10, 9

Es decir, un valor representativo del conjunto de valores es


Este valor, promedio aritmtico, es conocido como la media y es una de las
medidas de tendencia central ya que representa un valor con respecto a toda la
informacin.

Para denotar la media de una poblacin utilizaremos cuando se trate de


la media de una muestra.

Generalizando sobre el ejemplo podemos decir que la media de una muestra


es igual a:

En ocasiones, en algunas reas es comn denotar la media por (x) el lugar.

Para un conjunto de datos la media aritmtica nos muestra una geometra


interesante como lo podemos observar en el siguiente
teorema:

Teorema: La suma de las diferencias de los datos y la media


nos representa un promedio simtrico de la informacin, es
decir, se cumple la siguiente relacin:

La demostracin es la siguiente:

Valores entonces

Empleando la definicin de la media


Tendremos

Es adems obvio pensar que tambin la relacin se


cumple.

Esta propiedad limita el hecho de poder obtener promedio sobre las


desviaciones por lo que las construcciones de los trminos deber de
hacer a travs de otro tipo de anlisis. Sin perder de vista alguna relacin
sobre algn promedio de las desviaciones podemos considerar dos
posibilidades, una primera posibilidad es considerar el promedio de la suma
de los cuadrados de las desviaciones, una segunda posibilidad es considerar el
promedio de la suma del valor absoluto de las desviaciones.

A la primera la llamaremos varianza y a la segunda desviacin absoluta


media. Las cules sern consideradas como mediadas de dispersin, debidas
precisamente a su naturaleza y que sern a bordadas en la seccin de medidas
de dispersin.

e) Histograma de Frecuencia

En estadstica, un histograma es una representacin grfica de una variable en


forma de barras, donde la superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje vertical se representan las
frecuencias, y en el eje horizontal los valores de las variables, normalmente
sealando las marcas de clase, es decir, la mitad del intervalo en el que estn
agrupados los datos.

En trminos matemticos, puede ser definida como una funcin inyectiva (o


mapeo) que acumula (cuenta) las observaciones que pertenecen a cada
subintervalo de una particin. El histograma, como es tradicionalmente
entendido, no es ms que la representacin grfica de dicha funcin.

Se utiliza cuando se estudia una variable continua, como franjas de edades o


altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es
decir, valores continuos. En los casos en los que los datos son cualitativos (no-
numricos), como sexto grado de acuerdo o nivel de estudios, es preferible un
diagrama de sectores. Los histogramas son ms frecuentes en ciencias
sociales, humanas y econmicas que en ciencias naturales y exactas. Y
permite la comparacin de los resultados de un proceso.

Tipos de Histogramas

* Diagramas de barras simples

Representa la frecuencia simple (absoluta o relativa) mediante la altura de la


barra la cual es proporcional a la frecuencia simple de la categora que
representa.

* Diagramas de barras compuesta Se usa para representar la informacin de


una tabla de doble entrada o sea a partir de dos variables, las cuales se
representan as; la altura de la barra representa la frecuencia simple de las
modalidades o categoras de la variable y esta altura es proporcional a la
frecuencia simple de cada modalidad.

* Diagramas de barras agrupadas

Se usa para representar la informacin de una tabla de doble entrada o sea a


partir de dos variables, el cual es representado mediante un conjunto de barras
como se clasifican respecto a las diferentes modalidades.

* Ojiva porcentual

Es un grfico acumulativo, el cual es muy til cuando se quiere representar el


rango porcentual de cada valor en una distribucin de frecuencias.
En los grficos las barras se encuentran juntas y en la tabla los nmeros
poseen en el primer miembro un corchete y en el segundo un parntesis, por
ejemplo:

Construccin de un Histograma

* Paso 1: Determinar el rango de los datos. Rango es igual al dato mayor


menos el dato menor.

* Paso 2: Obtener los nmeros de clases, existen varios criterios para


determinar el nmero de clases (o barras) -por ejemplo la regla de Sturgess-.
Sin embargo ninguno de ellos es exacto. Algunos autores recomiendan de
cinco a quince clases, dependiendo de cmo estn los datos y cuntos sean.
Un criterio usado frecuentemente es que el nmero de clases debe ser
aproximadamente a la raz cuadrada del nmero de datos. Por ejemplo, la raz
cuadrada de 30 (nmero de artculos) es mayor que cinco, por lo que se
seleccionan seis clases.

* Paso 3: Establecer la longitud de clase: es igual al rango dividido por el


nmero de clases.

* Paso 4: Construir los intervalos de clases: Los intervalos resultan de dividir


el rango de los datos en relacin al resultado del PASO 2 en intervalos iguales.

* Paso 5: Graficar el histograma: En caso de que las clases sean todas de la


misma amplitud, se hace un grfico de barras, las bases de las barras son los
intervalos de clases y altura son la frecuencia de las clases. Si se unen los
puntos medios de la base superior de los rectngulos se obtiene el polgono de
frecuencias.

f) Polgono de Frecuencia

Un polgono de frecuencia es un grfico que se realiza a travs de la unin de


los puntos ms altos de las columnas en un histograma de frecuencia (que
utiliza columnas verticales para mostrar las frecuencias).
Los polgonos de frecuencia para datos agrupados, por su parte, se construyen
a partir de la marca de clase que coincide con el punto medio de cada columna
del histograma. Cuando se representan las frecuencias acumuladas de una
tabla de datos agrupados, se obtiene un histograma de frecuencias
acumuladas, que permite diagramar su correspondiente polgono.

Por ejemplo: un polgono de frecuencia permite reflejar las temperaturas


mximas promedio de un pas en un periodo de tiempo. En el eje X
(horizontal), pueden sealarse los meses del ao (enero, febrero, marzo, abril,
etc.). En el eje Y (vertical), se indican las temperaturas mximas promedio de
cada mes (24, 25, 21). El polgono de frecuencia se crea al unir, con un
segmento, todas las temperaturas mximas promedio.

Los polgonos de frecuencia se suelen utilizar cuando se desea mostrar ms de


una distribucin o la clasificacin cruzada de una variable cuantitativa
continua con una cualitativa o cuantitativa discreta en un mismo grfico.

El punto con mayor altura de un polgono de frecuencia representa la mayor


frecuencia, mientras que el rea bajo la curva incluye la totalidad de los datos
existentes. Cabe recordar que la frecuencia es la repeticin menor o mayor de
un suceso, o la cantidad de veces que un proceso peridico se repite por
unidad de tiempo.

Teora de las probabilidades

Se ocupa de asignar un cierto nmero a cada posible resultado que pueda


ocurrir en un experimento aleatorio, con el fin de cuantificar dichos resultados
y saber si un suceso es ms probable que otro.

Suceso

Es cada uno de los resultados posibles de una experiencia aleatoria.

Espacio muestra

Es el conjunto de todos los posibles resultados de una experiencia aleatoria, lo


representaremos por E (o bien por la letra griega ).

Tipos de sucesos

* Suceso elemental: es cada uno de los elementos que forman parte del
espacio muestra.
* Suceso aleatorio: es cualquier subconjunto del espacio muestra.

* Suceso seguro: est formado por todos los posibles resultados (es decir, por
el espacio muestra).

* Suceso imposible (): es el que no tiene ningn elemento. Por ejemplo al


tirar un dado obtener una puntuacin igual a 7.

* Sucesos compatibles: Dos sucesos, A y B, son compatibles cuando tienen


algn suceso elemental comn.

* Sucesos incompatibles: Dos sucesos, A y B, son incompatibles cuando no


tienen ningn elemento en comn.

* Sucesos independientes: Dos sucesos, A y B, son independientes cuando la


probabilidad de que suceda A no se ve afectada porque haya sucedido o no B.

* Sucesos dependientes: Dos sucesos, A y B, son dependientes cuando la


probabilidad de que suceda A se ve afectada porque haya sucedido o no B.

* Suceso contrario: El suceso contrario a A es otro suceso que se realiza


cuando no se realiza A., Se denota por .

Unin de sucesos

La unin de sucesos, A B, es el suceso formado por todos los elementos de


A y de B.

Interseccin de sucesos

La interseccin de sucesos, A B, es el suceso formado por todos los


elementos que son, a la vez, de A y B.

Diferencia de sucesos

La diferencia de sucesos, A B, es el suceso formado por todos los elementos


de A que no son de B.

Sucesos contrarios

El suceso = E - A se llama suceso contrario o complementario de A.

Axiomas de la probabilidad:
Propiedades de la probabilidad

Ley de Laplace.

Probabilidad de la unin de sucesos incompatibles

Probabilidad de la unin de sucesos compatibles

Probabilidad condicionada
Probabilidad de la interseccin de sucesos independientes

Probabilidad de la interseccin de sucesos dependientes

Teorema de la probabilidad total

Si A 1, A 2,... , A n son sucesos incompatibles 2 a 2, cuya unin es el espacio


muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que:

p(B) = p(A1) p(B/A1) + p(A2) p(B/A2 ) + ... + p(An) p(B/An )

Teorema de Bayes

Si A 1, A 2,..., A n son sucesos incompatibles 2 a 2, cuya unin es el espacio


muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que:

p(B) = p(A1) p(B/A1) + p(A2) p(B/A2 ) + ... + p(An) p(B/An


)

Teorema de Bayes

Si A 1, A 2,..., A n son sucesos incompatibles 2 a 2, cuya unin es el espacio


muestral (A 1 A 2 ... A n = E) y B es otro suceso, resulta que:

b. Variables Aleatorias Continua

Una variable aleatoria continua es aquella que puede tomar todos los valores
posibles dentro de un cierto intervalo de la recta real.

Ejemplo: La altura de los alumnos de una clase, las horas de duracin de una
pila.

c. La Distribucin Normal

La distribucin normal o de Gauss es sin duda la ms importante de cuantas


hay, tanto por razones prcticas como tericas. En la seccin sobre anlisis
normal se vern algunas de sus aplicaciones. Formalmente, una variable
aleatoria o poblacin X es normal de media m y varianza s2, lo que se expresa
como N (m, s), si su funcin de densidad es

Los valores que toma la funcin de probabilidad acumulada,

Se pueden calcular a continuacin, sin ms que introducir los


parmetros de media (m) y desviacin tpica (s), junto con el
argumento x. Como ya se ha indicado, la media y la varianza
de la variable aleatoria normal X son E[X]=m y V[X]=s2,
respectivamente.

Un 50% de los valores estn a la derecha de este valor central y otro 50% a la
izquierda. Esta distribucin viene definida por dos parmetros N (m, s 2),
siendo m el valor medio de la distribucin y es precisamente donde se sita el
centro de la curva y s 2: es la varianza. Indica si los valores estn ms o menos
alejados del valor central: si la varianza es baja los valores estn prximos a la
media; si es alta, entonces los valores estn muy dispersos.

Cuando la media de la distribucin es 0 y la varianza es 1se denomina normal


tipificada, y su ventaja reside en que hay tablas donde se recoge la
probabilidad acumulada para cada punto de la curva de esta distribucin.
Adems, toda distribucin normal se puede transformar en una normal
tipificada aplicando
Los parmetros de esta funcin son E(X)=m y V(X)=s2 En la
figura siguiente se muestran distribuciones gaussianas de
diferente varianza

Ejercicio: La renta media de los habitantes de un pas es de 4 millones de


pesos/ao, con una varianza de 1,5. Se supone que se distribuye segn una
distribucin Normal. Calcular:

a) Porcentaje de la poblacin con una renta inferior a 3 millones de pesos.

b) Renta a partir de la cual se sita el 10% de la poblacin con mayores


ingresos.

c) Ingresos mnimo y mximo que engloba al 60% de la poblacin con renta


media.

a) Porcentaje de la poblacin con una renta inferior a 3 millones de pesos.

El valor de z para 3 millones de pesos es de -0,816.

P(X<3) = P(Z<-0,816)

P (z>-0,816) = 1-P(z<0,816) = 1 - 0,7925 (aprox.) = 0,2075

Luego, el 20,75% de la poblacin tiene una renta inferior a 3 millones pesos.

b) Nivel de ingresos a partir del cual se sita el 10% de la poblacin con


renta ms elevada.
Vemos en la tabla el valor de la variable tipificada cuya probabilidad
acumulada es el 0,9 (90%), lo que quiere decir que por encima se sita el 10%
superior.

Ese valor corresponde a z=1,282. Ahora calculamos la variable normal x


equivalente a ese valor de la normal tipificada: 1.282=(x-4)/1.22

Despejando x=5,57. Por lo tanto, aquellas personas con ingresos superiores a


5,57 millones de pesos constituyen el 10% de la poblacin con renta ms
elevada.

c) Nivel de ingresos mnimo y mximo que engloba al 60% de la


poblacin con renta media. Vemos en la tabla el valor de la variable
normalizada Y cuya probabilidad acumulada es el 0,8. Como sabemos que
hasta la media la probabilidad acumulada es del 50%, quiere decir que entre la
media y este valor de z hay un 30% de probabilidad.

Por otra parte, al ser la distribucin normal simtrica, entre -z y la media hay
otro 30% de probabilidad. En definitiva, el segmento (-z,z) engloba al 60% de
poblacin con renta media.

El valor de z que acumula el 80% de la probabilidad es 0,842 (aprox.), por lo


que el segmento viene definido por (-0,842, +0,842). Ahora calculamos los
valores de la variable x correspondientes a estos valores de z. Los valores de x
son 2,97 y 5,03. Por lo tanto, las personas con ingresos superiores a 2,97
millones de pesos e inferiores a 5,03 millones de pesos constituyen el 60% de
la poblacin con un nivel medio de renta.

d. La Distribucin Binomial

La distribucin binomial aparece de forma natural al realizar n repeticiones


independientes de cierto experimento cuyo resultado consiste en la presencia,
con probabilidad p, de cierto atributo A. La probabilidad p permanece
constante durante todo el proceso muestra. Si Xi es la variable asociada a la
i-sima rplica, que tomar el valor 1 si se verifica A, y 0 en caso contrario, la
variable

Que representa el nmero de veces que aconteci A, tiene


una distribucin binomial de parmetros n y p, lo que se suele
indicar como B(n, p), de forma que
Siendo su funcin de probabilidad acumulada

La media y la varianza de S son E[S] = n*p y V[S] = n*p*(1-p),


respectivamente.

La distribucin binomial parte de la distribucin de Bernoulli. La distribucin


de Bernoulli se aplica cuando se realiza una sola vez un experimento que tiene
nicamente dos posibles resultados (xito o fracaso), por lo que la variable
slo puede tomar dos valores: el 1 y el 0. La distribucin Binomial se aplica
cuando se realizan un nmero n de veces el experimento de Bernoulli, siendo
cada ensayo independiente del anterior. La variable puede tomar valores entre
0 si todos los experimentos han sido fracaso, hasta n si todos los experimentos
han sido xitos

Ejemplo se tira una moneda 10 veces: cuntas caras salen? Si no ha salido


ninguna la variable toma el valor 0; si han salido dos caras la variable toma el
valor 2; si todas han sido cara la variable toma el valor 10. La distribucin de
probabilidad de este tipo de distribucin sigue el siguiente modelo,

Ejercicio: Cul es la probabilidad de obtener 6 caras al lanzar


una moneda 10 veces? k es el nmero de aciertos. En este
ejemplo k igual a 6 (en cada acierto decamos que la variable
toma el valor 1: como son 6 aciertos, entonces k=6), n es el
nmero de ensayos. En nuestro ejemplo son 10, P es la
probabilidad de xito, es decir, que salga cara al lanzar la
moneda. Por lo tanto P=0,5. Entonces,

Luego, P(x=6) = 0,205, es decir, se tiene una probabilidad del


20,5% de obtener 6 caras al lanzar 10 veces una moneda.

e. La Distribucin de Poisson
Es otra distribucin discreta de probabilidad, llamada as en memoria de
Simeon Denis Poisson (1781-1840), quien la descubri. Se usa en muchas
situaciones que se refieren a fenmenos que ocurren en un intervalo continuo
de espacio o de tiempo, aunque dicha continuidad puede dividirse en
intervalos ms pequeos.

Mientras que la distribucin Binomial est orientada a resolver problemas


relacionados con los xitos esperados en n ensayos, la distribucin de
Poisson busca dar respuesta a problemas relacionados con los xitos esperados
en un intervalo de tiempo o de espacio.

La distribucin de Poisson es semejante a la distribucin binomial, puesto que


sigue el proceso de Bernoulli, descrito en la pgina 122, excepto que los
eventos no ocurren mediante ensayos u observaciones fijas como lanzar la
moneda 3 veces al aire, sino que los eventos ocurren en un intervalo o
espectro de tiempo o de espacio.

La semejanza de la distribucin de Poisson con la distribucin Binomial,


radica en lo siguiente:

* Puede efectuarse un nmero infinito de ensayos en el experimento.

* Existen dos resultados opuestos en cada ensayo (xito y fracaso), los cuales
son complementarios.

* Los diferentes ensayos son independientes entre s, es decir la probabilidad


de xito en un ensayo no afecta la probabilidad de xito en los dems ensayos,
o sea, que la probabilidad de xito es constante de ensayo a ensayo,

La distribucin de Poisson se simboliza como: P(X, ), que se lee como la


probabilidad de que ocurran X xitos en un intervalo de tiempo o de espacio
dado, sabiendo que el promedio de xitos por idntico intervalo, es . La
distribucin de Poisson se puede considerar como el lmite de una distribucin
binomial cuando n es muy grande y p es muy pequea.

Cuando n es grande (n30) y crece indefinidamente y p es pequea con


tendencia a cero, de tal manera que la media (n.p<5), entonces las
probabilidades binomiales se aproximan a la frmula de Poisson. La frmula
de Poisson la podemos escribir como se describe a continuacin:

(5.7) P(X, ) = x.e- / X!

Son ejemplos tpicos de la distribucin de Poisson los siguientes:

> La distribucin del nmero de llamadas a un conmutador en un intervalo de


tiempo dado.
> La distribucin del nmero de clientes que entran a un almacn de cadena
en un intervalo de tiempo determinado.

> La distribucin de bacterias en una placa de microscopio en un milmetro


cuadrado.

> La distribucin de accidentes por semana en una carretera, etc.

Propiedades de la distribucin de Poisson

=E(X) =

2=

Ejercicio: Al inspeccionar la aplicacin de estao por un proceso electroltico


continuo se descubren en promedio 0.8 imperfecciones por minuto. Calcular
la probabilidad de descubrir: a) Una imperfeccin en un minuto. b) 4
imperfecciones en 5 minutos. c) Calcular la media o valor esperado y la
varianza correspondiente.

Se trata de una distribucin de Poisson, puesto que se cumple el proceso de


Bernoulli por lo siguiente:

Pueden efectuarse un nmero infinito de observaciones en el intervalo pedido,


puesto que dicho intervalo puede dividirse en fracciones de tiempo o de
espacio tan pequeos como se quiera y cada vez que transcurre una fraccin
de stas, se puede hacer una observacin.

i) En cada pequea fraccin de tiempo analizada, existe imperfeccin o no


existe, es decir solo hay dos resultados posibles en cada ensayo, xito y
fracaso, opuestos entre s.

ii) Los ensayos son independientes, puesto que si en una primera observacin
hubo imperfeccin, no quiere decir que en las siguientes observaciones tenga
que haberlas.

iii) La probabilidad de imperfeccin es constante de ensayo a ensayo.

Las soluciones al problema son las siguientes:

a) Aqu el promedio de imperfecciones es por minuto y la probabilidad pedida


se refiere a una imperfeccin en idntico intervalo de un minuto, por lo tanto
podemos aplicar directamente la frmula 5.7 de la presente pgina, as:

P (1, 0.8) = (0.81*e-0.8) /1!=0.3595


b) Aqu el promedio de imperfecciones es de 1 por un minuto y la
probabilidad pedida se refiere a un intervalo de 5 minutos; por lo cual es
necesario calcular el valor del promedio , acorde con el intervalo solicitado
de 5 minutos. As pues que el nuevo valor de es: = 0.8 * 5 = 4
imperfecciones por cada 5 minutos. La probabilidad pedida segn la frmula
5.7 ser:

P(4, 4) = (44*e-4) /4!=0.1954

f. Distribucin Chi2 Cuadrado de Pearson

Si (X1, X2,..., Xn) son n variables aleatorias normales independientes de


media 0 y varianza 1, la variable definida como

Se dice que tiene una distribucin CHI con n grados de


libertad. Su funcin de densidad es

Siendo la funcin gamma de Euler, con P>0.


La funcin de distribucin viene dada por

La media de esta distribucin es E(X)=n y su varianza V(X)=2n. Esta


distribucin es bsica en un determinado nmero de pruebas no paramtricas.

Si consideramos una variable aleatoria Z~N (0,1), la variable aleatoria X=Z2


se distribuye segn una ley de probabilidad distribucin CHI con un grado de
libertad

Si tenemos n variable aleatoria independientes Zi~N(0,1), la suma de sus


cuadrados respectivos es una distribucin CHI con n grados de libertad,
La media y varianza de esta variable son respectivamente, E(X)=n y V(X)=2n

Ejemplo, El espesor de un semiconductor se controla mediante la variacin


estndar no mayor a s=0.60 mm. Para mantener controlado el proceso se
toman muestras aleatoriamente de tamao de 20 unidades, y se considera que
el sistema est fuera de control cuando la probabilidad de que s2 tome valor
mayor o igual al valor de la muestra observado es que es 0.01. Que se puede
concluir si s=0.84mm?

Solucin. Existe fuera de control si con n=20 y s=0.60, excede

Entonces,

Por tanto, el sistema est fuera de control

La funcin de distribucin CHI tienen importantes variaciones de acuerdo con


los grados de libertad y del tamao muestral (menor tamao muestral y mayor
tamao muestral respectivamente),

En consecuencia, si tenemos X1,.., Xn, variable aleatoria


independientes, donde cada

La distribucin Chi muestra su importancia cuando queremos determinar la


variabilidad (sin signo) de cantidades que se distribuyen en torno a un valor
central siguiendo un mecanismo normal.
Teorema (Cochran). Sean X1,Xn con distribucin N (m, s) la variable
aleatoria independiente, entonces

La funcin Chi-cuadrado es igual a la funcin normal elevada


al cuadrado. Esto es, el producto de dos distribuciones de
Gauss es una distribucin de Chi-cuadrado. Si de una
poblacin normal, o aproximadamente normal, se extraen
muestras aleatorias e independientes, y se le calcula el
estadgrafo 2 usando el valor muestral de la varianza y el
poblacional con:

Esta funcin matemtica est caracterizada por el valor del


nmero de grados de libertad =n-1 (donde n es el tamao
muestral). Al igual que la t-Student, el valor total del rea bajo
la curva es igual a la unidad, pero la diferencia principal es
que esta no es simtrica respecto al origen, sino que se
extiende desde 0 hasta + porque no puede ser negativa.

A medida que los grados de libertad aumentan, la curva cambia de forma y sus
valores se han tabulado en el anexo de tablas estadsticas, donde se muestran
los valores del rea bajo la curva, para los principales valores de 2, a la
derecha de ste. O sea, se muestra la zona de rechazo para diferentes niveles
de significacin y de grados de libertad, lo cuales varan entre 1 y 100. Ms
all, conviene usar directamente la funcin de Gauss.
Para cada grado de libertad hay una tabla de valores que pueden obtenerse
variando el nivel de significacin, parecida a la de Gauss. El problema de
calcular los valores crticos, para un nivel de confianza dado, se resuelve de
dos maneras: usando computadoras para resolver los clculos, y la otra ms
comn, usando tablas resumidas, en forma anloga a la vista para el modelo
de t-Student. La distribucin de 2 se usa principalmente para analizar
dispersiones. Se compara la dispersin muestral expresada a travs de sus
cuadrados medios contra la dispersin poblacional cuantificada a travs de la
varianza (2).

Existen otros criterios, como el de Thonks, que usa un error relativo admisible
mximo, y se calcula como un cuarto del rango de los valores normales de
referencia, dividido por el valor medio de dicho intervalo (referido a la
magnitud clnica en cuestin y expresado en porcentajes). Tambin se emplea
a este modelo para realizar la llamada prueba de chi-cuadrado en las
comparaciones de frecuencias observadas contra las frecuencias esperadas,
con datos de recuento. Ms adelante se desarrolla mejor este tema, lo mismo
que su so para testear la independencia de dos o ms factores en una Tabla de
Contingencia.

En la industria farmacutica se la usa para analizar la dispersin de los


componentes de los productos terminados. Todo remedio fabricado debe
cumplir estrictas normas de calidad, generalmente referidas al contenido en
peso de sus principales componentes. Se usan dos lmites: el superior e
inferior, dentro de los cuales se los debe mantener controlados. Este rango de
valores define la dispersin mxima admisible y lo ideal es que la dispersin
de los productos terminados sea bastante inferior a dicho rango. Ese control de
la dispersin es muy similar al explicado ms arriba, para los bioqumicos.

Ejemplo. Un bioqumico sospecha que su micro-centrfuga no mantiene


constante su velocidad mientras trabaja, lo cual le da una variabilidad
indeseada en sus determinaciones. Para controlarla, consigue un tacmetro
regulado y mide cada minuto la velocidad durante 10 minutos. Los resultados
fueron: una velocidad promedio en las 10 mediciones de 3098 rpm con una
desviacin de 100,4 rpm. Testear para un error relativo mximo del 2% o
menos, si la centrfuga es estable.
La desviacin estndar es smax=2%*3098=62 rpm, luego,

H0: smax62 rpm

H1: smax62 rpm

De la Tabla de valores crticos surge: 20,99;9=21,666 y 20,991;9=27,877.


Por lo tanto, el bioqumico ha encontrado una muy fuerte evidencia que la
velocidad del equipo oscila en forma indeseada, tal como sospechaba. Y
deber ajustarlo si desea disminuir la variabilidad de sus mediciones. Los
resultados fueron muy significativos 2 = 23,6

Ejemplo. Un farmacutico Jefe del Dpto. Control de Calidad en una industria


alimenticia, descubre que en su proceso de produccin el contenido de
ciclamato en su lnea de mermeladas dietticas vara en forma indeseada.
Sospechando que se trata de una falla en el dosificador, decide tomar 10
muestras seguidas del mismo. Encuentra un promedio de 20 gramos con una
desviacin de 8 gramos. Si en su protocolo de fabricacin la variacin
mxima permitida es del 3%, determinar si el dosificador debe ser corregido.

El desviacin estndar aceptable es: smx = 3% de 20 g = 6 g. Luego:

H0: smx 6 g.: el dosificador funciona correctamente

H1: smx > 6 g.: el dosificador debe ser cambiado

De la Tabla de valores crticos surge: c20, 95; 9=16,9. Por lo tanto, el


farmacutico no ha encontrado evidencia que respalde sus sospechas. Sin
embargo, el valor hallado es muy cercano al crtico, por lo que le convendra
hacer ms pruebas.

En estadstica, la distribucin Chi-cuadrado, tambin denominada Chi-


cuadrado de Pearson, es una distribucin de probabilidad continua con un
parmetro k que representa los grados de libertad de la variable aleatoria:
Donde Zi son variables de distribucin normal, N(0,1) o de media cero y
varianza uno.

Se suele usar la denominada prueba Chi-cuadrado como test de independencia


y como test de bondad de ajuste. La funcin de densidad Chi-cuadrado es

es la funcin gamma. La funcin de distribucin es

Donde (k, z) es la funcin gamma incompleta.

El valor esperado y la varianza de una variable aleatoria X con distribucin


Chi-cuadrada son

La distribucin Chi-cuadrado tiene muchas aplicaciones en inferencia


estadstica, por ejemplo en el test Chi-cuadrado y en la estimacin de
varianzas. Tambin est involucrada en el problema de estimar la media de
una poblacin normalmente distribuida y en el problema de estimar la
pendiente de una recta de regresin lineal, a travs de su papel en la
distribucin t-

Student, y participa en todos los problemas de anlisis de varianza, por su


papel en la distribucin F-Snedecor, que es la distribucin del cociente de dos
variables aleatorias de distribucin Chi-cuadrado e independientes.

g. La Distribucin de Weibull

La variable aleatoria X tiene distribucin de Weibull de parmetros a > 0 y b >


0 si su funcin de densidad es

La funcin de distribucin, o de probabilidad acumulada, es

Igual que en el caso de la distribucin exponencial, la de


Weibull se suele utilizar como modelo paramtrico en
problemas de anlisis de supervivencia. En este mbito, es de
inters la probabilidad de que se presente el fallo o muerte
despus de transcurrido un tiempo x; de ah que se defina la
funcin de supervivencia

Por ltimo, la esperanza y la varianza de esta distribucin son,


respectivamente,

Donde siendo la funcin gamma de Euler con P>0.

3. Regresin y Correlacin lineal (concepto y ejercicios)

La regresin y la correlacin son dos tcnicas estrechamente relacionadas y


comprenden una forma de estimacin.

En forma ms especifica el anlisis de correlacin y regresin comprende el


anlisis de los datos muestrales para saber qu es y cmo se relacionan entre si
dos o ms variables en una poblacin. El anlisis de correlacin produce un
nmero que resume el grado de la correlacin entre dos variables; y el anlisis
de regresin da lugar a una ecuacin matemtica que describe dicha relacin.

El anlisis de correlacin generalmente resulta til para un trabajo de


exploracin cuando un investigador o analista trata de determinar que
variables son potenciales importantes, el inters radica bsicamente en la
fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la
regresin da lugar a una ecuacin que describe dicha relacin en trminos
matemticos

Los datos necesarios para anlisis de regresin y correlacin provienen de


observaciones de variables relacionadas.

a. Regresin lineal

Expresndolo en forma simple, la regresin lineal es una tcnica que permite


cuantificar la relacin que puede ser observada cuando se grafica un diagrama
de puntos dispersos correspondientes a dos variables, cuya tendencia general
es rectilnea (Figura la); relacin que cabe compendiar mediante una ecuacin
del mejor ajuste de la forma:

y = a + bx
En esta ecuacin, y representa los valores de la coordenada
a lo largo del eje vertical en el grfico (ordenada); en tanto
que x indica la magnitud de la coordenada sobre el eje
horizontal (absisa). El valor de a (que puede ser negativo,
positivo o igual a cero) es llamado el intercepto; en tanto que
el valor de b (el cual puede ser negativo o positivo) se
denomina la pendiente o coeficiente de regresin.

Tabla1

Serie de datos para el clculo de una regresin (a y b) y


del coeficiente de correlacin (r)

El procedimiento para obtener valores de a y b para una serie de pares de


datos de x y de y (tal como la presentada en la Figura 1 y/o en la Tabla 1)
es como sigue:

Paso 1

Calcule, para cada par de valores de x e y, las cantidades x, y, y


x.y.

Paso 2

Obtenga las sumas () de estos valores para todos los pares de datos de x e
y, as como las sumas del total de los valores de x e y. Los resultados de
los Pasos 1 y 2 aparecern en forma similar a la siguiente:
Paso 3 Estime la pendiente (b) por medio de la relacin:

Paso 4 Estime el intercepto (a) por medio de la relacin:

A partir de esos valores de a y de b obtenidos mediante


las Ecuaciones, es posible trazar a lo largo de los puntos
dispersos de un grfico la lnea recta mejor ajustada a los
mismos, y verificar visualmente si tales puntos estn bien
expresados por la lnea (Figura 1b).

Figura 1a Diagrama de puntos dispersos correspondientes a


pares de valores de x y de y. Ntese que y tiende a
decrecer con el aumento de x, lo cual sugiere coeficientes
de regresin y de correlacin negativos (basado en la Tabla 1).
Figura 1b Los mismos datos que en 1a Fig. 1a, pero ajustados en base a la
regresin y = 2,16 - 0,173x, con r = 0,75

b. Correlacin lineal

El anlisis de correlacin se encuentra estrechamente vinculado con el anlisis


de regresin y ambos pueden ser considerados de hecho como dos aspectos de
un mismo problema.

La correlacin entre dos variables es - otra vez puesto en los trminos ms


simples - el grado de asociacin entre las mismas. Este es expresado por un
nico valor llamado coeficiente de correlacin (r), el cual puede tener valores
que oscilan entre -1 y +1. Cuando r es negativo, ello significa que una
variable (ya sea x o y) tiende a decrecer cuando la otra aumenta (se trata
entonces de una correlacin negativa, correspondiente a un valor negativo
de b en el anlisis de regresin). Cuando r es positivo, en cambio, esto
significa que una variable se incrementa al hacerse mayor la otra (lo cual
corresponde a un valor positivo de b en el anlisis de regresin).

Los valores de r pueden calcularse fcilmente en base a una serie de pares


de datos de x e y, utilizando la misma tabla y montos que se indican en el
Paso 2 de la seccin regresin de este captulo. De este modo r puede ser
obtenido - indirectamente - a partir de la relacin:

La cual proporciona el valor del coeficiente de determinacin (r). Entonces,


lo nico necesario es calcular

Es decir, tomar la raz indicada del coeficiente de determinacin a los fines de


obtener el valor absoluto de r, y luego agregar el signo (+ o -) de acuerdo a
que la correlacin sea positiva o negativa (lo cual puede ser establecido
visualmente a partir del grfico, o bien en base al clculo del valor de b de
la correspondiente regresin y utilizando para r el mismo signo).

Cuando se calculan los valores de r se querr saber, sin embargo, hasta qu


punto la correlacin identificada pudiera haber surgido nicamente por
casualidad. Esto puede ser establecido verificando si el valor estimado de r
es significativo, es decir si el valor absoluto de r es mayor o igual que un
valor crtico de r indicado en las tablas estadsticas

Ejercicios

Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:

Calcular:

1 La recta de regresin de Y sobre X.

2 El coeficiente de correlacin.

3 El peso estimado de un jugador que mide 208 cm.


Correlacin positiva muy fuerte.

A partir de los siguientes datos referentes a horas trabajadas en un taller (X), y


a unidades producidas (Y), determinar la recta de regresin de Y sobre X, el
coeficiente de correlacin lineal e interpretarlo.
Correccin positiva muy fuerte.