Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Septiembre, 2009
Ahora la pregunta que surge es la siguiente, qu papel juega la Estadstica en esto?. El papel de
la Estadstica en este proceso es cuantificar la incertidumbre y la rama de la estadstica que se
encarga de ello se le llama Estadstica Inferencial que utiliza el mtodo Probabilstico.
En conclusin ya sea porque la se dispone de informacin incompleta, o debido a la propia
variabilidad de la informacin (naturaleza), es muy comn que se arribe a conclusiones a travs
del mtodo inductivo, en el cual las mismas son inciertas. El conjunto de tcnicas que permite
realizar inducciones en las que el grado de incertidumbre es cuantificable, integran la rama de la
Estadstica conocida como Inferencia Estadstica o Estadstica Inductiva o Inferencial.
Atributos
Supngase el siguiente ejemplo. Se tiene en un aula de clase un grupo de 20 estudiantes y suponga
adems, que el estudiante de la primera fila es alto, color de piel blanca, cabello castao, ojos
claros, etc. Si a los 20 estudiantes se les considera como una poblacin, se puede decir que los
detalles antes mencionados corresponden a caractersticas propias de un miembro de esa
poblacin, o sea, son atribuciones propias del estudiante en particular.
Con el ejemplo antes citado, se puede tratar de deducir un concepto de Atributo, diciendo que es
una caracterstica propia de cada elemento de una poblacin.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Variable
Retomando el ejemplo anterior, supngase ahora, que se les pregunta a los cinco primeros
estudiante su estatura los cuales responden de la siguiente manera:
1.76, 1.69, 1.83, 1.72, 1.77
De hecho estas alturas corresponde a atributos de los cinco primeros estudiante. Si se observan
los datos anteriores, se puede constatar que el atributo estatura cambia de un estudiante a otro.
Con esta idea se puede plantear un concepto de variable.
Variable es un atributo medible que cambia de un elemento a otro de la poblacin, es decir, es
toda caracterstica que cambia y que est sujeta a medida o cuenta.
Supngase ahora, que los cincos primeros estudiantes poseen la misma altura, ejemplo, 1.73. Dado
que el atributo altura en este caso no cambia, no se puede considerar como una variable, pero s,
es un atributo. De lo anterior se puede concluir, que una variable siempre ser un atributo, pero
un atributo no siempre es una variable.
Las variables siempre se denotan por la letras maysculas del alfabeto y los valores que toman
(observaciones) con letras minsculas.
Nombre
b.-
Definicin
c.-
d.-
Nombre
Cuando un investigador toma los datos correspondiente a una variable, ste tiene que saber el
nombre de la variable, de lo contrario cmo va a tomar informacin de una variable si no sabe el
nombre de sta.
Definicin
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Todo investigador tiene que definir la (s) variable (s) que va a estudiar. Este nombre es cmo se
concibe la variable en el campo de la ciencia correspondiente, es decir, cmo se define. Si el
concepto no existe, se debe construir el constructo por parte de investigador.
Por ejemplo, supngase que un investigador est tomando el peso a un grupo de nios, El toma los
datos cuando los nios no han desayunado y sin ropa alguna. Este investigador tiene que reportar
al momento de dar a conocer la informacin cmo lo hizo porque quizs otro investigador lo puede
haber tomado con ropa y despus de desayunar. Inclusive debe de especificar el equipo con el
cual verific el valor de la variable en los elementos de la poblacin estudiados dado que pueden
variar en precisin.
Esta se refiere a las categoras convencionalmente admitida por la sociedad. Por ejemplo; si en
un grupo de personas se mide la variable sexo, de hecho se refiere al sexo anatmico y no al
comportamiento sexual, por lo tanto las categoras que puede tomar son masculino femenino o
bien macho hembra.
Si la variable es edad, entonces segn el estado donde se mida puede ser das, semanas, meses,
aos.
Procedimiento que permita clasificarla
Este elemento de las variables en muchos casos es muy complejo, pero se soluciona en parte si
existe una adecuada definicin de la variable que el investigador desee medir. Si se retoma el
ejemplo anterior donde se quiere medir la variable sexo en un grupo de personas. En este caso la
variable se define como sexo anatmico de cada persona que componen al grupo. Ahora bien, el
hecho de que una persona diga que es de sexo masculino no implica que no sea homosexual, pero no
es la conducta sexual la que se est midiendo, sino el sexo anatmico. Por tal razn, aunque este
elemento de la variable es complejo, con una definicin clara de lo que se desea medir se resuelve.
De acuerdo a los valores que puede tomar una variable, sta se puede clasificar en:
Variables cualitativas: no se pueden medir numricamente, representan caractersticas de las
variables (categoras, por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numrico (edad, precio de un producto, ingresos anuales).
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Por su parte, las variables cuantitativas se pueden clasificar atendiendo a los valores que pueden
tomar en discretas y continuas:
Discretas: Son todas aquellas que toman valores que se pueden contar, es decir, que se pueden
enumerar (1, 2, 8, -4, etc.). Por ejemplo: nmero de hermanos (puede ser 1, 2, 3...., etc, pero, por
ejemplo, nunca podr ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de
un vehculo puede ser 80.3 km/h, 94.57 km/h..., etc.
ESCALAS DE MEDICIN
Medir una variable significa constatar la observacin en los elementos de la poblacin que es
objeto de estudio, es decir, consiste en verificar que valor toma la variable en la unidad de
anlisis. Lo anterior implica que para medir una variable, sta tiene que ser observable en el
mundo real, manteniendo el principio fundamental de la construccin de una variable que consiste
en que sus categoras deben de ser totalmente inclusivas y mutuamente excluyentes.
En Estadstica se definen cuatro niveles o escalas de medicin las cuales son:
a.- Escala Nominal: En esta escala lo nico que puede decirse de una observacin es a cul de un
cierto nmero de categoras pertenece.
En esta escala de medicin la nica relacin que puede establecerse entre observaciones es la de
igualdad y por lo tanto de desigualdad. Dos observaciones son iguales si estn en la misma
categora (llamadas tambin clases) y diferente si no lo estn. Como consecuencia de lo anterior,
la nica estadstica vlida para este tipo de datos es la frecuencia de cada clase.
Ejemplo, supngase que en grupo de personas se desea medir el estado de salud con respecto a
una enfermedad en particular. En este caso la constatacin de la variable (medicin) en los
miembros de la poblacin debe de concluir en que estn o no afectados por la enfermedad.
b.- Escala Ordinal: Las observaciones medidas en esta escala pueden ordenarse de menor a
mayor, y en consecuencia no slo se admiten las relacin de igualdad, sino adems la de mayor que
y menor que. Muchos de los estudios realizados en las Ciencias Sociales producen observaciones
que son medidas bajo esta escala, por lo difcil que es medir actitudes en los seres humanos.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
En esta escala adems de calcularse frecuencias como en la escala nominal, se puede calcular una
medida de tendencia central llamada Mediana.
Un ejemplo clsico de esta escala es la jerarquizacin que existe en la iglesia y el ejrcito.
Coronel > Teniente > Subteniente > Sargento > Cabo > Soldado
c.- Escala de Intervalo: Con observaciones en esta escala no slo se pueden ordenarse las
observaciones, sino que adems puede definirse una unidad de distancia (puede ser arbitraria)
entre ellas. La principal diferencia de esta escala con la de Proporciones es que en la escala de
Intervalo el cero y la unidad de distancia son arbitrarios y, en particular, el cero no corresponde
a una caracterstica fsica de las unidades de medidas. Un ejemplo clsico en esta escala es la
medicin de la temperatura.
Dado que los requisitos indispensables para efectuar sumas y productos son que existan ceros y
una unidad de distancia, con las observaciones medidas bajo esta escala puede calcularse medidas
de tendencia central como la media y de dispersin como la varianza. Por tal razn esta escala es
ms fuerte que la Nominal.
b.- Escala de Proporcin o Razn: En esta escala las observaciones pueden ordenarse y existen
un cero y una unidad de distancia que son inherentes al sistema, es decir, que no son arbitrarios.
Ejemplos tpicos de caractersticas medidas en esta escala el peso de un individuo, el rendimiento
por hectrea de una planta, etc. Esta es la escala de medicin ms fuerte que existe y por lo
tanto permite el clculo de cualquier estadstica.
ORGANIZACIN DE LA INFORMACIN
Resulta de mucha importancia en el campo de la investigacin, utilizar tcnicas que permitan
apreciar de una forma rpida y fcilmente aprehensible un tipo de informacin donde se resalten
los aspectos ms importantes. Estas tcnicas o mtodos debern poseer caractersticas o
propiedades que faciliten lo antes mencionado. Entre estas propiedades se pueden mencionar las
siguientes:
1.
2.
3.
=1 ;
donde:
i=1 se lee como la suma de i=1 a i=n de x, lo cual indica que la variable x toma valores para i=1, 2, 3,
..., n, o sea:
= 1 + 2 +
=1
i se llama ndice de suma y es una variable que toma los valores 1, 2, 3, ..., n.
La expresin i=1 indica en este caso que 1 es el valor inicial de i (no siempre el valor inicial
comienza de 1).
La n arriba del signo, indica el ltimo valor de i.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
A xi se le llama sumando
Propiedades de la sumatoria
Sean x1, x2,..., xn y y1, y2,..., yn dos conjuntos de datos, y a y b dos constantes arbitrarias.
Entonces:
1.
=1
2.
=1
3.
=1
4.
= + 1 ;
5.
=1
+ =
=1
+ =
=1
=1
=1
La demostracin de cada una de estas propiedades se deja como prctica para el estudiante.
METODOS TABULARES
Tablas de Frecuencias Relativas y Absolutas
Como una antesala de lo que son tablas de frecuencias relativas y absolutas se menciona a
continuacin las formas iniciales de presentacin de informacin, sus ventajas y desventajas de
tal manera que el estudiante comprenda la lgica de cada uno y por qu se usa una en vez de otra.
Una de las primeras formas de presentacin de informacin es el arreglo de los datos el cual es
una de las formas ms sencillas de presentar datos. Pone los valores en orden ascendente o
descendente. Por ejemplo, a continuacin se muestran las concentraciones de cloro en partes por
milln (ppm) de 30 galones de agua tratada.
Concentraciones de cloro en ppm de 30 galones de agua tratada
15.6
16.0
16.8
16.0
16.3
16.2
15.7
16.4
15.4
16.4
15.8
16.0
15.2
15.7
16.6
15.8
16.2
15.9
15.9
15.6
15.8
16.1
15.9
16.0
15.6
16.3
16.8
15.9
16.3
16.9
Una forma sencilla de arreglar estos datos es presentarlos en orden ascendente o descendente.
Si se arreglan de manera ascendente quedaran de la siguiente forma:
15.2
15.4
15.6
15.6
15.6
15.7
15.7
15.8
15.8
15.8
15.9
15.9
15.9
15.9
16.0
16.0
16.0
16.0
16.1
16.2
16.2
16.3
16.3
16.3
16.4
16.4
16.6
16.8
16.8
16.9
Este arreglo de datos ofrece varias ventajas sobre los datos originales o sin arreglar:
Al nmero de veces que se repite una observacin dentro de una coleccin de datos se le llama
Frecuencia Absoluta (fi). La suma de stas tiene que ser igual al tamao de la coleccin de datos
(fi = n), en este caso 18 + 12 = 30 (total de las observaciones). A la relacin de cada frecuencia
absoluta con respecto al total, se le llama Frecuencia Relativa (fr = fi/fi), la suma de esta
tiene que ser igual a 1 o bien a 100 si se le expresa en porcentaje. Este tipo de arreglo es
importante cuando la coleccin de datos es pequea.
Los datos anteriores arreglados en un cuadro de distribucin de frecuencia se muestran a
continuacin:
xi
fi
fr
xi
fi
fr
15.2
15.4
15.6
15.7
15.8
15.9
16.0
Total
1
1
3
2
3
4
4
18
3.33
3.33
10.00
6.67
10.00
13.33
13.33
60.00
16.1
16.2
16.3
16.4
16.6
16.8
16.9
Total
1
2
3
2
1
2
1
12
3.33
6.67
10.00
6.67
3.33
6.67
3.33
40.00
Hay autores que consideran la siguiente forma de presentacin de cuadros de frecuencia donde
incluyen elementos que son propios de las Tablas de Frecuencias Absolutas y Relativas. Esto se
muestra a continuacin:
Variable
Frecuencias absolutas
Frecuencias relativas
xi
Simple(fi)
Acumulada (fia)
Simple (fr)
Acumulada (fra)
X1
f1
f1
fr1 = f1 / fi
Fr1
X2
f2
f1 + f2
fr2 = f2 / fi
fr1 + fr2
...
...
...
...
...
Xn-1
fn-1
f1 + f2 ++ fn-1
fr-1 = fn-1 / fi
Xn
fn
fi= n
frn = fn / fi
1 100
Veamos un ejemplo:
Medimos la altura de los nios de una clase con instrumental de precisin y en condiciones
adecuadas, escogiendo a todos sus componentes, 30 sujetos, y obtenemos los siguientes
resultados (m):
Alumno
Estatura
Alumno
Estatura
Alumno
Estatura
1.25
11
1.23
21
1.21
1.28
12
1.26
22
1.29
1.27
13
1.30
23
1.26
1.21
14
1.21
24
1.22
1.22
15
1.28
25
1.28
1.29
16
1.30
26
1.27
1.30
17
1.22
27
1.26
1.24
18
1.25
28
1.23
1.27
19
1.20
29
1.22
10
1.29
20
1.28
30
1.21
Puesto que todas las tallas estn comprendidas entre 1.20 y 1.30 m., podemos agruparlas por
centmetros formando 11 grupos indicando cuntos nios presentan cada uno de los valores. Si
presentamos esta informacin estructurada (agrupada) en un cuadro de frecuencias obtendramos
la siguiente:
Cuadro de frecuencia
Observacin
Frecuencias
fi
fia
fr (%)
fra
1.20
3.33
3.33
1.21
13.33
16.66
1.22
13.33
30.00
1.23
11
6.67
36.66
1.24
12
3.33
40.00
1.25
14
6.67
46.66
1.26
17
10.00
56.66
1.27
20
10.00
66.66
1.28
24
13.33
80.00
1.29
27
10.00
90.00
1.30
30
10.00
100.00
Total
30
100
Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos mayores. ya que de otra manera obtendramos una
tabla de frecuencia muy extensa que aportara muy poco valor a efectos de sntesis.
Supongamos que ahora medimos la estatura de los habitantes de una vivienda (tambin 30
personas) y obtenemos los siguientes resultados (m):
Habitante
Estatura
Habitante
Estatura
Habitante
Estatura
1.15
11
1.53
21
1.21
1.48
12
1.16
22
1.59
1.57
13
1.60
23
1.86
1.71
14
1.81
24
1.52
1.92
15
1.98
25
1.48
1.39
16
1.20
26
1.37
1.40
17
1.42
27
1.16
1.64
18
1.45
28
1.73
1.77
19
1.20
29
1.62
10
1.49
20
1.98
30
1.01
Los datos son menos homogneos (ms dispersos) que en el caso de los nios de un grupo escolar
(todos de la misma edad) y si presentramos esta informacin en un cuadro de frecuencia
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
obtendramos 30 lneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y
con una frecuencia relativa del 3.3%. Esta tabla nos aportara toda la informacin inicial, pero
sera muy difcil de manejar si en vez de 30 personas fueran 300. 3000 o ms: en definitiva, de
escaso valor prctico. Lo que quiere decir lo anterior, es que si bien es cierto que los cuadros de
frecuencias tienen ms capacidad de resumir la informacin, esto no siempre se logra ya que
depende de las caractersticas propias de la informacin.
En lugar de ello, podramos agrupar los datos por intervalos llamados tambin Tablas de
Frecuencias Absolutas y Relativas, con lo que la informacin queda ms resumida (se pierde por
tanto algo de informacin), pero es ms manejable e informativa.
Una tabla de frecuencia absoluta y relativa no es ms que la agrupacin de una base de datos en
subgrupos llamados clases o intervalos de clases.
Cada intervalo de clase o clase posee dos elementos, Lmite inferior y Lmite superior. La
semisuma de ambos origina un elemento ms en una tabla de frecuencia absoluta y relativa
denominado Punto medio de clase (PMC) o bien Marca de clase.
El primer tropiezo que se afronta es decidir cuntas grupos o clases debern establecerse y si
stas tendrn la misma anchura. Es recomendable en la prctica utilizar entre 5 y 20 clases
inclusive hay autores que recomiendan hasta 25 clase, y normalmente conviene construirla de
modo que todas las clases tengan la misma anchura. La anchura de clase recibe tambin el nombre
de Intervalo de Clase o bien Amplitud de clase.
Una manera de resolver este problema es utilizar la frmula de Stirling (Sturge) K = 1 + 3.33*
log(n), donde k es el nmero de clases o intervalos que se deben construir. Para el caso en
cuestin sera:
k = 1 + 3.3*log(30) = 5.87. Como se puede recordar que nmero de intervalos viene a ser una
variable cuantitativa discreta, entonces tiene que tomar valores cerrados. De acuerdo a lo
anterior y basado en leyes matemticas se redondea al inmediato superior, es decir, 6. Hay
autores que sugieren siempre esto.
Un segundo problema que se afronta se refiere a la determinacin del Ancho del Intervalo de
Clase. Este problema se resuelve calculando primeramente la diferencia entre el mayor y el menor
valor numrico de los datos, llamado tambin Rango, Recorrido o Amplitud (A). En el caso del
ejemplo es: A = 1.98 - 1.01 = 0.97. Esto indica que la suma de las amplitudes de clase de los
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
intervalos de clase deber cubrir al menos esta diferencia. Si 0.97 se divide entre 6, se obtiene
un resultado de 0.16. Si se multiplica la anchura de clase (Ac) determinada por el nmero de
intervalos K = 6, (al resultado se le llama Rango Ideal) se tiene el siguiente resultado: 0.16*6 =
0.96. Si se recuerda la amplitud de los datos es de 0.97, por lo tanto esta anchura de clase (Ac)
no es suficiente para cubrirla por tal razn, algunos autores recomiendan redondearlo al
inmediato superior que en este caso sera de 0.17. Repitiendo el proceso, se tiene que 0.17*6 =
1.02. Un aspecto importante de sealar es que si bien es cierto que se pasa de 1.98 con 3
centsimas, cubre la amplitud de los datos. Por esto se dice que Ac*k = al menos debe ser igual a
la amplitud de los datos, es decir, no importa si se pasa del valor mximo.
Un tercer aspecto que hay que resolver es por donde iniciar la construccin de los intervalos de
clases. Para el caso de variables cuantitativas continuas, se habla de una medida de
desplazamiento (MD) que es igual al Rango ideal (RI) menos la Amplitud de los datos (A), donde RI
es igual Ac * k, esto es:
MD = RI A, entonces: MD = [(0.17*6) 0.97]/2 =0.025, o aproximadamente 0.03.
Este es el desplazamiento que debe tener el valor mnimo para iniciar la construccin de los
intervalos. Al construir el primer intervalo, al valor mnimo le restamos el desplazamiento es
decir, 1.01 0.03 = 0.98, ste es el lmite inferior del primer intervalo de clase y su lmite
superior ser 0.98 + Ac, es decir, 0.98 + 0.17 = 115, Para el caso del segundo intervalo de clase, su
lmite inferior es el lmite superior del primer intervalo de clase o sea 115 y el lmite superior
ser 1.15 + 0.17 = 1.32 y as sucesivamente hasta llegar al nmero de intervalos definidos. Esto es
continuidad, ya que no existe ruptura entre intervalos.
Entonces, para este tipo de variable (cuantitativa continua), los intervalos de clases son abiertos
por la izquierda y cerrados por la derecha.
Luego se determina los Puntos Medios de Clase o Marcas de Clase en la segunda columna de la
tabla, esto es: PMC = (Li + LS)/2.
Posteriormente en una tercera columna se determinan las frecuencias absolutas, que en este caso
se define como el nmero de observaciones que caben dentro del intervalo de clase. Para que
quepa una observacin dentro de un intervalo de clase en este tipo de variable, ste tiene que ser
mayor que el lmite inferior o menor igual que el lmite superior.
La tabla antes mencionada quedara de la siguiente forma:
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Intervalos de Clase
0.98 a 1.15
1.15 a 1.32
1.32 a 1.49
1.49 a 1.66
1.66 a 1.83
1.83 a 2.00
PMC
1.065
1.235
1.405
1.575
1.745
1.915
fi
2
5
8
7
4
4
30
fr
6.67
16.67
26.67
23.33
13.33
13.33
100
fia
2
7
15
22
26
30
fra
6.67
23.33
50.00
73.33
86.67
100
Para el caso de variables cuantitativas discretas, los intervalos de clases son cerrados por ambos
lados.
METODOS GRAFICOS
Dentro de las representaciones grficas se pueden mencionar las siguientes:
Diagrama de puntos
Pictogramas
Histogramas de frecuencias
Para efecto de este texto se desarrollarn los principales como son el Diagrama de Puntos
por su relacin con el Diagrama de dispersin, Histograma de frecuencia, Polgono de
frecuencia, Ojiva y Diagrama de sectores.
Diagrama de Puntos
Sirve para representar grficamente cuadros de frecuencias en las cuales se consideran
nicamente una variable y una cantidad asociada a cada valor de la misma (frecuencias). Existen
dos tipos de diagramas de puntos cuya construccin se detalla enseguida.
La construccin de los diagramas de puntos se realiza de la siguiente manera:
Para construir el segundo tipo de diagrama de puntos se colocan en el eje horizontal los
valores de la variable y sobre cada valor se dibuja tantos puntos como veces aparecen
stos.
Para ejemplificar el primer caso se retomar las alturas de los 30 habitantes que han sido
mencionados anteriormente.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
En este caso se puede observar que los valores de la variable altura se encuentran en el eje
horizontal y en el vertical, el nmero de habitantes, y el punto est compuesto por las
coordenadas (altura, Nmero de habitantes con esa altura).
0.5
1.5
2.5
Estatura (mt)
Histograma
Se llama Histograma a la grfica de barras verticales sin espaciamiento entre ellas, construida
colocando en el eje vertical a las frecuencias absolutas relativas y el eje horizontal a los lmites
de clase de una tabla de frecuencias. Lo anterior implica que si los intervalos de clases son
iguales, sobre cada clase se erigen rectngulos cuyas reas son proporcionales a las frecuencias
de clase. Las etapas que se deben de cubrir en la construccin de un histograma son:
Erigir rectngulos cuya base son las clases y su altura las frecuencias que corresponde a
cada clase
Para ejemplificar este mtodo grfico se tomar a la tabla de frecuencia absoluta y relativa
y las frecuencias absolutas asociada a cada clase.
Frecuencias absolutas
9
8
7
6
5
4
3
2
1
0
Intervalos de clases
En este caso, dado que se utiliz la frecuencia absoluta para construir el histograma entonces el
histograma toma el nombre de Histograma de Frecuencias Absolutas.
Polgono de Frecuencia
Un polgono de frecuencia es una grfica de lneas rectas que unen los puntos obtenidos al colocar
en el eje horizontal a los valores medios (puntos medios) de clases y en el eje vertical a las
frecuencias absolutas o relativas. Esto equivale a unir los puntos medios de la cara superior de los
rectngulos de un histograma por medio de lneas rectas.
Para cerrar el polgono se adiciona una clase tanto inferior como superior para que el polgono
Frecuencias absolutas
cierre.
9
8
7
6
5
4
3
2
1
0
En este caso al igual que el histograma, el polgono retoma el nombre de la frecuencia que se ha
utilizado para construir.
Una Ojiva o Polgono de Frecuencia Acumulada es una grfica construida con segmentos de lneas
rectas que unen los puntos obtenidos al colocar en el eje horizontal a los lmites superiores de
clase y en el vertical a las frecuencias acumuladas absolutas o relativas.
Al inicio en el eje horizontal se coloca el lmite inferior de la primera clase y se le asigna una
frecuencia acumulada de cero. Asimismo, por su naturaleza una ojiva es no decreciente.
Retomando como ejemplo la misma tabla de frecuencia absoluta y relativa, se tomarn las
frecuencias absolutas acumuladas por la izquierda o menor que de sta.
Al total de las frecuencias (fi = n) le corresponde el crculo completo, es decir, los 360 0 de la
circunferencia y por regla de tres simple se determina el nmero de grados que le corresponde a
cada categora o valor discreto en particular.
Ejemplo:
Los datos que se muestran a continuacin corresponden a la distribucin de los docentes de una
universidad en particular, respecto al lugar de realizacin de estudios de diplomados.
Extranjero
19
13.87
Universidad de Inters
87
63.5
31
22.63
137
100
Total
(19 x 3600)
137
= 49.9 = 50
De la manera que quedara de la siguiente forma una vez que se hayan realizado las operaciones
correspondientes:
Lugar de realizacin del Diplomado
Grados
Extranjero
19
50
Universidad de Inters
87
229
31
81
137
360
Total
De forma grfica se vera de la siguiente forma:
Otras
universidades
bolivianas
23%
Extranjero
14%
Universidad
de Inters
63%
Mediana
Moda
Por el grado de aplicabilidad sern desarrollada la siguientes medidas de tendencia central: media
aritmtica, mediana y moda y, como un caso especial de la media aritmtica, la media ponderada.
Media Aritmtica
por , y se define como la suma de ellas dividida por "n". Esto es:
Ejemplo:
Sean los siguientes datos x1=2, x2=12, x3=9, x4=10, x5=7. La media aritmtica de estos datos es:
2 + 12+9+10+7
5
=8
Desde un punto de vista geomtrico, la media aritmtica corresponde al punto de equilibrio de los
datos.
La media aritmtica es la medida descriptiva de tendencia central ms usada. Tiene la ventaja de
ser fcil de calcular, adems de poseer propiedades tericas excelente desde el punto de vista de
la estadstica inferencia. Su principal desventaja es que, por ser el punto de equilibrio de los
datos es muy sensible a la presencia de observaciones extremas. Por otro lado su clculo se vuelve
tedioso cuando la base de datos es muy grande. Otra desventaja es que no se puede calcular en
datos que tienen intervalos de clases abiertos.
Cuando se dispone de las observaciones originales, pero su nmero es tan grande que las
operaciones aritmticas necesarias para el clculo de la media requieren de mucho
trabajo. Entonces el uso de una tabla de frecuencias simplifica considerablemente el
trabajo.
Se debe de recordar que cuando se tiene una tabla de frecuencias con k clases se da lo
siguiente:
=
=1
En una clase se tienen fi observaciones (frecuencia absoluta), las cuales pueden tener cualquier
valor entre el lmite superior e inferior de esa clase. Para calcular de una manera aproximada la
media, se supone que las observaciones se encuentran uniformemente distribuidas en el intervalo
y, por lo tanto, el valor medio de clase (Punto medio de clase o Marca de Clase) es un valor
representativo de esa clase.
Con esta suposicin el clculo de la suma de las observaciones se simplifica de la siguiente manera:
=1
Esta expresin representara la suma aproximada de las observaciones; por lo tanto, la media
aritmtica se estimara de la siguiente manera:
Intervalos de Clase
PMC
fi
PMC*fi
0.98 a 1.15
1.065
2.13
1.15 a 1.32
1.235
6.175
1.32 a 1.49
1.405
11.24
1.49 a 1.66
1.575
11.025
1.66 a 1.83
1.745
6.98
1.83 a 2.00
1.915
7.66
Total
Promedio
=
45.21
30
45.21
45.21/30 = 1.507
= 1.507/
+ +
Cuando los datos son simtricos entre la mediana y la media aritmtica no hay mucha diferencia;
sin embargo, para datos no simtricos es mejor medida de tendencia central la mediana que la
media.
Clculo de la Mediana en datos tabulados
Cuando los datos estn agrupados en clases, es decir, cuando existe una tabla de distribucin de
frecuencias, para estimar la mediana se utiliza la siguiente ecuacin:
= +
(. )
Donde:
Me = Mediana
a = Lmite inferior de la clase de la Mediana
b = Lmite superior de la clase de la Mediana
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Observacin
Frecuencias
fi
fia
fr (%)
Fra
1.20
3.33
3.33
1.21
13.33
16.66
1.22
13.33
30.00
1.23
11
6.67
36.66
1.24
12
3.33
40.00
1.25
14
6.67
46.66
1.26
17
10.00
56.66
1.27
20
10.00
66.66
1.28
24
13.33
80.00
1.29
27
10.00
90.00
1.30
30
10.00
100.00
Total
30
100
= + [
]
+ ( )
Donde:
Mo = Moda
Licm = Lmite inferior de la clase modal
Acm = Amplitud de clase de la clase modal
ficm =Frecuencia absoluta de la clase modal
ficprem = Frecuencia absoluta de la clase postmodal
ficpostm = Frecuencia absoluta de la clase postmodal
Ejemplo:
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
PMC
fi
(0.98 a 1.15]
1.065
(1.15 a 1.32]
1.235
(1.32 a 1.49]
1.405
(1.49 a 1.66]
1.575
(1.66 a 1.83]
1.745
(1.83 a 2.00]
1.915
En este caso la clase modal sera aquella que tiene mayor frecuencia absoluta, esta es:
(1.32 a 1.49] =8, entonces partiendo de la ecuacin proporcionada anteriormente:
= + [
]
+ ( )
MEDIDAS DE DISPERSION
Estas son las medidas que miden como se dispersan los datos, generalmente alrededor de una
medida de tendencia central. Entre stas se pueden mencionar las siguientes:
Rango o Amplitud
Desviacin Media y Mediana
Varianza y Desviacin Tpica
Dispersin Relativa
Generalmente las ms utilizadas son: Varianza,
Coeficiente de Variacin y una que en los mtodos tabulares ya se ha utilizado como es el Rango.
Rango
La Amplitud, Rango o Recorrido de un conjunto de datos es la diferencia entre las observaciones
de mayor y menor valor numrico en el mismo.
R = Valor mximo - Valor mnimo
Tiene la ventaja de ser fcil su determinacin, pero no es una buena medida de dispersin ya que
solo toma en cuenta dos valores de toda la coleccin y no idea de cmo es la variabilidad dentro
de los datos.
Varianza
La varianza retoma un nombre de acuerdo a dnde se determina. Si la determinacin es en una
poblacin se la llama Varianza Poblacional () y
Muestral (s).
La Varianza Poblacin o Variancia de una poblacin finita de N elementos x1, x2, x3, ...xn; se
define como la media aritmtica del cuadrado de las desviaciones de las observaciones respecto a
su media ; y se determina a travs de la siguiente ecuacin para varianza poblacional:
=
=(
En caso de que sea muestral y para datos no organizados en una tabla de frecuencia absoluta y
relativa, se determina de la siguiente forma:
=(
Existe una frmula de trabajo mucho ms rpido para determinar la varianza muestral para datos
no tabulados que resulta de desarrollar en trinomio cuadrado perfecto de la ecuacin. Esta
frmula es:
= )
Ejemplo:
Sean los siguientes datos las estaturas de 30 estudiantes de un saln de clases
Alumno
Estatura
Alumno
Estatura
Alumno
Estatura
1.25
11
1.23
21
1.21
1.28
12
1.26
22
1.29
1.27
13
1.30
23
1.26
1.21
14
1.21
24
1.22
1.22
15
1.28
25
1.28
1.29
16
1.30
26
1.27
1.30
17
1.22
27
1.26
1.24
18
1.25
28
1.23
1.27
19
1.20
29
1.22
10
1.29
20
1.28
30
1.21
= )
S =
(37.6)
30
47.1558 30-1
S = 0.00105 m
Dado que se determina o se estima la varianza se eleva al cuadrado las unidades originales de
medicin razn por la cual no se debe comparar con la media aritmtica ya que sta es medida en
unidades lineales. Por esta razn, es que se propone una nueva medida de dispersin llamada
Desviacin Tpica.
Desviacin Tpica
No es ms que la raz cuadrada positiva de la varianza. En este sentido se puede hablar entonces
desviacin tpica poblacional y muestral, entonces:
=
S = S
Para el caso del ejemplo anterior, S = 0.00105 = 0.0324 m
Este dato indica que los datos se dispersan en promedio 0.0324 m del promedio de la variable
Estatura.
Coeficiente de Variacin
Todas las medidas de dispersin antes descritas son medidas de variacin absoluta. Una medida
de la dispersin relativa de los datos, que toma en cuenta su magnitud, est dada por el
Coeficiente de Variacin.
Cuando se multiplica por 100 se expresa en porcentaje indicando tanto por uno que se alejan los
datos de su media aritmtica.
. =
C.V = (0.0324/1.253)*100 = 2.586%, indicando con ello que por cada valor de la media los datos se
dispersan en un 2.586% alrededor de ella.
Ejemplo.
Sean la siguiente tabla de frecuencia absoluta y relativa, las estaturas correspondientes a 30
estudiantes. La tabla es la siguiente
Intervalos de Clase
PMC
fi
(0.98 a 1.15]
1.065
(1.15 a 1.32]
1.235
(1.32 a 1.49]
1.405
(1.49 a 1.66]
1.575
(1.66 a 1.83]
1.745
(1.83 a 2.00]
1.915
PMC
fi
PMCfi PMCfi
(0.98 a 1.15]
1.065
2.2685
2.13
(1.15 a 1.32]
1.235
7.6261
6.175
(1.32 a 1.49]
1.405
15.792
11.24
(1.49 a 1.66]
1.575
17.364
11.03
(1.66 a 1.83]
1.745
12.18
6.98
(1.83 a 2.00]
1.915
14.669
7.66
30
69.9
45.21
Totales
S =
= )
69.9 -
(45.21)
30
30-1
S = 0.0609
S = 0.0780
= 45.21/30 = 1.507
. =
Asimetra Positiva: Se dice que una distribucin de frecuencia unimodal presenta asimetra
positiva o a la derecha, si tiene una ramificacin ms extendida hacia la derecha o hacia los
valores grandes de una variable. Esto indica que la variable tiende a tomar valores mayores que su
promedio y la relacin que se establece entre las principales medidas de tendencia central es la
siguiente: > >
Asimetra Negativa: Una distribucin unimodal tiene asimetra negativa o hacia la izquierda, si
tiene una ramificacin ms extendida hacia la izquierda indicando con ello que la variable tiende a
tomar valores inferiores a su promedio. En este caso, la relacin que se establece entre las
principales medidas de tendencia central es la siguiente: < <
La siguiente grfica resume la asimetra negativa y positiva
Curva Simtrica: En este caso la variable se deforma proporcionalmente con respecto al eje
horizontal y la relacin que se establece entre las principales medidas de tendencia central es la
siguiente: = =
= =
Coeficiente de Asimetra
La medida ms usada para cuantificar la asimetra de la distribucin de frecuencias de una
variable X, recibe el nombre de coeficiente de asimetra y que desde el
momento (tercer momento) tiene por ecuacin:
punto de vista de
( )3
=1
La ecuacin antes expuesta es para datos sin organizar o datos no tabulados. Aqu se puede
observar que si existen observaciones muy grandes en relacin a la media, el coeficiente de
asimetra tendr un valor positivo. Si existen observaciones muy pequeas (menor que la media),
el coeficiente de asimetra ser negativo y, finalmente, si las observaciones estn simtricamente
distribuidas alrededor de la media, el coeficiente de asimetra tendr el valor de cero.
Ejemplo.
Sea los siguientes datos:
6.2, 7.9, 8.1, 8.5, 8.5, 8.9, 9.1, 10.8
Determine el CAs.
= 8.5
s = 1.29
3 = 2.1388
xi
(xi -x)
(xi - x)
6.2
-2.3
-12.167
7.9
-0.6
-0.216
8.1
-0.4
-0.064
8.5
0.0
0.0
8.5
0.0
0.0
8.9
0.4
0.064
9.1
0.6
0.216
10.8
2.3
12.167
0
8
1.293
=0
Por lo tanto se puede decir que la distribucin es simtrica, en este caso el promedio, la mediana
y la moda coinciden en el mismo valor, lo cual puede ser verificado.
Para datos organizados en una tabla de frecuencia absoluta y relativa el coeficiente de asimetra
se estimar siempre y cuando la tabla no presente clases abierta, por la siguiente ecuacin:
=1(
=
Ejemplo:
)3
Intervalos
(20.5 a 25.5]
(25.5 a 30.5]
(30.5 a 35.5]
(35.5 a 40.5]
(40.5 a 45.5]
(45.5 a 50.5]
(50.5 a 55.5]
(55.5 a 60.5]
(60.5 a 65.5]
PMC
23
28
33
38
43
48
53
58
63
fi
3
42
21
7
3
2
2
2
1
83
PMC*fi
69
1176
693
266
129
96
106
116
63
2714
2 *fi
1587
32928
22869
10108
5547
4608
5618
6728
3969
93962
( )3 fi
-2736.99887
-4357.21344
0.5738588
1042.84987
3279.33151
7164.84635
16733.8331
32393.1814
27821.4455
81341.8493
Fia
3
45
66
73
76
78
80
82
83
2714
= 32.698795
83
27142
93962 83
2 =
= 63.627681
83 1
=
63.627681 = 7.976696
81341 .8493
83
7.976696 3
que la > > , lo cual puede demostrarse con la informacin que proporciona la misma tabla.
Medidas de Curtosis
Medidas de Curtosis o apuntamiento. Se entiende por Curtosis, la medida de deformacin vertical
de una distribucin de frecuencias, es decir, la medida de apuntamiento o achatamiento de una
distribucin.
La Curtosis mide cuan puntiaguda es una distribucin en general por referencia a la normal.
La forma de medir la Curtosis o apuntamiento puede ser en funcin de momentos o cuartiles.
Curtosis en funcin de Momentos:
En este caso el grado de apuntamiento esta dado por :
=
( )4
=1
En caso que los datos estn tabulados (organizados) y si la tabla no presente clases abiertas se
puede estimar Curtosis desde el punto de vista de momento a travs de la siguiente ecuacin:
=1 (
)4
El coeficiente de Curtosis puede tomar uno de los siguientes valores, indicando con el tipo de
deformacin vertical de la curva unimodal. Estos son:
Kur > 3: Este valor indica que la distribucin es ms apuntada que la normal y recibe el nombre de
Leptocrtica
Kur = 3: En este caso la distribucin es moderadamente apuntada y se llama Mesocrtica (o
apuntamiento normal)
Kur < 3: Este indica que la distribucin es menos apuntada que la normal, o sea achatada y se llama
Platicrtica
TEORIA DE PROBABILIDADES
Experimento Aleatorio
En Estadstica, los conjuntos de inters son colecciones de observaciones obtenidas estudiando el
comportamiento de un fenmeno, ya sea en estado natural o bien bajo control. Al proceso
mediante el cual se obtiene observaciones se llama experimento. Los experimentos u operaciones
reales o hipotticas pueden dividirse en dos clases:
Experimento Determinstico
Experimento no Determinstico
.- Cada experimento se puede repetir indefinidamente sin cambiar esencialmente las condiciones.
.- Cada experimento es no determinstico.
.- Cada experimento tiene varios resultados posibles que pueden describirse con anterioridad con
precisin (resultados a priori). Entonces a un experimento que presentas las tres caractersticas
mencionadas anteriormente se llama experimentos aleatorio. En otras palabras, un Experimento
Los experimentos aleatorios pueden ser simples o compuestos. Experimentos aleatorios simples son
los que se han ejemplificado anteriormente.
Un experimento aleatorio compuesto consiste en dos o ms experimentos simples que puede ocurrir
de forma sucesiva o bien de forma simultnea.
Considrese el caso de experimento aleatorio compuesto: aquellos en que los experimentos simples
estn unidos por la partcula gramatical "o" en el sentido excluyente y aquellos donde los
experimentos simples estn unidos por la partcula gramatical "y".
Un experimento compuesto
M3
M1*M2
M2
M1
CC
CCC
CCS
CC
CS
CS
CSC
CSS
SC
SS
SC
SCC
SCS
SS
SSC
SSS
Otro ejemplo podra ser el experimento aleatorio compuesto consistente en el lanzamiento de una
moneda y un dado al mismo tiempo.
M2
M1
(C,1)
(C,2)
(C,3)
(C,4)
(C,5)
(C,6)
(S,1)
(S,2)
(S,3)
(S,4)
(S,5)
(S,6)
En muchos casos un diagrama, conocido con el nombre de Diagrama del rbol, es ms sugerente para
la determinar el espacio muestral de un experimento aleatorio compuesto.
Ejemplo... Determine el espacio muestra M del experimento aleatorio compuesto consistente en el
lanzamiento de tres monedas al mismo tiempo
(2n) = 24 = 16
En este caso el espacio muestral se obtiene con los resultados que tiene cada rama del rbol, es
decir, M= {CCC, CCS, CSC, SCC, CSS, CSC, SSC, SSS}
Dado que ya se ha identificado el espacio muestral como conjunto universal, los eventos como
subconjunto del espacio muestral, se identificar tambin el conjunto vaco () de la teora de
conjunto como el evento imposible, esto es, un evento que no se da o sea que no ocurre. Por ejemplo,
lanzar dos dados simultneamente, y sea el evento A: "obtener suma de 14". De hecho esto nunca va
a suceder A = {}.
Sub-evento: Dados dos eventos, A y B se dice que A est contenido en B o que a es sub-evento de
B, si todo suceso favorable a A, es favorable a B. En otras palabras, si ocurre el evento A, ocurre
el evento B. Esto es: A B, si wi A w B
A B
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Igualdad de Eventos: Se dice que dos eventos A y B son iguales si, AB y BA. Esto es: A = B =
AB y BA.
Unin de Eventos: Dados dos eventos A y B, se llama unin de A con B y se denota por AB al
evento formado por los sucesos que pertenecen a A a B , a ambos, es decir:
AB = {wiM /wiA v wiB}.
ABAB
Interseccin: Dados los eventos A y B, se llama interseccin de A con B, al evento formado por
todos los sucesos favorables a A y a B. Es decir, ambos eventos A y B ocurren. Esto es:
AB = {w M / w A w B}.
AB
Ac
Enfoques de Probabilidades
Definir probabilidad estrictamente es un poco inadecuado. La formulacin axiomtica de la teora de
probabilidades requiere niveles de abstraccin y competencia matemtica fuertes. Sin embargo, hay
autores que plantean enfoques a travs de los cuales se puede abordar las probabilidades. Estos
enfoques son:
1. Enfoque o Probabilidad Clsica (llamada tambin de Laplace o Apriori)
2. Enfoque desde el punto de vista de frecuencia relativa (llamada tambin A posteriori).
3. Probabilidad subjetiva
Enfoque Clsico o A priori: Llamado tambin Este definicin se basa en el supuesto de que todos
los resultados posibles de un experimento aleatorio son igualmente probable, es decir, cada suceso
de un espacio muestral M, tienen la misma posibilidad de ocurrir.
Segn Laplace (1812) la probabilidad de un evento es la razn entre el nmero de casos
(sucesos) favorables y el nmero total de casos (sucesos) posibles, siempre que nada obligue a
creer que alguno de estos sucesos deban de tener preferencia a los dems, lo que hace que
todos sean iguales. Esto es:
=
Observaciones:
1.-
2.-
3.-
4.- Puesto que todos los elementos de M = (w1, w2, ..., wn} son igualmente probables P[{wi}] = 1/n; i
= 1, 2,3,..., n P [M] = P[wi] = 1
Si A es un evento de M P [A] = P [{wi}] wiA
Ejemplo..... Si se lanza una moneda tres veces. Calcular la probabilidad que ocurran:
a.- Dos caras
b.- Al menos dos caras
c.- A lo ms dos caras
El espacio muestral de este experimento lo puede obtener a travs de producto cartesiano o bien a
travs del diagrama del rbol. Determinando el espacio muestral:
M = {CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS}
a.- A = {CCS, CSC, SCC} P[A] = 3/8
b.- B = {CCC, CCS, CSC, SCC} P[B] = 4/8 = 1/2
c.- C = {CCS, CSC, CSS, SCC, SCS, SSC, SSS} P[C] = 7/8
Ejemplo
Considrese el lanzamiento de dos dados. Calcular la probabilidad de:
a.- Obtener suma 7
b.- Obtener suma 6
c.- Obtener suma mayor que 5
d.- Que el resultado del primer dado sea mayor que el resultado del segundo dado.
A = {(w1,w2) M / w1 + w2 = 7}
B = {(wi,w2) M / w1 + w2 = 6}
C = {(w1,w2) M / w1 + w2 > 5}
D = {w1,w2) M / w1 > w2}]
Determinando el espacio muestral a travs del producto cartesiano de los dos espacios muestrales
simples de los experimentos que conforman este experimento compuesto se tendra lo siguiente:
M2
M1
(1,1)
(1,2)
(1,3)
(1,4)
(1,5)
(1,6)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
2.
Ejemplo.
Sexo
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Partido Poltico
Total
Masculino
90
80
65
35
37
13
320
Femenino
15
20
10
55
105
100
70
45
40
15
375
Total
Probabilidad desde el punto de vista subjetivo est relacionada con una presuncin,
creencia o como algunos autores le llaman corazonada, por lo tanto, puede variar de una
persona a otra.
Dado un experimento determinado, la probabilidad de un evento A es el grado de creencia
asignado a la ocurrencia de este evento por un individuo particular, basado en toda la
evidencia a su disposicin con las siguientes exigencias:
1.- P[A] = 0, representa la certeza que el evento A, no ocurrir
2.- P[A] = 1, representa la certeza que el evento A, s ocurrir
1.
2. P[M] = 1
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
3. P[AUB] = P[A] + P[B]; siempre y cuando los eventos A y B ocurran por separado o de
forma independiente.
4. P [AUB] = P[A] + P[B] P[AB]; en este caso A y B no son eventos independientes,
es decir, que ocurren al mismo tiempo.
5. Si A = , entonces P[A] = 0
6. Eventos mutuamente excluyentes y colectivamente exhaustivos o complementarios.
Sea A y B, dos eventos en el espacio muestral, se dice que son mutuamente
excluyente si la ocurrencia de uno de ellos elimina la ocurrencia del otro y viceversa
y son complementarios si la suma de sus probabilidades, es decir la unin de ambos,
da como resultado la probabilidad del espacio muestral. Si dos eventos cumplen
estos dos requisitos se dicen que forman una particin del espacio muestral M.
7. Sea A es un evento en M, entonces P[A] = 1 P[A]
Probabilidad Condicional (Dependencia de Eventos)
/ =
;P 0
la probabilidad del evento A con respecto al espacio muestral reducido B, es decir, del
evento que condiciona.
Ejemplo...
Una empresa tiene 300 trabajadores de los cuales 100 son casados y 30 son divorciados. En
dicha empresa trabajan 200 hombres, 85 de los cuales son casados y 95 son solteros. Se
toma un trabajador al azar:
a. Si el trabajador seleccionado es soltero, cul es la probabilidad que sea mujer?
b. Si el trabajador seleccionado es mujer, cul es la probabilidad que sea soltera?
c. Cul es la probabilidad que sea mujer o est casada?
Solucin
Lo primero que se tiene que hacer es extraer la informacin que proporciona el problema y
ver como se puede completar la siguiente. Por otro lado se debe de partir del hecho que la
informacin proporcionada se puede clasificar de acuerdo a dos criterios los cuales son: el
sexo de los trabajadores y el estado civil de los mismos. En el caso del ejemplo se dispone
de la siguiente informacin que se encuentra en el siguiente cuadro en forma cursiva. La
restante se puede completar utilizando el concepto de complemento de evento.
Sexo
Femenino (A)
Masculino (B)
Total
Casado (C)
15
85
100
Estado Civil
Soltero (D)
Divorciado (E)
75
10
95
20
170
30
Total
100
200
300
Como se puede observar se est totalizando tanto por filas como por columnas, es decir, de
acuerdo a los dos criterios de clasificacin de la informacin. A esto se le llama
probabilidades marginales y a la informacin del interior del cuadro se le llama probabilidad
conjunta de los dos eventos (criterios de clasificacin). Resolviendo el problema se tiene:
a. Si el trabajador seleccionado es soltero, cul es la probabilidad que sea mujer?.
En este caso el evento condicionante es que el trabajador sea soltero y el evento
dependiente es que sea mujer.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
=
=
75/300
170/300
75
= 170
75
300
170
300
Para el segundo caso, es decir, respecto al espacio muestral restringido del evento
condicinate se tendra que ver cuntas veces se repite el evento trabajador de sexo
femenino y cuntas veces se repite el evento trabajador soltero. De acuerdo a esto se
tiene que:
[]
75
= [] = 170
100
170
75
95
+
=
300
300
300
300
Independencia de Sucesos
En probabilidad condicional la ocurrencia de un evento condiciona la probabilidad de un
segundo evento. Sin embargo, hay muchos casos donde los eventos estn totalmente sin
conexin, y la ocurrencia de uno de ellos no cambia la probabilidad de ocurrencia del otro,
en este caso se dice que son independientes.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Sean A y B dos eventos y sea P [B] 0., A y B son eventos independientes si:
a.- P[A/B] = P[A]
Como consecuencia, si A y B son independientes y
P [A/B] = P[AB]/P[B] = P[A] P[AB] = P[A]P[B] y viceversa
Dos eventos A y B son independientes si se cumple cualquiera de las siguientes
condiciones:
.- P[A/B] = P[A]
Ejemplo...
Un impulso elctrico debe de pasar del punto I al II para producir una seal. Para llegar al
punto II debe de pasar por dos componentes electrnicos (E1 y E2). La trayectoria del
impulso se interrumpe si falla cualquiera de los dos componentes. La probabilidad de que el
componente E1 no falle es 0.7 y la probabilidad que el componente E2 no falle es 0.8.
Adems, la probabilidad de que al menos uno no falle es 0.94. Cul es la probabilidad de
que la seal se produzca?
A = Componente E1 no falle = P[A] = 0.7
B = Componente E2 no falle = P[B] = 0.8
P [AUB] = 0.94
Para que se produzca el impulso elctrico, ninguno de los componentes (E1 y E2) deben de
fallar la probabilidad solicitada es P[AB].
P[AUB] = P[A] + P[B] - P[AB]
P [AB] = P[A] + P[B] - P[AUB]
= 0.7 + 0.8 - 0.94 = 0.56
P[AB] = P[A]P[B] = 0.7*0.8 = 0.56
Probabilidad Total
Sean A1, A2,..., Ak, eventos que forman una particin del espacio muestral y Sea B un
evento en el espacio muestral. Si P[A1], P[A2],..., P[Ak], P[B/A1], P[B/A2],..., P[B/Ak] son
probabilidades conocidas y se est interesado en la ocurrencia del evento B. Para obtener
esta probabilidad se hace uso del Teorema de Probabilidad Total que partiendo de las
premisas anteriores se enuncia de la siguiente manera:
=
=1
= 1 1 + 2 2 +
Ejemplo:
Un profesor tiene tres secretarias con diferentes niveles de competencia. Las secretarias
son S1, S2, S3. La secretaria S1 ha escrito el 20% de un trabajo, la secretaria S2 el 40%
y la secretaria S3 el 40%. Hay un error ortogrfico que irrita en especial al profesor, y
ste ha calculado que S1 lo comete el 90% de las veces que tiene que escribir la palabra en
cuestin, que S2 lo comete el 40% de las veces, y S3 nunca.
Cul es la probabilidad de que el profesor encuentre el error mencionado?
Obteniendo la informacin que proporciona el problema se tiene:
P [S1] = 0.20; P [S2] = 0.40; P [S3] = 0.40; P [ 1] = 0.90; P [ 2] = 0.40; P [ 3] = 0;
entonces la probabilidad del error es:
P [E] = P [S1]* P [ 1] + P [S2]* P [ 2] + P [S3]* P [ 3]
P [E] = ((0.20*0.90) + (0.40*0.40) + (0.40*0)) = 0.34
Lo anterior se puede facilitar si se usa un rbol de probabilidades como se muestra a
continuacin
P [E/S1] = 0.90
P [S1] = 0.20
P [E/S1] = 0.10
P [E/S2] = 0.60
P [S2] = 0.40
P [E/S2] = 0.40
P [E/S3] = 0
P [S3] = 0.40
P [E/S2] = 1
=1
1 1
(0.20 0.9)
=
= 0.53
[]
0.34
2 =
2 2
(0.40 0.40)
=
= 0.47
[]
0.34
3 =
3 3
(0.40 0.0)
=
=0
[]
0.34
Esta suposicin requiere que la ecuacin para y/x sea una lnea recta, es decir que y/x = 0 +
1Xi
restriccin, la lnea que une a y/x debe de ser una recta, por lo tanto se puede tener una
de las siguientes situaciones:
Puede ser que se tenga una relacin positiva entre las variables X y Y, esto quiere decir que
a medida que aumenta X, Y tambin aumenta.
Otra situacin que se puede dar es una relacin inversa, es decir, que a medida que aumenta
X, Y disminuye.
En el ltimo caso se recurre al hecho de que regresin tambin se entiende como la
tangente inversa del ngulo de inclinacin de una recta. En los dos primeros casos las rectas
tienen pendiente y en el tercer caso, no hay pendiente lo cual indica que no existe regresin
lineal entre ambas variables.
Supuesto 3. Homogeneidad de varianza
Esta suposicin es muy importante en el anlisis de regresin. La varianza de la
distribuciones de "Y" son idnticas para todos los valores de "X". En otras palabras, se
supone que y/x1 = y/x2 = y/xn = , donde es la varianza comn (desconocida) para
todas las distribuciones de "Y", independientemente del valor de "X". Esto quiere decir, que
la media de "Y" se modifica con el valor de "X", pero la varianza se mantiene constante.
Supuesto 4. Independencia
Los valores de "Y" debern ser estadsticamente independiente. Un ejemplo donde se viola
este supuesto es cuando se realizan mediciones de peso a un mismo individuo en un lapso
menor a una hora.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Supuesto 5. Normalidad
La distribucin de "Y" para cualquier valor de "X" es normal. Esto equivale a suponer que la
variable aleatoria no observable es normal y su media es cero ya que "X" se toma como
variable no aleatoria susceptible a ser manipulada por el investigador.
Todos los supuestos anteriores se pueden resumir en los siguientes:
1. "Y" es una variable aleatoria cuya distribucin probabilstica depende del valor de "X".
2. La ecuacin de regresin es una lnea recta.
3. Homogeneidad de varianza.
4. Independencia de las observaciones lo que implica que los errores son independientes.
5. Normalidad.
En la Figura 1 se muestran los supuestos de normalidad y homogeneidad de varianza.
Diagrama de Dispersin
Este diagrama tiene por objetivo dar una idea de la posible relacin existente entre la
variable dependiente Y y la independiente X.
Para realizar un diagrama de dispersin se coloca en el eje de las abscisas los valores
correspondiente a la variable independiente X y en el eje de las ordenadas los valores de la
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Produccin (X)
(miles de millones de $us)
10
18
12
16
22
36
30
32
26
12
Costo (Y)
(miles de millones $u)
3
5
4
5
8
12
10
14
12
3
10
15
20
25
30
35
40
Como lo plantea el supuesto 2 del modelo de regresin lineal simple, "Modelo de la Lnea
Recta", que de existir una relacin entre X y Y, sta debe ser una lnea recta. Entonces a
partir de muestra (x1, y1), (x2, y2),..., (xn, yn), de las variables "X" y "Y", se trata de
obtener una ecuacin que represente la relacin entre dichas variables. El modelo del cual
se habla es de una ecuacin punto pendiente como sigue: = 0 + 1
El problema de esta modelo es que sus componentes son parmetros y por lo tanto, son
estados desconocidos de la naturaleza generalmente. Es por ello que es necesario obtener
estimadores
de 0 y 1
El
0 = 1. Donde:
1 = Coeficiente de Regresin
0 = Intercepto de la recta de estimacin
Ejemplo:
Retomando los datos que se utilizaron para construir el diagrama de dispersin y aclarando
que X es Produccin (miles de millones de $us) y Y Costos (miles de millones de $us) y
haciendo uso de las ecuaciones derivadas a travs de la tcnica de mnimos cuadrados se
tiene lo siguiente:
XY
X2
Y2
10
30
100
18
90
324
25
12
48
144
16
16
80
256
25
22
176
484
64
36
12
432
1296
144
30
10
300
900
100
32
14
448
1024
196
26
12
312
676
144
12
36
144
Totales
214
76
1952
5348
732
Promedio
21.4
7.6
1 =
214 76
1 =
1952 10
=
(214 )2
10
5348
( )
( )
100
( )
1952
(214 76)
10
(214)
5348
10
100 = 89.36%
(76)
732
10
Esta dato indica que del 100% de la variabilidad de Y (Costos), el 89.36% es debido a X
(Produccin), por lo tanto tambin se puede concluir que existe un 10.64% de variabilidad
de Y (Costos) que no es debida a X (Produccin), a esto se le conoce como variabilidad no
explicada. En este caso se puede concluir tambin que la ecuacin estimada sirve para
predecir (existe regresin lineal simple.
Anlisis de Varianza de la Regresin Lineal Simple (ANARE)
debida a la regresin
Para tratar de ser un poco ms explcito, estas dos fuentes de variacin se derivan del
modelo aditivo lineal de la regresin lnea simple el cual es:
= 0 + 1 + . Esto tiene correspondencia con una tabla de varianza o salida de
varianza que para regresin lineal simple es la siguiente:
FV
Regresin
gl
1
SC
SCRegresin
Error
n-2
SCError
CM
Fc
Ft
(, glreg, glerr)
Total
n-1
SCTotales
La primera columna encabezada por FV (Fuentes de variacin) es donde se declara las
fuentes de variacin en las que se est partiendo la variabilidad total. Ntese que en esta
tabla no se incluye el efecto de 0, ya que ste es una constante por lo tanto no es una
fuente de variacin.
La segunda columna encabeza por gl (Grados de Libertad). De forma general grados de
libertad es n-1, para el caso de la fuente de variacin debida a regresin siempre es 1 ya
que son dos los parmetros que se estiman, 0 y 1, por lo tanto, 2-1 = 1. Es por ello que
para el ANARE de regresin lineal simple, esta fuente de variacin siempre tiene 1 grado
de libertad y los grados de libertad del error, siempre en este caso, son n-2. Por n se
entiendo al conjunto de pares de datos X Y.
La tercera columna es la de Suma de Cuadrados (SC) que vienen a ser los componentes de
las varianza a estimar cuyas ecuaciones de trabajo son las siguientes:
=
=
= 1
La cuarta columna es para los Cuadrados Medios (CM) que viene a ser las estimaciones
propiamente dichas de las varianza de cada una de las fuentes de variacin. Estas resultan
de dividir las sumas de cuadrados de stas entre sus grados de libertad.
La quinta columna denominada como Fc se refiere a los F calculados que resultan de
dividir el cuadrado medio de regresin entre el cuadrado medio del error, es decir, de la
variabilidad no debida a la regresin. Es por ello que el error se considera como un trmino
de comparacin entre la variabilidad debida a regresin y el mismo. Si el cuadrado medio
del error es mayor que el cuadrado medio de regresin, el resultado que se obtendr ser
pequeo y posiblemente menor que el valor de la siguiente columna Ft o F de tabla, valor
que se extrae de una tabla de F con un nivel de significancia, grados de libertad de
regresin y los grados de libertad del error.
Para entender mejor lo anterior se debe de partir del juego de hiptesis que se prueba en
un ANARE. Este es:
Ho: 1 = 0
Ha: 1 0
La hiptesis nula (Ho) asume el efecto de igual o nulidad de efecto y es la hiptesis que se
somete a prueba. Partiendo del hecho de que asume el efecto de nulidad, en este caso
indica que no existe regresin lineal simple, y asume que la relacin entre X y Y es una lnea
recta sin pendiente, es por ello que es igual a cero.
Por hiptesis alternativa se entiende aquella que contradice a la hiptesis nula y que es
aceptada una vez que se rechaza la hiptesis nula. Es por ello que est como 1 0 ya que
una igualdad se contradice con una desigualdad. Esto significa que la recta tiene pendiente,
es decir, que existe regresin lineal simple.
Ahora bien, todo el ANARE se hace para realizar la prueba de hiptesis de que si existe o
no regresin lineal simple.
Se entiende como prueba de hiptesis
plausibilidad de una hiptesis.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Al realizar la prueba de hiptesis se debe llegar una decisin de aceptar o rechazar Ho.
Cundo no se rechaza Ho?, cuando el Fc Ft y se rechaza cuando el Fc Ft. A lo anterior
se le llama Regla de Decisin la cual es la siguiente:
No Rechazo de Ho si Fc Ft
Rechazo de Ho si Fc Ft
Si la hiptesis nula no se rechaza significa que no existe regresin lineal simple, por lo
tanto la ecuacin estimada no sirve para predecir, si se rechaza Ho, inmediatamente se
acepta la hiptesis alternativa la que indica que s existe regresin lineal simple.
Un aspecto que todava no se ha aclarado es Nivel de Significancia, , entendido como la
probabilidad de tomar una decisin equivocada (conocido tambin como Error Tipo I) es por
ello que los valores del son pequeos 0.1.
Haciendo el ANARE a un = 0.01 se tiene lo siguiente:
= 732
76 2
10
= 154.4
214 76
= 137.6897
10
= 154.4 137.6897 = 16.4310
= 0.423738 1952
gl
1
8
9
SC
137.6897
16.4310
154.4
CM
137.6897
2.053875
Fc
67.0389
Ft
11.26
estimacin debe dibujarse dentro del rea de exploracin, es decir, el rea determinada
por el diagrama de dispersin que donde se tiene informacin de ambas variables.
Para el caso del ejemplo que se ha venido tratando la grfica de la recta de estimacin
sera como se muestra en el Figura 4.
16
y = 0.4237x - 1.468
R = 0.8936
14
12
10
8
6
4
2
0
0
10
15
20
25
30
35
40
Regresin Mltiple
No siempre la dependencia en caso de existir se pueda deber a una sola variable, puede ser
que Y como variable dependiente se vea afectada por ms de una variable independiente,
en este caso se habla de regresin lineal mltiple, aspecto que no se desarrolla en este
documento.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
-1 r < -0.8
0 r < 0.4
No hay asociacin
-0.4 r 0
No hay asociacin
0.8 r 1
( )
( )
( )
1952
214 76
10
(214 )
10
5348
(76)
10
= 0.9452
732
Este valor indica que existe una asociacin fuerte y positiva entre estas variables, es decir,
entre la produccin y los costos de esas empresas.
Diferencias entre Regresin Lineal Simple y Correlacin Lineal Simple
Se pueden llegar a establecer las siguientes diferencias:
Regresin Lineal Simple
Mide la cantidad de cambios en Y por un nico
cambio en X.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
Es indistinto x, y y, x
El coeficiente de correlacin toma
valores en el intervalo -1 r 1
BIBLIOGRAFIA CONSULTADA
BERENSON, M.L. y D.M. LEVINE. 1984. Estadstica para Administracin y Economa. Conceptos
y Aplicaciones. Edit. Interamericana. Mxico, D.F.
KERLINGER, F.N. 1975. Investigacin del comportamiento: tcnicas y metodologa. Edit. Nueva
Editorial Interamericana. Mxico.
LEVIN, I.R. 1988. Estadstica para Administradores. 2da Edic. en espaol. Edit. Prentice-Hall
Hispanoamericana, S.A. Mxico.
MARTINEZ-GARZA, A. 1988. Diseos Experimentales para la Investigacin en la Agricultura.
Mtodos y Elementos de Teora. Edit. Trillas, Mxico, D.F.
MARTINEZ-GARZA, A. 1994. Experimentacin Agrcola. Mtodos Estadsticos. Universidad
Autnoma Chapingo. Mxico.
MARTINEZ, S.F. 1996. Diseos Experimentales: Una herramienta para el investigador. Santa
Cruz, Bolivia. Documento no publicado
MONTGOMERY, D.C. 1991. Diseo y Anlisis de
Iberoamericana. Mxico, D.F.
MOYA, C.R. 1992. Estadstica Descriptiva. Conceptos y Aplicaciones. Edit. San Marcos. Lima, Per.
RENDON, S.G. 1992. Mtodos Estadsticos (Muestreo, Diseos Experimentales, Estadstica No
Paramtrica). Universidad Autnoma de Chapingo. Chapingo, Mxico.
REYES, C.P. 1990. Diseo de Experimentos Aplicados. 3era. Edi. Edit. Trillas. Mxico, D.F.
Por: Ing. M.Sc. Francisco Martnez Solaris
Mgs. En Educacin Superior
RODRIGUEZ del ANGEL, J.M. 1991. Mtodos de Investigacin Pecuaria. Edit. Trillas. Mxico,
D.F.
SNEDECOR, W.G. and W.G. COCHRAN, 1976. Statistical Methods. 6ta. Edic. Edit. The Iowa
State University Press. Ames, Iowa. U.S.A.
SPIEGEL, R.M. 1995. Estadstica. 2da. Edi. Edit. Mcwraw-Hill. Mxico, D.F.
STEEL, D.R.G. y J.H. TORRIE. 1992. Bioestadstica. Principios y Procedimientos. 2da. Edi.
Edit. McGraw-Hill. Mxico, D.F.