Sei sulla pagina 1di 73

1.1 INTRODUCCIÓN.

La Estadística es una herramienta que utilizan los Psicólogos, Sociólogos,


Economistas, Ingenieros, Antropólogos, Médicos, Educadores, Analistas de
mercado, Administradores, Políticos, Etcétera, para tomar decisiones
dentro de su área de trabajo.

1.2 ESTADÍTICA.
Es la ciencia, pura y aplicada, que, crea, desarrolla y aplica técnicas de
modo que pueda evaluase la incertidumbre de inferencias inductivas.

1.2.1 División de la Estadística


Dependiendo de los diferentes conceptos y elementos que se estudian en
las diferentes ramas del conocimiento humano.
La estadística puede tener diferentes divisiones, puede clasificarse según
el fin que se persiga o por los datos que se colectan.

1.2.1.1 Según su finalidad


a).- Teoría del muestreo.- Esta teoría muy importante, si se hace un
muestreo correcto, se obtendrán resultados representativos de la población; en
caso contrario, podemos incurrir en errores u omisiones debidos a estimaciones
que están fuera de la realidad.

b).- Estadística Descriptiva.- Se encarga de organizar y analizar la


información muestreada, éstos deben interpretarse y proyectarse al futuro.

c).- Inferencia Estadística.- La interpretación de los resultados y la


proyección al futuro de los mismos es el objeto de estudio de la Inferencia
Estadística, para el estudio de esta rama requiere del conocimiento de la
Probabilidad.

1.2.1.2 Según el tipo de datos


a) Paramétrica:
Estudia valores de caracteres cuantificables y cuyos rasgos diferenciales
son muy pequeños, de tal manera que se considera una variable continua; si los
valores son de seres vivos, estos se agrupan en una curva simétrica de forma de
campana; conocida como “Curva de Distribución Normal”.
b) No Parámetrica:
Estudia aquellas características que se desvían de la Distribución Normal,
aquí no es necesario hacer muchas suposiciones, las cuales pueden ser aplicadas
con rapidez y facilidad.

1.2.2 Como parte del método científico.

Se dice que los científicos usan el Método Científico.


1.- Una revisión de hechos, teorías y propuestas.
2.- Formulación de una hipótesis lógica sujeta aprueba mediante métodos
experimentales.
3.- Evaluación objetiva de las hipótesis con base en los resultados
experimentales.

Mucho podría escribirse respecto a estos puntos esenciales: Cómo se llega


a una hipótesis?, Cómo se diseña un experimento? Cómo se evalúa objetivamente
una hipótesis?.

MÉTODOS DE INVESTIGACIÓN.
Método Científico
Conjunto de pasos ordenados y sistematizados que conducen con mayor
certeza a la elaboración de la ciencia.

1.- Cuerpo del conocimiento disponible. Es la interpretación clara del


problema que se desea investigar.
2.- Observación del problema.
3.- Planteamiento sobre cómo resolver el problema.
4.- Formulación de la hipótesis que trata de explicar el problema, aún sin
comprobación.
5.- Investigación bibliográfica.
6.- Comprobación de hipótesis.
7.- Elaboración de leyes, teorías y modelos.

Método Científico Experimental


1.- Cuerpo de conocimiento disponible, es decir, el fenómeno en estudio.

2.- Observación del fenómeno.

2
3.- Planteamiento del problema para definir claramente lo que vamos a
investigar y para qué.

4.- Formulación de hipótesis.

5.- Investigación bibliográfica en libros y revistas especializadas para


aprovechar, si existe, algún escrito acerca del fenómeno que se estudia.

6.- Experimentación, se llevará acabo mediante la modificación controlada


de las distintas variables involucradas en el fenómeno en estudio. Por lo general,
se realiza mediante el empleo de un modelo que representa el fenómeno.

7.- Registro e interpretación de datos.

8.- Comprobación de las hipótesis.

9.- Enunciado de una teoría que explica el porqué del fenómeno, pero
conciertas limitaciones que no permiten hacer una generalización para todos los
casos similares a nuestro fenómeno en estudio.

10.- Obtención de una ley, ésta se produce cuando el afortunado y


persisten investigador encuentra reglas invariables que dentro de ciertos limites
rigen al fenómeno en estudio.

1.2.3 Utilidad de la Estadística


El razonamiento estadístico moderno ayuda a verificar una hipótesis, hasta
el grado que la influencia del azar en la evidencia es correctamente interpretada,
dá métodos que permiten distinguir si la variabilidad observada se debe al azar o
si se atribuye al tratamiento que se está probando obtener conclusiones con un
margen de error conocido.

La utilidad de la Estadística en general y la Bioestadística, en los procesos


agrícolas se manifiesta en las siguientes formas:

1) Estudio de la variación de una población de seres vivos.


2) Estudio de muestras para caracterizar poblaciones.
3) Comparación de poblaciones o muestras para estimar su semejanza o
su diferencia.

3
4) Interpretación de resultados experimentales biológicos y
agropecuarios en donde se comparen poblaciones o muestras
sometidas a diferentes tratamientos o pertenecientes a diferentes
variedades o razas.
5) Aplicación de métodos para reducir las fuentes de error en la
recolección de los datos.
6) Determinación de la relación que existe entre dos o más variables
(Correlación y Regresión).
7) En poblaciones segregantes, evaluar la variación atribuible a la acción
de genes y aquélla atribuible a la acción del medio.
8) Estudiar la concordancia entre teórico esperado y lo observado
experimentalmente.
9) Para la preparación de gráficas, histogramas o tablas para la
descripción de la naturaleza del fenómeno estudiado.

1.3 Población
Desde el punto de vista estadístico, una población o universo es el conjunto
formado por todas las medidas o contadas que se hacen sobre un conjunto de
seres vivos u objetos, que poseen una característica común especifica.
El concepto de población no se refiere a los entes bajo estudio, si no a las
cantidades que se obtienen al hacer una medición de ellos en una o más
características en estudio.
En la práctica las poblaciones suelen ser muy numerosas o hipotéticas, por
lo que en cuanto al número de observaciones se refiere éstas pueden ser:

a) Poblaciones finitas: cuando los valores que se obtienen se pueden enumerar


en su totalidad.
b) Poblaciones infinitas: cuando el número de valores de la característica a
medir no es posible enumerarlas en su totalidad por varias razones.
1.3.1. Características de las poblaciones
Las características que presentan las poblaciones bajo estudio, desde el punto
de vista estadístico, son:

1) Su naturaleza: determinar qué tipos de entes biológicos están bajo


estudio.
2) Su magnitud: la cantidad de elementos que componen a la población.
3) El espacio: el lugar donde se encuentra la población bajo estudio.
4) El tiempo: la época en que fue estudiada la población.

4
Las características bajo estudio de una población pueden ser: rasgos,
atributos, cualidades, forma, color o función de un órgano o tejido, se consideran:
a) Caracteres cuantitativos: se distinguen por pequeñas diferencias, las
que son necesarias medir o contar para poder distinguir a los
individuos de la población bajo estudio.
b) Caracteres cualitativos: son aquéllos atributos que se diferencian
notablemente entre los individuos de la población

Es de manifiesto que las diferencias que se presentan en las


características de los individuos de una población están sujetos al tipo de
variación que existe en su conformación.

1.3.2 la variación en las poblaciones


La variación es una característica importante que presentan los seres biológicos,
son ocasionadas por:
a) Medio ambiente (variación ecológica).
b) La acción de factores hereditarios (variación genética).
c) Interacción del medio y la genética.
La variación puede ser de dos tipos:
I.- Discontinua: se manifiesta con una amplitud considerable de tal manera que
las características bajo estudio es diferenciable notablemente entre los
individuos de la población, los caracteres cualitativos lo manifiestan:

Los individuos de la población se diferencian y clasifican fácilmente.


Las causas que originan este tipo de variación son:
1) Genes de herencia simple, actuando uno o dos pares.
2) Cambios drásticos en el medio ambiente.

En este caso los caracteres cualitativos se distinguen por:


i) Se clasifican con un bajo número de clases.
ii) Son escasamente influenciados por el medio ambiente, por lo que son
constantes en espacio y tiempo.
iii) Son de herencia simple.
iv) Manifiestan variación discontinua.

II.- Continua: Se manifiesta en aquellos caracteres con una diferenciación


muy pequeña entre los individuos de la misma población; generalmente son
caracteres cuantitativos; la variación es medible por medio de una escala

5
establecida o por contadas, se puede formar una serie consecutiva, partiendo de
los individuos que exhiben una intensidad mínima y que gradualmente se llega
hasta los individuos que manifiestan una intensidad máxima.

Si las mediciones requieren del conteo, entonces no se pueden obtener


fracciones, por lo cual serán valores enteros y entonces presentan variación
continua con modalidad discreta.

Las causas de este tipo de variación es debido a:


1) La acción conjunta de varios genes.
2) La acción del medio ambiente.
3) La interacción (Genotipo x Ambiente).

Los caracteres cuantitativos se distinguen:


i) Al clasificarlos se pueden formar un alto número de clases.
ii) Son afectados por cambios en el medio ambiente tanto en espacio como en
tiempo.
iii) Están determinados por un alto número de genes.
iv) Son de herencia complicada y para su estudio es necesario someterlo al
análisis estadístico.
v) Manifiestan variación continua o variación continua con modalidad discreta.

1.4 La Muestra
Cuando se hace el estudio práctico de una población se tiene el problema que
en algunas ocasiones éstas son muy numeroso o de tal naturaleza que para su
estudio es necesario la utilización de un pequeño subconjunto de la población y
con los elementos escogidos hacer inferencias o caracterizar a la población, por
lo tanto se tiene que:

MUESTRA ES UN SUBCONJUNTO DE ELEMENTOS OBTENIDOS EN UNA


POBLACIÓN.
El objetivo es usar la información que resulte de la muestra para hacer
inferencias acerca de la población, por lo cual es importante definir la población
bajo estudio y obtener una muestra representativa. Ejemplos, los pesos de los
cerditos de una cama al nacer, el número de águilas en cada uno de los
lanzamientos de diez monedas.
1.4.1 Requisitos de una Muestra.
En estadística las muestras deben cumplir:

6
1) El principio de la aleatoriedad en su extracción.
La muestra bajo estudio sea obtenida de tal forma que cada elemento tiene la
misma posibilidad de pertenecer a la muestra y su presencia no afecta a los
demás individuos. La aleatoriedad es el resultado de un proceso mecánico para
asegurar que los sesgos individuales conocidos o desconocidos en su naturaleza no
influyan en la selección de las observaciones de la muestra.

2) Que sea la representativa de la población.


La teoría estadística tiene métodos que permiten con cierta probabilidad
calculada de error, inferir por medio de una muestra las características de una
población, en forma esquemática la función de la bioestadística en el método
científico se resume en la figura siguiente.

Población Muestra Caracteres


N n cuantificables

APLICACIÓN DE LA
Inferir Formulación
BIOESTADÍSTICA
de Hipótesis

EN EL

MÉTODO CIENTÍFICO

Verificación
Conclusiones Interpretación Análisis
Estadístico

En términos generales, la confiabilidad que se tenga de una muestra,


dependerá de su tamaño y ésta estará sujeta a:

a) La magnitud de la población cuando es finita.


b) La naturaleza y variabilidad de la población.
c) El riesgo y precisión que fije el investigador.

7
Por lo que entre más grande sea la muestra, mayor confiabilidad se tendrá
en sus resultados y menor probabilidad de error al hacer inferencias relativas a
la población muestreada.
1.4.2. Formas de muestreo
Al proceso de elegir ó tomar los elementos que van a componer una muestra
se le llama muestreo. Existen diversas formas de practicar este procedimiento,
éstas son:

1) Muestreo simple aleatorio: es un procedimiento de selección de “n”


elementos sacados de “n” unidades de tal manera que cada uno de ellos
tiene la misma oportunidad de ser elegido, se puede realizar:

a) Por medio de una tabla de número aleatorios.


b) Por medio de un sorteo en urna ó ánfora.

2) Muestreo estratificado aleatorio: En este muestreo la población de “n”


unidades es primero dividida en la subpoblación de n 1, n2, n3, ....., ni
elementos respectivamente, llamadas estrato, después se saca una
muestra de cada una, la obtención se realiza independientemente en
estratos diferentes.
3) Muestreo sistemático: Es un procedimiento totalmente diferente a los
anteriores. Si la población tiene unidades, éstos se numeran de 1 a “n” en
algún orden. Para seleccionar una muestra de unidades, tomamos una
unidad al azar de las primeras k unidades y de ahí en adelante cada k -ésima
unidad.
4) Muestreo por conglomerados: dividir a toda la población en K muestras,
conteniendo n unidades originales, posteriormente se escoge una muestra
al azar de las k - muestras realizadas al inicio.
El tipo de muestreo que se elija en una investigación también está sujeto a
diferentes factores, por lo que es necesario recurrir a una persona con mayor
experiencia en formas de muestreos; también se deberá comprender que en
forma general éstos métodos se pueden combinar, para así tener muestras más
representativas y que reflejen en realidad lo que acontece en la población bajo
estudio.

1.5 Parámetros y Estadísticos

8
Dentro de la estadística se tienen ciertas medidas que son obtenidas de las
características invariables de una población; así como para las muestras que son
extraídas de las poblaciones de las poblaciones; estas son medidas son:

1.- Parámetros: medidas que definen a la población o sea la medida que


caracteriza a la población es estudio como son:

N = Tamaño de la población  = Media de la población


 = Desviación estándar 2 = Varianza

2.- Estadístico: medida calculada de los datos de la muestra; es un estimador del


parámetro de la población; éstos estimadores variaran de muestra a muestra.
También son denominados estadígrafos:

n = Número de observaciones (tamaño de la muestra).


= Media de la muestra s = Desviación estándar s2 = Varianza

Para sintetizar las diferencias entre muestras y población, tenemos que la


población está valorada por parámetros y es estimada por el estadístico, mientras
que el parámetro es estimado por el estadístico, esto se representa en la figura
2.
Estimado
POBLACIÓN

PARÁMETRO
Estimada Valorada

Muestra Valorada ESTADISTICO

Figura 2. Diagrama que muestra la relación entre población, muestra, parámetro y


estadísticos.

Desde el punto de vista estricto de las matemáticas, una variable es un


símbolo que puede ser representada por letras, como: n, x y; donde n puede

9
representar al número de individuos que viven en una unidad dada; x al número de
carros que pasan por un cruce en un día; y al número de ranchos agrícolas del
Soconusco que cultivan mango.

Al conjunto de elementos que son los valores de una variable se denomina


UNIVERSO de la variable. Los elementos individuales del universo se les
denomina los VALORES u OBSERVACIONES de la variable. Según el tipo de
elementos que contenga el dominio, ésta se puede clasificar como:

a) Cualitativa: aquellas para las cuales no es posible hacer mediciones numéricas.


Se hace una observación cuando se asocian los elementos a una o varias
categorías mutuamente excluyentes; aquí los valores no se pueden ordenar o
medir en forma significativa, sólo se pueden clasificar y enumerar, ejemplo: color
de los ojos, predilección por un tipo de refresco, color de las flores, etc.
b).- Cuantitativa: aquellas para las cuales los elementos resultantes pueden
medirse o contarse porque poseen un orden o rango natural, ejemplo: estatura,
peso, granos, de una mazorca, frutos de un racimo, etc.

Este tipo de variable puede clasificarse en:

i) Continuas: aquellas que pueden asumir cualquier valor dentro de un


intervalo. Ejemplo: gasto de agua por una tubería, altura de plantas, peso
de animales, etc.
ii) Discretas o Discontinuas: aquellas que pueden asumir valores dados en
unidades individuales, se obtienen por conteo. Ejemplo: número de insectos
en una planta, número de frutos de un racimo, el número de la cara superior
al arrojar un dado, etc.

En ciertas situaciones los elementos de una variable cualitativa pueden


remplazarse por los valores numéricos, ejemplos: el color de una flor, puede ser
rojo, amarillo azul, convencionalmente podemos denotar rojo = 1, amarillo = 2, azul
= 3.
En estadística los conjuntos de interés son observaciones colectadas al
estudiar el comportamiento de un fenómeno, ya sea es estado natural o bien bajo
control; los valores obtenidos de las variables están influenciados por muchos
factores que los apartan de las leyes de la casualidad, presentándose
aleatoriamente.

10
Al realizar una acción determinada sobre algún objeto, el resultado puede
surgir con más probabilidad de efecto, entonces ingresamos al terreno de las
probabilidades por lo que definimos los siguientes conceptos:

Experimento: Proceso mediante el cual obtenemos una observación;


ejemplos: lanzar una moneda, un dado, destapar una carta de un mazo de cartas,
etc.

Como estudiamos fenómenos biológicos, y su ocurrencia es al azar, podemos


definir:

Experimento Aleatorio: Es aquel cuyos resultados no pueden predecirse


antes de su realización y por lo tanto están sujetos al azar, ejemplo: comparación
de tres variedades de sorgo, comparación de cuatro fórmulas de fertilización,
etc.

Espacio Muestra (M): Es el conjunto de integrado por todos los resultados


posibles de un experimento. Estos resultados, que son observaciones, pueden ser
cualitativos o cuantitativos, además de continuos o discretos.

Con los conceptos antes dados, se introduce un nuevo concepto en función


de que el interés en los fenómenos biológicos es sobre los caracteres que definen
a dicho fenómenos, en este caso las variables bajo estudio, definiéndose lo
siguiente:

Variables Aleatorias o Variables al Azar: Es una cantidad (función) que


puede asumir cualquier valor de un espacio muestral. También se define como “una
función que a cada elemento de su espacio muestral le asocia un número real”. Es
importante señalar que las variables aleatorias, dependiendo del tipo de
elementos que tenga el espacio muestral, pueden ser Continuas o Discretas.

11
2. DISTRIBUCION DE FRECUENCIAS Y SUS MEDIDAS DESCRIPTIVAS.

2.1 Introducción.
Cuando se desea tener un conocimiento general de un fenómeno, de un
concepto o de una opinión, se recurre a la fuente representativa de la
información. En la mayoría de los casos no es fácil conseguir la información sobre
una determinada característica de una población y debe recurrirse al censo o al
muestreo, dependiendo de la disponibilidad de presupuesto, tiempo y grado de
precisión deseado.

En la obtención de los datos de un fenómeno debe tenerse imaginación,


experiencia e inteligencia para ubicarlo adecuadamente. La organización de los
datos, es una de las tareas más difíciles dentro de una investigación.

La información recopilada se resume y describe utilizando Distribuciones


de Frecuencias y Medidas Descriptivas, para lo cual se construyen Cuadros de
Frecuencias que agrupen los datos y describan la forma de variación de los
mismos; sin embargo, es complicado trabajar con la distribución de frecuencia en
su totalidad, siendo necesario y conveniente utilizar descripción fundamentales
de la variabilidad y de su distribución, las que sumaricen ciertas características
importantes de las distribuciones de frecuencias.

Se tienen cantidades que se localizan en el “Centro de la Distribución” y


otras que determinan la Dispersión o Variabilidad de las misma, las cuales
capacitan para construir una imagen mental aproximada de la distribución de
frecuencia de los datos.

2.2 Presentación de Datos.


En todo escrito de investigación es importante identificar con precisión el
tipo de Presentación de los datos, la que debe tomar en cuenta la naturaleza y
características de los datos, ya sea tabla, cuadro figura etc. Por lo que, el Título
de la presentación de la información debe contener los siguientes elementos:

12
4

0
A B G E D F C
TRATAMIENTOS
Fig. 3. Producción de jicama de agua dulce en ton.ha -1. Estudio de distanciamiento
de siembra. Huehuetán, Chiapas. 1983.

2.3 Cuadro de Frecuencias


El Cuadro de Frecuencias, es la presentación ordenada de una distribución
de frecuencias, y ésta en un arreglo de datos que señala la frecuencia de
ocurrencia de valores en cada una de varias clases; puede ser en orden
ascendente o descendente.

A través de la muestra se caracteriza a la población, si la muestra contiene


un gran número de observaciones, es conveniente resumir los datos en un cuadro
que señale la frecuencia con que ocurre cada valor numérico. Esto puede ser tanto
para datos continuos como para discretos; permite distribuir la masa de los datos
brutos a una forma más manejable, y proporciona una base para su representación
gráfica. Ayuda a calcular los valores de los estadísticos: la media y la desviación
estándar, en una forma más fácil.

2.3.1 Frecuencia

13
La Frecuencia es el número de veces que se presenta una observación en el
análisis de una muestra o población; si se toma en consideración a la clase, es el
número de veces que se presenta la observación en una clase dada, las cuales
tienen una delimitación definida.

Por ejemplo: en el Cuadro 1, el valor 3.3 aparece 6 veces y al observar el


valor 4.0 aparece 4 veces, por lo cual estos números 6 y 4 son las frecuencias de
los valores 3.3 y 4.0 respectivamente.

2.3.2 Arreglo de los datos


Un Arreglo de Datos, es la disposición de los mismos en un cierto orden de
magnitud, ya sea en forma creciente o decreciente. Su observación lleva de
inmediato a identificar los valores extremos y permite averiguar cuál es la
diferencia que existe entre ellos.

Tomando como ejemplo el Cuadro 1, el ordenamiento de los valores en


forma creciente, viene dado por el Cuadro 3.
Cuadro 3. Ciento veinte rendimientos promedio de maíz en ton.ha -1, dados en
forma creciente en el Soconusco, Chiapas, 2001.

1.5 1.9 2.2 2.5 2.7 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.8 5.1
1.5 1.9 2.2 2.5 2.8 3.0 3.2 3.4 3.7 3.8 4.0 4.2 4.4 4.8 5.2
1.6 1.9 2.2 2.5 2.8 3.0 3.3 3.4 3.7 3.8 4.1 4.2 4.4 4.8 5.2
1.6 2.0 2.3 2.6 2.8 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 5.0 5.3
1.7 2.0 2.3 2.6 2.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 5.0 5.4
1.7 2.0 2.4 2.6 2.9 3.1 3.3 3.5 3.7 3.9 4.1 4.3 4.5 5.0 5.4
1.8 2.1 2.4 2.7 2.9 3.2 3.3 3.6 3.8 4.0 4.2 4.3 4.6 5.1 5.6
1.8 2.1 2.5 2.7 2.9 3.2 3.3 3.6 3.8 4.0 4.2 4.3 4.8 5.1 5.6
El Cuadro 3, se observa de inmediato que los valores extremos son 1.5
y 5.6, éstos permiten conocer el rango de variación de los datos en la
característica bajo estudio.

2.3.3 Amplitud o Rango


La Amplitud del Recorrido, también llamado Rango es la diferencia entre el
valor máximo y el valor mínimo observado, esto es:
R = OM - Om
Om = Valor mínimo observado
OM = Valor máximo observado
R = Rango

14
Para el caso del cuadro 3, tenemos:
Om = 1.5
OM = 5.6 R = 5.6 – 1.5 R = 4.1 ton.ha-1.
Indica que la longitud del intervalo donde se encuentran distribuidos los
120 valores del rendimiento promedio de maíz, es de 4.1 ton/ha.

2.3.4 Clases
La Clase es un grupo de valores numéricos que se encuentran localizados
dentro de un cierto intervalo. La determinación de las clases en gran parte es
arbitraria. El número de clases, el intervalo de clase, los límites y sus puntos
medios son aspectos que se deben de tomar en cuenta, la determinación de cada
uno se realiza de la manera siguiente:

a) Número de Clases: establecer cuántas clases se deben emplear para realizar


una distribución de frecuencias, entre más clases existan, más serán los
detalles mostrados. Si el número de clases es muy grande, la clasificación
perderá su efectividad como medio de sumarizar datos; así mismo, si el
número de clases es muy bajo, la información que arrojen no ayudará a
comprender claramente la naturaleza del modelo de variación.
Por lo anterior, no se puede fijar cuantas clases deben usarse, pero a manera de
recomendación se dan las siguientes reglas:

1.- Sturges, recomienda la fórmula: K = 1 + 3.3 Log. n (n = número de datos).


2.- Reyes Castañeda, propone usar: K = 2.5 4√n
3.- Snedecor, recomienda usar de 8 a 20 clases según lo considere el
investigador.

El número de clases a utilizar generalmente es arbitrario o por tanteo, se


recomienda la experiencia y conocimiento del fenómeno bajo estudio.

Siguiendo con el ejemplo del cuadro 2, en donde n = 120, tenemos:

1.- Sturges: K = 1 + 3.3 log. n


2.- Reyes castañeda: K =2.5 4√n

K = 1 + 3.3 log. 120 K = 2.5 4√120


K = 1 + 3.3 (2.0792) K = 2.5 (3.3098)

15
K = 1 + 6.86136 K = 8.2745
K = 7 .86136 K8
K≈8
Para el cuadro 3, en lo que resta del capítulo K = 9, trabajaremos con 9
clases.
b) Intervalo de Clase: es el ancho de la clase. Todas las clases deben de tener
la misma anchura, para evitar que la información sea seccionada o si las
diferencias de las frecuencias de las clases se deban principalmente a
diferencias en la concentración de los valores o a diferencias de la amplitud
de las clases.

E l intervalo de clase está relacionado con el número de clases y la amplitud;


se determina por medio:

R = amplitud del recorrido R


K = número de clases a=
A = intervalo de clase K

Del valor obtenido en ocasiones es necesario realizar un redondeo o


aproximarlo a una cantidad más grande, es para evitar confusión en decidir, si un
valor es clasificado a una clase determinada. Siguiendo con el cuadro 3, tenemos:

R = 4.1 ton.ha-1 R 4.1 ton.ha-1


K=9 a= a= =  a  0.455ton.ha-1
a=? K 9

El valor del intervalo, según lo indicado lo anteriormente, será a = 0.5


ton.ha .
-1

Se debe considerar que el cuadro de frecuencias a construir deberá tener


una amplitud tal que se evite la exclusión de algunos de los valores que forman la
muestra o población, para ello se considera lo siguiente:

K = Número de clase
a = Intervalo de clase
AT = Amplitud del cuadro
Se deberá cumplir AT ≥ R. En nuestro ejemplo tenemos:
K=9

16
a = 0.5 ton.ha-1
AT = ?
R = 4.1 ton.ha-1 AT = (9) (0.5) AT = 4.5 ton.ha-1 AT  R

c) Límites de las Clases: el establecimiento de los limites inferiores y


superiores de cada clase también crean dificultades, para resolver éste
problema primero debemos definir el límite inferior de la primera clase y su
límite superior es fácil de obtenerlo, así como los límites de las subsiguientes
clases. Para el límite inferior de la primera clase se utiliza:
li = Límite inferior de clase
Om = Observación mínima AT – R
AT =? li = O m
R = Rango 2
El límite superior se determina de la manera siguiente:
li = Límite inferior de clase
Li = Límite superior de clase Li = li + a
a = Intervalo de clase

Además, el límite superior de la primera clase corresponde al límite


inferior de la segunda clase, esto es L i = li + 1; los límites inferiores y superiores
de las siguientes clases son:

L2 = l2 + a = l3
L3 = l3 + a = l4
. .
. .
. .

Siguiendo con el cuadro 2 tenemos que los límites de las clases serán:
Om = 1.5 4.5 – 4.1
AT = 4.5 l1 = 1.5  l1 = 1.3
R =4.1 2

Por lo que:

L1 = l1 + a = 1.3 + 0.5 = 1.8 (1.3,1.8)


l2 = L1 = 1.8 L2 = 1.8 + 0.5 = 2.3  (1.8,2.3)
l3 = L2 = 2.3 L3 = 2.3 + 0.5 = 2.8  (2.3,2.8)
l4 = L3 = 2.8 L4 = 2.8 + 0.5 = 3.3  (2.8,3.3)

17
l 5 = L4 = 3.3 L5 = 3.3 + 0.5 = 3.8  (3.3,3.8)
l 6 = L5 = 3.8 L6 = 3.8 + 0.5 = 4.3  (3.8,4.3)
l 7 = L6 = 4.3 L7 = 4.3 + 0.5 = 4.8  (4.3,4.8)
l 8 = L7 = 4.8 L8 = 4.8 + 0.5 = 5.3  (4.8,5.3)
l 9 = L8 = 5.3 L9 = 5.3 + 0.5 = 5.8  (5.3,5.8)
Los intervalos de clases obtenidos dificultan la decisión de establecer a
qué clase pertenecerán los valores que se encuentran en sus límites, esto es, a
qué clase corresponderá el valor de 1.8, si a la primera clase o a la segunda, igual
a los demás valores que presentan está particularidad; se evita incrementando un
decimal más a cada límite de clase:

Clase original Clase corregida


(1.3,1.8) (1.35,1.85)
(1.8,2.3) (1.85,2.35)
(2.3,2.8) (2.35,2.85)
(2.8,3.3) (2.85,3.35)
(3.3,3.8) (3.35,3.85)
(3.8,4.3) (3.85,4.35)
(4.3,4.8) (4.35,4.85)
(4.8,5.3) (4.85,5.35)
(5.3,5.8) (5.35,5.85)
Con la correlación, la amplitud del cuadro de frecuencias no se modifica; así
como los intervalos de clase. Esto es:
AT = 5.85 – 1.35 = 4.5 ton.ha-1, que es el mismo valor.

d) Puntos Medios de Clase: son los valores promedios de los límites de las
clases. Los cálculos a partir de una distribución de frecuencias utilizan éste
valor, ya es considerado como el valor común para todos los datos que
integran a cada clase. Se calculan por medio de:

i = Valor medio de clase l i + Li


li = Límite inferior de clase i =
Li = Límite superior de clase 2
Para las clases del ejemplo, los valores medios son:
Clase i Clase i i
(1.35,1.85) 1.6 (2.85,3.35) 4.1 (4.35,4.85) 4.6
(1.85,2.35) 2.1 (3.35,3.85) 4.6 (4.85,5.35) 5.1
(2.35,2.85) 2.6 (3.85,4.35) 5.1 (5.35,5.85) 5.6

2.3.5 Tipos de Frecuencias

18
Al estudiar un fenómeno se podrá observar una gran variación de las
frecuencias de las clases a establecerse, siendo conveniente, para la
interpretación y predicción de la naturaleza del fenómeno, tener varias formas
de registrarlas; así como, poder hacer la gráfica correspondiente. Se tienen
diferentes tipos para denotar las frecuencias; las más comunes son:
1. Frecuencia Absoluta: es la frecuencia que corresponde a cada clase, tomando
los valores que la integran a la muestra en el intervalo correspondiente. Se
denota por Fi.
2. Frecuencia Relativa: es la proporción de la frecuencia absoluta de una clase
dada en relación al total de observaciones se denota, por f i; se obtiene por
medio de;

3. Frecuencia Acumulada: es la suma de la frecuencia absoluta de cada clase con


todas las frecuencias de las clases anteriores, se denota por F ai.

4. Frecuencia Acumulada Relativa: es la proporción de la frecuencia acumulada


en una clase dada en relación al total, de observaciones, se denota por f ai ; se
obtiene;

Continuando con el ejemplo, la distribución de frecuencias del cuadro 3, se


muestra en el cuadro 4.

Cuadro 4. Distribución de frecuencias de ciento veinte rendimientos promedio de


maíz en ton.ha-1. Soconusco, Chiapas. 2001.
CLASES i Fi Fai fi fai
1.35 – 1.85 1.6 8 8 0.067 0.067
1.85 – 2.35 2.1 13 21 0.108 0.175
2.35 – 2.85 2.6 15 36 0.125 0.300
2.85 – 3.35 3.1 20 56 0.167 0.467
3.35 – 3.85 3.6 19 75 0.158 0.625
3.85 – 4.35 4.1 21 96 0.175 0.800
4.35 – 4.85 4.6 11 107 0.092 0.892
4.85 – 5.35 5.1 9 116 0.075 0.967
5.35 – 5.85 5.6 4 120 0.033 1.000
F = 120  fi =1.000

2.4 Gráfica de una Distribución de Frecuencias


Las gráficas son representaciones que resumen y caracterizan la
información de los datos de una investigación; facilitan la interpretación de una
19
distribución de frecuencias; se dan generalmente en un sistema de coordenadas.
Los objetivos generales de las gráficas son:

1) Representar conclusiones o resultados de un análisis.


2) Representar datos estadísticos de tal manera que facilite la evaluación de los
mismos.
En las gráficas, los datos estadísticos se presentan en términos de magnitudes
interpretadas visualmente, ya que el conjunto de datos puede observarse con
toda claridad. En general, hay dos tipos de gráficas para representar
distribuciones de frecuencias.
a) Histograma: formado por un conjunto de rectángulos (variables
continuas); tienen su base en el eje horizontal, y el centro los puntos medios de
clase; los anchos de los rectángulos representan a los intervalos de clase y las
alturas a las frecuencias absolutas de cada clase. Las áreas de los rectángulos
son proporcionales a las frecuencias relativas de las clases. El histograma
presenta los datos en una forma fácil de comprender, se ve la naturaleza general
de la distribución. El histograma del cuadro 4, es la figura 4

22
F
R A 20
E B 18
C S
U 16
O
E L 14
N
C
U 12
T
I A 10
A
S
S 08
06
04
02

1.35 1.85 2.35 2.85 3.35 3.85 4.35 4.85 5.35 5.85
INTERVALOS DE CLASE
Fig. 4. Histograma de la distribución de frecuencias de ciento veinte rendimientos
promedios de maíz en ton.ha-1. Soconusco, Chiapas. 2001.

20
Si se desea comparar una distribución observada con una distribución
teórica, se puede superponer la distribución teórica sobre el histograma y
apreciar las diferencias existentes.
b) Polígono de Frecuencias: es un gráfico de línea, trazado sobre el valor de clase;
se construye localizando el punto medio de clase y marcando un punto a la altura
de la frecuencia correspondiente a la clase. Estos puntos se unen con líneas
rectas. El polígono de frecuencia tiende a sugerir la curva de la población de
donde se extrajo la muestra. Esto puede ser:
1. Para Frecuencias Absolutas: también llamado polígono de johansen, por ser el
primero que los utilizó en estudios de mediciones biométricas; se puede construir
sobre el histograma respectivo, uniendo los puntos medios de la clase a las
frecuencias absolutas establecidas. Para el caso del cuadro 4, el polígono lo
representa la figura 5.

22
F
20
R A
E 18
B
C S 16
U O 14
E L 12
N U 10
C T
I 08
A
A S 06
S 04
02

1.35 1.85 2.35 2.85 3.35 3.85 4.35 4.85 5.35 5.85
INTERVALOS DE CLASE
Fig. 5. Polígono de frecuencias absolutas para ciento veinte rendimientos promedios de maíz en
ton.ha-1. Soconusco, Chiapas. 2001.

2. Para Frecuencias Relativas Acumuladas: este tipo de polígono permite señalar,


mediante su observación, qué porcentaje o número de individuos de la población
se encuentran
F dentro
120 de un cierto rango; también reciben el nombre de OJIVA.
El correspondiente
R R 110 polígono para el cuadro 4, se muestra en la figura 6.
E E 100
C L 90
U A 80
E T 70
N I 60
C V 50
I A 40
A S 30
S 20
10
21

Fig. 4. Histograma de la distribución de frecuencias de ciento veinte rendimientos promedios de maíz en


ton.ha-1. Soconusco, Chiapas. 2001.
1.6 2.1 2.6 3.1 3.6 4.1 4.6 5.1 5.6
PUNTOS MEDIOS DE CLASE

Importante para la construcción del histograma y del polígono de


frecuencias, es que el número de clases no sean pocas, para que la forma de la
distribución pueda apreciarse bien.
El objetivo principal de la construcción de un histograma o polígona de
frecuencias es la de “inferir como se comporta una población antes de estimar los
parámetros de ella”; el comportamiento de una población puede seguir cualquiera
de los tres casos siguientes:

i) Un polígono de mucha altura en relación a la base, denotará gran predominio


de las clases centrales y por lo tanto existiría menor variación. La figura 7
muestra éste caso.

Fig. 7. Población con poca variación

ii) Un polígono con mucha base y poca altura, denotará igualdad de frecuencias en
las clases y por lo tanto habrá mayor variación. La figura 8, lo representa.

Fig. 8. Población con mayor variación

iii) Un polígono muy irregular, con más de un vértice pronunciados, denotará una
gran variación y por lo tanto la población es mezclada o heterogénea. La figura 9,
lo representa.

22
Fig. 9. Población mezclada o heterogénea.

2.5 Curvas de una Distribución de Frecuencias


Los datos obtenidos sobre una característica que provienen de una
muestra, seleccionados de una población, teóricamente es posible, para variables
continuas, escoger intervalos de clase muy pequeños y aún tener un número
apreciable de observaciones dentro de cada clase; de ésta manera el número de
clases se hace cada vez más grande y el polígono puede aproximarse a una curva,
la que toma el nombre de CURVA DE FRECUENCIAS.

Cualquier variable bajo estudio de una población con variación continúa


puede presentar diferentes tipos de distribuciones, dando lugar a diferentes
curvas, las cuales se distinguen por sus características de integración; se
clasifican en:
a) Por el Grado de Altura o Curtosis: se distinguen por la forma de la curva y se
dividen en:
1. Platocúrtica: curva de poca altura o casi aplanada; se muestra en la figura 10.
2. Mesocúrtica: curva que está equilibrada en altura con respecto a al base;
figura 11.
3. Leptocúrtica: presenta muy pronunciada su altura o sea puntiaguda; figura
12.

Fig.10. Curva platocúrtica Fig.11. Curva mesocúrtica Fig.12. Curva leptocúrtica

23
b) Por el Grado de Agrupamiento: relacionado a la forma en que se distribuyen
los datos en toda la amplitud del recorrido; se dividen en dos tipos:

1. Simétricas: curvas de distribuciones con una observación central de


frecuencia máxima y observaciones equidistantes e iguales respecto a la
observación central. El ejemplo clásico es la CURVA NORMAL DE
PROBABILIDADES (figura 13), también llamada CAMPANA DE GAUSS;
curva de gran utilidad en la aplicación de la Teoría del Muestreo
Probabilístico. Se basa en la hipótesis de que los datos que intervienen
provienen de una distribución normal. La máxima altura corresponde a la
ubicación de la Media Aritmética, representa al eje de la simetría de la
curva; los datos pueden agruparse de la manera siguiente:
 +  = 68.26% de la población
 + 2 = 95.45% de la población
 + 3 = 99.73% de la población

3 2    2 3
fig. 13. Curva Normal de Probabilidades.

Las distribuciones que se presentan en la práctica no obedecen de manera


absoluta a la distribución normal, sólo se aproximan a ella y se supone que la
obedecen realizando ciertos ajustes estadísticos.
2. Asimétricas: curvas que presentan dominancia de datos a un lado del eje
teórico de simetría; convencionalmente, si el mayor número de datos se presenta
en los valores bajos del rango y la cola más larga de la curva se extiende a su
derecha, entonces la curva es de asimetría positiva (figura 14). Si el mayor
número de datos se presenta en los valores altos del rango y la cola más larga se
extiende a la izquierda, entonces la curva es de asimetría negativa (figura 15).

24
Fig.14 Curva asimétrica positiva fig.15 Curva asimétrica negativa

2.6 Notación Sumatoria

Los conjuntos que son objeto de nuestro interés, están integrados por
mediciones de algunas características que desean estudiar, las cuales están
representadas por una variable, denotada por letras tales como x,y o z.

Si la variable x representa una característica bajo estudio, el conjunto de


mediciones puede ser presentado por x1, x2, x3,.....xn, y un valor cualquiera será
denotado por Xi, generalmente conocida como la i-ésima observación y si hay “n”
observaciones, se dice que i varia desde 1 a “n”.

En la aplicación de las técnicas estadísticas es frecuente que se quiera


representar la suma de varias observaciones; si el número de observaciones es
muy pequeño, la expresión de la suma no es muy laboriosa, por ejemplo:
Si n = 5, con x la variable, la suma se denota por; x1 + x2 + x3 + x4 + x5.
Si el número de datos es mayor, la descripción de la suma es más larga; por
ejemplo:

Si n = 10, con x la variable, la suma: x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10.


Que es un poco más larga que la anterior; pero si “n” es mucho más grande
(caso muy frecuente) la suma será mucho más larga que las anteriores; por
ejemplo:

Si n = 1000, la suma es: x1 + x2 + x3.+...+ x100 +...+ x500.+...+ x1000.


Por lo que es común el uso de un símbolo para denotar en forma concreta
ésta suma, y es la letra griega  (sigma), por lo que las anteriores sumas pueden
expresarse como:
5

xi = x1 + x2 + x3 + x4 + x5
1=1

10

xi = x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10.
1=1

1000

xi = x1 + x2 + x3 ...+ x100 +... + x500 +... + x1000.


1=1

25
Si se tienen n observaciones, la suma se representa por:
n

xi = x1 + x2 + x3 + ... +xn.


i=1

El símbolo xi debe leerse como “la suma de los números xi


i=1

desde x1.hasta xn donde i = 1,2,3,...,n.


La letra colocada debajo del símbolo de suma se llama “índice de la suma”,
también pueden ser usadas las letras j,k,l,m. Para evitar confusiones; la expresión
anterior puede ser denotada simplemente como: xi

Ejemplo: del cuadro 5, obtener las sumas que se piden.

Cuadro 5. Valores de las variables x e y

I 1 2 3 4 5 6 7 8
X 2 0 3 1 4 2 -1 3
Y 1 3 -1 0 1 4 5 3

xi = x1+x2+x3+x4+x5+x6+x7+x8 = 2+0+3+1+4+(-1)+3 = 14


i=1

xi = x3 + x4 + x5 + x6 + x7 = 3+1+4+2+(-1) = 9
i=3

yi = y2 + y3 + y4 + x5 + x6 + x7 = 3+(-1)+0+1+4+5 = 12
i=2

Propiedades de la sumatoria:

Siendo x, y e z variables; a una constante, entonces:


1. a = na 2. ax = axi 3. ( xi + yi - zi) = xi + yi -zi

26
Las demostraciones de estas propiedades son muy sencillas, no se
demuestran aquí ya que no es la finalidad de este curso.

2.7 Medidas de Tendencia Central

El cálculo de las medidas de tendencia central es para localizar él o los


valores particulares que señalan el centro de una distribución. Es una descripción
que simplifica y representa propiamente a toda la variable o al conjunto de datos
de la misma. Las medidas de mayor importancia son la Media Aritmética, la
Mediana y la Moda; también son llamadas Promedios, ya que son valores que
tienden a situarse en el centro de la distribución.

2.7.1 Media Aritmética


Es la de mayor importancia y más útil. También es conocida como Promedio
Aritmético o simplemente Media. Se define como “la suma de los valores
observados en una muestra o población dividido por el total de observaciones”,
esto es: si x1, x2, x3,...,xn son n valores de la muestra, entonces la media es:
Media Muestreal Media Poblacional
xi Xi
x= =
n N

La media es considerada como una medida de la posición central de la


distribución, o sea, que la acumulación de los datos se encuentra alrededor de esa
medida. Tiene la ventaja de ser muy fácil su cálculo, posee propiedades teóricas
excelentes desde el punto de vista de la Estadística Inductiva. Su principal
desventaja es que, por ser el punto de equilibrio de los datos, es muy sensible a la
presencia de observaciones extremas. La media se puede calcular para dos grupos
de datos.
a) Datos no Agrupados: se utiliza la fórmula antes descrita.

Ejemplo del cuadro 1, tenemos que la media para los 120 promedios es:
xi 4.3+2.9+2.8+...+3.6+2.4+3.3
x=  x=
n 120

416
= = 3.46

27
120

b) Datos en una Distribución de Frecuencias: si los datos se presentan en un


cuadro de frecuencias, no es posible conocer los valores de cada observación,
pero sí las clases en donde se localizan. Para calcular la media, se supone que
dentro de cada clase, las observaciones se distribuyen uniformemente alrededor
del punto medio de clase, por lo que puede considerarse que todas las
observaciones dentro de cada clase ocurren en ese valor.

El cálculo de la media para un cuadro de frecuencias con r clases se


determina como sigue: siendo 1, 2, 3,..., r, los r valores medios de clase y F1, F2,
F3,..., Fr, las frecuencias respectivas de las clases, entonces la media es:

i Fi 1F1 + 2F2 + 3F3 + ... + rFr


x= =
Fi F1+F2+3 +... +Fr

Existen otros métodos para obtener la media, pero la antes expuesta es la


más práctica. Así mismo, se debe tener en cuenta que la media calculada por
medio de un cuadro de frecuencias se aproxima a la media calculada por medio de
todos los datos.

Ejemplo: para el cuadro 4, el cálculo de la media es:


Cuadro 6. Cálculo de la media aritmética para los ciento veinte rendimientos
promedio de maíz.

CLASES i Fi iFi
1.35-1.85 1.6 8 12.8
1.85-2.35 2.1 15 31.5
2.35-2.85 2.6 15 39.0
2.85-3.35 3.1 20 62.0
3.35-3.85 3.6 19 68.4
3.85-4.35 4.1 21 86.1
4.35-4.85 4.6 11 50.6
4.85-5.35 5.1 9 45.9
5.35-5.85 5.6 4 22.4
F=120 iFi = 418.7

La media es:

28
i Fi 418.7
x= = = 3.49
Fi 120

Como puede observarse, existe una pequeña diferencia entre el valor de la


media obtenida a través de una distribución de frecuencias que cuando se
obtiene por medio de todas las observaciones, esto se debe principalmente a que
se pierde información al agrupar los datos.

Esta medida de tendencia central posee las siguientes propiedades:

1. La suma algebraica de las desviaciones de los valores de un conjunto de


elementos con respecto a su media es cero.
2. La suma de los valores de los elementos de un conjunto es igual a la media
multiplicada por el número de elementos.
3. La suma de los cuadros de las desviaciones de los valores de un conjunto de
elementos con respecto a su media es un valor mínimo.

Cualquier promedio o media de tendencia central es representativo de un


conjunto homogéneo de elementos. Sin embargo, en muchas distribuciones, pese a
existir homogeneidad en la naturaleza y continuidad de sus elementos, se
observan grandes diferencias entre los miembros extremos y con una marcada
asimetría. La media tiene las siguientes desventajas:

1. Si no hay concentración de datos o frecuencias, no actúa como medida de


posición, debido a la gran variabilidad.
2. No describe el grado de variación de una distribución.
3. No es un resumen de la distribución, ya que el interés está centrado en toda
la distribución.
4. Por si sola no es útil como medida de localización, solamente cuando se
comparan dos o más distribuciones, que tengan la misma forma.

Por ser la medida de tendencia central de mayor uso tiene las siguientes
ventajas

1. Es fácil de calcularse.
2. Considera todos los valores obtenidos en una muestra o población.
3. Tiene gran validez en el muestreo.

29
4. Si se sacan dos muestras de una población, las medias de esas muestras
tendrán concordancia.

Hay que tener en cuenta que la media está influenciada por valores extremos,
y su principal función es la de balancear la suma de todas las observaciones, esto
es funge como punto de equilibrio.
2.7.2 Mediana
En distribuciones con una asimetría muy marcada, la media no es una buena
medida de tendencia central, por lo que es conveniente definir otro medida que
permita centralizar la distribución, y esta es la Mediana; se define como; “dado
un conjunto de n observaciones en forma ordenada y creciente, la mediana es el
valor colocado en el centro del arreglo”; esto es, el valor que divide en dos grupos
iguales a un conjunto ordenado.

La mediana de un conjunto de valores es mayor que la mitad de los valores y


menor que la otra mitad de los mismos. Esta medida puede calcularse para dos
grupos de datos:

a) Datos no Agrupados: debemos de considerar los dos siguientes casos:

1. El Número de Datos es Impar : la mediana es el dato que divide en dos grupos


al conjunto.
Siendo x la variable y n el número de datos entonces:

Med = xn+1
2

Ejemplo: calcular la mediana para los números:

3.7,3.9,3.5,4.2,3.8,2.7,1.3,3.7,3.6
Primero se ordenan, los datos.
1.3,2.7,3.5,3.6,3.7,3.7,3.8,3.9,4.2; se tiene que n = 9

Med = xn+1 = x9+1 = x10 =x5 = 3.7


2 2 2

2. El Número de Datos es Par: la mediana es la media de los datos centrales del


arreglo y se determina por:
xn + xn +1
2 2

30
Med =
2

Ejemplo: del cuadro 3, la mediana para los 120 rendimientos promedio de maíz es:

xn + xn +1 x120 + x120 +1
2 2 2 2
x60 + x60+1 3.5+3.5
Med = = = = = 3.5
2 2 2 2

b) Datos en una Distribución de Frecuencias: si se tiene una distribución de


frecuencias, la mediana sigue siendo el valor del elemento intermedio cuando la
distribución está ordenada, esto es, el valor que tiene el 50% de las
observaciones por debajo y el 50% de los mismos por encima. Para encontrar el
valor de la mediana, primero se debe encontrar la clase mediana, que se define
como la clase más baja para la cual la frecuencia acumulada excede a n/2 (n=fi).
Encontrada la clase mediana el cálculo del valor mediana es:

[(n/2) – Fai]
Med = lm + (a) en donde:
Fi
lm = Límite inferior de la clase mediana
Fai = Frecuencia acumulada anterior a la clase mediana
Fai = Frecuencia absoluta de la clase mediana
n = Número de datos en la distribución. a = intervalo de clase

Ejemplo: el cálculo de la mediana para el cuadro 4 es:


Cuadro 7. Cálculo de la mediana para los 120 rendimientos promedio de maíz.
CLASES
i Fi Fai La quinta clase es la clase mediana, ya que su
1.35 – 1.85 1.6 8 8
1.85 – 2.35 2.1 13 21 frecuencia acumulada es la más baja que
2.35 – 2.85 2.6 15 36 excede a (n/2)= 60; por lo que:
2.85 – 3.35 3.1 20 56
3.35 – 3.85 3.6 19 75 n=120
3.85 – 4.35 4.1 21 96 lm =3.35 Fai =56 Fai =19 a=0.5
4.35 – 4.85 4.6 11 107
4.85 – 5.35 5.1 9 116
5.35 – 5.85 5.6 4 120 [(120/2) – 56]
Med =3.35 + (0.5)
19

31
Med =3.35 + (0.21)(0.5)

Med =3.455

Se observa, al igual que el caso de la media, el valor de la mediana difiere


en una pequeña cantidad del valor de la misma calculada con el total de
observaciones.

En un histograma, la mediana es el valor de x que lo divide en dos partes de


igual área. Para un conjunto de datos asimétricos (histogramas con largas colas),
es mejor medida de tendencia central que la media.

2.7.3 Moda
Otra medida de tendencia central utilizada, aunque no frecuentemente, es
la Moda, que se define como “el valor que mayor número de veces se presenta en
un conjunto de números”. En algunas distribuciones se observa que no se presenta
la moda y en otras puede existir más de una.

Si existe una moda se dice que la distribución es unimodal, si existen dos


entonces será bimodal, etc. Esta medida también se puede calcular para dos
grupos de datos.

a) Datos no Agrupados: para determinar este valor, primeramente ordenamos


los datos en forma creciente y determinamos el valor modal por
observación.

Ejemplo: del cuadro 3, se observa que los datos ya están dados de forma
ordenada, que los valores 3.3,3.7,3.8,4.3,4.3 se presentan 6,5,5,5,5 veces
respectivamente, por lo tanto la moda es 3.3 por ser el de más frecuencia que es
6.

b) Datos en una Distribución de Frecuencias: para una distribución de


frecuencias la moda se define como el valor medio de la clase cuya
frecuencia tiene el mayor valor numérico, la clase recibe el nombre de clase
modal.

Ejemplo: La moda para el cuadro 4 es:

32
Cuadro 8. Cálculo de la moda para los 120 rendimientos promedio de maíz.

CLASES
i Fi Fai
1.35 – 1.85 1.6 8 8 En el cuadro 8 podemos observar que la
1.85 – 2.35 2.1 13 21
2.35 – 2.85 2.6 15 36 mayor frecuencia absoluta es 21, corresponde
2.85 – 3.35 3.1 20 56 a la clase cuyo intervalo es (3.85 – 4.35), por
3.35 – 3.85 3.6 19 75
lo que ésta es la clase modal; 4.1 es el punto
3.85 – 4.35 4.1 21 96
4.35 – 4.85 4.6 11 107 modal y viene siendo el valor modal para ésta
4.85 – 5.35 5.1 9 116 distribución de frecuencias.
5.35 – 5.85 5.6 4 120
Se puede ver que éste valor (4.1) difiere del valor modal obtenido en el
cuadro 3; con esto se confirma la inestabilidad de la moda como una medida de
tendencia central.
2.8 Medidas de Dispersión

Se ha constatado que una medida de tendencia central sólo proporciona


información acerca de la localización del centro de una distribución, esto es,
solamente es un resumen parcial de la información que contiene la distribución, lo
cual no es suficiente para describir en forma total a la misma, ya que también es
importante conocer la cercanía de los datos, o sea, conocer la dispersión a
variabilidad de los mismos, en relación a la media de la distribución.
Otra de las aplicaciones de la estadística es la de estudiar la variación de
una población o muestra, mediante el cálculo de otras medidas, a ellas se les
denomina MEDIDAS DE DISPERSION o de VARIACION y son Amplitud,
Varianza, Desviación estándar, Coeficiente de Variabilidad. Debemos tomar en
cuenta que algunas de éstas medidas han sido sustituidas por otras, por ser
mejores estimadores de la variación de los datos.

2.8.1 Rango o Amplitud

La amplitud es la medida de variación más simple también llamada rango; es


muy poco usada, puesto que su única ventaja es la sencillez con que se calcula. Se
define como “la diferencia entre el valor mayor y el valor menor en un conjunto de
datos”
A = R = OM – Om A = Amplitud OM = Observación Mayor
R = Rango Om = Observación

33
A pesar de que la amplitud es de fácil cómputo es el estadígrafo más
inestable y difícil de interpretar, debido a que únicamente depende de los valores
extremos del conjunto de datos, por lo que se considera una desventaja al no
señalar si la agrupación de los datos están bastantes cercanos unos a otros.

Ejemplo: del cuadro 3, la amplitud es: OM = 5.6. Om = 1.5


A = OM - Om. A = 5.6 – 4.1

2.8.2 Desviación Media


La amplitud, como medida de variación, tiene poca utilidad; se necesita
hallar otro indicador más preciso. Cuando se mencionaron las propiedades de la
media, se expresó que “la suma de las desviaciones de un conjunto de datos
respecto a su media es igual a cero”, si se omite el signo de la desviación, y se
toma en cuenta la desviación absoluta, el promedio de todas ellas fija un número
que expresa la variabilidad un poco más real. Tal medida se llama Desviación
Media o Desviación Promedio, definida como: ”el promedio aritmético de las
desviaciones absolutas de un conjunto de datos respecto a su media”, esto es:

xi - x di 
D.M.= =
n n
El valor absoluto significa que se deben considerar los alejamientos de los
datos, tanto a la izquierda como a la derecha de la media para incrementar la
desviación promedio. Actualmente no se emplea esta medida, ya que la función
valor absoluta no es fácil de manejar algebraicamente; además su cálculo es muy
laborioso y carece de ventajas teóricas que poseen otras medidas. La desviación
media se puede calcular para dos grupos de datos.

a) Datos no Agrupados: se produce aplicando la formula antes descrita.


Ejemplo: calcular la desviación media de los datos del cuadro 9.
xi x di i = xi – x  di 
La media de los datos es:
158 161.2 -3.2 3.2
160 161.2 -1.2 1.2 xi 1612
165 161.2 3.8 3.8 X= = = 161.2
163 161.2 1.8 1.8
170 161.2 8.8 8.8 n 10
151 161.2 -10.2 10.2 La desviación media es:
152 161.2 9.2 9.2
173 161.2 11.2 11.2 di  64
153 161.2 -8.2 8.2 D.M.= = = 6.4
167 161.2 5.8 5.8
xi = 1612 di = 0.0 di  = 64.0
34
n 10

Indica que todos los datos se desvían, en promedio, de la media en 6.4 unidades.
b) Datos en una Distribución de Frecuencias: en una distribución de frecuencias
con valores de clase ,2,3,...,r, y F1,F2,F3,... Fr las frecuencias respectivas de las
clases, el cálculo de la desviación media se realiza con la siguiente formula

xi - x Fi di Fi
D.M. = =
Fi Fi

Ejemplo: del cuadro 4 la desviación media es:

Cuadro 10. Cálculo de la desviación media para los ciento veinte rendimientos
promedio de maíz.

Clases i Fi iFi x di di  Fi


1.35-1.85 1.6 8 12.8 3.45 -1.85 14.80
1.85-2.35 2.1 13 27.3 3.45 -1.35 17.55
2.35-2.85 2.6 15 39.0 3.45 -0.85 12.75
2.85-3.35 3.1 20 62.0 3.45 -0.35 7.00
3.35-3.85 3.6 19 68.4 3.45 0.15 2.85
3.85-4.35 4.1 21 86.1 3.45 0.65 13.65
4.35-4.85 4.6 11 50.6 3.45 1.15 12.65
4.85-5.35 5.1 9 45.9 3.45 1.65 14.85
5.35-5.85 5.6 4 22.4 3.45 2.15 8.60
Fi = 120 iFi = 414.5  di  Fi = 104.70

La media es: iFi 414.5


x= = = 3.45
Fi 120
La desviación media es:
: diFi 104.70
D.M.= = = 0.8725
Fi 120
Indica que todas las observaciones se desvían en promedio 0.87 ton/ha de
su media.

2.8.3 Varianza

35
La mejor medida de variación y la más generalizada es la Varianza o su raíz
cuadrada denominada Desviación Estándar. Medida que se fundamenta en la 3ª
propiedad de la media que dice “la suma de los cuadrados de las desviaciones de
un conjunto de valores con respecto a su media es un mínimo”; si esa suma se
divide entre el número de observaciones, entonces tendremos el valor de la
Varianza o también llamado cuadro medio; representada por 2 para la población
s2 para la muestra. Se da en las unidades originales al cuadro; esta medida se da
en términos de desviaciones al cuadrado, su cálculo es por medio de:

Varianza Muestreal Varianza Poblacional


(xi – x) 2
(xi – )2
s2 = 2 =
n–1 N
Sí se conoce el valor de , la mejor estimación de 2 a partir de una
muestra es:
Esta medida se puede calcular para dos grupos de datos.
a) Datos no Agrupados: para este grupo de datos se puede proceder de dos
formas:
b)
1. Por Desviaciones al Cuadrado., con Relación a la Media: mediante la ecuación
de definición:
Ejemplo: calcular la varianza para los datos del cuadro 11.

xi xi – x di2
61 - 0.7 0.49 La media es:
57 - 4.7 22.09 Xi 617
X= = = 61.7
78 16.3 265.69 n 10
73 11.3 127.69
60 - 1.7 2.89
49 -12.7 161.29 La varianza es:
56 - 5.7 32.49 ( di ) 2 868.10
S2 = = = 96.45
68 6.3 39.69 n 1 9
67 5.3 28.09
48 -13.7 187.69
xi = 617 di = 868.10

2.- Por medio de un Factor de Corrección: método rápido, es más conveniente, ya


que no se pierden decimales; se realiza mediante:

36
(Xi ) 2
Xi 2 
S2 = n
n 1

Ejemplo: calcular la varianza para el siguiente

xi xi2
(Xi ) 2
61 3721 Xi 2 
57 3249 S2 = n
78 6084 n 1
73 5329
60 3600 (617) 2
49 2401 38,937  38.937  38,068.9
56 3136
S2 = 10 =
9
68 4624 10  1
67 4489
48 2304 S2 = 96.45
2
xi = 617  di = 38,937
c) Datos en una distribución de Frecuencias: Al igual que para datos no
agrupados, cuando se tiene una distribución de frecuencias, el calculo de la
varianza se puede realizar por varios métodos, pero el más práctico es “por
medio de un factor de corrección”; el procedimiento es similar que para datos
no agrupados, se utiliza la ecuación:

2 (ni Fi ) 2
ni Fi 
S2 = Fi
Fi  1
Ejemplo: Calcular la varianza de los 120 rendimientos promedios de maíz, del
siguiente cuadro.

Clases i Fi i2 iFi i2Fi


1.35-1.85 1.6 8 2.56 12.8 20.48
1.85-2.35 2.1 13 4.41 27.3 57.23
2.35-2.85 2.6 15 6.76 39.0 101.40
2.85-3.35 3.1 20 9.61 62.0 192.20
3.35-3.85 3.6 19 12.96 68.4 246.24
3.85-4.35 4.1 21 16.81 86.1 353.01
4.35-4.85 4.6 11 21.16 50.6 232.76
4.85-5.35 5.1 9 26.01 45.9 234.09
5.35-5.85 5.6 4 31.63 22.4 125.44
Fi = 120 iFi = 414.5 i2Fi = 1562.85

La varianza es:

37
2 (ni Fi ) 2 ( 414.5) 2
 n i Fi  1562. 5  1562.5  1431.752
S2 = Fi = 120 = =
119
Fi  1 120  1

S2 = 1.1016 (ton/ha)2.

Cuando los valores de la muestra tienen diferentes probabilidades de ser


considerados, cada desviación al cuadrado se pondera con su probabilidad y no se
requiere el divisor n, en el caso de la varianza muestral se utiliza n – 1, porque la
varianzaasí definida tiene propiedades teóricas deseables. Tomando la varianza
muestral definida por:

( Xi  X ) 2
S2 = n 1
( Xi  X ) 2
Al término se le conoce como “Suma de Cuadrados (SC), esto es a SC
( Xi  X ) 2
= , se le llama fórmula de definición de la cuadrados y se puede
reducir , para el efecto de facilitar sus cálculos, a la siguiente fórmula:

(X i) 2
SC = Xi2 -
n

En donde Xi2, es la suma de los cuadrados de cada observación y Xi es


la suma de todas las observaciones y (Xi)2 / n se le denomina “Término de
Corrección o Factor de Corrección o Ajuste de la Media” y se representa por C.

El término n – 1 enla ecuación dela varianza se le denomina “Grados de


Libertad” (GL), se entiende como la posibilidad de variación. Es la expresión que
se usa cuando el número de observaciones de una población o muestra se le resta
la unidad.

2.8.4.- Desviación Estándar.


Esta medida indica el valor absoluto que en promedio se desvian los datos
individuales de una población o muestra, más o menos de la media.

Como ya se ha dicho, la Varianza y su raiza cuadrada llamada “Desviación


Estándar”, son las medidas más utilizadas para describir la variación de una
población o muestra; indica el grado de variación de un grupo de individuos en la
38
población. Está dado en froma absoluta y en las mismas unidades que tienen las
observaciones bajo estudio.

La Desviación Estándar permite juzgar la variabilidad de los datos respecto


a la media; sirve para comparar la variabilidad de poblaciones que están en las
mismas unidades de medida. Al aumentar su valor, aumenta la variabilidad del
grupo en estudio; esto es, entre más grande sea su valor, la dispersión de la
población alrededor de la media es más grande, la intensidad del carácter bajo
estudio en los individuos de la población tiene mucha diferencia con su promedio y
si el valor es menor, entonces la dispersión de los individuos de la población es
más pequeña, la intensidad del carácter bajo estudio difiere poco del promedio.

( Xi  X ) 2 ( Xi   ) 2
S= =
n N
Ya que la desviación estandar es la raíz cuadrada de la varianza, también se
puede calcular para datos no agrupados y para datos en una distribución de
frecuencias.
Ejemplo: Calcular la desviación estándar para los datos del Cuadro 11.

S = S2 S = 96.45 S = 9.82
Ejemplo: Calcular la desviación estándar para los datos del cuadro 4.

S= S2 S= 1.1016 (ton / ha ) 2 S = 1.04957 ton/ha.

La desviación estándar permite describir la “Curva de Distribución


Normal”. Si los datos obedecen a una Distribución Normal, al tomar unidades de
desviación estándar a lo largo de las abscisas, con origen en la media, resulta la
superficie de la curva dividida en zonas de áreas bién definidas. Se ha probado
que en las poblaciones distribuidas normalmente, esto es, que cumplan con la
Cruva Normal de Probabilidades, se presentan porcentajes de la población en
intervalos bien definidos, como se señala a continuación:

( - ,  + ) = comprende el 68.26% de los valores de la población.


( - 2,  + 2) = comprende el 95.45% de los valores de la población.
( - 3,  + 3) = comprende el 99.73% de los valores de la población.

39
3 2    2 3

Se considera que al muestrear al azar una población normal, la muestra


sigue la tendencia de una distribución normal, es más aproximada si el número de
datos que comprende es mayor, por lo tanto se dice que tiene la misma tendencia,
pero sin llegar a ser exactamente igual que la distribución normal, y se estima que
al tomar la desviación estándar se cumplen, en froma aproximada, los siguientes
intervalos:

( X  S, X  S) = comprende el 68.26% de los valores de la muestra.


( X  2S , X  2 S ) = comprende el 95.45% de los valores de la muestra.
( X  3S , X  3S ) = comprende el 99.73% de los valores de la muestra.

3S 2S S X S 2S 3S

2.8.5.- Coeficiente de Variabilidad.


La desviación estándar, aún siendo una medida de variación no permite
comparar la variabilidad de dos muestras distintas, ya que no están expresadas
en las mismas unidades que los promedios respectivos. Otra forma de evaluar la
variación es considerar la variación relativa mediante el cálculo del “Coeficiente
de Variación (CV), definido como “La relación entre la desviación estándar y la
media”; se expresa en porcentaje, conforme a la formula:

Muestral Poblacional

40
S 
CV = 100 CV =  100 
X
Es una cantidad usada por los experimentadores para evaluar los
resultados de diferentes experimentos en que intervienen la misma
carácteristica y probablemente llevadso a cabo por diferentes personas.
En general, el valor del CV informa sobre la variación o uniformidad de las
poblaciones o muestras. Como es la razón de dos promedios, el CV es
independiente de la unidad de medida usada,esto es, da igual que se usen yardas o
metros para medir longitud o kilogramos o libras para la unidad de masa.

Ejemplo: Calcular el CV de los datos del cuadro 11.

X = 61.70
S 9.82
S = 09.82 CV = 100  CV = 100 CV = 15.91%
X 61.7

Ejemplo: Calcular el CV de los datos del cuadro 4.

X = 3.45
S 1.04957
S = 1.04975 CV = 100 CV = 100 CV = 30.42%
X 3.45

UNIDAD 3. FUNCIONES DE DISTRIBUCION DE VARIABLES ALEATORIAS


3.1.- Introducción
Con los conceptos de Experimento Aleatorio y Espacio Muestral , se
pueden describir la mayoría de las situaciones en que se conducen experimentos
con el fin de adquirir información sobre un aspecto del mundo real. Aún
especificados el espacio muestral y descrito todos los resultados posibles del
experimento, en ocasiones , el primero no es una forma suficiente breve para
escribir los resultados que nos interesan , ya que éstas pueden ser una parte de
él.
Por lo anterior es importante comprender con claridad el concepto de
variable aleatoria , ya que a través de ella se pueden describir , en forma simple,
los resultados que arroja un experimento ,de tal forma que se pueda obtener la
forma de la distribución que representa, esto para diferentes tipos de variables
aleatorias.

3.2.- Variables Discretas.

41
Una Variable Aleatoria Discreta si “Los valores que asume se pueden
contar”, es decir son valores enteros. Estos valores provienen de un Espacio
Muestral Numerable Finito o Infinito. Las distribuciones de variables aleatorias
discretas reciben también el nombre de Distribución de Conteo.

3.2.1.- Distribución Binomial


La distribución Binomial se establece a partir de la distribución Bernoulli
y suponiendo que se lleva a cabo “n” repeticiones independientes de un
experimento, de manera tal que en cada repetición la probabilidad del evento
éxito (E) es la misma, esto es p = P({E}) permanece constante a lo largo de las “n”
repeticiones del experimento.

La distribución Binomial sirve para determinar la probabilidad de cierto


número de resultados satisfactorios en un número dado de observaciones.
Por lo tanto si la variable aleatoria X se define como el número de éxitos
que se mantienen en “n” repeticiones, entonces si X  n, se dice que X se
distribuye de acuerdo a un modelo probabilístico Binomial si su función de
distribución de probabilidad es:

n
px (1-p)nx si x = 0, 1, 2, ......., n.
Fx (x) = x

O de otra forman n!
Con 0  p  1 y =
X x!(n –x)!

Los parámetros que definen a la distribución Binomial son n y p. Así


mismo, el modelo deriva su nombre del hecho de que es un término de la
exposición Binomial (p + q)n con q = 1 – p. Si x tiene una distribución Binomial con
parámetros n y p, se escribirá como:

X ~ Bin (n, p)

Se lee como “x se distribuye como” o “tiene una distribución”.

42
Para calcular las probabilidades del número de éxitos de un experimento
se puede utilizar tablas ya elaboradas para ello, o en su defecto a través de la
función de probabilidades; estos pueden ser tanto individuales como acumulativas.

Una variable Binomial, X, el número de éxitos en n pruebas


independientes, se puede considerar como una suma de Xi variables de Bernoulli
(X = X1 + X2 + X3 + .......... + Xn), con probabilidades “p” para cada una, entonces:

E(X) 0 np V(X) = npq con q = 1 – p


Ejemplo: Determinar la probabilidad de obtener, exactamente dos soles
en seis lanzamientos de una moneda.

En este caso: Éxito = E = que caiga sol, entonces P({E}) = p = ½ = q


n
n = 6, x = 2  Fx (xi) = pxqn-x.
x

Entonces:
6
6.5.4.3.2.1
Fx (2) = ( ½ )2 ( ½ )6-2 = (1/4)2 ( ½ )4 
2.1.4.3.2
2

Fx(2) = 15(1/4) (1/16)  Fx (2) = 15/64

Ejemplo: Se tiene un hato con cinco becerros en donde la probabilidad de


machos es 70%, obtenga la distribución de probabilidad de esa población,
considerando que se desean seleccionar becerros machos.

Sea X la variable, seleccionar un becerro macho, entonces:


n
p = P(Xi) = pxqn-x .
x

5! 5!
FX(0) = 0!(5  0)! (0.7)0(0.3)5-0 = (0.3)5 = 0.00243
5!

43
5! 5!
FX(1) = 1!(5  1)! (0.7)1(0.3)5-1 = (0.7)(0.3)4 = 0.02835
4!

5! 5!
FX(2) = 2!(5  2)! (0.7)2(0.3)5-2 = (0.7)2(0.3)3 = 0.1323
2!3!

5! 5!
FX(3) = 3!(5  3)! (0.7)3(0.3)5-3 = (0.7)3(0.3)2 = 0.3087
3!2!

5! 5!
FX(4) = 4!(5  4)! (0.7)4(0.3)5-4 = (0.7)4(0.0)5 = 0.36015
4!

5! 5!
FX(5) = 5!(5  5)! (0.7)5(0.3)5-5 = (0.7)5 = 0.16807
5!

X=x 0 1 2 3 4 5
Fx(X) .00243 0.02835 0.1323 0.3087 0.36015 0.16807
Fx(X) .00243 0.03078 0.16308 .047178 0.83193 1.00000

E(X) = np  E(X) = (5)(0.7)  E(X) = 3.5


V(X) = npq  V(X) = (5)(0.7)(0.3) = 1.05
Por lo tanto:
Distribución de probabilidades de becerros en una población en donde la
probabilidad de machos es del 70%.

3.2.2 Distribución de Poisson

Muchos de los hechos no ocurren como resultado de un numero definido de


pruebas de un experimento, sino en puntos de tiempo, espacio o volumen al azar.
Para describir las probabilidades con respecto a un campo o intervalo continuo de
tiempo o espacio, se utiliza la distribución de Poisson, la cual considera un numero
muy grande de repeticiones de un experimento Bernoulli; con probabilidades de
éxito muy pequeñas.
Para usar la distribución de Poisson se debe considerar lo siguiente:

1) La probabilidad de ocurrencia de un evento es la misma a través de todo el


campo de observación.
2) La probabilidad de mas de un acontecimiento en cualquier punto único es
aproximadamente cero.

44
3) El numero de ocurrencias de un evento de cualquier intervalo es independiente
del numero de  ocurrencias en otros intervalos.
Por lo que si X representa una variable aleatoria, cuya distribución se
aproxima a la distribución de probabilidad Poisson, entonces su función de
probabilidad viene dada por:

e  x
si x = 0, 1, 2, ........
x!
Fx(x) =
O de otra forma con e = 2.71828 y  desconocido   0

El parámetro de esta distribución es , que es el número promedio de éxitos por


intervalo. Si X tiene una distribución Poisson con  se escribirá como:
X  P ()

Para una variable aleatoria Poisson X tenemos que:

X  P () entonces E(X) =  = V(X)

Ejemplo: Obtener la probabilidad de encontrar cuatro artículos defectuosos de


una muestra de 300 tomadas de un enorme lote, en el que se dice que hay un 2%
de artículos defectuosos.
En este caso, se puede considerar el problema como un proceso Binomial
(artículos defectuosos y no defectuosos), en éste caso tenemos que:

p = P(X = 1) = 0.02 q= P (X = 0) = 0.98 n = 300 y X = 4.

300
entonces: FX(4) = P (X = 4) = (0.02)4(0.98)296
4
esta operación es muy complicada. Entonces Fx (4) podemos determinarlo
mediante una distribución de Poisson en donde:

e  x
 = 300(0.02) = 6 x=4 F(X) =
x!

45
6 4 e 6
F(4) =  0.135
4!

en donde e = 2.7183 (base de los logaritmos naturales).

La distribución Poisson es una distribución muy asimétrica y se puede


representar por el desarrollo del binomio (p + q)n cuando p es muy pequeña y n es
muy grande. Esta distribución es particularmente aplicable cuando se hacen
pruebas de pureza o de germinación de semillas, cuenta de insectos, de hierbas o
colonias de bacterias, distribución de espacio y tiempo de plagas.

3.3.- Variables continuas.


Para variables aleatorias continuas, los Cuadros Frecuencias y los
Histogramas pueden dar probabilidades aproximada para valores de la variable en
un intervalo.

Por lo tanto se utiliza una expresión apropiada en X o una función de X, la


cual se denomina Función de Densidad de Probabilidad. Se caracterizan por la
Media () y la Varianza (), parámetros más utilizados para describir las
Funciones de Densidad.

Las funciones de densidad de probabilidades que más han ayudado a


describir los fenómenos del mundo real son: Normal, Normal Estándar, 2, ‘t’ de
Student, ‘F’ de Snedecor.

3.3.1.- Distribución Normal.


La Distribución Normal es la más utilizada en la teoría y en la práctica de la
Estadísitca, también se le denomina “Distribución de Gauss o de Laplace”, “Curva
Normal de Probabilidades” o “Curva Normal de Errores”, atribuyéndose a la Leyes
de la Casualidad.

Esta distribución es un modelo adecuado para describir una gran variedad de


situaciones en el mundo real; sirve como base para el desarrollo de técnicas de
inferencias. En Biología, nuevos fenomenos se distribuyen siguiendo este modelo.

La distribución normal es una función de densidad de probabilidades si su función


de densidad es:

46
1 ( X  )2
con - < X < 
2 e 2 2
FX(Xi) =
0 de otra forma

En donde  = Media  = Desviación estándar  = 3.1416


e = 2.7183

La gráfica de una distribución normal se asemeja mucho a una campana,


teniendo la forma siguiente:


FX(X)

 X

La función de distribución normal (acumulativa) de la variable X viene dada


por:

1  ( X  )2
2   e 2 2
dx = 1

El calculo de densidades y probabilidades de variables aleatorias continuas


se realiza más fácilmente con el uso de tablas ya elaboradas para ello.
1).- La gráfica de la distribución se asemeja a una campana, es simétrica y
asintótica sobre el eje de las X. Simétrica con respecto a .
2.- El valor de la media, de la moda y de la mediana coinciden.

3.- Tiene como parámetro a M y I, los cuales son puntos de inflexión de la curva
que representa la distribución. Por ello, una curva se simboliza como:

X ~ (, σ2)

47
Se lee como: La variable aleatoria X se distribuye de acuerdo a la Normal N con
parámetros  y σ2. Por lo que existe una distribución normal diferente para cada
combinación de  y σ2 esto se muestra en la siguiente figura:

FX(X)
1 Dirección de la

2 varianza

creciente
3

4.- Un cambio en el valor de  desplaza toda la distribución normal a la derecha o


izquierda, un cambio en el valor de σ altera la forma dela distribución sin
moverlas; esto representa en las siguientes figuras:

σ σ σ

1 2 3

σ1 = 1

σ2 = 2

σ3 = 3

Con lo anterior se tiene que la distribución normal pertenece a una fanilia
de distribuciones.
5.- El área delimitada por la curva de distribución y el eje de las X es iogual a la
unidad, esto es para cualquier  y σ. Ahora bien, el área delimitada por la curva, el
48
eje X y dos rectas perpendiculares al eje X, que son valores de la variable
aleatoria X, representa la probabilidad de ocurrencia de los valores de la variable
X comprendidos entre los dos valores de X, esto es según la siguiente figura:

Área = A = P (X1 ≤ X ≤ X2)

X1 X2 

Si en la figura de la curva se levantan perpendicularmente a ambos lados de


, con distancias de X = σ o para algunos valores particulares de X, se presentan
las siguientes probabilidades:

-4σ -3σ -2σ -σ  +σ +2σ +3σ +4σ

i) p(-σ≤X≤+σ) = 0.6826 ii) p(-2σ≤X≤+2σ) = 0.9545


iii) p(-σ3≤X≤+3σ) = 0.9973 iv) p(-0.67σ≤X≤+0.67σ) = 0.50
v) p(-1.96σ≤X≤+1.96σ) = 0.95 vi) p(-2.58σ≤X≤+2.58σ) = 0.99

Las expresiones v y vi también se pueden escribir como:


vii) p(-1.96σ≤X≤+1.96σ) = p(±1.96σ≤|X|) = 0.05
viii) p(-2.58σ≤X≤+2.58σ) = p(±2.58σ≤|X|) = 0.01
Como ya se ha mencionado, para el cálculo de las probabilidades de una
variable x, se requerirá la generación de una tabla de valores específica; esto es
generar una tabla para cada par de valores de , y σ. Este proceso resulta muy
complejo, ya que sé incluirá al resolver la integral.

49
Para disminuir el problema del cálculo de probabilidades de una variable X,
es necesario transformar las probabilidades de la Distribución Normal a
probabilidades de un miembro particular de la familia Normal de Densidades.
Esta distribución es la Distribución Normal Estándar.

3.3.2.- Distribución Normal Estándar.


El Problema de trabajar con un grupo ilimitado de distribuciones normales
se puede evitar, si es posible manejar valores relativos en lugar de valores reales.
Equivale a utilizar la media como punto de referencia y la desviación estándar
como una medida de la desviación de dicho punto de referencia.
Resulta de interés calcular probabilidad del tipo P(X >a), P(a≤X≤b), P(X ≤b),
etc, en las curvas normales de probabilidades; sin embargo, integrar la función
fx(X), cuando se tiene valores definidas para  y σ no es fácil.
Por lo anterior usando la técnica de estandarización, cualquier miembro de
la Familia de Normales se puede reducir a un miembro específico, a quien se le
conoce como Función Normal Estándar. Esto es:

X1~ N(1 σ12 )

X2~ N(2 σ22 )

X3 ~ N(3 σ32 )

ESTANDARIZACION Z ~ N(O, 1)

Xn ~ N(n σn2 )

Lo anterior indica que la distribución de variable X se ha transformado a


una Distribución Normal Estándar con  = 0 y  = 1, esto es que ha obtenido otra
escala. Es decir, si un individuo, esta identificado por N(, 2) de la familia
Normal, entonces el cálculo de P(X>a), la distribución se ouede reducir a través
de la eatandarización a una N(0, 1) y poder calcular más fácilmente P(X>a) con el
uso de tablas, graficamente esto es:

 =1

50
P(X>a)ESTANDARIZADO
P(x>a)

N(, 2) N(0, 1)

La variable en la distribución normal estándar es Z y la transformación de


la variable aleatoria X se define como:

X 
T : Z=

Si una variable aleatoria X se distribuye como N(, 2), entonces la


variable aleatoria Z con media 0 y varianza 1 es una variable aleatoria
estandarizada distribuida como N(0, 1), esto es:

X 
Si X ~ N(, 2) Z= ~ N(0, 1).

La distribución normal estándar tiene  = 0 y  = 1, por lo que:


Sea X una variable aleatoria distribuida como N(, 2) y la variable
aleatoria Z distribuida como una N(0, 1), entonces la función de densidad de
probabilidades de Z viene dada por:

1 z2
e 2 con - < Z < 
2
FZ(Z) =
0 de otra forma

La función de distribución normal FX(X) se estandarizatransformando la


variable de X a Z., teniéndose la función de distribución estándar representada
por  (Z) y definida como:

1  z2
 (Z) = 2  
e 2 dz = 1

51
Debidoa que no es fácil calcular esta integral, los valores que se utilizan en
el cálculo de probabilidades se obtiene de las Tablas correspondientes.
La importancia de está distribución estriba en que la probabilidad de que
un valor particular de la variable aleatoria X esté contenida en un intervalo P(a
≤X ≤b) es igual al área bajo la curva en ese intervalo en la función de
densidad.

Si X ~ N(, 2), el cálculo de probabilidades para X, se reduce al cálculo de


probabilidades en la variable aleatoria Z ~ N(0, 1), por:

a b
P(a ≤ X ≤ b) = P( ≤Z≤ ) Además se considera que
 
P(Z) = P(-Z)

Para los siguientes ejemplos, las tablas que se emplean para el cálculo de
probabilidades es la que se considera áreas bajo la curva normal tipificada de 0 a
Zo.

Ejemplo: Dada la variable X que se distingue como N(10, 25) determinar la


probabilidad de que X tenga un valor entre 12 y 15.

Ejemplo: En un estuido de la longitud de la espiga de trigo, se entcontró


que se distribuye como N(9.978, 2.25). Sí se escoge al azar una planta de trigo,
¿Cuál es la rpobabilidad de que su espiga tenga una longitud?:
a).- Entre 9.128 y 9.978 cm
b).- Entre 9.128 y 11.528 cm
c).- Entre 11.028 y 13.028 cm
d).- Mayor de 10.028 cm
e).- Mayor de 10.628 cm

Propiedades:
1).- El origen de la función está en el punto cero.
2).- La función es asintótica en X en su cola derecha.
3).- La función es integrable y como es la normal, el área total bajo la curva
integra a 1, estos también se traduce como valores de probabilística.

3.3.3.- Distribución “t” de Student.

52
Distribución obtenida por William Sealy Grosset, de mayor uso en el
análisis de datos. Es una distribución simétrica con  = 0 y de forma muy
semejante a la normal estándar. Se define con el estadígrafo como:

Y  Y 

t= s y S2
n

Para muestras de distribuciones normales, se conoce universalmente como t


de Student. Como la X2 y t tiene una distribución diferente para cada valor de los
grados de libertad. Por suerte se cuenta con una tabla abreviada, tabla A.3, con
valores de t en vez de probabilidades, en el cuerpo de la tabla. En la parte
superior de la tabla A.3, de las probabilidades para mayores valores de t sin tener
en cuenta el signo. Estas son las que a menudo se llama probabilidades de colas.
Por ejemplo, para una muestra aleatoria de tamaño 16, en la línea de los gl = 16 – 1
= 15 y la columna encabezada por 0.05, encontramos que P(|t| ≥ 2.131) = 0.05. La
tabla A.3 da probabilidades de encontrar valores mayores de t; estas se pueden
llamar probabilidades de una cola. Así, para una muestra aleatoria de
tamaño 16, en la línea para 15 gl y la columna con 0.025 en la parte
inferior, encontramos que P(t ≥ 2.131) = 0.025 = P(t ≤ - 2.131).
La curva de t es simétrica, como se puede deducir por los anteriores
ejemplos. Es un poco más aplanada que la distribución de Z = (Ῡ - μ)/Ῡ situándose
un poco por debajo de Z en el centro y por encima de ella en las dos colas. A
medida que crecen los grados de libertad, la distribución de t se aproxima a la
normal. Esto puede verse luego de un examen de las entradas de la tabla A.3, ya
que la última fila, gl = , es la de una distribución normal, y los valores en toda
columna se acercan evidentemente al valor correspondiente de esta distribución.
Una propiedad importante de t para muestras de poblaciones normales es
que sus componentes, esencialmente Ῡ y s, no se muestran indicios de una
variación conjunta. O sea que si se recolectan muchas muestras del mismo
tamaño, se calculan Ῡ y s y se representan gráficamente los pares de valores
resultantes con Ῡ y s en los ejes, los puntos se dispersan de tal forma que no dan
muestras de relación alguna, tal que grandes medias estén asociadas con
desviaciones estándar grandes. Para una distribución distinta de la normal, se
presenta cierto tipo de relación entre los valores muestrales de Ῡ y s en un
muestreo repetido.

Ejemplo: Encontrar to tal que P(t ≥ to) = 0.025 para 8 grados de libertad; P(t ≥ to)
= 0.01 para 15 grados de libertad; P(t ≥ to) = 0.01 para 15 grados de libertad; P(t ≥
53
to) = 0.10 para 12 grados de libertad; P(- to ≤ t ≤ to) = 0.80 para 22 grados de
libertad.
Ejemplo: Encontrar P(t ≥ 2.6) para 8grados de libertad; P(t ≤ 1.7) para 15 grados
de libertad; P(t ≤ 1.1) para 18 grados de libertad; P(- 1.1 ≤ t ≤ 2.1) para 5 grados
de libertad; P(t ≥ 1.8) para 6 grados de libertad.

3.3.4.- Distribución de Ji Cuadrada (X2)


Ahora se expondrá la distribución X 2 (letra griega, Ji, léase ji cuadrada)
debido a su relación con S2 y la importante distribución t de Student, la
distribución X2, ideada por Karl Pearson es un indicador de variación. Es útil
cuando en un experimento se tienen más de dos categorías de clasificación; así
como en problemas de correlación para variables de conteo. Se define como la
suma de los cuadrados de variables independientes, normalmente distribuidas con
media 0 y varianza 1. Por lo tanto tenemos:

Yi  )
 Zi
2
X2 =  Ç ( i 2

i
i
 i
Es más general de lo que necesitamos actualmente, pues estamos viendo el
muestreo de una sola población con σ constante. Al muestrear una distribución
normal, la cantidad SC = (n – 1)s 2 consiste en la suma de los cuadrados de (n – 1)
desviaciones independientes, se puede demostrar que tales desviaciones tienen
medias cero; la división por la σ común asegura que tenga varianza unitarias.

(n  1) S 2
X2 
2

La distribución X2 depende del número de desviaciones independientes, es decir,


de los grados de libertad. Para cada número de grados de libertad hay una
distribución X2. Algunas curvas de ji cuadrada se presentan en siguiente figura.

2 gl

4 gl
6 gl

54
Obviamente X2 no puede ser negativa, ya que es una suma de números al
cuadrado. Se ve que mientras los máximos se desfasan hacia la izquierda de los
grados de libertad, las curvas tienden a ser más simétricas, al aumentar los
grados de libertad. La media y la varianza de una distribución X2 son los grados de
libertad y dos veces los grados de libertad respectivamente.
Se acostumbra tabular solamente unos cuantos valores de cada una de
muchas curvas. Así, tenemos la tabla A.5, Las probabilidades se dan en la parte
superior de la tabla, los grados de libertad en la columna de la izquierda y los
valores de X2 en el cuerpo de la tabla para las combinaciones dadas de P y gl.

Ejemplo: Encontrar el valor aleatorio de X2 con 15 grados de libertad que sea


excedido con una probabilidad de 0.25, esto es, encontrar X21 tal que P (X2 ≥X21)
= 0.25
Utilice la tabla A.5 para los 15 grados de libertad y lea bajo la columna
encabezada 0.250. Allí X2 = 18.2 y P (X2 ≥18.2) = 0.25
Ejemplo: Encontrar la probabilidad de que se exceda un valor observado X2 = 13.1
con 10 grados de libertad.
Hallar 10 grados de libertad en la tabla A.5 y buscar el número 13.1. El
valor cae entre 12.5 y 16.0, valores de X2 que son excedidos con probabilidades
entre 0.25 y 0.10. Así pues P (X2 ≥13.1) = 0.10.

3.3.4.- Distribución “F”.


Una prueba F es una razón entre dos varianzas y se utiliza para determinar
si dos estimaciones de varianza independientes pueden ser admitidas como
estimaciones de la misma varianza. Esta razón fue denominada F por George W.
Snedecor, en honor del fallecido Ronald A. Fisher, pionero de la utilización de las
estadísticas matemáticas en la agricultura. En el análisis de varianza, la prueba F
se utiliza para verificar la igualdad de medias, o sea, para responder a la
pregunta: ¿es razonablemente posible admitir que las medias del tratamiento
resultaron del muestreo de poblaciones con medias iguales? Esto puede ilustrarse
con una descripción de cómo una porción de la tabla de valores de F podría ser
determinada. Considérese lo siguiente: de una población normalmente distribuida
(Figura Siguiente), extráiganse 5 muestras (m = 5) de un número específico de

55
elementos; 9 por ejemplo (n = 9). Calcúlense las medias de estas 5 muestras ( X
1...... X 5). Estímese σ mediante el cálculo de s para cada muestra:
2 2

9 
 ( X 1i  X ) 2
S12  i 1 S12 S 52
(9  1)
etc., para ...... , Súmense estas estimaciones
;

de σ , para obtener una estimación promedio (combinada): S 2 = ( S1 .+.....+ S 5 ) /5.


2 2 2

Estímese ahora la varianza de las medias (σ x ) de las medias de las 5 muestras:


2

5  2
 i )
( X  X
.
S X2  i 1

(5  1)
A partir de S estímese nuevamente σ2, utilizando la relación S  n S x .
2 2 2

x

Población Muestra 1 n=9 X1
9 
 ( X 1i  X ) 2
S12  i 1

(9  1)
X1 Número de muestras
. obtenidas simultáneamente
. μ =5
.
.
σ2

. Muestra 5 n=9 X5
9  2
 1i )
( X  X
S 52  i 1

(9  1)
Xn

S12  ...........  S 52
S 
2
Varianzas media de las 5 muestras
5

56
5   2
 (Xi  X ) porque S 2x 
S2
S2 = n S x =
2

S 
2
 i 1
n
X
(5  1)
9 S x Varianza obtenida al multiplicar al número de elementos de cada muestra
2

por la varianza media.

S2
F Numerador: Varianza obtenida al multiplicar al número de elementos
S2
de cada muestra por la varianza media.
Denominador: Varianzas media de las 5 muestras.

5  1 4
gl = 5(9  1)  40 La obtención sucesiva de 5 muestras de n = 9, a partir
de una población de elementos (X1........Xn) normalmente distribuida, genera una
distribución F. Cinco por ciento de los valores de F serán 2.61 o mayores.

5%

1 2.61 F
Calculado a partir de las medias de la muestra
F= Calculado por la combinación de las var ianzas de la muestra

Los grados de libertad para el numerador son m - 1 = 4 (donde m es el


número de muestras) y para el denominador m(n - 1) = 5(8) = 40 (donde n es el
número de elementos en cada muestra). Supóngase ahora que este procedimiento
de muestreo se repite hasta que todos los conjuntos posibles de muestras hayan
sido extraídos y registrados, que las frecuencias para obtener valores de F de
diversos tamaños se hayan registrado y que la curva de frecuencia se haya
trazado. F 2.61 es el valor más allá de¡ cual se encuentra el 5% de los valores
calculados. Este es el valor para el nivel de 5% encontrado en una tabla de F para
los grados de libertad 4 y 40 (Tabla A3). Análogamente, los valores F pueden

57
determinarse para otros tamaños de muestra, números de muestras y para otros
niveles de probabilidad (2.5%, 1 %, etc).

Puesto que ambas varianzas de la razón F son estimaciones de la misma


varianza (σ2), ésta se acercará a 1, a menos que se haya extraído un conjunto poco
usual de muestras. La distribución F para el tamaño de muestra que estamos
considerando (m = 5, n = 9) se parecerá al gráfico de la figura anterior. El área
bajo la curva representa la frecuencia de obtención de cualquier valor dado de F.
Para cualquier extracción específica de un conjunto de muestras de m = 5 y n = 9
las probabilidades de que el valor calculado de F sea igual o mayor que 2.61 son de
un 5%. Por otro lado, existe un 95% de probabilidades de que cualquier
extracción dada de tal conjunto de muestras producirá un valor F menor que 2.61.
Nótese que la prueba F es una prueba que persigue la unidad; o sea, no estamos
interesados en la probabilidad de que F sea igual a algún valor menor que 1.

Los anteriores experimentos hipotéticos de muestreo están destinados a mostrar


cómo las distribuciones “t” y “F” pueden obtenerse mediante el muestreo de una
población de elementos normalmente distribuidos. Las tablas de valores de “t“ y
“F” no se determinan mediante estos laboriosos procedimientos de muestreo, sino
que se calculan a partir de precisas y complicadas relaciones matemáticas.

UNIDAD IV. INFERENCIAS ESTADÍSTICA.


4.1.- Concepto general de estimación.-
Dentro de este contexto, será necesario asumir un estadístico o estimador
como una variable aleatoria con una determinada distribución, y que será la pieza
clave en las dos amplias categorías de la inferencia estadística: la estimación y el
contraste de hipótesis.

El concepto de estimador, como herramienta fundamental, lo


caracterizamos mediante una serie de propiedades que nos servirán para elegir el
“mejor" para un determinado parámetro de una población, así como algunos
métodos para la obtención de ellos, tanto en la estimación puntual como por
intervalos.

4.2.- Características de un estimador.


Se sabe que es impráctico estudiar a todos los individuos de una población,
por lo que se recurre al muestreo, esto como base para establecer las relaciones
que existen entre una población y sus muestras, aspecto importante de la
58
Inferencia Estadística. La que pretende resolver dos problemas fundamentales,
como son:
a) La Estimación de Parámetros Poblacionales a partir de los estadísticos
muestrales conocidos, y
b) La Decisión Estadística acerca de Hipótesis establecidas sobre una
población, también con base en el conocimiento de sus muestras.

Dentro del primer problema se enmarca la estimación de la Media y de la


Desviación Estándar poblacionales; esto se realiza con base en los datos de la
muestra. Las estimaciones de las distintas muestras que pueden formarse de una
población, presentaran variaciones originadas en la constitución de cada muestra.
Por lo anterior los estimadores deberán poseer ciertas características
deseables, esto para considerarse como el o los mejores estimadores de los
parámetros. Además, debemos tener presente que la mejor estimación deberá
tener cierta confiabilidad, la cual se establece a partir de la teoría de las
probabilidades.
Es característica, en la generalidad, de la Estadística que sus
procedimientos son inductivos que van de lo particular a lo general; esto es, a
partir de la muestra aleatoria se infiere en las propiedades de la población a que
pertenece esa muestra.
Por lo general se desean conocer los parámetros de una población, lo cual se
hace a través de muestras, con ellas obtenemos ciertos valores denominados
Estimados, los cuales son calculados mediante fórmulas específicas, los
Estimadores, que han sido experimentados y que permiten tener una gran
confiabilidad de los valores que resultan de ellas. Los valores de los estimadores,
tienden a aparecer de acuerdo a ciertas distribuciones llamadas “Distribuciones
Derivadas del Muestreo”. Por lo que en este caso la inducción que se hace con las
características de la muestra es una inferencia que posee cierto grado de
Incertidumbre, lo cual se mide con la probabilidad.
Los estimadores que más frecuentemente se usan son para la Media y la
Desviación Estándar de la Población; el proceso mediante el cual se obtienen los
probables valores de los parámetros a través de los datos muestrales se
denomina Estimación; y es el que permite definir los “Mejores” estimadores que
son de interés; debemos utilizar aquellos estimadores que posean propiedades
que los hagan ser los mejores, tales como:
a) Estimador Insesgado.
b) Estimador Consistente.
c) Estimador Eficiente.

59
d) Estimador Suficiente.

El objetivo de la estimación es conocer el valor de los parámetros con el


mínimo grado de incertidumbre; por lo que hay dos tipos de estimaciones:
a) Estimación Puntual.
b) Estimación por Intervalo.

Existen métodos de estimación que proporcionan estimadores con una o más


características deseables, tales como:
a) Método de Momentos.
b) Método de Máxima Verosimilitud.
c) Método de Mínima Ji-Cuadrada.
d) Método de Mínimos Cuadrados.

De estos métodos el de mínimos cuadrados es el que tiene mayor importancia


en los modelos estadísticos lineales, siendo el más aplicable en todos los procesos
estadísticos.

4.3.- Estimación.
4.3.1.- Estimación puntual.
Una estimación puntual del promedio de la población del ancho de la cápsula
cefálica superior (ACC) de larvas de Chelonus insularis que no emergieron de
larvas de Spodoptera frugiperda con base en los datos de la Tabla 3.1
es  ; esto quiere decir que el promedio de la muestra  estima el
promedio de la población  . La estimación puntual se realiza con un solo valor
obtenido de la muestra, en este caso, el promedio. Cuando se emplea la estimación
puntual es recomendable indicar también el valor de la desviación típica de la
muestra pues de esta manera se tiene una idea de qué tan confiable es el
estimador. Valores bajos de desviación típica indican que los valores muestrales
están distribuidos más cerca del promedio que los de una muestra con desviación
típica más grande.

4.3.2.- Estimación por intervalo.


Esta estimación establece dos valores entre los cuales debe encontrarse el
promedio de la población (parámetro) con una probabilidad dada. Para definir el
intervalo, llamado intervalo de confianza, se emplea la expresión 3.17. Los
intervalos más frecuentemente empleados son el del 95% y el del 99% de

60
confianza; para establecerlos se emplean las expresiones 3.15 y 3.16,
respectivamente.
La estimación por intervalo de este mismo parámetro, empleando la expresión
3.15 es como se indica a continuación, usando los valores correspondientes: (los
valores de t25 gl se toman de la Tabla 3.4).

Tabla 3.4. Distribución de t de Student. Probabilidad de obtener un valor mayor o


igual a t, ignorando el signo.

.
....................................... (3.19)

Este intervalo se interpreta como que el verdadero promedio de la


población está comprendido entre 1,412 mm y 1,488 mm con 5% de duda
(intervalo del 95% de confianza).
Si se desea establecer en intervalo de confianza del 99% (1% de duda) se
debe emplear la expresión 3.16, es decir, será necesario utilizar el
correspondiente valor de t(0,01)(25 gl), tomado de la Tabla 3.4.

.......................................... ..(3.19a)

Así, el promedio de la población está comprendido entre 1,399 mm y 1,501


mm, con 1% de duda o sea, que la probabilidad de que el verdadero promedio de la
población no esté en ese intervalo es del 1% o menos.
COPIAS ENTREGADAS
4.6.- Fundamentos Lógicos de las Pruebas de Hipótesis.
Las hipótesis estadísticas son suposiciones que se hacen acerca de los
parámetros de las poblaciones. Se conocen, en general, dos tipos de hipótesis, las
61
nulas o planteadas y las alternativas. La suposición que se hace del parámetro
antes de realizar el experimento.

4.7.- Hipótesis.
4.7.1.- Hipótesis Nula.
Se conoce como Hipótesis planteada o nula y generalmente se representa
como Hp o H0.

4.7.2.- Hipótesis Alternativa.


Las hipótesis alternativas son las que se pueden dar como ciertas en
el caso de que la hipótesis nula se deseche por ser poco probable que sea
verdadera. Las hipótesis alternativas pueden ser de una o de dos colas y se
representan generalmente con Ha. Las pruebas de hipótesis se hacen para la
hipótesis nula (es decir, es ésta la que se acepta o se rechaza con la prueba de
hipótesis) y pueden ser de una o de dos colas.

4.8.- Error.
4.8.1.- Error Tipo I.
4.8.2.- Error Tipo II.
Al probar un conjunto de tratamientos, el análisis de varianza sirve para probar la
hipótesis nula Ho contra la hipótesis alterna Ha. en donde:
Ho : No hay diferencias entre tratamientos

Ha : Existen diferencias entre tratamientos

La prueba de hipótesis se efectúa a través de una prueba de significancia


estadística, mediante la cual se comprueba si la Ho es “Verdadera” o
es.”Falsa”. teniendo como probabilidades de error los siguientes:

Ho
Decisión Verdadera Falsa
Rechazar la Hipótesis Correcta Error Tipo I (α )
No rechazar la Error Tipo II ( β ) Correcta
hipótesis

Al rechazo de una de las hipótesis verdadera se le llama Error Tipo I y el


nivel de significación es la probabilidad de cometerlo; esto es La probabilidad de

62
aceptar que existe diferencia entre los tratamientos cuando no las hay.
Nivel de significancía = α = p(Error Tipo I)

La elección del nivel de significancía ( α ) está determinado por los costos y


riesgos que implica una decisión incorrecta; cuando estos son muy grandes este
nivel debe ser pequeño.

4.9.- Prueba de Hipótesis.


4.9.1.- Prueba de una cola.
La prueba de una cola se debe emplear cuando al estudiar el promedio de
una característica o tratamiento, se sabe de antemano que una de las hipótesis
alternativas se puede descartar. En casos como este, la hipótesis que se plantea
es Hp: y la alternativa será Ha:   o  . Por ejemplo, tomando el caso
anterior se puede suponer por antecedentes que  puede ser mayor que 1,4 mm
pero que no puede ser menor que este valor. En esta situación, las hipótesis
serán:

Hp: 1,4 mm Ha:  1,4 mm

El procedimiento para poner a prueba la validez de la hipótesis planteada


es similar al indicado para el caso de la prueba de dos colas pero, con la
diferencia en la obtención del valor de la t en la Tabla 3.4, el cual deberá
localizarse con los grados de libertad correspondientes para probabilidades
iguales a 2α, ya que en esta tabla los valores de t están dados para pruebas de
dos colas, con probabilidades igualmente repartidas entre ellas (también hay
tablas para pruebas de una sola cola). Así, si se desea obtener el valor de la t
teórica para un α de 0,05, en la Tabla 3.4 deberá localizarse tal valor bajo la
columna de probabilidades de 0,1.
Entonces, la prueba de hipótesis con un nivel de significancía de 0,05 se
realiza de la siguiente manera:

La comparación de estos valores permiten rechazar la hipótesis nula y por


tanto se puede decir que hay razones estadísticas para afirmar que el promedio
de de la población del ancho de la cápsula cefálica superior (ACC) de larvas de

63
Chelonus insularis que no emergieron de larvas de Spodoptera frugiperda es
mayor que 1,4 mm. (Figura 3.12)

Figura 3.12. Ubicación del valor crítico de t (t) y del valor de tc en la zona
de rechazo de la hipótesis planteada. Prueba de una cola.

Hay que tener presente que la aceptación de la hipótesis planteada (o su no


rechazo) no tiene carácter de prueba y que ésta sólo puede darse como cierta si
repetidamente se llega a tal conclusión con diferentes experimentos.

UNIDAD V. RELACIÓN ENTRE VARIABLES.


5.1.- Regresión Lineal
La regresión lineal es una valiosa herramienta estadística a disposición del
investigador que le permite identificar y estudiar la relación de dependencia
entre dos o más variables, es decir, cuando el comportamiento de una variable
depende del comportamiento de otras con las cuales está asociada, situación, por
demás, frecuente en estudios biológicos.
La regresión entre dos variables puede ser lineal o curvilínea. Es lineal
cuando las variaciones de la variable independiente pueden provocar variaciones
proporcionales en la variable dependiente y su representación es una línea recta.
La regresión curvilínea se da cuando las variaciones de la variable independiente
provocan variaciones no proporcionales en la variable dependiente.

A continuación se presentan algunos comentarios sobre la regresión lineal


simple, es decir, cuando están involucradas sólo dos variables, una llamada
variable dependiente o variable respuesta, y la otra, variable independiente.

La regresión permite estudiar la dependencia de una característica


respecto de otra, para establecer cómo varía el promedio de la primera al variar
la segunda en una unidad de su medida.

64
La variable dependiente se representa usualmente como yi y la variable
independiente como xi. Es claro que para realizar el estudio de la regresión es
necesario disponer y analizar observaciones pareadas de cada una de estas
variables (distribución bivariada normal). El análisis de regresión consta, en
general, de dos partes; la primera se refiere a la estimación del modelo o
ecuación de la recta de regresión y, la segunda, al análisis de varianza de la
regresión, o sea, a verificar la validez o no de la regresión.

5.2.- Estimación del modelo de la recta de regresión.

La ecuación general de la línea recta es ....... ...................................... (3.27)

en donde  es el valor estimado de  (variable dependiente) y  corresponde a


la independiente,  es el intercepto de la recta con el eje Y y,  es la pendiente
de la recta (el coeficiente de regresión). De este modelo se desconocen  y  y
su estimación se realiza mediante la técnica de mínimos cuadrados.
La ecuación de la línea recta también se expresa como:

.................................................. (3.28)
en donde  y  son los promedios de las variables dependiente e independiente.

El valor del coeficiente de regresión  se estima como:

..............(3.29).

El numerador de la expresión 3.29 se conoce como suma de productos xy y


el denominador como suma de cuadrados de x.
Para ilustrar la el procedimiento de estimación del modelo de regresión se
presenta una investigación sobre la evaluación económica de la tolerancia de
variedades de fríjol al lorito verde (Empoasca kraemeri). En la Tabla 3.10 se
presentan los resultados obtenidos para el número promedio de ninfas de E.
kraemeri encontradas por hoja (variable independiente) y el rendimiento de grano

65
en kilogramos por hectárea (variable dependiente) en una variedad de fríjol
tolerante a este insecto y etapas del cálculo.

Tabla 3.10 Promedio por hoja de ninfas de Empoasca kraemeri y rendimiento en grano, en
kilogramos por hectárea, de una variedad tolerante al insecto y etapas del cálculo.
No. Ninfas/hoja (kg/ha)

(xi) (yi)

1 0,85 2210 0,7225 4884100 1878,5

2 0,70 2105 0,4900 4431025 1473,5

3 0,75 2230 0,5625 4972900 1672,5

4 0,80 2245 0,6400 5040025 1796,0

5 0,65 2300 0,4225 5290000 1495,0

6 2,35 1800 5,5225 3240000 4230,0

7 2,50 2010 6,2500 4040100 5025,0

8 2,45 2015 6,0025 4060225 4936,8

9 2,40 2100 5,7600 4410000 5040,0

10 2,55 2110 6,5025 4452100 5380,5

11 1,56 1900 2,4336 3610000 2964,0

12 1,58 1850 2,4964 3422500 2923,0

13 1,65 1970 2,7225 3880900 3250,5

14 1,72 1988 2,9584 3952144 3419,4

15 1,74 2186 3,0276 4778596 3803,6

16 3,38 1656 11,4244 2742336 5597,3

17 3,41 1750 11,6281 3062500 5967,5

18 3,45 1680 11,9025 2822400 5796,0

19 3,49 1800 12,1801 3240000 6282,0

20 3,52 1704 12,3904 2903616 5998,1

21 5,78 1510 33,4084 2280100 8727,8

22 5,76 1500 33,1776 2250000 8640,0

23 5,85 1620 34,2225 2624400 9477,0

24 5,94 1655 35,2836 2739025 9830,7

25 5,92 1800 35,0464 3240000 10656,0

Total 70,75 47694 277,177 92368992 126260,7

66
De acuerdo con la expresión 3.29, el coeficiente de regresión se calcula como.

El coeficiente de regresión se interpreta como que cada ninfa, en


promedio, que se encuentre por hoja provoca una disminución de 113,227
kilogramos de grano de fríjol por hectárea.

5.3.- Características del coeficiente de regresión.


El coeficiente de regresión expresa el número de unidades en que varía Y al
variar X en una unidad de su medida. Si el signo es positivo, al aumentar X
aumenta Y, y al disminuir X disminuye Y; si el signo es negativo, al aumentar X
disminuye Y, y viceversa. Además:
 b1 es una estimación del parámetro 1 de la población respectiva

 b1 mide la pendiente de la línea de regresión. Cuanto más alto es su valor


absoluto, mayor es la pendiente

 Si b1 es positivo, la línea de regresión es ascendente de izquierda a


derecha, y si es negativo, la línea es descendente de izquierda a derecha.

 b1 es el promedio de los incrementos de Y debido a los aumentos unitarios


de X, y - b1 es el promedio de las disminuciones de Y debido a los aumentos
unitarios de X.

 b1 está dado en las unidades de la variable dependiente Y

 b1 indica la regresión de Y sobre X, y también se suele escribir como b 1y.x

5.3.1.- El modelo de regresión y la línea de regresión.


Una vez conocido el coeficiente de regresión se puede estimar el modelo
correspondiente insertando su valor en la expresión 3.28, así:

.................................................. (3.30)

67
Este modelo permite hallar para una infestación dada de ninfas de E. kraemeri
(dentro del rango de valores de la X) la esperanza del rendimiento promedio de
grano de fríjol, en kilogramos por hectárea.
Para trazar la línea de regresión es necesario determinar con el modelo
encontrado dos valores esperados del rendimiento que correspondan a dos
valores de infestación; para esto, es recomendable emplear los valores extremos
observados de la infestación (0,65 y 5,94 ninfas por hoja). La unión de estos dos
puntos con una recta, en un sistema de coordenadas, corresponde a la línea de

regresión: .

Figura 3.14. Línea de regresión del número promedio de ninfas por hoja sobre el
rendimiento promedio de grano de fríjol, en kilogramos por hectárea.
5.3.2.- Características de la línea de regresión.
 La línea de regresión es válida dentro del rango de la variable
independiente.

 Si b1 es positivo, la línea de regresión es ascendente de izquierda a


derecha, y si es negativo, es descendente de izquierda a derecha.

 La línea de regresión pasa por el punto definido por los promedios de las
variables dependiente e independiente 

68
 La suma algebraica de las desviaciones de y con los puntos de la línea de
regresión es cero.

 La suma de los cuadrados de las desviaciones de y con los puntos de la línea


de regresión es menor que la suma de cuadrados de desviaciones con los
puntos de otra línea que se trace.

 La línea de regresión está formada por los promedios móviles de los valores
de y, los que varían de acuerdo con x.

 La línea de regresión corta el eje de las ordenadas a una distancia del


origen igual a b0 de la expresión 3.27.

5.3.3.- Análisis de varianza en la regresión (análisis de regresión).


La variación total de la variable dependiente y tiene dos componentes, uno
debido al error (azar) y el otro debido a la regresión. El análisis de varianza
pretende identificar cuál de esos componentes es el principal responsable de la
variabilidad. Si se logra establecer que las variaciones debidas a la regresión son
más importantes que las causadas por el azar, la regresión será significativa; en
caso contrario, no lo será. Las hipótesis, la que se pone a prueba (hipótesis nula) y
la alterna son:

........................................................................... (3.31)
.......................................................................... (3.32)

En la Tabla 3.11 se presenta la forma de partir la varianza total en sus


componentes y la estructura teórica de cada uno de ellos. La validez de la
hipótesis nula se prueba verificando si la relación (C.M. regresión/C.M. residuo)
pertenece a una distribución 

El cociente entre la suma de cuadrados de la regresión y la suma de


cuadrados total se conoce como coeficiente de determinación ( r2) e indica la
proporción de la variabilidad de la variable dependiente ( y) explicada por la
variabilidad de la variable independiente ( x), es decir, indica qué tanto de la
variabilidad de y se debe a la variabilidad de x.

............................................................ (3.33).

69
Tabla 3.11 Análisis teórico de la varianza en la regresión lineal
Fuentes de Grados de Sumas de cuadrados Cuadrados medios Cuadrados medios esperados
Variación libertad (CME)
(SC) (CM)

Regresión 1

Residuo n-2 Diferencia SC error/(n-2)

Total n-1

En la Tabla 3.12 se presenta el análisis de la varianza para el ejemplo de la


evaluación económica de la tolerancia de variedades de fríjol al lorito verde
(Empoasca kraemeri).

Tabla 3.12 Análisis de la varianza para el ejemplo de la evaluación económica de la


tolerancia de variedades de fríjol al lorito verde ( Empoasca kraemeri).
Fuentes de Grados de Sumas de cuadrados Cuadrados medios Fc
Variación libertad
(SC) (CM)

Regresión 1 986583,8949 986583,8949 57,64 4,28

Residuo 23 393702,6660 17117,5072

Total 24 1380286,5600

La prueba F conduce a rechazar la hipótesis nula, es decir, indica que la


regresión es significativa, o sea, que el rendimiento en grano de la variedad de
fríjol estudiada disminuye al aumentar el número promedio de ninfas por hoja de
E. kraemeri.
El coeficiente de determinación 0,7148, calculado de acuerdo con la
expresión 3.33, indica que el 71,48% de la variabilidad observada en el
rendimiento en grano de fríjol puede explicarse por el promedio de ninfas de E.
kraemeri encontradas en las hojas.
5.3.4.- Predicciones en regresión.
Entre las aplicaciones de la regresión está la predicción de valores de y,
acompañado de el correspondiente intervalo de confianza. Con frecuencia es
difícil, o imposible, obtener valores de y, pero si lo es para valores de x; entonces,

70
se puede emplear el modelo de regresión para obtener los correspondientes
valores de y.
El intervalo de confianza para una predicción se establece mediante:

(3.34)

en donde  es la predicción de y correspondiente a un valor dado de x  y 


es el cuadrado medio del residuo. El valor de tn-2 se localiza en la Tabla 3.4
Para el ejemplo que se está desarrollando, si se desea predecir el
rendimiento de grano de fríjol cuando se encuentren, en promedio, 2 ninfas por
hoja, la predicción, empleando la ecuación de regresión encontrada (expresión
3.30) será:

El intervalo de confianza de 0,95 para dicha predicción está definido por los
siguientes límites de confianza (expresión 3.34):

es decir,
Límite inferior (L1)= 2278,98 kg/ha
Límite superior (L2)= 1724,50 kg/ha.

5.3.5.- Mal empleo de la regresión.


La regresión es un método estadístico empleado con mucha frecuencia y
muchas veces se hace de manera inadecuada. Debe tenerse mucho cuidado al
seleccionar las variables con las que se construirán las ecuaciones de regresión,
así como en la determinación de la forma del modelo, ya que es posible determinar
relaciones estadísticas entre variables que no están relacionadas desde el punto
de vista práctico, como puede ser el caso de relacionar el número de insectos
caídos en un tipo de trampa y el número de automóviles que pasan de 2 a 3 de la
tarde por la entrada del lote de cultivo. La observación de una fuerte relación

71
entre las variables no necesariamente implica la existencia de una relación casual
entre ellas.
Las relaciones de regresión sólo son válidas dentro del rango de valores
observados de la variable independiente pues la credibilidad del modelo disminuye
a medida que se extrapola, es decir, cuando se trata de estimar valores de y para
valores de x que están por fuera de su recorrido. Los modelos de regresión no son
necesariamente válidos para fines de extrapolación.

Bibliográficas

Cardona, César y Cortés, María Luisa. 1991. Evaluación económica de la tolerancia


de variedades de fríjol al lorito verde, Empoasca kraemeri Ross & Moore
(Homoptera: Cicadellidae). En: Revista Colombiana de Entomología. Vol. 17
No. 2, (julio-diciembre, 1991). p 19-23. ISSN-0120-0488.

Cuadros de Chacón, Mary y Vergara Ruiz, Rodrigo. 1993. Estudios básicos sobre la
efectividad insecticida de extractos florales de Calliandra spp (Mimosaceae)
sobre larvas de Spodoptera frugiperda J. E. Smith. Ibagué (Colombia)
Universidad del Tolima, Trabajo de Grado. Escuela de Posgrado. 96 p.

Gómez López, Hernán. 1997. Estadística experimental. Bogotá, Universidad


Nacional de Colombia. 571 p. ISBN-958-628-139-6.

Mario F. Triola. 2004. Estadistica 9ed.. Pearson Educacion de Mexico S.A. de C.V.
ISBN: 9702605199.

Martínez-González, Miguel Ángel, Sánchez Villegas, Almudena; Faulín Fajardo,


Francisco Javier. 2006. Bioestadística amigable. Ediciones Díaz de Santos,
S.A. ISBN 84-7978-791-0.

Medina, María Claudia y otros. 1988. Ciclo e vida y descripción de Chelonus insularis
Cresson (Hymenoptera: Braconidae), parásito de Spodoptera spp. En: Revista
Colombiana de Entomología. Vol. 14, No. 1, (enero-junio, 1988), p. 13-21.
ISSN-0120-0488.

Montgomery D., Peck E. y Vining G. 2001. Introduction to Linear Regression


Analysis. John Wiley and Sons. New York.2001. 3a edition.

Montgomery, Douglas C. y Runger, George C. 1996. Probabilidad y estadística


aplicadas a la ingeniería. México, McGraw-Hill Interamericana, 1996. 896 p.
ISBN-970-10-1017-5

72
Ortegón E., Jaime y otros. 1988. Estudio sobre longevidad, hábitos, progenie y
evaluación preliminar de Meteorus laphygmae (Viereck), parásito de
Spodoptera spp. En: Revista Colombiana de Entomología. Vol. 14 No. 1,
(enero-junio, 1988). p. 7-12. ISSN-0120-0488

Pagano M., Gauverau K. 2001. Fundamentos de Bioestadística, Thomson Learning,


México, D.F. 2ª. Edic.

Reyes C. P. 2004. Bioestadística Aplicada Agronomía Biología Química. Editorial


Trillas, S.A. de C.V. México.
Steel RG, Torrie JH. 1992. Principles and Procedures of Statistics. A Biometrical
Approach. McGraw-Hill, New. York, 357 p

Steel, D.R.A. y Torrie, J.H. 1997. Bioestadística, Principios y Procedimientos. Edit. .


Mc. Graw Hill, México.

Suarez, Hernando y Pereira, Jamilton. 1984. Infestación y daño del Sitophilus


zeamais Motschulsky en diez genotipos de maíz. En: Revista Colombiana de
Entomología. Vol. 19 No. 1 (enero-marzo, 1993). p. 6-9. ISSN-0120-0488.

Triola Mario, F.2004. Tema: Probabilidad Estadística. Editorial: Pearson Prentice


Hall. Edición

ZAR, Jerrold H. Biostatistical analysis. New Jersey, Prentice-Hall, 1984. 718 p. ISBN-
0-13-077925-3.

73

Potrebbero piacerti anche