Sei sulla pagina 1di 204

UNIVERSIDAD PERUANA LOS ANDES

FACULTAD DE INGENIERIA
Especialidad: Ing. Sistemas y Computacin

ESTADSTICA DESCRIPTIVA E
INFERENCIAL

Ing. Dulio Oseda Gago

ESTADSTICA DESCRIPTIVA E INFERENCIAL


Conceptos y Aplicaciones
Autoridades de la Universidad Peruana Los Andes
Rector: Dr. Dimas Fernndes Barrantes
Decano Fac. Ing. Mag. Carlos Snchez Guzmn
Jefe de Dpto. Ing. Rubn Tapia Silguera
Jefe de As. Acad. Ing. Alejandro Ochoa Aliaga
Coord. CP.I.S.C.. Ing. Jowel Cabrera Padilla
Impreso en el Per.
Composicin, diagramacin e impresin:
Asesora y Consultora en Informtica y Sistemas DOSEDAG S.R.L.
Jr. Las Begonias N 168. Urb. San Fernando El Tambo Hyo.
dosedag@hotmail.com
Cel. 964689004
Derechos de Edicin Reservados por A.C.I.S. DOSEDAG S.R.L.
Prohibida la reproduccin total o parcial por cualquier medio de este libro, sin
autorizacin escrita de los autores y editores.
Derechos Reservados conforme a Ley.

A la juventud estudiosa del pas, signo


de renovacin y abnegacin.

Prlogo

Las acciones que acometemos hoy


se basan en un plan de ayer y
las expectativas del maana.

a palabra estadstica se origina, en las tcnicas de recoleccin, organizacin,


conservacin, y tratamiento de los datos propios de un estado, con que los
antiguos gobernantes controlaban sus sbditos y dominios econmicos. Estas
tcnicas evolucionaron a la par con el desarrollo de las matemticas, utilizando sus
herramientas en el proceso del anlisis e interpretacin de la informacin.
Para mediados del siglo XVII en Europa, los juegos de azar eran frecuentes,
aunque sin mayores restricciones legales. El febril jugador De Mer consult al
famoso matemtico y filsofo Blaise Pascal (1623-1662) para que le revelara las
leyes que controlan el juego de los dados, el cual, interesado en el tema, sostuvo
una correspondencia epistolar con el tmido Pierre de Fermat (1601-1665,
funcionario pblico apasionado por las matemticas; clebre porque no publicaba
sus hallazgos) dando origen a la teora de la probabilidad, la cual se ha venido
desarrollando y constituyndose en la base primordial de la estadstica.
En nuestros das, son de uso cotidiano las diferentes tcnicas estadsticas
que partiendo de observaciones muestrales o histricas, crean modelos lgicomatemticos que se "aventuran" describir o pronosticar un determinado fenmeno
con cierto grado de certidumbre medible.
El presente texto no pretende teorizar el saber estadstico, desde luego, no
es un libro para estadsticos, ya que, adrede se obvia el rigor cientfico de lo
expuesto en beneficio de la sencillez necesaria para el nefito; con un lenguaje
coloquial se conduce al lector a travs del contenido, a partir de dos o tres
ejemplos que ilustran la aplicabilidad de los temas tratados.

El avance tecnolgico en la informtica ha contribuido enormemente al


desarrollo de la estadstica, sobre todo en la manipulacin de la informacin, pues
en el mercado existen paquetes estadsticos de excelente calidad, como el SAS,
SPSS, SCA, STATGRAPHICS, amn de otros, que "corren" en un ordenador sin
mayores exigencias tcnicas, permitiendo el manejo de grandes volmenes de
informacin y de variables.
La estadstica, entonces, dej de ser una tcnica exclusiva de los estados,
para convertirse en una herramienta imprescindible de todas las ciencias, de donde
proviene la desconcertante des-uniformidad en las definiciones de los diferentes
autores, ya que cada estudioso la define de acuerdo con lo que utiliza de ella y
tenemos definiciones como que: la estadstica es la tecnologa del mtodo
cientfico, o que es el conocimiento relacionado con la toma de decisiones en
condiciones de incertidumbre, o que la estadstica son mtodos para obtener
conclusiones a partir de los resultados de los experimentos o procesos, o que es un
mtodo para describir o medir las propiedades de una poblacin. En fin, no se trata
de discutir si la estadstica es una ciencia, una tcnica o una herramienta, sino de
la utilizacin de sus mtodos en provecho de la evolucin del conocimiento.
La estadstica hace inferencias sobre una poblacin, partiendo de una
muestra representativa de ella. Es a partir del proceso del diseo y toma de la
muestra desde donde comienzan a definirse las bondades y confiabilidad de
nuestras aseveraciones, hechas, preferentemente, con un mnimo costo y mnimo
error posible.
El Autor

ndice
Pgs.
Dedicatoria
Prlogo
ndice

ESTADSTICA DESCRIPTIVA E INFERENCIAL


Captulo 1: Generalidades de la Estadstica
1.1. Introduccin............................................................................................................
1.2. Importancia............................................................................................................
1.3. Para que sirve la Estadstica? .........................................................................
1.4. Definicin................................................................................................................
1.5. Divisin....................................................................................................................
1.6. La Estadstica y Informtica.............................................................................
1.7. Mienten las Estadsticas? ................................................................................
Captulo 2: Etapas del Mtodo Estadstico
2.1. Planteamiento del Problema................................................................................
2.2. Fijacin de los Objetivos...................................................................................
2.3. Formulacin de la Hiptesis...............................................................................
2.4. Definicin de la unidad de observacin y de la unidad de medida............
2.5. Determinacin de la poblacin y de la muestra............................................
2.6. La recoleccin.......................................................................................................
2.7. Crtica, clasificacin y ordenacin....................................................................
2.8. Tabulacin..............................................................................................................
2.9. Presentacin..........................................................................................................
2.10 Anlisis..................................................................................................................
2.11 Publicacin.............................................................................................................
Practiquemos N 1........................................................................................................
Captulo 3: Distribucin de Frecuencias
3.1. Distribucin de Frecuencias Simple..................................................................
Practiquemos N 2.........................................................................................................
3.2. Distribucin de Frecuencias por Intervalos...................................................
3.3. Reglas empricas para la construccin de intervalos....................................
Practiquemos N 3.........................................................................................................

09
10
11
13
13
14
15
18
18
18
18
19
20
20
21
21
21
21
22
23
28
31
32
36

Captulo 4: Representacin Grfica


4.1. Definicin.................................................................................................................
4.2. Componentes de una grfica...............................................................................
4.3. Principales tipos de grficos..............................................................................
Practiquemos N 04.....................................................................................................
Captulo 5: Medidas de Tendencia Central
5.1. Media Aritmtica...................................................................................................
5.2. Mediana....................................................................................................................
5.3. Moda.........................................................................................................................
Practiquemos N 5........................................................................................................
Captulo 6: Medidas de Posicin
6.1. Cuartiles..................................................................................................................
6.2. Quintiles.................................................................................................................
6.3. Deciles.....................................................................................................................
6.4. Centiles...................................................................................................................
6.5. Resumen..................................................................................................................
Practiquemos N 6........................................................................................................
Captulo 7: Medidas de Dispersin
7.1. Rango o Recorrido..................................................................................................
7.2. Desviacin Media...................................................................................................
7.3. Varianza y Desviacin Tpica o Estndar.........................................................
7.4. Coeficiente de Variabilidad................................................................................
Practiquemos N 7........................................................................................................
Captulo 8: Regresin y Correlacin Lineal
8.1. Tablas de Doble Entrada......................................................................................
8.2. Correlacin..............................................................................................................
8.3. Regresin Lineal....................................................................................................
Practiquemos N 8........................................................................................................
Captulo 9: Tasas e ndices
9.1. Tasa...........................................................................................................................
9.2. ndice.......................................................................................................................
Practiquemos N 9........................................................................................................
Captulo 10: Introduccin a la Teora de Probabilidades
10.1. Nociones de Conteo.............................................................................................
Practiquemos N 10......................................................................................................
10.2. Definicin de Probabilidad...............................................................................
10.3. Axiomas de la Teora de Probabilidades.......................................................
10.4. Probabilidad Condicional e Independencia Estadstica.............................
Practiquemos N 11......................................................................................................
10.5. Variable Aleatoria..............................................................................................
10.6. Funcin de Probabilidad....................................................................................

38
38
41
47
50
60
63
65
66
68
69
69
69
70
73
73
74
76
77
78
81
87
100
101
103
108
116
119
120
121
123
124
124
126

Practiquemos N 12.......................................................................................................
10.7. Valor Esperado (Esperanza Matemtica)......................................................
Practiquemos N 13......................................................................................................
Captulo 11: Distribuciones Especiales
11.1. Distribucin de Bernoulli....................................................................................
11.2. Distribucin Binomial..........................................................................................
11.3. Distribucin de Poisson......................................................................................
11.4. Distribucin Normal............................................................................................
11.5. Distribucin Normal Estandar..........................................................................
11.6. Distribucin Exponencial...................................................................................
Practiquemos N 14......................................................................................................
Captulo 12: Teora de Muestras
12.1. Tipos de Muestreos.............................................................................................
12.2. Muestreos Aleatorios........................................................................................
12.3. Toma de Datos: la encuesta.............................................................................
12.4. Teorema Central del Lmite.............................................................................
Practiquemos N 15......................................................................................................
Captulo 13: Las Tcnicas de Estimacin
13.1. Estimacin..............................................................................................................
13.2. Estimacin de la Media de una Poblacin.......................................................
13.3. Estimacin de la Muestra Proporcin.............................................................
13.4. Estimacin de una Proporcin...........................................................................
13.5. Distribucin Muestral de Proporciones.........................................................
13.6. Estimacin de una Proporcin..........................................................................
13.7. Tamao de la Muestra.......................................................................................
Practiquemos N 16......................................................................................................
Captulo 14: Test y Pruebas de Hiptesis
14.1. Elementos de los Test de Hiptesis................................................................
14.2. Pruebas de Hiptesis.........................................................................................
14.3. Dcima de una muestra de Kolmogorov-Smirnov.........................................
Glosario de Trminos
Referencias
libros
pginas web
Anexos
Anexo N 1: Tabla de la Distribucin Normal
Anexo N 2: Tabla de 500 Nmeros Generados Aleatoriamente
Anexo N 3: Contraste de Hiptesis a partir del p-valor
Anexo N 4. Error de Tipo II Clculo
Anexo N 5. Gua para Elaborar una Tesis

129
130
131
132
133
144
146
148
152
152
155
155
157
158
162
164
165
167
167
168
170
171
172
178
183
184

Anexo N 6: Registro de la Informacin. Modelos de Fichas

ESTADSTICA DESCRIPTIVA E INFERENCIAL

Captulo 1
Generalidades de la Estadstica
************************************

"El poder se nutre de la informacin y el conocimiento".


1.1. INTRODUCCION:

Desde los comienzos de la civilizacin han existido formas sencillas de


estadsticas, pues ya se utilizaban representaciones grficas y otros smbolos en
pieles, rocas, palos de madera y paredes de cuevas para contar el nmero de
personas, animales o ciertas cosas. Hacia el ao 3000 A.C. los babilonios usaban ya
pequeas tablillas de arcilla para recopilar datos en tablas sobre la produccin
agrcola y de los gneros vendidos o cambiados mediante trueque. Los egipcios
analizaban los datos de la poblacin y la renta del pas mucho antes de construir las
pirmides en el siglo XXXI a.C. Los libros bblicos de Nmeros y Crnicas incluyen,
en algunas partes, trabajos de estadstica. El primero contiene dos censos de la
poblacin de Israel y el segundo describe el bienestar material de las diversas
tribus judas. En China existan registros numricos similares con anterioridad al
ao 2000 A.C. Los griegos clsicos realizaban censos cuya informacin se utilizaba
hacia el ao 594 A.C. para cobrar impuestos.

El Imperio romano fue el primer gobierno que recopil una gran cantidad de
datos sobre la poblacin, superficie y renta de todos los territorios bajo su
control. Durante la edad media slo se realizaron algunos censos exhaustivos en
Europa. Los reyes carolingios Pipino el Breve y Carlomagno ordenaron hacer
estudios minuciosos de las propiedades de la Iglesia en los aos 758 y 762
respectivamente.
Despus de la conquista normanda de Inglaterra en 1066, el rey Guillermo I
de Inglaterra encarg un censo. La informacin obtenida con este censo, llevado a
cabo en 1086, se recoge en el Domesday Book. El registro de nacimientos y
defunciones comenz en Inglaterra a principios del siglo XVI, y en 1662 apareci el
primer estudio estadstico notable de poblacin, titulado Observations on the
London Bills of Mortality (Comentarios sobre las partidas de defuncin en
Londres).
Un estudio similar sobre la tasa de mortalidad en la ciudad de Breslau, en
Alemania, realizado en 1691, fue utilizado por el astrnomo ingls Edmund Halley
como base para la primera tabla de mortalidad. En el siglo XIX, con la
generalizacin del mtodo cientfico para estudiar todos los fenmenos de las
ciencias naturales y sociales, los investigadores aceptaron la necesidad de reducir
la informacin a valores numricos para evitar la ambigedad de las descripciones
verbales.
En nuestros das, la estadstica se ha convertido en un mtodo efectivo para
describir con exactitud los valores de los datos econmicos, polticos, sociales,
educativos, psicolgicos, biolgicos y fsicos, y sirve como herramienta para
relacionar y analizar dichos datos. El trabajo del experto estadstico no consiste
ya slo en reunir y tabular los datos, sino sobre todo el proceso de interpretacin
de esa informacin. El desarrollo de la teora de la probabilidad ha aumentado el
alcance de las aplicaciones de la estadstica. Muchos conjuntos de datos se pueden
aproximar, con gran exactitud, utilizando determinadas distribuciones
probabilsticas; los resultados de stas se pueden utilizar para analizar datos
estadsticos. La probabilidad es til para comprobar la fiabilidad de las inferencias
estadsticas y para predecir el tipo y la cantidad de datos necesarios en un
determinado estudio estadstico.
1.2. IMPORTANCIA:
En las ltimas dcadas la estadstica ha alcanzado un alto grado de
desarrollo, hasta el punto de incursionar en la totalidad de las ciencias; inclusive,
en la lingstica se aplican tcnicas estadsticas para esclarecer la paternidad de
un escrito o los caracteres ms relevantes de un idioma.

La estadstica es una ciencia auxiliar para todas las ramas del saber; su
utilidad se entiende mejor si tenemos en cuenta que los quehaceres y decisiones
diarias embargan cierto grado de incertidumbre... y la Estadstica ayuda en la
incertidumbre, trabaja con ella y nos orienta para tomar las decisiones con un
determinado grado de confianza.
Los crticos de la estadstica afirman que a travs de ella es posible probar
cualquier cosa, lo cual es un concepto profano que se deriva de la ignorancia en
este campo y de lo polifactico de los mtodos estadsticos. Sin embargo muchos
"investigadores" tendenciosos han cometido abusos con la estadstica, elaborando
"investigaciones" de intencin, teniendo previamente los resultados que les
interesan mostrar a personas ingenuas y desconocedoras de los hechos. Otros, por
ignorancia o negligencia, abusan de la estadstica utilizando modelos inapropiados o
razonamientos ilgicos y errneos que conducen al rotundo fracaso de sus
investigaciones.
Lincoln L. Chao hace referencia a uno de los ms estruendosos fracasos,
debido a los abusos en la toma de una muestra: Se trata del error cometido por la
Literary Digest que, en sus pronsticos para las elecciones presidenciales en
EE.UU. para 1936, afirm que Franklin D. Roosvelt obtendra 161 votos electorales
y Alfred Landon, 370. La realidad mostr a Roosvelt con 523 votos y a Landon con
8 solamente. El error se debi a que la muestra fue tomada telefnicamente a
partir de la lista de suscriptores de la Digest y, en 1936, las personas que se daban
el lujo de tener telfonos y suscripciones a revistas no configuraban una muestra
representativa de los votantes de EE.UU. y, por ende, no poda hacerse un
pronstico confiable con tan sesgada informacin.
1.3. PARA QUE SIRVE LA ESTADISTICA?
La Estadstica puede dar respuesta a muchas de las necesidades que la
sociedad actual nos plantea. Su tarea fundamental es la reduccin de datos, con el
objetivo de representar la realidad y transformarla, predecir su futuro o
simplemente conocerla.

La Estadstica responde a las necesidades blicas y fiscales de los


gobernantes. Esto se puede conseguir con un conocimiento claro de la poblacin
con la que se cuenta. La herramienta para conseguirlo es el CENSO DE
POBLACIN y su hermano pequeo, el PADRN MUNICIPAL DE HABITANTES.
La prctica del recuento de la poblacin y de algunas caractersticas de esta por
los Estados es muy antigua (se remonta a 3000 aos antes de Cristo en Egipto y
Mesopotamia). En palabras de Bielfed, la Estadstica es la ciencia que nos ensea el

ordenamiento poltico de todos los estados del mundo conocido , es decir, est al
servicio del Estado, de hecho, la palabra Estadstica deriva de Estado.
La Estadstica responde a la actividad planificadora de la sociedad . Con
la Revolucin Industrial aparecen nuevos problemas, sobre todo de desigualdades
sociales. La Estadstica es un instrumento para identificar estas injusticias y para
producir informacin en el llamado Estado del Bienestar.
La Estadstica responde a nuevas demandas sociales. Para realizar
investigaciones exhaustivas sobre temas sociales surgen tres problemas bsicos a
la hora del trabajo de campo, como el tiempo que tardaramos en entrevistar a
toda la poblacin y el costo econmico y de personal de estas entrevistas. Con las
tcnicas de MUESTREO se consigue hacer buenas investigaciones sobre una
pequea parte de esa poblacin, obteniendo resultados vlidos para toda ella.
La Estadstica responde a las necesidades del desarrollo cientfico y
tecnolgico de la sociedad. Tras la Revolucin Industrial se produce un desarrollo
de la sociedad en todos sus mbitos y, en particular, en el Cientfico y Tecnolgico.
Las Comunicaciones, la Industria, la Agricultura, la Salud... se desarrollan
rpidamente y se exige el mximo rendimiento y la mejor utilizacin de estos
sectores.
Las tcnicas de Investigacin de Mercados permiten saber si un producto
cualquiera ser bien acogido en el mercado antes de su salida a este, o bien medir
la audiencia en Televisin y Radio.
El Control de Calidad permite medir las caractersticas de la calidad de un
producto, compararlas con ciertos requisitos y tomar decisiones correctivas si hay
diferencias entre el funcionamiento real y el esperado. Con estudios estadsticos
aplicados a la Agricultura y a la Pesca podemos estimar los rendimientos obtenidos
en una cosecha, o encontrar bancos de peces...
En Medicina e Investigacin farmacolgica es imprescindible la Estadstica,
probando nuevos tratamientos en grupos de pacientes o bien, obteniendo
conclusiones sobre ciertas enfermedades observando durante un tiempo un grupo
de pacientes (saber si para el tratamiento de cierto tipo de cncer es ms efectiva
la ciruga, la radioterapia o la quimioterapia, sin ms que observar un grupo de
pacientes tratados con estas tcnicas).
Con el estudio de los Procesos Estocsticos se puede tener una mejor
comprensin de fenmenos de comportamiento aleatorio como meteorologa, fsica
nuclear, campaas de seguridad...

1.4. DEFINICIN:
Qu entendemos cmo Estadstica?. Estadstica, deriva del latn status,
que significa estado, posicin o situacin. Por estadstica entendemos la coleccin
de los datos que caracterizan las condiciones predominantes en el estado: por
ejemplo, el nmero de nacimientos y muertes, las cosechas, el comercio exterior,
etc. Por estadsticas oficiales entendemos los datos publicados por las agencias del
gobierno en forma de informacin o de prospectos. Cuerpo de conocimientos
basados en una teora propia. Ciencia que estudia conjuntos de datos cualitativos y
su interpretacin en trminos matemticos, estableciendo mtodos para la
obtencin de las medidas que lo describen, as como para el anlisis de las
conclusiones, con especial referencia a la teora de la probabilidad, considerada
tambin como ciencia de base matemtica para la toma de decisiones en presencia
de la incertidumbre. Indica una medida o frmula especial, tal como un promedio,
un nmero ndice o un coeficiente de correlacin, calculado sobre la base de los
datos. Considerada tambin como un suministro de un conjunto de herramientas
sumamente tiles en la investigacin. Adems es un conjunto de tcnicas que,
partiendo de la observacin de fenmenos, permiten al investigador obtener
conclusiones tiles sobre ellos.

A manera de sntesis, podemos afirmar que la estadstica es una rama


de las matemticas que se ocupa de reunir, organizar y analizar datos
numricos y que ayuda a resolver problemas como el diseo de experimentos y
la toma de decisiones.
1.5. DIVISIN:
La estadstica se divide en dos grandes ramas de estudio que son: La
Estadstica Descriptiva, la cual se encarga de la recoleccin, clasificacin y
descripcin de datos muestrales o poblacionales, para su interpretacin y anlisis;
y la Estadstica Inferencial, que desarrolla modelos tericos que se ajusten a una
determinada realidad con cierto grado de confianza.
Estas dos ramas no son independientes; por el contrario, son
complementarias y entre ambas dan la suficiente ilustracin sobre una posible
realidad futura, con el fin de que quien tenga poder de decisin, tome las medidas
necesarias para transformar ese futuro o para mantener las condiciones
existentes.

1.6. LA ESTADSTICA Y INFORMATICA


Si leemos un peridico dominical o una revista tendremos ante nosotros ms
informacin que toda la que era capaz de obtener un ciudadano normal del siglo
XVII en toda su vida. En concreto, en los ltimos diez aos se ha generado ms
informacin que en todos los aos anteriores.
La sociedad tiene la necesidad de conocer toda esta informacin, y de
acceder a ella de la forma ms resumida posible. La Estadstica es capaz de
condensar la informacin de todos los hogares peruanos en la Encuesta de
Presupuestos Familiares obteniendo, por ejemplo, todos los pagos realizados al da
durante la semana de observacin. Sin duda alguna, la cantidad de datos que esto
genera es impresionante.
Con el avance de la Informtica y la vinculacin de esta a la Estadstica se ha
conseguido manejar de manera rpida, fiable y relativamente sencilla estos
volmenes de informacin, y obtener conclusiones que despus el profesional
interpreta.
Algunos de los paquetes estadsticos ms importantes y utilizados son:
GENSTAT: Planificacin, visualizacin, gestin de datos, anlisis estadstico,
grficos y presentacin de resultados.
ARIMA: Diseo de Experimentos.
SAS: Planificacin, visualizacin, gestin de datos, anlisis estadstico, grficos
y presentacin de resultados. Usa un avanzado lenguaje de programacin.
SPSS:Gestin de datos, anlisis estadstico, grficos y presentacin de
resultados. Puede calcular el tamao muestral de una investigacin.
STATISTICA: Planificacin, visualizacin, gestin de datos, anlisis estadstico,
grficos y presentacin de resultados. Alto rendimiento, aplicaciones flexibles.
STATGRAPHICS: Paquete de anlisis interactivo y sistema grfico desarrollado
en APL, esencial en la enseanza.
1.7. MIENTEN LAS ESTADSTICAS?
Cuando a travs de una muestra pretendemos obtener informacin de una
poblacin entera los datos obtenidos pueden ser diferentes a los reales. Son
valores aproximados del parmetro desconocido. A estos valores se les llama
Estimaciones.

Al dar una estimacin estoy cometiendo un error llamado error de muestreo


debido a que no estoy considerando a toda la poblacin, sino a una parte de ella.
Existen procedimientos que pueden determinar de antemano el error que puedo
cometer.
Aparte de estos, existen otros errores que se presentan tanto en encuestas
por muestreo como en las encuestas por censo. Este tipo de errores son mayores y
de difcil correccin. Son errores ajenos al muestreo. Se dividen en:

Errores de observacin: Debidos a la recogida, registro o procesamiento


incorrecto de los datos. Pueden ser de sobrecobertura, cuando el listado de
entrevistados contiene unidades que no pertenecen a la muestra investigada, de
medida, que son la diferencia entre el valor observado y el verdadero, y errores de
procesamiento, debidos a los errores de entrada de datos, edicin, tabulacin y
anlisis.
Errores no de observacin: No es posible obtener la informacin deseada para
ciertos individuos de la poblacin. Estos son errores de cobertura, cuando hay una
parte de la poblacin que no est en el listado, errores de falta de respuesta por
parte del entrevistado.
Este tipo de errores hay que tratar de resolverlos. Para mejorar el
resultado de la encuesta la poblacin puede dividirse en subpoblaciones para
trabajar sobre ellas.
Otra manera de disminuir el error es escoger una muestra mayor y llegar a
un trmino medio entre el error mximo admisible para la encuesta y el tamao
muestral.
Pero el principal problema de las encuestas es la falta de respuesta por
parte del entrevistado. Suelen ser personas que se consideran acosadas para que
proporcionen informacin de su entorno social y de sus actividades. Esto produce
un rechazo a responder cuestiones sobre las que en la mayora de los casos se
desconoce su utilidad.
Para solventar estos problemas debe contarse con la formacin de los
entrevistadores, conociendo estos perfectamente el tema que estn tratando y
estar preparados para responder cualquier cuestin sobre el tema que puede
plantear el entrevistado.
La formulacin de las preguntas debe ser clara, poco influenciables y
cmodas para los entrevistados. En temas polmicos como el consumo de drogas o

las afinidades polticas, el entrevistado suele ser reacio a contestar. De manera


sugestiva hay que formular ese tipo de preguntas para que el entrevistado no se
vea comprometido ni violento con su contenido.
Por ltimo, decir que hay otros tipos de falta de respuesta en una encuesta
debidos a situaciones como:

Ausencia temporal del individuo seleccionado para entrevistar (los no en


casa).
Negativa absoluta a colaborar (los hueso duro)
Falta de conocimientos del entrevistado o incapacidad del entrevistador
para explicar el contenido de la respuesta.
Prdida involuntaria de la informacin.
No cubrimiento debido a condiciones ambientales, escasa facilidad de
transporte...

Captulo 2
Etapas del Mtodo Estadstico
***********************************
El mtodo estadstico, parte de la observacin de un fenmeno, y como no
puede siempre mantener las mismas condiciones predeterminadas o a voluntad del
investigador, deja que acten libremente, pero se registran las diferentes
observaciones y se analizan sus variaciones.
Para el planeamiento de una investigacin, por norma general, se siguen las
siguientes etapas:
2.1. Planteamiento del problema.
2.2. Fijacin de los objetivos.
2.3. Formulacin de la hiptesis.
2.4. Definicin de la unidad de observacin y de la unidad de medida.
2.5. Determinacin de la poblacin y de la muestra.
2.6. La recoleccin.
2.7. Crtica, clasificacin y ordenacin.
2.8. Tabulacin.
2.9. Presentacin.
2.10 Anlisis.
2.11 Publicacin.

2.1. PLANTEAMIENTO DEL PROBLEMA


Al abordar una investigacin se debe tener bien definido qu se va a
investigar y por qu se pretende estudiar algo. Es decir, se debe establecer una
delimitacin clara, concreta e inteligible sobre el o los fenmenos que se pretenden
estudiar, para lo cual se deben tener en cuenta, entre otras cosas, la revisin
bibliogrfica del tema, para ver su accesibilidad y consultar los resultados
obtenidos por investigaciones similares, someter nuestras proposiciones bsicas a
un anlisis lgico; es decir, se debe hacer una ubicacin histrica y terica del
problema.
2.2. FIJACIN DE LOS OBJETIVOS
Luego de tener claro lo que se pretende investigar, Debemos presupuestar
hasta dnde queremos llegar; en otras palabras, debemos fijar cuales son nuestras
metas y objetivos. Estos deben plantearse de tal forma que no haya lugar a
confusiones o ambigedades y debe, adems, establecerse diferenciacin entre lo
de corto, mediano y largo plazo, as como entre los objetivos generales y los
especficos.
2.3. FORMULACIN DE LAS HIPTESIS
Una hiptesis es ante todo, una explicacin provisional de los hechos objeto
de estudio, y su formulacin depende del conocimiento que el investigador posea
sobre la poblacin investigada. Una hiptesis estadstica debe ser susceptible de
docimar, esto es, debe poderse probar para su aceptacin o rechazo.
Una hiptesis que se formula acerca de un parmetro (media, proporcin,
varianza, etc.), con el propsito de rechazarla, se llama Hiptesis de Nulidad y se
representa por Ho; a su hiptesis contraria se le llama Hiptesis Alternativa (H1).
2.4. DEFINICIN DE LA UNIDAD DE OBSERVACIN Y DE LA UNIDAD DE
MEDIDA
La Unidad de Observacin, entendida como cada uno de los elementos
constituyentes de la poblacin estudiada, debe definirse previamente, resaltando
todas sus caractersticas; pues, al fin de cuentas, es a ellas a las que se les har la
medicin.
La unidad de observacin puede estar constituida por uno o varios individuos u
objetos y denominarse respectivamente simple o compleja.

El criterio sobre la unidad de medicin debe ser previamente definido y


unificado por todo el equipo de investigacin. Si se trata de medidas de longitud,
volumen, peso, etc., debe establecerse bajo qu unidad se tomarn las
observaciones ya sea en metros, pulgadas, libras, kilogramos, etc.
Asociado a la unidad de medida, deben establecerse los criterios sobre las
condiciones en las cuales se ha de efectuar la toma de la informacin.
2.5. DETERMINACIN DE LA POBLACIN Y DE LA MUESTRA
Estadsticamente, la poblacin se define como un conjunto de individuos o
de objetos que poseen una o varias caractersticas comunes. No se refiere esta
definicin nicamente a los seres vivientes; una poblacin puede estar constituida
por los habitantes de un pas o por los peces de un estanque, as como por los
establecimientos comerciales de un barrio o las unidades de vivienda de una ciudad.
Existen desde el punto de vista de su manejabilidad poblaciones finitas e
infinitas. Aqu el trmino infinito no est siendo tomado con el rigor semntico de
la palabra; por ejemplo, los peces dentro de un estanque son un conjunto finito; sin
embargo, en trminos estadsticos, puede ser considerado como infinito.

Muestra es un subconjunto de la poblacin a la cual se le efecta la medicin


con el fin de estudiar las propiedades del conjunto del cual es obtenida.
En la prctica, estudiar todos y cada uno de los elementos que conforman la
poblacin no es aconsejable, ya sea por la poca disponibilidad de recursos, por la
homogeneidad de sus elementos, porque a veces es necesario destruir lo que se
est midiendo, por ser demasiado grande el nmero de sus componentes o no se
pueden controlar; por eso se recurre al anlisis de los elementos de una muestra
con el fin de hacer inferencias respecto al total de la poblacin. Existen diversos
mtodos para calcular el tamao de la muestra y tambin para tomar los elementos
que la conforman, pero no es el objetivo de este curso estudiarlos. Diremos
solamente que la muestra debe ser representativa de la poblacin y sus elementos
escogidos al azar para asegurar la objetividad de la investigacin.
2.6. LA RECOLECCIN
Una de las etapas ms importantes de la investigacin es la recoleccin de la
informacin, la cual ha de partir, a menos que se tenga experiencia con muestras
anlogas, de una o varias muestras piloto en las cuales se pondrn a prueba los
cuestionarios y se obtendr una aproximacin de la variabilidad de la poblacin, con

el fin de calcular el tamao exacto de la muestra que conduzca a una estimacin de


los parmetros con la precisin establecida.
El establecimiento de las fuentes y cauces de informacin, as como la
cantidad y complejidad de las preguntas, de acuerdo con los objetivos de la
investigacin son decisiones que se han de tomar teniendo en cuenta la
disponibilidad de los recursos financieros, humanos y de tiempo y las limitaciones
que se tengan en la zona geogrfica, el grado de desarrollo, la ausencia de tcnica,
etc.
Es, entonces, descubrir dnde est la informacin y cmo y a qu "costo" se
puede conseguir; es determinar si la encuesta se debe aplicar por telfono, por
correo, o si se necesitan agentes directos que recojan la informacin; establecer
su nmero ptimo y preparar su entrenamiento adecuado.
2.7. CRITICA, CLASIFICACIN Y ORDENACIN
Despus de haber reunido toda la informacin pertinente, se necesita la
depuracin de los datos recogidos. Para hacer la crtica de una informacin, es
fundamental el conocimiento de la poblacin por parte de quien depura para poder
detectar falsedades en las respuestas, incomprensin a las preguntas, respuestas
al margen, amn de todas las posibles causas de nulidad de una pregunta o nulidad
de todo un cuestionario.
Separado el material de "desecho" con la informacin depurada se procede a
establecer las clasificaciones respectivas y con la ayuda de hojas de trabajo, en
las que se establecen los cruces necesarios entre las preguntas, se ordenan las
respuestas y se preparan los modelos de tabulacin de las diferentes variables que
intervienen en la investigacin.
El avance tecnolgico y la popularizacin de los computadores hacen que
estas tareas, manualmente dispendiosas, puedan ser realizadas en corto tiempo.
2.8. LA TABULACIN
Una tabla es un resumen de informacin respecto a una o ms variables, que
ofrece claridad al lector sobre lo que se pretende describir; para su fcil
interpretacin una tabla debe tener por lo menos: Un titulo adecuado el cual debe
ser claro y conciso. La Tabla propiamente dicha con los correspondientes subttulos
internos y la cuantificacin de los diferentes tems de las variables, y las notas de
pie de cuadro que hagan claridad sobre situaciones especiales de la tabla, u
otorguen los crditos a la fuente de la informacin.

2.9. LA PRESENTACIN
Una informacin estadstica adquiere ms claridad cuando se presenta en la
forma adecuada. Los cuadros, tablas y grficos facilitan el anlisis, pero se debe
tener cuidado con las variables que se van a presentar y la forma de hacerlo. No es
aconsejable saturar un informe con tablas y grficos redundantes que, antes que
claridad, crean confusin. Adems la eleccin de determinada tabla o grfico para
mostrar los resultados, debe hacerse no slo en funcin de las variables que
relaciona, sino del lector a quien va dirigido el informe.
2.10. EL ANLISIS
La tcnica estadstica ofrece mtodos y procedimientos objetivos que
convierten las especulaciones de primera mano en aseveraciones cuya confiabilidad
puede ser evaluada y ofrecer una premisa medible en la toma de una decisin.
Es el anlisis donde se cristaliza la investigacin. Esta es la fase de la
determinacin de los parmetros y estadsticos muestrales para las estimaciones e
inferencias respecto a la poblacin, el ajuste de modelos y las pruebas de las
hiptesis planteadas, con el fin de establecer y redactar las conclusiones
definitivas.
2.11. PUBLICACIN
Toda conclusin es digna de ser comunicada a un auditorio. Es ms, hay otros
estudiosos del mismo problema a quienes se les puede aportar informacin,
conocimientos y otros puntos de vista acerca de l.
PRACTIQUEMOS N 1
1.
2.
3.
4.

Por qu se considera importante la estadstica?


Enuncie las ramas en las que se divide la estadstica y establezca su campo de accin.
Enumere las etapas del mtodo estadstico.
Por qu es importante la revisin bibliogrfica en el desarrollo de una investigacin
estadstica?.
5. Qu es la hiptesis nula?.
6. Defina: Poblacin, Muestra, Censo y Muestreo.
7. Por qu usualmente se recurre al anlisis a travs de muestras y no de poblaciones?.
8. Para qu se utiliza un muestreo piloto?.
9. Con qu fin se critica una informacin?
10. Cules son los componentes de una tabla?

Captulo 3
Distribucin de Frecuencias
*******************************
Despus de recoger toda la informacin correspondiente a la investigacin,
es decir, al agotar todo el trabajo de campo, nuestro escritorio se llena de un
cmulo de datos y cifras desordenadas
los cuales, al ser tomados como
observaciones individuales, dicen muy poco sobre la poblacin estudiada; es,
entonces, tarea del investigador hacer hablar las cifras, comenzando por la
clasificacin y ordenacin, consignando la informacin en tablas inteligibles que
denominamos distribuciones de frecuencias.
3.1. DISTRIBUCIN DE FRECUENCIAS SIMPLE
Para una mayor sencillez, en la exposicin del tema, nos valemos del siguiente
ejemplo: Supongamos que en la Fbrica Textil Manufacturas del Centro S.A. ha
estallado un conflicto laboral y sus cincuenta operarias solicitan un aumento en el
salario integral diario sopena de paralizar la fbrica.
El Gerente-propietario recoge la informacin respecto a la variable salario
diario de sus 50 operarias y la relaciona en la Tabla No 1.

Tabla No.1
SALARIO DIARIO DE 50 OPERARIOS EN LA Fbrica
Textil Manufacturas del Centro S.A. (S/.)

Tabla No. 2
SALARIO DIARIO DE 50 OPERARIAS DE LA FBRICA
TEXTIL MANUFACTURAS DEL CENTRO S.A.

Tabla No. 3
SALARIO DIARIO DE 50 OPERARIAS DE LA FBRICA TEXTIL
MANUFACTURAS DEL CENTRO S.A.

Tabla No. 4

Como se puede observar, hay una gran diferencia entre los datos brutos de
la Tabla No.1 y el ordenamiento y agrupamiento de la Tabla No. 4.

Con el fin de obtener una mejor tabla interpretativa, introduciremos la


siguiente simbologa:
n: El tamao de la muestra, es el nmero de observaciones.
Xi: La variable; es cada uno de los diferentes valores que se han observado.
La variable xi, toma los x1, x2... xm valores.
fi: La frecuencia absoluta o simplemente frecuencia, es el nmero de veces que se
repite la variable Xi; as f1, es el nmero de veces que se repite la observacin
x1, f2 el nmero de veces que se repite la observacin x2 etc.
fa: La frecuencia acumulada, se obtiene acumulando la frecuencia absoluta.
fr: Frecuencia relativa; es el resultado de dividir c/u de las frecuencias
absolutas por el tamao de la muestra.
fra: Frecuencia relativa acumulada; se obtiene dividiendo la frecuencia acumulada
entre el tamao de la muestra.

Distribucin Terica de Frecuencias de n Observaciones

Veamos el ejemplo que venimos trabajando:


Tabla No. 5
Distribucin de Frecuencias del Salario Diario de 50 Obreras

En la prctica, cuando se tiene confianza en el ordenamiento, no son


necesarias tantas tablas; se puede pasar de la tabla No 1 directamente a la tabla
No 6.
Tabla No. 6
Salario Diario de 50 Operarias de la Fbrica Textil Manufacturas del
Centro S.A.

Analizando las columnas porcentuales fr y fra se obtienen, entre otras las


siguientes conclusiones:

Slo el 4% de las obreras gana el mximo salario/da de la fabrica, el cual


corresponde a $58.000.00
El salario diario mnimo ($50.000.00) lo gana nicamente una obrera, lo que
constituye el 2% del personal asalariado.
El 62% de las operarias tiene un salario diario entre $53.000.00 y
$55.000.00
El 60% de las obreras tiene un salario/da de $54.000.00 o menos.
El 64% tiene un ingreso/da de $54.000.00 o ms.

PRACTIQUEMOS N 2
1. Qu es frecuencia absoluta?.
2. Cmo se obtiene:
2.1. La frecuencia acumulada?
2.2. La frecuencia relativa?
2.3. La frecuencia relativa acumulada
3. En una distribucin de frecuencias se pueden establecer conclusiones
porcentuales, utilizando solamente la frecuencia relativa? Por qu?
4. La siguiente tabla relaciona las ausencias al trabajo de 50 obreras, durante el
mes de octubre, en la Fbrica Textil Manufacturas del Centro S.A.

4.1. Construir una distribucin de frecuencias simple.


4.2. Sacar 3 conclusiones.
5. Aos de experiencia de las 50 operarias de la Fbrica Textil Manufacturas del
Centro S.A.

Ordenar la Informacin y responder :


5.1. Qu porcentaje de las obreras tiene experiencia inferior o igual a 6 aos?.
5.2. Que porcentaje tiene experiencia entre 5 y 7 aos (incluyendo los
extremos)?.
6.
Palabras por Minuto Escritas por un Grupo de Mecangrafas

Construir una distribucin de frecuencias y resaltar 3 conclusiones


7. La siguiente tabla muestra, las respuestas obtenidas en un cuestionario aplicado
a las obreras de la Fbrica Textil Manufacturas del Centro S.A., respecto a la
edad, estado civil, nmero de hijos, experiencia, aos de estudio, ingresos
diarios, gastos en educacin y ausencias al trabajo en el ltimo mes, as como
una calificacin del desempeo otorgada por el supervisor.

Hacer las respectivas distribuciones de frecuencias, para cada una de las


variables.

3.2. DISTRIBUCIN DE FRECUENCIAS POR INTERVALOS

Usualmente los valores de los datos no permiten un agrupamiento de ellos en


una tabla de frecuencias simple, debido a que se encuentran distribuidos a travs
de todo el recorrido y el nmero de veces que se repite cada observacin no es
significativo en todos los casos, y en la mayora de ellos su frecuencia es baja. Una
tabla de frecuencias construida en estas condiciones, no presenta ninguna utilidad.
Ilustraremos el caso a travs de un ejemplo, para ello, supongamos que la
fbrica de baldosasBolaos, con el objeto de ofrecer una garanta de su
producto, desea hacer un estudio tcnico de su produccin, para lo cual extrae una
muestra de 100 baldosas, cada una de las cuales se somete a una prueba de
resistencia, destructiva cuyos datos expresados en Kg/cm 2, se relacionan a
continuacin:
Tabla No. 7
Resistencia en Kg/Cm2 de 100 Baldosas de La Fbrica Bolaos

La clasificacin en una distribucin de frecuencias simple dara como


resultante un ordenamiento de por lo menos 80 items; la mayora de ellos con
frecuencia unitaria.
Se hace necesario el agrupamiento en intervalos
compacta, manejable y presentable la informacin.

o clases que haga ms

El nmero de clases y la amplitud de los intervalos los fija el investigador de


acuerdo con el conocimiento que posea de la poblacin, la necesidad de hacer
comparacin con otras investigaciones y la presentacin de la informacin. Sin
embargo, se recomienda que la informacin no sea demasiado compacta, lo cual le
restara precisin, ni demasiado dispersa, ya que no se tendra claridad.

En trminos generales, es usual que el nmero de intervalos no sea inferior a


5 ni superior a 15. Struges propone que el nmero de clases o intervalos sea
determinado por la expresin m 1 + 3.3 log(n).
La amplitud debe ser igual para todos los intervalos y, en lo posible, no se
debe trabajar con clases abiertas.

3.3.

REGLAS EMPRICAS
INTERVALOS

PARA

LA

CONSTRUCCIN

DE

Cuando no se tiene experiencia en el manejo de la informacin es aconsejable


seguir los pasos que se dan a continuacin:
3.3.1. Determinar los datos de mayor y menor valor Xmax, Xmin.
3.3.2. Calcular el rango o recorrido
3.3.3. Determinar el nmero de intervalos (m) y la amplitud de clase (A):
Debe tenerse presente que m es un nmero natural. Luego se
busca la amplitud A:
,
3.3.4. Calcular el rango ampliado:
3.3.5. Establecer la diferencia
, es decir la cantidad en que ha sido
alterado el recorrido, la cual no debe ser superior a la amplitud.
(a) Tambin puede ser definida como la cantidad positiva ms pequea que le
hace falta al rango o recorrido para ser divisible exactamente por la
amplitud.
3.3.6. Distribuir adecuadamente la cantidad a de la siguiente manera:
Al valor X min se le resta aproximadamente

y la parte restante se le suma

a X max, obteniendo el lmite inferior del primer intervalo y el lmite superior


del ltimo, respectivamente.

3.3.7. Construir los intervalos, calcular los puntos medios o marcas de clase y
hacer el agrupamiento de frecuencias.
Distribucin Terica de Frecuencias por Intervalos de n Observaciones

N:
LIPI:
LSUI:
Xi:

Nmero de observaciones
Lmite inferior del primer intervalo
Lmite superior del ltimo interval
Punto medio del intervalo, o marca de clase

* Con el fin de prever dobles conteos, quien clasifica deber


especificar si los intervalos son abiertos a la derecha o abiertos a la
izquierda, en estas notas, trabajaremos con intervalos abiertos a la
derecha; es decir, del tipo
, donde el lmite superior no est
incluido dentro de la clase.
Retomemos el ejercicio de la Tabla No. 7 y construyamos una distribucin de
frecuencia por intervalos.

3.3.1 Rango

3.3.2 Rango

3.3.3 Nmero de
intervalos

,
,

No es lgico tener 7.6 intervalos, por lo tanto se procede a aproximar el


nmero de intervalos a un nmero natural cercano.
Aproximemos,

, y busquemos la amplitud.
,

Ya terminado el nmero de clases en m=7 encontramos que la amplitud debe


ser mayor que 94. Fijmosla, entonces, en A = 100, que hace ms manejable y
presentable la tabla con la informacin.
3.3.4 Rango ampliado

3.3.5 Hemos alterado el rango original


, cambindolo por el rango ampliado
. La diferencia est representada por
o sea
3.3.6 Tenemos por tanto, que distribuir adecuadamente la diferencia entre los
rangos

Como se dijo antes, no estamos hablando de restar o sumar estrictamente


una cantidad aproximada que brinde una buena presentacin.
3.3.7 Construccin de los intervalos.

sino

Tabla No. 8
Construccin de los Intervalos para la Resistencia de las Baldosas

Se puede desde luego, proceder a agrupar la informacin en los respectivos


intervalos, haciendo la salvedad de que ninguno de los lmites superiores de clase
son considerados dentro de los intervalos.
Tabla No. 9
Distribucin de Frecuencias por Intervalos de la Resistencia de 100
Baldosas de la Fbrica Bolaos

Conclusiones:

El 72% de las baldosas tiene una resistencia entre 300 y 600 Kg/Cm 2.
El 86% de las baldosas resiste menos de 600 Kg/Cm 2.
Slo el 5% resiste 700 o ms Kg/Cm2.

PRACTIQUEMOS N 3
1. Por qu se recurre al agrupamiento en distribuciones de frecuencias por
intervalos?
2. Cmo se determina el nmero de intervalos y la amplitud de ellos?.
3. Qu es una marca de clase?.

Consumo de agua, en m3de 184 familias en un barrio residencial de una


ciudad durante el mes de octubre:

Construir una distribucin de frecuencias por intervalos.

5.

4.1 Asumiendo el nmero de intervalos m = 8


4.2 Asumiendo el nmero de intervalos m = 9
4.3 Comparar las dos distribuciones y las conclusiones que de ellas se
deriven.
Calificaciones Obtenidas por 130 Estudiantes en un Examen de
Estadstica:

Construir una distribucin de frecuencias por intervalos y resaltar cuatro (4)


conclusiones.

Captulo 4
Representacin Grfica
***************************
A pesar de la gran ayuda que prestan las tablas y cuadros con informacin
organizada, no todos los pblicos alcanzan a comprenderla o no disponen del tiempo
suficiente para analizarla.
Es por ello que la mayora de los investigadores acostumbran a reforzar la
descripcin a travs de dibujos, generalmente con formas geomtricas, que ayudan
a visualizar el comportamiento de las variables tratadas.
4.1. DEFINICIN
Una grfica o diagrama es un dibujo complementario a una tabla o cuadro,
que permite observar las tendencias de un fenmeno en estudio y facilita el
anlisis estadstico de las variables all relacionadas.
4.2.COMPONENTES DE UNA GRFICA
Una grfica, al igual que un cuadro o una tabla, debe constar de:
4.2.1. Ttulo adecuado: El cual debe ser claro y conciso, que responda a las
preguntas: Qu relaciona, cundo y dnde se hicieron las observaciones.

4.2.2. El cuerpo: o grfico en s, cuya eleccin debe considerar el o los tipos


variables a relacionar, el pblico a quien va dirigido y el diseo artstico del
grfico.
4.2.3. Notas de pie de grfico: Donde se presentan aclaraciones respecto al
grfico, las escalas de los ejes, o se otorgan los crditos a las fuentes
respectivas.
Es de anotar que por medio de grficos tendenciosos se pueden
deformar o resaltar situaciones o estados, que presentados en un grfico
apropiado, mostraran un comportamiento normal.
Generalmente una informacin es distorsionada por algunas de las
siguientes causas:
4.2.1.1 La relacin entre los ejes no es la mas apropiada ( ver
grficos No.1 y No.2)
4.2.1.2 Grficos con escalas desproporcionadas, o mala eleccin del
punto de origen ( ver grfico No.3).
Variacin de La Inflacin en Colombia 1995-2000

Grfico No. 1

Grfico No. 2

Grfico No. 3

Como se puede observar, el grfico No.1 realza el decrecimiento de la variable


inflacin, mientras que el No.2 intenta mostrar una estabilizacin o decrecimiento
parsimonioso.
Los dos dibujos son incorrectos debido a que no conservan una proporcin
adecuada entre sus ejes. Sin embargo, el grfico No. 3 tiene una buena proporcin
entre los ejes. Pero, la distorsin se debe a la mala numeracin en el eje Y pues,
el punto de origen O ha sido eliminado y asignado un valor arbitrario, la escala es
inadecuada para resaltar el decrecimiento inflacionario de los dos ltimos periodos.
Ambas situaciones son errneas o tendenciosas y se deben corregir asignando
escalas apropiadas a los ejes y utilizando la siguiente regla:

Donde:

Lx: Longitud del eje horizontal


Ly: Longitud del eje vertical

La longitud del eje vertical es igual a tres cuartos de la longitud del eje
horizontal.
4.3.PRINCIPALES TIPOS DE GRFICOS
Existe una gran cantidad de grficos para la representacin de datos
estadsticos, ya que de ellos depende el diseo artstico de quien los elabora, as
como de su imaginacin al combinar varios tipos de ellos, como forma de presentar
una informacin.
Entre los grficos ms comunes tenemos:
4.3.1 Grfico de Lneas: Usado bsicamente para mostrar el comportamiento de
una variable cuantitativa a travs del tiempo. El grfico de lneas consiste en
segmentos rectilneos unidos entre s, los cuales resaltan las variaciones de
la variable por unidad de tiempo. Para su construccin ha de procederse de
la siguiente manera: en el eje de las ordenadas se marcan los puntos de
acuerdo con la escala que se est utilizando. En el caso de una escala
aritmtica, distancias iguales en el eje, representan distancias iguales en la
variable.
Variacin de la Inflacin en Colombia 1995 -2000

El eje de la variable X se divide en unidades de tiempo iguales,


teniendo presente el nmero de tems que ha de presentarse, as como la
longitud del eje. Es de anotar la conveniencia de mostrar la interrupcin y
acercamiento del eje a su origen cuando esto haya ocurrido.
4.3.2 Grfico de Lneas Compuesto: Cuando se tienen varias variables a
representar, con el fin de establecer comparaciones entre ellas (siempre
que su unidad de medida sea la misma); se utiliza plasmarlos en un slo
grfico, el cual es el resultado de representar varias variables en un mismo
plano.
Variacin de la Inflacin y el Salario en Manufacturas del Centro S.A.

4.3.3 Grfico de Barras: El grfico de barras, como su nombre lo indica, est


constituido por barras rectangulares de igual ancho, conservando la misma
distancia de separacin entre s. Se utiliza bsicamente para mostrar y
comparar frecuencias de variables cualitativas o comportamientos en el
tiempo, cuando el nmero de tems es reducido.

Nmero de Hijos de 50 Obreras en Manufacturas del Centro

stos grficos suelen ser de barras verticales, aunque se pueden utilizar de


forma horizontal.
4.3.4. Grfico de Barras Compuesto
Preferencias de Partido Segn Sexo

4.3.5 Grfico de Sectores Circulares: Usualmente llamado grfico de pastel,


debido a su forma caracterstica de una circunferencia dividida en cascos,
por medio de radios que dan la sensacin de un pastel tajado en porciones.
Se usa para representar variables cualitativas en porcentajes o cifras
absolutas cuando el nmero de tems no es superior a 5 y se quiere resaltar
uno de ellos. Para su construccin se procede de la siguiente forma: La
circunferencia tiene en su interior 360 grados, los cuales hacemos
corresponder al total de la informacin, es decir al 100%; luego, para

determinar el nmero de grados correspondiente a cada componente se


multiplica el porcentaje respectivo por 360 y se divide por 100, los cuales se
miden con la ayuda de un transportador para formar los casquetes de los
diferentes tems.
Estado Civil de 50 Operarias de Manufacturas del Centro

4.3.6. Histograma de Frecuencias: Para la construccin de un histograma de


frecuencias de fcil interpretacin y que no falsee la informacin, debe
disponerse de una distribucin de frecuencias por intervalos con amplitud
igual para cada clase o intervalo. En el eje de las abscisas procedemos a
representar los intervalos de la variable, y en el eje de las ordenadas las
frecuencias de cada clase.
El histograma se construye dibujando barras contiguas que tienen
como base la amplitud de cada intervalo y como alturas las frecuencias
respectivas.
Histograma de Frecuencias de la Resistencia de 100 Baldosas

4.3.7. Polgono de Frecuencias


Resistencia de 100 Baldosas

Para la construccin de un polgono de frecuencias, se marcan los


puntos medios de cada uno los intervalos en la parte superior de cada barra
del histograma de frecuencias, los cuales se unen con segmentos de recta.
4.3.8. Histograma de Frecuencias Acumuladas: El histograma de frecuencias
acumuladas tambin es obtenido a partir de una distribucin de frecuencias,
tomando en el eje horizontal las clases de la variable, y en el eje vertical las
frecuencias acumuladas correspondientes a cada intervalo.
Resistencia de 100 Baldosas

Resistencia de 100 Baldosas

PRACTIQUEMOS N 04
1. Cul es el objetivo de un grfico?
2. Describa los componentes de una grfica .
3. Cules son las principales causas de distorsin de la informacin de un
grfico?.
4. Cul debe de ser la proporcin entre los ejes del plano cartesiano para la
construccin de un grfico?.
5. Para los ejercicios 4 y 5 del captulo 3, numeral 3.2 construir:
5.1. Un histograma de frecuencias.
5.2. Un polgono de frecuencias.
5.3. Un histograma de frecuencias acumuladas.
5.4. Un polgono de frecuencias acumuladas.
6.

Costo Promedio del Consumo de Energa de la Fbrica Textil Manufacturas del


Centro S.A.

Construir un grfico de lneas para esta informacin.


7.

ndice de Precios al Consumidor 1999-2001

Graficar: El valor del ndice, la variacin mensual y la variacin anual,


en funcin del tiempo.
8. Construir un grfico apropiado para los resultados electorales en Per, en la
eleccin de presidente de la repblica para el perodo 2001-2006:

Captulo 5
Medidas de Tendencia Central
***********************************
En los captulos anteriores, nos referimos a la clasificacin, ordenacin y
presentacin de datos estadsticos, limitando el anlisis de la informacin a la
interpretacin porcentual de las distribuciones de frecuencia.
El anlisis estadstico propiamente dicho, parte de la bsqueda de
parmetros sobre los cuales pueda recaer la representacin de toda la informacin.
Las medidas de tendencia central, llamadas as porque tienden a localizarse
en el centro de la informacin, son de gran importancia en el manejo de las
tcnicas estadsticas, sin embargo, su interpretacin no debe hacerse
aisladamente de las medidas de dispersin, ya que la representabilidad de ellas
est asociada con el grado de concentracin de la informacin.
Las principales medidas de tendencia central son:
5.1 Media aritmtica.
5.2 Mediana
5.3 Moda.
5.1. MEDIA ARITMTICA

Cotidiana e inconscientemente estamos utilizando la media aritmtica.


Cuando por ejemplo, decimos que un determinado fumador consume una cajetilla de
cigarrillos diaria, no aseguramos que diariamente deba consumir exactamente los
20 cigarrillos que contiene un paquete sino que es el resultado de la observacin, es
decir, dicho sujeto puede consumir 18, un da; 19 otro; 20, 21, 22; pero segn
nuestro criterio, el nmero de unidades estar alrededor de 20.
Matemticamente, la media aritmtica se define como la suma de los valores
observados dividida entre el nmero de observaciones.

Media aritmtica de la variable X

Valores de la variable X

n:
:

Nmero de observaciones
Signo de sumatoria, indica que se debe
sumar

Ejemplo: Cantidad de cigarrillos consumidos por un fumador en una semana.


. . . Lunes:
Martes:
Mircoles:
Jueves:
Viernes:
Sbado:
Domingo:

18
21
22
21
20
19
19

Entonces la media aritmtica es.

El fumador consume en promedio 20 cigarrillos diarios.


Cuando la variable est agrupada en una distribucin de frecuencias, la
media aritmtica se calcula por la frmula:

Ejemplo:
Cantidad de Cigarrillos consumidos por un fumador en una Semana dada:

Ejemplo:
Clculo de La Media Aritmtica. El Salario/da de 50 Operarias

= 54.100 Soles/da
Si la informacin est relacionada en una distribucin de frecuencias por
intervalos, se toman como valores de la variable las marcas de clase de los
intervalos, entindase por marca de clase el punto medio entre los lmites de cada
clase o intervalo.
Ejemplo:
Clculo de La Media Aritmtica de la Resistencia de 100 Baldosas

La resistencia promedio de las 100 baldosas es de 448 Kg/Cm.

5.1.1 Propiedades de la Media Aritmtica


5.1.1.1. La suma de las diferencias de los datos con respecto a la
media aritmtica es igual cero.

Demostracin:

pero

Como

Ejemplo de Comprobacin:
En el Ejercicio del Fumador Cuya Media Aritmtica
es de 20 Cigarrillos / da:

Para una distribucin de frecuencias:

Salario/da de 50 Operarias en la Fbrica Textil Manufacturas del


Centro S.A.

5.1.1.2. La suma de las diferencias cuadrticas de los datos, con


respecto a la Media Aritmtica, es mnima.

Quiere decir esta propiedad que cualquier otro parmetro p,


diferente a la media aritmtica hace mayor la expresin:

que

Para

Demostracin:
Debemos, entonces, probar que:

veamos:

Pero

(propiedad a.)

entonces:

como

luego

5.1.1.3. Si a cada uno de los resultados le sumamos o le restamos una


constante C , la Media Aritmtica queda alterada en esa
constante.

Demostracin:
1

2,

n .

Tenemos los datos x ,x .... ....x Cuya media aritmtica es

Sea

La media aritmtica de la nueva variable es:

entonces

En el ejemplo de las baldosas,


restmosle una constante

5.1.1.4.

, a cada uno de los datos

Si cada uno de los datos se multiplica por una constante k,


entonces la media aritmtica queda multiplicada por esa
constante:

2,

Tenemos los datos x ,x .... ....x cuya media aritmtica es

Sea

Si multiplicamos cada una de las resistencias de las 100 baldosas por

una constante

tenemos:

5.1.2. Media Aritmtica con Cambio de Origen y de Escala


En estadstica es usual la transformacin de variables utilizando las dos
ltimas propiedades:
C = un valor de tendencia central (media, mediana, moda o cualquier otro
parmetro.
k = generalmente la desviacin standar, desviacin media, la amplitud etc.

Sea
.....

para nuestro ejemplo C = 450, k = 100

A la nueva variable Y le calculamos la media aritmtica.

5.1.3. Media Aritmtica Ponderada


Hemos visto que la Media Aritmtica se calcula con base a la magnitud de los
datos, otorgndoles igual importancia a cada uno de ellos. Sin embargo en muchas
ocasiones la magnitud del dato esta ponderada con un determinado peso que lo
afecta relativamente.
La Media Aritmtica ponderada tiene en cuenta la importancia relativa de
cada uno de los datos, para lo cual la definimos con la siguiente expresin:

donde
: Media aritmtica ponderada

xi:
wi:

Valor de la variable X
Ponderacin del tem xi

Ejemplo:
Las calificaciones de un estudiante estn conformadas por los
siguientes factores:
Un examen cuyo valor es 40% en el cual obtuvo una nota de 4.5, un
trabajo de consulta con ponderacin del 10% y calificacin de 1.0, una
exposicin equivalente al 15% con nota de 2.0, y por ltimo una
investigacin con valor del 35% calificada con 3.5.

entonces la nota definitiva es:

5.2. LA MEDIANA
Otra medida de tendencia central, utilizada principalmente en estadstica no
paramtrica, es la mediana, la cual no se basa en la magnitud de los datos, como la
media aritmtica, sino en la posicin central que ocupa en el orden de su magnitud,
dividiendo la informacin en dos partes iguales, dejando igual nmero de datos por
encima y por debajo de ella.
5.2.1. La Mediana Cuando los datos no estn Agrupados en Intervalos.
Partiendo de la informacin bruta, ordenamos los datos ascendente o
descendentemente:
se
define

Mediana =

, si n es impar
, si n es
par

Mediana =

En el ejercicio de los cigarrillos, consumidos por un fumador tenemos


lunes 18, martes 21, mircoles 22, jueves 21, viernes 20, sbado 19, y
domingo 19. Ordenando ascendentemente:

n, es impar, entonces

Veamos cuando n es par:


Consumo mensual de agua, en m3, por la fbrica textil Manufacturas
del Centro S.A.
Enero=

10 . . . .
,
Febrero=12
,
Marzo= 15
,
Abril= 18
,

Mayo= 14 . . . . Septiembre=18,
,
Junio= 19
Octubre=
22,
,
Julio= 17
Noviembre= 15,
,
Agosto=18
Diciembre= 13
,

Mediana=
Como se puede observar, en este caso la mediana no es un dato
perteneciente a la informacin, es un parmetro que divide la
informacin dejando el 50% por encima y el 50% por debajo de ella.

5.2.2. La Mediana cuando la informacin se encuentra agrupada en intervalos


Si la informacin esta agrupada en intervalos iguales, entonces la
mediana se calcula segn la siguiente expresin:

Me:

Mediana

LI:

Lmite inferior del intervalo donde se encuentra la


mediana (intervalo mediano), el cual se determina
observando en que clase se encuentra la posicin n/2.)

n:

Nmero de observaciones
:

A:

Frecuencia acumulada anterior al intervalo mediano


Frecuencia del intervalo mediano
Amplitud del intervalo

Ejemplo:
Resistencia de 100 Baldosas de la Fbrica Bolaos

en la columna de frecuencia acumulada advertimos que la observacin


nmero 50 se halla en el cuarto intervalo 4.

Se concluye que el 50% de las baldosas resiste menos de 445.45


2

Kg/Cm y el 50% resiste mas de 445.45 Kg/Cm .

5.3. LA MODA
La moda, como su nombre lo indica, es el valor ms comn (de mayor
frecuencia dentro de una distribucin. Una informacin puede tener una moda y se
llama unimodal, dos modas y se llama bimodal, o varias modas y llamarse multimodal.
Sin embargo puede ocurrir que la informacin no posea moda.

5.3.1. La Moda cuando los datos no estn agrupados en intervalos


Salario de 50 Operarias de la fbrica textil Manufacturas del Centro S.A.

El valor que ms veces se repite es 54 con una frecuencia de 12,


entonces decimos que la moda es Mo = 54.000.00 pesos diarios.
Cantidad de Cigarrillos consumidos por un fumador en una semana dada:

Los valores de mayor frecuencia corresponden a 19 y 21, por lo tanto


se trata de una distribucin bimodal con Mo1=19 y Mo2=21
5.3.2. Clculo de la Moda cuando la informacin est agrupada en intervalos
Cuando la informacin se encuentra agrupada en intervalos de igual
tamao la moda se calcula con la siguiente expresin.

Donde:

Mo:
LI:
fm:
f(m-1) :
f(m+1) :
A:

Moda
Lmite inferior del intervalo modal
Frecuencia de la clase modal
Frecuencia de la clase premodal
Frecuencia de la clase posmodal
Amplitud de los intervalos

Ejemplo:
Resistencia de 100 Baldosas

A pesar que el valor 444.44 no es un dato real de la informacin


asumimos ese parmetro como el de mayor ocurrencia.

PRACTIQUEMOS N 5
1. Que es una medida de tendencia central?.
2. Cuales son las principales medidas de tendencia central?.
3. Defina : media aritmtica mediana y moda.
4. Cundo se utiliza la media aritmtica ponderada?.
5. Enuncie las propiedades de la media aritmtica.
6. Para cada informacin de los ejercicios del capitulo 3, calcular e interpretar la
media aritmtica, la mediana y la moda.
7. La tripulacin de un avin, en su itinerario compra los siguientes galones de
gasolina:
Ciudad X 200 galones a 4000 pesos el galn.
Ciudad Y 250 galones a 3500 pesos el galn.
Ciudad Z 300 galones a 3000 pesos el galn.
Cul es el costo promedio de la gasolina comprada?.

Captulo 6
Medidas de Posicin
***********************
En el Capitulo anterior, vimos lo referente a las medidas de tendencia
central, las cuales, a su vez, son tambin medidas de posicin ya que, de todas
maneras ocupan un lugar dentro de la informacin. Nos ocuparemos ahora de
ciertos parmetros posicionales muy tiles en la interpretacin porcentual de la
informacin.

6.1. CUARTILES
Las cuartillas o cuartiles son valores posicionales que dividen la informacin
en cuatro partes iguales, el primer cuartil deja el 25% de la informacin por
debajo de l, y el 75% por encima, el segundo cuartil, al igual que la mediana, divide
la informacin en dos partes iguales, y por ltimo el tercer cuartil deja el 75% por
debajo de s, y el 25% por encima.
Grficamente:

Se necesita, entonces calcular tres cuartillas ya que la cuarta queda


automticamente determinada.

Donde:

k:
Orden del cuartil k = 1,2,3
LI:.......... Lmite inferior del intervalo que contiene el cuartil.
Fa(i-1):
Frecuencia acumulada hasta el intervalo anterior al que contiene el
cuartil.
fi :
Frecuencia del intervalo que contiene el cuartil.
n:
Nmero de observaciones.
A:
Amplitud de los intervalos.
Ejemplo:
Resistencia de 100 Baldosas de la Fbrica "Bolaos "

Primer cuartil:

posicin que debe ser ubicada en la frecuencia acumulada, para


determinar que clase contiene este cuartil.

El 25% de las baldosas resiste menos de 352.38 Kg/Cm 2 y el 75%


tiene una resistencia superior.
Como el segundo cuartil
Me=Q2=445.45Kg/Cm2

es

lo

mismo

que

la

mediana:

Calculemos la tercera cuartilla k=3

El 75% de las baldosas tiene una resistencia inferior a 538..88


Kg/Cm2 y el 25% una resistencia superior.

6.2. QUINTILES
Los quintiles o quintillas dividen la informacin en cinco partes iguales,
agrupndolas en porcentajes de 20, 40, 60, y 80 por ciento, en consecuencia
debemos calcular cuatro parmetros:
Grficamente:

calculemos por ejemplo la segunda quintilla para el ejercicio que


traemos:

k=2,

El 40% de las baldosas resiste menos de 415.15kg/cm 2 y el 60%


resiste ms.

6.3. DECILES
Similarmente, los deciles o decillas dividen la informacin en diez partes
iguales, en cantidades porcentuales de 10 en 10.

6.4. CENTILES
Obviamente los centiles dividen la informacin en 100 partes, lo cual facilita
la interpretacin porcentual de una distribucin de frecuencias.

6.5. RESUMEN
En general para calcular cualquier percentil:

Donde:

r:
k:
LI:
fa(i-1):
fi:
n:

Nmero de partes en que se divide la informacin


Orden del percentil k = 1,2,.....,r-1
Lmite inferior del intervalo que contiene el
percentil
Frecuencia acumulada hasta el intervalo anterior al que contiene el
percentil
Frecuencia del intervalo que contiene el percentil
Nmero de observaciones

A:

Amplitud de los intervalos

En nuestro ejercicio, si el gerente de la fbrica de baldosas desea


ofrecer un garanta de resistencia mnima. Basado en la muestra que
se ha obtenido, si no quiere remplazar ninguna pieza, lgicamente
debe afirmar que el producto resiste 100 o ms Kg/Cm 2. Pero si esta
dispuesto a remplazar el 5% de su produccin, entonces:

Se debe dar una garanta de 210kg/cm2 de resistencia mnima.

PRACTIQUEMOS N 6
1. Para qu se utilizan los percentiles?.
2. En cuantas partes se divide la informacin con:
2.1 Los cuartiles
2.2 Los quintiles
2.3 Los deciles
2.4 Los centiles
3. Para la informacin de los ejercicios 4 y 5 de la seccin 3.2 calcular e
interpretar;
3.1. La primera y tercera cuartilla.
3.2
El segundo y cuarto quintil.
3.3 Qu porcentaje hay entre la primera y tercera quintilla?.
3.4 Qu porcentaje hay entre la primera cuartilla y la segunda
quintilla?.
3.5 Qu porcentaje hay entre la tercera cuartilla y el noveno decil?.

Captulo 7
Medidas de Dispersin
**************************
En el anlisis estadstico no basta el clculo e interpretacin de las medidas
de tendencia central o de posicin, ya que, por ejemplo, cuando pretendemos
representar toda una informacin con la media aritmtica, no estamos siendo
absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y
superiores a la media aritmtica, los cuales, en honor a la verdad, no estn siendo
bien representados por este parmetro.
En dos informaciones con igual media aritmtica, no significa este hecho, que
las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el
grado de homogeneidad entre sus datos. Por ejemplo, los valores 5, 50, 95 tiene
igual media aritmtica, y mediana que los valores 49, 50,51; sin embargo, para la
primera informacin la media aritmtica , se encuentra muy alejada de los valores
extremos 5 y 95, cosa que no ocurre con la segunda informacin que posee igual
media aritmtica y mediana, vemos entonces que la primera informacin es mas
heterognea o dispersa que la segunda.
Para medir el grado de dispersin de una variable, se utilizan principalmente
los siguientes indicadores:
7.1 Rango o recorrido.
7.2 Desviacin media.
7.3 Varianza y desviacin tpica o estndar.

7.4 Coeficiente de variabilidad.

7.1. RANGO O RECORRIDO:


Es la medida de dispersin mas sencilla ya que solo considera los dos valores
extremos de una coleccin de datos, sin embargo, su mayor utilizacin est en el
campo de la estadstica no paramtrica.

R = Xmax Xmin
Xmax, Xmin son el mximo y el mnimo valor de la variable X, respectivamente.
En el ejemplo introductorio, vemos que el rango para la primera informacin es
R1=95-5=90, mientras que R2=51-49=2, se hace pues manifiesta la gran dispersin
de la primera informacin contra la homogeneidad de la segunda.

7.2. DESVIACIN MEDIA:


La desviacin media, mide la distancia absoluta promedio entre cada uno de
los datos, y el parmetro que caracteriza la informacin. Usualmente se considera
la desviacin media con respecto a la media aritmtica:

Donde:

DM :
xi :
fi :
n:
M:

Desviacin media
Diferentes valores de la variable X
Nmero de veces que se repite la observacin xi
Media aritmtica de la informacin
Tamao de la muestra.
Nmero de agrupamientos o intervalos

Ejemplo:
Salario de 50 Operarias de la fbrica textil Manufacturas del Centro S.A.

1.400.00 es el error promedio que se comete al remplazar los ingresos


diarios de cada una de las 50 obreras por 54.100 soles.

7.3. VARIANZA
El problema de los signos en la desviacin media, es eludido tomando los
valores absolutos de las diferencias de los datos con respecto a la media
aritmtica. Ahora bien, la varianza obvia los signos elevando las diferencias al
cuadrado, lo cual resulta ser ms elegante, aparte de que es supremamente til en
el ajuste de modelos estadsticos que generalmente conllevan formas cuadrticas.
La varianza es uno de los parmetros ms importantes en estadstica
paramtrica, se puede decir que, teniendo conocimiento de la varianza de una
poblacin, se ha avanzado mucho en el conocimiento de la poblacin misma.
Numricamente definimos la varianza, como desviacin cuadrtica media de
los datos con respecto a la media aritmtica:

Donde:
S2:Varianza
xi : Valor de la variable X
: Media aritmtica de la informacin

fi: Frecuencia absoluta de la observacin xi


n: Tamao de la muestra.
m Nmero de agrupamientos o intervalos

Salario/dia de 50 Operarias en la fbrica textil Manufacturas del


Centro S.A.

Como los datos estn expresados en miles de pesos y la


varianza se encuentra en forma cuadrtica obtenemos una varianza de
3210.000 pesos. Sin embargo para una mejor comprensin debemos
recurrir a la desviacin tpica o estndar definida como la raz
cuadrada de la varianza:

El error estndar es de 1.791 soles/diarios.


En el ejemplo de las baldosas:
Resistencia de 100 Baldosas de La Fbrica Bolaos

7.4. COEFICIENTE DE VARIABILIDAD


Generalmente interesa establecer comparaciones de la dispersin, entre
diferentes muestras que posean distintas magnitudes o unidades de medida.
El coeficiente de variabilidad tiene en cuenta el valor de la media aritmtica,
para establecer un nmero relativo, que hace comparable el grado de dispersin
entre dos o mas variables, y se define como:

Comparemos la homogeneidad de las dos informaciones anteriores, las cuales


tienen diferente unidad de medida.
para el salario:

para la resistencia

Concluimos que es mucho ms dispersa la informacin correspondiente


a la resistencia de las baldosas.

PRACTIQUEMOS N 7
1. Cul es la utilidad de las medidas de dispersin?.
2. Cules son las principales medidas de dispersin?.
3. Cul es la medida adecuada para comparar la dispersin entre varias variables
que posean diferente magnitud o diferente unidad de medida?.
4. Para cada una de las informaciones de los ejercicios de los captulos anteriores,
calcular e interpretar:
4.1 Rango.
4.2 Desviacin media.
4.3 Coeficiente de variabilidad.

Captulo 8
Regresin y Correlacin Lineal
**********************************
Hasta ahora hemos hecho la tabulacin y el anlisis para una sola variable.
Pero los investigadores, adems de analizar una informacin en forma individual,
generalmente se interesan en establecer cruces y buscar relaciones entre
diferentes variables.

8.1. TABLAS DE DOBLE ENTRADA


Para la presentacin bidimensional de las variables "X, Y" se procede de la
siguiente manera:
Se ordenan las variables "X, Y" respectivamente
Se tabulan los valores X horizontalmente, y los valores Y verticalmente.
Se buscan las frecuencias para cada par ordenado ( xi,yj).
Se suma horizontalmente para obtener las frecuencias de Y fyj, y
verticalmente para obtener las frecuencias de X fxi .

xi:
Valores de la variable X, i=1,2,....m
yj:
Valores de la variable Y, j=1,2,... k
fxi: Frecuencia de la observacin xi
fyj: Frecuencia de la observacin yj
fij:
Frecuencia conjunta de los valores (xi,yj)
fa0xi :Frecuencia acumulada de la variable X, en el item

i
fayj : Frecuencia acumulada de la variable Y, en el item j
frxi : Frecuencia relativa para la variable X, en el item i
fryj : Frecuencia relativa para la variable Y, en el item j
fraxi : Frecuencia relativa acumulada para la variable X
frayj : Frecuencia relativa acumulada para la variable Y.

Tabla de Doble Entrada para la representacin de dos Variables X, Y

Como se puede advertir en la disposicin de las frecuencias, la


interpretacin de la variable Y, puede hacerse analizando los relativos propios en
forma horizontal, en tanto que el anlisis de la variable X se hace en forma
vertical.
Experiencia Laboral y Salario Diario de 50 Obreras de la fbrica textil
Manufacturas del Centro S.A. X : Experiencia en Aos, Y: Salario
Miles de Pesos

Analizando los relativos para cada una de las variables podemos sacar, entre
otras, las siguientes conclusiones:

El 64%
El 68%
El 60%
El 62%

tiene una experiencia igual o inferior a 6 aos.


tiene una experiencia entre 5 y 7 aos incluyendo sus extremos.
gana 54.000 pesos diarios o menos.
gana entre 53.000 y 55.000 pesos incluyendo sus extremos.

Las tablas de doble entrada tambin pueden usarse para variables cualitativas,
o combinarse variables cualitativas con cuantitativas.
Estado Civil y Nmero de Hijos de 50 Obreras de la fbrica textil
Manufacturas del Centro S.A. X: Estado Civil, Y: Nmero De Hijos.

Se deja al lector la interpretacin y anlisis de esta tabla.

8.2. CORRELACIN

En el anlisis conjunto para dos o ms variables es bsica la bsqueda del tipo y


grado de la relacin que pueda existir entre ellas, o si por el contrario, las
variables sean independientes entre s y la relacin que puedan mostrar se debe
nicamente al azar, o a travs de terceras variables.
El sondeo del tipo y grado de la correlacin, parte desde la misma presuncin
del investigador, teniendo presente que la bsqueda de relaciones entre variables
debe ser lgica, es decir relacionar lo que sea razonable y no datos cuya asociacin
sea desde cualquier punto de vista absurda.
Veamos algunas variables susceptibles de relacionar:

El peso y estatura de un grupo de adultos.


Edad y peso de un grupo de nios.
Ingresos y gastos de arrendamiento de un grupo de familias.
Escolaridad e ingreso mensual de un grupo de empleados.
Ventas y utilidades de un almacn de variedades.

En el cuestionario aplicado a las obreras de la "Hilacha", parece que se indaga


por ciertas variables que puedan explicar el salario devengado por ellas; como
podra ser, los aos de experiencia, los aos de estudio, las ausencias al trabajo, la
evaluacin del desempeo por parte de su supervisor, amn de otras variables que
pueden tener influencia en la asignacin salarial.
Para fortalecer el indicio de correlacin inicial, se grafica cada uno de los pares
ordenados de las variables (xi,yj) en un plano cartesiano, para observar la nube de
puntos o diagrama de dispersin, donde se advierte la tendencia o no, de la
informacin representada.

A pesar de la ilustracin visual que ofrecen las grficas, solo podemos percibir la
tendencia, mas no el grado o fortaleza de la relacin, entre la variable
independiente X y la variable dependiente Y.
Para cuantificar la calidad de la dependencia, entre las dos variables, el indicador
mas acostumbrado es el Coeficiente de correlacin, definido com

Donde:

r:

Coeficiente de correlacin entre X y


Y
Sx: Desviacin tpica de X
Sy: Desciacion tpica de Y
Sx,y : Covarianza entre X y Y

En la prctica, cuando no tenemos la informacin agrupada en una tabla de


doble entrada, asumimos que cada observacin bivariada tiene frecuencia unitaria,
entonces r se convierte en:

Tabla de Trabajo para el Calculo de L Coeficiente de Correlacin

El coeficiente de correlacin, es un indicador del grado de la relacin entre


las dos variables, el cual oscila en el intervalo cerrado
, es decir,
.
Cuando r toma un valor extremo, ya sea r=1 r=-1 existe una correlacin
perfecta positiva o negativa segn el signo, como lo podemos corroborar en el
siguiente ejemplo:
Aspiracin Salarial, de Acuerdo a La experiencia de las obreras de la
Fbrica Textil Manufacturas del Centro S.A.

, Correlacin perfecta positiva


Sin embargo, no todas las relaciones son tan ideales, en el comn de los
casos 1< r <1. Empricamente se afirma que:
1.

Si

Correlacin perfecta

2.

Si

Correlacin excelente

3.

Si

Correlacin buena

4.

Si

Correlacin regular

5.

Si

6.

Si

Correlacin mala
No hay correlacin

Existen desde luego, pruebas estadsticas que miden la bondad de un


coeficiente de correlacin con un determinado nivel de confiafilidad, pero no son
tema de este curso.
Salario Actual y Aos de experiencia de 50 obreras de la fbrica textil
Manufacturas del Centro S.A.
Exp Mil/dia
Exp Mil/dia
Aos X
Y
XY X2 Y2 Aos X Y
XY
X2
Y2
4
52 208 16 2704
8
57
456 64 3249
5
54 270 25 2916
6
54
324 36 2916
7
55 385 49 3025
6
55
330 36 3025
6
54 324 36 2916
5
53
265 25 2809
5
53 265 25 2809
7
55
385 49 3025
7
56 392 49 3136
8
56
448 64 3136
5
54 270 25 2916
5
53
265 25 2809
9
58 522 81 3364
9
57
513
81 3249
3
51 153 9 2601
6
54
324 36 2916
6
54 324 36 2916
5
53
265 25 2809
7
54 378 49 2916
2
50
100
4
2500
3
51 153 9 2601
6
55
330 36 3025
6
54 324 36 2916
4
52
208 16 2704
7
55 385 49 3025
5
53
265 25 2809
6
54 324 36 2916
6
54
324 36 2916
8
56 448 64 3136
4
52
208 16 2704
4
52 208 16 2704
8
57
456 64 3249
6
54 324 36 2916
7
56
392 49 3136
5
53 265 25 2809
3
51
153
9
2601
7
55 385 49 3025
8
58
464 64 3364
7
55 385 49 3025
6
55
330 36 3025

7
4
7
5

55
52
55
53

385 49 3025
208 16 2704
385 49 3025
265 25 2809

5
6
6
7

TOTAL 294

53
54
53
56

265
324
318
392

25
36
36
49

2809
2916
2809
3136

2705 16039 1850 146501

Se vislumbra una relacin positiva, con coeficiente de correlacin:

Entre la experiencia y el salario actual hay una excelente correlacin


positiva.
Si escudriamos en la magnitud de las relaciones entre las diferentes
variables cuantitativas, que se han indagado a las obreras de Manufacturas del
Centro encontramos los siguientes coeficientes de correlacin:

En el problema que nos ocupa, la variable salario/da tiene una excelente


correlacin positiva, con los aos de experiencia, y una buena correlacin directa
con la calificacin y la escolaridad, empero hay una buena relacin inversa, con la
variable ausencias al trabajo.

8.3. REGRESIN LINEAL


Teniendo ya conocimiento de la intensidad de la correlacin entre las
variables, manifestada a travs del diagrama de dispersin, y el coeficiente de

correlacin, podemos ensayar el ajuste de un modelo estadstico que se adapte


mejor a las n observaciones; lo que lleva por nombre regresin. Uno de los
procedimientos muy comunes en el ajuste regresivo es el mtodo de los mnimos
cuadrados, que produce estimaciones con menor error cuadrtico promedio
8.3.1. Ajuste Rectilneo (Mtodo de los Mnimos Cuadrados)
La forma general de una ecuacin de lnea recta es:
con:

X :Variable independiente
Y : Variable dependiente
a Trmino independiente o
: intercepto
b : Coeficiente de X
Debemos establecer los parmetro a y b de la ecuacin para poder
expresar los valores de la variable Y en funcin de los valores de la variable X, esto
es:

multipliquemos cada una de estas ecuaciones por su respectivo valor de X

Las ecuaciones (1) y (2) son llamadas ecuaciones normales de la lnea recta,
de donde se pueden despejar los parmetros a, b en funcin de los datos originales.
De (1) tenemos:

Remplazando (3) en (2):

Las estimaciones para los parmetros son:

El gorrito ^ colocado sobre el parmetro indica estimaciones


fundamentadas, en los datos muestrales.
Para ajustar el modelo rectilneo a los ingresos diarios actuales explicados
por los aos de experiencia, en la fbrica textil Manufacturas del Centro S.A.,
aprovechamos los totales ya calculados en el coeficiente de correlacin:

Como quiera que los items de la variable salario estn en unidades de mil
pesos, la ecuacin de pronstico definitiva es:

Salario Real y Estimado Vs. Experiencia

Insistimos en la existencia de pruebas estadsticas, que miden la bondad de


los parmetros estimados y del modelo en s, a estas alturas de nuestro documento
no tenemos las herramientas para aplicarlas, sin embargo en el mercado hay
software estadstico, que calcula los parmetros, ajusta los modelos y efecta las
respectivas pruebas, sin exigir al usuario grandes conocimientos de estadstica
matemtica. Se debe tener cuidado, eso s, en la interpretacin adecuada de los
resultados.

El siguiente es el reporte parcial producido por el programa de computador


Statgraphics plus :

El programa calcula:
y
y consecuentemente el modelo
,
el paquete hace tambin las pruebas t student para la hiptesis nula H0 : a=0
vs la hiptesis alternativa H1 :

y H0 : b = 0 vs H1 :

, dado que el valor p

para ambos casos p= 0.0000, con una confiabilidad superior al 99% se rechazan
ambas hiptesis de nulidad, a favor de las hiptesis alternativas. En cuanto al valor
p = 0.0000 (para la prueba F) en la tabla de

anlisis de varianza, tambin se

interpreta la validez del modelo con un nivel de confiabilidad superior al 99%.


De otro lado corrobora una correlacin positiva excelente r=0.957578 y un
coeficiente de determinacin R-cuadrado, de 91.6956% que indica el porcentaje de
la variable salario explicado por la variable experiencia.
El coficiente de determinacin R2 viene expresado como:

Aprovechemos este pequeo parntesis, para decir que hoy la


tecnologa informtica ha hecho posible la formulacin y solucin de
complejos modelos multivariados, que constan de cientos de variables,
que en aos recientes solo se podan teorizar.
En la bsqueda de las variables que explican la variable salario, en la
fabrica La Hilacha obtenemos el siguiente reporte del programa
Statgraphics plus:

El software, analiza los diferentes valores p y descalifica la variable edad,


al nivel del 90% de confidencialidad, debido a que p=0.1451 hace que el coeficiente
de esta variable no sea significante dentro del modelo.

Eliminada la variable edad, encontramos un modelo vlido con un nivel de confianza


superior al 99% cuyos coeficientes son admitidos con una confiabilidad superior al
95%.

R-cuadrado para este modelo es 95.58% , es decir el porcentaje del salario que
est siendo explicado por las variables independientes, es ligeramente menor al Rcuadrado anterior (95.8%), sacrificio insignificante cuando se trata de reducir la
complejidad del modelo.

Veamos las estimaciones producidas por la ecuacin


Miles Gast ause Calif estim Error
Hijos Exp Esco- S/.
dia
salario
2
2
3
3
1
0
1
0
3
3
1
2
0
0
0
0
1
2
2
0
0
1
2
1
3
0
4
3
3
3
1
2
0
1

4
5
7
6
5
7
5
9
3
6
7
3
6
7
6
8
4
6
5
7
7
7
4
7
5
8
6
6
5
7
8
5
9
6

5
5
4
4
3
8
3
9
3
3
6
3
7
7
5
8
3
4
4
9
8
6
3
6
3
9
5
5
4
4
6
4
8
5

52
54
55
54
53
56
54
58
51
54
54
51
54
55
54
56
52
54
53
55
55
55
52
55
53
57
54
55
53
55
56
53
57
54

5
6
8
9
3
1
2
0
10
9
3
6
1
1
2
3
2
5
5
4
4
4
7
3
7
3
13
8
8
9
4
6
2
3

3
2
1
1
2
1
2
0
3
2
2
5
1
1
2
1
3
2
3
2
1
2
3
1
2
1
2
2
2
0
0
2
0
1

1
1
4
3
2
4
3
5
1
2
3
1
2
3
3
4
2
2
2
3
3
3
1
3
2
5
3
3
2
3
4
2
4
3

52.51
53.23
55.25
54.36
52.91
55.84
53.26
57.79
51.35
53.59
54.98
50.82
54.55
55.34
53.93
56.18
52.20
53.87
53.05
55.26
55.29
54.89
51.82
55.26
53.25
56.67
54.30
54.43
53.40
55.18
56.23
53.23
57.10
54.47

0.51
- 0.77
0.25
0.36
- 0.09
- 0.16
- 0.74
- 0.21
0.35
- 0.41
0.98
- 0.18
0.55
0.34
- 0.07
0.18
0.20
- 0.13
0.05
0.26
0.29
- 0.11
- 0.18
0.26
0.25
- 0.33
0.30
- 0.57
0.40
0.18
0.23
0.23
0.10
0.47

2
2
2
2
2
2
3
1
0
2
1
2
1
2
2
1

5
2
6
4
5
6
4
8
7
3
8
6
5
6
6
7

3
3
5
3
4
4
3
9
8
3
9
5
5
4
5
6

53
50
55
52
53
54
52
57
56
51
58
55
53
54
53
56

6
7
6
6
8
8
11
3
5
6
3
4
2
3
7
3

2
5
0
4
3
1
4
0
0
4
0
0
4
1
3
0

3
1
3
1
1
2
1
4
4
1
4
2
1
1
1
3

53.23
50.18
54.82
51.64
52.50
53.85
51.51
57.07
55.72
51.10
57.07
54.77
52.71
54.10
53.39
55.54

0.23
0.18
0.18
0.36
0.50
0.15
0.49
0.07
0.28
0.10
0.93
0.23
0.29
0.10
0.39
0.46

8.3.2. Ajuste Parablico (Mtodo Mnimos Cuadrados)


Suele suceder que al dibujar la nube de puntos correspondiente a n
observaciones bivariante, se observa una tendencia no rectilnea, pero a la cual se
le puede ajustar un modelo terico conocido.
Dentro de la familia de modelos, es de aplicacin comn el ajuste regresivo
polinomial de grado s
. Similarmente con el procedimiento seguido en el
ajuste rectilneo, vamos a encontrar las ecuaciones normales par una parbola, de
forma general
es decir
,
, .......,
. Si cada
una de estas ecuaciones la multiplicamos por su respectivo valor de x, y repetimos
la accin tenemos:

sumando se obtienen las siguientes ecuaciones normales

(1)
(2)
(3)
De donde se pueden estimar los parmetros de la parbola

Ejemplo: En un experimento agropecuario, se toma una muestra de 15


unidades de una variedad de rbol frutal, se observa el rendimiento
en frutos de acuerdo con la cantidad de fertilizante utilizado:

Resolviendo se obtienen las siguientes estimaciones de los parmetros:


,

El programa Statgraphics produce el siguiente reporte:

Parbola Ajustada

PRACTIQUEMOS N 8
1.
Ingresos y Gastos en Arrendamiento de un Grupo de Familias;
en Miles de Soles.

1.1. Calcular el coeficiente de correlacin e interpretarlo.


1.2. Ajustar el modelo adecuado para esta informacin.
1.3. Cunto se estima, debe pagar una familia con ingreso mensual de
270.000 soles?.
2. Que es un coeficiente de correlacin?.
3. Cuando hay correlacin:
3.1 Perfecta
3.2 Excelente
3.3 Buena
4. Cules son las ecuaciones normales de la lnea recta?.

Captulo 9
Tasas e ndices
********************
Como ya se dijo, el anlisis de un fenmeno basado en las cifras absolutas,
ofrece una idea general de su tendencia o comportamiento; pero para efectos de
establecer comparaciones adecuadas del mismo fenmeno con otra regin, o su
ocurrencia a travs del tiempo, se utilizan ciertos indicadores denominados tasas e
ndices.

9.1. TASA
Una tasa es la resultante de una fraccin, en donde el numerador est
contenido dentro del denominador:
Ejemplos:

Donde:
D: Tasa de desercin escolar.
R: Nmero de retiros durante el ao.
M: Nmero total de matriculados durante el ao.

TE:
Tasa de empleo.
PEAO: Poblacin econmicamente activa ocupada.
PEA : Poblacin econmicamente activa.
Valga anotar que a las tasas se les debe multiplicar por una constante k, la cual
generalmente es 100, 1000 o mltiplos de ellos, con el fin de convertirlos en
porcentajes, por millares etc.
En demografa, las tasas son de uso frecuente, entre otras, mencionaremos las
siguientes:

Donde:
TM :Tasa de mortalidad.
D : Nmero de defunciones en un periodo y rea dada.
P : Poblacin total en esa rea a mitad del periodo.

Donde
TN :Tasa de natalidad
N : Nmero de nacidos vivos ocurridos en un periodo y rea dada
P : Poblacin total del rea a mitad del periodo.

Donde:
TC :Tasa de nupcialidad.
M : Nmero de matrimonios efectuados en un periodo y rea
dada.
P : Total de la poblacin a mitad del periodo.

El siguiente cuadro muestra la evolucin de la tasa de desempleo en Per,


resultados obtenidos de la encuesta nacional de hogares para los periodos
comprendidos entre los aos 1.990 2.000
Tasas de Desempleo en Per 1990-2000

9.2. NDICE
Un nmero ndice, como comnmente se le llama, es un indicador de los
cambios relativos de una o ms variables a travs del tiempo.
Entre las principales aplicaciones de los nmeros ndice, est la de
establecer comparaciones entre los indicadores de las diferentes zonas
geogrficas, profesiones , grupos tnicos etc.
Para la construccin de un nmero ndice, se procede ante todo, a fijar el
periodo de referencia o "periodo base" de la serie temporal, teniendo presente que
debe ser un periodo normal, esto es, que no se hayan presentado situaciones
fortuitas (guerras, terremotos, incendios u otro tipo de imprevisto), que incidan en
el valor de la variable para ese periodo. Adems debe considerarse un periodo

reciente que
consideradas.

haga

comparables

los

diferentes

valores

de

las

variables

9.2.1. ndice Simple


Un nmero ndice simple, es aquel que se calcula para una sola variable,
dividiendo cada uno de los valores de la serie cronolgica, por el valor
correspondiente al "periodo base" previamente definido.
9.2.1.1 ndice de Base Fija
, si la variable se refiere a precios
, si la variable se refiere a cantidades

Ip :
Pn:
P0 :
Iq :
qn :
q0 :

ndice de precios
Precio del artculo en el periodo n
Precio del artculo en el periodo base
ndice de cantidades
Cantidad del articulo en el periodo n
Cantidad del articulo en el periodo bas

Precio Promedio del Kilovatio/Hora 1995-2001 Pagado por la Fbrica


Textil Manufacturas del Centro S.A.

Consumo Promedio de Energa en la Fbrica Textil Manufacturas del


Centro S.A.

En la primera tabla hemos calculado los ndices de precios simples, con base
en 1995 y 1998 respectivamente, pero no se han tenido en cuenta las
cantidades, mientras que en la segunda tabla se han calculado los ndices de
cantidades sin considerar los precios. Calculemos, ahora los ndices del
valor relativo, que considere tanto los precios como las cantidades:

Precio y Consumo Promedio de Energa en La Fbrica Textil


Manufacturas del Centro S.A.

9.2.1.2 ndice de Base Mvil


Solo hemos considerado, los ndices simples de base fija, esto es, con
un periodo base determinado. Es comn que interese comparar un
ndice con el ndice del periodo inmediatamente anterior, en
consecuencia se debe fijar el periodo base en el periodo anterior al
referenciado, y as sucesivamente hasta completar la serie, al cual se
le nombra ndice de base mvil.
Variaciones del Salario Promedio Diario en La Fbrica Textil

Manufacturas del Centro S.A.

9.2.2. ndices Compuestos (Globales)


Un nmero ndice compuesto, muestra los cambios de un conjunto de
variables, auque sus unidades de medidas, cantidades y precios, en el tiempo, sean
diferentes entre s. Cuando hablamos por ejemplo de los ndices indicadores del
costo de la canasta familiar, se toman en cuenta muchos artculos cuyos consumos
inciden en el costo de vida, con una ponderacin o importancia diferente en cada
caso. Colectivamente no es lo mismo un cambio en el precio de la carne, huevos o
leche, que un cambio en el precio de los perfumes, joyas o cualquier otro artculo
suntuoso.
9.2.2.1 ndice de Laspeyres
Este ndice asume como ponderaciones, en el clculo del ndice global,
las cantidades de los artculos en el periodo base.

Donde:
PL : ndice de precios global (Laspeyres).
q0 :Cantidad del periodo base.
p0 :Precio del artculo en el periodo base
pn : Precio del artculo en el periodo n

ndice de Precios de Cuatro Artculos

9.2.2.2 ndice de Paasche


El estadstico Paasche, sugiere que las ponderaciones sean las
cantidades utilizadas en el periodo n. Se obtiene entonces el siguiente
indicador:

Este ndice, es poco utilizado debido al dinamismo de qn , necesitando


nuevas ponderaciones cada vez que se cambia de periodo.
9.2.2.3 ndice ideal de Fisher
Se propone el promedio geomtrico entre los dos ndices anteriores:

Una de las principales aplicaciones de los ndices de precios, es la de


medir la deflacin e inflacin, que es la variacin que existe en el
poder adquisitivo del dinero. Tambin podemos utilizar, los ndices de
precios al consumidor para determinar el salario real de un grupo de
personas.

Salario Promedio Nominal y Real en la Fbrica Textil Manufacturas del


Centro S.A.

Dado el deterioro del salario real en los dos ltimos aos debera
considerarse un generoso aumento.

PRACTIQUEMOS N 9
1. Qu es una tasa?.
2. Qu es un ndice?.
3. Para qu se utilizan los nmeros ndices?.
4. Cmo se construye un nmero ndice simple?.
5. Cmo se construye un nmero ndice compuesto?.
6. Los precios y las cantidades de un artculo X vienen dados en la siguiente tabla:

Tomando como ao base 1995, calcular para los otros aos:


6.1. Los ndices de precios.
6.2. Los ndices de cantidades.
6.3. Los ndices de valores.
7. A continuacin se relacionan los precios y las cantidades del ao base, de cuatro
artculos diferentes:

Calcular el ndice de Laspeyres

8.
Salario Mnimo Legal Diario en Bolivia e ndice de Precios al
Consumidor para el Ao 2.000-2001

Calcular el salario real para cada uno de los meses.

Captulo 10
Introduccin a la Teora de Probabilidades
*************************************************
Los planes corresponden al hombre,
las probabilidades a Dios.
Proverbio chino

Introduccin.
Jacob Berooulli (1654 - 1705), Abraham de Moivre (1667 - 1754), el
reverendo Thomas Bayes (1702 - 1761) y Joseph Lagrange (1736 - 1813)
desarrollaron frmulas y tcnicas para el clculo de la probabilidad. En el siglo
XIX, Pierre Simon, marqus de Laplace (1749 - 1827), unific todas estas primeras
ideas y compil la primera teora general de la probabilidad.
La teora de la probabilidad fue aplicada con xito en las mesas de juego y,
lo que es ms importante, en problemas sociales y econmicos. La industria de
seguros requera un conocimiento preciso acerca de los riesgos de prdida. Muchos
centros de aprendizaje estudiaron la probabilidad como una herramienta para el
entendimiento de los fenmenos sociales.
Nuestra necesidad de tratar con total incertidumbre nos lleva a estudiar y
utilizar la teora de la probabilidad. Al organizar la informacin y considerarla de
manera sistemtica, seremos capaces de reconocer nuestras suposiciones,
comunicar nuestro razonamiento a otras personas y tomar una decisin ms slida.
Conceptos bsicos sobre probabilidad.

La probabilidad es la posibilidad de que algo pase. Las probabilidades se


expresan como fracciones o como decimales que estn entre uno y cero. Tener una
probabilidad de cero significa que algo nuca va a suceder; una probabilidad de uno
indica que algo va a suceder siempre.
En la teora de la probabilidad, un evento es uno o ms de los posibles
resultados de hacer algo.
La actividad que origine uno de dichos eventos se conoce como experimento
aleatorio.
Al conjunto de todos los resultados posibles de un experimento se le llama
espacio muestral del experimento.
Se dice que dos eventos son mutuamente excluyentes si uno y slo uno de
ellos puede tener lugar a un tiempo.
Cuando en una lista de los posibles eventos que pueden resultar de un
experimento se incluyen todos los resultados posibles, se dice que la lista es
colectivamente exhaustiva. En una lista colectivamente exhaustiva se presentan
todos los resultados posibles.
Todo experimento debe ser susceptible de repeticiones conservando las
mismas condiciones con las cuales se realiz su antecesor. Esto es, el investigador
debe fijar esas condiciones, bajo las cuales se realizarn las sucesivas repeticiones
del experimento y conservarlas en cada una de las rplicas, de tal manera que sus
inferencias resulten lo ms fiables posible. Sin embargo, aun as no siempre se
obtienen los mismos resultados, pues a veces participan factores incontrolables
que aparentemente no obedecen a ninguna causa natural, ni intervencin humana
intencionada y que denominamos Azar o casualidad.
Desde el punto de vista de la presencia o no de la contingencia en los
resultados, si definimos experimentos determinsticos y experimentos aleatorios:

Experimento determinstico es aquel en el cual, bajo las mismas condiciones


experimentales, las repeticiones del experimento absolutamente todas, siempre
producen el mismo resultado.
El experimento Aleatorio, conservando las mismas condiciones experimentales,
los resultados no se pueden predecir, con exactitud, para ninguna repeticin.
S, por ejemplo lanzamos una moneda al aire para observar de cual lado cae,
no podemos pronosticar con certeza, si se presenta sello o se presenta cara.

Tenemos entonces presente el componente del azar y por consiguiente un


experimento aleatorio. No ocurrira igual si la moneda estuviese diseada igual por
ambos lados y por consiguiente sera un experimento determinstico:
Todos los posibles resultados de un experimento aleatorio, conforman el
espacio muestral que representaremos por S, a cualquier subconjunto del
espacio muestral se le denomina suceso o evento aleatorio y lo denotaremos con
E.
. Cada uno de los elementos del espacio muestral se denomina evento
elemental e:
Definiciones sobre Sucesos:

El evento
El evento

ocurre cuando se verifica uno de los dos, o ambos sucesos.


se presenta cuando ocurren los dos simultneamente.

Evento o suceso elemental

Evento o suceso seguro Siempre se presenta en un experimento: S


Evento o suceso imposible nunca ocurre dentro un experimento:
Eventos incompatibles Dos o ms sucesos son incompatibles o excluyentes cuando
la ocurrencia de uno impide la presencia de los otros. Si E1, E2 excluyentes
entonces
Sucesos complementarios o contrarios Dos sucesos son complementarios cuando
son mutuamente excluyentes y su unin conforma: el espacio muestral :
son
complementarios
.
. Si E es un evento seguro, entonces E=S

En general,
conjuntos.

los sucesos o eventos, tienen las mismas propiedades de los

Propiedades de los eventos:

El complemento de la unin de dos sucesos es la interseccin de sus


complementos:

El complemento de la interseccin de dos sucesos es la unin de sus


complementos:
Ejemplo:
Lanzamos una moneda para observar, si cae del lado de cara o del lado
de sello:

Espacio muestral
Eventos elementales

Evento seguro
Evento imposible
E1 y E2 son eventos excluyentes.

Ejemplo:
Lanzar un par de dados, marcados c/u con los nmeros 1,2,3,4,5 y 6.
Espacio muestral

E1: (suma igual a 2):


E2: (suma igual a 3):
E3: (suma igual a 4):
E4: (suma igual a 5):
E5: (suma igual a 6):
E6: (suma igual a 7):
E7: (suma igual a 8):
E8: (suma igual a 9):

suceso elemental

E9: (suma igual a 10):


E10: (suma igual a 11):
E11: (suma igual a 12):

suceso elemental

Con la unin e interseccin de dos o mas eventos, se generan nuevos sucesos.


Ejemplo:
En una mesa hay un juego (28 fichas) de domin, se voltea una ficha
para observar sus nmeros:
Espacio muestral

E1: La diferencia absoluta entre sus componentes sea igual a 0

E2: La diferencia absoluta entre sus componentes sea igual a 1

E3: La diferencia absoluta entre sus componentes sea igual a 2

E4: La diferencia absoluta entre sus componentes sea igual a 3

E5: La diferencia absoluta entre sus componentes sea igual a 4

E6: La diferencia absoluta entre sus componentes sea igual a 5

E7: La diferencia absoluta entre sus componentes sea igual a 6

10.1. NOCIONES DE CONTEO


10.1.1. Principio Fundamental 1
Si un suceso A puede ocurrir de n maneras y otro suceso B puede ocurrir m
maneras, entonces el suceso A B (Sucede el evento A sucede el evento
B) puede ocurrir de
formas, siempre y cuando los eventos no puedan
suceder simultneamente.
Ejemplo:
En el lanzamiento de un dado, de cuantas maneras se puede obtener un
nmero inferior a 2 o mayor que 4?.
A: (nmero inferior a 2) sucede solo de una manera.
B : (nmero superior a 4), sucede de dos maneras.
A B (nmero inferior a 2 o superior a 4).
sucede de 1+2=3 maneras.

10.1.2. Principio Fundamental 2


Si un seceso A puede suceder de n maneras y un suceso B de m formas, entonces el
suceso A y B (sucede el evento A y sucede el Evento B) puede ocurrir de n(m)
modos.

De cuantas maneras distintas pueden caer 2 dados, lanzados simultneamente:


A: (dado 1) puede caer de 6 maneras.
B : (dado 2) puede caer de 6 maneras.
A y B (dado 1 y dado 2 ) sucede de 6(6) =36 maneras.
10.1.3. Permutaciones:
Se le llama permutacin a cada uno de los arreglos de n elementos, cuya diferenciacin
mutua se debe al orden en que estn colocados sus elementos. Al total de permutaciones
obtenidas con n elementos se le representa por:
1
Ejemplo:
Cuantas palabras diferentes se pueden formar con las letras n, l, o, e; as no tengan
sentido?.

nloe, nleo, nelo, neol, nole noel, lnoe, lneo, leno, leon, lone, loen, elon,
elno, enlo, enol, eoln, eonl, olne, olen, oeln, oenl, onle, onel.
10.1.4. Variaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n elementos
, cuya diferenciacin mutua se deba a los elementos el orden de colocacin,
se le denomina variacin. El nmero total de variaciones se representa por:

Ejemplo:
Cuantos nmeros de tres cifras se pueden construir con los dgitos
1,2,3,4,5,6,7,8,9,0 si ninguno se puede repetir

10.1.5. Combinaciones
A cada uno de los arreglos de r elementos obtenidos de un grupo de n
elementos
, cuya diferenciacin mutua se deba a los elementos sin importar el
orden de colocacin de ellos, se le denomina combinacin. El nmero total de
combinaciones se representa por:

Ejemplo:
De cuantas maneras se puede escoger un comit de 4 hombres de un
grupo de 8?.

10.1.6. Permutaciones con Repeticin


En el caso de las permutaciones, si el elmento1 se repite r1 veces, el
elemento 2 se repite r2 veces, etc. Y el elemento k se repite rk, se le llama
permutaciones con repeticin y se calcula con:

Ejemplo:
Cuantas palabras diferentes, aun sin significado, se pueden formar
con las letras de la palabra amorosos?.

10.1.7. Variaciones con Repeticin


En el caso de las variaciones si los elementos se pueden repetir hasta r
veces se les denomina variaciones con repeticin y se obtienen por:

Ejemplo:

Cuntos nmeros de cuatro cifras existen?

PRACTIQUEMOS N 10
1. De cuntas maneras se pueden colocar dos anillos diferentes en la misma mano,
de modo que no estn en el mismo dedo?.
2. Al lanzar cinco dados de distintos colores cuntos resultados podemos
obtener?.
3. Con los nmeros 1,2,3,4,5 y 6:
3.1 Cuntos nmeros distintos de siete cifras podramos formar?.
3.2 Podremos numerar a los 3224564 habitantes de una ciudad con esos
nmeros?.
4. Se lanzan al aire uno tras otro cinco dados equilibrados de seis caras. Cul es
el nmero de casos posibles?.
5. Cuntos nmeros de seis cifras existen que estn formados por cuatro
nmeros dos y por dos nmeros tres?.
6. Lola tiene 25 bolitas (10 rojas, 8 azules y 7 blancas) para hacerse un collar.
Engarzando las 25 bolitas en un hilo, cuntos collares distintos podr
realizar?.
7. Cuntas palabras distintas, con o sin sentido, podremos formar con las letras
de la palabra educacin? y con la palabra vacaciones?.
8. Un grupo de amigos formado por Ral, Sonia, Ricardo y Carmen organizan una
fiesta, acuerdan que dos de ellos se encargarn de comprar la comida y las
bebidas De cuntas formas posibles puede estar compuesta la pareja
encargada de dicha misin?.
9. Una fbrica de helados dispone de cinco sabores distintos (vainilla, chocolate,
nata, fresa y cola) y quiere hacer helados de dos sabores Cuntos tipos de
helado podrn fabricar?.
10. Un grupo de amigos y amigas se encuentran y se dan un beso para saludarse. Si
se han dado en total 21 besos, cuntas personas haba?.
11. En una carrera de 500 metros participan doce corredores De cuntas
maneras pueden adjudicarse las medallas de oro, plata, bronce?.
12. De cuntas formas pueden cubrirse los cargos de presidente, vicepresidente,
secretario y tesorero de un club deportivo sabiendo que hay 14 candidatos?.

10.2. DEFINICIN DE PROBABILIDAD


Los eventos aleatorios no son predecibles con absoluta certeza, no obstante
podemos medir el grado de confianza con que se hace un pronstico, sobre la
ocurrencia o no de un determinado suceso.

10.2.1. Probabilidad Clsica o "a priori"


Si un evento puede ocurrir de n maneras, equiprobables y mutuamente
excluyentes, de las cuales m maneras son favorables al suceso A; se define
probabilidad del suceso A como:

Ejemplo:
En el lanzamiento de un dado de seis caras una vez, si

10.2.2. Probabilidad "a posteriori" o de Frecuencia Relativa


Si un experimento se repite n veces
presenta el suceso A, entonces es de esperarse que:

, de las cuales m veces se

La proporcin de veces que se presenta el suceso A tiende a estabilizarse en


un nmero entre 0 y 1 llamado probabilidad de A.
Si por ejemplo, lanzamos un dado cien veces y observamos la presencia del
nmero 2 en 16 veces,

en tal caso

10.2.3. Probabilidad Subjetiva


En la probabilidad subjetiva intervienen preferencias y emociones del
analista que en general, son diferentes para cada caso. Por ejemplo, un apostador
puede preferir el nmero 3 porque su horscopo se lo recomienda.

10.3. AXIOMAS DE LA TEORA DE PROBABILIDADES


Para todo experimento, la probabilidad de ocurrencia de un evento A, p(A),
es una funcin que cumple con los siguientes axiomas:
10.3.1.
10.3.2.
10.3.3. Si dos o ms sucesos son incompatibles entre s, entonces la probabilidad
de la unin de ellos, es igual a la suma de sus probabilidades respectivas

De estos tres axiomas podemos, fcilmente, deducir que:


10.3.3.1
cero.

La Probabilidad de un evento imposible es igual a

10.3.3.2
La probabilidad de un evento es igual a la
unidad menos la probabilidad de su complemento.
10.3.3.3
Toda probabilidad est definida entre la
probabilidad del suceso imposible y la probabilidad del evento seguro.
10.3.3.4

10.3.3.5
Si dos eventos son compatibles, la probabilidad de su unin es igual a
la suma de sus probabilidades menos la probabilidad de su
interseccin.

En el ejemplo del lanzamiento de dos dados si:

A : (suma sea mayor que 5 pero menor que 10)

B : (la suma sea mayor que 8)

10.4. PROBABILIDAD CONDICIONAL E INDEPENDENCIA


ESTADSTICA
Si tenemos los sucesos A, B en un experimento aleatorio, con p(B)>0, se llama
probabilidad condicional a: p(A/B) La probabilidad de ocurrencia del evento A
dado que ya se ha presentado el suceso B.

Ejemplo:
a un grupo de personas se le pregunta sobre la intencin de voto para
las prximas elecciones.

p(vote dado que es masculino)=

p(vote dado que es femenino)=

Independencia Estadstica

Por ejemplo la probabilidad de obtener un nmero impar en el segundo lanzamiento


de un dado, no depende de si en el primer lanzamiento se obtuvo un nmero impar.

PRACTIQUEMOS N 11
1. Defina:
1.1 Experimento aleatorio, y experimento determinstico.
1.2 Evento elemental, suceso seguro, suceso imposible, eventos
excluyentes y eventos independientes.
2. Para cada uno de los eventos definidos en el lanzamiento de dos dados, calcular
su respectiva probabilidad de ocurrencia.
3. En el experimento de seleccionar una ficha de domin, determinar las
probabilidades para todos sus eventos elementales.
4. Para el ejemplo de la intencin de voto segn el sexo, calcular la probabilidad de
no votante dado que es de sexo masculino.
10.5. VARIABLE ALEATORIA
En el clculo de probabilidades, generalmente, es ms sencillo identificar los
eventos numricamente, y no con la simple descripcin del suceso que pueda
ocurrir, es ms, en muchas ocasiones no podemos registrar todos los sucesos
inmersos en el espacio muestral del experimento. Debemos recurrir a
cuantificar esos smbolos iniciales en nmeros reales que se puedan operar
matemticamente.

Definicin: Una variable aleatoria es una funcin definida sobre un espacio


muestral a los nmeros reales. Si ese espacio muestral especificado como
dominio es numerable, decimos que la variable es de tipo discreto, en caso
contrario diremos que es de tipo continuo.
En el experimento de lanzar una moneda, una vez, definimos la variable
aleatoria X: el nmero de sellos obtenido.

En la tirada de dos dados si X es la suma obtenida:

X(c) = 0
X(s) = 1

10.6. FUNCIN DE PROBABILIDAD


Las variables aleatorias, transforman eventos del espacio muestral en
eventos numricos, los cuales desde luego, tienen asociada una probabilidad de
ocurrencia.
10.6.1. Funcin de Probabilidad f(x)=p(X=x) :
Es una funcin definida sobre una variable aleatoria a los reales en el
intervalo
que cumple con los axiomas de la teora de la probabilidad.

10.6.2. Funcin de Distribucin F(x)=p(X=x)


Es la acumulada de una funcin de probabilidad.

- : Lmite inferior de la variable X


Ejemplo:
En el Lanzamiento de una Moneda, X: Nmero de Sellos

Ejemplo:
X es la Suma Obtenida en el Lanzamiento de dos Dados:

Ejemplo:
Si X: Diferencia en Valor Absoluto, Entre los dos Sectores de una Ficha
de Domin:

Hemos creado 3 ejemplos de funciones de probabilidad para variables


aleatorias discretas con sus respectivas funciones de distribucin, que nos
permiten calcular las probabilidades para cualquier tipo de evento. Calculemos
algunas para el lanzamiento del par de dados, donde X es la suma obtenida:

Consultando directamente en la funcin de distribucin de esta variable


discreta, F(x)=p(Xx) tenemos:

Para el caso continuo, supongamos que un practicante de tiro al blanco


siempre acierta indistintamente, en un crculo de 20 centmetros de radio.

La distancia que hay entre el punto a=0 (centro) y cualquier punto de la


circunferencia b=20 es
.

Cul es la probabilidad que un disparo impacte a menos de 15 cm del


centro? a ms de 9 centmetros? Entre 7 y 14 centmetros?.

Para toda variable continua:

PRACTIQUEMOS N 12
1. Defina: Variable aleatoria, variable aleatoria discreta, variable aleatoria
continua, funcin de probabilidad y funcin de distribucin.
2. En el ejercicio de la ficha de domin, si X representa la diferencia absoluta
entre los dos nmeros, representar y calcular la probabilidad de ocurrencia de
los siguientes eventos:
2.1 La diferencia sea menor o igual a 5.
2.2 La diferencia sea mayor que 2.
2.3 La diferencia sea mayor que 2 pero menor o igual 5
2.4 La diferencia sea mayor que 5 menor que 3
10.7. VALOR ESPERADO (ESPERANZA MATEMTICA)
10.7.1. Media Aritmtica Poblacional
En el tratamiento de las medidas de tendencia central, resaltamos la
importancia de la media aritmtica de una variable, como parmetro
representativo de una muestra.
En el anlisis poblacional, la media aritmtica o valor esperado de una
variable aleatoria, se define como el promedio ponderado de los diferentes valores

que puede asumir la variable X, usando como ponderaciones las probabilidades


respectivas de ocurrencia.

si X es discreta

si X es continua

- : lmite inferior de la variable.


: lmite superior de la variable.
Ejemplo:
X es la Suma Obtenida en el Lanzamiento de Dos Dados

En promedio la suma obtenida en N tiradas es de 7. Si pagaramos en pesos


la suma obtenida en cada lanzamiento, deberamos cobrar ms de 7 pesos
para obtener utilidad en el juego.
En la variable X, distancia del centro al punto de impacto del tirador, el
valor esperado es:

10.7.2. Varianza Poblacional

Similarmente a la definicin de la media aritmtica poblacional, la varianza se


define como:

PRACTIQUEMOS N 13
1. Calcular el valor esperado para la variable diferencia en el ejemplo del domin.
2. Si usted juega chance, calcule su valor real de acuerdo con los premios que
espera obtener y comprelo con lo que realmente paga.
3. Tome un billete de lotera y calcule su precio equitativo.
4. Un contrabandista se enfrenta al siguiente dilema: Introducir o no, mercanca
por valor de $ 5'000.000 obteniendo una utilidad de $ 1'000.000. El riesgo de
ser detectado y castigado con el decomiso de la mercanca es del 17%. Que le
aconseja usted?.

Captulo 11
Distribuciones Especiales
*****************************
En el captulo anterior desarrollamos modelos probabilsticos a partir de
abstracciones de los experimentos previamente descritos, a los cuales se les crea
una funcin de probabilidad, que describa las posibilidades de esa realidad
experimental.
Muchos de los acontecimientos cotidianos, pueden ser asimilados a funciones
probabilsticas tericas, que son de gran ayuda en la toma de decisiones bajo
condiciones de incertidumbre. Eminentes estudiosos de la estadstica han
planteado modelos probabilsticos que han contribuido al desarrollo de la ciencia.
Veamos algunos de ellos:

11.1. DISTRIBUCIN DE BERNOULLI


Se puede afirmar que el experimento de Bernoulli, describe el modelo aleatorio
ms sencillo, el cual tiene las siguientes caractersticas:

En el experimento slo se hace un ensayo.


En el experimento slo se admiten dos resultados incompatibles, que
llamaremos xito y fracaso.
La probabilidad de un xito es p(E)=p.
La probabilidad de un fracaso es p(F)=1-p = q
X : es el nmero de xitos x = 0,1.

Es el caso cuando se lanza una moneda una vez y se observa de cual lado cae
o se analiza un artculo para ver si est defectuoso o no, se obtiene o no un trabajo
etc.

11.2. DISTRIBUCIN BINOMIAL


La distribucin binomial se obtiene haciendo n pruebas de Bernoulli
independientes entre s, en tal caso tiene las siguientes caractersticas:

n : nmero de repeticiones independientes del experimento de Bernoulli.


Todas las pruebas deben tener una probabilidad constante de xito p y una
probabilidad constante de fracaso q=1-p.
X : es el nmero de xitos en las n pruebas, entonces; n-X : nmero de
fracasos.

Analicemos el experimento con tres repeticiones:

(1)

(1) se puede expresar como:

(2) se puede expresar como:

(3) se puede expresar como:

(4) se puede expresar como:

entonces para n=3, tenemos que:

En general la funcin de probabilidad binomial tiene la siguiente forma:

y la funcin de distribucin:

La media aritmtica de una variable aleatoria con distribucin binomial es


, y varianza
. Con los parmetros n, y p se tipifica la
distribucin binomial y la representamos como:
.
La distribucin binomial es simtrica cuando p=0.5, en caso contrario es asimtrica
a la izquierda o a la derecha, segn el valor de p sea inferior o superior a 0.5. Ver
grfico:

Tablas Binomiales

Ejemplo:

Se sabe que el 20% de la cartera de una empresa est vencida, se toma una
muestra al azar de 15 cuentas. Cul es la probabilidad de que:

1. Haya cuatro menos cuentas vencidas?.


2. Haya menos de cuatro cuentas vencidas?.
3. Haya ms de dos cuentas vencidas.
4. Haya ms de dos pero menos de cinco cuentas vencidas?.
5. Haya exactamente 3 cuentas vencidas?.
6. No haya cuentas vencidas?.
7. Cul es valor esperado de cuentas vencidas?.
8. Cul es la desviacin estndar para el nmero de cuentas vencidas?.
Solucin:
X: nmero de cuentas vencidas.
xito: Cuenta vencida.
Probabilidad de xito : p=0.2
Nmero de pruebas n=15

1.En las tablas de distribuciones binomiales,

x=4 y p=0.2, consultamos


2.
3.

, en la interseccin
.

4.
5.
6.
7.
8.

11.3. DISTRIBUCIN DE POISSON


La distribucin de Poisson es de gran utilidad cuando tenemos
variables distribuidas a travs del tiempo del espacio. Es el caso del
nmero de llamadas que entran a una central telefnica en una unidad de
tiempo, la cantidad de personas que atiende un cajero en una hora, los
baches por kilmetro en una autopista, los artculos defectuosos que hay en
un lote de produccin; amn de su utilizacin como aproximacin binomial
cuando p es muy cercano a cero, o n superior a 30. (p<0.1 , n>30).
La funcin de probabilidad de Poisson es:

Donde:
:

X:
Ejemplo:

es decir, la media aritmtica es igual a la varianza.


(la base de los logaritmos naturales).
nmero de xitos en la unidad de tiempo o de espacio
considerado.

Un cajero de un banco atiende en promedio 7 personas por hora, cual es la


probabilidad de que un una hora determinada:
1. Atienda menos de 5 personas.
2. Atienda ms de 8 personas.
3. Atienda ms de 5 pero menos de 8 personas.
4. Atienda exactamente 7 personas.
Consultando la tabla para la distribucin de Poisson:
1.
2.
3.

4.
Ejemplo:
En cierto ncleo poblacional, el 0.5% es portador del V.I.H. En una muestra
de 80 personas, cual es la probabilidad:
1. De que haya alguna persona portadora.
2. No haya personas portadoras.
Solucin:

1.
2.
Probabilidades de Poisson Acumuladas

11.4. DISTRIBUCIN NORMAL


Dada la caracterizacin propia de este modelo continuo, donde coinciden las
medidas de tendencia central, media, moda y mediana; la simetra respecto a estos
parmetros y la facilidad de su aplicacin hacen de la distribucin normal, una
herramienta de uso comn, mxime que la mayora de las variables econmicas y
sociales se ajustan a una funcin normal.
La distribucin normal, tambin es til como aproximacin de los modelos
Binomial y Poisson expuestos anteriormente, y yendo un poco ms adelante,
sustentados en el teorema del lmite central podemos afirmar que, cuando el
tamao de la muestra es lo suficientemente grande, podemos asumir el supuesto
de normalidad para una suma de variables.
La forma acampanada de la variable normal, resalta la perfeccin de esta
curva definida por los parmetros

se representa como:
La aparente complejidad de la distribucin normal no debe preocupar al lector,
donde:
X : Variable aleatoria distribuida normalmente
Media aritmtica de la variable
Varianza de la variable

e 2.71828 constante (base de los logaritmos


naturales)
3.1416 constante
Sin embargo, existen infinitas distribuciones normales, ya que por cada media
aritmtica varianza diferente se describe una funcin tambin diferente:
Normal Diferente Media Igual Varianza

Normal Diferente Varianza Igual Media

11.5. DISTRIBUCIN NORMAL ESTANDAR


Con el sinnmero de diferentes distribuciones normales que se generaran
con cada media o varianza diferente, se hace necesario efectuar un cambio de
origen y de escala en la variable original, para estandarizarla y obtener una nueva
variable cuya manipulacin es ms fcil:

con

, la nueva variable Z se distribuye normalmente con media aritmtica


y varianza

Dado que la distribucin normal es una variable continua

Ejemplo:
Si asumimos que la resistencia de las baldosas se distribuye
normalmente con
y
Resistencia de 100 Baldosas

Si extraemos una baldosa al azar : Cual es la probabilidad de que:


1.
2.
3.
4.
5.
6.

Resista menos de 448 Kg/cm2?


Resista ms de 588 Kg/cm2 ?
Resista entre 308 y 588 Kg/cm2 ?
Resista entre 168 y 728 Kg/cm2 ?
Resista ms de 600 Kg/cm2 ?
Resista menos de 200 ms de 700 Kg/cm2 ?

Con la ayuda de los valores tabulados:

11.6. DISTRIBUCIN EXPONENCIAL.


Procesos donde se estudian fenmenos como tiempo entre o distancia entre
dos eventos cualquiera, se pueden modelas mediante la distribucin exponencial,
que tiene la siguiente funcin de densidad:

donde es el parmetro del modelo. Sus principales

propiedades son:

E (X) =

Var (X) =

El parmetro representa el valor esperado de la variable.


La funcin de distribucin es la siguiente:
F(X) = 1 - e-x/

PRACTIQUEMOS N 14
1. La probabilidad de que un visitante efecte una compra en un almacn, durante
un da dado es 0.8. Si al negocio entran 20 clientes, cul es la probabilidad de que
el almacn realice:
1.1 Exactamente 16 ventas?.
1.2 Menos de 17 ventas?.

1.3 Ms de 14 ventas?.
1.4 Exactamente 5 ventas?.
1.5 Cul es el nmero esperado de ventas?.
2. Si un almacn tiene en promedio 5 ventas por hora. Cual es la probabilidad de
que en una hora determinada:
2.1 Haya exactamente 4 ventas?.
2.2 Haya ms de 3 ventas?.
2.3 No se efecten ventas?.
3. Una de cada 10 personas mayores de 40 aos de una comunidad, sufren de
hipertensin. Se toma una muestra de 50 personas mayores de 40 aos. Utilizando
primero la distribucin binomial y luego la aproximacin a la distribucin de
Poisson, responder y comparar los resultados:
3.1 Cul es la probabilidad que haya ms de 4 hipertensos?.
3.2 Cul es la probabilidad que haya exactamente 5 hipertensos?.
4. Un lote de arandelas tiene un dimetro normal con media 10 milmetros y
desviacin tpica 0.5 milmetros. Se toma una arandela al azar. Cul es la
probabilidad de que tenga un dimetro:
4.1 Superior a 10.5 milmetros?.
4.2 Entre 9 y 11 milmetros?.
4.3 Menos de 9 milmetros?.

Captulo 12
Teora de Muestras
***********************
Como ya hemos dicho, nuestro objetivo va a ser a partir de ahora, el
tratamiento estadstico de muestras.
Pero bajo que condiciones, resulta apropiada una muestra?. Existen una
serie de factores que inciden en la respuesta de esta pregunta, y que resultan
fundamentales en Estadstica Inferencial.
Una primera cuestin, es el tamao que ha de tener. Parece evidente, que a
mayor tamao, ms se acercaran los parmetros que calculemos, a los de la
poblacin ( y es cierto siempre que se tenga en cuenta la representatividad de la
muestra, que es un aspecto que desarrollaremos ahora). En la prctica real, el
nmero de elementos de una muestra est determinado por una serie de factores:
grado de fiabilidad deseado, dificultad en la eleccin de los elementos que la
compongan, tiempo necesario para la eleccin, gastos originados,...
La segunda y ms importante cuestin es cmo deben ser elegidos los
elementos que la compongan?. Para ser vlidas, las muestras han de ser
representativas, esto es, si queremos inferir de los resultados de una muestra, en
ella se ha de reproducir en igual porcentaje el carcter estudiado, que en la
poblacin total. Por tanto, ser necesario, que en el momento de la eleccin de los
elementos de la muestra, verifiquemos que todos los elementos de la poblacin
tiene igual probabilidad de ser elegidos para la muestra.

Cuando no se tienen en cuenta estos dos principios bsicos, las inferencias


realizadas son deficientes. Existe una variedad de "mentiras estadsticas",
procedentes de afirmaciones basadas en pequeas muestras , o en muestras no
representativas. As por ejemplo, si se dice "7 de cada 10 dentistas consultados
recomiendan el dentfrico X", no debemos inferir que el 70% de los dentistas los
recomiendan, hasta saber de que forma fueron elegidos los dentistas consultados,
y cuntos fueron en total.
Las consideraciones referentes al tamao de la muestra, se estudiarn ms
adelante. Las referentes a la forma de elegir la muestra, sern estudiadas ahora.
12.1. TIPOS DE MUESTREOS
Existen bsicamente dos tipos de muestreo, los aleatorios y los no
aleatorios.
En los primeros, el aspecto principal, es que todos los miembros de la
muestra han sido elegidos al azar, de forma que cada miembro de la poblacin tuvo
igual oportunidad de salir en la muestra. Este tipo de muestreo, que es el ms
consistente, es al mismo tiempo el que resulta ms costoso, y el que utilizaremos
siempre en el desarrollo de los prximos epgrafes. Los centros oficiales como el
INE, utilizan siempre muestreos aleatorios.
Los segundos, carecen del grado de representatividad de los primeros, pero
permiten un gran ahorro en los costes. Se eligen los elementos, en funcin de que
sean representativos, segn la opinin del investigador. Es el mtodo que utilizan
generalmente las empresas privadas, y presenta el inconveniente de que la
precisin de los resultados no es muy grandes, y es difcil medir el error de
muestreo.
12.2. MUESTREOS ALEATORIOS
12.2.1. SIMPLE
Su utilizacin es muy sencilla, una vez que todos los elementos de la
poblacin han sido identificados y numerados ( y ste es probablemente su
mayor inconveniente ). A partir de aqu, decidido el tamao n de la muestra,
los elementos que la compongan se han de elegir aleatoriamente entre los N
de la poblacin.
El mtodo ms adecuado para la eleccin en nuestro caso, es la
utilizacin de tablas de nmeros aleatorios.

Si queremos elegir una muestra formada por 40 elementos de una


poblacin de 600, iremos tomando cifras aleatorias de tres en tres. Si la
cifra considerada es menor de 600, ya tendremos elegido un elemento de la
muestra. Siguiendo este proceso, y saltndonos las cifras superiores a 600,
podremos elegir todos los elementos que compondrn la muestra.
12.2.2. SISTEMTICO
Es anlogo al anterior, aunque resulta ms cmoda la eleccin de los
elementos. Si hemos de elegir 40 elementos de un grupo de 600, se
comienza por calcular el cociente 600/40 que nos dice que existen 40 grupos
de 15 elementos entre los 600. Se elige un elemento de salida entre los 15
primeros, y suponiendo que sea el k-simo, el resto de los elementos sern los
k-simos de cada grupo. En concreto, si el elemento de partida es el nmero
6, los restantes sern los que tengan los nmeros:
15+6 ,
2x15+6,......,39x15+6
Este procedimiento simplifica enormemente la eleccin de elementos,
pero puede dar al traste con la representatividad de la muestra, cuando los
elementos se hayan numerados por algn criterio concreto, y los k-simos
tienen todos una determinada caracterstica, que haga conformarse una
muestra no representativa.
12.2.3. ESTRATIFICADO
A veces nos interesa, cuando las poblaciones son muy grandes, dividir
stas en subpoblaciones o estratos, sin elementos comunes, y que cubran
toda la poblacin.
Una vez hecho esto podemos elegir, por muestreo aleatorio simple, de
cada estrato, un nmero de elementos igual o proporcional al tamao del
estrato.
Este procedimiento tiene la gran ventaja de que se puede obtener una
mayor precisin en poblaciones no homogneas (aunque en este curso no
estudiaremos los mtodos necesarios)
Si decidiramos hacer una encuesta sobre la incidencia del tabaco en
nuestro centro, podramos razonar de la siguiente forma:
El Colegio Estatal Mariscal Castilla de El Tambo, tiene 3504
alumnos, 720 en 1, 714 en 2, 708 en 3, 694 en 4, y 668 en 5.

Si deseamos tomar una muestra de 100 alumnos, para analizar la


incidencia del tabaco en la adolescencia, bastara tomar un nmero igual de
alumnos de cada estrato, es decir 20.
Si embargo, si lo que se quiere es hacer una encuesta para conocer la
opinin que tiene el alumnado sobre una medida que ha tomado el Consejo
Escolar, es ms representativo elegir de cada estrato, y en nmero
proporcional a su tamao, los elementos que compondrn la muestra. Si el 1
representa al 22.6% del alumnado, el 22.6% de la muestra (es decir 23
alumnos) se elegirn de este estrato por muestreo aleatorio simple, 22 para
2, y as hasta completar los 100 elementos de la muestra.
12.2.4. POR CONGLOMERADOS
A veces, para simplificar los procesos de toma de datos, se empieza
por elegir ciertos conglomerados (que pueden ser bloques de viviendas,
municipios, urnas electorales,...) y dentro de ellos se realiza el muestreo
aleatorio.
12.3. TOMA DE DATOS: LA ENCUESTA
Una vez decidido el tamao y la forma de elegir la muestra, aparece el
problema de cmo realizar la toma de datos. La encuesta es el instrumento idneo
para este fn.
Se debe establecer en primer lugar el objetivo de la encuesta,
desmenuzando el problema a investigar, eliminando lo que resulte superfluo, y
centrndonos en los aspectos ms relevantes.
A partir de aqu, se elabora un cuestionario, formado por un conjunto de
preguntas que han de ser respondidas por los encuestados.
De la calidad de ste ltimo depende en gran parte el resultado del trabajo.
Existen una serie de factores que se han de tener en cuenta a la hora de redactar
el cuestionario, entre los que destacan los siguientes:
Las preguntas han de ser pocas (no ms de 30) y cortas.
Cerradas ( es decir que aparezcan todas las posibles repuestas ). Si preguntamos
a un encuestado si le gustan las matemticas, no podemos dejar que aparezcan
respuestas de todo ndole, sino que responda de acuerdo a una escala numrica o
de valor. Por ejemplo podemos valorar su gusto de 1 a 5, o bien : Nada, Poco,
Normal, Mucho, Muchsimo.

Numricas o al menos codificables ( es decir que podamos traducir las respuestas


a nmeros, por ejemplo asignando nmeros del 1 al 5 a las respuestas del apartado
anterior).
Deben ser redactadas de forma concreta y precisa (sin palabras abstractas o
ambiguas), de manera que las repuestas puedan ser inequvocas.
A partir de aqu, debe ser realizado el "trabajo de campo", es decir las entrevistas
previstas, por medio de los encuestadores. Este trabajo tambin ha de hacerse
bajo unas ciertas condiciones, que garanticen que las respuestas sean sinceras.
Una vez recopilados todos los datos, se procede a tabularlos, y describirlos,
utilizando las tcnicas que ya conoces de cursos anteriores.
12.4. TEOREMA CENTRAL DEL LMITE
12.4.1. DISTRIBUCIONES MUESTRALES DE MEDIAS
Hemos dicho ya, que el objetivo de nuestro estudio es poder extender a la
poblacin lo que obtengamos de una muestra.
Imagina que de la poblacin formada por todos los alumnos del instituto,
extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad,
encontrando que la edad media obtenida es de 15,8 aos .
Pero, qu ocurrira, si extrajramos otra muestra?. Coincidiran las medias
?.Y coincidiran con la media de la poblacin?. Lo cierto es que parece lgico
pensar que aunque no tengan porqu coincidir, si deberan estar bastante prximas.
Pero, cunto de prximas?, dependera esta proximidad del tamao de las
muestras que elegimos?.
Parece necesario, que estudiemos la variabilidad de las medias obtenidas de
las muestras que repetidamente se extraigan. El siguiente resultado, responde
claramente a las preguntas planteadas.
12.4.2. EL TEOREMA CENTRAL DEL LMITE (TCL)
Imagina que tienes una poblacin con media y desviacin tpica . y que
extraes aleatoriamente todas las posibles muestras, todas ellas de tamao n. Si
obtuvieras las medias de todas estas muestras, y las consideras una distribucin
de datos (la distribucin muestral de medias), comprobaras que:
a) La media de los datos, es la media de la poblacin , es decir la media de las
medias de las muestras, es igual que la media de la poblacin.

b) Estas medias se distribuyen alrededor de la media de la poblacin, con una


desviacin tpica (llamada desviacin tpica de la media, ) igual a la de la
poblacin dividida por la raz de n, es decir, la d.t. de la media es

c) La distribucin de las medias muestrales, es una distribucin de tipo "normal",


siempre que la poblacin de procedencia lo sea, o incluso si no lo es, siempre que
el tamao de las muestras sea 30 o mayor.
En consecuencia, "si una poblacin tiene media y d.t. , y tomamos muestras
de tamao n ( de tamao al menos 30, o cualquier tamao, si la poblacin es
"normal"), las medias de estas muestras siguen aproximadamente la distribucin

(1)
Adems, cuanto mayor es el valor de n, mejor es la aproximacin "normal".
Hemos nombrado un concepto importante: la d.t. de la media
, que es el grado
de variabilidad de las medias muestrales. Cuanto menor sea, ms ajustadas a la
media de la poblacin sern las medias que obtengamos de una muestra. De su
propia definicin, es fcil darse cuenta de que cuanto mayor es el tamao de la
muestra, menor es este grado de variabilidad, y por tanto ms similar a la media de
la poblacin ser la media obtenida de la muestra.
NOTAS IMPORTANTES
Nuestra afirmacin de que la desviacin tpica de la media es
, se hace
asumiendo que la poblacin es infinita ( o el muestreo se realiza con
reemplazamiento ). En caso contrario, se debe utilizar el "factor de correccin
para poblaciones finitas", de forma que la d.t. de la media quedara:

donde N es el tamao de la poblacin y n el de la muestra.


En la prctica y como regla general, se usa el coeficiente anterior tan slo
cuando el tamao de una muestra es superior al 5% de la poblacin. Nosotros no
tendremos en cuenta este factor, pues no se resta profundidad a los conceptos
estudiados al tiempo que se simplifica su estudio.

Adems estudiaremos tan slo el caso correspondiente a muestras de ms


de 30 elementos. llamadas "muestras grandes". Para muestras de menor tamao,
se han de utilizar distribuciones distintas de la Normal, y est fuera del alcance
de este curso.
Habremos de suponer que conocemos la desviacin tpica de la poblacin
(<>), (aunque resulta improbable conocerla y desconocer la media), o bien al
menos la desviacin tpica muestral (s) (tambin llamada cuasivarianza, que resulta
ser una buena aproximacin de la desviacin tpica de la poblacin para muestras
grandes).

Este ltimo parmetro se define como


donde es la media de la muestra. Es decir es la desviacin tpica de la
muestra corregida dividiendo por n-1 en lugar de por n . Al hacer esto, el valor de
s aumentar. Se trata pues de hacer una sobreestimacin de la desviacin tpica,
para compensar el error cometido al tomar una muestra. En las calculadoras que
utilizamos se obtiene pulsando

En trminos mas coloquiales, lo que en definitiva establece el TCL, es que la


distribucin de la media, o de las sumas , de diferentes valores da como resultado
una distribucin normal. De ah la omnipresente aparicin de distribuciones
normales. Piensa en los factores biolgicos y antropomtricos. Por ser el resultado
de diferentes combinaciones genticas y suma de muchos diferentes factores, dan
como resultados distribuciones normales. Tambin por anlogas razones
muchsimos parmetros sociolgicos, econmicos, fsicos,.. siguen distribuciones de
este tipo.
EJEMPLO:
Una compaa area sabe que el equipaje de sus pasajeros tiene como media 25 kg.
con una d.t. de 6 kg. Si uno de sus aviones transporta a 50 pasajeros, el peso medio
de los equipajes de dicho grupo estar en la distribucin muestral de medias
. La probabilidad de que el peso medio para estos pasajeros
sea superior a 26 kg sera:

Si el avin no debe cargar ms de 1300 kg en sus bodegas, la media del conjunto de


los 50 pasajeros no debe superar los

En consecuencia en un 11,9% de los casos los aviones de esta compaa superan el


margen de seguridad.
Hemos estudiado ya el T.C.L., que nos permite conocer de que forman se
distribuyen las medias de las muestras de una poblacin.
Ahora invertiremos el caso: se selecciona una muestra de una poblacin de la que
se desconoce la media, y se calcula la media muestral. A partir de aqu haremos una
inferencia sobre la media poblacional, con base en la media muestral.
Imaginemos que preguntamos a una muestra de 40 alumnos, por el recorrido en km.
que tienen que hacer todos los das para llegar al instituto, y que la media de tal
muestra es de 3 km. Las dos preguntas siguientes responden a las dos formas de
inferencia que estamos estudiando:
1.- Si nos haban dicho que la media de distancia de todo el instituto era el ao
pasado de 3,8 km, es significativamente diferente esta media?, o lo que es lo
mismo, podemos decir que la media del instituto ha cambiado este ao, o por
el contrario la diferencia de medias es normal y se debe al azar al elegir los
elementos de la muestra?.
Esta pregunta implica una decisin, que podremos tomar a travs de los
denominados test de contraste de hiptesis.
2.- Tomando como base la muestra (es decir si suponemos que desconocemos la
distancia media), qu estimacin puede hacerse sobre la media poblacional
(es decir la de todo el Colegio)?.
Esta pregunta implica una estimacin, que aprenderemos a hacer ahora.
PRACTIQUEMOS N 15
1.-Encuentra en un peridico o revista, un artculo o informacin en la que a tu
juicio se est haciendo uso de una muestra.
2.-Utilizando una tabla de nmeros aleatorios, elige 15 elementos de una poblacin
numerada del 1 al 89.
3.- D de que forma elegiras una muestra de 50 alumnos de tu instituto, por
muestreo aleatorio simple, sistemtico y estratificado (cada estrato una clase,
o un nivel).

4.- Establece un mtodo para elegir una muestra de vecinos de una calle.
5.- De los 500 directores de complejos tursticos de las costas peruanas, 300
corresponden a complejos de 20 o menos habitaciones, 150 a complejos de
entre 20 y 50 habitaciones y por ltimo 50 corresponden a complejos de ms de
50 habitaciones.
6. Si pretendieras hacer una encuesta a una muestra de tamao 50, cmo la
tomaras?, sera indiferente el aspecto estadstico que tuvieras que estudiar?.
7.- Un hospital dispone de un listado de los pacientes, organizados por reas de
atencin (neurologa, traumatologa,....). D que tipos de muestreo podran
realizarse, y como los haras.
8.- Para realizar una encuesta sobre el consumo de un producto en una ciudad, se
tom una muestra de forma que de cada barrio se consultaba a un nmero de
personas proporcional a la superficie ocupada por el barrio. Te parece un
mtodo fiable?. Escribe un comentario.
9.- Un mayorista de alimentos, quiere enviar muestras de sus productos, a una
muestra de supermercados. Elige de las 5 grandes cadenas de supermercados ,
una muestra de cada, y manda sus productos para ponerlos a prueba. Qu tipo
de muestreo est utilizando?
10.-Sabemos que el tiempo medio de espera en las colas del Banco "El inters
interesado" es de 15 min. con una desviacin tpica de 5 minutos. Si tomsemos
al azar a un grupo de 35 clientes:
a) Cul es la probabilidad de que el tiempo medio de espera del grupo fuera
menor de 17 minutos?.
b) Cul es la probabilidad de que estuviera entre 12 y 16 minutos?.
c) Entre qu valores se encontrara el tiempo medio con una seguridad del
95%?. Y del 99%?.
11.-En un almacn se trabaja con bultos de igual volmen, cuyo peso se distribuye
segn N(250,45) expresados en kg. Los elevadores encargados de su transporte
dentro del almacn, pueden aguantar hasta un peso mximo total de 2000 kg. Si
la empresa decide que las carretillas se carguen con 7 bultos cada vez:
a) Cul es la probabilidad de que se supere el peso mximo de seguridad?.

b) Cuntos bultos de cada vez haran falta para que dicha probabilidad fuera
menor del 0,1%?.
12.-En unos grandes almacenes, la media de los salarios es de 105.000 pts, con una
d.t. de 25.000 pts. Si preguntaramos a 35 empleados elegidos aleatoriamente,
por su sueldo, Cul es la probabilidad de que la media correspondiente a los 35
fuera inferior a 100.000 pts?.
13.- En unas negociaciones sindicales correpondientes al sector turstico, la
patronal alega que en un establecimiento tipo de 40 empleados, en el 90% de los
casos la suma de los sueldos mensuales pagados superan los 5.000.000 de pts.
Los sindicatos disponen de cifras oficiales segn las cuales, en el sector la
media de sueldos es de 120.000 pts con una d.t. de 10.000 pts. Pueden rebatir
"estadsticamente" lo alegado por la patronal? Los sindicatos te piden redactar
un informe ilustrado con cifras que les permita contestar a la patronal.

Captulo 13
Las Tcnicas de Estimacin
********************************
13.1. ESTIMACIN
Llamaremos as al procedimiento utilizado cuando se quiere conocer las
caractersticas de un parmetro poblacional, a partir del conocimiento de la
muestra.
Imaginemos que hemos hecho la encuesta a la que se aluda en el apartado
anterior, y queremos saber cual es la verdadera media del instituto. Podemos hacer
una primera aproximacin, utilizando la media muestral
km. Sin embargo ,
este valor est sesgado debido a que solo representa a una muestra.
Podramos decir que la media buscada es prxima a 3, pero cunto de
prxima?. Digamos que 200 metros ms o menos?. Esto significara que la media
estara entre 2,8 y 3,2. Esto ltimo se denomina estimar por intervalo, y es el
mtodo que ahora vamos a ver.
INTERVALO DE CONFIANZA
Se llama as a un intervalo en el que sabemos que est un parmetro, con un nivel de
confianza especfico
Si dijramos que la media se encuentra en el intervalo (2,8 , 3,2) con un nivel
de confianza del 95%, lo que decimos es que si hiciramos muestras de tamao 40,

y furamos contabilizando sus medias, a la larga, en el 95% de los casos, la media


calculada estara en dicho intervalo.
Adems, al valor 0,2 (200 metros), que mide la mitad de la anchura del
intervalo, se le denomina error mximo de la estimacin. Lo anteriormente
argumentado se expresa en trminos estadsticos como:
"A un nivel de confianza del 95%, la media poblacional es 3 km, con un error
mximo de estimacin de
km."
Por tanto:
NIVEL DE CONFIANZA
Probabilidad de que el parmetro a estimar se encuentre en el intervalo de
confianza.
Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99%
y 99,9%
ERROR DE ESTIMACIN MXIMO
Es el radio de anchura del intervalo de confianza.
Este valor nos dice en qu margen de la media muestral se encuentra la
media poblacional al nivel de confianza asignado.
Durante este curso aprenderemos a realizar estimaciones sobre la media y
la proporcin de una caracterstica en una poblacin. La estimacin de otros
parmetros poblacionales, tales como la desviacin tpica, quedar fuera de
nuestro estudio.
13.2. ESTIMACIN DE LA MEDIA DE UNA POBLACIN
Para estimar la media poblacional por medio de intervalos de confianza, ser
necesario recordar que el Teorema Central del Lmite nos daba informacin de
como se hallaban distribuidas las medias muestrales: "normalmente" con una media
igual a la de la poblacin original (que es la que ahora tratamos de conocer) y
desviacin tpica:

Supongamos que hemos analizado la muestra ya nombrada de media


Km., y que sabemos que la desv. tpica de la poblacin es de =0,4 km., y que nos

planteamos estimar la media de todo el instituto, con un nivel de confianza del 95%
.El proceso para realizar la estimacin es el siguiente:
Sabemos por el T.C.L. que las medias muestrales se distribuyen segn

La siguiente figura nos ilustrar:

Hallamos el valor k de forma que p(-k<Z<k)=0,95 , o lo que es lo mismo


p(Z<k)=0,975. Consultando nuestra tabla de la distribucin normal, encontraremos
que k=1.96 .
Este valor nos dice que la medias muestrales se encuentran en un 95% de los
casos como mximo a 1.96 desviaciones tpicas de la media buscada, es decir,
nuestra media
, en un 95% de los casos, dista de la media poblacional menos
de 1,96.0,063=0,124 km.
Si tomamos un intervalo con centro en dicha media muestral , y radio 0,124,
en un 95% de los casos la media buscada estar dentro del intervalo.
Encontramos por tanto que a un nivel de confianza del 95%, la media
poblacional es de 3 km. con un error mximo de
, o lo que es lo
mismo, existe una probabilidad del 95%, de que la media buscada se encuentre en
el intervalo de confianza (3-0,124 , 3+0,124) = (2,976 , 3,124 ).
As pues en general para un proceso de estimacin de la media, el intervalo de
confianza ser:
(

-E,

+ E)

siendo

la media de la muestra, y

el error de estimacin.

13.3. TAMAO DE LA MUESTRA


Pero imaginemos ahora, que nos disponemos a elegir una muestra para poder
determinar con un 95% de confianza la media, con un margen de error de 50
metros. Desde luego har falta una muestra mayor para tener tan poco margen de
error Cul deber ser el tamao de la muestra para conseguirlo? .
Despejando en

obtenemos que

Como k=1,96 , E=0,05 y =0,4 calculando obtendremos que n=245,8 es decir,


redondeando, har falta una muestra correspondiente a 246 estudiantes para que
el margen de error sea de tan slo 50 metros.
De la expresin del tamao de la muestra, se deduce muy fcilmente, que deber
ser mayor cuanto mayor sea:
a) El nivel de confianza asignado
b) El grado de variabilidad de los datos originales
Por el contrario, cuanto mayor sea el tamao de la muestra, menor ser el
error de la estimacin.
13.4. ESTIMACIN DE UNA PROPORCIN
Como recordars, la distribucin binomial B(n,p), nos permite conocer como
se distribuye el nmero de xitos, correspondiente a un experimento realizado n
veces, y en el que la probabilidad de xito en cada experimento es p. Dicha
distribucin tiene media y desviacin tpica:

Supongamos que sea X la variable que mide el nmero de xitos. Ya sabes


que los posibles valores de X son 0,1,2,...,n. Si utilizaramos la nueva variable,
, sta tomara los valores correspondientes a las proporciones (en tanto por uno)
de xito.
Si por ejemplo n=200, se tendra:
X=0 , (0 xitos ) equivale a Y=0 ( es decir un 0% de xitos)
X=1 , (1 xito ) equivale a Y=0,005 ( es decir 0,5% de xitos)
X=2 , Y=0,01 ( es decir 2 xitos equivalen a un 1% de xitos)
....
X=n , Y=1 ( n xitos = 100% de xitos)
Dividiendo por n, obtendremos la media y desviacin tpica de la variable Y que
representa la proporcin de xitos:

Si ademsnp>5, nq>5, utilizando la aproximacin normal a la binomial,podremos


afirmar que las proporciones de xito para un experimento binomial de n pruebas
con probabilidad de xito p en cada prueba, se distribuyen segn:

13.5. DISTRIBUCIN MUESTRAL DE PROPORCIONES


Imaginemos que sabemos que la proporcin del alumnado de nuestro centro
que es favorable a realizar una huelga es del 60%. Cuando elegimos a un alumno, y
nos preguntamos si es favorable a la huelga, es como si realizaramos una prueba
binomial con probabilidad de xito p=0,6.
Cuando elijamos muestras aleatorias de digamos 70 alumnos, el nmero de
ellos favorable a la huelga, deber seguir una distribucin B(70, 06), o bien, la
proporcin de ellos que es favorablese debe distribuir segn

(Debe notarse que en este caso, n=70, p=0,6, q=0,4 y por tanto np>5, nq>5), o lo
que es lo mismo, las proporciones que vayamos encontrando para muestras de
tamao 70, se iran distribuyendo de forma "normal" alrededor del 60%, con una
desviaicin tpica del 5,8%.
Por tanto, si en una poblacin, una determinada caracterstica de tipo binomial (es
decir la poblacin se divide entre los que la tienen y los que no), se presenta en una
proporcin p, al tomar muestras de tamao n, las proporciones p' obtenidas, se
distribuirn segn

(a partir de este momento supondremos siempre que np>5,nq>5). A esta


distribucin se la denomina distribucin muestral de proporciones.
EJEMPLO:
En una empresa est establecido que si una mquina opera correctamente, como
mximo un 5% de su produccin es defectuosa. Si se elige aleatoriamente una
muestra de 40 artculos producidos por una mquina y 15 de ellos son defectuosos,
existe razn para pensar que la mquina est averiada?.
Las proporciones muestrales para muestras de tamao 40 en una mquina normal se
distribuyen segn

, es decir se distribuyen de forma "normal" alrededor del 5% con una d.t. del 3'4%.
En consecuencia, la probabilidad de valores como el registrado

resulta ser:

y podemos asegurar "estadsticamente" que la mquina est averiada.

Ahora que sabemos como se distribuyen las proporciones muestrales, por un


proceso similar al utilizado para estimar la media poblacional, podremos realizar
estimaciones sobre la proporcin poblacional de un carcter, conociendo la
proporcin en una muestra.
13.6. ESTIMACIN DE UNA PROPORCIN
Imaginemos que hemos tomado una muestra aleatoria de 500 personas, y que
les preguntamos si creen que el Presidente del Gobierno debe dimitir, obteniendo
el S un 70%. Supongamos que nos planteamos un intervalo de confianza del 90%
para poder estimar el porcentaje p de toda la poblacin que dira S.
segn:

Segn todo lo dicho, las proporciones del S en las muestras, se distribuirn

Como quiera que no conocemos la verdadera proporcin p, no podemos


conocer la desviacin tpica de la distribucin muestral
, por lo que
utilizaremos como sustituto para p, la proporcin muestral p'=0,7, que causar poco
cambio en los resultados finales.
En consecuencia, las proporciones muestrales, siguen la distribucin
N(p,0,02) (Nota: puesto que utilizamos tantos por uno, deberemos utilizar en los
clculos una precisin de al menos centsimas, mejorando el resultado si
precisamos ms)

Llevando a cabo los mismos pasos que en el caso de la estimacin de medias, vemos
que un 90% de las proporciones muestrales que se obtengan estarn a como
mximo 1,65 desviaciones tpicas de p (es decir a

) ,

y en

consecuencia, si suponemos que p' es una de tales proporciones ( y ser acertado


suponerlo en un 90% de los casos ), la verdadera proporcin quedar siempre en el
intervalo (p'-0'033 , p'+0'033)=(0'667,0'733).
Esto lo podemos expresar como: "Con un nivel de confianza del 90%, la proporcin
de espaoles que creen que el Presidente del Gobierno debe dimitir es de un 70%,
con un error mximo de 3,3 % "
13.7. TAMAO DE LA MUESTRA
Como ya sabemos, el error mximo depende del tamao de la muestra: a
muestras mayores corresponden errores menores.
Normalmente, cuando queremos hacer una estimacin, con un determinado
margen de confianza, nos plantearemos que el error mximo tenga un determinado
valor.
Imaginemos por ejemplo que queremos conocer el porcentaje de alumnos de
nuestro centro, que es favorable a hacer la Fuga de Huamancaca el da 12 de
Noviembre (este carcter se considerar como xito) en contraposicin con los que
la quieren hacer en otra fecha. Nos marcamos un nivel de confianza del 90%, y
queremos que el error mximo no sobrepase el 10%.
Puesto que el error mximo es,

el tamao de la muestra habr de

ser
. Existe un problema: no conocemos p, ni tan siquiera el valor p' de la
muestra puesto que an no ha sido realizada la encuesta (a no ser que por
anteriores sondeos, pueda tenerse un valor fiable para p).
Si se tiene informacin previa sobre el valor de p, puede utilizarse, pero si
no, se utilizar inicialmente p=0,5, pues se puede demostrar que para este valor se
obtiene el mximo valor del tamao de la muestra (mirar grafico siguiente) y en
consecuencia, quedar asegurado que el error es como mximo del 10%
En este caso concreto, tomando E=0,1, p=0,5 , k=1,65, obtendremos que
n=68,08 es el tamao de la muestra que debemos tomar.
Aunque el error mximo fijado es del 10%, en la prctica resultar en
general ms pequeo, a medida que la verdadera proporcin p se aleje del valor 0,5.
En particular, si en lugar de tomar inicialmente p=0,5 , hubieramos supuesto que
p=0,95, el error mximo que cometeramos utilizando 68 personas en la muestra
sera: E= 0,043, es decir un 4,3%. Una vez estimado p, podremos reajustar el
margen de error cometido. En la prctica normalmente no dispondremos de

informacin previa sobre el valor de p, y deberemos partir de p=0,5, tal y como


vers que se explicita en la ficha tcnica de los estudios que se publican.
La estimacin de proporciones es de gran importancia en la vida cotidiana,
dado que influyen por ejemplo en la programacin de la tv, los productos que
consumimos, las leyes que se legislan.
En los peridicos, revistas, televisin y los informativos de radio, es muy
corriente que se den informes de encuestas. Sin embargo frecuentemente, se dan
porcentajes, sin ninguna indicacin del grado de confianza, el margen de error o el
tamao de la muestra. Sin conocer estos datos, no podemos tener una idea clara de
la calidad de los resultados obtenidos, por lo que deberas siempre de tratar de
conocer la ficha tcnica de estos estudios.
PRACTIQUEMOS N 16.
1.- La Empresa Anquipa S.A., para planificar su poltica social, ha hecho en un
barrio una encuesta, basada en un muestreo aleatorio a 36 adultos, sobre los
ingresos medios mensuales, obtenindose $ 72800 de media y s= $ 12000.
Estimar el valor medio de los ingresos en dicho barrio con un intervalo de
confianza del 95% y del 99%.
2.- Sper Mercados Da, desea conocer cuanto gastan como media los poseedores
de una de sus tarjetas, a lo largo de un mes. Ha diseado un muestra de 1000
clientes, y sabe por experiencia que la desv. tpica poblacional es de 25.000
puntos. Si desea tener una confianza del 99% en la estimacin, cul ser el
error mximo que cometer?.
3.- Se desea establecer, con un nivel de confianza del 95%, el peso medio de las
naranjas de un barco que acaba de atracar, de forma que el error no
sobrepase los 15 gramos. Si la desviacin tpica (conocida por numerosos casos
anteriores) es de 60 g., cuntas naranjas debern ser escogidas al azar para
poder establecer dicha media?.
4.- Razona que efecto tiene cada uno de los siguientes conceptos sobre el ancho
de un intervalo de confianza:
a) Nivel de confianza
b) Tamao muestral
c) Variabilidad de las caractersticas que se miden
5.- Para conocer con un 95% de confianza y un error mximo de 500 pts, se
quiere hacer una encuesta a jvenes, sobre sus gastos durante el fn de
semana. Cul deber ser el tamao de la muestra? (supngase que s=750 pts)

6.- Una encuesta realizada sobre 40 aviones comerciales, revela que la antigedad
media de estos es de 13,41 aos, con una desviacin tpica muestral s=8,28.
a) Cul es con un 90% de confianza la antigedad media de toda la flota
comercial?.
b) Si se quisiera obtener un nivel de confianza del 95%, cometiendo el mismo
error que en el apartado anterior, y suponiendo tambin s=8,28, cuntos
elementos deberan componer la muestra?.
7.- Al medir el tiempo de reaccin , un psiclogo estima que la desviacin tpica
del mismo es de 0,5 segundos. Cul ser el nmero de medidas que deber
hacer para que sea del 99% la confianza de que el error de su estimacin no
exceder de 0,1 segundos?.
8.- En una muestra de 50 jvenes encontramos que la dedicacin media diaria al
ocio es de 400 minutos y la desviacin tpica muestral de 63 minutos. Calcular
el intervalo de confianza de la media de la poblacin al 95% de nivel de
confianza.
9.- La duracin de las bombillas fabricadas por una empresa sigue una distribucin
normal de media desconocida y desviacin tpica 50 horas. Para estimar la
duracin se experimenta con una muestra de tamao n. Calcular el valor de n
para que, con un nivel de confianza del 95%, se consiga un error en la
estimacin inferior a las 5 horas.
10.- Una muestra aleatoria de 60 personas tiene una media de 235 mg/dl
(miligramos por decilitro) en medidas de colesterol. Suponiendo que la
desviacin tpica de la variable que mide las unidades de colesterol es =28
mg/dl, se pide:
a) Calcular el intervalo de confianza , con un nivel de confianza 0'95 para la
media de la poblacin.
b) Determinar el tamao muestral necesario para reducir el intervalo de
confianza anterior a la mitad.
11.- Una revista, tras comentar los resultados de una encuesta, afirma, "En
teora en 19 de cada 20 casos, los resultados de esta encuesta, difieren en un
punto porcentual de la proporcin que se obtendra si hubiramos encuestado
a todos los espaoles". Podras decir, cual fu el nivel de confianza y el
tamao de la muestra empleados en esta encuesta?.

12.- Se pretende conocer la proporcin de alumnos que beben alcohol durante el


fn de semana. Se establece un margen de confianza del 95%, y se quiere que
el error mximo sea del 3%. cuntos elementos deberan componer la
muestra?.
13.-En una muestra aleatoria de 1000 personas, estn a favor del divorcio el 65%.
Halla con un 99% de confianza el intervalo para la proporcin real en la
poblacin. En una encuesta realizada un ao antes nos haba salido un 69% de
favorables al divorcio. Cae este valor dentro del intervalo de la actual
encuesta? Qu interpretacin das al resultado?.
14.-La ficha tcnica de un estudio publicado fu:
mbito: Regin Junn
Universo: Personas mayores de 18 aos
Muestra: 1008 casos
Entrevistas: Personales en el hogar del encuestado
Seleccin: Aleatoria de secciones censales para la determinacin del hogar y
por estratificado por edad y sexo para el entrevistado.
Trabajo de campo: Del 19 al 29 de diciembre de 2002
Margen de error: 3,1% para p=q=0,5, y un nivel de confianza del 95,5%
Instituto responsable: ITEC.
a) Calcula el error correspondiente a las estimaciones.
b) Si en una de las preguntas ha contestado afirmativamente el 68,3% de los
encuestados, cul es el intervalo de confianza segn los datos tcnicos?.
15.- a) En una encuesta realizada, se ha detectado que de 2000 adultos
encuestados (elegidos aleatoriamente), 1280 tenan alguna cuenta
corriente. Halla una estimacin con un 95% de confianza de la verdadera
proporcin de adultos con cuenta corriente.
b) Si hubiera sido menor el nmero de encuestados, explica razonadamente
cul habra sido la repercusin sobre el error de estimacin.
c) Cuntos elementos deberan haber compuesto la muestra para que el error
fuera del 2%, suponiendo un 95% de confianza, y que no se tiene
informacin previa sobre la verdadera proporcin?.
16.- El presidente de una compaa mand una carta a una empresa de
investigacin estadstica, en la que argumentaba:

"Cuando ustedes o cualquier otro intentan decirme que 1223 personas, sirven
para conocer las opiniones y gustos en Espaa, me vuelvo loco!. Cmo se
atreven!. Deberan ustedes ser detenidos y encarcelados".
Ms adelante, afirmaba: " Dado que 1223 personas representan a 40 millones,
mi carta representa la opinin de 32706 personas (divisin de 40 millones
entre 1223) que comparten mi punto de vista".
a) Encuentra para n=1223, a un nivel de confianza del 95%, el margen de
error que se comete al estimar una proporcin.
b) Este seor argumenta que 1223 personas es una muestra demasiado
pequea para tener significancia. ests de acuerdo?. Escribe una
respuesta para apoyar o refutar sus tesis.
c) Tambin argumenta que l representa a 32706 personas. Es correcto
este argumento?. Razona la respuesta.
17.-En un sondeo a 800 personas elegidas al azar, realizado antes de una eleccin
con slo dos candidatos A y B, se obtuvo el siguiente resultado: 57% para A y
43% para B. Cul es la probabilidad de que A gane las elecciones?. Y si la
muestra hubiera estado formada por 2000 personas?.
18.-Se realiz una encuesta a 350 familias, preguntando si posean ordenador en
casa o no, encontrndose que 75 de ellas lo posean. Estima la proporcin real
de familias que dispone de ordenador, con un intervalo de confianza del 95%.
Cul es el error mximo de la estimacin?.

Captulo 14
Test y Pruebas de Hiptesis
**********************************
Veremos ahora la forma de tomar una decisin en base a datos estadsticos,
controlando el margen de error que podemos cometer.
Supongamos que una empresa privada, decide otorgar una premio a aquellos
centros, en los que la nota media de una prueba realizada por los alumnos supere
los 7 puntos.
Como no puede (por razones econmicas, de tiempo, disponibilidad, etc)
realizar la prueba en todos los alumnos en cada centro, decide elegir una muestra
aleatoria de 45 alumnos de cada centro, y que sean ellos los que realicen la prueba.
Imagina que en nuestro centro, se han obtenido los siguientes resultados:
(recuerda que poda considerarse un buen sustituto de la desviacin
tpica de la poblacin, y que por tanto a partir de ahora asumiremos que =2'95)
Ahora bien, la empresa se plantea la siguiente duda, puede afirmar con
seguridad que la media del centro es superior a 7, o por el contrario el resultado
obtenido se debe al azar en la eleccin de la muestra ( es decir, en la muestra
entraron por casualidad muchos empollones)?.
Nuestro centro, dado su convencimiento de merecer el premio, propone el
siguiente proceso:

Para probar que " la media es superior a 7 " (1), supondremos en


principio lo contrario, es decir que " la media es menor o igual que 7 " (2), y
veremos en trminos probabilsticos la posibilidad de que esto ltimo ocurra.
Llegan al acuerdo de que si la probabilidad de que " la media sea menor o igual a 7 "
es menor del 5%, se aceptar la hiptesis del centro y se conceder el premio.
El centro argumenta lo siguiente:
Si la hiptesis (2) fuera cierta, es decir, la media menor o igual a 7,en el
caso extremo la media sera 7, y la distribucin muestral de medias sera N(7,
0'44).
Si esto es as, en como mnimo (*) el 95% de los casos, la media muestral
habra de ser menor que el valor t=7,726 para el que se verifica que

Este valor t se obtiene buscando en primer lugar la puntuacin tpica k para la que
p(Z<k)=0,95 , que resulta ser k=1,65. Los valores que se encuentran a ms de 1,96
desviaciones de la media, es decir, superiores a t=7+1,65x0,44=7,726 son los que
forman la regin crtica, es decir las notas medias que tienen una probabilidad de
producirse menor del 5%.

Podra ocurrir que la hiptesis (2) fuera cierta y la media muestral 7'9
perteneciera a esa distribucin y fuera un valor correspondiente a la regin crtica
(y la probabilidad de que ello ocurra es del 5%), o bien que lo que ocurra realmente,
es que (2) sea falsa, y la media obtenida pertenezca a una distribucin muestral
con media superior

( por ejemplo 7,5 ), con lo cual tal valor no sera tan raro.
En estadstica, "se apuesta" a lo que tiene mayor probabilidad de ocurrir,
por lo que se considera que la segunda eleccin es la correcta. (aunque nunca
podremos saber si lo que realmente sucede es esto)
Puesto que suponiendo que la media poblacional es como mximo 7 en al
menos 95 de cada 100 muestras la media muestral debera de ser menor que
7,726, y dado que la media muestral obtenida fue 7,9 (que se encuentra en la
regin crtica), el centro concluye que:

"Con un nivel de significacin del 5%, ( probabilidad de equivocarnos al


rechazar que la media pueda ser menor o igual a 7), existe evidencia suficiente de
que la media del centro es superior a 7 ".
Si el nivel de significacin fuera menor , la regin crtica disminuira, y
tendremos ms confianza en una decisin de rechazo de la hiptesis nula (**)
Si hubiramos obtenido de la muestra que
, al nivel de significacin
especificado no podramos rechazar que realmente la media del centro fuera
inferior a 7, es decir., "no existira evidencia suficiente de que la media fuera
superior a 7". Es evidente que al no rechazar que la media poblacional sea menor o
igual a 7, tambin estaramos arriesgndonos a cometer un error.
En cualquier caso, lo que hacemos es tomar una decisin, una vez vistas las
evidencias (datos obtenidos de la muestra), y asumido un margen de error para
nuestra decisin.
14.1. ELEMENTOS DE LOS TEST DE HIPTESIS:
El proceso que hemos descrito en el apartado anterior se denomina "test de
contraste de hiptesis", y ahora detallaremos de forma ms precisa, los
elementos que intervienen en l.
En primer lugar se han de hacer dos hiptesis (1) y (2) que barran el
conjunto de posibilidades para la media ( o en general el parmetro poblacional
sobre el que se quiere tomar una decisin). En el caso estudiado fu:

A la hiptesis (2) que en principio se consider cierta, se la denomina hiptesis


nula (H0 ) ,por ser el punto de partida, y siempre ha de incluir una igualdad . Esta
es la hiptesis que se trata de contrastar, de forma que al final del proceso, la
rechazaremos o no.
A la hiptesis (1) que es complementaria de la (2), se la denomina hiptess
alternativa (HA ) El rechazo de la hiptesis nula lleva emparejado la aceptacin de
la hiptesis alternativa.
Cuando se lleva a cabo un test de contraste de hiptesis, se ha de comenzar
por establecer las hiptesis nula y alternativa, recordando que la hiptesis nula ha
de contener obligatoriamente una igualdad.

Por lo general, se establece como hiptesis alternativa, la que trata de


probar algo que significa un cambio sobre lo que se encuentra preestablecido (por
resultados anteriores al test o por inercia) y que est representado por la
hiptesis nula. La hiptesis nula es siempre conservadora, frente a la alternativa
que propugna el cambio.
Establecidas las hiptesis nula y alternativa, Se toma la muestra, y se
calculan los datos necesarios para el contraste, en nuestro caso, la media, y la
desviacin tpica muestral
En segundo lugar se establece el nivel de significacin que es la probabilidad
de que rechacemos la hiptesis nula, siendo en realidad cierta. Utilizaremos la
letra para

denominarlo. Este nivel de significacin es la cantidad de error que nos


podemos permitir, y su eleccin depende en cada caso de la persona que realiza el
test. Los ms usuales son 10%, 5%, 1% , 0,1%. Se le denomina error de tipo I
Puede tambin ocurrir que no rechacemos la hiptesis nula, y sea en
realidad falsa. Este tipo de error denominado de tipo II y denotado con la letra ,
es un error que va directamente ligado al valor
Para este nivel de significacin habr de estudiarse la regin crtica
asociada. En el caso anterior, dado que la hiptesis nula establece que la media es
igual o inferior a 7, la regin crtica queda a la derecha. Cuando la hiptesis nula
establezca que la media es igual o superior a un valor, la regin crtica quedar a la
izquierda. Por ltimo, si la hiptesis nula establece que la media tiene un valor
determinado, la regin crtica se habr de establecer a ambos lados, de forma que
el rea total que ocupen las dos subregiones sea igual al nivel de significacin:

Se estudia para el nivel de significacin dado, si se puede rechazar o no la


hiptesis nula. Esto se hace viendo si la media obtenida se encuentra dentro de la
regin crtica asociada al nivel de significacin, o si por el contrario, est fuera.
Si "se rechaza la hiptesis nula", la conclusin debe ser redactada:
"Existe evidencia suficiente al nivel de significacin para

indicar que ..
(significado de la hiptesis alternativa)".

Si por el contrario la decisin es "no se puede rechazar la hiptesis nula", la


conclusin debera ser redactada:
"No existe suficiente evidencia al nivel de significacin que indique que ...
(significado de la hiptesis alternativa)"
Veremos ahora varios ejemplos que nos ilustrarn sobre el proceso y los
diferentes casos que pueden presentarse.
EJEMPLO 1:
El instituto cree poder probar que la edad media de los alumnos del turno de
Noche es inferior a los 30 aos. Se ha tomado una muestra de 40 alumnos, y ha
resultado que la media es 29,5 , y la desviacin tpica muestral es s=2.
Se deber en primer lugar establecer las hiptesis nula y alternativa, que deberan
ser:

En segundo lugar elegimos nivel de significacin. Dado que no es demasiado grave


equivocarse, se elige un nivel del 10%.
Razonando de forma similar al ejemplo anterior, la regin crtica
correspondiente a un 10% de significacin, sera la que correspondiese a la figura:

Donde:

y k=1'28 es la puntuacin tpica asociada a un 10% de significacin.


Puesto que la media muestral 29,5 est dentro de la regin crtica,
tendremos que rechazar la hiptesis nula, y por tanto:

"A un nivel de significacin del 10%, existe evidencia suficiente de que la


media de edad en el turno de noche es inferior a 30 aos"
EJEMPLO 2:
Un estudiante, ha ledo en la prensa, que el coste medio de un men en las
cafeteras de Las Palmas es de 500 pts. Como no est conforme, hace un test de
hiptesis, para tratar de probar que no es as.
Establece como hiptesis:
H0:
HA:
Fija un nivel de significacin del 5%, y obtiene una muestra aleatoria de 45
cafeteras, obteniendo como media 518 pts, y s=70 pts.
La regin crtica asociada a este nivel de significacin para las hiptesis
planteadas sera:

Ahora k=1'96 y por tanto


,y
En consecuencia, no puede rechazarse a este nivel de significacin la
hiptesis nula y por tanto:
"A un nivel de significacin del 5% no existe evidencia suficiente de que la
media de precios sea diferente de 500 pts."
De hecho, esto no significa que sea cierta la hiptesis nula, sino slo que no
se puede rechazar a este nivel de significacin. Si hubiramos tomado un nivel de
significacin del 10%, la regin crtica correspondiente habra estado delimitada

por los valores 482'78 y 517'22, con lo que habramos rechazado la hiptesis nula
para ese nivel de significacin.
De la misma forma que hemos estado realizando tests sobre medias, pueden
ser realizados tests sobre otros parmetros de una poblacin. En particular
resulta muy interesante hacerlo sobre una proporcin en una determinada
poblacin. Veremos ahora un ejemplo de como hacerlo:
EJEMPLO 3:
Diego dice a Diana que al menos un 15% de los alumnos del Instituto, tiene
una moto. Como discrepan, Luis realiza una encuesta aleatoria a 200 compaeros
del Instituto, y encuentra que 18 de ellos tiene moto. A un nivel de significacin del
10%, cual de los dos tiene estadsticamente la razn?
Establecemos la hiptesis nula y alternativa.

Encontramos que la proporcin buscada en la muestra es p'= 18/200=0,09.


Supongamos que H0 es cierta, y que por tanto en el peor de los casos sera p=0,15.
Sabemos que si as fuera, las proporciones muestrales, se habran de distribuir
segn:

Puesto que a un nivel de significacin del 10%, la regin crtica es la


correspondiente a valores menores que k=0,15-1,28x0,0252=0,118 , sta la forman
los porcentajes inferiores al 11,8%. El porcentaje obtenido en la muestra queda
dentro de esta regin y por tanto rechazamos la hiptesis nula, redactando la
conclusin como:
"A un nivel de significacin del 10%, existe suficiente evidencia de que la
proporcin de alumnos con bicicleta es inferior al 15%".
Aunque el resultado d la razn a Diana, podemos habernos equivocado (con una
probabilidad del 10%), . Si hubiera sido otro el resultado, y le hubiramos dado la
razn a Diego, tambin podramos habernos equivocado (recuerda el error de tipo
II).

13.2. PRUEBAS DE HIPTESIS:

El uso de la Estadstica es de gran importancia en la investigacin cientfica.


Casi todas las investigaciones aplicadas requieren algn tipo de anlisis estadstico
para que sea posible evaluar sus resultados. En algunos casos, para resolver un
problema de carcter emprico, es preciso llevar a cabo un anlisis bastante
complejo; otras veces, basta con efectuar un anlisis muy simple y directo. La
eleccin de uno u otro tipo de anlisis estadstico depende del problema que se
plantee en el estudio as como de la naturaleza de los datos. Desde este punto de
vista, la Estadstica constituye un instrumento de investigacin y no un producto
final de esta ltima.
El trabajo coherente, las acciones integradas, la no extrapolacin de
elementos de un lugar a otro, el verdadero diagnstico de la realidad han de ser
prcticas permanentes en el accionar del investigador y el estadstico aplicado.
Dentro de la estadstica se aplican en la investigacin los tests o dcimas
paramtricos y no paramtricos, el presente trabajo esta dedicado al estudio de
dos pruebas no paramtricas que por su importancia merecen ser tratadas de
forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y dos
muestras.
Entre los tests no paramtricos que comnmente se utilizan para verificar si
una distribucin se ajusta o no a una distribucin esperada, en particular a la
distribucin normal se encuentran el test de Kolmogorov-Smirnov. El test de
Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel de
medicin de la variable y su distribucin son elementos que intervienen en la
seleccin del test que se utilizar en el procesamiento posterior. De hecho, si la
variable es continua con distribucin normal, se podrn aplicar tcnicas
paramtricas. Si es una variable discreta o continua no normal, solo son aplicables
tcnicas no paramtricas pues aplicar las primeras arrojara resultados de dudosa
validez.
13.3. DCIMA DE UNA MUESTRA DE KOLMOGOROV-SMIRNOV.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren al menos en
una escala de intervalo. Se necesita que la medicin considerada sea bsicamente
continua. Adems dicha prueba es aplicable cualquiera sea el tamao de la muestra.
Potencia-Eficiencia
La prueba de una muestra de K-S puede en todos los casos en que se aplique ser
ms poderosa que su prueba alternativa, la prueba de 2 ( ji-cuadrado.

Caractersticas de la dcima
La prueba de K-S de una muestra es una dcima de bondad de ajuste. Esto es, se
interesa en el grado de acuerdo entre la distribucin de un conjunto de valores de
la muestra y alguna distribucin terica especfica. Determina si razonablemente
puede pensarse que las mediciones mustrales provengan de una poblacin que
tenga esa distribucin terica. En la prueba se compara la distribucin de
frecuencia acumulativa de la distribucin terica con la distribucin de frecuencia
acumulativa observada. Se determina el punto en el que estas dos distribuciones
muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = Ft(x) para todo x.
H1: La distribucin observada no se ajusta a la distribucin terica.
Tambin:
F(x) Ft(x) para algn x
F(x): es funcin desconocida
Ft(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con cierta
media y varianzas conocidas.
Estadgrafo y distribucin muestral
D = mxima
Sn(x): es la funcin de distribucin emprica.
Ejemplo
El entrenador de salto de un grupo de atletas, desea conocer con vistas al
procesamiento de los datos por el obtenidos sobre salto de una muestra aleatoria
de atletas de esa especialidad en un CVD, si las mediciones realizadas por l estn
distribuidas normalmente. Los datos son los siguientes:
Salto_Largo
1 1.60
2 1.65 Ho: Los datos estn distribuidos normalmente
3 1 .55 H1: Los datos no estn distribuidos normalmente.

4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70
Salidas de la dcima

Conclusiones:
No se rechaza a Ho, por tanto la distribucin de los datos es normal.
Tcnicas adicionales a la dcima
Tabla de frecuencias
Histograma.
Estadgrafos que deben acompaar a los estadgrafos de la dcima
1-Tabla de frecuencias.
Tcnicas auxiliares para respaldar los resultados obtenidos en la conclusin.
1-Histogramas.

Dcima de Kolmogorov-Smirnov para dos muestras independientes.


Estructura de la base de datos
Normalmente la estructura que tiene la base de datos es la de utilizar una variable
para entrar los resultados de la medicin y la otra donde se particione a estos
resultados en los dos grupos.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren al menos en
una escala ordinal. Adicionalmente se necesita que la medicin considerada sea
bsicamente continua.
Potencia-Eficiencia
Comparada ante la alternativa paramtrica de la t de student para dos muestras
independientes (o el modelo de Anlisis de Varianza clasificacin simple para dos
muestras), cuando las premisas paramtricas se cumplen, tiene una potencia
eficiencia de cerca del 96%, que tiende a decrecer ligeramente a medida que se
aumentan los tamaos de muestra.
Existen autores que plantean1 "que la dcima de Kolmogorov-Smirnov, para
muestras muy pequeas es ms potente que la dcima de la U de Mann-Whitney,
pero que para muestras de tamao grande ocurre lo contrario.
Caractersticas de la dcima

La dcima de Kolmogorov-Smirnov est construida, teniendo como base detectar


las discrepancias existentes entre las frecuencias relativas acumuladas de las dos
muestras objeto de estudio. Lo anterior propicia que esta dcima pueda advertir
diferencias no tan solo entre los promedios, sino que stas sean debidas a la
dispersin, o la simetra o la oblicuidad. Esta caracterstica la hace distintiva de
aquellas en que solamente se ocupan de analizar las diferencias entre los
promedios.
La dcima admite que los tamaos de las muestras no sean iguales.
Hiptesis
Las hiptesis de esta dcima, expresadas en palabras son:
Ho: Las distribuciones poblacionales son iguales.
H1: Las distribuciones poblacionales son distintas.
Ahora bien se recomienda en general hacer el enunciado de las hiptesis de forma
tal que indique en un mayor grado la caracterstica que va a ser docimada.
Estadgrafo y distribucin muestral.
Designemos por T1 y por T2 las tablas de distribucin de frecuencias relativas
acumuladas, particionadas en k categoras. Donde el primer subndice corresponde
al nmero de la muestra y el segundo al orden de la clase.
TABLA1

TABLA2

DIFERENCIAS

Clase Frecuencia relativa


acumulada

Frecuencia relativa
acumulada

Diferencia de las
Frecuencias

p11

p21

p11-p21

p12

p22

p12-p21

...

...

...

...

p1i

p2i

p1i-p2i

...

...

...

...

p1k

p2k

p1k-p2k

Se analiza entonces en la columna de las diferencias de las frecuencias, en qu


clases se obtiene el valor mximo. Se tendr entonces en smbolos:

El estadgrafo de esta dcima se designa


por y para tamaos de muestra suficientemente grandes, est distribuido segn
chi-cuadrado con dos grados los de libertad. En smbolos:
2

Goodman , ha demostrado que si los tamaos de muestra son


pequeos la dcima se comporta conservadoramente.
Salidas de la dcima
Las salidas usuales de la dcima son tres:

Mxima diferencia negativa. Donde se muestra cul es la mayor diferencia


negativa alcanzada.

Mxima diferencia positiva. Donde se muestra la mayor diferencia positiva


alcanzada.

Valor de la probabilidad para dos colas.

Es necesario sealar que las dos primeras opciones suministran informacin en los
casos en que sea conveniente realizar una dcima unilateral, adems de reflejar
informacin acerca de lo que est ocurriendo en la dcima.
Tcnicas adicionales a la dcima
Existe un grupo de tcnicas adicionales a la dcima, las que hemos dividido en los
siguientes grupos.
Estadgrafos que deben acompaar a los estadgrafos de la dcima.
Entre ellos se encuentran:
Tamaos en cada una de las muestras (casos vlidos en el anlisis)
Media aritmtica de cada una de las muestras.
Desviacin estndar de cada una de las muestras.
Tcnicas auxiliares para respaldar los resultados obtenidos en la conclusin
Diagrama de caja y bigotes de cada una de las muestras.
Histograma de cada una de las muestras.
Ejemplo
Se muestran las prdidas en peso (medidos en kilogramos), de dos grupos de
personas que han sido sometidas a dos tipos diferentes de medicamentos,

designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la


siguiente tabla:
GRUPO1 (n1=10)

GRUPO2 (n2=12

5.49

3.76

3.08

4.22

4.13

4.17

5.03

5.03

4.85

6.03

2.09

4.45

4.45

5.13

3.58

4.26

3.86

4.62

4.13
4.4
2.81

Salida de la dcima
La salida bsica de la dcima muestra los valores mximos positivos, mximos
negativos y el valor de probabilidad, los que se muestran a continuacin.
medicin

mxima diferencia
negativa

perdida de peso 0

mxima diferencia
positiva
0.4666667

valor de
probabilidad
p > .10

Segn podemos observar, no existen diferencias significativas entre los resultados


de la medicin realizada a los dos grupos.
Estadgrafos que deben acompaar a los estadgrafos de la dcima.
Resulta conveniente incluir tambin, adems de los mencionados en la tabla
anterior, el tamao en cada una de las muestras, as como la media aritmtica de
cada una de ellas y su desviacin estndar. Las que se muestran en la siguiente
tabla.
Tamaos de muestra Media aritmtica

Desviacin. Estndar

GRUPO 1

10

4.73900

.8235661

GRUPO 2

12

3.945834

.8235661

Tcnicas auxiliares para respaldar los resultados obtenidos en la conclusin


Las tcnicas que ha continuacin se mencionan es conveniente su utilizacin:
Diagramas de Caja y Bigotes.
El siguiente diagrama muestra los resultados obtenidos tomando como promedio la
mediana, el rango intercuartlico para la caja y el mximo-mnimo para los bigotes.

En este diagrama observamos que aunque en la segunda muestra ha existido una


disminucin en el valor mediano, las diferencias no son significativas. Obsrvese
que en la segunda muestra se ha producido una disminucin en la dispersin y los
mximos y mnimos han sido reducidos.
Histogramas
A continuacin se muestran los histogramas de las dos muestras. Los que pueden
proporcionar una mayor idea del proceso ocurrido.

Glosario de Trminos
1. Alcance: distancia entre los valores ms bajo y ms alto de un conjunto de datos.
2. Codificacin: mtodo para calcular la media de datos agrupados mediante la

recodificacin de los valores de los puntos medios de las clases a valores ms sencillos.
3. Coeficiente de variacin: medida relativa de la dispersin, comparable por medio
de distribuciones diferentes, que expresa la desviacin estndar como porcentaje de la
media. Proporcin o porcentaje de la media que representa la desviacin estndar.
4. Cuartiles: fractiles que dividen los datos en cuatro partes iguales.
5. Curtosis: el grado de agudeza de una distribucin de puntos.
6. Datos: coleccin de cualquier nmero de observaciones relacionadas sobre una o
ms variables.
7. Deciles: fractiles que dividen los datos en diez partes iguales.
8. Dependencia estadstica: condicin en la que la probabilidad de presentacin de un
evento depende de la presentacin de algn otro evento, o se ve afectada por sta.
9. Desviacin estndar: raz cuadrada positiva de la varianza; medida de dispersin
con las mismas unidades que los datos originales.
10. Diagrama de barras: representacin grfica de la distribucin de frecuencias de
un atributo o de una variable discreta.
11. Dispersin: la extensin o variabilidad de un conjunto de datos.
12. Distribucin binomial: modelo para variable aleatoria discreta que permite calcular
la probabilidad de obtener x xitos en n ensayos repetidos de tipo Bernoulli.
Distribucin discreta que describe los resultados de un experimento conocido como
proceso de Bernoulli.
13. Distribucin continua de probabilidad: distribucin de probabilidad en la que la
variable tiene permitido tomar cualquier valor dentro de un intervalo dado.
14. Distribucin de frecuencias: despliegue organizado de datos que muestran el
nmero de observaciones del conjunto de datos que entran en cada una de las clases de
un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignacin
de frecuencias a cada uno de los valores de una variable o atributo.
15. Distribucin de Poisson: modelo para variable aleatoria discreta que permite
calcular la probabilidad de obtener x xitos en un intervalo continuo.
16. Distribucin de probabilidad: lista de los resultados de un experimento con las
probabilidades que se esperaran ver asociadas con cada resultado.
17. Distribucin exponencial: modelo para variable aleatoria continua que permite
representar variables del tipo "tiempo entre" o "distancia entre" dos eventos y vida
til de ciertos componentes.

18. Distribucin normal: modelo para variable aleatoria continua que permite
representar un gran nmero de fenmenos fsicos. Distribucin de una variable
aleatoria continua que tiene una curva de un solo pico y con forma de campana.
19. Error de muestreo: error o variacin entre estadsticas de muestra debido al
azar, es decir, diferencias entre cada muestra y la poblacin, y entre varias muestras,
que se deben nicamente a los elementos que elegimos para la muestra.
20. Error estndar: la desviacin estndar de la distribucin de muestreo de una
estadstica.
21. Espacio muestral: conjunto de todos los resultados posibles de un experimento
aleatorio.
22. Estimacin: valor particular de un estimador, que caracteriza a una muestra
especfica.
23. Evento: uno o ms de los resultados posibles de hacer algo, o uno de los resultados
posibles de realizar un experimento.
24. Experimento aleatorio actividad que tiene como resultado o que produce un evento.
Prueba donde existen dos o ms resultados posibles, y no se pude anticipar cul de
ellos va a ocurrir.
25. Histograma: grfica de un conjunto de datos compuesta de una serie de
rectngulos, cada uno con un ancho proporcional al alcance de los valores de cada clase
y altura proporcional al nmero de elementos que entran en la clase, o altura
proporcional a la fraccin de elementos de la clase.
26. Independencia estadstica: condicin en la que la presentacin de algn evento no
tiene efecto sobre la probabilidad de presentacin de otro evento.
27. Inferencia estadstica: proceso de anlisis que consiste en inferir las propiedades
de una poblacin en base a la caracterizacin de la muestra.
28. Media: medida de tendencia central que representa el promedio aritmtico de un
conjunto de observaciones.
29. Mediana: punto situado a la mitad de conjunto de datos, medida de localizacin que
divide al conjunto de datos en dos partes iguales.
30. Medida de dispersin: medida que describe cmo se dispersan o distribuyen las
observaciones de un conjunto de datos. Cantidades que describen la variabilidad de los
datos.
31. Medida de tendencia central: medida que indica el valor esperado de un punto de
datos tpico o situado en el medio. Cantidades numricas que dan una idea sobre la
ubicacin de la distribucin de frecuencias.
32. Moda: el valor que ms a menudo se repite en un conjunto de datos. Est
representado por el punto ms alto de la curva de distribucin de un conjunto de datos.
33. Muestra representativa: muestra que contiene las caractersticas importantes de
la poblacin en las mismas proporciones en que estn contenidas en la poblacin.
34. Muestra: subconjunto de la poblacin seleccionado mediante algn criterio
particular. Porcin de elementos de una poblacin elegidos para su examen o medicin
directa.
35. Muestreo aleatorio simple: mtodos de seleccin de muestras que permiten a cada
muestra posible una probabilidad igual de ser elegida y a cada elemento de la poblacin
completa una oportunidad igual de ser incluido en la muestra.

36. Muestreo aleatorio: conformacin de la muestra usando mtodos al azar.


37. Muestreo no aleatorio: conformacin de la muestra en base al conocimiento o

experiencia del observador.


38. Parmetro: valor fijo que caracteriza a una poblacin. Valores que describen las
caractersticas de una poblacin.
39. Poblacin: conjunto formado por todas las unidades objeto de un estudio
estadstico. Coleccin de todos los elementos que se estn estudiando y sobre los
cuales intentamos llegar a conclusiones.
40. Probabilidad clsica: nmero de resultados favorables a la presentacin de un
evento dividido entre el nmero total de resultados posibles. Asignacin de
probabilidad "a priori", si necesidad de realizar el experimento.
41. Probabilidad condicional: probabilidad de que se presente un evento, dado que otro
evento ya se ha presentado.
42. Probabilidad subjetiva: probabilidad basada en las creencias personales de quien
hace la estimacin de probabilidad. Asignacin de probabilidad en forma intuitiva, en
base a la experiencia o el conocimiento.
43. Probabilidad: la posibilidad de que algo suceda.
44. Prueba de Kolmogorrov-Smirnov: prueba no paramtrica que no requiere que los
datos se agrupen de ninguna manera para determinar si existe diferencia significativa
entre la distribucin de frecuencia observada y la distribucin de frecuencia terica.
45. Pruebas de bondad de ajuste: pruebas de hiptesis que ponen bajo prueba una
afirmacin acerca de la distribucin de una variable aleatoria.
46. Pruebas no paramtricas: tcnicas estadsticas que no hacen suposiciones
restrictivas respecto a la forma de la distribucin de poblacin al realizar una prueba
de hiptesis.
47. Sesgo: grado en que una distribucin de puntos est concentrada en un extremo o
en el otro; falta de simetra. Asimetra en distribuciones de frecuencias no simtricas.
48. Simtrica: caracterstica de una distribucin en la que cada mitad es la imagen
especular de la otra.
49. Tabla de frecuencias: tabla donde se asienta la distribucin de frecuencias.
50. Teorema del Lmite Central: teorema que especifica las condiciones bajo las
cuales puede esperarse que una variable aleatoria tenga distribucin normal.
51. Unidad de observacin: persona o casa sobre la que se mide una o varias
caractersticas de inters.
52. Valor esperado: promedio pesado de los resultados de un experimento.
53. Variable aleatoria continua: variable aleatoria que puede tomar infinitos valores
dentro de un rango cualquiera.
54. Variable aleatoria discreta: variable que toma un nmero finito o infinito de
valores numerables.
55. Variable aleatoria: variable que toma diferentes valores como resultado de un
experimento aleatorio.
56. Varianza: medida de la distancia cuadrada promedio entre la media y cada
observacin de la poblacin. Promedio de los desvos cuadrticos con respecto a la
media.

Referencias
Libros:
1.
Alatorre, et al., Introduccin a los mtodos estadsticos, Mxico, UPN.
1998.
2.
Azorn, Poch. Francisco. Curso de muestreo y aplicaciones, Aguilar, 1989.
3.
Barahoma, Abel y otro. Metodologa de trabajos cientficos, Ipler, 1999.
4.
Bencardino M., Ciro. Estadstica, Apuntes y 600 Problemas Resueltos, 2a
Edicin, Ecoe, 1992.
5.
Castillo, Juana, Estadstica inferencial bsica, Mxico, CCH, UNAM. 1996.
6.
CHAO. Lincoln L. Estadstica para Ciencias Administrativas, 2a Edicin,
MCGRAW-HILL, 1990.
7.
Dixon, Wilfrid J y otro. Introduccin al Anlisis Estadstico, 2a Edicin,
MCGRAW-HILL, 1995.
8.
Doms, Fernan P. La Estadstica Qu Sencilla, 5a Edicin, Paraninfo, 1999.
9.
Downie, N. M. y otro. Mtodos Estadsticos Aplicados. Harper Row
Publishers Inc., 2000.
10.
Giardina, Basilio. Manual de Estadstica, 3 Edicin, 1992.
11.
Haber, Audrey. Estadstica General, Fondo Educativo Interamericano, 1993.
12.
Hoel, Paul G. Estadstica Elemental, Mxico, CECSA. 2001.
13.
Johnson, Robert, Estadstica elemental, Buenos Aires, Grupo Editorial
Iberoamericana. 1996.
14.
Kazmier, Leonard J. Estadstica Aplicada a la Administracin y la Economa,
MCGRAW-HILL, 1998.
15.
Levin Yack. Fundamentos de Estadstica en la Investigacin Social, 2a
Edicin, Harla S., 1997.
16.
Llerena, Len, Ricardo y otro. Curso de Estadstica General, U. de A., 1991.
17.
Meja V., William. Bioestadstica General, Escuela Nal. De Salud Pblica, U.
de A., 1990.
18.
National Council of Teachers. Of. Mathematics USA. Recopilacin,
Organizacin e interpretacin de Datos, Trilla, 2000.
19.
Portilla, Ch. Enrique. Estadstica, Primer Curso. Interamericano, 1990.
20.
Richards, Larry E. Y otro. Estadstica en los Negocios. porqu y cundo?,
MCGRAW-HILL,1998.

21.
Seymour, Lipschutz, Teora y problemas de probabilidad , Mxico, McGrawHill. 1970.
22.
Shao, Stephen P. Estadstica para Economistas y Administradores de
Empresas, 15a Edicin, 1989.
23.
Spiegel, Murray R. Estadstica, MCGRAW-HILL, 1970.
24.
Spiegel, Murray, Teora y problemas de estadstica , Mxico, McGraw-Hill.
1970.
25.
Stevenson, William, Estadstica, Mxico, Harla. 1981.
26.
Yamane, Taro, Estadstica, Mxico, Harla. 1986.

Pginas Web:
1. Librera Virtual Elaleph: www.elaleph.com/
2. Universidad Nacional de Colombia sede Medelln: www.unalmed.edu.co/
3. El Portal de las Matemticas: www.matematicas.net/
4. Libros y Software Gratis: www.recursosgratis.com/
5. DANE Colombia: www.dane.gov.co/
6. Planeacin Nacional Colombia N.N.P.: www.dnp.gov.co/
7. Ministerio de Desarrollo Colombia: www.mindesa.gov.co/
8. Web Estadstico de Navarra: www.lander.es/
9. Bioestadstica: Mtodos y Aplicaciones: ftp.medprev.uma.es/libro
10. Aula Fcil: www.aulafacil.org/
11. Probabilidad y Estadstica: www.mor.itesm.mx/
12. Diseo de Experimentos y Teoria de Muestras:www.libros.netstoreusa.com/
13. Distribuciones Estadsticas:www.sisweb.com/
14. Probabilidad:www.thales.cica.es/
15. Distribucin de Poisson:www.ual.es/
16. Tratamiento de la Incertidumbre:www.dc.fi.udc.es/
17. Universidad de Antioquia:extension.udea.edu.co/
18. Estadstica Lejarza:www.uv.es/

Anexos

Anexo N 1:Tabla de la Distribucin Normal


reas limitadas por N(0,1) , desde - hasta k
p(Z<k)
k
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7

0 '00

0.50000
0.53983
0.57926
0.61791
0.65542
0.69146
0.72575
0.75804
0.78814
0.81594
0.84134
0.86433
0.88493
0.90320
0.91924
0.93319
0.94520
0.95543
0.96407
0.97128
0.97725
0.98214
0.98610
0.98928
0.99180
0.99379
0.99534
0.99653
0.99744
0.99813
0.99865
0.99903
0.99931
0.99952
0.99966
0.99977
0.99984
0.99989

0'01

0'02

0'03

0'04

0'05

0.50399
0.54380
0.58317
0.62172
0.65910
0.69497
0.72907
0.76115
0.79103
0.81859
0.84375
0.86650
0.88686
0.90490
0.92073
0.93448
0.94630
0.95637
0.96485
0.97193
0.97778
0.98257
0.98645
0.98956
0.99202
0.99396
0.99547
0.99664
0.99752
0.99819
0.99869
0.99906
0.99934
0.99953
0.99968
0.99978
0.99985
0.99990

0.50798
0.54776
0.58706
0.62552
0.66276
0.69847
0.73237
0.76424
0.79389
0.82121
0.84614
0.86864
0.88877
0.90658
0.92220
0.93574
0.94738
0.95728
0.96562
0.97257
0.97831
0.98300
0.98679
0.98983
0.99224
0.99413
0.99560
0.99674
0.99760
0.99825
0.99874
0.99910
0.99936
0.99955
0.99969
0.99978
0.99985
0.99990

0.51197
0.55172
0.59095
0.62930
0.66640
0.70194
0.73565
0.76730
0.79673
0.82381
0.84849
0.87076
0.89065
0.90824
0.92364
0.93699
0.94845
0.95818
0.96637
0.97320
0.97882
0.98341
0.98713
0.99010
0.99245
0.99430
0.99573
0.99683
0.99767
0.99831
0.99878
0.99913
0.99938
0.99957
0.99970
0.99979
0.99986
0.99990

0.51595
0.55567
0.59483
0.63307
0.67003
0.70540
0.73891
0.77035
0.79955
0.82639
0.85083
0.87286
0.89251
0.90988
0.92507
0.93822
0.94950
0.95907
0.96712
0.97381
0.97932
0.98382
0.98745
0.99036
0.99266
0.99446
0.99585
0.99693
0.99774
0.99836
0.99882
0.99916
0.99940
0.99958
0.99971
0.99980
0.99986
0.99991

0.51994
0.55962
0.59871
0.63683
0.67364
0.70884
0.74215
0.77337
0.80234
0.82894
0.85314
0.87493
0.89435
0.91149
0.92647
0.93943
0.95053
0.95994
0.96784
0.97441
0.97982
0.98422
0.98778
0.99061
0.99286
0.99461
0.99598
0.99702
0.99781
0.99841
0.99886
0.99918
0.99942
0.99960
0.99972
0.99981
0.99987
0.99991

0'06

0.52392
0.56356
0.60257
0.64058
0.67724
0.71226
0.74537
0.77637
0.80511
0.83147
0.85543
0.87698
0.89617
0.91309
0.92786
0.94062
0.95154
0.96080
0.96856
0.97500
0.98030
0.98461
0.98809
0.99086
0.99305
0.99477
0.99609
0.99711
0.99788
0.99846
0.99889
0.99921
0.99944
0.99961
0.99973
0.99981
0.99987
0.99991

0'07

0.52790
0.56749
0.60642
0.64431
0.68082
0.71566
0.74857
0.77935
0.80785
0.83398
0.85769
0.87900
0.89796
0.91466
0.92922
0.94179
0.95254
0.96164
0.96926
0.97558
0.98077
0.98500
0.98840
0.99111
0.99324
0.99492
0.99621
0.99720
0.99795
0.99851
0.99893
0.99924
0.99946
0.99962
0.99974
0.99982
0.99988
0.99992

0'08

0.53188
0.57142
0.61026
0.64803
0.68439
0.71904
0.75175
0.78230
0.81057
0.83646
0.85993
0.88100
0.89973
0.91621
0.93056
0.94295
0.95352
0.96246
0.96995
0.97615
0.98124
0.98537
0.98870
0.99134
0.99343
0.99506
0.99632
0.99728
0.99801
0.99856
0.99897
0.99926
0.99948
0.99964
0.99975
0.99983
0.99988
0.99992

0'09

0.53586
0.57535
0.61409
0.65173
0.68793
0.72240
0.75490
0.78524
0.81327
0.83891
0.86214
0.88298
0.90147
0.91774
0.93189
0.94408
0.95449
0.96327
0.97062
0.97670
0.98169
0.98574
0.98899
0.99158
0.99361
0.99520
0.99643
0.99736
0.99807
0.99861
0.99900
0.99929
0.99950
0.99965
0.99976
0.99983
0.99989
0.99992

Anexo N 2
Tabla de 500 Nmeros Generados Aleatoriamente.

49035
34650
37944
96501
83882
13967
76357
21965
13808
97901

39250
61029
42974
14020
97885
58987
15538
62747
41499
17521

26420
41870
47550
97799
21981
51301
32168
41846
87080
90387

44343
93056
91625
58005
99586
06732
66301
36966
52612
60885

86730
07492
95455
70661
14053
90588
00456
75159
95907
37302

00094
11854
66107
12170
62953
40925
45252
94638
66465
29952

74043
54849
49743
49250
87632
74328
36652
49952
92820
37418

65106
48034
94663
29349
62027
74721
35549
01953
95272
20541

72384
53807
15075
13070
22690
95415
93901
66456
20290
95588

40298
32851
16998
67066
52283
35883
49812
29732
35563
70662

ANEXO N 3: Contraste de Hiptesis a partir del p-Valor


El entrenador de nuestro equipo de baloncesto asegura que en los
entrenamientos sus jugadores encestan ms del 90% de los tiros libres. Para
investigar esta afirmacin, se ha seleccionado aleatoriamente 50 lanzamientos de
los que 42 han sido canasta. evidencia esto que el entrenador se equivoca, o no?
La proporcin encontrada en la muestra es p'=42/50=0,84. Las hiptesis que hay
que establecer son:

Suponiendo cierta la hiptesis nula, y en el mejor de los casos si p=0,9


proporciones muestrales se deberan distribuir segn :

, las

Los valores menores o iguales a 0,85 tienen una probabilidad de ocurrencia:


(I)
En consecuencia, si el nivel de significacin que se tome es inferior al 7,93% se
puede rechazar la hiptesis nula, y habr que aceptarla en cualquier otro caso.
Esta forma de abordar los tests, nos permite una visin ms amplia, por cuanto nos
d informacin de para qu niveles de significacin puede rechazarse la hiptesis
nula, y para cuales no se puede.
Al valor calculado en la expresin (I) se le denomina p-valor, y al procedimiento
expresado para realizar el test de hiptesis, mtodo del p-valor.

ANEXO N 4. Error de Tipo II Clculo


Hemos comentado ya, que cuando se establecen la hiptesis nula y alternativa, y se lleva a cabo
el test, pueden ocurrir cada uno de los cuatro casos:
La hiptesis nula es verdadera

La hiptesis nula es falsa

No se rechaza la
H.Nula

Decisin correcta

Error tipo II

Se rechaza la H.Nula

Error tipo I

Decisin correcta

Para estimar la diferencia existente entre cada uno de los casos, imagina a un mdico que acaba
de llegar al lugar de un accidente, y debe contrastar la hiptesis nula: "esta vctima est viva".
Mirando la tabla anterior, podemos ver los 4 resultados posibles, y la gravedad de cada tipo de
error.
Aunque nos gustara que no existiera posibilidad de error, esto es imposible dado que utilizamos
para tomar nuestra decisin informacin muestral y no poblacional. Se trata pues de que estos
errores sean lo menores posibles. En cada caso en concreto se debera de estudiar la gravedad de
cada tipo de error, para minimizar los riesgos inherentes a un proceso de decisin de este tipo.
En general, en la prctica, se fijan siempre el nivel de significacin (error tipo I) y el tamao de
la muestra (que deber ser tan grande como las posibilidades de tiempo, costo,... nos permitan).
Ahora veremos el procedimiento para el clculo del error del tipo II, suponiendo que ya han
sido fijados el de tipo I y el tamao de la muestra.
Imaginemos el caso con el que se introdujeron los tests de contraste en el que

y habamos asignado un nivel de significacin =0'05 . Recordemos que habamos razonado de


la siguiente forma:
"Si H0 es cierta, en el mejor de los casos =7, y por tanto en al menos un 95% de los casos, la
media muestral que obtengamos habr de ser menor que 7'726"

Es decir, rechazaremos la hiptesis nula, siendo en realidad cierta en como mximo un 5% de


los casos ( los correspondientes a la regin sombreada). Imaginemos que H0 fuese en realidad
falsa, es decir que por ejemplo =7'5. Cul es el riesgo de que aceptemos que la media es
menor o igual a 7?

Si un valor es menor que 7,726, estaremos aceptando que la media es menor que 7, a pesar de
ser 7'5. La probabilidad de que esto ocurra es

sobre N(7'5,0'44).

Podemos observar a la vista de lo expuesto, que fijado el valor de n, cuanto menor es el valor
del riesgo , mayor es el valor del riesgo , o lo que es lo mismo, para un determinado tamao
muestral, no podemos reducir simultneamente los dos errores, de forma que deberemos de
sacrificar uno de los errores si queremos disminuir el otro.
Asimismo, se observa que si est prefijado, al aumentar el tamao muestral n, disminuiremos
la variabilidad muestral y en consecuencia, tambin disminuir el riesgo , es decir la manera
de reducir simultneamente los dos tipos de error es aumentar el tamao muestral.
Por ltimo, vemos que el riesgo de aceptar errneamente una hiptesis nula es funcin
del verdadero parmetro poblacional, de forma que cuanto ms alejado est ste de los valores
ponderados en la hiptesis nula, menor es el riesgo es decir, mayor la probabilidad de tomar
la decisin correcta.

Anexo N 5. Gua para elaborar una Tesis


Elaboracin de un plan de trabajo.
Para iniciar una investigacin, es necesario organizar adecuadamente las actividades y tener un
conocimiento amplio sobre el tema u objeto de estudio. Hay que distinguir aquellas actividades que
requerirn de mayor tiempo para su concrecin y aquellas que demandan un esfuerzo personal ms
especfico.
Elaboracin de un anteproyecto.
Antes de elaborar este anteproyecto, debe realizarse una amplia bsqueda bibliogrfica, que brindar
una idea ms clara del tema. Tambin es importante relacionarse con personas que traten o trabajen en
el tema.
Esquema.

1. Definicin del problema: ttulo descriptivo del proyecto, formulacin del problema. Formular un
problema es caracterizarlo, definirlo, enmarcarlo tericamente. La caracterizacin o definicin
del problema nos lleva a otorgarle un ttulo en el que de manera clara indiquemos los elementos
esenciales. La formulacin del problema es la estructuracin de toda la informacin. Se debe
sintetizar la cuestin proyectada para investigar a travs de un interrogante.

2. Justificacin: una vez que se ha seleccionado el tema de investigacin, definido por el


planteamiento del problema, y establecido los objetivos, se debe indicar las motivaciones que
llevan al investigador a desarrollar el proyecto. Responde a la pregunta: por qu se investiga?.
3. Definiciones.

4. Objetivos: Es el propsito de la investigacin. Responde a la pregunta para qu?. Un objetivo


debe redactarse con verbos en infinitivo.

5. Hiptesis: Es una proposicin de carcter afirmativo enunciada para responder tentativamente a


un problema. Toda hiptesis constituye un juicio, o sea una afirmacin o una negacin de algo.

6. Limitaciones y delimitaciones: Es pertinente precisar los lmites del problema, su alcance, para
ello es necesario tener en cuenta la viabilidad, lugar, tiempo y financiacin.

7. Marco de referencia: Fundamentos tericos, antecedentes del problema. Debe ser una
bsqueda detallada y concreta, donde el tema y la temtica del objeto a investigar tenga un
soporte terico, que se pueda debatir, ampliar, conceptualizar y concluir. Ninguna investigacin
debe privarse de un fundamento o marco terico o de referencia. Estos fundamentos tericos
permiten presentar una serie de conceptos, que constituyen un cuerpo unitario y no un simple
conjunto arbitrario de definiciones.

8. Metodologa: diseo de tcnicas de recoleccin, poblacin y muestras, tcnicas de anlisis,


ndice analtico tentativo, gua de trabajo de campo.

9. Cronograma: es un plan de trabajo o plan de actividades, que muestra la duracin del proceso
investigativo.
10. Presupuesto.
11. Bibliografa.

Anexo N 6: Registro de la Informacin. Modelos de Fichas.


Cuando una publicacin ingresa a una biblioteca se registra, se anotan los datos ms importantes para localizarla fcilmente. El
criterio que se sigue en las bibliotecas para clasificar libros, revistas, tesis y artculos sueltos, es el siguiente: Por autor, p or ttulo
y por tema.
Ficha bibliogrfica.
Los ndices que se refieren a los libros se encuentran generalmente en cajones que contienen tarjetas de 3 x 5 pulgadas,
ordenadas alfabticamente. Los datos que se enumeran a continuacin son los que se registran en las fichas:
1. Autor. Apellido, nombre
2. Ttulo (siempre va subrayado)
3. Subttulo (si lo hay)
4. Traductor, prologuista, etc. (si el original se escribi en otro idioma)
5. Edicin (si es la primera no se anota, se anota a partir de la segunda)
6. Nmero de volumen (si cuenta con ms de uno)
7. Lugar (donde se edit la obra)
8. Editorial
9. Fecha
10. Nmero total de pginas, lminas, ilustraciones
11. Coleccin o serie.
Los datos que corresponden a 7, 8 y 9 se conocen como pie de imprenta.
Entre parntesis rectangulares o corchetes, se anotan los datos que se deseen agregar: si contiene mapas, ilustraciones,
comentarios o apreciaciones personales sobre el libro.
Cuando no aparecen algunos datos indispensables, se usan las siguientes abreviaturas:
[et. al]: cuando son varios autores se anotan los datos del primero y esta abreviatura significa: y otros. [s. tr.]: sin traductor, [s.
l.]: sin lugar, [s. f.]: sin fecha, [s. e.]: sin editorial, [s. p. i.]: sin pie de imprenta.
Las anotaciones particulares, hechas por el investigador para su empleo personal, se encierran tambin entre corchetes.
En algunas fichas se incluye tambin un breve resumen del libro y/o un ndice de contenido. A este fichero se recurre cuando se
conoce el nombre del autor del libro que se desea consultar.
Otras veces se recurre a ficheros clasificados por temas y por ttulo, porque se desconoce el nombre del autor. En ocasiones,
cuando no hay referencias en el fichero sobre el concepto investigado, se deben buscar sinnimos o temas afines.
Ficha de diarios y revistas.
En las bibliotecas existen generalmente dos formas de clasificar las revistas: por tema y por artculo.
La clasificacin por temas es muy general y se refiere principalmente a disciplinas tan amplias como la psicologa, la sociologa,
la economa, la antropologa, etc.
A la clasificacin que con mayor frecuencia se recurre en relacin con las revistas, es a la clasificacin por ttulos, ya que es la
manera ms prctica de hacerlo.
Una ficha, cuando el dato se toma de diarios y revistas, debe contener:
1. Nombre del autor
2. Ttulo y subttulo del artculo (entre comillas)
3. Ttulo y subttulo del peridico o revista (subrayado). Institucin que la publica
4. Nmero del columen, ao, tomo (con nmeros romanos)
5. Nmero del fascculo (con nmeros arbigos)
6. Fecha
7. Nmero de pgina o pginas que ocupa el artculo o dato
8. Informacin (dato). Cuando aparece sin datos de lo que trata el artculo, se le conoce como ficha de artculo.
En ocasiones se recorta el artculo o parte de l. En estos casos, los datos de esta ficha se anotan en la hoja o tarjeta en donde se
peg el recorte.
Ficha de tesis.
Las tesis se encuentran archivadas en un fichero especial y estn clasificadas de la misma manera que los libros, es decir, tanto
por tema como por autor.
Los datos que deben contener son:
1. Autor
2. Ttulo
3. Tesis (se menciona al grado que se aspira con ella)
4. Lugar (colegio o institucin donde se presenta)
5. Editor (si lo hay)
6. Fecha
7. Nmero de pginas (cuando el texto est escrito por un solo lado de la hoja, se usar la abreviatura h, en lugar de p).
Ficha de publicacin oficial.
1. Pas

2.
3.
4.
5.
6.

Dependencia
Ao
Ttulo (poca que comprende el trabajo, ensayo, memoria, etc.)
Editorial (o los talleres donde se imprimi)
Nmero de pginas (si la dependencia que la publica no es la responsable del contenido, el registro se iniciar con el
nombre del autor.
Ficha de textos jurdicos.
1. Territorio en donde se aplican
2. Referencia al tipo de normas de que trata
3. Nombre de la ley o decreto (subrayado)
4. Editor o talleres donde se imprimi (o el conducto por el cual se dio a conocer)
5. Fecha
6. Nmero de pginas.
Ficha de documentos nacionales.
1. Ttulo (o asunto de que trata)
2. Lugar
3. Fecha
4. Archivo
5. Legajo
6. Foja
7. Dems especificaciones
8. Nmero de pginas
9. Caractersticas de inters particular, si el investigador juzga indispensable registrarlas)
Ficha de documentos internacionales.
1. rgano responsable
2. Ttulo (o asunto)
3. Nmero, clave o codificacin
4. Lugar donde se public
5. Editor (o conducto por el que se da a conocer
6. Fecha
Ficha de registro de obras de recopilacin de constituciones o leyes.
1. Nombre del compilador o editor
2. Referencia al tipo de norma o documento (subrayado)
3. Nmero de volumen (con nmeros romanos)
4. Lugar
5. Editor
6. Fecha
7. Nmero de pginas en donde est comprendido.
Ficha de registro de pactos, acuerdos o tratados internacionales.
1. Pas u organismo (con maysculas)
2. Tipo de norma o documento
3. Autor del prlogo, comentario o nota
4. Lugar
5. Editor
6. Fecha
7. Nmero de pginas en donde est comprendido.
Ficha de artculos contenidos en libros o enciclopedias.
1. Autor del captulo o artculo
2. Ttulo del captulo o artculo (entre comillas)
3. Pginas en que est comprendido
4. Autor de la obra que contiene el artculo o captulo
5. Ttulo de la obra (subrayado)
6. Dems datos de la ficha bibliogrfica de la obra.
Ficha de campo.
1. Tema de investigacin
2. Nombre del investigador
3. Institucin
4. Lugar
5. Fecha
6. Hora
7. Datos de la fuente (edad, sexo, ocupacin).
Ficha de noticiario.
1. Agencia noticiosa / comentarista
2. Nombre del noticiario
3. Nmero / horario
4. Estacin / canal / cine
5. Lugar

6. Fecha
7. Noticia o comentario
Ficha de institucin.
Nombre de la institucin (subrayado)
1. Institucin de la que forma parte
2. Objetivos que tiene en su funcin
3. Ubicacin
Direccin
Lugar que ocupa en la disciplina a la que pertenece o practica
1. Funciones y servicios
2. Informacin que puede proporcionar
3. Conexin, nexos, relacin con otras fuentes similares
4. Forma de acceso (procedimientos para obtener sus servicios, o persona u oficina por cuyo conducto se pueden obtener
sus servicios).
5. Publicaciones que emite
6. Otros datos importantes.
Ficha para registrar informacin que aparece en mapas, dibujos, fotografas, etc.
1. Nombre (de lo que se trata, subrayado)
2. Autor
3. Fuente (lugar, libro, revista, museo, etc., dnde est)
4. Descripcin del objeto (colores, medidas, material de que est hecho, datos indispensables para tener nocin de cmo
es)
5. Contenido (descripcin de lo que se ilustra o representa)
6. Otros datos que interesen al investigador (fecha, sala, en el caso de museos, exposicin, etc.)
FICHA DE TRABAJO.
Es aquella donde se registran los datos que interesan al investigador.
Cuando el dato est contenido en ms de una tarjeta, las tarjetas que ocupe constituirn una sola ficha. En estos casos, conviene
marcar las tarjetas con el nmero de ficha y una letra (ej.: 5a y 5b).
Una ficha debe contener un solo dato, ste puede ser un solo detalle (una fecha, un nombre, un acontecimiento, etc.) o estar
formado por ms informacin (una carta, la descripcin de un hecho, una biografa, etc.). Para saber qu informacin debe
registrarse en una ficha de trabajo, en el momento de hacer la anotacin debe pensarse si esa informacin va a aparecer en un
solo lugar o hay detalles que se utilizarn en otros lugares del escrito; en el primer caso se tratar de una ficha; en el segundo,
ser necesario hacer una ficha por cada informacin que aparecer en distintas partes del escrito.
El regesto es el asunto, tema o ttulo del contenido de la ficha de trabajo. Debe ser breve y reflejar fielmente la informacin
anotada.
La informacin (dato) puede registrarse textualmente o resumirse.
Datos fundamentales:
1. Autor
2. Ttulo (entre comillas)
3. Nmero de pgina (s) donde aparece el dato
4. Regesto (asunto, tema; va subrayado)
Datos complementarios:
1. Fecha en que se recogi el dato
2. Razn o motivo por el que se recab la informacin.
Ficha de transcripcin textual.
Como su nombre lo indica, es aquella a la que se traslada ntegramente el texto tomado de la fuente, por lo que esta informacin
siempre ir entre comillas.
Ficha de sntesis.
Es la que se utiliza para consignar, en pocas palabras, el extracto del texto consultado. Se debe tener cuidado de no omitir o
tergiversar el contenido
No es necesario utilizar una tarjeta especial para los comentarios personales acerca de la fuente, puesto que es conveniente
incluirlos en la misma ficha que la registra. Se escriben entre corchetes.
Fichas metodolgicas.
Se refieren a aquellos puntos obtenidos de las lecturas, concretamente relacionados con notas metodolgicas, es decir, con qu
sujetos se hizo la investigacin, cmo se eligieron stos, qu hiptesis se emplearon, cmo se analizaron los datos, algn
instrumento original que se utiliz, alguna cuestin interesante que se investig, es decir, con las cuestiones operativas del
estudio. El origen de estas fichas, al igual que en los casos anteriores, debe identificarse utilizando la abreviacin de la fuente
original y el nmero de pgina.

Potrebbero piacerti anche