Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadstica Sweeney
el procedimiento no paramtrico.
Complemento StatTools para Excel StatTools es un com-
plemento (add-in) comercial de Excel 2007, desarrollado por
Palisades Corporation, que ampla la variedad de opciones
estadsticas para los usuarios de Excel. En un apndice del ca- para negocios Williams
y economa
y economa
ptulo 1 se muestra cmo descargarlo, y la mayora de los
captulos incluye un apndice que describe los pasos reque-
ridos para realizar un procedimiento estadstico usando esta
herramienta.
Apndice de Excel actualizado para la estadstica des-
criptiva de tablas y grficas El apndice de Excel del
captulo 2 muestra cmo se usan las herramientas Chart
Tools, PivotTable Report y PivotChart Report para mejorar
las capacidades de mostrar la estadstica descriptiva en ta-
blas y grficas.
Anlisis comparativo con diagramas de caja El tra-
tamiento de diagramas de caja del captulo 2 se ha am-
pliado para incluir comparaciones relativamente rpidas y
fciles de dos o ms bases de datos.
Estadstica
Nuevo Software PrecisionTree para el anlisis de
decisiones PrecisionTree es otro complemento de Ex-
cel desarrollado por Palisades Corporation, muy til en el
anlisis de decisiones. El captulo 21 contiene un apndice
para negocios
nuevo que muestra cmo usarlo.
Ejemplos y ejercicios nuevos basados en datos
reales Al usar datos reales, los lectores se interesarn
ms en el material y podrn aprender tanto sobre la meto-
y economa
dologa estadstica como sobre sus aplicaciones. Esta edi-
cin contiene ms de 350 ejemplos y ejercicios basados
en informacin real.
Archivos de datos que acompaan el libro Ms de
200 archivos de datos estn disponibles en el sitio web
http://latinoamerica.cengage.com/anderson. Las ba-
ses de datos se encuentran tanto en formato de Minitab
como de Excel.
ISBN-13: 978-607-481-641-9
ISBN-10: 607-481-641-7
11a. ed.
http://latinoamerica.cengage.com
ESTADSTICA
PARA NEGOCIOS
Y ECONOMA
a. ed.
ESTADSTICA
PARA NEGOCIOS
Y ECONOMA
a. ed.
David R. Anderson
University of Cincinnati
Dennis J. Sweeney
University of Cincinnati
Thomas A. Williams
Rochester Institute of Technology
Revisin tcnica
Australia Brasil Corea Espaa Estados Unidos Japn Mxico Reino Unido Singapur
Estadstica para negocios y economa, 11a. ed. D.R. 2012 por Cengage Learning
David R. Anderson Editores, S.A. de C.V., una compaa
Dennis J. Sweeney de Cengage Learning, Inc.
Thomas A. Williams Corporativo Santa Fe
Av. Santa Fe, nm. 505, piso 12
Presidente de Cengage Learning Col. Cruz Manca, Santa Fe
Latinoamrica C.P. 05349, Mxico, D.F.
Fernando Valenzuela Migoya Cengage Learning es una marca
registrada usada bajo permiso.
Director de producto y desarrollo
Latinoamrica DERECHOS RESERVADOS. Ninguna
Daniel Oti Yvonnet parte de este trabajo amparado por
la Ley Federal del Derecho de Autor
Director editorial y de produccin podr ser reproducida, transmitida,
Latinoamrica almacenada o utilizada, en cualquier
Ral D. Zendejas Espejel forma o por cualquier medio, ya
sea grfico, electrnico o mecnico,
Editor senior incluyendo, pero sin limitarse a lo
Javier Reyes Martnez siguiente: fotocopiado, reproduccin,
escaneo, digitalizacin, grabacin
Coordinadora de produccin editorial en audio, distribucin en Internet,
Abril Vega Orozco distribucin en redes de informacin
o almacenamiento y recopilacin
Editora de produccin en sistemas de informacin, a
Gloria Luz Olgun Sarmiento excepcin de lo permitido en el
captulo III, artculo 27 de la Ley
Coordinador de manufactura Federal del Derecho de Autor, sin
Rafael Prez Gonzlez el consentimiento por escrito de la
editorial.
Diseo de portada
Craig Ramsdell Traducido del libro:
Statistics for Business and Economics, 11a. ed.
Imagen de portada Publicado en ingls por
Getty Images/GlowImages South-Western Cengage Learning
ISBN 13: 978-0-324-78324-7
Composicin tipogrfica ISBN 10: 0-324-78324-8
Heriberto Gachz Chvez
Datos para catalogacin bibliogrfica:
Anderson, David R., Dennis J. Sweeney,
Thomas A. Williams,
Estadstica para negocios y economa, 11a. ed.
ISBN-13: 978-607-481-750-8
ISBN-10: 607-481-750-2
Impreso en Mxico
1 2 3 4 5 6 7 8 9 12 11
Dedicado a
Marcia, Cherri y Robbie
Contenido breve
Prefacio xxv
Acerca de los autores xxix
Captulo 1 Datos y estadstica 1
Captulo 2 Estadstica descriptiva: presentaciones tabulares
y grficas 31
Captulo 3 Estadstica descriptiva: medidas numricas 85
Captulo 4 Introduccin a la probabilidad 148
Captulo 5 Distribuciones de probabilidad discreta 193
Captulo 6 Distribuciones de probabilidad continua 232
Captulo 7 Muestreo y distribuciones de muestreo 265
Captulo 8 Estimacin por intervalo 308
Captulo 9 Pruebas de hiptesis 348
Captulo 10 Inferencia estadstica acerca de medias y proporciones
con dos poblaciones 406
Captulo 11 Inferencias acerca de varianzas poblacionales 448
Captulo 12 Pruebas de bondad de ajuste e independencia 472
Captulo 13 Diseo de experimentos y anlisis de varianza 506
Captulo 14 Regresin lineal simple 560
Captulo 15 Regresin mltiple 642
Captulo 16 Anlisis de regresin: construccin de modelos 712
Captulo 17 Nmeros ndice 763
Captulo 18 Anlisis de series de tiempo y elaboracin
de pronsticos 784
Captulo 19 Mtodos no paramtricos 855
Captulo 20 Mtodos estadsticos para el control de la calidad 903
Captulo 21 Anlisis de decisiones 937
Captulo 22 Sample Survey On Website
Apndice A Referencias y bibliografa 976
Apndice B Tablas 978
Apndice C Notacin de suma 1005
Apndice D Soluciones a las autoevaluaciones y respuestas
a los ejercicios de nmeros pares 1007
Apndice E Uso de las funciones de Excel 1062
Apndice F Clculo de los valores-p utilizando Minitab y Excel 1067
ndice analtico 1071
Contenido
Prefacio xxv
Acerca de los autores xxix
Resumen 257
Glosario 258
Frmulas clave 258
Ejercicios complementarios 258
Caso a resolver Specialty Toys 261
Apndice 6.1 Distribuciones de probabilidad continua con Minitab 262
Apndice 6.2 Distribuciones de probabilidad continua con Excel 263
Resumen 780
Glosario 780
Frmulas clave 780
Ejercicios complementarios 781
Caractersticas y pedagoga
Los autores han conservado muchas de las caractersticas que se presentaron en ediciones ante-
riores. Las ms importantes se describen a continuacin.
Ejercicios de autoevaluacin
Ciertos ejercicios se identifican como Autoevaluacin. Las soluciones completamente desa-
rrolladas de estos ejercicios se incluyen en el apndice D del libro. El estudiante puede intentar
resolverlos y comprobar inmediatamente despus la solucin para evaluar su comprensin de
los conceptos presentados en el captulo.
Agradecimientos
Un agradecimiento especial a Jeffrey D. Camm, de la University of Cincinnati, y a James J.
Cochran, de Louisiana Tech University, por sus contribuciones a esta edicin. Los profesores
Camm y Cochran hicieron una gran aportacin a los captulos nuevos sobre elaboracin de
pronsticos y mtodos no paramtricos. Adems, contribuyeron con comentarios y sugerencias
tiles para los casos a resolver, los ejercicios y artculos nuevos para Estadstica en la prctica.
Tambin agradecemos a nuestros socios de empresas y de la industria que proporcionaron los
artculos de Estadstica en la prctica. Los reconocemos de manera individual en los crdi-
tos de cada uno de los artculos. Por ltimo, tambin estamos en deuda con nuestro editor de
Adquisiciones, Charles McCormick, Jr.; nuestra editora de Desarrollo, Maggie Kubale; nuestra
gerente de Proyecto de contenido, Jacquelyn K. Featherly; nuestro gerente de Marketing, Bryant
Chrzan, y otras personas que laboran en Cengage Learning por sus consejos y apoyo durante la
preparacin de este libro.
David R. Anderson
Dennis J. Sweeney
Thomas A. Williams
Acerca de los autores
Cengage Learning agradece de manera muy especial a los siguientes profesores e instituciones
su invaluable apoyo y profesionalismo en el desempeo y xito de esta obra en el mercado.
Datos y estadstica
CONTENIDO 1.3 FUENTES DE DATOS
ESTADSTICA EN LA PRCTICA: Fuentes existentes
BUSINESSWEEK Estudios estadsticos
Errores en la adquisicin de datos
1.1 APLICACIONES EN
NEGOCIOS Y ECONOMA 1.4 ESTADSTICA DESCRIPTIVA
Contabilidad 1.5 INFERENCIA ESTADSTICA
Finanzas 1.6 COMPUTADORAS Y
Marketing ANLISIS ESTADSTICO
Produccin
Economa 1.7 MINERA DE DATOS
1.2 DATOS 1.8 LINEAMIENTOS TICOS
Elementos, variables y PARA LA PRCTICA
observaciones ESTADSTICA
Escalas de medicin
Datos categricos y cuantitativos
Datos de corte transversal y de
series de tiempo
2 Captulo 1 Datos y estadstica
ESTADSTICA en LA PRCTICA
BUSINESSWEEK*
NEW YORK, NEW YORK
Con una circulacin global de ms de 1 milln de ejempla-
res, BusinessWeek es la revista de negocios ms leda en el
mundo. Ms de 200 reporteros y editores dedicados en 26
oficinas de todo el mundo producen una variedad de artcu-
los de inters para la comunidad de los negocios y la eco-
noma. Adems de reportajes especiales sobre temas de
actualidad, la revista contiene secciones regulares sobre
administracin internacional, anlisis econmico, proce-
samiento de informacin y ciencia y tecnologa. La informa-
cin contenida en los reportajes especiales y las secciones
regulares ayuda a los lectores a mantenerse al da en los
desarrollos actuales y evala su impacto en los negocios y
la economa bajo las condiciones actuales.
La mayora de los nmeros de BusinessWeek contie- BusinessWeek utiliza hechos estadsticos y resmenes
ne un artculo de fondo sobre un tema de inters actual. en muchos de sus artculos. Terri Miller/ E-Visual
Dichos artculos a menudo contienen hechos y resmenes Communications, Inc.
estadsticos que ayudan al lector a comprender la informa-
cin de negocios y economa. Por ejemplo, el nmero del tura, compras probables, su estilo de vida, etc. Los directi-
23 de febrero de 2009 contena un reportaje especial sobre vos de BusinessWeek utilizan resmenes estadsticos de la
la crisis hipotecaria; el nmero del 17 de marzo de 2009 consulta para brindar un mejor servicio a sus suscriptores
inclua un anlisis de cundo comenzara la recuperacin y anunciantes. Una encuesta reciente entre los estadouni-
del mercado de valores, y el nmero del 4 de mayo de 2009 denses revel que 90% de los suscriptores de BusinessWeek
tena un reportaje especial sobre cmo hacer los recortes utiliza una computadora personal en su hogar, y que
salariales menos dolorosos. Adems, el suplemento sema- 64% hace compras por computadora en el trabajo. Estas
nal BusinessWeek Investor proporciona estadsticas sobre estadsticas alertaron a los directivos de la revista sobre el
el estado de la economa, que incluyen ndices de produc- inters de los suscriptores en los nuevos avances en compu-
cin, precios de las acciones, fondos de inversin y tasas tacin. Los resultados de la encuesta tambin se pusieron a
de inters. disposicin de los posibles anunciantes. El alto porcenta-
BusinessWeek tambin utiliza informacin estadstica je de suscriptores que usan computadoras personales en el
en la administracin de su propia empresa. Por ejemplo, hogar y de los que realizan compras por Internet en su tra-
una encuesta anual aplicada a los suscriptores permite a la bajo son un incentivo para que un fabricante de estos equi-
empresa obtener sus datos demogrficos, hbitos de lec- pos considere anunciarse en BusinessWeek.
En este captulo se estudian los tipos de datos de que
se dispone para el anlisis estadstico y se describe cmo se
* Los autores agradecen a Charlene Trentham, gerente de investigacin
obtienen los datos. La estadstica descriptiva y la inferen-
de BusinessWeek, por proporcionar este artculo para la seccin Esta- cia estadstica se presentan como medios para convertir los
dstica en la prctica. datos en informacin fcil de interpretar.
Un alto valor de 11% de las viviendas estadounidenses estn vacas, un exceso creado
por el auge habitacional y el colapso subsiguiente (USA Today, 13 de febrero de 2009).
El precio medio nacional de la gasolina regular alcanz los $4.00 por galn por primera
vez en la historia (sitio web de Cable News Network, 8 de junio de 2008).
Los Yankees de Nueva York perciben los sueldos ms altos en las grandes ligas de
beisbol. La nmina total es de $201 449 289, con un sueldo medio de $5 000 000 (USA
Today Salary Data Base, abril de 2009).
El promedio industrial Dow Jones cerr en 8 721 puntos (The Wall Street Journal, 2 de
junio de 2009).
Los datos numricos en las frases anteriores ($165 000, 79%, 25.3, 11%, $4.00, $201 449 289,
$5 000 000 y 8 721) se llaman estadsticas. En este sentido, el trmino estadstica se refiere a
datos numricos como promedios, medias, porcentajes e ndices que nos ayudan a entender una
variedad de situaciones de los negocios y la economa. Sin embargo, como ver ms adelante,
el campo, o materia, de la estadstica abarca mucho ms que los datos numricos. En un sentido
ms amplio, la estadstica se define como el arte y la ciencia de recolectar, analizar e interpretar
datos. En particular en los negocios y la economa, la informacin que se obtiene a partir de la
recoleccin, el anlisis, la presentacin y la interpretacin de los datos permite a los adminis-
tradores o gerentes y a quienes toman decisiones comprender mejor el entorno econmico y de
los negocios, y por tanto asumir mejores y ms informadas decisiones. En este libro se enfatiza
el uso de la estadstica para la toma de decisiones en ambos mbitos.
El captulo 1 comienza con algunos ejemplos de aplicaciones de la estadstica a los nego-
cios y la economa. En la seccin 1.2 se define el trmino dato y se introduce el concepto de
banco de datos. Esta seccin tambin presenta trminos clave como variables y observaciones;
estudia la diferencia entre datos cuantitativos y categricos, e ilustra los usos de los datos de
corte transversal y de series de tiempo. En la seccin 1.3 se analiza cmo se obtienen los datos
de fuentes existentes o por medio de estudios experimentales diseados para obtener datos nue-
vos. El papel importante que Internet juega hoy da en la obtencin de datos tambin se pone de
relieve. Los usos de los datos en el desarrollo de la estadstica descriptiva y la elaboracin
de inferencias estadsticas se describen en las secciones 1.4 y 1.5. Las ltimas tres secciones
tratan sobre la funcin de la computadora en el anlisis estadstico, y presentan una introduc-
cin al campo relativamente nuevo de la minera de datos y un anlisis de las pautas ticas
para la prctica estadstica. Al final del captulo se incluye un apndice con una introduccin
al complemento StatTools que se usa para ampliar las opciones estadsticas a los usuarios de
Microsoft Excel.
Contabilidad
Las firmas contables pblicas utilizan procedimientos de muestreo estadstico cuando realizan
auditoras para sus clientes. Por ejemplo, suponga que una firma contable quiere determinar si
el estado de cuenta de un cliente representa de manera precisa el monto real de las cuentas por
cobrar. La gran cantidad de cuentas por cobrar individuales hace que la revisin y la validacin
de cada cuenta consuman demasiado tiempo y dinero. Como prctica comn en este tipo de
situaciones, el personal de auditora selecciona un subconjunto de las cuentas llamado muestra.
Despus de revisar la precisin de la seleccin muestreada, los auditores llegan a una conclu-
sin con respecto a si el monto de las cuentas por cobrar que aparece en el estado de cuenta del
cliente es aceptable.
4 Captulo 1 Datos y estadstica
Finanzas
Los analistas financieros utilizan una variedad de informacin estadstica como gua para sus
recomendaciones de inversin. En el caso de las acciones, revisan diversos datos financieros
que incluyen las razones precio/ganancias y el rendimiento de los dividendos. Al comparar la
informacin para una accin con datos sobre los promedios del mercado de valores, un analista
financiero puede formular una conclusin acerca de si una accin est sub o sobrevaluada. Por
ejemplo, Barrons (18 de febrero de 2008) inform que la rentabilidad media por dividendo de
las 30 acciones del promedio industrial Dow Jones fue de 2.45%. Altria Group mostr una ren-
tabilidad por dividendo de 3.05%. En este caso la informacin estadstica sobre la rentabilidad
por dividendo indica que dicha empresa ofrece una rentabilidad mayor que el promedio para las
acciones Dow Jones. Por tanto, un analista financiero podra concluir que Altria Group estaba
subvaluada. sta y otra informacin sobre la compaa ayudan al analista a hacer una recomen-
dacin de comprar o vender las acciones, o esperar.
Marketing
Los escneres electrnicos en las cajas de cobro de los establecimientos minoristas recolectan
datos para una variedad de aplicaciones de investigacin de mercados. Por ejemplo, proveedores
de datos como ACNielsen e Information Resources, Inc. compran datos de los escneres en pun-
tos de venta como las tiendas de abarrotes, los procesan y luego venden resmenes estadsticos
a los fabricantes. Estos ltimos gastan cientos de miles de dlares por categora de producto
para obtener este tipo de datos. Los fabricantes tambin compran datos y resmenes estadsticos
sobre actividades promocionales, como la fijacin de precios especiales y el uso de exhibidores
dentro de las tiendas. Los gerentes de marca pueden revisar las estadsticas de los escneres y de
la actividad promocional para comprender mejor la relacin entre las actividades de promocin
y las ventas. Estos anlisis a menudo son tiles para establecer estrategias de marketing futuras
para diversos productos.
Produccin
El nfasis actual en la calidad hace que su control sea una aplicacin importante de la estadstica
en la produccin. Una variedad de grficas estadsticas de control de calidad se usan para mo-
nitorear el resultado de un proceso de produccin. En particular, una grfica x barra sirve para
monitorear el resultado medio. Suponga, por ejemplo, que una mquina llena envases con 12
onzas de una bebida refrescante. En forma peridica, un empleado de produccin selecciona una
muestra de envases y calcula el nmero medio de onzas en la muestra. Este promedio, o valor
x barra, se traza en una grfica x barra. Un valor trazado sobre el lmite superior de control de la
grfica indica que hay un exceso en el llenado, y un valor trazado por debajo del lmite inferior
de control indica que el llenado es deficiente. El proceso se considera bajo control y permite
continuar siempre que los valores x barra trazados se encuentren dentro de los lmites de control
superior e inferior de la grfica. Si se interpreta de manera adecuada, una grfica x barra ayuda a
determinar cundo es necesario hacer ajustes para corregir un proceso de produccin.
Economa
Los economistas a menudo proporcionan pronsticos acerca del futuro de la economa o sobre
algn otro aspecto relacionado. Utilizan una variedad de informacin estadstica para elaborar-
los. Por ejemplo, para pronosticar las tasas de inflacin recurren a informacin estadstica sobre
indicadores como el ndice de precios al consumidor, la tasa de desempleo y el uso de la capaci-
dad de manufactura. Estos indicadores se introducen con frecuencia en modelos de pronstico
computarizados que predicen las tasas de inflacin.
Las aplicaciones de la estadstica, como las descritas en esta seccin, son una parte integral
de este libro. Estos ejemplos proporcionan una descripcin general de gran diversidad de apli-
caciones. Para complementar estos ejemplos, profesionales en el campo de los negocios y la
economa aportaron artculos para la seccin Estadstica en la prctica al inicio del captulo,
donde se presenta el material que cubre su contenido. Dichas aplicaciones muestran la impor-
tancia de la estadstica en una amplia variedad de situaciones de negocios y economa.
1.2 Datos 5
1.2 Datos
Los datos son los hechos y las cifras recabados, analizados y resumidos para su presentacin e
interpretacin. Todos los datos recabados en un estudio en particular se conocen como banco
de datos del estudio. La tabla 1.1 muestra un banco de datos que contiene informacin de
25 fondos de inversin que forman parte de Morningstar Funds500 para 2008. Morningstar es
una empresa que le sigue la pista a ms de 7 000 fondos de inversin y prepara anlisis deta-
llados de 2 000 de ellos. Los analistas financieros e inversionistas individuales siguen sus reco-
mendaciones al pie de la letra.
5-Year Expense
Fund Net Asset Average Ratio Morningstar
Fund Name Type Value ($) Return (%) (%) Rank
American Century Intl. Disc IE 14.37 30.53 1.41 3-star
American Century Tax-Free Bond FI 10.73 3.34 0.49 4-star
American Century Ultra DE 24.94 10.88 0.99 3-star
Artisan Small Cap DE 16.92 15.67 1.18 3-star
Brown Cap Small DE 35.73 15.85 1.20 4-star
DFA U.S. Micro Cap DE 13.47 17.23 0.53 3-star
WEB archivo Fidelity Contrafund DE 73.11 17.99 0.89 5-star
Fidelity Overseas IE 48.39 23.46 0.90 4-star
Morningstar Fidelity Sel Electronics DE 45.60 13.50 0.89 3-star
Fidelity Sh-Term Bond FI 8.60 2.76 0.45 3-star
Gabelli Asset AAA DE 49.81 16.70 1.36 4-star
Los bancos de
Kalmar Gr Val Sm Cp DE 15.30 15.31 1.32 3-star
datos como el
de Morningstar Marsico 21st Century DE 17.44 15.16 1.31 5-star
estn disponibles Mathews Pacific Tiger IE 27.86 32.70 1.16 3-star
en ingls en el Oakmark I DE 40.37 9.51 1.05 2-star
sitio web de este PIMCO Emerg Mkts Bd D FI 10.68 13.57 1.25 3-star
libro. RS Value A DE 26.27 23.68 1.36 4-star
T. Rowe Price Latin Am. IE 53.89 51.10 1.24 4-star
T. Rowe Price Mid Val DE 22.46 16.91 0.80 4-star
Thornburg Value A DE 37.53 15.46 1.27 4-star
USAA Income FI 12.10 4.31 0.62 3-star
Vanguard Equity-Inc DE 24.42 13.41 0.29 4-star
Vanguard Sht-Tm TE FI 15.68 2.37 0.16 3-star
Vanguard Sm Cp Idx DE 32.58 17.01 0.23 3-star
Wasatch Sm Cp Growth DE 35.41 13.98 1.19 4-star
Escalas de medicin
La recoleccin de datos requiere una de las escalas de medicin siguientes: nominal, ordinal,
de intervalo o de razn. La escala de medicin determina la cantidad de informacin contenida
en los datos e indica la manera ms apropiada de resumirlos y analizarlos estadsticamente.
Cuando los datos de una variable se componen de etiquetas o nombres utilizados para iden-
tificar un atributo del elemento, la escala de medicin se considera una escala nominal. Por
ejemplo, al observar los datos de la tabla 1.1 vemos que la escala de medicin para la variable
tipo de fondo es nominal, porque DE, IE y FI son etiquetas utilizadas para identificar la catego-
ra o tipo de fondo. En tales casos se puede usar un cdigo numrico o etiquetas no numricas.
Por ejemplo, para facilitar la recoleccin y preparacin de los datos con el fin de introducirlos
en una base de datos computarizada, podramos usar un cdigo numrico que establezca que 1
denota un capital nacional, 2 un capital internacional y 3 una renta fija. En este caso los valores
numricos 1, 2 y 3 identifican la categora del fondo. La escala de medicin es nominal a pesar
de que los datos aparecen como valores numricos.
La escala de medicin de una variable se llama escala ordinal si los datos exhiben las pro-
piedades de los datos nominales y su orden o clasificacin es significativo. Por ejemplo, Eastside
Automotive enva a los clientes un cuestionario diseado para obtener datos sobre la calidad de
su servicio de reparacin de automviles. Cada cliente califica el servicio de reparacin como
excelente, bueno o malo. Dado que los datos obtenidos son las etiquetas excelente, bueno o
malo, poseen las cualidades de los datos nominales. Adems, pueden clasificarse, u ordenarse,
con respecto a la calidad en el servicio. Los datos registrados como excelente indican el mejor
servicio, seguidos por bueno y luego por malo. As, la escala de medicin es ordinal. Como
otro ejemplo, observe que la calificacin de Morningstar para los datos de la tabla 1.1 es un dato
ordinal. Proporciona una calificacin de 1 a 5 estrellas basada en la evaluacin del rendimien-
to ajustado al riesgo que proporciona el fondo. Los datos ordinales tambin pueden proporcio-
narse por medio de un cdigo numrico, por ejemplo, su nmero de lista en clase.
En una escala de intervalo para una variable los datos presentan todas las propiedades de
los datos ordinales, y el intervalo entre los valores se expresa en trminos de una unidad de me-
dida fija. Los datos de intervalo son siempre numricos. Las calificaciones de la prueba de
aptitudes Scholastic Aptitude Test (SAT) son un ejemplo de datos escala de intervalo. Por ejem-
plo, tres estudiantes que obtuvieron las calificaciones 620, 550 y 470 en una prueba de mate-
mticas llamada SAT pueden clasificarse u ordenarse en funcin del mejor al peor rendimiento.
Adems, las diferencias entre las puntuaciones son significativas. Por ejemplo, el estudiante 1
obtuvo 620 ! 550 " 70 puntos ms que el alumno 2, mientras que ste obtuvo 550 ! 470 " 80
puntos ms que el estudiante 3.
En una escala de razn para una variable los datos tienen todas las propiedades de los
datos de intervalo, y la razn de los dos valores es significativa. Para la medicin de variables
como la distancia, la estatura, el peso y el tiempo se usa la escala de razn. sta requiere que
se incluya un valor cero para indicar que en este punto no existe un valor para la variable. Por
1.2 Datos 7
ejemplo, considere el costo de un automvil. Un valor cero para el costo indicara que el vehcu-
lo no tiene costo, es gratis. Adems, si se compara el costo de un automvil de $30 000 con el
costo de un segundo automvil de $15 000, la propiedad de la razn muestra que el primero
cuesta $30 000/$15 000 " 2 veces, o el doble, que el segundo.
FIGURA 1.1 Precio promedio por galn para la gasolina regular convencional en Estados Unidos
$4.50
4.00
3.50
2.50
2.00
1.50
1.00
0.50
0
Mar 06 Oct 06 Abr 07 Nov 07 Jun 08 Dic 08 Jul 09
Fecha
La grfica (B) muestra la utilidad neta de McDonalds Inc. desde 2003 hasta 2009. Las
condiciones econmicas en declive de 2008 y 2009 fueron realmente benficas para la em-
presa, ya que su utilidad neta alcanz un mximo histrico. Este crecimiento en la utilidad neta
demostr que la firma estaba prosperando durante la crisis econmica, cuando la gente empe-
z a restringir sus gastos y prefera las alternativas ms econmicas ofrecidas por McDonalds
en lugar de los restaurantes tradicionales ms costosos.
La grfica (C) muestra la serie de tiempo para la tasa de ocupacin de los hoteles en el sur
de Florida durante un periodo de un ao. Las tasas ms altas, 95 y 98%, ocurren durante los
meses de febrero y marzo, cuando el clima de la regin es atractivo para los turistas. De he-
cho, la temporada de ocupacin ms alta para los hoteles del sur de Florida es de enero a abril
de cada ao. Por otra parte, observe las menores tasas de ocupacin durante los meses de agosto
a octubre, periodo en cual se encuentra el indicador ms bajo de 50% durante septiembre. Las
elevadas temperaturas y la temporada de huracanes son las razones principales de la cada en la
ocupacin de los hoteles durante este periodo.
NOTAS Y COMENTARIOS
1. Una observacin es el conjunto de mediciones ob- 2. Los datos cuantitativos pueden ser discretos o con-
tenido para cada elemento de un banco de datos. tinuos. Los datos cuantitativos que miden cuntos
Por consiguiente, el nmero de observaciones es (por ejemplo, el nmero de llamadas recibidas en
siempre igual al nmero de elementos. El nmero 5 minutos), son discretos. Los datos cuantitativos
de mediciones obtenidas para cada elemento es que miden cunto (por ejemplo, el peso o el tiem-
igual al nmero de variables. Por ende, el nmero po), son continuos debido a que no hay una sepa-
total de elementos de datos se determina multipli- racin entre los valores de datos posibles.
cando el nmero de observaciones por el nmero
de variables.
1.2 Datos 9
14000
6
Utilidad neta (miles de millones $)
0
2003 2004 2005 2006 2007 2008 2009
100
80
Porcentaje de ocupacin
60
40
20
n
p
e
ic
go
ar
br
ay
ct
ov
l
En
Ju
Se
Fe
Ju
D
M
O
A
N
10 Captulo 1 Datos y estadstica
Fuentes existentes
En algunos casos, los datos necesarios para una aplicacin en particular ya existen. Las empre-
sas mantienen una variedad de bases de datos sobre sus empleados, clientes y operaciones
de negocios. Los datos sobre los sueldos, la edad y los aos de experiencia de los empleados
se obtienen por lo general de los registros internos del personal. Otros registros internos con-
tienen datos sobre ventas, gastos de publicidad, costos de distribucin, niveles de inventario y
cantidades de produccin. La mayora de las empresas mantiene tambin datos detallados so-
bre sus clientes. La tabla 1.2 muestra algunos de los datos de que se dispone comnmente a par-
tir de los registros internos de una empresa.
Las organizaciones que se especializan en la recoleccin y el mantenimiento de datos pro-
veen cantidades significativas de informacin econmica y de negocios. Las empresas tienen
acceso a estas fuentes de datos externos por medio de acuerdos o al comprarlos. Dun & Bradstreet,
Bloomberg y Dow Jones & Company son tres firmas que ofrecen extensos servicios de bases de
datos a sus clientes. ACNielsen e Information Resources, Inc. ha logrado el xito en su negocio
de recoleccin y procesamiento de datos que vende a anunciantes y fabricantes de productos.
Tambin se obtienen datos de diversas asociaciones de la industria y de organizaciones de
inters especial. Travel Industry Association of America mantiene informacin relacionada con
viajes, como el nmero de turistas y los gastos de viaje por estado. Estos datos son de inters para
las empresas y personas de la industria del ramo. El Graduate Management Admission Council
cuenta con datos sobre calificaciones de exmenes, caractersticas de los estudiantes y progra-
mas sobre administracin de educacin universitaria. La mayora de los datos provenientes de
estos tipos de fuentes se proveen a usuarios calificados por un costo moderado.
La importancia de Internet como una fuente de datos e informacin estadstica sigue cre-
ciendo. Casi todas las empresas tienen una pgina web que proporciona informacin general
acerca de la organizacin, as como datos sobre ventas, nmero de empleados y de productos,
el precio de los productos y sus especificaciones. Adems, varias empresas se especializan en
proveer informacin a travs de Internet, gracias a lo cual se puede tener acceso a cotizaciones
de acciones, precios de los platillos en los restaurantes, datos sobre sueldos y una variedad casi
infinita de informacin.
Las agencias gubernamentales son otra fuente importante de datos existentes. Por ejem-
plo, el Departamento de Trabajo de Estados Unidos mantiene una gran cantidad de datos sobre
las tasas de empleo, las tasas salariales, el porcentaje de la poblacin activa y la afiliacin a
TABLA 1.2 Ejemplos de datos disponibles de los registros internos de una empresa
sindicatos. La tabla 1.3 lista algunas agencias gubernamentales seleccionadas y algunos de los
datos que proporcionan. La mayora de las dependencias que rene y procesa datos tambin
los pone a disposicin de los usuarios por medio de un sitio web. La figura 1.3 muestra la pgi-
na principal del sitio web de la Oficina del Censo de Estados Unidos.
Estudios estadsticos
Algunas veces los datos necesarios para alguna aplicacin en particular no estn disponibles a
Se cree que el estudio travs de las fuentes existentes. En estos casos suelen obtenerse mediante estudios estadsticos,
estadstico experimental los cuales se clasifican en experimentales u observacionales.
ms grande jams realizado
es el experimento para
En un estudio experimental se identifica primero la variable de inters. Luego se toman una
la vacuna Salk contra la o ms variables y se controlan para obtener datos de cmo influyen en la variable de inters. Por
polio del Servicio de Salud ejemplo, una compaa farmacutica podra interesarse en realizar un experimento para ente-
Pblica efectuado en 1954. rarse de cmo afecta un nuevo medicamento la presin sangunea. sta es la variable de inters
Se seleccionaron casi en el estudio. El nivel de dosis del medicamento nuevo es otra variable que se espera que tenga
2 millones de nios de
1o., 2o. y 3er. grados
un efecto causal en la presin sangunea. Para obtener datos sobre el efecto del nuevo frmaco,
de enseanza elemental de los investigadores seleccionan una muestra de individuos. El nivel de dosis del medicamento
todo Estados Unidos. est controlado, ya que a los distintos grupos de individuos se les suministran dosis diferentes.
Antes y despus se recaban datos sobre la presin sangunea para cada grupo. El anlisis esta-
dstico de los datos experimentales ayuda a determinar el efecto del nuevo medicamento en la
presin sangunea.
Los estudios estadsticos no experimentales u observacionales de ninguna manera intentan
controlar las variables de inters. Una encuesta es tal vez el tipo ms comn de estudio obser-
vacional. Por ejemplo, en una entrevista personal para una encuesta primero se identifican las
preguntas de investigacin, luego se disea un cuestionario y despus se administra a una mues-
Los estudios sobre los tra de individuos. Algunos restaurantes usan estudios observacionales para obtener datos sobre
fumadores y los no fumadores las opiniones de los clientes acerca de la calidad de la comida, la calidad en el servicio, la at-
son observacionales, debido
msfera del lugar, etc. En la figura 1.4 se aprecia un cuestionario de opinin del cliente usado
a que los investigadores no
determinan o controlan por Chops City Grill en Naples, Florida. Observe que a los clientes que contestaron se les pide
quin fuma y quin no. que califiquen 12 variables, como la experiencia general, la amabilidad de la hostess, el gerente
(visita a la mesa), el servicio general, etc. Las categoras de respuesta de excelente, bueno, regu-
lar, aceptable y malo proporcionan datos categricos que permiten a la gerencia de Chops City
Grill mantener estndares altos para los alimentos y el servicio del restaurante.
Cualquiera que quiera usar datos y anlisis estadsticos como apoyo en la toma de deci-
siones debe considerar el tiempo y el costo requeridos para obtenerlos. El uso de las fuentes
existentes es recomendable cuando los datos deben obtenerse en un periodo relativamente bre-
ve. Si los datos importantes no se pueden recabar con facilidad de una fuente existente, debe
tomarse el tiempo y el costo adicionales involucrados en su obtencin. En todos los casos, quien
FIGURE 1.4 Cuestionario de opinin del cliente usado por el restaurante Chops City Grill
en Naples, Florida
Experiencia general
Amabilidad de la hostess
Gerente (visita a la mesa)
Servicio general
Profesionalismo
Conocimiento del men
Amabilidad
Seleccin de vinos
Seleccin del men
Calidad de los alimentos
Presentacin de los alimentos
Gastos estimados $
Qu comentarios podra hacernos para mejorar nuestro restaurante?
toma decisiones debe considerar la contribucin del anlisis estadstico al proceso de toma de
decisiones. El costo de la adquisicin de los datos y el anlisis estadstico subsiguiente no de-
ben exceder los ahorros generados por el uso de la informacin para tomar una mejor decisin.
70
60
Frecuencia porcentual
50
40
30
20
10
0
Capital nacional Capital internacional Renta fija
Tipo de fondo
Un resumen grfico de los datos para la variable cuantitativa net asset value (valor de los
activos netos), llamado histograma, se muestra en la figura 1.6. El histograma facilita ver que
los valores de activos netos varan de $0 a $75, con una mayor concentracin entre $15 y $30.
Slo uno de los valores de los activos netos es mayor de $60.
Adems de las tablas y las grficas, para resumir los datos se usa la estadstica descripti-
va numrica. La medida estadstica descriptiva numrica ms comn es el promedio, o media.
Utilizando los datos sobre el rendimiento promedio de 5 aos para los fondos de inversin de
FIGURA 1.6 Histograma del valor de los activos netos para 25 fondos de inversin
6
Frecuencia
0
0 15 30 45 60 75
Valor de los activos netos ($)
1.5 Inferencia estadstica 15
la tabla 1.1 podemos calcular el promedio al sumar los rendimientos para los 25 fondos de in-
versin y dividir la suma entre 25. Al hacerlo, obtenemos un rendimiento promedio de 5 aos de
16.50%, el cual demuestra una medida de tendencia central, o posicin central, de los datos para
esa variable.
El inters en mtodos eficaces para el desarrollo y la presentacin de la estadstica descripti-
va es cada vez mayor. Los captulos 2 y 3 se centran en los mtodos tabular, grfico y numrico
de la estadstica descriptiva.
POBLACIN
MUESTRA
El gobierno estadounidense El proceso de realizar una encuesta para recabar datos de toda una poblacin se llama
efecta un censo cada censo. El proceso de realizar una encuesta para recabar datos de una muestra se llama encuesta
10 aos. Las firmas de
por muestreo. Como una de sus contribuciones importantes, la estadstica usa datos de una
investigacin de mercados
realizan todos los das muestra para hacer estimaciones y probar hiptesis sobre las caractersticas de una poblacin
encuestas por muestreo. mediante un proceso conocido como inferencia estadstica.
Como ejemplo de inferencia estadstica, considere el estudio realizado por Electronics
Norris, la cual fabrica focos de alta luminosidad usados en una variedad de productos elctri-
cos. En un intento por aumentar la vida til de los focos, el grupo de diseo desarroll un fila-
mento nuevo. En este caso, la poblacin se define como todos los focos que pueden fabricarse
con el filamento nuevo. Para evaluar sus ventajas, se fabricaron y probaron 200 focos con di-
cho aditamento. Los datos recabados de esta muestra sealan el nmero de horas de funciona-
miento de cada foco antes de que el filamento se fundiera. Consulte la tabla 1.5.
Suponga que Norris quiere usar los datos muestrales para hacer una inferencia sobre las
horas promedio de vida til para la poblacin de todos los focos que podran producirse con
el filamento nuevo. La adicin de los 200 valores en la tabla 1.5 y la divisin del total entre
200 proporciona la vida til promedio de la muestra para los focos: 76 horas. Podemos usar
este resultado para estimar que la vida til promedio para los focos en la poblacin es de 76 ho-
ras. La figura 1.7 proporciona un resumen grfico del proceso de inferencia estadstica para
Norris Electronics.
Siempre que los expertos en estadstica usan una muestra para estimar una caracterstica de
inters de la poblacin, proporcionan un enunciado de la calidad, o precisin, asociada con la
estimacin. Para el ejemplo de Norris, el experto en estadstica podra afirmar que la estimacin
16 Captulo 1 Datos y estadstica
TABLA 1.5 Horas hasta que el filamento se funde para una muestra de 200 focos en el ejemplo
de Norris Electronics
107 73 68 97 76 79 94 59 98 57
54 65 71 70 84 88 62 61 79 98
66 62 79 86 68 74 61 82 65 98
62 116 65 88 64 79 78 79 77 86
WEB archivo 74 85 73 80 68 78 89 72 58 69
92 78 88 77 103 88 63 68 88 81
Norris 75 90 62 89 71 71 74 70 74 70
65 81 75 62 94 71 85 84 83 63
81 62 79 83 93 61 65 62 92 65
83 70 70 81 77 72 84 67 59 58
78 66 66 94 77 63 66 75 68 76
90 78 71 101 78 43 59 67 61 71
96 75 64 76 72 77 74 65 82 86
66 86 96 89 81 71 85 99 59 92
68 72 77 60 87 84 75 77 51 45
85 67 87 80 84 93 69 76 89 75
83 68 72 67 92 89 82 96 77 102
74 91 76 83 66 68 61 73 72 76
73 77 79 94 63 59 62 71 81 65
73 63 63 89 82 64 85 92 64 73
1. La poblacin
2. Una muestra
consiste en
de 200 focos
todos los focos
es fabricada con el
fabricados con
filamento nuevo.
el filamento
nuevo.
puntual de la vida til promedio para la poblacin de focos nuevos es de 76 horas con un mar-
gen de error de #4 horas. Por tanto, una estimacin del intervalo de la vida til promedio para
todos los focos producidos con el filamento nuevo es de 72 a 80 horas. El experto tambin pue-
de mencionar cunta confianza tiene en que este intervalo contenga la poblacin promedio.
1.7 Minera de datos 17
Los mtodos estadsticos integracin creativa de todos estos mtodos y tecnologas de las ciencias de la computacin
juegan un papel importante que involucran la inteligencia artificial y el aprendizaje de mquinas para hacerla eficiente. Se
en la minera de datos,
requiere una inversin significativa en tiempo y dinero para implementar software de minera
tanto en trminos del
descubrimiento de
de datos comercial desarrollado por empresas como Oracle, Teradata y SAS. Los conceptos
relaciones en los datos estadsticos introducidos en este libro sern tiles en la comprensin de la metodologa esta-
como de la prediccin de dstica empleada por el software de minera de datos y le permitirn una mejor comprensin de
resultados futuros. Sin la informacin estadstica desarrollada.
embargo, una cobertura Dado que los modelos estadsticos juegan un papel importante en el desarrollo de mode-
rigurosa de la minera los predictivos en la minera de datos, muchas de las preocupaciones que inquietan a los exper-
de datos y del uso de
tos en el desarrollo de modelos estadsticos tambin son aplicables. Por ejemplo, una inquietud
la estadstica en la misma
estn fuera del alcance
en cualquier estudio estadstico se relaciona con el problema de la confiabilidad del modelo.
de este libro. Encontrar uno que funcione bien para una muestra de datos en particular no necesariamente
significa que pueda aplicarse de manera confiable a otros datos. Uno de los enfoques estads-
ticos comunes para la evaluacin de la confiabilidad del modelo es dividir el banco de datos
muestral en dos partes: un banco de datos de entrenamiento y un banco de datos de prueba. Si
el modelo desarrollado usando los datos de entrenamiento puede predecir de manera precisa
valores en los datos de prueba, decimos que es confiable. Una ventaja que la minera de datos
tiene sobre la estadstica clsica reside en que la enorme cantidad de datos disponible permite
al software de minera de datos la particin del banco de datos, de modo que un modelo desa-
rrollado para el banco de datos de entrenamiento pueda probarse para la confiabilidad de otros
datos. En este sentido, la particin del banco de datos permite que la minera de datos desarrolle
modelos y relaciones y luego observe de manera rpida si son repetibles y vlidos con datos
nuevos y diferentes. Por otra parte, una advertencia para las aplicaciones de minera de datos es
que, con tantos datos disponibles, existe el peligro de sobreajuste (overfitting) del modelo al
punto de que las asociaciones equivocadas y las conclusiones de causa y efecto parecen existir.
La interpretacin cuidadosa de la minera de datos se produce, y pruebas adicionales ayudarn
a evitar esta dificultad.
1
American Statistical Association, Ethical Guidelines for Statistical Practice, 1999.
1.8 Lineamientos ticos para la prctica estadstica 19
Una de las pautas ticas en el rea del profesionalismo aborda el problema de realizar
mltiples pruebas hasta obtener el resultado deseado. Considere este ejemplo. En la seccin 1.5
se coment un estudio estadstico realizado por Norris Electronics que involucra una muestra
de 200 focos de alta intensidad fabricados con un filamento nuevo. La vida til promedio de
la muestra, 76 horas, proporcion una estimacin de la vida til promedio de todos los focos
fabricados con el nuevo filamento. Sin embargo, considere lo siguiente: debido a que Norris
seleccion una muestra de focos, es razonable suponer que cualquier otra habra proporcionado
una vida til promedio diferente.
Suponga que la gerencia de Norris esperaba que los resultados le permitieran afirmar que la
vida til promedio de los focos nuevos era de 80 horas o ms. Suponga adems que la gerencia
decidi continuar el estudio al fabricar y probar muestras repetidas de 200 focos con el filamento
nuevo hasta obtener una muestra media de 80 horas o ms. Si el estudio se repitiera suficientes
veces, finalmente se podra conseguir una muestra, slo por casualidad, que proporcionara el
resultado deseado y permitiera a Norris hacer una afirmacin como sta. En este caso los con-
sumidores cometeran un error al pensar que el producto nuevo es mejor de lo que en realidad
es. Desde luego, este tipo de comportamiento es poco tico y representa un uso incorrecto grave
de la estadstica en la prctica.
Varias pautas ticas en las responsabilidades y publicaciones y en el rea de testimonios se
relacionan con problemas que involucran el manejo de datos. Por ejemplo, un experto en esta-
dstica debe representar todos los datos considerados en un estudio y explicar la(s) muestra(s)
empleada(s) en realidad. En el estudio de Norris Electronics la vida til promedio de los 200
focos de la muestra original es de 76 horas; este tiempo es considerablemente menor que las
80 horas o ms que la gerencia esperaba obtener. Suponga ahora que despus de revisar los
resultados que arrojan una vida til promedio de 76 horas, la empresa descarta todas las obser-
vaciones con 70 horas o menos hasta que el filamento se funde, supuestamente debido a que
estos focos contienen imperfecciones causadas por problemas iniciales en el proceso de manu-
factura. Despus de descartar estos focos, la vida til promedio de los que restan en la muestra
resulta ser de 82 horas. Sospechara de la afirmacin de Norris de que la vida til promedio
de sus focos es de 82 horas?
Si los focos que funcionan 70 horas o menos hasta que se funden fueron descartados para
sencillamente proporcionar una vida til promedio de 82 horas, no hay duda de que descartar
los focos con 70 horas o menos hasta que se funden es poco tico. Pero incluso si estos lti-
mos contienen imperfecciones debido a los problemas iniciales en el proceso de manufactura y,
como resultado, no deben haberse incluido en el anlisis, el experto que realiz el estudio debe
justificar todos los datos que se consideraron y explicar cmo se obtuvo la muestra empleada en
realidad. Hacer lo contrario es potencialmente errneo y constituira un comportamiento poco
tico tanto de la empresa como del experto.
Una pauta en los valores compartidos del informe de la American Statistical Association
establece que los profesionales de la estadstica deben evitar cualquier tendencia a sesgar su
trabajo hacia resultados predeterminados. Este tipo de prctica poco tica se observa con fre-
cuencia cuando se usan muestras poco representativas para hacer reclamos. Por ejemplo, en
diversas reas del pas no est permitido fumar en restaurantes. Suponga, no obstante, que un
miembro de un grupo de presin para la industria del tabaco entrevista a personas en restau-
rantes donde est permitido fumar con la finalidad de estimar el porcentaje de comensales que
est a favor de consumir cigarrillos en este tipo de negocios. En este caso sostendramos que el
simple hecho de tomar una muestra slo de las personas que comen en los restaurantes donde
est permitido fumar ha sesgado los resultados. Si slo se informan las conclusiones finales
de un estudio como ste, los lectores que desconocen los detalles del sondeo (por ejemplo, que
la muestra se recab slo en restaurantes donde se permite fumar) pueden ser engaados.
El alcance del informe de la American Statistical Association es amplio e incluye pautas
ticas que son apropiadas no slo para un experto en estadstica, sino tambin para los consu-
midores de informacin de este tipo. Le sugerimos que lea el informe para obtener una mejor
perspectiva de los problemas ticos a medida que contine su estudio de la estadstica, y adqui-
rir experiencia para determinar cmo asegurar que las normas ticas se cumplen cuando usted
empieza a usarla en la prctica.
20 Captulo 1 Datos y estadstica
Resumen
La estadstica es el arte y la ciencia de recabar, analizar, presentar e interpretar los datos. Casi
todos los estudiantes que cursan licenciaturas de negocios o economa requieren tomar por lo
menos un curso de estadstica. El captulo comienza con la descripcin de las aplicaciones es-
tadsticas comunes para los negocios y la economa.
Los datos consisten en los hechos y las cifras que se recaban y analizan. Las cuatro escalas
de medicin empleadas para obtener datos sobre una variable en particular son las escalas no-
minal, ordinal, de intervalo y de razn. La escala de una variable es nominal cuando los datos
consisten en etiquetas o nombres que se usan para identificar un atributo de un elemento. La
escala es ordinal si los datos presentan las propiedades de los datos nominales y su orden o
clasificacin es significativo. La escala es de intervalo si los datos tienen las propiedades de los
datos ordinales y el intervalo entre los valores se expresa en trminos de una unidad de medida
fija. Por ltimo, se tiene una escala de razn cuando los datos presentan todas las propiedades
de los datos de intervalo y la razn de dos valores es significativa.
Para fines prcticos del anlisis estadstico, los datos pueden clasificarse como categricos
o cuantitativos. Los datos categricos utilizan etiquetas o nombres para identificar un atributo
de cada elemento. Asimismo, usan las escalas de medicin, ya sea nominal u ordinal, y pueden
ser numricos o no numricos. Los datos cuantitativos son valores numricos que indican cunto
o cuntos, y utilizan las escalas de medicin de intervalo o de razn. Las operaciones aritmti-
cas ordinarias slo tienen sentido si los datos son cuantitativos. De ah que los clculos estads-
ticos utilizados para los datos cuantitativos no siempre sean apropiados para los categricos.
En las secciones 1.4 y 1.5 se introducen los temas de estadstica descriptiva e inferencia
estadstica. La estadstica descriptiva abarca los mtodos tabular, grfico y numrico usados
para resumir los datos. El proceso de inferencia estadstica usa los datos obtenidos de una mues-
tra para realizar estimaciones o probar hiptesis acerca de las caractersticas de una poblacin.
Las ltimas tres secciones del captulo contienen informacin sobre el papel de las computa-
doras en el anlisis estadstico, una introduccin al campo relativamente nuevo de la minera de
datos y un resumen de los lineamientos ticos para la prctica estadstica.
Glosario
Escala nominal Escala de medicin para una variable cuando los datos son etiquetas o nom-
bres usados para identificar un atributo de un elemento. Los datos nominales pueden ser num-
ricos o no numricos.
Escala ordinal Escala de medicin para una variable si los datos exhiben las propiedades de
los datos nominales, y su orden o clasificacin es significativo.
Estadstica El arte y la ciencia de recabar, analizar, presentar e interpretar datos.
Estadstica descriptiva Resmenes de datos en forma de tabla, grfica y nmeros.
Inferencia estadstica Proceso de usar datos obtenidos de una muestra para efectuar estima-
ciones o probar hiptesis acerca de las caractersticas de una poblacin.
Minera de datos Proceso de utilizar procedimientos de la estadstica y las ciencias de la
computacin para extraer informacin til de bases de datos sumamente grandes.
Muestra Un subconjunto de la poblacin.
Observacin Conjunto de mediciones obtenido para un elemento en particular.
Poblacin Conjunto de todos los elementos de inters en un estudio en particular.
Variable Una caracterstica de inters para los elementos.
Variable categrica Variable con datos categricos.
Variable cuantitativa Variable con datos cuantitativos.
Ejercicios complementarios
1. Comente las diferencias entre la estadstica como hechos numricos y la estadstica como una
disciplina o campo de estudio.
2. El Departamento de Energa de Estados Unidos proporciona informacin sobre economa de
AUTO evaluacin combustible para diversos vehculos de motor. Una muestra de 10 automviles se presenta en
la tabla 1.6 (sitio web Fuel Economy, 22 de febrero de 2008). Los datos indican el tamao del
automvil (compacto, mediano o grande), el nmero de cilindros del motor, las millas por galn
en la ciudad, las millas por galn en autopista y el combustible recomendado (diesel, premium
o regular).
a) Cuntos elementos hay en este banco de datos?
b) Cuntas variables hay en este banco de datos?
c) Cules variables son categricas y cules son cuantitativas?
d) Qu tipo de escala de medicin se usa para cada una de las variables?
3. Consulte la tabla 1.6.
AUTO evaluacin a) Cuntas millas por galn se consumen en la ciudad?
b) En promedio, cuntas millas ms por galn se obtienen al conducir en autopista que en la
ciudad?
MPG* MPG
Vehculo Tamao Cilindros Ciudad Autopista Combustible
Audi A8 Grande 12 13 19 Premium
BMW 328Xi Compacto 6 17 25 Premium
Cadillac CTS Mediano 6 16 25 Regular
Chrysler 300 Grande 8 13 18 Premium
Ford Focus Compacto 4 24 33 Regular
Hyundai Elantra Mediano 4 25 33 Regular
Jeep Grand Cherokee Mediano 6 17 26 Diesel
Pontiac G6 Compacto 6 15 22 Regular
Toyota Camry Mediano 4 21 31 Regular
Volkswagen Jetta Compacto 5 21 29 Regular
Inversin % de Divisin
($ miles de solicitantes de la
Escuela Estado Campus millones) admitidos NCAA
Amherst College Massachusetts Pueblo: pequeo 1.7 18 III
Duke Carolina del Norte Ciudad: mediana 5.9 21 I-A
Universidad de Harvard Massachusetts Ciudad: mediana 34.6 9 I-AA
Swarthmore College Pennsylvania Suburbio: grande 1.4 18 III
Universidad de Pennsylvania Pennsylvania Ciudad: grande 6.6 18 I-AA
Williams College Massachusetts Pueblo: pequeo 1.9 18 III
Universidad de Yale Connecticut Ciudad: mediana 22.5 9 I-AA
los problemas de crdito en los mercados financieros? Las respuestas posibles fueron exce-
lente, bueno, aceptable, malo y muy malo (sitio web Harris Interactive, enero de 2008).
a) De qu tamao fue la muestra para esta encuesta?
b) Los datos son categricos o cuantitativos?
c) Tendra ms sentido usar promedios o porcentajes como resumen de los datos para esta
pregunta?
d) De los encuestados en Estados Unidos, 10% dijo que el Federal Bank est efectuando un
buen trabajo. Cuntas personas proporcionaron esta respuesta?
9. El Departamento de Comercio inform que recibi las aplicaciones siguientes para el Premio
Nacional de Calidad Malcolm Baldrige: 23 de las empresas de manufactura grandes, 18 de las
empresas de servicios grandes y 30 de las pequeas empresas.
a) El tipo de empresa es una variable categrica o cuantitativa?
b) Qu porcentaje de las aplicaciones proviene de las pequeas empresas?
10. La encuesta a suscriptores de The Wall Street Journal (WSJ) (13 de octubre de 2003) formul
46 preguntas sobre las caractersticas y los intereses de los lectores. Determine si cada una de las
preguntas siguientes proporcion datos categricos o cuantitativos, e indique la escala de me-
dicin apropiada para cada uno.
a) Qu edad tiene?
b) Es usted hombre o mujer?
c) Cundo empez a leer el WSJ? En secundaria, bachillerato, a principios de la carrera, a
mitad de la carrera, a finales de la carrera o en el retiro?
d) Cunto tiempo lleva en su empleo o puesto actual?
e) Qu tipo de vehculo est considerando para su compra siguiente? Nueve categoras de
respuesta incluyen automviles sedn, automviles deportivos, vehculos todo terreno,
minivans, etctera.
11. Determine si cada una de las variables siguientes es categrica o cuantitativa, e indique su es-
cala de medicin.
a) Ventas anuales.
b) Tamao de bebida refrescante (pequeo, mediano, grande).
c) Clasificacin de empleados (de gs1 a gs18).
d) Utilidades por accin.
e) Mtodo de pago (efectivo, cheques, tarjeta de crdito).
12. La agencia Hawaii Visitors Bureau recaba datos sobre los visitantes a Hawaii. Las preguntas
siguientes se incluyeron entre las 16 formuladas en un cuestionario que se proporcion a los
pasajeros durante los vuelos entrantes de la aerolnea en junio de 2003.
Este viaje a Hawaii es mi: 1o., 2o., 3o., 4o., etctera.
La razn principal para este viaje es: (10 categoras que incluyen vacaciones, conven-
cin, luna de miel).
Dnde planeo hospedarme: (11 categoras que incluyen hotel, departamento, parientes,
acampar).
Das totales en Hawaii.
a) Qu poblacin se estudia?
b) El uso de un cuestionario es una buena manera de llegar a la poblacin de pasajeros en
los vuelos de aerolneas entrantes?
c) Comente si cada una de las cuatro preguntas le proporcionar datos categricos o cuanti-
tativos.
13. La figura 1.8 proporciona una grfica de barras que muestra la cantidad de gasto federal para
AUTO evaluacin los aos 2002 a 2008 (USA Today, 5 de febrero de 2008).
a) Cul es la variable de inters?
b) Los datos son categricos o cuantitativos?
c) Los datos son series de tiempo o de corte transversal?
d) Comente sobre la tendencia en el gasto federal con respecto al tiempo.
24 Captulo 1 Datos y estadstica
3.5
3.0
2.0
1.5
1.0
0.5
0
2002 2003 2004 2005 2006 2007 2008
Ao
14. CSM Worldwide efecta pronsticos de la produccin global para todos los fabricantes de
automviles. Los siguientes datos de CSM muestran el pronstico de la produccin global
de automviles para General Motors, Ford, DaimlerChrysler y Toyota para los aos 2004 a
2007 (USA Today, 21 de diciembre de 2005). Los datos estn en millones de vehculos.
a) Elabore una grfica de series de tiempo para los aos 2004 a 2007 que muestre el nmero
de vehculos fabricados por cada compaa automotriz. Muestre las series de tiempo para
los cuatro fabricantes en la misma grfica.
b) General Motors ha sido el lder indiscutible en la produccin de automviles desde 1931.
Qu muestra la grfica de serie de tiempo sobre cul es la compaa automotriz ms im-
portante del mundo? Comente.
c) Elabore una grfica de barras que muestre los vehculos producidos por los fabricantes de
automviles usando los datos de 2007. Esta grfica se basa en datos de corte transversal
o de series de tiempo?
15. La Food and Drug Administration (Administracin de Alimentos y Frmacos, FDA) report el
nmero de frmacos nuevos aprobados durante un periodo de ocho aos (The Wall Street Jour-
nal, 12 de enero de 2004). La figura 1.9 muestra una grfica de barras que resume el nmero de
medicamentos nuevos aprobado cada ao.
a) Los datos son categricos o cuantitativos?
b) Los datos son de series de tiempo o de corte transversal?
c) Cuntos medicamentos nuevos se aprobaron en 2003?
d) En qu ao se aprob el menor nmero de frmacos nuevos? Cuntos fueron?
e) Comente la tendencia en el nmero de medicamentos nuevos aprobados por la fda durante
el periodo de ocho aos.
Ejercicios complementarios 25
60
30
15
0
1996 1997 1998 1999 2000 2001 2002 2003
Ao
16. La Oficina de Informacin del Departamento de Energa de Estados Unidos proporcion datos
de series de tiempo para el precio promedio de gasolina regular convencional en dlares por
galn entre julio de 2006 y junio de 2009 (sitio web Energy Information Administration, junio
de 2009). Use Internet para obtener el precio medio por galn de gasolina regular convencio-
nal desde junio de 2009.
a) Ample la grfica de la serie de tiempo mostrada en la figura 1.1 (pg. 8).
b) Qu interpretaciones puede hacer acerca del precio por galn de gasolina regular conven-
cional desde junio de 2009?
c) La serie de tiempo sigue mostrando un incremento en verano en el precio promedio por
galn? Explique por qu.
17. Un gerente de una corporacin grande recomienda que se otorgue un aumento de sueldo de
$10 000 para evitar que un subordinado valioso se vaya a otra empresa. Qu fuentes de datos
internas y externas podran usarse para decidir si es apropiado este incremento?
18. Una encuesta a 430 viajeros de negocios revel que 155 de ellos usaron una agencia para ha-
cer sus arreglos de viaje (USA Today, 20 de noviembre de 2003).
a) Desarrolle una estadstica descriptiva que se pueda usar para estimar el porcentaje de to-
dos los viajeros de negocios que contratan una agencia de viajes para hacer sus arreglos
respectivos.
b) La encuesta revel que la manera ms frecuente en que los viajeros de negocios hacen sus
arreglos de viaje es por medio de un sitio de viajes en lnea. Si 44% de los encuestados
prepar sus arreglos de esta manera, cuntos de los 430 viajeros de negocios usaron un
sitio de viajes en lnea?
c) Los datos sobre cmo se hacen los arreglos de viaje son categricos o cuantitativos?
19. Un estudio sobre los suscriptores de BusinessWeek en Norteamrica recab datos de una mues-
tra de 2 861 clientes. El 59% de los encuestados indic un ingreso anual de $75 000 o ms, y
50% inform tener una tarjeta de crdito de American Express.
a) Cul es la poblacin de inters en este estudio?
b) El ingreso anual es una variable categrica o cuantitativa?
c) La propiedad de una tarjeta American Express es una variable categrica o cuantitativa?
d) Este estudio involucra datos de corte transversal o de series de tiempo?
e) Describa cualquier inferencia estadstica que BusinessWeek podra hacer sobre la base de
la encuesta.
26 Captulo 1 Datos y estadstica
20. Una consulta a 131 administradores de inversiones en la encuesta Big Money de Barron revel
lo siguiente:
43% de los gerentes se clasific a s mismo como a la alza o muy a la alza en el mercado
de valores.
El rendimiento promedio esperado durante los 12 meses siguientes para los valores
de renta variable fue 11.2%.
El 21% seleccion la asistencia mdica como el sector con ms probabilidades de
dirigir el mercado en los 12 meses siguientes.
Cuando se les pidi que estimaran cunto tiempo tardaran las acciones de tecnologa
y telecomunicaciones en reanudar un crecimiento sostenido, la respuesta promedio de
los gerentes fue 2.5 aos.
a) Cite dos estadsticas descriptivas.
b) Desarrolle una inferencia sobre la poblacin de todos los administradores de inversiones
con respecto al rendimiento promedio esperado sobre los valores de renta variable durante
los 12 meses siguientes.
c) Haga una inferencia sobre el tiempo que tardarn las acciones de tecnologa y telecomu-
nicaciones en reanudar un crecimiento sostenido.
21. Un estudio de investigacin mdica de siete aos revel que las mujeres cuyas madres toma-
ron el frmaco DES durante el embarazo, respecto de las mujeres cuyas madres no tomaron el
frmaco, tenan el doble de probabilidad de desarrollar anormalidades en el tejido que podran
provocar cncer.
a) Este estudio involucr la comparacin de dos poblaciones. Cules fueron stas?
b) Dnde supone usted que se obtuvieron los datos: en una encuesta o en un experimento?
c) Para la poblacin de mujeres cuyas madres tomaron el frmaco DES durante el embarazo,
una muestra de 3 980 mujeres mostr que 63 desarrollaron anormalidades en el tejido que
podran provocar cncer. Proporcione una estadstica descriptiva que podra usarse para
estimar el nmero de mujeres por cada 1000 en esta poblacin que presentan anormalida-
des en el tejido.
d) Para la poblacin de mujeres cuyas madres no tomaron el frmaco des durante el emba-
razo, cul es la estimacin del nmero de mujeres por cada 1000 que esperaran presentar
anormalidades en el tejido?
e) Los estudios mdicos usan con frecuencia una muestra relativamente grande (en este caso,
3 980). Por qu?
22. La firma Nielsen encuest a consumidores de 47 mercados de Europa, Asia-Pacfico, el conti-
nente americano y el Oriente Medio con el propsito de establecer cules factores son los ms
importantes para determinar dnde realizan sus compras. Utilizando una escala de 1 (baja) a
5 (alta), el factor con mayor calificacin fue gran valor por su dinero, con una calificacin
media de 4.32 puntos. El factor que calific en segundo lugar fue mejor seleccin de marcas y
productos de alta calidad, con una calificacin promedio de 3.78 puntos, y el factor con menor
calificacin fue utiliza bolsas y empaques reciclables, con una calificacin promedio de 2.71
(sitio web de Nielsen, 24 de febrero de 2008). Suponga que una cadena de tiendas de abarrotes
lo contrat para que realice un estudio parecido para determinar qu factores consideran los
clientes de la cadena en Charlotte, Carolina del Norte, que son los ms importantes para deter-
minar dnde efectan sus compras.
a) Cul es la poblacin para la encuesta que usted realizar?
b) Cmo recolectar los datos para este estudio?
23. Nielsen Media Research efecta encuestas semanales de los programas de televisin que se
ven en todo Estados Unidos, y publica datos tanto de la audiencia como de la participacin
de mercado. El ndice de audiencia de Nielsen es el porcentaje de familias con televisin que
ve un programa, mientras que la participacin de mercado es el porcentaje de familias que ve
un programa entre aquellas con televisin en uso. Por ejemplo, los resultados de Nielsen Media
Research para la Serie Mundial de Beisbol de 2003 entre los Yankees de Nueva York y los
Marlins de Florida report una audiencia de 12.8% y una participacin de 22% (Associated
Press, 27 de octubre de 2003). Por tanto, 12.8% de las familias con televisin y 22% de las fa-
milias con televisin en uso vieron la Serie Mundial. Con base en la audiencia y la informacin
de participacin de los programas ms importantes, Nielsen publica una calificacin semanal
tanto de programas de televisin como de las cuatro cadenas principales: ABC, CBS, NBC y Fox.
a) Qu intenta medir Nielsen Media Research?
b) Cul es la poblacin?
c) Por qu se usara una muestra en esta situacin?
d) Qu tipos de decisiones o acciones se basan en las calificaciones de Nielsen?
Ejercicios complementarios 27
24. Una muestra de las calificaciones obtenidas en los exmenes parciales de cinco estudiantes
mostr los resultados siguientes: 72, 65, 82, 90 y 76. Cules de los enunciados listados en-
seguida son correctos y cules deben considerarse demasiado generalizados?
a) La calificacin promedio de los exmenes parciales para la muestra de cinco estudian-
tes es 77.
b) La calificacin promedio de los exmenes parciales para los cinco estudiantes que pre-
sentaron el examen es 77.
c) Una estimacin de la calificacin promedio de los exmenes parciales para todos los es-
tudiantes que presentaron el examen es 77.
d) Ms de la mitad de los estudiantes que presentaron este examen obtendr una calificacin
de entre 70 y 85.
e) Si otros cinco estudiantes se incluyen en la muestra, obtendrn calificaciones de entre
65 y 90.
25. La tabla 1.8 muestra un banco de datos que contiene informacin para 25 de las acciones
shadow rastreadas por la American Association of Individual Investors. Las shadow son ac-
ciones comunes de empresas pequeas que no siguen de cerca los analistas de Wall Street. El
banco de datos tambin est en el sitio web del libro, en el archivo llamado Shadow02.
a) Cuntas variables hay en el banco de datos?
b) Cules de las variables son categricas y cules son cuantitativas?
c) Para la variable Exchange (intercambio) muestre la frecuencia y la frecuencia de porcen-
taje de AMEX, NYSE y OTC. Elabore una grfica de barras parecida a la de la figura 1.5 para
la variable intercambio.
d) Muestre la distribucin de frecuencia para el Gross Profit Margin (margen de utilidad
bruta) usando los cinco intervalos siguientes: 014.9, 1529.9, 3044.9, 4559.9 y 6074.
Elabore un histograma parecido al de la figura 1.6.
e) Cul es la razn promedio Price/Earnings Ratio (precio/utilidades)?
28 Captulo 1 Datos y estadstica
Uso de StatTools
Antes de realizar cualquier anlisis estadstico, debemos crear un banco de datos de StatTools
usando el Data Set Manager de este programa. Usemos la hoja de trabajo de Excel para el banco
de datos de los fondos de inversin de la tabla 1.1 para mostrar cmo se hace esto. Los pa-
sos siguientes muestran cmo crear un banco de datos de StatTools para la informacin de los
fondos de inversin.
Paso 1. Abra el archivo de Excel llamado Morningstar.
Paso 2. Seleccione cualquier celda del banco de datos (por ejemplo, la celda A1).
Paso 3. Haga clic en la ficha StatTools en la cinta de opciones.
Paso 4. En el grupo Data haga clic en Data Set Manager.
Paso 5. Cuando StatTools le pregunte si quiere sumar el rango $A$1:$F$26 como un ban-
co de datos StatTools nuevo, haga clic en Yes.
Paso 6. Cuando el cuadro de dilogo Data Set Manager de StatTools aparezca, haga clic
en OK.
La figura 1.10 muestra el cuadro de dilogo Data Set Manager de StatTools que aparece en el
paso 6. En forma predeterminada, el nombre del nuevo banco de datos de StatTools es Data
Set #1. Usted puede reemplazar Data Set #1 en el paso 6 con un nombre ms descriptivo. Y, si
usted selecciona la opcin Apply Cell Format, las etiquetas de la columna se resaltarn en azul
y todo el banco de datos tendr bordes interiores y exteriores. Usted siempre puede seleccio-
nar el Data Set Manager en cualquier momento en su anlisis para hacer este tipo de cambios.
La figura 1.11 muestra que el cuadro de dilogo StatTools-Application Settings tiene cinco
secciones: General Settings, Reports, Utilities, Data Set Defaults y Analyses. Veamos cmo
hacer cambios en la seccin Reports del cuadro de dilogo.
La figura 1.11 muestra que la opcin Placement seleccionada actualmente es New Work-
book. Usando esta opcin, el resultado de StatTools se desplegar en un libro de trabajo nue-
vo. Pero suponga que usted quiere desplegar el resultado de StatTools en el libro de trabajo
actual (activo). Si usted hace clic en las palabras New Workbook, una flecha que apunta hacia
abajo aparecer a la derecha. Al hacer clic en esta flecha se despliega una lista de todas las op-
ciones de colocacin, incluido el libro de trabajo activo (Active Workbook); le recomendamos
usar esta opcin. La figura 1.11 tambin muestra que la opcin Updating Preferences en la
seccin Reports actualmente es LiveLinked to Input Data. Con la actualizacin de Live, en
cualquier momento uno o ms valores de datos se modifican, StatTools cambia automticamente
el resultado producido previamente; tambin recomendamos usar esta opcin. Observe que hay
dos alternativas disponibles bajo Display Comments: Notes and Warnings (notas y adver-
tencias) y Educational Comments (comentarios educativos). Dado que ambas proporcionan
notas e informacin tiles respecto del resultado, le recomendamos usar las dos. Por tanto, para
30 Captulo 1 Datos y estadstica
incluir comentarios educativos como parte del resultado de StatTools, usted tendr que cam-
biar el valor de False para Educational Comments por verdadero (True).
El cuadro de dilogo StatToolsApplication Settings contiene otras funciones que le per-
miten personalizar la manera en que usted desea operar StatTools. Puede aprender ms sobre
estas funciones al seleccionar la opcin Help del grupo Tools, o al hacer clic en el icono ubica-
do en la esquina inferior izquierda del cuadro de dilogo. Cuando haya terminado de efectuar
cambios en la configuracin de la aplicacin, haga clic en OK en la parte inferior del cuadro de
dilogo y luego en Yes cuando StatTools le pregunte si quiere guardar la nueva configuracin
de la aplicacin.
CAPTULO 2
1.1 Applications in Business and Economics 31
Estadstica descriptiva:
presentaciones tabulares
y grficas
CONTENIDO Histograma
ESTADSTICA EN LA PRCTICA: Distribuciones acumuladas
COLGATE-PALMOLIVE COMPANY Ojiva
ESTADSTICA en LA PRCTICA
COLGATE-PALMOLIVE COMPANY*
NEW YORK, NEW YORK
Colgate-Palmolive inici como una tienda pequea de ja-
bones y velas en la ciudad de Nueva York en 1806. Hoy la
empresa emplea a ms de 40 000 personas que trabajan en
ms de 200 pases y territorios de todo el mundo. Aunque
es ms conocida por sus marcas Colgate, Palmolive, Ajax
y Fab, la empresa tambin comercializa los productos de
Mennen, Hills Science Diet y Hills Prescription Diet.
Colgate-Palmolive aplica la estadstica en su programa
de aseguramiento de la calidad para los productos de deter-
gente para ropa. Una preocupacin radica en que el cliente
quede satisfecho con la cantidad de contenido que se in-
cluye en cada paquete. Los empaques de cada categora se Los resmenes grficos ayudan a seguir la pista de la
llenan con la misma cantidad de detergente en peso, pero el demanda de los productos de Colgate-Palmolive.
volumen vara dependiendo de la densidad del polvo. Por Victor Fisher/ Bloomberg News/Landov.
ejemplo, si sta es alta, se necesita un volumen menor del
producto para alcanzar el peso especificado en el empaque.
Como resultado, cuando el consumidor lo abre, le parece que Distribucin de frecuencia
le falta detergente. de los datos de densidad
Para controlar el problema de la alta densidad del de- Densidad Frecuencia
tergente en polvo, se han establecido lmites aceptables para
0.290.30 30
este nivel. De manera peridica se toman muestras estads- 0.310.32 75
ticas del producto y se mide la densidad de cada muestra. 0.330.34 32
Luego se proporcionan resmenes de los datos a los ope- 0.350.36 9
rarios para que emprendan acciones correctivas en caso 0.370.38 3
necesario con el fin de mantener la densidad dentro de las 0.390.40 1
especificaciones de calidad deseadas. Total 150
En la tabla y figura adjuntas se presenta una distribu-
cin de frecuencia y un histograma de las densidades de 150
muestras tomadas durante un periodo de una semana. Los Histograma de los datos de densidad
niveles de densidad superiores a 0.40 son inaceptablemente
altos. La distribucin de frecuencia y el histograma indican
que la operacin cumple con las especificaciones de cali-
75
dad, ya que todas las densidades son menores o iguales a
0.40. Cuando los gerentes leen estos resmenes estadsticos Menos de 1% de las
quedan complacidos con la calidad del proceso de produc- muestras est cerca
50
Frecuencia
Como se indic en el captulo 1, los datos se clasifican en cualitativos o cuantitativos. Los datos
cualitativos utilizan etiquetas o nombres para identificar las categoras de elementos similares.
Los datos cuantitativos son valores numricos que indican cunto o cuntos.
Este captulo presenta los mtodos tabulares y grficos de uso comn para resumir datos
cualitativos y cuantitativos. Los resmenes tabulares y grficos de los datos pueden encontrarse
en informes anuales, artculos periodsticos y estudios de investigacin. Todos estamos expues-
tos a este tipo de presentaciones. Por tanto, es importante entender cmo se elaboran y cmo
deben interpretarse. Comencemos con los mtodos tabulares y grficos para resumir los datos
que se refieren a una sola variable. La ltima seccin presenta los mtodos para resumir datos
cuando lo que interesa es la relacin entre dos variables.
El software moderno para estadstica cuenta con numerosas funciones para resumir datos y
elaborar presentaciones grficas. Minitab y Excel son dos paquetes que se utilizan mucho. En
los apndices del captulo se mencionan algunas de sus funciones.
DISTRIBUCIN DE FRECUENCIA
TABLA 2.2 Para elaborar una distribucin de frecuencia con estos datos, se cuenta el nmero de veces
Distribucin de que cada bebida refrescante aparece en la tabla 2.1. La Coke Classic se registra 19 veces, la Diet
frecuencia de la compra Coke 8, Dr. Pepper 5, Pepsi 13 y Sprite 5. Estos conteos se resumen en la tabla 2.2.
de bebidas refrescantes Esta distribucin de frecuencia proporciona un resumen de cmo se distribuyen las 50 be-
Bebida bidas refrescantes adquiridas entre las cinco marcas. El resumen ofrece una visin ms clara que
refrescante Frecuencia los datos originales mostrados en la tabla 2.1. Al observar la distribucin de frecuencia, Coke
Coke Classic 19 Classic destaca como la bebida refrescante ms vendida, Pepsi como la segunda, Diet Coke la
Diet Coke 8
Dr. Pepper 5 tercera, y Sprite y Dr. Pepper empatan en el cuarto lugar. La distribucin de frecuencia resume
Pepsi 13 la informacin acerca de la popularidad de las cinco bebidas.
Sprite 5
Total 50 Distribuciones de frecuencia relativa
y frecuencia porcentual
Una distribucin de frecuencia muestra el nmero (la frecuencia) de elementos en cada una de
varias clases que no se superponen. Sin embargo, lo que interesa a menudo es la proporcin,
o el porcentaje, de elementos en cada clase. La frecuencia relativa de una clase es igual a la
fraccin o proporcin de elementos que pertenecen a cada clase. Para un conjunto de datos con
n observaciones, la frecuencia relativa de cada clase se determina como sigue.
FRECUENCIA RELATIVA
frecuencia de la clase
Frecuencia relativa de una clase " (2.1)
n
20
18
16
14
Frecuencia
12
10
8
6
4
2
0
Coke Diet Dr. Pepsi Sprite
Classic Coke Pepper
Bebida refrescante
Las grficas de barras se se coloca una escala de frecuencia, de frecuencia relativa o de frecuencia porcentual. Luego
usan en las aplicaciones se traza una barra de ancho fijo arriba de cada etiqueta de clase y se extiende su longitud hasta
de control de calidad para
llegar a la frecuencia, la frecuencia relativa o la frecuencia porcentual de la clase. Para los datos
identificar las principales
causas de los problemas. cualitativos, las barras deben estar a cierta distancia para recalcar el hecho de que cada clase
Cuando las barras se est separada. La figura 2.1 muestra una grfica de barras de la distribucin de frecuencia de las
acomodan en orden 50 bebidas refrescantes adquiridas. Note cmo la presentacin muestra que la Coke Classic, la
descendente de altura Pepsi y la Diet Coke son las marcas preferidas.
y de izquierda a derecha,
La grfica circular o de pastel es otro dispositivo grfico que presenta las distribuciones
colocando primero la
causa que ocurre con ms de frecuencia relativa y de frecuencia porcentual para datos cualitativos. Para elaborarla, pri-
frecuencia, la grfica de mero se traza un crculo que represente todos los datos. Luego se usan las frecuencias relativas
barras se llama diagrama para subdividir el crculo en sectores, o partes, que corresponden a la frecuencia relativa de
de Pareto. Recibe este cada clase. Por ejemplo, como un crculo contiene 360 grados y la Coke Classic muestra una
nombre en honor de su
frecuencia relativa de 0.38, el sector de la grfica circular etiquetado como Coke Classic mide
fundador, Wilfredo Pareto,
un economista italiano. 0.38(360) " 136.8 grados. El sector etiquetado como Diet Coke mide 0.16(360) " 57.6 gra-
dos. Clculos parecidos para las dems clases producen la grfica circular de la figura 2.2. Los
Coke Classic
38%
Pepsi
26%
Sprite
10%
Dr.
Pepper Diet Coke
10% 16%
36 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
valores numricos mostrados para cada sector pueden ser frecuencias, frecuencias relativas o
frecuencias porcentuales.
NOTAS Y COMENTARIOS
1. A menudo, el nmero de clases en una distribu- que las clases con frecuencias menores se agrupen
cin de frecuencia es igual al nmero de categoras en una clase agregada llamada otro. Las que pre-
encontradas en los datos, como ocurre con los de sentan frecuencias de 5% o menos se tratan de esta
la compra de bebidas refrescantes en esta seccin. manera.
Los datos se refieren slo a cinco marcas, y para 2. La suma de las frecuencias en cualquier distribu-
cada una se defini una clase de distribucin de cin de frecuencia es siempre igual al nmero de
frecuencia separada. Si los datos hicieran referen- observaciones. La suma de las frecuencias relati-
cia a todas las bebidas, se requeriran muchas cate- vas en cualquier distribucin de frecuencia rela-
goras, la mayora de las cuales tendra un nmero tiva es siempre igual a 1.00, y la de los porcentajes
pequeo de bebidas refrescantes adquiridas. La en una distribucin de frecuencia porcentual es
mayora de los expertos en estadstica recomienda siempre igual a 100.
Ejercicios
Mtodos
1. La respuesta a una pregunta tiene tres alternativas: A, B y C. Una muestra de 120 respues-
tas proporciona 60 A, 24 B y 36 C. Muestre las distribuciones de frecuencia y de frecuencia
relativa.
2. Se tiene una distribucin de frecuencia relativa parcial.
Aplicaciones
4. Los cuatro programas principales de televisin con mayor audiencia fueron La ley y el orden
WEB archivo (LyO), CSI, Sin rastro y Esposas desesperadas (ED) (Nielsen Media Research, 1 de enero de
BestTV
2007). A continuacin se proporcionan los datos que incluyen los programas preferidos en una
muestra de 50 espectadores.
2.1 Resumen de datos cualitativos 37
b) Cul o cules cadenas han transmitido los programas de televisin con los mayores ra-
tings? Compare el desempeo de ABC, CBS y NBC.
7. Waterfront Steakhouse de Leverock, en Madeira Beach, Florida, utiliza un cuestionario para
AUTO evaluacin preguntar a sus clientes cmo califican el servicio, la calidad de los alimentos, los cocteles, los
precios y la atmsfera del restaurante. Cada caracterstica se califica en una escala de excep-
cional (O), muy bueno (V), bueno (G), promedio (A) y malo (P). Use la estadstica descriptiva
para resumir los datos siguientes recabados sobre la calidad de la comida. Qu piensa sobre
las calificaciones de la calidad en el restaurante?
G O V G A O V O V G O V A
V O P V O G A O O O G O V
V A G O V P V O O G O O V
O G A O V O O G V A G
8. Los datos de una muestra de 55 miembros del Saln de la Fama de Bisbol en Cooperstown,
Nueva York, se presentan enseguida. Cada observacin indica la posicin principal jugada por
los famosos del Saln de la Fama: pitcher (P), catcher (H), primera base (1), segunda base (2),
tercera base (3), parador en corto (S), jardinero izquierdo (L), jardinero central (C) y jardinero
derecho (R).
L P C H 2 P R 1 S S 1 L P R P
P P P R C S L R P C C P P R P
2 3 P H L P 1 C P P P S 1 L R
R 1 2 H S 3 H 2 L P
a) Use las distribuciones de frecuencia y de frecuencia relativa para resumir los datos.
b) Qu posicin proporciona el mayor nmero de jugadores en el Saln de la Fama?
c) Qu posicin proporciona el menor nmero de jugadores?
d) Qu posicin de jardinero (L, C o R) proporciona la mayora de jugadores en el Saln de
la Fama?
e) Compare los jugadores de cuadro (1, 2, 3 y S) con los jugadores de campo (L, C y R).
9. El proyecto Tendencias demogrficas y sociales del Pew Research Center encontr que 46% de
los adultos estadounidenses preferira vivir en un tipo distinto de comunidad que donde reside
ahora (Pew Research Center, 29 de enero de 2009). La encuesta nacional pregunt a 2 260
adultos: En dnde vive ahora? y Cul considera que es la comunidad ideal? Las opciones
de respuesta fueron ciudad (C), suburbio (S), ciudad pequea (T) o comunidad rural (R). Una
muestra de 100 personas se proporciona enseguida.
En dnde vive ahora?
S T R C R R T C S T C S C S T
S S C S S T T C C S T C S T C
T R S S T C S C T C T C T C R
WEB archivo C C R T C S S T S C C C R S C
S S C C S C R T T T C R T C R
LivingArea
C T R R C T C C R T T R S R T
T S S S S S C C R T
Cul considera que es la comunidad ideal?
S C R R R S T S S T T S C S T
C C R T R S T T S S C C T T S
S R C S C C S C R C T S R R R
C T S T T T R R S C C R R S S
S T C T T C R T T T C T T R R
C S R T C T C C T T T R C R T
T C S S C S T S S R
a) Proporcione una distribucin de frecuencia porcentual para cada pregunta.
b) Trace una grfica de barras para cada pregunta.
c) En dnde vive ahora la mayora de los adultos?
d) Cul considera la mayora de los adultos que es la comunidad ideal?
2.2 Resumen de datos cuantitativos 39
e) Qu cambios en las reas habitables esperara usted ver si las personas se mudan de donde
viven actualmente a su comunidad ideal?
10. La Financial Times/Harris es una encuesta mensual en lnea de adultos de seis pases de Eu-
WEB archivo ropa y Estados Unidos. La consulta realizada en enero de 2008 incluy las respuestas de 1 015
FedBank
adultos. Una de las preguntas formuladas fue: Cmo calificara al Federal Bank en el manejo
de los problemas crediticios de los mercados financieros? Las respuestas posibles fueron ex-
celente, bueno, justo, malo y terrible (sitio web Harris Interactive, enero de 2008). Las 1 015
respuestas para esta pregunta pueden encontrarse en el archivo de datos llamado FedBank.
a) Construya una distribucin de frecuencia.
b) Prepare una distribucin de frecuencia porcentual.
c) Elabore una grfica de barras para la distribucin de frecuencia porcentual.
d) Comente cmo piensan los adultos estadounidenses que el Federal Bank est manejando
los problemas crediticios en los mercados financieros.
e) En Espaa se pregunt a 1 114 adultos Cmo calificara usted al Banco Central Europeo
en el manejo de los problemas crediticios en los mercados financieros? La distribucin
de frecuencia porcentual obtenida es la siguiente.
Compare los resultados obtenidos en Espaa con los resultados de Estados Unidos.
Asignar el mismo Ancho de clase El segundo paso en la elaboracin de una distribucin de frecuencia para
ancho a las clases datos cuantitativos es elegir el ancho de las clases. Como regla general, es recomendable que
reduce la posibilidad sea el mismo para todas. Por tanto, el nmero y el ancho de clase no son decisiones indepen-
de interpretaciones
dientes. Un nmero grande de clases significa un ancho de clase menor, y viceversa. Para de-
inadecuadas de los
usuarios.
terminar un ancho de clase aproximado, primero se identifican los valores de datos mayores
y menores. Luego, una vez especificado el nmero de clases deseado, se utiliza la expresin
siguiente para determinar el ancho de clase aproximado.
TABLA 2.6 Distribuciones de frecuencia relativa y frecuencia porcentual para los datos
de duracin de la auditora
Duracin de la
auditora (das) Frecuencia relativa Frecuencia porcentual
10 14 0.20 20
15 19 0.40 40
20 24 0.25 25
25 29 0.10 10
30 34 0.05 5
Total 1.00 100
Punto medio de clase En algunas aplicaciones se desea conocer los puntos medios de las
clases en una distribucin de frecuencia de datos cuantitativos. El punto medio de clase es el
valor medio entre los lmites de clase inferior y superior. En el caso de los datos de duracin de
la auditora, los puntos medios de las cinco clases son 12, 17, 22, 27 y 32.
Diagrama de puntos
Uno de los resmenes grficos de datos ms sencillos es el diagrama de puntos. El eje hori-
zontal muestra el rango de los datos. Cada valor se representa por medio de un punto colocado
sobre este eje. La figura 2.3 es el diagrama de puntos de los datos de duracin de la auditora
de la tabla 2.4. Los tres puntos ubicados por encima de 18 sobre el eje horizontal indican que
una duracin de la auditora de 18 das ocurri tres veces. Los diagramas de puntos muestran
los detalles de los datos y son tiles para comparar la distribucin de los datos de dos o ms
variables.
Histograma
El histograma es una presentacin grfica comn de los datos cuantitativos. Este resumen gr-
fico se elabora para datos previamente resumidos, ya sea mediante una distribucin de frecuencia,
10 15 20 25 30 35
Duracin de la auditora (das)
42 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
8
7
6
Frecuencia
5
4
3
2
1
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
los datos sobre los precios de la vivienda, los sueldos, los montos de las compras, etc., con fre-
cuencia generan grficas de este tipo.
Distribuciones acumuladas
Una variacin de la distribucin de frecuencia que proporciona otro resumen tabular de los
datos cuantitativos es la distribucin de frecuencia acumulada. sta utiliza el nmero, los an-
chos y los lmites de clases desarrollados para la distribucin de frecuencia. Sin embargo, en
vez de indicar la frecuencia de cada clase, la distribucin de frecuencia acumulada muestra
el nmero de elementos de datos con valores menores o iguales que el lmite de clase superior
de cada clase. Las primeras dos columnas de la tabla 2.7 proporcionan la distribucin de fre-
cuencia acumulada de los datos de duracin de la auditora.
Para comprender cmo se determinan las frecuencias acumuladas, considere la clase con la
descripcin Menos o igual que 24. La frecuencia acumulada de esta clase es sencillamente
la suma de las frecuencias de todas las clases con los valores de datos menores o iguales que
24. Para la distribucin de frecuencia de la tabla 2.5, la suma de las frecuencias de las clases
1014, 1519 y 2024 indica que 4 $ 8 $ 5 " 17 valores de datos son menores o iguales que
24. Por consiguiente, la frecuencia acumulada para esta clase es 17. Adems, la distribucin de
frecuencia acumulada de la tabla 2.7 indica que se completaron cuatro auditoras en 14 das o
menos y 19 auditoras en 29 das o menos.
44 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Para finalizar, observamos que una distribucin de frecuencia relativa acumulada mues-
tra la proporcin de elementos de datos, y una distribucin de frecuencia porcentual acumu-
lada muestra el porcentaje de elementos de datos con valores inferiores o iguales al lmite
superior de cada clase. La distribucin de frecuencia relativa acumulada se calcula con la su-
ma de las frecuencias relativas en la distribucin de frecuencia relativa o mediante la divisin
de las frecuencias acumuladas entre el nmero total de elementos. Utilizando el ltimo enfo-
que, las frecuencias relativas acumuladas de la columna 3 de la tabla 2.7 se obtuvieron al dividir
las frecuencias acumuladas de la columna 2 entre el nmero total de elementos (n " 20). Las
frecuencias porcentuales acumuladas se calcularon de nuevo multiplicando las frecuencias rela-
tivas por 100. Las distribuciones de frecuencias relativa y porcentual acumuladas muestran que
0.85 de las auditoras, u 85%, se complet en 24 das o menos; 0.95 de las auditoras, o 95%, se
complet en 29 das o menos, y as sucesivamente.
Ojiva
La grfica de una distribucin acumulada, llamada ojiva, muestra los valores de datos sobre
el eje horizontal, y ya sea las frecuencias acumuladas, las frecuencias relativas acumuladas o
las frecuencias porcentuales acumuladas, sobre el eje vertical. La figura 2.6 ilustra la ojiva
de las frecuencias acumuladas de los datos de duracin de la auditora de la tabla 2.7.
La ojiva se traz marcando el punto correspondiente a la frecuencia acumulada de cada
clase. Dado que las clases para los datos de duracin de la auditora son 10 14, 15 19, 20 24,
etc., aparecen vacos de una unidad entre 14 y 15, 19 y 20, etc. stos se eliminan al trazar pun-
20
Frecuencia acumulada
15
10
0 5 10 15 20 25 30 35
Duracin de la auditora (das)
2.2 Resumen de datos cuantitativos 45
tos a medio camino entre los lmites de clase. Por tanto, 14.5 se usa para la clase 10 14; 19.5
para la clase 15 19, y as sucesivamente. La clase Menos o igual que 14, con una frecuencia
acumulada de 4, se representa en la ojiva de la figura 2.6 por el punto localizado en 14.5 sobre
el eje horizontal y 4 sobre el eje vertical. La clase Menos o igual que 19, con una frecuencia
acumulada de 12, se representa por medio del punto localizado en 19.5 sobre el eje horizontal
y 12 sobre el eje vertical. Note que se traz otro punto en el extremo izquierdo de la ojiva. Este
punto la inicia, lo cual indica que debajo de la clase 10 14 no hay ningn valor de datos. Es-
te punto se localiza en 9.5 sobre el eje horizontal y 0 sobre el eje vertical. Los puntos trazados
se conectan por medio de lneas rectas para completar la ojiva.
NOTAS Y COMENTARIOS
1. Una grfica de barras y un histograma son en esen- sima ms cercana de un da (p. ej., 12.34, 14.45,
cia lo mismo; ambos son representaciones grficas etc.), los lmites se fijaran en centsimas de das.
de los datos de una distribucin de frecuencia. Un Por ejemplo, la primera clase sera 10.00 14.99.
histograma es slo una grfica de barras sin se- 3. Una clase de extremo abierto requiere slo un l-
paracin entre stas. Para algunos datos cuantita- mite de clase inferior o un lmite de clase superior.
tivos discretos es apropiada una separacin entre Por ejemplo, en los datos de la tabla 2.4, suponga
las barras. Considere, por ejemplo, el nmero de que dos de las auditoras han tardado 58 y 65 das.
materias a las cuales se inscribe un estudiante uni- En vez de continuar con las clases de ancho 5 con
versitario. Los datos slo pueden asumir valores las clases 35 39, 40 44, 45 49, etc., podramos
enteros. Los valores intermedios como 1.5, 2.73, simplificar la frecuencia de distribucin para mos-
etc., no son posibles. No obstante, con datos cuan- trar una clase de extremo abierto de 35 o ms,
titativos continuos, como la duracin de la audito- la cual tendra una frecuencia de 2. Con ms fre-
ra de la tabla 2.4, una separacin entre las barras cuencia la clase de extremo abierto aparece en el
no es adecuada. extremo superior de la distribucin; a veces en
2. Los valores apropiados para los lmites de clase el extremo inferior, y ocasionalmente en ambos
con datos cuantitativos dependen del nivel de pre- extremos.
cisin de stos. Por ejemplo, con los datos de du- 4. La ltima entrada de una distribucin de frecuen-
racin de la auditora de la tabla 2.4 los lmites cia acumulada es siempre igual al nmero total de
empleados fueron valores enteros. Si se redondean observaciones, mientras que en una distribucin
a la dcima ms cercana de un da (p. ej., 12.3, de frecuencia relativa acumulada siempre es igual
14.4, etc.), entonces los lmites se estableceran en a 1.00, a la vez que la ltima entrada en una distri-
dcimas de das. Por ejemplo, la primera clase sera bucin de frecuencia porcentual acumulada siem-
10.0 14.9. Si los datos se registraran a la cent- pre es igual a 100.
Ejercicios
Mtodos
11. Considere los datos siguientes.
14 21 23 21 16
19 22 25 16 16
24 24 25 19 16
WEB archivo 19 18 19 21 12
16 17 18 23 25
Frequency 20 23 16 20 19
24 26 15 22 24
20 22 24 22 20
a) Elabore una distribucin de frecuencia usando las clases 1214, 1517, 1820, 2123 y
2426.
b) Desarrolle una distribucin de frecuencia relativa y una distribucin de frecuencia porcen-
tual usando las clases del inciso a).
46 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Clase Frecuencia
10 19 10
20 29 14
30 39 17
40 49 7
50 59 2
Aplicaciones
15. El personal del consultorio de un mdico estudi los tiempos de espera de los pacientes que lle-
AUTO evaluacin garon al consultorio con una solicitud de servicio de urgencia. Se recabaron los datos siguientes
con los tiempos de espera en minutos durante un periodo de un mes.
2 5 10 12 4 4 5 17 11 8 9 8 12 21 6 8 7 13 18 3
Use las clases 0 4, 5 9, etc. para realizar lo siguiente:
a) La distribucin de frecuencia.
b) La distribucin de frecuencia relativa.
c) La distribucin de frecuencia acumulada.
d) La distribucin de frecuencia relativa acumulada.
e) Qu proporcin de pacientes que necesita un servicio de emergencia espera 9 minutos o
menos?
16. Una escasez de candidatos ha requerido que se paguen sueldos ms altos y se ofrezcan benefi-
cios adicionales para atraer y retener a los superintendentes de los distritos escolares. Los datos
siguientes muestran el sueldo base anual (miles) para los superintendentes en 20 distritos del
rea ms grande de Rochester, Nueva York (The Rochester Democrat and Chronicle, 10 de
febrero de 2008).
187 184 174 185
175 172 202 197
165 208 215 164
162 172 182 156
172 175 170 183
Use las clases 150 159, 160 169, etc. para elaborar lo siguiente.
a) La distribucin de frecuencia.
b) La distribucin de frecuencia porcentual.
c) La distribucin de frecuencia porcentual acumulada.
d) Un histograma para el sueldo base anual.
e) Los datos parecen estar sesgados? Explique por qu.
f ) Qu porcentaje de los superintendentes ganan ms de $200 000?
17. El promedio industrial Dow Jones (DJIA) sufri una de sus poco frecuentes reorganizaciones de
empresas cuando Cisco Systems y Travelers reemplazaron a General Motors y Citigroup (The
Wall Street Journal, 8 de junio de 2009). En ese momento, los precios por accin para las 30
empresas en el DJIA eran los que se listan en el cuadro de la siguiente pgina.
2.2 Resumen de datos cuantitativos 47
a) Cul es el precio por accin ms alto? Cul es el precio por accin ms bajo?
b) Utilizando un ancho de clase de 10, elabore una distribucin de frecuencia de los datos.
c) Prepare un histograma e interprtelo, incluyendo una discusin de su forma general, el
rango del precio medio y el rango de precios ms frecuente.
d) Consulte The Wall Street Journal u otra publicacin para encontrar el precio actual por
accin de estas empresas. Elabore un histograma de los datos y comente cualquier cambio
desde junio de 2009. Qu empresa ha tenido el mayor incremento en el precio por accin?
Cul ha tenido la disminucin ms grande?
18. La investigacin de nrf/big proporcion los resultados de una encuesta de gastos vacaciona-
WEB archivo les de los consumidores (USA Today, 20 de diciembre de 2005). Los datos siguientes indican
Holiday
la cantidad en dlares de gastos vacacionales para una muestra de 25 consumidores.
1 200 850 740 590 340
450 890 260 610 350
1 780 180 850 2 050 770
800 1 090 510 520 220
1 450 280 1 120 200 350
a) Cul es el gasto vacacional ms bajo? Y el ms alto?
b) Utilice un ancho de clase de $250 para preparar una distribucin de frecuencia y una dis-
tribucin de frecuencia porcentual para los datos.
c) Elabore un histograma y comente la forma de la distribucin.
d) Qu observaciones puede plantear sobre los gastos vacacionales?
19. El correo electrnico no solicitado y el spam afectan la productividad de los empleados de
oficina. Una encuesta de InsightExpress monitore a dichos empleados para determinar el
tiempo improductivo por da dedicado a correo electrnico no solicitado y spam (USA Today,
13 de noviembre de 2003). Los datos siguientes presentan una muestra del tiempo en minutos
dedicado a esta tarea.
2 4 8 4
8 1 2 32
12 1 5 7
5 5 3 4
24 19 4 14
Resuma los datos mediante la elaboracin de lo siguiente:
a) Una distribucin de frecuencia (clases 1 5, 6 10, 1115, 16 20, etctera).
b) Una distribucin de frecuencia relativa.
c) Una distribucin de frecuencia acumulada.
d) Una distribucin de frecuencia relativa acumulada.
e) Una ojiva.
f ) Qu porcentaje de empleados de oficina pas 5 minutos o menos en correo electrnico
no solicitado o spam? Qu porcentaje pas ms de 10 minutos al da en esta tarea?
48 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
20. Golf Digest 50 publica una lista de los 50 golfistas profesionales con el ingreso anual total ms
alto. ste representa la suma tanto de las ganancias en campo como de las obtenidas fuera de
ste. Tiger Woods se clasific en primer lugar con un ingreso total anual de $122 millones. Sin
embargo, casi $100 millones de este total provinieron de actividades fuera de campo, como las
promociones de productos y la apariencia personal. Los 10 golfistas profesionales con el ingreso
fuera de campo ms alto se muestran en la tabla siguiente (sitio web Golf Digest, febrero de
2008).
112 72 69 97 107
73 92 76 86 73
126 128 118 127 124
WEB archivo 82 104 132 134 83
92 108 96 100 92
ApTest
115 76 91 102 81
95 141 81 80 106
84 119 113 98 75
68 98 115 106 95
100 85 94 106 119
Para ilustrar el uso de un diagrama de tallo y hoja, considere los datos de la tabla 2.8. s-
tos fueron obtenidos de una prueba de aptitudes de 150 preguntas a 50 personas entrevistadas
recientemente para un puesto en Haskens Manufacturing. Los datos indican el nmero de pre-
guntas respondidas correctamente.
Para desarrollar un diagrama de tallo y hoja, primero se colocan los dgitos principales de
cada valor de datos a la izquierda de una lnea vertical. A la derecha de dicha lnea se registra
el ltimo dgito para cada valor de datos. Con base en la fila superior de los datos de la tabla 2.8
(112, 72, 69, 97 y 107), las primeras cinco entradas en la construccin de un diagrama de tallo
y hoja seran como sigue:
6 9
7 2
8
9 7
10 7
11 2
12
13
14
Por ejemplo, el valor del dato 112 muestra los dgitos principales 11 a la izquierda de la lnea
y el ltimo dgito 2 a la derecha. De modo parecido, el valor de datos 72 muestra el dgito
principal 7 a la izquierda y el ltimo dgito 2 a la derecha de la lnea. Si se contina colocando
el ltimo dgito de cada valor de datos en la lnea que corresponde a sus dgitos principales, el
resultado es el siguiente.
6 9 8
7 2 3 6 3 6 5
8 6 2 3 1 1 0 4 5
9 7 2 2 6 2 1 5 8 8 5 4
10 7 4 8 0 2 6 6 0 6
11 2 8 5 9 3 5 9
12 6 8 7 4
13 2 4
14 1
50 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Con esta organizacin de los datos, la colocacin de los dgitos en cada lnea en el orden
de clasificacin es simple. Hacerlo as proporciona el diagrama de tallo y hoja mostrado aqu.
6 8 9
7 2 3 3 5 6 6
8 0 1 1 2 3 4 5 6
9 1 2 2 2 4 5 5 6 7 8 8
10 0 0 2 4 6 6 6 7 8
11 2 3 5 5 8 9 9
12 4 6 7 8
13 2 4
14 1
Los nmeros a la izquierda de la lnea vertical (6, 7, 8, 9, 10, 11, 12, 13 y 14) forman el tallo,
y cada dgito a la derecha de la lnea es una hoja. Por ejemplo, considere la primera fila con un
valor de tallo de 6 y las hojas de 8 y 9.
6 8 9
Esta fila indica que los dos valores de datos tienen un primer dgito 6. Las hojas muestran que
los valores de datos son 68 y 69. De modo parecido, la segunda fila
7 2 3 3 5 6 6
indica que los seis valores de datos tienen un primer dgito 7. Las hojas muestran que los valo-
res de datos son 72, 73, 73, 75, 76 y 76.
Para enfocarse en la forma indicada por el diagrama de tallo y hoja, usemos un rectngulo
que contenga las hojas de cada tallo. Al hacerlo as se obtiene lo siguiente.
6 8 9
7 2 3 3 5 6 6
8 0 1 1 2 3 4 5 6
9 1 2 2 2 4 5 5 6 7 8 8
10 0 0 2 4 6 6 6 7 8
11 2 3 5 5 8 9 9
12 4 6 7 8
13 2 4
14 1
La rotacin de esta pgina en sentido contrario a las manecillas del reloj sobre su lado propor-
ciona una imagen de los datos similar a un histograma con las clases 60 69, 70 79, 80 89,
etctera.
Aunque puede parecer que el diagrama de tallo y hoja ofrece la misma informacin que un
histograma, tiene dos ventajas principales.
1. El diagrama de tallo y hoja es ms fcil de elaborar a mano.
2. Dentro de un intervalo de clase, proporciona ms informacin que el histograma, debi-
do a que el tallo y la hoja muestran los datos actuales.
Justamente como una distribucin de frecuencia o un histograma no tienen un nmero absoluto
de clases, ningn diagrama de tallo y hoja tiene un nmero absoluto de fila o tallos. Si creemos
que nuestro diagrama original condens demasiado los datos, podemos extenderlo fcilmente
usando dos o ms tallos para cada dgito principal. Por ejemplo, para usar dos tallos por cada
2.3 Anlisis de datos exploratorios: el diagrama de tallo y hoja 51
En un diagrama de tallo dgito principal, colocaramos todos los valores de datos que terminan en 0, 1, 2, 3 y 4 en una
y hoja extendido, siempre fila, y todos los valores que terminan en 5, 6, 7, 8 y 9 en una segunda fila. El diagrama de tallo
que un valor de tallo se
y hoja siguiente ilustra este enfoque.
establece dos veces, el
primer valor corresponde 6 8 9
a los valores de hoja de
0 4, y el segundo valor 7 2 3 3
corresponde a los valores 7 5 6 6
de hoja de 5 9. 8 0 1 1 2 3 4
8 5 6
9 1 2 2 2 4
9 5 5 6 7 8 8
10 0 0 2 4
10 6 6 6 7 8
11 2 3
11 5 5 8 9 9
12 4
12 6 7 8
13 2 4
13
14 1
Observe que los valores 72, 73 y 73 tienen hojas en el rango de 0 4 y se muestran con el primer
valor de tallo de 7. Los valores 75, 76 y 76 tienen hojas en el rango de 5 9 y se registran con el
segundo valor de tallo de 7. Este diagrama de tallo y hoja extendido es parecido a una distribu-
cin de frecuencia con intervalos de 65 69, 70 74, 75 79, etctera.
El ejemplo anterior mostr un diagrama de tallo y hoja para los datos con hasta tres dgitos.
Este tipo de diagramas para datos con ms de tres dgitos es posible. Por ejemplo, considere los
datos siguientes sobre el nmero de hamburguesas vendidas por un restaurante de comida rpi-
da durante cada una de 15 semanas.
1 565 1 852 1 644 1 766 1 888 1 912 2 044 1 812
1 790 1 679 2 008 1 852 1 967 1 954 1 733
Un diagrama de tallo y hoja de estos datos se presenta a continuacin.
Unidad de hoja " 10
15 6
16 4 7
17 3 6 9
18 1 5 5 8
19 1 5 6
20 0 4
Un solo dgito se utiliza Observe que se usa un solo dgito para definir cada hoja y que slo los primeros tres dgitos de
para definir cada hoja en un cada valor de datos se han utilizado para construir el diagrama. En la parte superior del diagra-
diagrama de tallo y hoja. ma hemos especificado que la unidad de hoja " 10. Para ilustrar cmo interpretar los valores,
La unidad de hoja indica
cmo multiplicar los
considere el primer tallo, 15, y su hoja asociada, 6. Al combinar estos nmeros, obtenemos 156.
nmeros de tallo y hoja con Para reconstruir una aproximacin de los valores de datos originales, debemos multiplicar este
la finalidad de aproximar nmero por 10, el valor de la unidad de hoja. Por tanto, 156 % 10 " 1 560 es una aproximacin
los datos originales. Las del valor de datos original utilizado para construir el diagrama de tallo y hoja. Aunque no es
unidades de hoja pueden posible reconstruir el valor de datos exacto a partir de este diagrama, la convencin de mane-
ser 100, 10, 1, 0.1, etctera.
jar un slo dgito para cada hoja permite que el diagrama se construya para datos que tienen
muchos dgitos. Para diagramas donde la unidad de hoja no se muestra, se asume que esta uni-
dad es igual a 1.
52 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Ejercicios
Mtodos
22. Elabore un diagrama de tallo y hoja para los datos siguientes.
70 72 75 64 58 83 80 82
76 75 68 65 57 78 85 72
23. Disee un diagrama de tallo y hoja para los datos siguientes.
AUTO evaluacin
11.3 9.6 10.4 7.5 8.3 10.5 10.0
9.3 8.1 7.7 7.5 8.4 6.3 8.8
24. Elabore un diagrama de tallo y hoja para los datos siguientes. Use una unidad de hoja de 10.
1 161 1 206 1 478 1 300 1 604 1 725 1 361 1 422
1 221 1 378 1 623 1 426 1 557 1 730 1 706 1 689
Aplicaciones
25. Una psicloga desarroll una nueva prueba de inteligencia para adultos, la cual se aplic a 20
AUTO evaluacin individuos; se obtuvieron los datos siguientes.
114 99 131 124 117 102 106 127 119 115
98 104 144 151 132 106 125 122 118 118
Elabore un diagrama de tallo y hoja para los datos.
26. La Asociacin Estadounidense de Inversionistas Individuales realiza una encuesta anual de
corredores de descuento. Los precios siguientes corresponden a una muestra de 24 corredores
o (brokers) (AAII Journal, enero de 2003). Los dos tipos de negociaciones son una negocia-
cin asistida por un corredor de 100 acciones a $50 por accin y una negociacin en lnea de
500 acciones a $50 por accin.
Tarifa Tarifa
Estacin Ubicacin diaria Estacin Ubicacin diaria
Beaver Creek Colorado $137 Okemo Vermont $ 86
Deer Valley Utah 115 Park City Utah 145
Diamond Peak California 95 Butternut Massachusetts 75
Heavenly California 145 Steamboat Colorado 98
Hunter Nueva York 79 Stowe Vermont 104
Mammoth California 111 Sugar Bowl California 100
Mount Sunapee New Hampshire 96 Whistler-Blackcomb British Columbia 104
Mount Bachelor Oregon 83
TABLA 2.9 Calificacin de calidad y precio de la comida para 300 restaurantes de Los ngeles
($10 19, $20 29, $30 39 y $40 49) corresponden a las cuatro clases de la variable precio
de la comida. Cada restaurante de la muestra exhibe una calificacin de calidad y un precio de
alimentos. Por tanto, cada uno se asocia con una celda que aparece en una de las filas y en una
de las columnas de la tabulacin cruzada. Por ejemplo, el restaurante 5 se identifica con una ca-
lificacin de muy buena calidad y un precio de comida de $33. Este negocio pertenece a la
celda que intercepta la fila 2 y la columna 3 de la tabla 2.10. Al elaborar una tabulacin cruza-
da, sencillamente contamos el nmero de restaurantes que pertenece a cada una de las celdas
en la tabla.
Al revisar la tabla 2.10 observamos que el mayor nmero de restaurantes en la muestra (64)
tiene calificacin de muy buena calidad y un precio de comida en el rango de $20 29. Slo
dos tienen una calificacin de excelente y un precio de alimentos en el rango de $10-19. Se pueden
hacer interpretaciones parecidas de otras frecuencias. Adems, observe que los mrgenes dere-
cho e inferior de la tabulacin cruzada proporcionan por separado la distribucin de frecuencia
para la calificacin de la calidad y el precio de la comida. De la distribucin de frecuencia en
el margen derecho, observamos que los datos sobre las calificaciones de calidad muestran 84
restaurantes buenos, 150 muy buenos y 66 excelentes. De modo parecido, el margen inferior
ilustra la distribucin de frecuencia para la variable del precio de la comida.
Al dividir los totales en el margen derecho de la tabulacin cruzada entre el total para esa
columna, se obtienen las distribuciones de frecuencia relativa y porcentual para la variable de
calificacin de la calidad.
De la distribucin de frecuencia porcentual, vemos que 28% de los restaurantes fue calificado
como bueno, 50% muy bueno y 22% excelente.
Al dividir los totales en la fila inferior de la tabulacin cruzada entre el total para esa fila
se obtiene una distribucin de frecuencia relativa y otra porcentual para la variable del precio
de la comida.
Note que la suma de los valores de cada columna no se adiciona exactamente al total de
la columna debido a que los valores se redondean. De la distribucin de frecuencia porcentual
vemos que 26% de los precios de la comida est en la clasificacin ms baja ($10 19), 39% en
la siguiente clase ms alta, etctera.
Las distribuciones de frecuencia relativa y porcentual elaboradas a partir de los mrge-
nes proporcionan informacin acerca de cada una de las variables en forma individual, pero no
arrojan luz sobre la relacin entre las variables. El valor principal de una tabulacin cruzada
radica en los elementos que ofrece para comprender esta relacin. Una revisin de la tabulacin
cruzada en la tabla 2.10 revela que los precios ms altos de la comida se asocian con los restau-
rantes de mayor calidad, y los precios ms bajos se ligan con los de menor calidad.
La conversin de las entradas en una tabulacin cruzada en porcentajes de fila y de colum-
na puede proporcionar ms elementos para comprender la relacin entre las dos variables. Para
los porcentajes de fila, los resultados de dividir cada frecuencia entre su total de filas correspon-
diente en la tabla 2.10, se presentan en la tabla 2.11. Cada fila de esta tabla es una distribucin
de frecuencia porcentual del precio de la comida para una de las categoras de la calificacin de
calidad. De los restaurantes con la calificacin de calidad menor (buena), los porcentajes ma-
yores son para los menos caros (50% tiene precios de comida de $10 19, y 47.6% de $20 29).
De los restaurantes con la calificacin de calidad ms alta (excelente), los porcentajes mayores
son para los ms caros (42.4% tiene precios de comida de $30 39, y 33.4% de $40 49). Por
tanto, seguimos observando que los alimentos ms caros se asocian con los restaurantes de
mayor calidad.
La tabulacin cruzada es de uso comn al examinar la relacin entre dos variables. En la
prctica, los informes finales para muchos estudios estadsticos incluyen un nmero grande
de tablas de este tipo. En la encuesta de restaurantes de Los ngeles, la tabulacin cruzada se
basa en una variable cualitativa (calificacin de la calidad) y una variable cuantitativa (precio
de la comida). Las tabulaciones cruzadas tambin pueden elaborarse cuando ambas variables
son cuantitativas y cuando ambas variables son cualitativas. Sin embargo, cuando se usan las
cuantitativas, primero se deben crear clases para los valores de la variable. Por ejemplo, en el
caso de los restaurantes agrupamos los precios de la comida en cuatro clases ($10 19, $20 29,
$30 39 y $40 49).
La paradoja de Simpson
Los datos en dos o ms tabulaciones cruzadas se combinan o se agrupan con frecuencia para
producir una tabulacin cruzada de resumen que muestra cmo se relacionan las variables. En
estos casos, debemos tener cuidado al formular una conclusin con base en los datos agregados,
ya que sta puede invertirse si estudiamos los datos no agregados. La revocacin de las conclu-
siones basada en los datos agregados y no agregados se llama paradoja de Simpson. Para ilustrar
la paradoja de Simpson considere un ejemplo que involucra el anlisis de los veredictos de dos
jueces en dos cortes distintas.
Los jueces Ron Luckett y Dennis Kendall presidieron los casos llevados en el tribunal de
primera instancia y en el tribunal municipal en los tres aos pasados. Algunos de los veredictos
que emitieron se revocaron. En la mayora de estos casos el tribunal de apelaciones ratific las
sentencias originales, pero en otros las revoc. Para cada juez se elabor una tabulacin cruzada
con base en dos variables: el veredicto (ratificado o revocado) y el tipo de tribunal (primera
instancia y municipal). Suponga que las dos tabulaciones cruzadas se combinaron al agregar
los datos del tipo de tribunal. La tabulacin cruzada agregada resultante contiene dos variables:
el veredicto (ratificado o revocado) y el juez (Luckett o Kendall). Esta tabulacin muestra el
nmero de apelaciones en las cuales se ratific la sentencia, el nmero y en las cuales se revoc
para ambos jueces. La tabla siguiente ilustra estos resultados junto con los porcentajes de co-
lumna en el parntesis al lado de cada valor.
Juez
Veredicto Luckett Kendall Total
Ratificado 129 (86%) 110 (88%) 239
Revocado 21 (14%) 15 (12%) 36
Total (%) 150 (100%) 125 (100%) 275
Una revisin de los porcentajes de la columna muestra que 86% de los veredictos se rati-
fic para el juez Luckett, mientras que 88% se ratific para el juez Kendall. A partir de esta
tabulacin cruzada agregada concluimos que Kendall est efectuando un mejor trabajo debido
a que un mayor porcentaje de sus sentencias ha sido ratificado.
Las tabulaciones cruzadas no agregadas muestran los casos juzgados por Luckett y Ken-
dall en cada tribunal; los porcentajes de columna se registran en el parntesis al lado de cada
valor.
A partir de la tabulacin cruzada y los porcentajes de columna para el juez Luckett, obser-
vamos que los veredictos se ratificaron en 91% de los casos del tribunal de primera instancia
y en 85% de los casos del tribunal municipal. De la tabulacin cruzada y los porcentajes de
columna para Kendall, los veredictos se mantienen en 90% de los casos del tribunal de primera
instancia y en 80% de los correspondientes al tribunal municipal. Por tanto, cuando desagrega-
mos los datos, observamos que Luckett tiene un mejor registro debido a que el mayor porcentaje
de sus veredictos se mantiene en ambos tribunales. Este resultado contradice la conclusin a
la que llegamos con la tabulacin cruzada de los datos agregados que mostraron que Kendall
tena un mejor registro. Esta revocacin de las conclusiones con base en los datos agregados y
desagregados ilustra la paradoja de Simpson.
2.4 Tabulaciones cruzadas y diagramas de dispersin 57
La tabulacin cruzada original se obtuvo al agregar los datos en las tabulaciones cruzadas
separadas para los dos tribunales. Note que para ambos jueces el porcentaje de apelaciones que
dio como resultado revocaciones fue mucho mayor en el tribunal municipal que en el tribunal
de primera instancia. Debido a que Luckett proces un porcentaje mucho ms alto de sus casos
en el tribunal municipal, los datos agregados favorecieron al juez Kendall. No obstante, cuando
miramos las tabulaciones cruzadas para los dos tribunales por separado, Luckett muestra el
mejor registro. Por consiguiente, para la tabulacin cruzada original, el tipo de tribunal es una
variable oculta que no puede ignorarse cuando se evalan los registros de los dos jueces.
Dada la posibilidad de la paradoja de Simpson, dse cuenta de que la conclusin o inter-
pretacin puede revocarse dependiendo de si usted est viendo datos de tabulacin cruzada
desagregados o agregados. Antes de formular una conclusin, tal vez quiera investigar si la for-
ma agregada o desagregada de la tabulacin proporciona la mejor comprensin y conclusin.
En particular, cuando la tabulacin cruzada involucra datos agregados, usted debe investigar si
una variable oculta podra afectar los resultados, ya que las tabulaciones separadas o desagre-
gadas proporcionan una comprensin y una conclusin diferentes y posiblemente mejores.
1
La ecuacin de la lnea de tendencia es y " 36.15 $ 4.95x. La pendiente de la lnea de tendencia es 4.95 y el intercepto
en y (el punto donde la lnea intercepta el eje y) es 36.15. Comentaremos con detalle la interpretacin de la pendiente y
el intercepto en y para una lnea de tendencia lineal en el captulo 14, cuando estudiemos la regresin lineal simple.
58 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
y
65
60
55
Ventas ($100)
50
45
40
35 x
0 1 2 3 4 5
Nmero de comerciales
y y
Relacin negativa x
2.4 Tabulaciones cruzadas y diagramas de dispersin 59
Algunos patrones generales de diagramas de dispersin y los tipos de relacin que sugie-
ren se muestran en la figura 2.8. El panel superior izquierdo representa una relacin positiva
parecida a la del ejemplo del nmero de comerciales y ventas. En el panel superior derecho, el
diagrama de dispersin no muestra una relacin aparente entre las variables. El panel inferior
representa una relacin negativa donde y tiende a disminuir a medida que x aumenta.
Ejercicios
Mtodos
29. Los datos siguientes corresponden a 30 observaciones que involucran dos variables cualitati-
vas, x y y. Las categoras para x son A, B y C; las categoras para y son 1 y 2.
AUTO evaluacin
Observation x y Observation x y
1 A 1 16 B 2
2 B 1 17 C 1
WEB archivo 3 B 1 18 B 1
4 C 2 19 C 1
Crosstab 5 B 1 20 B 1
6 C 2 21 C 2
7 B 1 22 B 1
8 C 2 23 C 2
9 A 1 24 A 1
10 B 1 25 B 1
11 A 1 26 C 2
12 B 1 27 C 2
13 C 2 28 A 1
14 C 2 29 B 1
15 C 2 30 B 2
a) Elabore una tabulacin cruzada para los datos, con x como la variable de la fila y y como
la variable de la columna.
b) Calcule los porcentajes de la fila.
c) Calcule los porcentajes de la columna.
d) Cul es la relacin, si existe, entre x y y.
30. Las siguientes 20 observaciones son para dos variables cuantitativas, x y y.
AUTO evaluacin
Observation x y Observation x y
1 !22 22 11 !37 48
2 !33 49 12 34 !29
WEB archivo 3 2 8 13 9 !18
4 29 !16 14 !33 31
Scatter 5 !13 10 15 20 !16
6 21 !28 16 !3 14
7 !13 27 17 !15 18
8 !23 35 18 12 17
9 14 !5 19 !20 !11
10 3 !3 20 !7 !22
Aplicaciones
31. La tabulacin cruzada siguiente muestra el ingreso familiar por nivel educativo del jefe de
familia (Statistical Abstract of the United States, 2008).
a) Combine en una estas dos tablas de contingencia con las etiquetas de fila hombres y mu-
jeres, y las etiquetas de columna demasiado rpidos y bien. Qu grupo muestra el por-
centaje ms alto que afirma que los greens son demasiado rpidos?
2.4 Tabulaciones cruzadas y diagramas de dispersin 61
b) Consulte las tabulaciones cruzadas iniciales. Para los jugadores de handicap bajo (los me-
jores), cul grupo (hombres o mujeres) muestra el porcentaje ms alto que afirma que los
greens son demasiado rpidos?
c) Consulte las tabulaciones cruzadas iniciales. Para los jugadores de handicap alto, cul
grupo (hombres o mujeres) muestra el porcentaje ms alto que afirma que los greens son
demasiado rpidos?
d) Qu conclusiones puede formular acerca de las preferencias de los hombres y las mu-
jeres respecto de la rapidez de los greens? Las conclusiones del inciso a) en compara-
cin con las de los incisos b) y c) son consistentes? Explique cualquier incongruencia
aparente.
34. La tabla 2.13 de la siguiente pgina muestra un conjunto de datos con informacin para 45
fondos de inversin que son parte del Morningstar Funds500 de 2008. El conjunto de datos
incluye las cinco variables siguientes:
Tipo de fondo. El tipo de fondo, etiquetado como de (capital nacional), ie (capital inter-
nacional) y fi (renta fija)
Valor neto de los activos. El precio de cierre por accin
Rendimiento promedio a 5 aos (%). El rendimiento promedio anual para el fondo durante
los cinco aos anteriores
Razn de gastos (%). El porcentaje de activos deducido cada ao fiscal para los gastos
de fondos
Calificacin Morningstar. La calificacin, con estrellas, del riesgo ajustada para cada fon-
do; las calificaciones de Morningstar varan de una baja de 1 estrella (1-star) a una alta de
5 estrellas (5-stars)
a) Elabore una tabulacin cruzada de los datos sobre el tipo de fondo (filas) y el rendimiento
promedio anual durante los cinco aos anteriores (columnas). Utilice clases de 0 9.99;
10 19.99; 20 29.99; 30 39.99; 40 49.99, y 50 59.99 para el rendimiento promedio de
5 aos (%).
b) Prepare una distribucin de frecuencia para los datos sobre el tipo de fondo.
c) Elabore una distribucin de frecuencia para los datos sobre el rendimiento promedio de
5 aos (%).
d) Cmo ayud la tabulacin cruzada para la preparacin de la distribucin de frecuencias
en los incisos b) y c)?
e) Qu conclusiones puede formular sobre el tipo de fondo y el rendimiento promedio so-
bre los 5 aos anteriores?
35. Consulte los datos de la tabla 2.13.
a) Elabore una tabulacin cruzada de los datos sobre el tipo de fondo (filas) y la razn de
gastos (columnas). Use las clases de 0.25 0.49; 0.50 0.74; 0.75 0.99; 1.00 1.24, y
1.25 1.49 para la razn de gastos (%).
b) Prepare una distribucin de frecuencia porcentual para la razn de gastos (%).
c) Qu conclusiones puede formular acerca del tipo de fondo y la razn de gastos?
36. Consulte los datos de la tabla 2.13.
a) Elabore un diagrama de dispersin con un rendiminto promedio de cinco aos (%) sobre
el eje horizontal y el valor neto de los activos ($) sobre el eje vertical.
b) Comente la relacin, si existe, entre las variables.
37. La Gua de economa de combustible del Departamento de Energa de Estados Unidos pro-
porciona datos sobre la eficiencia de combustible para automviles y camiones (sitio web Fuel
Economy, 22 de febrero de 2008). Una porcin de los datos para 311 automviles compactos,
medianos y grandes se muestra en la tabla 2.14. El conjunto de datos contiene las variables
siguientes:
Tamao: compacto, mediano y grande
Desplazamiento: tamao del motor en litros
Cilindros: nmero de cilindros en el motor
Traccin: delantera (F), trasera (R) y en las cuatro llantas (4)
Tipo de combustible: premium (P) o regular (R)
Mi/gal en ciudad: calificacin de la eficiencia del combustible para uso del automvil en
la ciudad en trminos de millas por galn
Mi/gal en autopista: calificacin de la eficiencia del combustible para uso del automvil
en autopista en trminos de millas por galn
62 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
5-Year
Fund Net Asset Average Expense Morningstar
Fund Name Type Value ($) Return (%) Ratio (%) Rank
Amer Cent Inc & Growth Inv DE 28.88 12.39 0.67 2-Star
American Century Intl. Disc IE 14.37 30.53 1.41 3-Star
American Century Tax-Free Bond FI 10.73 3.34 0.49 4-Star
American Century Ultra DE 24.94 10.88 0.99 3-Star
WEB archivo Ariel DE 46.39 11.32 1.03 2-Star
Artisan Intl Val IE 25.52 24.95 1.23 3-Star
MutualFunds Artisan Small Cap DE 16.92 15.67 1.18 3-Star
Baron Asset DE 50.67 16.77 1.31 5-Star
Brandywine DE 36.58 18.14 1.08 4-Star
Brown Cap Small DE 35.73 15.85 1.20 4-Star
Buffalo Mid Cap DE 15.29 17.25 1.02 3-Star
Delafield DE 24.32 17.77 1.32 4-Star
DFA U.S. Micro Cap DE 13.47 17.23 0.53 3-Star
Dodge & Cox Income FI 12.51 4.31 0.44 4-Star
Fairholme DE 31.86 18.23 1.00 5-Star
Fidelity Contrafund DE 73.11 17.99 0.89 5-Star
Fidelity Municipal Income FI 12.58 4.41 0.45 5-Star
Fidelity Overseas IE 48.39 23.46 0.90 4-Star
Fidelity Sel Electronics DE 45.60 13.50 0.89 3-Star
Fidelity Sh-Term Bond FI 8.60 2.76 0.45 3-Star
Fidelity DE 39.85 14.40 0.56 4-Star
FPA New Income FI 10.95 4.63 0.62 3-Star
Gabelli Asset AAA DE 49.81 16.70 1.36 4-Star
Greenspring DE 23.59 12.46 1.07 3-Star
Janus DE 32.26 12.81 0.90 3-Star
Janus Worldwide IE 54.83 12.31 0.86 2-Star
Kalmar Gr Val Sm Cp DE 15.30 15.31 1.32 3-Star
Managers Freemont Bond FI 10.56 5.14 0.60 5-Star
Marsico 21st Century DE 17.44 15.16 1.31 5-Star
Mathews Pacific Tiger IE 27.86 32.70 1.16 3-Star
Meridan Value DE 31.92 15.33 1.08 4-Star
Oakmark I DE 40.37 9.51 1.05 2-Star
PIMCO Emerg Mkts Bd D FI 10.68 13.57 1.25 3-Star
RS Value A DE 26.27 23.68 1.36 4-Star
T. Rowe Price Latin Am. IE 53.89 51.10 1.24 4-Star
T. Rowe Price Mid Val DE 22.46 16.91 0.80 4-Star
Templeton Growth A IE 24.07 15.91 1.01 3-Star
Thornburg Value A DE 37.53 15.46 1.27 4-Star
USAA Income FI 12.10 4.31 0.62 3-Star
Vanguard Equity-Inc DE 24.42 13.41 0.29 4-Star
Vanguard Global Equity IE 23.71 21.77 0.64 5-Star
Vanguard GNMA FI 10.37 4.25 0.21 5-Star
Vanguard Sht-Tm TE FI 15.68 2.37 0.16 3-Star
Vanguard Sm Cp Idx DE 32.58 17.01 0.23 3-Star
Wasatch Sm Cp Growth DE 35.41 13.98 1.19 4-Star
Resumen 63
Car Size Displacement Cylinders Drive Fuel Type City MPG Hwy MPG
1 Compacto 3.1 6 4 P 15 25
2 Compacto 3.1 6 4 P 17 25
3 Compacto 3.0 6 4 P 17 25
WEB archivo
FuelData08
161 Mediano 2.4 4 F R 22 30
162 Mediano 2.0 4 F P 19 29
310 Grande 3.0 6 F R 17 25
311 Grande 3.0 6 F R 18 25
c) Elabore una tabulacin cruzada de los datos de traccin (filas) y las millas por galn en
la ciudad (columnas). Use las clases 5 9, 10 14, 15 19, 20 24, 25 29, 30 34 y 35 39
para las millas por galn en la ciudad.
d) Comente la relacin entre la traccin y las millas por galn en la ciudad.
e) Prepare una tabulacin cruzada de los datos sobre el tipo de combustible (filas) y las mi-
llas por galn en la ciudad (columnas). Use las clases 5 9, 10 14, 15 19, 20 24, 25 29,
30 34 y 35 39 para las millas por galn en la ciudad.
f) Comente la relacin entre el tipo de combustible y las millas por galn en la ciudad.
38. Remtase al ejercicio 37 y a los datos en el archivo FuelData08.
a) Elabore una tabulacin cruzada de los datos sobre el desplazamiento (filas) y las millas por
galn en autopista (columnas). Use las clases 1.0 2.9, 3.0 4.9 y 5.0 6.9 para el despla-
zamiento. Use las clases 15 19, 20 24, 25 29, 30 34 y 35 39 para las millas por galn
en autopista.
b) Comente la relacin, si existe, entre el desplazamiento y las millas por galn en autopista.
c) Elabore un diagrama de dispersin de los datos sobre el desplazamiento y las millas por
galn en autopista. Use el eje vertical para las millas.
d) Qu indica el diagrama de dispersin elaborado en el inciso c) sobre la relacin, si existe,
entre el desplazamiento y las millas por galn en autopista?
e) En la investigacin de la relacin entre el desplazamiento y las millas por galn en autopis-
ta usted elabor un resumen tabular de los datos (tabulacin cruzada) y un resumen grfico
(diagrama de dispersin). En este caso, cul mtodo prefiere? Explique sus razones.
Resumen
Con frecuencia es difcil interpretar directamente un conjunto de datos, incluso si es pequeo,
en la forma en que se recolecta. Los mtodos tabulares y grficos proporcionan procedimien-
tos para la organizacin y el resumen de los datos de modo que los patrones se inviertan y los
datos se interpreten con ms facilidad. Las distribuciones de frecuencia, las distribuciones de
frecuencia relativa, las distribuciones de frecuencia porcentual, las grficas de barras y las gr-
ficas circulares se presentan como procedimientos tabulares y grficos para el resumen de datos
cualitativos. Las distribuciones de frecuencia, de frecuencia relativa y de frecuencia porcentual,
as como los histogramas, las distribuciones de frecuencia acumulada, las distribuciones de fre-
cuncia relativa acumulada, las distribuciones de frecuencia porcentual acumulada y las ojivas
constituyen maneras de resumir datos cuantitativos. El diagrama de tallo y hoja proporciona
una tcnica de anlisis explicativo de los datos que tambin se utiliza para resumir datos cuanti-
tativos. La tabulacin cruzada constituye un mtodo tabular para resumir datos para dos varia-
bles. El diagrama de dispersin se plantea como un mtodo grfico para mostrar la relacin entre
dos variables cuantitativas. La figura 2.9 muestra los mtodos tabulares y grficos expuestos en
este captulo.
64 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Datos
Datos Datos
cualitativos cuantitativos
Glosario
Anlisis de datos exploratorios Mtodos que utilizan aritmtica sencilla y grficas fciles de
trazar para resumir los datos de manera rpida.
Datos cualitativos Etiquetas o nombres que sirven para identificar categoras de elementos
parecidos.
Datos cuantitativos Valores numricos que indican cunto o cuntos.
Diagrama de dispersin Presentacin grfica de la relacin entre dos variables cuantitativas.
Una variable se muestra en el eje horizontal y la otra en el eje vertical.
Diagrama de puntos Dispositivo grfico que resume los datos segn el nmero de puntos
arriba de cada valor de datos en el eje horizontal.
Diagrama de tallo y hoja Tcnica de anlisis de datos exploratorios que clasifica de manera
simultnea los rdenes de los datos cuantitativos y permite comprender la forma de la distri-
bucin.
Distribucin de frecuencia Resumen tabular de los datos que muestra el nmero (frecuen-
cia) de los valores de datos en cada una de varias clases que no se superponen.
Distribucin de frecuencia acumulada Resumen tabular de datos cuantitativos que muestra
el nmero de valores de datos que son menores o iguales que el lmite de clase superior de cada
clase.
Distribucin de frecuencia porcentual Resumen tabular de los datos que muestra el porcen-
taje de valores de datos en cada una de varias clases que no se superponen.
Ejercicios complementarios 65
Frmulas clave
Frecuencia relativa
Frecuencia de la clase
(2.1)
n
Ejercicios complementarios
TABLA 2.15 Rendimiento de dividendos para las empresas del promedio industrial Dow Jones
Dividend Dividend
Company Yield % Company Yield %
3M 3.6 IBM 2.1
WEB archivo Alcoa 1.3 Intel 3.4
American Express 2.9 J.P. Morgan Chase 0.5
DYield AT&T 6.6 Johnson & Johnson 3.6
Bank of America 0.4 Kraft Foods 4.4
Boeing 3.8 McDonalds 3.4
Caterpillar 4.7 Merck 5.5
Chevron 3.9 Microsoft 2.5
Cisco Systems 0.0 Pfizer 4.2
Coca-Cola 3.3 Procter & Gamble 3.4
DuPont 5.8 Travelers 3.0
ExxonMobil 2.4 United Technologies 2.9
General Electric 9.2 Verizon 6.3
Hewlett-Packard 0.9 Wal-Mart Stores 2.2
Home Depot 3.9 Walt Disney 1.5
Ejercicios complementarios 67
de ingreso (College Board, marzo de 2009). La versin actual del SAT incluye tres partes: com-
prensin de lectura, matemticas y redaccin. Una calificacin combinada perfecta para las
tres partes es 2 400. Una muestra de calificaciones para el SAT combinado de tres partes es la
siguiente.
1 665 1 525 1 355 1 645 1 780
1 275 2 135 1 280 1 060 1 585
WEB archivo 1 650 1 560 1 150 1 485 1 990
NewSAT 1 590 1 880 1 420 1 755 1 375
1 475 1 680 1 440 1 260 1 730
1 490 1 560 940 1 390 1 175
a) Elabore una distribucin de frecuencia y un histograma. Comience con la primera clase
en 800 y utilice un ancho de clase de 200.
b) Comente la forma de la distribucin.
c) Qu otras observaciones puede hacer acerca de las calificaciones del sat con base en
los resmenes grfico y tabular?
43. Los Acereros de Pittsburgh derrotaron a los Cardenales de Arizona 27 a 23 en el Super Bowl
43 del futbol americano. Con esta victoria, su sexto campeonato, los Acereros de Pittsburgh
se convirtieron en el equipo con ms triunfos en los 43 aos de historia del evento (Tampa
Tribune, 2 de febrero de 2009). El Super Bowl se ha celebrado en ocho estados diferentes de
Estados Unidos: Arizona (AZ), California (CA), Florida (FL), Georgia (GA), Louisiana (LA),
Michigan (MI), Minnesota (MN) y Texas (TX). Los datos de la tabla siguiente muestran el
estado donde se celebraron los Super Bowls y el margen de puntos de la victoria para el equipo
ganador.
a) Elabore una distribucin de frecuencia y una grfica de barra para el estado donde se cele-
br el Super Bowl.
b) A qu conclusiones llega a partir del resumen del inciso a)? Cul es el porcentaje de
Super Bowls celebrados en los estados de Florida o California? Qu porcentaje se celebr
en los estados del norte o de clima fro?
c) Muestre un diagrama de tallo y hoja para el margen de puntos de victoria para el equipo
ganador. Elabore un histograma.
d) Qu conclusiones obtiene a partir de su resumen del inciso c)? Qu porcentaje de Super
Bowls han sido partidos cerrados con un margen de victoria menor que 5 puntos? Qu
porcentaje se ha ganado por 20 puntos o ms?
e) El partido de Super Bowl ms cerrado tuvo lugar cuando los Gigantes de Nueva York
derrotaron a los Bills de Bfalo. Dnde se realiz este partido y cul fue el margen de
victoria del equipo ganador? El margen de puntos ms grande en la historia del Super Bowl
ocurri cuando los 49s de San Francisco derrotaron a los Broncos de Denver. En dnde
se celebr este partido y cul fue el margen de victoria del equipo ganador?
68 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
44. Los datos de la Oficina del Censo de Estados Unidos proporcionan la poblacin por estado en
millones de personas (The World Almanac, 2006).
Pas
Gran Estados
Nivel de apoyo Bretaa Italia Espaa Alemania Unidos Total
Totalmente a favor 337 334 510 222 214 1 617
Ms a favor que en contra 370 408 355 411 327 1 871
Ms en contra que a favor 250 188 155 267 275 1 135
Totalmente en contra 130 115 89 211 204 749
Total 1 087 1 045 1 109 1 111 1 020 5 372
a) Elabore una distribucin de frecuencia porcentual para la variable del nivel de apoyo.
Piensa usted que los resultados muestran apoyo a un impuesto ms alto sobre la emisin
de carbono de los automviles?
b) Elabore una distribucin de frecuencia porcentual para la variable pas.
c) El nivel de apoyo entre los adultos en los pases europeos difiere del que se manifiesta en
Estados Unidos? Explique por qu.
49. Western University slo tiene una beca para jugadoras de softbol femenil para el prximo ao.
Las dos finalistas que la universidad est considerando son Allison Fealey y Emily Janson. El
personal tcnico ha concluido que la velocidad y las habilidades defensivas de las dos jugado-
ras son prcticamente idnticas, y que la decisin final se basar en la que tenga el mejor
promedio de bateo. Las tabulaciones cruzadas del desempeo de bateo de cada jugadora en la
sencundaria y el bachillerato son las siguientes.
El promedio de bateo se calcula al dividir el nmero de hits de un jugador por el nmero total
de turnos al bate. Los promedios de bateo se representan como un nmero decimal con tres
lugares despus del punto decimal.
a) Calcule el promedio de bateo de cada jugadora en la secundaria. Luego calcule el prome-
dio de bateo en el bachillerato. Utilice este anlisis para responder cul jugadora debe
obtener la beca. Explique sus razones.
70 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
b) Combine o agregue los datos para la secundaria y el bachillerato en una tabulacin cruza-
da de la manera siguiente.
Jugadora
Resultado Fealey Janson
Hit
Sin hit
Total de bateos
Calcule el promedio de bateo de cada jugadora para los dos aos combinados. Utilice este
anlisis para responder cul de ellas debe recibir la beca. Explique sus razones.
c) Sus recomendaciones de los incisos a) y b) son congruentes? Justifique cualquier falta
aparente de congruencia.
50. En una encuesta de edificios comerciales realizada por la Cincinnati Gas & Electric Compa-
ny se preguntaba cul era el combustible utilizado en la calefaccin principal y en qu ao
se construy el edificio. Una tabulacin cruzada parcial de los hallazgos se presenta a conti-
nuacin.
Ao de Tipo de combustible
construccin Electricidad Gas natural Petrleo Propano Otros
1973 o antes 40 183 12 5 7
19741979 24 26 2 2 0
19801986 37 38 1 0 6
19871991 48 70 2 0 1
a) Complete la tabulacin cruzada mostrando el total de las filas y el total de las columnas.
b) Elabore las distribuciones de frecuencia del ao de construccin y del tipo de combustible.
c) Desarrolle una tabulacin cruzada que muestre los porcentajes de columna.
d) Elabore una tabulacin cruzada que muestre los porcentajes de fila.
e) Comente la relacin entre el ao de construccin y el tipo de combustible.
51. La tabla 2.16 incluye una porcin de los datos contenidos en el archivo Fortune, y lista los da-
tos sobre el capital de los accionistas, el valor de mercado y las utilidades para una muestra de
50 empresas Fortune 500.
a) Elabore una tabulacin cruzada para las variables del capital de los accionistas (Stockhol-
ders Equity) y de las utilidades (Profit). Use las clases 0 200, 200 400, . . . , 1 000 1 200
para las utilidades, y las clases 0 1 200, 1 200 2 400, . . . , 4 800 6 000 para el capital de
los accionistas.
b) Calcule los porcentajes de fila para la tabulacin cruzada que elabor para el inciso a).
c) Qu relacin observa, si hay alguna, entre las utilidades y el capital de los accionistas?
52. Remtase al conjunto de datos de la tabla 2.16.
a) Elabore una tabulacin cruzada para las variables valor de mercado (Market Value) y
utilidades (Profit).
b) Calcule los porcentajes de fila para su tabulacin cruzada del inciso a).
c) Comente sobre cualquier relacin entre las variables.
53. Consulte el conjunto de datos de la tabla 2.16.
a) Trace un diagrama de dispersin que muestre la relacin entre las variables utilidades y
capital de los accionistas.
b) Comente acerca de cualquier relacin entre las variables.
54. Consulte el conjunto de datos de la tabla 2.16.
a) Elabore un diagrama de dispersin que muestre la relacin entre las variables valor de
mercado y capital de los accionistas.
b) Comente sobre cualquier relacin entre las variables.
TABLA 2.17 Datos para una muestra de 100 compras con tarjeta de crdito en Pelican Stores
La mayora de las variables mostradas en la tabla 2.17 se explican por s mismas, pero dos
de ellas requieren una aclaracin.
Artculos (Items) Nmero total de productos adquiridos
Ventas netas (Net Sales) Monto total ($) cargado a la tarjeta de crdito
A la gerencia de Pelican le gustara usar estos datos muestrales para enterarse de su base de
clientes y evaluar la promocin que consiste en los cupones de descuento.
Informe gerencial
Use los mtodos tabular y grfico de la estadstica descriptiva para ayudar a la gerencia a ela-
borar un perfil de los clientes y evaluar la compaa promocional. Como mnimo, su informe
debe incluir lo siguiente:
1. Distribucin de frecuencia porcentual para las variables clave.
2. Una grfica de barras o circular que muestre el nmero de compras del cliente atribui-
ble al mtodo de pago.
3. Una tabulacin cruzada del tipo de cliente (regular o promocional) contra las ventas
netas. Comente cualquier similitud o diferencia que se presente.
4. Un diagrama de dispersin para explorar la relacin entre las ventas netas (Net sales) y
la edad (Age) de los clientes.
Informe gerencial
Use los mtodos tabulares y grficos de la estadstica descriptiva para conocer cmo estas va-
riables contribuyen al xito de una pelcula. Incluya en su informe los puntos que se indican en
la siguiente pgina.
1. Los resmenes tabulares y grficos para cada una de las cuatro variables junto con un
anlisis de cada resumen que proporcionen informacin sobre la industria del cine.
2. Un diagrama de dispersin para explorar la relacin entre las ventas brutas totales y las
ventas brutas de estreno. Explquelo.
3. Un diagrama de dispersin para explorar la relacin entre las ventas brutas totales y
el nmero de cines. Comntelo.
4. Un diagrama de dispersin para explorar la relacin entre las ventas brutas totales y el
nmero de semanas en que la pelcula permaneci entre las primeras 60. Comntelo.
Diagrama de puntos
Para esta demostracin se utilizan los datos de duracin de la auditora de la tabla 2.4. Los datos
WEB archivo estn en la columna C1 de una hoja de trabajo de Minitab. Los pasos siguientes generarn un
Audit diagrama de puntos.
Paso 1. Seleccione el men Graph y elija Dotplot.
Paso 2. Seleccione One Y, Simple y haga clic en OK.
Paso 3. Cuando el cuadro de dilogo Dotplot-One Y, Simple aparezca:
Introduzca C1 en el cuadro Graph Variables.
Haga clic en OK.
Histograma
En esta seccin se muestra cmo elaborar un histograma con las frecuencias sobre el eje vertical
WEB archivo usando los datos de duracin de la auditora de la tabla 2.4. Los datos se encuentran en la co-
Audit lumna C1 de la hoja de trabajo de Minitab. Los pasos siguientes generarn un histograma para
la duracin de las auditoras.
Paso 1. Seleccione el men Graph.
Paso 2. Elija Histogram.
Paso 3. Seleccione Simple y haga clic en OK.
Paso 4. Cuando el cuadro de dilogo Histogram-Simple se abra:
Introduzca C1 en el cuadro Graph Variables.
Haga clic en OK.
Paso 5. Cuando aparezca el histograma:
Coloque el puntero del mouse sobre cualquiera de las barras.
Haga doble clic.
Paso 6. Cuando el cuadro de dilogo Edit Bars (editar barras) aparezca:
Haga clic en la ficha Binning.
Seleccione Cutpoint para el tipo de intervalo (Interval Type).
Seleccione Midpoint/Cutpoint positions para la definicin del intervalo
(Interval Definition).
Introduzca 10:35/5 en el cuadro Midpoint/Cutpoint positions.*
Haga clic en OK.
* La entrada 10:35/5 indica que 10 es el valor inicial para el histograma, 35 es el valor final para el histograma y 5 es el
ancho de clase.
74 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Diagrama de dispersin
Los datos de la tienda de estreos y equipos de sonido de la tabla 2.12 se usan para mostrar la
elaboracin de un diagrama de dispersin. Las semanas estn numeradas del 1 al 10 en la co-
WEB archivo lumna C1; los datos del nmero de comerciales estn en la columna C2, y los datos de las ventas
Stereo en la columna C3 de la hoja de trabajo de Minitab. Los pasos siguientes generan el diagrama de
dispersin mostrado en la figura 2.7.
Paso 1. Seleccione el men Graph.
Paso 2. Elija Scatterplot.
Paso 3. Seleccione Simple y haga clic en OK.
Paso 4. Cuando el cuadro de dilogo Scatterplot-Simple se abra:
Introduzca C3 bajo Y variables y C2 bajo X variables.
Haga clic en OK.
Tabulacin cruzada
Para esta demostracin se utilizan los datos de la revisin del restaurante Zagats, parte de los
cuales se presentan en la tabla 2.9. Los restaurantes se numeran del 1 al 300 en la columna C1 de
WEB archivo la hoja de trabajo de Minitab. Las calificaciones de calidad estn en la columna C2 y los precios
Restaurant de los alimentos en la columna C3.
Minitab slo puede crear una tabulacin cruzada para variables cualitativas, y el precio de
la comida es una variable cuantitativa. As que primero necesitamos codificar los datos de la
segunda variable al especificar la clase a la cual pertenece el precio de cada comida. Los pasos
siguientes codificarn los datos del precio de los alimentos para crear cuatro clases en la colum-
na C4: $1019, $2029, $3039 y $4049.
Paso 1. Seleccione el men Data.
Paso 2. Elija Code.
Paso 3. Elija Numeric to Text.
Paso 4. Cuando el cuadro de dilogo Code-Numeric to Text aparezca:
Introduzca C3 en el cuadro Code data from columns.
D enter a C4 en el cuadro Store coded data in columns.
Introduzca 10:19 en el primer cuadro Original values y $10-19 en el cuadro
New adyacente.
Introduzca 20:29 en el segundo cuadro Original values y $20-29 en el cua-
dro New adyacente.
Apndice 2.2 Uso de Excel para presentaciones tabulares y grficas 75
A B C D E
1 Brand Purchased Soft Drink Frequency
2 Coke Classic Coke Classic =COUNTIF($A$2:$A$51,C2)
3 Diet Coke Diet Coke =COUNTIF($A$2:$A$51,C3)
4 Pepsi Dr. Pepper =COUNTIF($A$2:$A$51,C4)
5 Diet Coke Pepsi =COUNTIF($A$2:$A$51,C5)
6 Coke Classic Sprite =COUNTIF($A$2:$A$51,C6)
7 Coke Classic
8 Dr. Pepper A B C D E
9 Diet Coke 1 Brand Purchased Soft Drink Frequency
Nota. Las filas 11-44 10 Pepsi 2 Coke Classic Coke Classic 19
estn ocultas. 45 Pepsi 3 Diet Coke Diet Coke 8
46 Pepsi 4 Pepsi Dr. Pepper 5
47 Pepsi 5 Diet Coke Pepsi 13
48 Coke Classic 6 Coke Classic Sprite 5
49 Dr. Pepper 7 Coke Classic
50 Pepsi 8 Dr. Pepper
51 Sprite 9 Diet Coke
52 10 Pepsi
45 Pepsi
46 Pepsi
47 Pepsi
48 Coke Classic
49 Dr. Pepper
50 Pepsi
51 Sprite
52
FIGURA 2.11 Grfica de barras de la compra de bebidas refrescantes elaborada con las herramientas de
graficacin de Excel
A B C D E F G H I
1 Brand Purchased Soft Drink Frequency
2 Coke Classic Coke Classic 19
3 Diet Coke Diet Coke 8
4 Pepsi Dr. Pepper 5
5 Diet Coke Pepsi 13
6 Coke Classic Sprite 5
7 Coke Classic
8 Dr. Pepper
9 Diet Coke Bar Chart of Soft Drink Purchases
10 Pepsi 20
11 Pepsi
12 Coke Classic Frequency 15
13 Dr. Pepper
10
14 Sprite
15 Coke Classic 5
16 Diet Coke
17 Coke Classic 0
18 Coke Classic Coke Diet Coke Dr. Pepper Pepsi Sprite
19 Sprite Classic
20 Coke Classic Soft Drink
50 Pepsi
51 Sprite
52
* El tamao de la grfica de barras de la figura 2.11 puede modificarse. Cambiar el tamao de una grfica en Excel no
es difcil. Primero seleccione la grfica. Los controladores de tamao aparecern en el borde de sta. Haga clic en los
controladores y arrstrelos para modificar el tamao de la figura como lo desee.
78 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
FIGURA 2.12 Uso del informe de grfico dinmico de Excel para elaborar una distribucin de frecuencia
y un histograma de los datos de duracin de la auditora
A B C D E F G H I J
1 Audit Time Row Labels Count of Audit Time
2 12 10 14 4
3 15 15 19 8
4 20 20 24 5
5 22 25 29 2
6 14 30 34 1
7 14 Grand Total 20
8 15
9 27 Histogram for Audit Time Data
10 21 9
11 18 8
7
12
Frequency
19 6
13 18 5
4
14 22 3
2
15 33 1
16 16 0
1014 1519 2024 2529 3034
17 18
Audit Time in Days
18 17
19 23
20 28
21 13
22
La figura 2.12 muestra los informes de tabla dinmica y grfico dinmico resultantes. Obser-
vamos que el informe de tabla dinmica proporciona la distribucin de frecuencia de los datos
de duracin de la auditora y el informe de grfico dinmico proporciona el histograma co-
rrespondiente. Si lo desea, puede cambiar las etiquetas de cualquier celda en la distribucin de
frecuencia al seleccionar la celda y teclear la etiqueta nueva.
Tabulacin cruzada
El informe de tabla dinmica de Excel es una manera excelente de resumir los datos para dos o
ms variables de forma simultnea. Se explicar el uso de este informe al mostrar cmo elaborar
una tabulacin cruzada de las calificaciones de calidad y los precios de la comida de la muestra
de 300 restaurantes de Los ngeles. Se usarn los datos del archivo llamado Restaurant; las
etiquetas Restaurant, Quality Rating (calificacin de la calidad) y Meal Price ($) (precio
de la comida) se introdujeron en las celdas A1:C1 de la hoja de clculo como se aprecia en la
figura 2.13. Los datos de cada uno de los restaurantes de la muestra se introdujeron en las cel-
das B2:C301.
FIGURA 2.13 Hoja de clculo de Excel que contiene datos de los restaurantes
A B C D
1 Restaurant Quality Rating Meal Price ($)
2 1 Good 18
3 2 Very Good 22
4 3 Good 28
WEB archivo 5 4 Excellent 38
6 5 Very Good 33
Restaurant
7 6 Good 28
8 7 Very Good 19
9 8 Very Good 11
10 9 Very Good 23
11 10 Good 13
Nota. Las filas 12-291 estn 292 291 Very Good 23
ocultas. 293 292 Very Good 24
294 293 Excellent 45
295 294 Good 14
296 295 Good 18
297 296 Good 17
298 297 Good 16
299 298 Good 15
300 299 Very Good 38
301 300 Very Good 31
302
80 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
Si se desea utilizar el informe de tabla dinmica para elaborar una tabulacin cruzada, se
requiere realizar tres tareas: mostrar la lista de campos de la tabla dinmica inicial y el infor-
me de tabla dinmica; establecer la lista de campos de la tabla dinmica, y finalizar el informe
de tabla dinmica. Estas tareas se describen enseguida.
Mostrar la lista de campos de la tabla dinmica inicial y el informe de tabla dinmica.
Se requieren tres pasos para mostrar la lista de campos inicial y el informe de tabla dinmica.
Paso 1. Haga clic en la ficha Insert en la cinta de opciones.
Paso 2. En el grupo Tables, haga clic en el icono sobre la palabra PivotTable.
Paso 3. Cuando el cuadro de dilogo Create PivotTable aparezca:
Elija Select a Table or Range.
Introduzca A1:C301 en el cuadro Table/Range.
Elija New Worksheet como la ubicacin para PivotTable Report.
Haga clic en OK.
La lista de campo inicial de tabla dinmica y el informe de tabla dinmica se muestran en la
figura 2.14.
Configuracin de la lista de campos inicial de tabla dinmica. Excel considera cada una de
las tres columnas de la figura 2.13 [etiquetadas como Restaurant, Quality Rating y Meal Price
($)] como un campo. Los campos se eligen para representar filas, columnas o valores en el
cuerpo del informe de tabla dinmica. Los pasos siguientes muestran cmo utilizar la lista de
campos de tabla dinmica de Excel para asignar el campo Quality Rating a las filas, el campo
Meal Price ($) a las columnas y el campo Restaurant al cuerpo del informe de la tabla dinmica.
Paso 1. En PivotTable Field List, vaya a Choose Fields to add to report.
Arrastre el campo Quality Rating a la seccin Row Labels.
Arrastre el campo Meal Price ($) a la seccin Column Labels.
Arrastre el campo Restaurant a la seccin Values.
FIGURA 2.14 Lista de campo inicial e informe de campo de PivotTable para los datos
del restaurante
A B C D E F G
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Apndice 2.2 Uso de Excel para presentaciones tabulares y grficas 81
Paso 2. Haga clic con el botn secundario en Sum of Restaurant en la seccin Values.
Paso 3. Haga clic en la opcin Value Field Settings de la lista de opciones que se despliega.
Paso 4. Cuando el cuadro de dilogo Value Field Settings se abra:
Bajo Summarize value field by, elija Count.
Haga clic en OK.
La figura 2.15 muestra la lista de campos de tabla dinmica completada y una porcin de la hoja
de trabajo de tabla dinmica tal como aparece.
Finalizar el informe de tabla dinmica. Para completar el informe de tabla dinmica se ne-
cesita agrupar las columnas que representan los precios de la comida y colocar las etiquetas de
fila para la calificacin de la calidad en el orden apropiado. Considere los pasos siguientes para
hacerlo.
Paso 1. Haga clic con el botn secundario en la celda B4 o en cualquier otra que contenga
precios de comida.
Paso 2. Elija Group en la lista de opciones que aparece.
Paso 3. Cuando el cuadro de dilogo Grouping se abra:
Introduzca 10 en el cuadro Starting at.
Introduzca 49 en el cuadro Ending at.
Introduzca 10 en el cuadro By.
Haga clic en OK.
Paso 4. Haga clic con el botn secundario en Excellent en la celda A5.
Paso 5. Elija Move y haga clic en Move Excellent to End.
El informe de tabla dinmica final se muestra en la figura 2.16. Observe que contiene la misma
informacin que la tabulacin cruzada de la tabla 2.10.
Diagrama de dispersin
Las herramientas de graficacin de Excel se utilizaron para elaborar un diagrama de dispersin
y una lnea de tendencia de los datos de la tienda de estreos y equipos de sonido presentados
FIGURA 2.15 Lista de campos de la tabla dinmica completada y una porcin del informe de tabla dinmica
de los datos del restaurante (las columnas H:AK estn ocultas)
A B C D E F G AL AM AN AO
1
2
3 Count of Restaurant Column Labels
4 Row Labels 10 11 12 13 14 15 47 48 Grand Total
5 Excellent 1 2 2 66
6 Good 6 4 3 3 2 4 84
7 Very Good 1 4 3 5 6 1 1 150
8 Grand Total 7 8 6 9 8 5 2 3 300
9
10
11
12
13
14
15
16
17
18
19
20
82 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
FIGURA 2.16 Informe de tabla dinmica final de los datos del restaurante
A B C D E F G
1
2
3 Count of Restaurant Column Labels
4 Row Labels 1019 2029 3039 4049 Grand Total
5 Good 42 40 2 1 84
6 Very Good 34 64 46 6 150
7 Excellent 2 14 28 25 66
8 Grand Total 78 118 76 28 300
9
10
11
12
13
14
15
16
17
18
19
20
21
A B C D E F G H
1 Week No. of Commercials Sales Volume
2 1 2 50
3 2 5 57
4 3 1 41
Scatter Diagram for the Stereo
5 4 3 54
6 5 4 54
and Sound Equipment Store
7 6 1 38 70
8 7 5 63 60
Sales ($100s)
9 8 3 48 50
40
10 9 4 59
30
11 10 2 46
20
12 10
13 0
14 0 1 2 3 4 5 6
15
Number of Commercials
16
17
18
19
20
Apndice 2.2 Uso de Excel para presentaciones tabulares y grficas 83
A B C D E F G H
1 Week No. of Commercials Sales Volume
2 1 2 50
3 2 5 57
4 3 1 41
Scatter Diagram for the Stereo
5 4 3 54
6 5 4 54
and Sound Equipment Store
7 6 1 38 70
8 7 5 63 60
Sales ($100s)
9 8 3 48 50
40
10 9 4 59
30
11 10 2 46
20
12 10
13 0
14 0 1 2 3 4 5 6
15
Number of Commercials
16
17
18
19
20
en la tabla 2.12. Vuelva a observar las figuras 2.17 y 2.18 a medida que se describan los pasos
correspondientes. Usaremos los datos del archivo llamado Stereo; las etiquetas Week, No. of
Commercials y Sales Volume se introdujeron en las celdas A1:C1 de la hoja de clculo. Los
datos de cada una de las 10 semanas se introdujeron en las celdas B2:C11. Los pasos siguientes
describen cmo usar las herramientas de graficacin de Excel para producir un diagrama de
dispersin de los datos.
Paso 1. Seleccione las celdas B2:C11.
Paso 2. Haga clic en la ficha Insert en la cinta de opciones.
Paso 3. En el grupo Charts, haga clic en Scatter.
Paso 4. Cuando la lista de subtipos de diagramas de dispersin se abra, haga clic en Scat-
ter with only Markers (la tabla de la esquina superior izquierda).
Paso 5. En el grupo Chart Layouts, haga clic en Layout 1.
Paso 6. Elija el Chart Title y remplcelo con Scatter Diagram for the Stereo and
Sound Equipment Store.
Paso 7. Seleccione Horizontal (Value) Axis Title y remplcelo con Number of Com-
mercials.
Paso 8. Seleccione Vertical (Value) Axis Title y remplcelo con Sales ($100s).
Paso 9. Haga clic con el botn secundario en Series 1 Legend Entry y haga clic en Delete.
La hoja de clculo de la figura 2.17 muestra el diagrama de dispersin producido por Excel. Los
pasos siguientes describen cmo aadir una lnea de tendencia.
Paso 1. Coloque el puntero del mouse sobre cualquier punto de datos en el diagrama de
dispersin y haga clic con el botn secundario para mostrar una lista de opciones.
Paso 2. Elija Add Trendline.
Paso 3. Cuando el cuadro de dilogo Format Trendline se abra:
Seleccione Trendline Options.
Elija Linear de la lista Trend/Regression Type.
Haga clic en Close.
84 Captulo 2 Estadstica descriptiva: presentaciones tabulares y grficas
La hoja de clculo de la figura 2.18 muestra el diagrama de dispersin con la lnea de ten-
dencia agregada.
Histograma
Recurrimos a los datos de duracin de la auditora en la tabla 2.4 para la explicacin. Comience
usando Data Set Manager para crear un conjunto de datos StatTools para esos datos por medio
del procedimiento descrito en el apndice del captulo 1. Los pasos siguientes generarn un
histograma.
Paso 1. Haga clic en la ficha StatTools en la cinta de opciones.
Paso 2. En Analyses Group, haga clic en Summary Graphs.
WEB archivo Paso 3. Elija la opcin Histogram.
Paso 4. Cuando el cuadro de dilogo StatToolsHistogram se abra:
Audit
En la seccin Variables, seleccione Audit Time.
En la seccin Options:
Introduzca 5 en el cuadro Number of Bins.
Introduzca 9.5 en el cuadro Histogram Minimum.
Introduzca 34.5 en el cuadro Histogram Maximum.
Elija Categorical en el cuadro X-Axis.
Elija Frequency en el cuadro Y-Axis.
Haga clic en OK.
Aparecer un histograma para los datos de duracin de la auditora parecido al de la figura 2.12.
La nica diferencia es que el histograma elaborado usando StatTools muestra los puntos medios
de clase en el eje horizontal.
Diagrama de dispersin
Para mostrar la elaboracin de un diagrama de dispersin con StatTools se utilizan los datos
WEB archivo de los estreos y los equipos de sonido de la tabla 2.12. Comience con Data Set Manager para
Stereo crear un conjunto de datos StatTools de estos datos mediante el procedimiento descrito en el
apndice del captulo 1. Los pasos siguientes generarn un diagrama de dispersin.
Paso 1. Haga clic en la ficha StatTools en la cinta de opciones.
Paso 2. En Analyses Group, haga clic en Summary Graphs.
Paso 3. Elija la opcin Scatterplot.
Paso 4. Cuando aparezca el cuadro de dilogo StatToolsScatterplot:
En la seccin Variables,
En la columna etiquetada X, seleccione No. of Commercials.
En la columna etiquetada Y, elija Sales Volume.
Haga clic en OK.
Aparecer un diagrama de dispersin parecido al de la figura 2.17.
CAPTULO
Chapter 3 [(H2F)]
3 85
Estadstica descriptiva:
medidas numricas
CONTENIDO Teorema de Chebyshev
ESTADSTICA EN LA PRCTICA: Regla emprica
SMALL FRY DESIGN Deteccin de observaciones
atpicas
3.1 MEDIDAS DE POSICIN
O LOCALIZACIN 3.4 ANLISIS EXPLORATORIO
Media DE DATOS
Mediana Resumen de cinco nmeros
Moda Diagrama de caja
Percentiles 3.5 MEDIDAS DE ASOCIACIN
Cuartiles ENTRE DOS VARIABLES
3.2 MEDIDAS DE VARIABILIDAD Covarianza
Rango Interpretacin de la covarianza
Rango intercuartlico Coeficiente de correlacin
Varianza Interpretacin del coeficiente
Desviacin estndar de correlacin
Coeficiente de variacin 3.6 MEDIA PONDERADA
3.3 MEDIDAS DE LA FORMA DE Y TRABAJO CON DATOS
LA DISTRIBUCIN, POSICIN AGRUPADOS
RELATIVA Y DETECCIN DE Media ponderada
OBSERVACIONES ATPICAS Datos agrupados
Forma de la distribucin
Valor z
86 Captulo 3 Estadstica descriptiva: medidas numricas
ESTADSTICA en LA PRCTICA
SMALL FRY DESIGN*
SANTA ANA, CALIFORNIA
Small Fry Design, fundada en 1997, es una compaa de
juguetes y accesorios que disea e importa productos para
nios. La lnea de artculos de la empresa incluye osos de
peluche, mviles, juguetes musicales, sonajas y cobertores
de seguridad, y presenta diseos de juguetes de alta calidad
para beb con un nfasis en los colores, las texturas y los
sonidos. Los productos se disean en Estados Unidos y se
fabrican en China.
Small Fry Design emplea a representantes independien-
tes para la venta de sus productos a minoristas de muebles
infantiles, tiendas de accesorios y ropa para nios, negocios
de regalos, tiendas departamentales exclusivas e importan-
tes compaas de ventas por catlogo. En la actualidad, los
productos de Small Fry Design se distribuyen en ms de
1 000 puntos de venta minoristas en todo Estados Unidos.
La administracin del flujo de efectivo es una de las
actividades ms importantes para la operacin diaria de
esta empresa. Garantizar que dicho flujo entrante sea su- Mvil Rey de la selva de Small Fry Design.
Joe-Higgins/South-Western.
ficiente para cumplir con las obligaciones de deudas tanto
corrientes como a corto plazo puede significar la diferencia
entre el xito y el fracaso. Un factor crtico en la adminis-
tracin del flujo de efectivo es el anlisis y control de las La interpretacin de estos datos estadsticos muestra que
cuentas por cobrar. Al medir el tiempo promedio de cobro el tiempo promedio de cobro de una factura es de 40 das.
y el valor monetario de las facturas pendientes, la geren- La mediana seala que la mitad de estos documentos per-
cia puede predecir la disponibilidad de efectivo y monito- manece pendiente 35 das o ms. La moda de 31 das, el
rear los cambios en el estado de las cuentas por cobrar. La tiempo de cobro de una factura ms frecuente, indica que
empresa estableci las metas siguientes: la antigedad pro- el lapso ms comn en que sta permanece pendiente es
medio de las facturas pendientes no debe exceder los 45 de 31 das. El resumen estadstico indica tambin que slo
das y el valor de las facturas con una antigedad mayor a 3% del valor de todas las cuentas por cobrar tiene un tiem-
60 das no debe exceder 5% del valor de todas las cuentas po de cobro de ms de 60 das. Con base en la informa-
por cobrar. cin estadstica, la gerencia qued satisfecha, dado que las
En un resumen reciente del estado de las cuentas por cuentas por cobrar y el flujo de efectivo entrante estaban
cobrar se proporcion la siguiente estadstica descriptiva bajo control.
para la antigedad de las facturas pendientes. En este captulo aprender a calcular e interpretar al-
Media 40 das gunas de las medidas estadsticas que utiliza Small Fry De-
Mediana 35 das sign. Adems de la media, la mediana y la moda, aprender
Moda 31 das otros datos de estadstica descriptiva, como el rango, la va-
rianza, la desviacin estndar, los percentiles y la corre-
lacin. Estas medidas numricas ayudan a la comprensin
* Los autores agradecen a John A. McCarthy, presidente de Small Fry e interpretacin de los datos.
Design, por proporcionar este artculo para Estadstica en la prctica.
En el captulo 2 se estudiaron las presentaciones tabulares y grficas utilizadas para resumir los
datos. En este captulo se presentan varias medidas numricas que proporcionan otras opcio-
nes para la misma tarea.
Primero se ver el desarrollo de medidas numricas para conjuntos de datos que constan
de una sola variable. Cuando un conjunto de datos contiene ms de una variable, las mismas
medidas numricas se calculan por separado para cada variable. Sin embargo, en el caso de dos
variables, se desarrollarn tambin medidas de la relacin entre stas.
3.1 Medidas de posicin o localizacin 87
Se presentan las medidas numricas de posicin, dispersin, forma y asociacin. Si las me-
didas se calculan para los datos de una muestra, se les llama estadstico muestral. Si se calculan
para los datos de una poblacin, se les llama parmetros poblacionales. En la inferencia esta-
dstica, un estadstico muestral se conoce como estimador puntual del parmetro poblacional
correspondiente. En el captulo 7 se ver con ms detalle el proceso de la estimacin puntual.
En los tres apndices del captulo se explica cmo se usan Minitab, Excel y StatTools para
calcular las medidas numricas descritas en el captulo.
!xi " x1 $ x2 $ . . . $ xn
46 54 42 46 32
La notacin x1, x2, x3, x4, x5 se utiliza para representar el nmero de estudiantes en cada uno de
los cinco grupos.
!xi x $ x2 $ x3 $ x4 $ x5 46 $ 54 $ 42 $ 46 $ 32
x" " 1 " " 44
n 5 5
El tamao de grupo de la media muestral es 44 estudiantes.
Otro ejemplo del clculo de una media muestral se da en la situacin siguiente. Suponga que
una oficina de colocacin de empleos a nivel universitario envi un cuestionario a una muestra
de licenciados en administracin de empresas recin egresados solicitando informacin sobre
88 Captulo 3 Estadstica descriptiva: medidas numricas
TABLA 3.1 Sueldos mensuales iniciales para una muestra de 12 licenciados en administracin
de empresas recin egresados
Monthly Monthly
Graduate Starting Salary ($) Graduate Starting Salary ($)
1 3 450 7 3 490
WEB archivo 2
3
3 550
3 650
8
9
3 730
3 540
StartSalary 4 3 480 10 3 925
5 3 355 11 3 520
6 3 310 12 3 480
los sueldos mensuales iniciales. La tabla 3.1 exhibe los datos reunidos. El sueldo mensual inicial
medio para la muestra de 12 licenciados en administracin de empresas se calcula como sigue:
!xi x $ x2 $ . . . $ x12
x" " 1
n 12
3 450 $ 3 550 $ . . . $ 3 480
"
12
42 480
" " 3 540
12
La ecuacin (3.1) ilustra cmo se calcula la media para una muestra con n observaciones. La
frmula para determinar la media de una poblacin es la misma, pero se usa una notacin dife-
rente para indicar que se est trabajando con toda la poblacin. El nmero de observaciones en
una poblacin se denota por N y el smbolo para la media poblacional es .
Mediana
La mediana es otra medida de ubicacin central; es el valor de en medio cuando los datos es-
tn acomodados en orden ascendente (del valor menor al valor mayor). Con un nmero impar
de observaciones, la mediana es el valor de en medio. Con un nmero par, no hay valor de en
medio. En este caso se sigue la convencin y la mediana se define como el promedio de los
valores de las dos observaciones de en medio. Por conveniencia, la definicin de la mediana se
replantea como sigue.
MEDIANA
Ordene los datos de forma ascendente (del valor menor al valor mayor).
a) Para un nmero impar de observaciones, la mediana es el valor de en medio.
b) Para un nmero par de observaciones, la mediana es el promedio de los dos va-
lores de en medio.
3.1 Medidas de posicin o localizacin 89
Esta definicin se aplica para calcular la mediana de los tamaos de grupo para la muestra
de cinco grupos de estudiantes universitarios. Al ordenar los datos de forma ascendente se ob-
tiene la lista siguiente.
32 42 46 46 54
Dado que n " 5 es impar, la mediana es el valor de en medio. Por tanto, la mediana del tamao
de grupo es 46 estudiantes. Aun cuando este conjunto de datos contiene dos observaciones
con valores de 46, cada una se trata de forma separada cuando los datos se acomodan en orden
ascendente.
Suponga adems que se calcula la mediana de los sueldos iniciales para los 12 licenciados
en administracin de empresas de la tabla 3.1. Primero se acomodan los datos en orden as-
cendente.
3 310 3 355 3 450 3 480 3 480 3 490 3 520 3 540 3 550 3 650 3 730 3 925
Los dos valores de en medio
Como n " 12 es par, se identifican los dos valores de en medio: la mediana es el promedio de
estos dos valores.
3 490 $ 3 520
Mediana " " 3 505
2
La mediana es la medida Aunque la media es la medida de posicin central de uso ms comn, en algunas situaciones
de posicin ms empleada se prefiere la mediana, ya que los valores de datos muy pequeos y muy grandes influyen en la
para los datos de los
media. Por ejemplo, suponga que uno de los licenciados recin graduados (tabla 3.1) tena un
ingresos anuales y el valor
de propiedad, debido a que sueldo inicial de $10 000 al mes (tal vez la empresa es propiedad de su familia). Si se cambia
algunos ingresos o valores el sueldo mensual inicial ms alto de la tabla 3.1 de $3 925 a $10 000 y se vuelve a calcular la
de propiedad muy grandes media, la media muestral pasa de $3 540 a $4 046. Sin embargo, la mediana de $3 505 permane-
pueden inflar la media. ce igual, ya que $3 490 y $3 520 siguen siendo los dos valores de en medio. Si el sueldo inicial
En tales casos, la mediana
es sumamente alto, la mediana proporciona una mejor medida de posicin central que la me-
es la medida preferida de
posicin central. dia. Al hacer una generalizacin, se afirma que siempre que un conjunto de datos contiene va-
lores extremos, la mediana suele ser la medida preferida de posicin central.
Moda
Una tercera medida de posicin es la moda. Se define de la manera siguiente.
MODA
Para ilustrar cmo identificar la moda, considere el tamao de grupo de la muestra de cinco
grupos de estudiantes universitarios. El nico valor que ocurre ms de una vez es el 46. Debido
a que se presenta con una frecuencia de 2, que es la frecuencia ms grande, se le considera la
moda. Como otro ejemplo, considere la muestra de sueldos iniciales de los licenciados en ad-
ministracin de empresas. El nico sueldo mensual inicial que ocurre ms de una vez es $3 480.
Dado que este valor tiene la frecuencia mayor, es la moda.
Hay situaciones en que la frecuencia mayor ocurre en dos o ms valores diferentes; cuando
esto sucede, existe ms de una moda. Si los datos contienen exactamente dos modas, se dice
que son bimodales. Si contienen ms de dos, se dice que son multimodales. En estos casos, la
moda casi nunca se presenta debido a que listar tres o ms no resulta particularmente til para
describir la posicin de los datos.
90 Captulo 3 Estadstica descriptiva: medidas numricas
Percentiles
Un percentil proporciona informacin sobre cmo se distribuyen los datos en el intervalo del
valor menor al valor mayor. Para datos que no contienen muchos valores repetidos, el percentil
p-simo los divide en dos partes. Alrededor de p por ciento de las observaciones tiene valores
menores que el percentil p-simo y cerca de (100 ! p) por ciento de las observaciones tiene
valores mayores que el percentil p-simo. ste se define formalmente del modo siguiente.
PERCENTIL
El percentil p-simo es un valor tal que por lo menos p por ciento de las observaciones
es menor o igual que este valor, y por lo menos (100 ! p) por ciento de las observacio-
nes es mayor o igual que este valor.
Los colegios y universidades suelen reportar los resultados de los exmenes de admisin en
trminos de percentiles. Por ejemplo, suponga que un solicitante obtiene una puntuacin bru-
ta de 54 en la parte verbal de un examen de admisin. Esta informacin no dice mucho acerca
del desempeo que este estudiante tuvo en relacin con otros que presentaron el mismo examen.
Sin embargo, si la puntuacin bruta de 54 corresponde al percentil 70, se sabe que aproxima-
damente 70% de los estudiantes obtuvo una puntuacin menor a la de esta persona y alrededor
de 30% alcanz una puntuacin mayor a la de esta persona.
El procedimiento siguiente se usa para calcular el p-simo percentil.
Paso 1. Ordene los datos de modo ascendente (del valor menor al valor mayor).
La ejecucin de estos Paso 2. Calcule un ndice i
pasos facilita el clculo
de percentiles. p
i" n
100
donde p es el percentil de inters y n es el nmero de observaciones.
Como ejemplo de este procedimiento, se determinar el percentil 85 para los datos de los
sueldos iniciales mensuales de la tabla 3.1.
Paso 1. Ordene los datos de modo ascendente.
3 310 3 355 3 450 3 480 3 480 3 490 3 520 3 540 3 550 3 650 3 730 3 925
Paso 2.
p 85
i" n" 12 " 10.2
100 100
Paso 3. Como i no es un entero, se redondea. La posicin del percentil 85 es el siguiente
entero mayor que 10.2, es decir, la posicin 11.
Observe de nuevo los datos: el percentil 85 es el valor de datos en la posicin 11, o 3 730.
3.1 Medidas de posicin o localizacin 91
Como otro ejemplo de este procedimiento, considere el clculo del percentil 50 para los
datos de los sueldos iniciales. Al aplicar el paso 2 se obtiene
50
i" 12 " 6
100
Dado que i es un entero, el paso 3b) establece que el percentil 50 es el promedio de los valores
sexto y sptimo; por tanto, el percentil 50 es (3 490 $ 3 520)/2 " 3 505. Observe que el percentil
50 coincide con la mediana.
Cuartiles
Los cuartiles son A menudo es recomendable dividir los datos en cuatro partes, cada una de las cuales contiene
sencillamente percentiles aproximadamente un cuarto, o 25% de las observaciones. La figura 3.1 muestra una distribucin
especficos; por tanto, los de datos dividida en cuatro partes. Los puntos de divisin se conocen como cuartiles y son de-
pasos para calcular
los percentiles se aplican
finidos como:
directamente en el clculo Q1 " primer cuartil, o percentil 25
de cuartiles.
Q2 " segundo cuartil, o percentil 50 (tambin la mediana)
Q3 " tercer cuartil, o percentil 75
Los datos sobre los sueldos iniciales mensuales se acomodan de nuevo en orden ascendente. Ya
se identific Q2, el segundo cuartil (mediana), como 3 505.
3 310 3 355 3 450 3 480 3 480 3 490 3 520 3 540 3 550 3 650 3 730 3 925
El clculo de los cuartiles Q1 y Q3 requiere el uso de la regla para obtener los percentiles 25 y
75. Estos clculos son los siguientes.
Para obtener Q1,
p 25
i" n" 12 " 3
100 100
Como i es un entero, el paso 3 b) indica que el primer cuartil, o percentil 25, es el promedio del
tercer y cuarto valores de los datos; por tanto, Q1 " (3 450 $ 3 480)/2 " 3 465.
Para obtener Q3,
p 75
i" n" 12 " 9
100 100
Una vez ms, dado que i es un entero, el paso 3b) indica que el tercer cuartil, o percentil 75, es el
promedio del noveno y dcimo valores de los datos; es decir, Q3 " (3 550 $ 3 650)/2 " 3 600.
Q1 Q2 Q3
Primer cuartil Segundo cuartil Tercer cuartil
(percentil 25) (percentil 50) (percentil 75)
(mediana)
92 Captulo 3 Estadstica descriptiva: medidas numricas
Los cuartiles dividen los datos de los sueldos iniciales en cuatro partes, de las cuales cada
una contiene 25% de las observaciones.
3 310 3 355 3 450 3 480 3 480 3 490 3 520 3 540 3 550 3 650 3 730 3 925
Los cuartiles se definieron como los percentiles 25, 50 y 75; de ah que se calculen de la mis-
ma manera que los percentiles. Sin embargo, a veces se usan otras convenciones para calcu-
larlos, por lo que los valores reales reportados para los cuartiles pueden variar ligeramente,
dependiendo de la convencin utilizada. No obstante, el objetivo de todos los procedimientos
es dividir los datos en cuatro partes iguales.
NOTAS Y COMENTARIOS
Cuando un conjunto de datos contiene valores extre- se obtiene al eliminar 5% de los valores menores y 5%
mos es preferible utilizar la mediana ms que la media de los valores mayores de los datos y luego calcular
como medida de la ubicacin central. Otra medida la media de los valores restantes. Si se usa la mues-
que se emplea a veces cuando hay valores extremos tra con n " 12 sueldos iniciales, 0.05(12) " 0.6. El
es la media recortada. sta se obtiene al eliminar un redondeo de este valor a 1 indica que la media recortada
porcentaje de los valores menores y mayores de un al 5% elimina el valor 1 menor y el valor 1 mayor. La
conjunto de datos y luego calcular la media de los va- media recortada al 5% utilizando las 10 observaciones
lores restantes. Por ejemplo, la media recortada al 5% restantes es 3 524.50.
Ejercicios
Mtodos
1. Considere una muestra con los datos 10, 20, 12, 17 y 16. Calcule la media y la mediana.
2. Asuma una muestra con los datos 10, 20, 21, 17, 16 y 12. Calcule la media y la mediana.
3. Considere una muestra con los datos 27, 25, 20, 15, 30, 34, 28 y 25. Calcule los percentiles 20,
25, 65 y 75.
4. Considere una muestra con los datos 53, 55, 70, 58, 64, 57, 53, 69, 57, 68 y 53. Calcule la me-
AUTO evaluacin dia, la mediana y la moda.
Aplicaciones
5. El ndice Dow Jones de viajes inform cunto pagan los viajeros de negocios por una noche en
una habitacin de hotel en las principales ciudades estadounidenses (The Wall Street Journal,
16 de enero de 2004). Las tarifas promedio de una habitacin por noche para 20 ciudades son
las siguientes:
Atlanta $163 Minneapolis $125
Boston 177 New Orleans 167
Chicago 166 New York 245
Cleveland 126 Orlando 146
WEB archivo Dallas 123 Phoenix 139
Denver 120 Pittsburgh 134
Hotels
Detroit 144 San Francisco 167
Houston 173 Seattle 162
Los ngeles 160 St. Louis 145
Miami 192 Washington, D.C. 207
3.1 Medidas de posicin o localizacin 93
e) Cul es el donativo total para estas 10 universidades? stas representan 2.3% de los 435
colegios y universidades encuestados, qu porcentaje del total de $413 mil millones en
donativos recibieron?
f) The Wall Street Journal report que durante un periodo reciente de cinco meses, un de-
clive econmico ocasion que los donativos disminuyeran 23%. Cul es la estimacin
en dlares de la reduccin en los donativos totales que recibieron estas 10 universidades?
Dada esta situacin, cules son algunos pasos que usted esperara que los administradores
universitarios tomaran en consideracin?
8. El costo de las compras que realizaron los consumidores, como vivienda unifamiliar, gaso-
AUTO evaluacin lina, servicios de Internet, declaracin de impuestos y hospitalizacin fue difundido en un ar-
tculo de The Wall Street Journal (2 de enero de 2007). Los datos muestrales tpicos sobre
el costo de la declaracin de impuestos por servicios tales como H&R Block se muestran en
seguida.
Casas usadas 315.5 202.5 140.2 181.3 470.2 169.9 112.8 230.0 177.5
Casas nuevas 275.9 350.2 195.8 525.0 225.3 215.5 175.0 149.5
2.6 3.1 2.3 2.7 3.4 0.9 2.6 2.8 2.0 2.4
WEB archivo 2.7 2.7 2.7 2.9 3.1 2.8 1.7 2.3 2.8 3.5
0.4 2.5 2.2 1.9 1.8 1.1 2.0 2.1 2.5 0.5
Economy
a) Cul es el pronstico mnimo para el cambio porcentual en el PIB? Cul es el pronstico
mximo?
b) Calcule la media, la mediana y la moda.
c) Calcule el primer y el tercer cuartiles.
d) Los economistas proporcionaron una perspectiva optimista o pesimita de la economa es-
tadounidense? Comente.
3.2 Medidas de variabilidad 95
11. En un experimento automotriz sobre millaje y consumo de gasolina se aplic una prueba de
circulacin a 13 automviles a lo largo de 300 millas tanto en ciudad como en autopista. Los
datos siguientes se obtuvieron para el rendimiento en millas por galn.
Ciudad 16.2 16.7 15.9 14.4 13.2 15.3 16.8 16.0 16.1 15.3 15.2 15.3 16.2
Autopista 19.4 20.6 18.3 18.6 19.2 17.4 17.2 18.6 19.0 21.1 19.4 18.5 18.7
Use la media, la mediana y la moda para sealar cul es la diferencia en el rendimiento para la
circulacin en ciudad y en autopista.
12. Walt Disney Company compr Pixar Animation Studios, Inc. por 7 400 millones de dlares (sitio
web de CNN Money, 24 de enero de 2006). Las pelculas animadas producidas por Disney y Pixar
durante los 10 aos previos a la compra se listan en la tabla siguiente. Los ingresos de taquilla
(Revenue) se proporcionan en millones de dlares. Calcule el ingreso total, la media, la mediana
y los cuartiles para comparar el xito de taquilla de las pelculas producidas por ambas empre-
sas. Los estadsticos sugieren por lo menos una de las razones por las que Disney se interes
en comprar Pixar? Comente.
Revenue Revenue
Disney Movies ($millions) Pixar Movies ($millions)
Pocahontas 346 Toy Story 362
Hunchback of Notre Dame 325 A Bugs Life 363
Hercules 253 Toy Story 2 485
Mulan 304 Monsters, Inc. 525
Tarzan 448 Finding Nemo 865
WEB archivo Dinosaur 354 The Incredibles 631
The Emperors New Groove 169
Disney
Lilo & Stitch 273
Treasure Planet 110
The Jungle Book 2 136
Brother Bear 250
Home on the Range 104
Chicken Little 249
FIGURE 3.2 Datos histricos que muestran el nmero de das requerido para surtir los pedidos
0.5 0.5
0.4 0.4
Frecuencia relativa
Frecuencia relativa
Dawson J.C. Clark
Supply, Inc. Distributors
0.3 0.3
0.2 0.2
0.1 0.1
9 10 11 7 8 9 10 11 12 13 14 15
Nmero de das de trabajo Nmero de das de trabajo
dentro de lo programado. Este ejemplo ilustra una situacin en la que la variabilidad en los
tiempos de entrega puede ser una consideracin primordial al seleccionar a un proveedor. Para
la mayora de los agentes de compra, la menor variabilidad mostrada por Dawson Supply,
Inc. lo hara el preferido.
Ahora se ver a la revisin de algunas medidas de variabilidad de uso comn.
Rango
La medida de variabilidad ms sencilla es el rango.
RANGO
Revise los datos sobre los sueldos iniciales para los licenciados en administracin de em-
presas recin egresados que hemos venido trabajando de la tabla 3.1. El sueldo inicial mayor es
de 3 925 y el menor es de 3 310. El rango es 3 925 ! 3 310 " 615.
Aun cuando el rango es la medida de variabilidad ms fcil de calcular, pocas veces se
usa como la nica medida debido a que se basa slo en dos de las observaciones y, por tanto,
los valores extremos influyen mucho en l. Suponga que uno de los licenciados recin egre-
sados recibe un sueldo inicial de $10 000 al mes. En este caso, el rango sera 10 000 ! 3 310 "
6 690 en vez de 615. Este valor mayor para el rango no describe con claridad la variabilidad
de los datos debido a que 11 de los 12 sueldos iniciales se agrupan estrechamente entre 3 310
y 3 730.
Rango intercuartlico
Una medida de la variabilidad que supera la dependencia sobre los valores extremos es el
rango intercuartlico (RIC). Esta medida de la variabilidad es la diferencia entre el ter-
cer cuartil, Q3, y el primer cuartil, Q1. En otras palabras, el rango intercuartlico es el rango
de la media de 50% de los datos.
3.2 Medidas de variabilidad 97
RANGO INTERCUARTLICO
Para los datos sobre los sueldos mensuales iniciales, los cuartiles son Q3 " 3 600 y Q1 "
3 465. Por tanto, el rango intercuartlico es 3 600 ! 3 465 " 135.
Varianza
La varianza es una medida de la variabilidad que utiliza todos los datos. Se basa en la diferen-
cia entre el valor de cada observacin (xi ) y la media. La diferencia entre cada xi y la media (x
para una muestra; para una poblacin) se llama desviacin respecto de la media. Para una
muestra, una desviacin respecto de la media se escribe (xi ! x); para una poblacin, se es-
cribe (xi ! ). Si se desea calcular la varianza, las desviaciones respecto de la media se elevan
al cuadrado.
Si los datos pertenecen a una poblacin, el promedio de las desviaciones elevadas al cua-
drado se llama varianza poblacional, la cual se denota por medio del smbolo griego 2. Para
una poblacin de N observaciones con una media poblacional , la definicin de la varianza
poblacional es la siguiente.
VARIANZA POBLACIONAL
!(xi ! !)2
2 " (3.4)
N
En la mayora de las aplicaciones estadsticas, los datos que se analizan provienen de una
muestra. Cuando se calcula una varianza muestral, a menudo lo que interesa es usarla para esti-
mar la varianza poblacional 2. Aunque una explicacin detallada est ms all del alcance de
este libro, puede mostrarse que si la suma de las desviaciones respecto de la media al cuadrado
se divide entre n ! 1, y no entre n, la varianza muestral resultante proporciona un estimador
insesgado de la varianza poblacional. Por esta razn, la varianza muestral, denotada por s 2, se
define como sigue.
Para ilustrar el clculo de la varianza muestral se usarn los datos sobre los tamaos de
grupo de la muestra de cinco grupos de estudiantes universitarios presentada en la seccin
3.1. Un resumen de los datos, que incluye el clculo de las desviaciones respecto de la media
y los cuadrados de las desviaciones respecto de la media, se aprecia en la tabla 3.2. La suma de
los cuadrados de estas desviaciones es !(xi ! x )2 " 256. Por ende, si n ! 1 " 4, la varianza
muestral es
Antes de proseguir, observe que las unidades asociadas con la varianza muestral suelen causar
confusin. Debido a que los valores que se suman para calcular la varianza, (xi ! x)2, estn
elevados al cuadrado, las unidades asociadas con la varianza muestral tambin estn elevadas
98 Captulo 3 Estadstica descriptiva: medidas numricas
al cuadrado. Por ejemplo, la varianza muestral para los datos del tamao de grupo es s 2 " 64
(estudiantes) 2. Las unidades cuadradas asociadas con la varianza dificultan obtener una com-
La varianza es til para prensin e interpretacin intuitiva del valor numrico de sta. Se recomienda considerarla como
comparar la variabilidad una medida til en la comparacin de la cantidad de variabilidad para dos o ms variables.
de dos o ms variables. En una comparacin de las variables, aquella con la varianza ms grande muestra la mayor
variabilidad. Una interpretacin del valor de la varianza tal vez no sea necesaria.
Como otra ilustracin del clculo de una varianza muestral, considere los sueldos iniciales
listados en la tabla 3.1 para los 12 licenciados en administracin de empresas. En la seccin 3.1
se observa que la media muestral de los sueldos es de 3 540. El clculo de la varianza muestral
(s 2 " 27 440.91) se muestra en la tabla 3.3.
TABLA 3.3 Clculo de la varianza muestral para los datos de los sueldos iniciales
En las tablas 3.2 y 3.3 se aprecian la suma de las desviaciones sobre la media y la suma de
las desviaciones cuadradas sobre la media. Para cualquier conjunto de datos, la suma de las des-
viaciones sobre la media siempre ser igual a cero. Note que en esas tablas, !(xi ! x) " 0. Las
desviaciones positivas y negativas se cancelan entre s, ocasionando que la suma de las desvia-
ciones sobre la media sea igual a cero.
Desviacin estndar
La desviacin estndar se define como la raz cuadrada positiva de la varianza. Siguiendo la
notacin que se adopt para las varianzas muestral y poblacional, se usa s para denotar la des-
viacin estndar muestral y para denotar la desviacin estndar poblacional. La desviacin
estndar se deriva de la varianza de la manera siguiente.
DESVIACIN ESTNDAR
La desviacin estndar
muestral s es el estimador
Desviacin estndar muestral " s " "s 2 (3.6)
de la desviacin estndar Desviacin estndar poblacional " " " 2
(3.7)
poblacional .
Recuerde que la varianza muestral para los tamaos de grupo de la muestra de cinco grupos de
estudiantes es s 2 " 64. Por tanto, la desviacin estndar muestral es s " "64 " 8. Para los
datos sobre los sueldos iniciales, la desviacin estndar muestral es s " "27 440.91 " 165.65.
Qu se gana al convertir la varianza en la desviacin estndar correspondiente? Recuerde
La desviacin estndar es que las unidades asociadas con la varianza estn elevadas al cuadrado. Por ejemplo, la varianza
ms fcil de interpretar que muestral para los datos sobre los sueldos iniciales de los licenciados en administracin de em-
la varianza debido a que
presas recin egresados es s 2 " 27 440.91 (dlares) 2. Debido a que la desviacin estndar es la
se mide en las mismas
unidades que los datos. raz cuadrada de la varianza, las unidades de esta ltima, los dlares al cuadrado, se convierten
en dlares en la desviacin estndar. Por consiguiente, la desviacin estndar de los datos de
los sueldos iniciales es $165.65. En otras palabras, sta se mide en las mismas unidades que los
datos originales; por esta razn la desviacin estndar se compara ms fcilmente con la media
y con otros estadsticos que se miden en las mismas unidades que los datos originales.
Coeficiente de variacin
En algunas situaciones nos interesa la estadstica descriptiva que indique qu tan grande es la
desviacin estndar con respecto a la media. Esta medida se llama coeficiente de variacin, y
El coeficiente de variacin se expresa por lo general como un porcentaje.
es una medida relativa de
la variabilidad; mide la
desviacin estndar con
COEFICIENTE DE VARIACIN
respecto a la media.
desviacin estndar
% 100 % (3.8)
media
Para los datos de los tamaos de grupo, se encontr una media muestral de 44 y una des-
viacin estndar muestral de 8. El coeficiente de variacin es [(8/44) % 100]% " 18.2%. Ex-
presado con palabras, el coeficiente de variacin indica que la desviacin estndar muestral es
18.2% del valor de la media muestral. Para los datos de los sueldos iniciales con una media
muestral de 3 540 y una desviacin estndar muestral de 165.65, el coeficiente de variacin,
[(165.65/3 540) % 100]% " 4.7%, seala que la desviacin estndar muestral es slo 4.7% del
valor de la media muestral. En general, el coeficiente de variacin es un estadstico til para
comparar la variabilidad de las variables que tienen tanto desviaciones estndar como medias
distintas.
100 Captulo 3 Estadstica descriptiva: medidas numricas
NOTAS Y COMENTARIOS
1. El software y las hojas de clculo para estadstica se redondean, se pueden introducir errores en la
se usan para obtener los estadsticos descriptivos calculadora al obtener la varianza y la desviacin
presentados en este captulo. Una vez que los da- estndar. Para reducir los errores de redondeo, se
tos se introducen en una hoja de clculo, bastan recomienda trabajar por lo menos con seis dgitos
unos comandos sencillos para generar el resultado significativos durante los clculos intermedios. La
deseado. En los tres apndices del captulo se ex- varianza o la desviacin estndar resultantes pue-
plica cmo usar Minitab, Excel y StatTools para den redondearse despus a menos dgitos.
obtener estadsticos descriptivos. 4. Una frmula opcional para el clculo de la varian-
2. La desviacin estndar es una medida de uso co- za muestral es
mn para el riesgo asociado con la inversin en
acciones y fondos de acciones (BusinessWeek, ! x 2i ! n x 2
17 de enero de 2000). Proporciona una medida s2 "
de cmo fluctan los rendimientos mensuales en
n!1
torno al rendimiento medio a largo plazo.
3. Cuando los valores de la media muestral x y los va- donde !x 2i " x 21 $ x 22 $ . . . x 2n.
lores de los cuadrados de las desviaciones (xi ! x)2
Ejercicios
Mtodos
13. Considere una muestra con los datos 10, 20, 12, 17 y 16. Calcule el rango y el rango intercuar-
tlico.
14. Asuma una muestra con los datos 10, 20, 12, 17 y 16. Determine la varianza y la desviacin
estndar.
15. Considere una muestra con los datos 27, 25, 20, 15, 30, 34, 28 y 25. Calcule el rango, el rango
AUTO evaluacin intercuartlico, la varianza y la desviacin estndar.
Aplicaciones
16. Las puntuaciones que obtuvo un jugador de boliche en seis partidos fueron 182, 168, 184,
AUTO evaluacin 190, 170 y 174. Usando estos datos como una muestra, calcule los estadsticos descriptivos
siguientes:
a) Rango c) Desviacin estndar
b) Varianza d) Coeficiente de variacin
17. Un sistema de teatro en casa (home theater) es la manera ms fcil y econmica de propor-
cionar sonido ambiental para un centro de entretenimiento en el hogar. Enseguida se presenta
una muestra de precios (Consumer Reports Buying Guide, 2004) para modelos con y sin re-
productor de dvd.
a) Calcule el precio medio de los modelos con reproductor de DVD y el precio medio de los
modelos sin reproductor de DVD. Cul es el precio adicional que se paga por tener un
reproductor de DVD en el sistema de teatro en casa?
b) Calcule el rango, la varianza y la desviacin estndar de las dos muestras. Qu le dice esta
informacin sobre los precios de los modelos con y sin reproductor de DVD?
3.2 Medidas de variabilidad 101
18. Las tarifas de renta de automviles por da para una muestra de siete ciudades del este de Esta-
dos Unidos son las siguientes (The Wall Street Journal, 16 de enero de 2004).
22. La Federacin Nacional de Minoristas inform que los estudiantes universitarios de primer
WEB archivo ao gastan ms en artculos de regreso a clases que cualquier otro grupo universitario (USA
BackToSchool
Today, 4 de agosto de 2006). El archivo BackToSchool contiene una base de datos muestra-
les que compara los gastos de regreso a clases de 25 estudiantes de primer ao y 20 del l-
timo ao.
a) Cul es el gasto medio de regreso a clases de cada grupo? Los datos son consistentes con
el informe de la Federacin Nacional de Minoristas?
b) Cul es el rango de los gastos de cada grupo?
c) Cul es el rango intercuartlico para cada grupo?
d) Cul es la desviacin estndar de los gastos de cada grupo?
e) Qu gastos de regreso a clases muestran ms variacin: los de los estudiantes de primer
ao o los de los universitarios de ltimo ao?
23. Las puntuaciones anotadas por un golfista amateur en el campo de golf de Bonita Fairways, en
Bonita Springs, Florida, durante 2005 y 2006 son los siguientes.
Temporada 2005 74 78 79 77 75 73 75 77
Temporada 2006 71 70 75 77 85 80 71 79
a) Use la media y la desviacin estndar para evaluar el desempeo del golfista durante el
periodo de dos aos.
b) Cul es la principal diferencia en su desempeo entre 2005 y 2006? Qu mejora, si la
hay, puede verse en las puntuaciones de 2006?
24. Los corredores de un equipo de atletismo universitario registraron los siguientes tiempos para
los carreras de cuarto de milla y de milla (los tiempos estn en minutos).
Despus de ver esta muestra de tiempos, uno de los entrenadores coment que los corredores
de cuarto de milla registraron tiempos ms consistentes. Utilice la desviacin estndar y el
coeficiente de variacin para resumir la variabilidad de los datos. El uso del coeficiente de
variacin indica que el comentario del entrenador es correcto?
Forma de la distribucin
En la figura 3.3 aparecen cuatro histogramas elaborados a partir de distribuciones de frecuen-
cia relativa. Los histogramas A y B estn moderadamente sesgados. El A est sesgado a la iz-
quierda; su sesgo es !0.85. El B est sesgado a la derecha; su sesgo es $0.85. El histograma C
es simtrico; su sesgo es cero. El D est muy sesgado a la derecha; su sesgo es 1.62. La frmula
empleada para calcular el sesgo es un tanto compleja.1 Sin embargo, ste se obtiene fcilmente
1
La frmula para el sesgo de datos muestrales es:
n xi ! x 3
Sesgo "
(n ! 1)(n ! 2) ! s
3.3 Medidas de la forma de la distribucin, posicin relativa y deteccin de observaciones... 103
0.3 0.3
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
utilizando software para estadstica. Para datos sesgados a la izquierda, el sesgo es negativo;
para datos sesgados a la derecha, el sesgo es positivo. Si los datos son simtricos, el sesgo es
cero.
En una distribucin simtrica, la media y la mediana son iguales. Cuando los datos estn ses-
gados positivamente, la media por lo general ser mayor que la mediana; cuando estn sesgados
negativamente, la media ser menor que la mediana. Los datos usados para construir el histo-
grama D corresponden a las compras de los clientes de una tienda de ropa femenina. El monto
medio de compra es $77.60 y la mediana del monto de compra es $59.70. Los pocos montos de
compra grandes tienden a incrementar la media, mientras que a la mediana no le afectan. Cuando
los datos estn muy sesgados, se prefiere la mediana como medida de ubicacin.
Valor z
Adems de las medidas de posicin, variabilidad y forma, tambin interesa la posicin relativa
de los valores dentro de un conjunto de datos. Las medidas de posicin relativa ayudan a deter-
minar a qu distancia de la media est un valor determinado.
A partir de la media y la desviacin estndar se puede determinar la posicin relativa de
cualquier observacin. Suponga que se tiene una muestra de n observaciones, con los valores
104 Captulo 3 Estadstica descriptiva: medidas numricas
denotados por x1, x 2, . . . , xn. Asimismo, suponga que la media muestral, x, y la desviacin es-
tndar muestral, s, ya se calcularon. Asociado con cada valor, xi, hay otro valor llamado valor z.
La ecuacin (3.9) muestra cmo se calcula la puntuacin z para cada xi.
VALOR z
xi " x
zi ! (3.9)
s
Donde
zi ! valor z para xi
x ! media muestral
s ! desviacin estndar muestral
El valor z se llama valor estandarizado. El valor z, zi, puede interpretarse como el nmero
de desviaciones estndar que xi se encuentra de la media x. Por ejemplo, z1 ! 1.2 indicara que
x1 es 1.2 desviaciones estndar mayor que la media muestral. De modo parecido, z 2 ! "0.5
indicara que x 2 es 0.5, o 1/2 desviaciones estndar menor que la media muestral. Un valor z
mayor que cero ocurre para observaciones con un valor mayor que la media, y un valor z me-
nor que cero ocurre para observaciones con un valor menor que la media. Un valor z de cero
indica que el valor de la observacin es igual a la media.
El valor z para cualquier observacin puede interpretarse como una medida de la posicin
relativa de la observacin en un conjunto de datos. Por tanto, se dice que las observaciones de
dos conjuntos de datos diferentes con el mismo valor z tienen la misma posicin relativa en
trminos de que presentan igual nmero de desviaciones estndar de la media.
Los valores z para los datos de los tamaos de grupo se calculan en la tabla 3.4. Recuerde
la media muestral previamente calculada, x ! 44, y la desviacin estndar muestral, s ! 8. El
valor z de "1.50 de la quinta observacin indica que sta es la ms alejada de la media: est
1.50 desviaciones estndar por debajo de la media.
Teorema de Chebyshev
El teorema de Chebyshev permite hacer afirmaciones acerca de la proporcin de los valo-
res de datos que deben estar dentro de un nmero especfico de desviaciones estndar de la
media.
TEOREMA DE CHEBYSHEV
Por lo menos (1 " 1/z 2 ) de los valores de datos debe estar dentro de z desviaciones
estndar de la media, donde z es cualquier valor mayor que 1.
Regla emprica
La regla emprica se Una de las ventajas del teorema de Chebyshev estriba en que se aplica a cualquier conjunto
basa en la distribucin de de datos sin importar su forma de distribucin. De hecho, podra usarse con cualquiera de las
probabilidad normal, la cual
distribuciones de la figura 3.3. Sin embargo, en muchas aplicaciones prcticas los conjuntos de
se estudia en el captulo 6.
La distribucin normal datos exhiben una distribucin simtrica con forma de pila o de campana, como se aprecia en
se utiliza ampliamente la figura 3.4. Cuando se piensa que los datos se aproximan a esta distribucin, la regla emprica
en todo el libro. se usa para determinar el porcentaje de valores de datos que deben estar dentro de un nmero
especfico de desviaciones estndar de la media.
REGLA EMPRICA
Por ejemplo, los envases de detergente lquido se llenan automticamente en una lnea de
produccin. Los pesos de llenado suelen tener una distribucin en forma de campana. Si el peso
medio de llenado es de 16 onzas y la desviacin estndar de 0.25 onzas, se utiliza la regla em-
prica para formular las conclusiones siguientes.
Aproximadamente 68% de los envases llenos pesar entre 15.75 y 16.25 onzas (dentro
de una desviacin estndar de la media).
Aproximadamente 95% de los envases llenos pesar entre 15.50 y 16.50 onzas (den-
tro de dos desviaciones estndar de la media).
Casi todos los envases llenos pesarn entre 15.25 y 16.75 onzas (dentro de tres desvia-
ciones estndar de la media).
NOTAS Y COMENTARIOS
Por ejemplo, la regla emprica permite afirmar que confirmar su validez. En un estudio grande no es
aproximadamente 95% de los valores de datos es- raro que se cometan errores en el registro de los
tar dentro de dos desviaciones estndar de la me- valores de datos o al introducirlos en una compu-
dia; el teorema de Chebyshev slo permite concluir tadora. La identificacin de las observaciones es
que por lo menos 75% de estos valores estar den- una herramienta empleada para verificar la validez
tro de ese intervalo. de los datos.
2. Antes de analizar un conjunto de datos, los exper-
tos en estadstica efectan varias revisiones para
Ejercicios
Mtodos
25. Considere una muestra con los datos 10, 20, 12, 17 y 16. Calcule el valor z de cada una de estas
cinco observaciones.
26. Suponga una muestra con una media de 500 y una desviacin estndar de 100. Cules son los
valores z de los datos siguientes: 520, 650, 500, 450 y 280?
27. Considere una muestra con una media de 30 y una desviacin estndar de 5. Utilice el teore-
AUTO evaluacin ma de Chebyshev para determinar el porcentaje de datos que se encuentra dentro de cada uno
de los rangos siguientes.
a) 20 a 40
b) 15 a 45
c) 22 a 38
d) 18 a 42
e) 12 a 48
28. Suponga que los datos tienen una distribucin con forma de campana, una media de 30 y una
desviacin estndar de 5. Use la regla emprica para determinar el porcentaje de los datos que
est dentro de cada uno de los rangos siguientes.
a) 20 a 40
b) 15 a 45
c) 25 a 35
Aplicaciones
AUTO evaluacin 29. Los resultados de una encuesta nacional revelaron que, en promedio, los adultos duermen 6.9
horas por noche. Imagine que la desviacin estndar es de 1.2 horas.
a) Use el teorema de Chebyshev para calcular el porcentaje de personas que duermen entre
4.5 y 9.3 horas.
b) Con el teorema de Chebyshev calcule ahora el porcentaje que duerme entre 3.9 y 9.9 horas.
c) Suponga que el nmero de horas de sueo sigue una distribucin con forma de campa-
na. Utilice la regla emprica para calcular el porcentaje de personas que duerme entre 4.5
y 9.3 horas por da. Cmo se compara este resultado con el valor obtenido con el teorema
de Chebyshev en el inciso a)?
30. La Oficina de Informacin Energtica report que el precio medio por galn de gasolina de
grado regular es de $2.05 (Energy Information Administration, mayo de 2009). Suponga que
la desviacin estndar es $0.10 y que el precio al detalle (o al menudeo) por galn tiene una
distribucin con forma de campana.
a) Qu porcentaje de gasolina de grado regular se vendi entre $1.95 y $2.15 por galn?
b) Qu porcentaje se vendi entre $1.95 y $2.25 por galn?
c) Qu porcentaje de gasolina de grado regular se vendi por ms de $2.25 por galn?
31. El promedio nacional para la seccin de matemticas del examen de aptitudes escolares (Co-
llege Boards Scholastic Aptitude Test, sat) es 515 (The World Almanac, 2009). El Consejo
Universitario vuelve a escalar en forma peridica las calificaciones del examen de tal mane-
ra que la desviacin estndar sea aproximadamente 100. Responda las preguntas siguientes
usando una distribucin con forma de campana y la regla emprica para las calificaciones del
examen verbal.
108 Captulo 3 Estadstica descriptiva: medidas numricas
a) Qu porcentaje de estudiantes obtuvo una calificacin en el sat verbal mayor que 615?
b) Qu porcentaje obtuvo una calificacin en el sat verbal mayor que 715?
c) Qu porcentaje de alumnos logr una calificacin entre 415 y 515?
d) Qu porcentaje obtuvo una calificacin entre 315 y 615?
32. Los altos costos del mercado de bienes races en California han ocasionado que las familias
que no pueden darse el lujo de comprar casas ms grandes consideren los cobertizos de los pa-
tios traseros como una opcin de ampliacin. Muchos estn usando las estructuras de sus patios
para construir sus estudios, salas de arte y reas de pasatiempos, as como para almacenamiento
adicional. El precio medio de una estructura de tablillas de madera para patio trasero hecha a
la medida es de $3 100 (Newsweek, 29 de septiembre de 2003). Suponga que la desviacin
estndar es $1 200.
a) Cul es el valor z para una estructura de patio trasero que cuesta $2 300?
b) Cul es el valor z para una estructura que cuesta $4 900?
c) Interprete los valores z en los incisos a) y b). Comente si alguna debe considerarse una
observacin atpica.
d) El artculo de Newsweek describi una combinacin de oficina en el cobertizo del patio
trasero construida con $13 000 en Albany, California. Esta estructura debe considerarse
una observacin atpica? Explique por qu.
33. Florida Power & Light (FP&L) Company ha gozado de la reputacin de reparar rpidamente
un sistema elctrico despus de las tormentas. Sin embargo, durante las temporadas de hu-
racanes de 2004 y 2005 la realidad fue otra: el mtodo comprobado de la empresa para las
reparaciones de emergencia ya no fue lo suficientemente bueno (The Wall Street Journal, 16 de
enero de 2006). Los datos siguientes muestran los das requeridos para restablecer el servicio
elctrico despus de siete huracanes durante los aos de referencia.
Con base en esta muestra de siete huracanes, calcule los estadsticos descriptivos siguientes.
a) Media, mediana y moda.
b) Rango y desviacin estndar.
c) Vilma debe considerarse una observacin atpica en trminos de los das requeridos para
restablecer el servicio elctrico?
d) Los siete huracanes ocasionaron 10 millones de interrupciones en el servicio a los clien-
tes. Los estadsticos indican que FP&L debe considerar la necesidad de mejorar su m-
todo de reparaciones del sistema elctrico? Comente.
34. Una muestra de puntuaciones de 10 partidos de basquetbol colegial de la ncaa proporcion
los datos siguientes (USA Today, 26 de enero de 2004).
Winning
Winning Team Points Losing Team Points Margin
Arizona 90 Oregon 66 24
Duke 85 Georgetown 66 19
Florida State 75 Wake Forest 70 5
WEB archivo Kansas 78 Colorado 57 21
NCAA Kentucky 71 Notre Dame 63 8
Louisville 65 Tennessee 62 3
Oklahoma State 72 Texas 66 6
3.4 Anlisis exploratorio de datos 109
Winning
Winning Team Points Losing Team Points Margin
Purdue 76 Michigan State 70 6
Stanford 77 Southern Cal 67 10
Wisconsin 76 Illinois 56 20
a) Calcule la media y la desviacin estndar de los puntos anotados por el equipo ganador.
b) Suponga que los puntos anotados por los equipos triunfadores en todos los partidos de la
NCAA siguen una distribucin con forma de campana. Utilizando la media y la desviacin
estndar obtenidas en el inciso a), estime el porcentaje de los partidos de la NCAA en los
cuales el equipo ganador anota 84 puntos o ms. Calcule el porcentaje de los partidos de
la NCAA en los cuales el equipo triunfador anota ms de 90 puntos.
c) Calcule la media y la desviacin estndar del margen de victoria. Los datos contienen
observaciones atpicas? Explique por qu.
35. Consumer Reports publica reseas y calificaciones de una variedad de productos en su sitio
web. A continuacin se presenta una muestra de 20 sistemas de bocinas y sus calificaciones,
las cuales varan en una escala de 1 a 5, en la que 5 es la mejor.
La manera ms fcil de elaborar un resumen de cinco nmeros es colocar primero los da-
tos en orden ascendente. Una vez hecho esto es fcil identificar el valor menor, los tres cuarti-
les y el valor mayor. Los sueldos mensuales de inicio mostrados en la tabla 3.1 para la muestra
de 12 licenciados en administracin de empresas recin egresados se repiten aqu en orden
ascendente.
3 310 3 355 3 450 3 480 3 480 3 490 3 520 3 540 3 550 3 650 3 730 3 925
Q1 ! 3 465 Q2 ! 3 505 Q3 ! 3 600
(mediana)
La mediana de 3 505 y los cuartiles Q1 ! 3 465 y Q3 ! 3 600 se calcularon en la seccin 3.1.
Al revisar los datos se observa un valor menor de 3 310 y un valor mayor de 3 925. Por tanto, el
resumen de cinco nmeros para los datos de los sueldos iniciales es 3 310, 3 465, 3 505, 3 600 y
3 925. Entre los nmeros adyacentes de un resumen de cinco nmeros se encuentra aproxima-
damente un cuarto, o 25%, de las observaciones.
Diagrama de caja
Un diagrama de caja es un resumen grfico de los datos basado en un resumen de cinco n-
meros. La clave para elaborar de un diagrama de caja es el clculo de la mediana y los cuartiles
Q1 y Q3. El rango intercuartlico, RIC ! Q3 " Q1, tambin se utiliza. En la figura 3.5 se aprecia
el diagrama de cuadro de los datos de los sueldos mensuales iniciales. Los pasos que se siguen
para elaborarlo se presentan a continuacin.
1. Se traza una caja con sus extremos ubicados en el primer y tercer cuartiles. Para los
datos de los sueldos iniciales, Q1 ! 3 465 y Q3 ! 3 600. Este cuadro contiene la mi-
tad, 50%, de los datos.
2. Se traza una lnea vertical en el cuadro donde se ubica la mediana (3 505 para los da-
tos de los sueldos iniciales).
3. Al usar el rango intercuartlico, RIC ! Q3 " Q1, se localizan los lmites. Para el diagrama
Los diagramas de caja de caja los lmites son 1.5(RIC) por debajo de Q1 y 1.5(RIC) por encima de Q3. Para los
proporcionan otra manera datos de los sueldos, RIC ! Q3 " Q1 ! 3 600 " 3 465 ! 135. Por tanto, los lmites son
de identificar observaciones
atpicas. Sin embargo, no
3 465 " 1.5(135) ! 3 262.5 y 3 600 # 1.5(135) ! 3 802.5. Los datos fuera de estos l-
necesariamente identifican mites se consideran observaciones atpicas.
los mismos valores que 4. Las lneas punteadas de la figura 3.5 se llaman bigotes. stos se trazan desde los extre-
aquellos con una mos de la caja hasta los valores menor y mayor dentro de los lmites calculados en el
puntuacin z menor que paso 3. Por tanto, los bigotes terminan en los valores de los sueldos de 3 310 y 3 730.
"3 o mayor que #3.
5. Por ltimo, la ubicacin de cada observacin atpica se seala con un asterisco (sm-
Cualquiera de los dos
procedimientos o ambos
bolo *). En la figura 3.5 se aprecia una observacin, 3 925.
pueden usarse. En la figura 3.5 se trazaron lneas que ilustran la posicin de los lmites superior e inferior, cmo
se calculan los lmites y dnde se ubican. Aunque los lmites siempre se calculan, no se trazan
FIGURA 3.5 Diagrama de caja de los datos de los sueldos iniciales con lneas que muestran
los lmites superior e inferior
Observacin
atpica
*
RIC
1.5(RIC) 1.5(RIC)
FIGURA 3.6 Diagrama de caja de los datos de los sueldos mensuales iniciales
por lo general en los diagramas de caja. La figura 3.6 muestra la apariencia usual de este tipo de
diagrama para los datos de los sueldos.
Con la finalidad de comparar los sueldos mensuales iniciales de los licenciados en admi-
WEB archivo nistracin de empresas por rea de especializacin, se seleccion una muestra de 111 licencia-
MajorSalary dos recin graduados. Se registraron el campo de especializacin y el sueldo mensual inicial
de cada profesional. La figura 3.7 muestra los diagramas de caja de Minitab para contabilidad,
finanzas, sistemas de informacin, administracin y marketing. Observe que el rea de espe-
cializacin aparece en el eje horizontal, y cada diagrama de caja en el eje vertical por encima
del rea correspondiente. Mostrar los diagramas de caja de esta manera es una tcnica grfica
excelente para hacer comparaciones entre dos o ms grupos.
Qu observaciones puede hacer acerca de los sueldos iniciales por rea de especializacin
usando los diagramas de caja de la figura 3.7? En especfico se observa lo siguiente.
Los sueldos ms altos corresponden a contabilidad; los sueldos ms bajos correspon-
den a administracin y marketing.
Con base en las medianas, la de los sueldos de contabilidad y sistemas de informacin
es similar y mayor. Le sigue finanzas, y administracin y contabilidad muestran suel-
dos con una mediana inferior.
Existen observaciones atpicas de sueldos altos para las reas de contabilidad, finanzas
y marketing.
Los sueldos en el rea de finanzas parecen tener menos variacin, mientras que en con-
tabilidad parecen tener la mayor variacin.
Tal vez pueda ver otras interpretaciones basadas en estos diagramas de caja.
FIGURA 3.7 Diagramas de cuadro de Minitab de los sueldos mensuales iniciales por rea
de especializacin
6 000
Sueldo mensual inicial
5 000
4 000
3 000
2 000
Contabilidad Finanzas Sistemas de Administracin Marketing
informacin
rea de negocios
112 Captulo 3 Estadstica descriptiva: medidas numricas
NOTAS Y COMENTARIOS
1. Una ventaja de los procedimientos del anlisis 2. En el apndice 3.1 se explica cmo elaborar un dia-
exploratorio de datos estriba en que son fciles de grama de caja de los datos de los sueldos iniciales
usar, ya que requieren pocos clculos numricos. usando Minitab. El diagrama obtenido se parece al
Sencillamente los valores de datos se clasifican en de la figura 3.6, pero girado hacia un lado.
orden ascendente y se identifica el resumen de cin-
co nmeros. Entonces puede trazarse el diagrama
de caja. No es necesario calcular la media y la des-
viacin estndar de los datos.
Ejercicios
Mtodos
36. Considere una muestra con los datos 27, 25, 20, 15, 30, 34, 28 y 25. Proporcione el resumen de
cinco nmeros de los datos.
37. Elabore el diagrama de caja de los datos del ejercicio 36.
38. Muestre el resumen de cinco nmeros y el diagrama de caja de los datos siguientes: 5, 15, 18,
AUTO evaluacin 10, 12, 16, 10, 6.
39. Un conjunto de datos tiene un primer cuartil de 42 y un tercer cuartil de 50. Calcule los lmites
inferior y superior del diagrama de caja correspondiente. Un valor de datos de 65 debe consi-
derarse una observacin atpica?
Aplicaciones
40. Naples, Florida, celebra un medio maratn (carrera de 13.1 millas) en enero de cada ao. El
evento atrae a corredores de todo Estados Unidos y de otras partes del mundo. En enero de
2009 entraron 22 hombres (Men) y 31 mujeres (Women) en la clase de edades de 19 a 24 aos.
Los tiempos de llegada a la meta en minutos se listan enseguida (Naples Daily News, 19 de
enero de 2009). Los tiempos se muestran en orden de llegada (Finish).
a) George Towett, de Marietta, Georgia, lleg en primer lugar de los hombres y Lauren Wald,
de Gainesville, Florida, lleg en primer lugar de las mujeres. Compare los tiempos de lle-
gada de los primeros lugares para ambos grupos. Si los 53 corredores hombres y mujeres
hubieran competido como un grupo, en qu lugar habra terminado Lauren?
b) Cul es el tiempo medio para los corredores hombres y mujeres? Compare a los corre-
dores y a las corredoras con base en la mediana de sus tiempos.
c) Proporcione un resumen de cinco nmeros tanto de los hombres como de las mujeres.
d) Hay observaciones atpicas en alguno de los dos grupos?
3.4 Anlisis exploratorio de datos 113
e) Muestre los diagramas de caja para los dos grupos. Quines tienen la mayor variacin en
los tiempos de llegada: los hombres o las mujeres? Explique.
41. A continuacin se proporcionan las ventas anuales, en millones de dlares, de 21 compaas
AUTO evaluacin farmacuticas.
e) Presente los diagramas de caja para los cuatro servicios de telefona celular en una grfi-
ca. Comente qu indica la comparacin de diagramas acerca de los cuatro servicios. Cul
recomend Consumer Reports como el mejor en cuanto a la satisfaccin del cliente en
general?
43. Los Phillies de Filadelfia triunfaron en la Serie Mundial de beisbol de las grandes ligas de 2008
al derrotar a Mantarrayas de Tampa Bay 4 a 3 (The Philadelphia Inquirer, 29 de octubre de
2008). Antes, en la clasificatoria de las grandes ligas de beisbol, los Phillies de Filadelfia ga-
naron el Campeonato de la Liga Nacional al vencer a Los Dodgers de Los ngeles, mientras
que Mantarrayas de Tampa Bay se llev el Campeonato de la Liga Americana al derrotar a los
Medias Rojas de Boston Red Sox. El archivo MLBSalaries contiene los sueldos de los 28 juga-
dores de cada uno de estos cuatro equipos (base de datos de sueldos de USA Today, octubre de
2008). Los datos, mostrados en miles de dlares, se han ordenado del sueldo mayor al menor
para cada equipo.
a) Analice los sueldos para el campen mundial Phillies de Filadelfia. Cul es la nmina
WEB archivo total del equipo? Cul es la mediana del sueldo? Proporcione el resumen de cinco n-
meros.
MLBSalaries b) Hay observaciones atpicas para los Phillies de Filadelfia? De ser as, cuntos y de cun-
to son los montos de los sueldos?
c) Cul es la nmina total de cada uno de los otros tres equipos? Elabore el resumen de cin-
co nmeros para cada equipo e identifique cualesquiera observaciones atpicas.
d) Muestre los diagramas de caja de los sueldos para los cuatro equipos. Cules son sus in-
terpretaciones? De estos cuatro equipos, parece que el equipo con sueldos ms altos gan
los campeonatos de la liga y la Serie Mundial?
WEB archivo 44. Un listado de 46 fondos de inversin y su rendimiento porcentual total de 12 meses se muestra
en la tabla 3.5 (Smart Money, febrero de 2004).
Mutual a) Cules son la media y la mediana de los porcentajes de rendimiento para estos fondos de
inversin?
b) Cules son el primer y el tercer cuartiles?
c) Proporcione un resumen de cinco nmeros.
d) Los datos contienen alguna observacin atpica? Muestre un diagrama de caja.
Return Return
Mutual Fund (%) Mutual Fund (%)
Alger Capital Appreciation 23.5 Nations Small Company 21.4
Alger LargeCap Growth 22.8 Nations SmallCap Index 24.5
Alger MidCap Growth 38.3 Nations Strategic Growth 10.4
Alger SmallCap 41.3 Nations Value Inv 10.8
AllianceBernstein Technology 40.6 One Group Diversified Equity 10.0
Federated American Leaders 15.6 One Group Diversified Intl 10.9
Federated Capital Appreciation 12.4 One Group Diversified Mid Cap 15.1
Federated Equity-Income 11.5 One Group Equity Income 6.6
Federated Kaufmann 33.3 One Group Intl Equity Index 13.2
Federated Max-Cap Index 16.0 One Group Large Cap Growth 13.6
Federated Stock 16.9 One Group Large Cap Value 12.8
Janus Adviser Intl Growth 10.3 One Group Mid Cap Growth 18.7
Janus Adviser Worldwide 3.4 One Group Mid Cap Value 11.4
Janus Enterprise 24.2 One Group Small Cap Growth 23.6
Janus High-Yield 12.1 PBHG Growth 27.3
Janus Mercury 20.6 Putnam Europe Equity 20.4
Janus Overseas 11.9 Putnam Intl Capital Opportunity 36.6
Janus Worldwide 4.1 Putnam International Equity 21.5
Nations Convertible Securities 13.6 Putnam Intl New Opportunity 26.3
Nations Intl Equity 10.7 Strong Advisor Mid Cap Growth 23.7
Nations LargeCap Enhd. Core 13.2 Strong Growth 20 11.7
Nations LargeCap Index 13.5 Strong Growth Inv 23.2
Nation MidCap Index 19.5 Strong Large Cap Growth 14.5
3.5 Medidas de asociacin entre dos variables 115
Covarianza
Para una muestra de tamao n con las observaciones (x1, y1 ), (x 2 , y 2 ), etc., la covarianza mues-
tral se define como sigue.
COVARIANZA MUESTRAL
Esta frmula empareja cada xi con una yi. Luego se suman los productos obtenidos al multi-
plicar la desviacin de cada xi de su media muestral x por la desviacin de la yi correspondiente
de su media muestral y; esta suma se divide entonces por n " 1.
y
65
60
50
45
40
35 x
0 1 2 3 4 5
Nmero de comerciales
Para medir la solidez de una relacin lineal entre el nmero de comerciales (Number of
Commercials) x y el volumen de ventas (Sales Volume) y en el problema de la tienda de estreos
y equipos de sonido, use la ecuacin (3.10) a efecto de calcular la covarianza muestral. La ta-
bla 3.7 presenta el clculo de !(xi " x)(yi " y). Observe que x ! 30/10 ! 3, y y ! 510/10 ! 51.
Usando la ecuacin (3.10) se obtiene una covarianza muestral de
COVARIANZA POBLACIONAL
Interpretacin de la covarianza
Para ayudar en la interpretacin de la covarianza muestral, considere la figura 3.9; es igual al
diagrama de dispersin de la figura 3.7, con una lnea punteada vertical en x ! 3 y una lnea
punteada horizontal en y ! 51. Las lneas dividen la grfica en cuatro cuadrantes. Los puntos
del cuadrante I corresponden a xi mayor que x y yi mayor que y; los puntos del cuadrante II co-
rresponden a xi menor que x y yi menor que y, etc. Por tanto, el valor de (xi " x)( yi " y) debe ser
positivo para los puntos del cuadrante i, negativo para los del cuadrante II, positivo para los del
cuadrante III, y negativo para los puntos del cuadrante iv.
Si el valor de sxy es positivo, los puntos con la mayor influencia en sxy deben estar en los
La covarianza es una cuadrantes I y III. Por ende, un valor positivo para sxy indica una asociacin lineal positiva entre
medida de la asociacin x y y; es decir, a medida que el valor de x aumenta, el valor de y tambin. Si el valor de sxy es
lineal entre dos variables.
negativo, no obstante, los puntos con la mayor influencia en sxy estn en los cuadrantes II y IV.
Por ende, un valor negativo para sxy indica una asociacin lineal negativa entre x y y; es decir, a
medida que el valor de x aumenta, el valor de y disminuye. Por ltimo, si los puntos estn distri-
buidos de manera uniforme en los cuatro cuadrantes, el valor de sxy ser cercano a cero, lo que
indica que no existe una asociacin lineal entre x y y. En la figura 3.10 se aprecian los valores
de sxy que se expresan con tres tipos distintos de diagramas de dispersin.
FIGURA 3.9 Diagrama de dispersin particionado para la tienda de estreos y equipos de sonido
65
x!3
60
Ventas (miles de dlares)
II I
55
y ! 51
50
45
III IV
40
35
0 1 2 3 4 5 6
Nmero de comerciales
118 Captulo 3 Estadstica descriptiva: medidas numricas
y
sxy positiva:
(x y y se relacionan linealmente
de manera positiva)
y
sxy aproximadamente 0:
(x y y no se relacionan
de manera lineal)
y
sxy negativa:
(x y y se relacionan
linealmente de
manera negativa)
x
3.5 Medidas de asociacin entre dos variables 119
Observe de nuevo la figura 3.9. El diagrama de dispersin para la tienda de estreos y equi-
pos de sonido sigue el patrn del panel superior de la figura 3.10. Como es de esperarse, el valor
de la covarianza muestral indica una relacin lineal positiva en la que sxy ! 11.
A partir del anlisis anterior, podra parecer que un valor positivo grande para la covarianza
indica una relacin lineal positiva slida, y un valor negativo grande indica una relacin lineal
negativa slida. Sin embargo, un problema con la covarianza como medida de la solidez de
una relacin lineal estriba en que su valor depende de las unidades de medida para x y y. Por
ejemplo, suponga que estamos interesados en la relacin entre la estatura x y el peso y de las
personas. Desde luego, la solidez de la relacin debe ser la misma, ya sea que la estatura se mida
en pies o pulgadas. Sin embargo, la medicin en pulgadas no da valores numricos mucho
mayores para (xi " x) que cuando la estatura se mide en pies. Por tanto, con la altura medida en
pulgadas se obtendra un valor mayor para el numerador !(xi " x)(yi " y) en la ecuacin (3.10)
y por consiguiente una covarianza mayor, cuando de hecho la relacin no cambia. Una
medida de la relacin entre dos variables que no se ve afectada por las unidades de medicin
para x y y es el coeficiente de correlacin.
Coeficiente de correlacin
Para los datos muestrales, el coeficiente de correlacin del producto-momento de Pearson se
define como se indica a continuacin.
sxy
rxy ! (3.12)
sx sy
donde
rxy ! coeficiente de correlacin muestral
sxy ! covarianza muestral
sx ! desviacin estndar muestral de x
sy ! desviacin estndar muestral de y
! (x i " x)2 20
sx ! ! ! 1.49
n"1 9
sxy 11
rx y ! ! ! 0.93
sx sy (1.49)(7.93)
120 Captulo 3 Estadstica descriptiva: medidas numricas
xy
!xy ! (3.13)
El coeficiente de correlacin x y
muestral rxy es el estimador
del coeficiente de
donde
correlacin poblacional !xy . !xy ! coeficiente de correlacin poblacional
xy ! covarianza poblacional
x ! desviacin estndar poblacional de x
y ! desviacin estndar poblacional de y
xi yi
5 10
10 30
15 50
FIGURA 3.11 Diagrama de dispersin que representa una relacin lineal positiva perfecta
50
40
30
20
10
x
5 10 15
3.5 Medidas de asociacin entre dos variables 121
xi yi xi " x (xi " x)2 yi " y (yi " y)2 (xi " x)(yi " y)
5 10 "5 25 "20 400 100
10 30 0 0 0 0 0
15 50 5 25 20 400 100
Totales 30 90 0 50 0 800 200
x ! 10 y ! 30
La lnea recta trazada a travs de cada uno de los tres puntos muestra una relacin lineal
perfecta entre x y y. Con el fin de aplicar la ecuacin (3.12) para calcular la correlacin mues-
tral, primero se calculan sxy , sx y sy . Algunos clculos se presentan en la tabla 3.8. Con los re-
sultados de esta tabla encontramos
El coeficiente de correlacin Por tanto, se aprecia que el valor del coeficiente de correlacin muestral es 1.
vara de "1 a #1. En general, se puede demostrar que si todos los puntos de un conjunto de datos caen en una
Los valores cercanos a "1
lnea recta inclinada con pendiente positiva, el valor del coeficiente de correlacin muestral es
o a # 1 indican una
relacin lineal slida. #1; es decir, un coeficiente de correlacin muestral de #1 corresponde a una relacin lineal
Entre ms se acerque la positiva perfecta entre x y y. Por otra parte, si los puntos del conjunto de datos caen en una rec-
correlacin a cero, ms ta con pendiente negativa, el valor del coeficiente de correlacin muestral es "1; es decir, co-
dbil es la relacin. rresponde a una relacin lineal negativa perfecta entre x y y.
Suponga ahora que cierto conjunto de datos indica una relacin lineal positiva entre x y y
pero la relacin no es perfecta. El valor de rxy ser menor que 1, lo que indica que los puntos
en el diagrama de dispersin no estarn todos sobre una lnea recta. A medida que los pun-
tos se desvan ms y ms de una relacin lineal positiva perfecta, el valor de rxy se vuelve cada
vez ms y ms pequeo. Cuando ste es igual a cero, indica que no existe una relacin lineal
entre x y y, y los valores de rxy cercanos a cero indican una relacin lineal dbil.
Para los datos de la tienda de estreos y equipos de sonido, rxy ! 0.93. Por consiguiente,
se concluye que existe una relacin lineal positiva slida entre el nmero de comerciales y las
ventas. De manera ms especfica, un aumento en el nmero de comerciales se asocia con un
incremento en las ventas.
En resumen, se observa que la correlacin proporciona una medida de asociacin lineal y
no necesariamente de causalidad. Una correlacin alta entre dos variables no significa que los
cambios en una variable ocasionarn cambios en la otra. Por ejemplo, podemos encontrar que
la calificacin de calidad y el precio tpico de la comida en los restaurantes se correlacionan de
manera positiva. Sin embargo, un simple incremento en el precio de la comida no causar que
la calificacin de la calidad aumente.
122 Captulo 3 Estadstica descriptiva: medidas numricas
Ejercicios
Mtodos
45. A continuacin se presentan cinco observaciones tomadas para dos variables.
AUTO evaluacin
xi 4 6 11 3 16
yi 50 50 40 60 30
xi 6 11 15 21 27
yi 6 9 6 17 12
Aplicaciones
47. Nielsen Media Research proporciona dos medidas de la audiencia televisiva: el rating, que
es el porcentaje de hogares que cuenta con un aparato y est viendo un programa, y el share,
que es el porcentaje de hogares que tiene el equipo encendido cuyos miembros estn viendo
un programa determinado. Las cifras siguientes muestran los datos de las calificaciones y las
cuotas de Nielsen de la Serie Mundial de Beisbol de las Grandes Ligas durante un periodo de
nueve aos (Associated Press, 27 de octubre de 2003).
Rating 19 17 17 14 16 12 15 12 13
Share 32 28 29 24 26 20 24 20 22
DJIA 0.20 0.82 "0.99 0.04 "0.24 1.01 0.30 0.55 "0.25
WEB archivo S&P 500 0.24 0.19 "0.91 0.08 "0.33 0.87 0.36 0.83 "0.16
StockMarket
!xi x # x 2 # . . . # xn
x! ! 1 (3.14)
n n
En esta frmula, cada xi recibe igual importancia o peso. Aunque esta prctica es la ms co-
mn, en algunos casos la media se calcula confiriendo a cada observacin un peso que refleje su
importancia. Una media calculada de esta manera se conoce como media ponderada.
Media ponderada
La media ponderada se calcula como sigue.
MEDIA PONDERADA
!wi xi
x! (3.15)
!wi
donde
x i ! valor de observacin i
wi ! peso de la observacin i
Cuando los datos provienen de una muestra, la ecuacin (3.15) proporciona la media mues-
tral ponderada. Cuando son de una poblacin, reemplaza a x y la misma ecuacin proporcio-
na la media poblacional ponderada.
Como ejemplo de la necesidad de una media ponderada, considere la muestra siguien-
te de cinco compras de una materia prima durante los tres meses pasados.
Observe que el costo por libra vara de $2.80 a $3.40, y la cantidad comprada vara de 500
a 2 750 libras. Suponga que un gerente solicit informacin sobre el costo medio por libra de
la materia prima. Debido a que las cantidades ordenadas varan, se debe usar la frmula para
una media ponderada. Los cinco valores de datos del costo por libra son x1 ! 3.00; x 2 ! 3.40;
x3 ! 2.80; x4 ! 2.90, y x5 ! 3.25. El costo medio ponderado por libra se obtuvo al ponderar
3.6 Media ponderada y trabajo con datos agrupados 125
cada costo por su cantidad correspondiente. Para este ejemplo, los pesos son w1 ! 1 200;
w2 ! 500; w3 ! 2 750; w4 ! 1 000, y w5 ! 800. Con base en la ecuacin (3.15), la media pon-
derada se calcul como sigue.
Datos agrupados
En la mayora de los casos, las medidas de posicin y variabilidad se calculan con valores
de datos individuales. No obstante, los datos en ocasiones estn disponibles slo en forma
agrupada o en forma de distribucin de frecuencia. En el anlisis siguiente se explica cmo usar
la frmula de la media ponderada para obtener aproximaciones de la media, la varianza y la
desviacin estndar para datos agrupados.
En la seccin 2.2 se proporcion una distribucin de frecuencia del tiempo en das reque-
rido para completar las auditoras de fin de ao de la firma de contabilidad pblica Sander-
son and Clifford. La distribucin de frecuencia de la duracin de las auditoras se ilustra en
la tabla 3.9. Con base en esta distribucin, cul es la media muestral de la duracin de las
auditoras?
Para calcular la media usando slo los datos agrupados, el punto medio de cada clase se trata
como si fuera representativo de los elementos de la clase. Sea Mi el punto medio para la clase i,
y fi la frecuencia de la clase i. La frmula de la media ponderada (3.15) se utiliza entonces con
los valores de datos denotada como Mi y los pesos dados por las frecuencias fi. En este caso,
Duracin de la
auditora (das) Frecuencia
10 14 4
15 19 8
20 24 5
25 29 2
30 34 1
Total 20
126 Captulo 3 Estadstica descriptiva: medidas numricas
! fi Mi
x! (3.16)
n
donde
Con los puntos medios de clase, Mi, a medio camino entre los lmites de clase, la primera
de 1014 en la tabla 3.9 tiene un punto medio en (10 # 14)/2 ! 12. Los cinco puntos medios de
clase y el clculo de la media ponderada para los datos de duracin de la auditora se resumen en
la tabla 3.10. Como puede verse, la media muestral de la duracin de la auditora es de 19 das.
Para calcular la varianza de datos agrupados se usa una versin ligeramente alterada de
la frmula para la varianza proporcionada en la ecuacin (3.5). En esta ecuacin las desvia-
ciones cuadradas de los datos con respecto a la media muestral x se escribieron como (xi " x)2.
Sin embargo, con los datos agrupados, los valores no se conocen. En este caso, el punto medio
de la clase, Mi, se trata como si fuera representativo de los xi valores en la clase correspondien-
te. Por tanto, las desviaciones cuadradas respecto de la media muestral, (xi " x)2, se remplazan
por (Mi " x)2. As, del mismo modo que con los clculos de la media muestral para los datos
agrupados, se pesa cada valor por la frecuencia de la clase, fi. La suma de las desviaciones
cuadradas con respecto a la media para todos los datos se aproxima por medio de !fi(Mi " x)2.
El trmino n " 1 en vez de n aparece en el denominador con el fin de hacer de la varianza mues-
tral la estimacin de la varianza poblacional. De ah que la frmula siguiente se use con objeto
de obtener la varianza muestral para los datos agrupados.
TABLA 3.10 Clculo de la media muestral de la duracin de la auditora para los datos agrupados
TABLA 3.11 Clculo de la varianza muestral de la duracin de la auditora para los datos
agrupados (media muestral x ! 19)
Duracin
de la Punto Desviacin
auditora medio de Frecuencia Desviacin cuadrada
(das) clase (Mi ) ( fi ) (Mi " x) (Mi " x)2 fi (Mi " x)2
10 14 12 4 "7 49 196
15 19 17 8 "2 4 32
20 24 22 5 3 9 45
25 29 27 2 8 64 128
30 34 32 1 13 169 169
20 570
! fi (Mi " x)2
2
! fi(Mi " x) 570
Varianza muestral s 2 ! ! ! 30
n"1 19
El clculo de la varianza muestral para la duracin de la auditora con base en los datos
agrupados se ilustra en la tabla 3.11. La varianza muestral es 30.
La desviacin estndar para los datos agrupados es sencillamente la raz cuadrada de la va-
rianza para tales datos. Para los datos de duracin de la auditora, la desviacin estndar muestral
es s ! "30 ! 5.48.
Antes de concluir con esta seccin sobre el clculo de las medidas de posicin y dispersin
para los datos agrupados, observe que las frmulas (3.16) y (3.17) son para una muestra. Las
medidas para la poblacin se calculan de modo parecido. Las frmulas de los datos agrupados
para una media y varianza poblacionales se presentan a continuacin.
! fi Mi
! (3.18)
N
! fi (Mi " )2
2 ! (3.19)
N
NOTAS Y COMENTARIOS
En el clculo de la estadstica descriptiva para los criptiva que resultara directamente del uso de los
datos agrupados, los puntos medios de las clases se datos originales. Por consiguiente, siempre que sea
utilizan para aproximar los valores de datos de cada posible es recomendable calcular los estadsticos des-
clase. Como resultado, la estadstica descriptiva para criptivos a partir de los datos originales en vez de ha-
los datos agrupados se aproxima a la estadstica des- cerlo a partir de los datos agrupados.
128 Captulo 3 Estadstica descriptiva: medidas numricas
Ejercicios
Mtodos
52. Considere los datos siguientes y sus pesos correspondientes.
xi Peso (wi )
3.2 6
2.0 3
2.5 2
5.0 8
Aplicaciones
54. El promedio de calificaciones para los estudiantes universitarios se basa en el clculo de una
AUTO evaluacin media ponderada. Para la mayora de los estudiantes, las calificaciones se proporcionan con
los valores de datos siguientes: A (4), B (3), C (2), D (1) y F (0). Despus de 60 horas de clase
de estudios superiores, un alumno de la universidad estatal obtuvo 9 horas de clase de A, 15 de
clase de B, 33 de clase de C y 3 horas de clase de D.
a) Calcule el promedio de calificaciones del estudiante.
b) Los alumnos de la universidad estatal deben mantener un promedio de calificaciones de
2.5 para sus primeras 60 horas de clases de estudios superiores con el fin de ser admitidos
en el colegio de administracin. Este estudiante ser admitido?
55. Morningstar da seguimiento al rendimiento total de un nmero grande de fondos de inversin.
La tabla siguiente registra el rendimiento total y el nmero de fondos para cuatro categoras de
fondos de inversin (Morningstar Funds500, 2008).
a) Usando el nmero de fondos como pesos, calcule el rendimiento total promedio ponde-
rado para los fondos de inversin cubiertos por Morningstar.
b) Hay alguna dificultad asociada con el uso del nmero de fondos como pesos en el
clculo del rendimiento total promedio ponderado para Morningstar en el inciso a)? Co-
mente. Qu ms podra usarse para los pesos?
c) Suponga que invirti $10 000 en fondos de inversin a principios de 2007 y que diversifi-
c la inversin al colocar $2 000 en fondos de capital nacional, $4 000 en fondos de capital
3.6 Media ponderada y trabajo con datos agrupados 129
57. La distribucin de frecuencia siguiente muestra el precio por accin de las 30 empresas del
promedio industrial Dow Jones (Barrons, 2 de febrero de 2009).
a) Calcule el precio medio por accin y la desviacin estndar del precio por accin para las
empresas del promedio industrial Dow Jones.
b) El 16 de enero de 2006, el precio medio por accin era de $45.83 y la desviacin estn-
dar de $18.14. Comente los cambios ocurridos en el precio por accin durante el periodo
de tres aos.
Resumen
En este captulo se introdujeron varios estadsticos descriptivos que se utilizan para resumir la
posicin, la variabilidad y la forma de una distribucin de datos. A diferencia de los procedi-
mientos tabulares y grficos del captulo 2, las medidas en este captulo resumen los datos en
trminos de valores numricos. Cuando los valores numricos se obtienen de una muestra, se les
llama estadsticos muestrales; cuando se obtienen de una poblacin se llaman parmetros po-
blacionales. En seguida se presenta parte de la notacin utilizada para ambos conceptos.
Glosario
Coeficiente de correlacin Medida de la asociacin lineal entre dos variables que toma los
valores entre "1 y #1. Los valores cercanos a #1 indican una relacin lineal positiva slida;
los valores cercanos a "1 indican una relacin lineal negativa slida, y los valores cercanos a
cero, la falta de una relacin lineal.
Coeficiente de variacin Medida de variabilidad relativa calculada al dividir la desviacin
estndar entre la media y multiplicar por 100.
Covarianza Medida de la asociacin lineal entre dos variables. Los valores positivos indican
una relacin positiva; los valores negativos indican una relacin negativa.
Cuartiles Los percentiles 25, 50 y 75, conocidos como primer cuartil, segundo cuartil (me-
diana) y tercer cuartil, respectivamente. Los cuartiles se usan para dividir un conjunto de datos
en cuatro partes, con cada parte conteniendo aproximadamente 25% de los datos.
Datos agrupados Datos disponibles en intervalos de clase segn se resumen por una distribu-
cin de frecuencia. Los valores individuales de los datos originales no estn disponibles.
Desviacin estndar Medida de variabilidad calculada al tomar la raz cuadrada positiva de
la varianza.
Diagrama de caja Resumen grfico de los datos basado en un resumen de cinco nmeros.
Estadstico muestral Valor numrico usado como medida de resumen para una muestra
(por ejemplo, la media muestral, x, la varianza muestral, s 2, y la desviacin estndar de la
muestra, s).
Estimador puntual Los estadsticos muestrales, como x, s 2 y s, cuando se utilizan para esti-
mar el parmetro poblacional correspondiente.
Media Medida de la ubicacin central calculada al resumir los valores de datos y dividir entre
el nmero de observaciones.
Media ponderada La media obtenida al asignar a cada observacin un peso que refleje su
importancia.
Mediana Medida de la posicin central proporcionada por el valor de en medio cuando los
datos se acomodan en orden ascendente.
Moda Medida de la posicin, definida como el valor que ocurre con mayor frecuencia.
Observacin atpica Valor de datos inusualmente pequeo o inusualmente grande.
Parmetro poblacional Valor numrico utilizado como una medida de resumen para una
poblacin (por ejemplo, la media poblacional, , la varianza poblacinal, 2, y la desviacin
estndar de la poblacin, ).
Frmulas clave 131
Percentil Valor tal que por lo menos p por ciento de las observaciones es menor o igual que
este valor, y como mnimo (100 " p) por ciento de las observaciones son mayores o iguales
que este valor. El percentil 50 es la mediana.
Rango Medida de la variabilidad definida para ser el valor mayor menos el valor menor.
Rango intercuartlico (RIC) Medida de variabilidad definida como la diferencia entre el ter-
cer y el primer cuartiles.
Regla emprica Se usa para calcular el porcentaje de valores de datos que deben estar dentro
de una, dos y tres desviaciones estndar de la media para los datos que exhiben una distribucin
con forma de campana.
Resumen de cinco nmeros Tcnica de anlisis exploratorio de datos que usa cinco nmeros
para resumir los datos: valor menor, primer cuartil, mediana, tercer cuartil y valor ms grande.
Sesgo Medida de la forma de una distribucin de datos. Los datos sesgados a la izquierda dan
como resultado un sesgo negativo; una distribucin de datos simtrica genera un sesgo de cero,
y los datos sesgados a la derecha producen un sesgo positivo.
Teoremoa de Chebyshev Se utiliza para hacer enunciados sobre la proporcin de los valo-
res de datos que deben estar dentro de un nmero especificado de desviaciones estndar de la
media.
valor z Valor calculado al dividir la desviacin con respecto a la media (xi " x) entre la des-
viacin estndar s. Una puntuacin z se conoce como un valor estandarizado y denota el nmero
de desviaciones estndar xi a partir de la media.
Varianza Medida de variabilidad basada en las desviaciones cuadradas de los valores de da-
tos con respecto a la media.
Frmulas clave
Media muestral
!xi
x! (3.1)
n
Media poblacional
!xi
! (3.2)
N
Rango intercuartlico
Varianza poblacional
!(xi " !)2
2 ! (3.4)
N
Varianza muestral
!(xi " x)2
s2 ! (3.5)
n"1
Desviacin estndar
Desviacin estndar muestral ! s ! "s 2 (3.6)
Desviacin estndar poblacional ! ! " 2
(3.7)
132 Captulo 3 Estadstica descriptiva: medidas numricas
Coeficiente de variacin
desviacin estndar
$! 100 % (3.8)
media
Valor z
xi " x
zi ! (3.9)
s
Covarianza muestral
!(xi " x) (yi " y)
sxy ! (3.10)
n"1
Covarianza poblacional
!(xi " x) (yi " y)
x y ! (3.11)
N
Media ponderada
!wi xi
x! (3.15)
!wi
! fi Mi
x! (3.16)
n
! fi Mi
! (3.18)
N
! fi (Mi " )2
2 ! (3.19)
N
Ejercicios complementarios 133
Ejercicios complementarios
58. Segn la encuesta del gasto anual de los consumidores, el promedio mensual del cargo a la
tarjeta de crdito Visa del Bank of America fue de $1 838 (U.S. Airways Attach Magazine, di-
ciembre de 2003). Una muestra de cargos mensuales a tarjetas de crdito proporciona los datos
siguientes.
236 1 710 1 351 825 7 450
WEB archivo 316 4 135 1 333 1 584 387
991 3 396 170 1 428 1 688
Visa
59. La Oficina del Censo de Estados Unidos (U.S. Census Bureau) proporciona estadsticas so-
bre la vida familiar en este pas, incluyendo la edad en el primer matrimonio, el estado marital
actual y el tamao de la vivienda (sitio web U.S. Census Bureau, 20 de marzo de 2006). Los
datos siguientes muestran la edad en el primer matrimonio para una muestra de hombres (Men)
y una de mujeres (Women).
Hombres 26 23 28 25 27 30 26 35 28
WEB archivo 21 24 27 29 30 27 32 27 25
Ages
Mujeres 20 28 23 30 24 29 26 25
22 22 25 23 27 26 19
a) Determine la edad media en la poca del primer matrimonio para hombres y mujeres.
b) Calcule el primer y tercer cuartiles para ambos grupos.
c) Hace 25 aos la edad media en la poca del primer matrimonio era de 25 para los hombres
y 22 para las mujeres. Qu elementos proporciona esta informacin para comprender la
decisin de cundo casarse entre la gente joven en la actualidad?
60. El rendimiento del dividendo es el dividendo anual por accin que una empresa paga, dividido
entre el precio por accin actual de mercado expresado como porcentaje. Una muestra de 10
empresas grandes proporciona los siguientes datos de rendimiento del dividendo (The Wall
Street Journal, 16 de enero de 2004).
61. El Departamento de Educacin de Estados Unidos informa que alrededor de 50% de todos los
estudiantes universitarios usa un prstamo estudiantil para ayudarse a cubrir los gastos esco-
lares (National Center for Educational Studies, enero de 2006). En la siguiente lista se observa
una muestra de alumnos que se graduaron con una deuda de prstamos estudiantil. Los datos,
en miles de dlares, registran montos tpicos de deuda despus de la graduacin.
10.1 14.8 5.0 10.2 12.4 12.2 2.0 11.5 17.8 4.0
a) Para aquellos alumnos que usan un prstamo estudiantil, cul es la deuda media despus
de la graduacin?
b) Cul es la varianza? La desviacin estndar?
62. Los propietarios de pequeas empresas con frecuencia acuden a compaas de servicios
externos para manejar la nmina de sus empleados. Esto se debe a que las pequeas empresas
se enfrentan a regulaciones fiscales complicadas, y las multas por errores en las declaraciones
fiscales son costosas. Segn el Internal Revenue Service, 26% de todas las devoluciones de
impuestos de empleo de las pequeas empresas contena errores que dieron como resultado una
multa fiscal al propietario (The Wall Street Journal, 30 de enero de 2006). La multa fiscal para
una muestra de 20 pequeas empresas se presenta a continuacin.
WEB archivo 820 270 450 1 010 890 700 1 350 350 300 1 200
Penalty 390 730 2 040 230 640 350 420 270 370 620
a) Cul es la multa fiscal media para las devoluciones de impuestos sobre nmina llenadas
de manera inapropiada?
b) Cul es la desviacin estndar?
c) La multa ms alta de $2 040 es una observacin atpica?
d) Cules son algunas ventajas de contratar una empresa de servicios de nmina para el
propietario de una pequea empresa a efecto de que maneje los servicios de nmina de los
empleados, incluidas las devoluciones de impuestos de empleo?
63. El transporte pblico y el automvil son dos medios que un empleado puede usar para ir al
trabajo cada da. Las muestras de los tiempos registrados para cada mtodo se listan enseguida;
los tiempos se proporcionan en minutos.
Transporte pblico 28 29 32 37 33 25 29 32 41 34
Automvil 29 31 33 32 34 30 31 32 35 33
a) Calcule el tiempo de la media muestral para ir al trabajo en cada medio.
b) Calcule la desviacin estndar muestral para cada mtodo.
c) Con base en sus resultados de los incisos a) y b), cul mtodo de transporte debe prefe-
rirse? Explique por qu.
d) Elabore un diagrama de caja para cada mtodo. Una comparacin de los diagramas apo-
ya su conclusin del inciso c)?
64. La Asociacin Nacional de Agentes Inmobiliarios (National Association of Realtors) inform
el precio medio de la vivienda en Estados Unidos y el incremento en ste durante un periodo de
cinco aos (The Wall Street Journal, 16 de enero de 2006). Utilice los precios de la muestra
de viviendas listados aqu para responder las preguntas siguientes.
995.9 48.8 175.0 263.5 298.0 218.9 209.0
WEB archivo 628.3 111.0 212.9 92.6 2 325.0 958.0 212.5
Homes a) Cul es el la mediana del precio de la muestra de vivienda?
b) En enero de 2001, la Asociacin Nacional de Agentes Inmobiliarios inform que en Es-
tados Unidos la mediana del precio de la vivienda fue de $139 300. Cul fue el incremento
del porcentaje en la mediana del precio durante el periodo de cinco aos?
c) Cul es el primer y el tercer cuartil para los datos de la muestra?
d) Proporcione un resumen de cinco nmeros para los precios de la vivienda.
e) Los datos contienen algunas observaciones atpicas.
f) Cul es el precio medio de la vivienda para la muestra? Por qu la Asociacin Nacional
de Agentes Inmobiliarios prefiere usar la mediana del precio de las casas en su informe?
65. La Encuesta de la Comunidad Estadounidense de la Oficina del Censo de Estados Unidos dio
a conocer el porcentaje de nios menores de 18 aos que haba vivido por debajo del nivel de
pobreza durante los 12 meses anteriores (sitio web del U.S. Census Bureau, agosto de 2008).
Las regiones de Estados Unidos noreste (NE), sureste (SE), oeste medio (MW), suroeste (SW)
oeste (W) y el porcentaje de nios menores de 18 aos que haba vivido por debajo del nivel de
pobreza se listan para cada estado.
Ejercicios complementarios 135
a) Cul es la mediana del porcentaje del nivel de pobreza (Poverty) para los 50 estados?
b) Cules son el primer y el tercer cuartiles? Cul es su interpretacin de los cuartiles?
c) Muestre un diagrama de caja para los datos. Interprete el diagrama respecto de lo que in-
dica acerca del nivel de pobreza para los nios de Estados Unidos. Algn estado (State)
se considera una observacin atpica? Comente.
d) Identifique los estados en el cuartil inferior. Cul es su interpretacin de este grupo y
qu regin o regiones se representan en este cuartil?
66. La revista Travel + Leisure present su lista anual de los 500 mejores hoteles del mundo (Tra-
vel + Leisure, enero de 2009). La revista proporciona una calificacin para cada hotel junto con
una breve descripcin que incluye su tamao, servicios y costo por noche en habitacin doble.
Una muestra de 12 de los hoteles de ms alta calificacin en Estados Unidos se presenta a con-
tinuacin.
70. La velocidad de los automviles que viajan por una autopista con un lmite de velocidad esta-
blecido de 55 millas por hora se comprueba mediante un sistema de radar de la polica estatal.
A continuacin se presenta una distribucin de frecuencia de las velocidades.
Velocidad
(millas por hora) Frecuencia
4549 10
5054 40
5559 150
6064 175
6569 75
7074 15
7579 10
Total 475
TABLA 3.12 Muestra de 100 compras con tarjeta de crdito en Pelican Stores
que efectuaron una compra utilizando un cupn de descuento se les llama clientes de promocin y
a los que compraron, pero no usaron un cupn de descuento se les denomina clientes regulares.
Dado que los cupones promocionales no se enviaron a los compradores regulares de Pelican
Stores, la gerencia considera las ventas realizadas a personas que presentaron los cupones de
promocin como ventas que de lo contrario no se hubieran hecho. Por supuesto, Pelican tam-
bin espera que los clientes de promocin sigan comprando en sus tiendas.
La mayora de las variables mostradas en la tabla 3.12 se explican por s mismas, pero dos
requieren una aclaracin.
A la gerencia de Pelican le gustara usar estos datos muestrales para enterarse de su base de
clientes y evaluar la promocin de los cupones de descuento.
Informe gerencial
Utilice los mtodos tabular y grfico de la estadstica descriptiva para resumir los datos y co-
mente sus hallazgos. Como mnimo, su informe debe incluir lo siguiente:
1. Estadsticos descriptivos sobre las ventas netas y sobre las ventas netas por varias clasi-
ficaciones de clientes.
2. Estadsticos descriptivos concernientes a la relacin entre la edad (Age) y las ventas
netas.
Informe gerencial
Utilice los mtodos numricos de la estadstica descriptiva presentados en este captulo para sa-
ber cmo estas variables contribuyen al xito de una pelcula. Incluya lo siguiente en su informe.
1. Los estadsticos descriptivos de cada una de las cuatro variables junto con un anlisis
de lo que cada estadstico descriptivo indica sobre la industria del cine.
2. Qu pelculas, si las hay, deben considerarse observaciones atpicas de alto desempe-
o? Explique por qu.
3. La estadstica descriptiva muestra la relacin entre las ventas brutas totales y cada una
de las otras variables. Comente.
Informe gerencial
Use los mtodos de la estadstica descriptiva para resumir los datos de la tabla 3.14. Comente
sus hallazgos.
1. Incluya un resumen para cada variable del conjunto de datos. Comente e interprete
con base en los mximos y los mnimos, as como los medios y las proporciones apro-
piados. Qu elementos de comprensin nuevos proporcionan estos estadsticos des-
criptivos respecto de las escuelas de negocios de Asia-Pacfico?
2. Resuma los datos para comparar lo siguiente:
a) Cualquier diferencia entre los costos de clases locales y en el extranjero.
b) Alguna diferencia entre los sueldos iniciales medios para las escuelas que requieren
y no requieren experiencia laboral.
c) Cualquier diferencia entre los sueldos iniciales para escuelas que requieren y no
requieren pruebas de ingls.
3. Los sueldos iniciales parecen estar relacionados con las clases?
4. Presente resmenes grficos y numricos adicionales que sean benficos para comu-
nicar los datos de la tabla 3.14 a otras personas.
Pages Amount
Customer Day Browser Time (min) Viewed Spent ($)
1 Mon Internet Explorer 12.0 4 54.52
WEB archivo 2 Wed Other 19.5 6 94.90
3 Mon Internet Explorer 8.5 4 26.68
Shoppers
4 Tue Firefox 11.4 2 44.73
5 Wed Internet Explorer 11.3 4 66.27
6 Sat Firefox 10.5 6 67.80
7 Sun Internet Explorer 11.4 2 36.04
48 Fri Internet Explorer 9.7 5 103.15
49 Mon Other 7.3 6 52.15
50 Fri Internet Explorer 13.4 3 98.75
Informe gerencial
Use los mtodos de la estadstica descriptiva para saber ms acerca de los clientes que visitan el
sitio web de Heavenly Chocolates. Incluya lo siguiente en su informe.
1. Resmenes grficos y numricos para el tiempo que el comprador pasa en el sitio web,
el nmero de pginas visitadas y la cantidad media gastada por transaccin. Comente
los datos que obtuvo acerca de los compradores en lnea de Heavenly Chocolates a
partir de estos resmenes numricos.
2. Resuma la frecuencia, los dlares totales y la cantidad media gastados por transaccin
para cada da de la semana. Qu observaciones puede usted hacer sobre el negocio de
Heavenly Chocolates con base en el da de la semana? Comente.
3. Resuma la frecuencia, los dlares totales y la cantidad media gastados por transac-
cin para cada tipo de navegador. Qu observaciones puede hacer acerca del negocio
con base en el tipo de explorador? Comente.
4. Elabore un diagrama de dispersin y calcule el coeficiente de correlacin muestral
para explorar la relacin entre el tiempo invertido en el sitio web y la cantidad gastada.
Utilice el eje horizontal para el tiempo invertido. Comente.
5. Prepare un diagrama de dispersin y calcule el coeficiente de correlacin muestral
para explorar la relacin entre el nmero de pginas visitadas y la cantidad gastada.
Utilice el eje horizontal para el nmero de pginas web consultadas. Comente.
6. Elabore un diagrama de dispersin y calcule el coeficiente de correlacin muestral para
explorar la relacin entre el tiempo pasado en el sitio web y el nmero de pginas visi-
tadas. Use el eje horizontal para representar el nmero de pginas visitadas. Comente.
142 Captulo 3 Estadstica descriptiva: medidas numricas
Estadstica descriptiva
La tabla 3.1 proporcion los sueldos iniciales de 12 licenciados en administracin de empresas
recin graduados de la escuela de negocios. Estos datos estn disponibles en el archivo Start-
Salary. La figura 3.12 muestra la estadstica descriptiva de los datos de los sueldos iniciales
obtenidos con Minitab. Las definiciones de los encabezados se muestran en seguida.
N Nmero de valores de datos
N* Nmero de valores de datos faltantes
Mean Media
SE Mean Error estndar de la media
StDev Desviacin estndar
Minimum Valor de datos mnimo
Q1 Primer cuartil
Median Mediana
Q3 Tercer cuartil
Maximum Valor de datos mximo
La etiqueta SE Mean se refiere al error estndar de la media. Se calcula dividiendo la desvia-
cin estndar entre la raz cuadrada de N. La interpretacin y el uso de esta medida se estudian
en el captulo 7, cuando se presentan los temas de muestreo y distribuciones del muestreo.
Aunque las medidas numricas del rango, el rango intercuartlico, la varianza y el coefi-
ciente de variacin no aparecen en el resultado de Minitab, estos valores se calculan fcilmente
a partir de los resultados de la figura 3.12 como sigue.
Por ltimo, observe que los cuartiles de Minitab Q1 ! 3 457.5 y Q3 ! 3 625 son ligeramente
diferentes de los cuartiles Q1 ! 3 465 y Q3 ! 3 600 calculados en la seccin 3.1. Las distintas
convenciones* que se usaron para identificar los cuartiles explican esta variacin. Por consi-
guiente, los valores Q1 y Q3 proporcionados por una convencin tal vez no sean idnticos a los
derivados de otra convencin. No obstante, cualesquiera diferencias tienden a ser insignificantes
* Con las n observaciones arregladas en orden ascendente (del valor menor al valor mayor), Minitab usa las posiciones
dadas por (n ! 1)/4 y 3(n ! 1)/4 para ubicar a Q1 y Q3, respectivamente. Cuando una posicin es fraccional, Minitab
hace una interpolacin entre los dos valores de datos ordenados adyacentes para determinar el cuartil correspondiente.
Apndice 3.2 Estadstica descriptiva usando Excel 143
y los resultados proporcionados no deben inducir al usuario a errores al hacer las interpretacio-
nes usuales asociadas con los cuartiles.
Enseguida se explicar cmo se generan los estadsticos de la figura 3.12. Los datos de
los sueldos iniciales estn en la columna C2 de la hoja de trabajo de StartSalary. Los pa-
WEB archivo sos siguientes guan para generar los estadsticos descriptivos.
StartSalary
Paso 1. Seleccione el men Stat.
Paso 2. Elija Basic Statistics.
Paso 3. Elija Display Descriptive Statistics.
Paso 4. Cuando el cuadro de dilogo Display Descriptive Statistics aparezca:
Introduzca C2 en el cuadro Variables.
Haga clic en OK.
Diagrama de caja
Los pasos siguientes usan el archivo StartSalary para generar el diagrama de caja sobre los
datos de los sueldos iniciales.
Paso 1. Seleccione el men Graph.
Paso 2. Elija Boxplot.
Paso 3. Seleccione Simple y haga clic en OK.
Paso 4. Cuando aparezca el cuadro de dilogo Boxplot-One Y, Simple:
Introduzca C2 en el cuadro Graph variables.
Haga clic en OK.
Covarianza y correlacin
La tabla 3.6 proporciona el nmero de comerciales y el volumen de ventas de una tienda de
WEB archivo estreos y equipos de sonido. Estos datos estn disponibles en el archivo Stereo; el nmero
Stereo de comerciales se encuentra en la columna C2 y el volumen de ventas en la columna C3. Los
pasos siguientes muestran cmo se usa Minitab para calcular la covarianza de las dos variables.
Paso 1. Seleccione el men Stat.
Paso 2. Elija Basic Statistics.
Paso 3. Elija Covariance.
Paso 4. Cuando el cuadro de dilogo Covariance aparezca:
Introduzca C2 C3 en el cuadro Variables.
Haga clic en OK.
Para obtener el coeficiente de correlacin del nmero de comerciales y el volumen de ventas
slo es necesario realizar un cambio en el procedimiento anterior. En el paso 3 elija la opcin
Correlation.
FIGURA 3.13 Uso de las funciones de Excel para calcular la media, mediana, moda y desviacin estndar
A B C D E F
1 Graduate Starting Salary Mean =AVERAGE(B2:B13)
2 1 3 450 Median =MEDIAN(B2:B13)
3 2 3 550 Mode =MODE(B2:B13)
4 3 3 650 Variance =VAR(B2:B13)
5 4 3 480 Standard Deviation =STDEV(B2:B13)
6 5 3 355
7 6 3 310 A B C D E F
8 7 3 490 1 Graduate Starting Salary Mean 3 540
9 8 3 730 2 1 3 450 Median 3 505
10 9 3 540 3 2 3 550 Mode 3 480
11 10 3 925 4 3 3 650 Variance 27 440.91
12 11 3 520 5 4 3 480 Standard Deviation 165.65
13 12 3 480 6 5 3 355
14 7 6 3 310
8 7 3 490
9 8 3 730
10 9 3 540
11 10 3 925
12 11 3 520
13 12 3 480
14
!AVERAGE(B2:B13)
!COVAR(B2:B11,C2:C11)
FIGURA 3.14 Uso de las funciones de Excel para calcular la covarianza y la correlacin
A B C D E F G
1 Week Commercials Sales Population Covariance =COVAR(B2:B11,C2:C11)
2 1 2 50 Sample Correlation =CORREL(B2:B11,C2:C11)
3 2 5 57
4 3 1 41 A B C D E F G
5 4 3 54 1 Week Commercials Sales Population Covariance 9.90
6 5 4 54 2 1 2 50 Sample Correlation 0.93
7 6 1 38 3 2 5 57
8 7 5 63 4 3 1 41
9 8 3 48 5 4 3 54
10 9 4 59 6 5 4 54
11 10 2 46 7 6 1 38
12 8 7 5 63
9 8 3 48
10 9 4 59
11 10 2 46
12
valores estimados usando las funciones de Excel. Observe que el valor del coeficiente de corre-
lacin muestral (0.93) es el mismo que se calcul usando la ecuacin (3.12). Sin embargo, el
resultado proporcionado por la funcin COVAR de Excel, 9.9, se obtuvo al tratar los datos como
una poblacin. Por tanto, este resultado debe ajustarse para obtener la covarianza muestral. El
ajuste es muy sencillo. Primero note que la frmula de la covarianza poblacional, la ecuacin
(3.11), requiere que se divida entre el nmero total de observaciones en el conjunto de datos,
pero la frmula para la covarianza muestral, la ecuacin (3.10), requiere que se divida entre
el nmero total de observaciones menos 1. Por tanto, para usar el resultado de Excel de 9.9 a
efecto de calcular la covarianza muestral, sencillamente se multiplica 9.9 por n/(n " 1). Como
n ! 10, se obtiene
10
sx y ! 9.9 ! 11
9
Por tanto, la covarianza muestral de los datos de la tienda de estreos y equipos de sonido es 11.
A B C D E F
1 Graduate Starting Salary Starting Salary
2 1 3 450
3 2 3 550 Mean 3540
4 3 3 650 Standard Error 47.82
5 4 3 480 Median 3 505
6 5 3 355 Mode 3 480
7 6 3 310 Standard Deviation 165.65
8 7 3 490 Sample Variance 27 440.91
9 8 3 730 Kurtosis 1.7189
10 9 3 540 Skewness 1.0911
11 10 3 925 Range 615
12 11 3 520 Minimum 3 310
13 12 3 480 Maximum 3 925
14 Sum 42 480
15 Count 12
16
Estadstica descriptiva
Los datos de los sueldos iniciales de la tabla 3.1 son tiles para ilustrar. Primero se ver el uso
WEB archivo de Data Set Manager con el fin de crear un conjunto de datos StatTools para estos datos usando
StartSalary el procedimiento descrito en el apndice del captulo 1. Los pasos siguientes generarn una
variedad de estadsticos descriptivos.
Paso 1. Haga clic en la ficha StatTools de la cinta de opciones.
Paso 2. En Analyses Group, haga clic en Summary Statistics.
Paso 3. Elija la opcin One-Variable Summary.
Apndice 3.3 Estadstica descriptiva usando StatTools 147
Diagramas de caja
Los datos de los sueldos iniciales de la tabla 3.1 se usan para ilustrar. Primero se utiliza Data
Set Manager con el fin crear un conjunto de datos StatTools para estos datos mediante el pro-
cedimiento descrito en el apndice del captulo 1. Los pasos siguientes crearn un diagrama de
caja para estos datos.
Paso 1. Haga clic en la ficha StatTools en la cinta de opciones.
WEB archivo Paso 2. En Analyses Group, haga clic en Summary Graphs.
StartSalary Paso 3. Elija la opcin Box-Whisker Plot.
Paso 4. Cuando el cuadro de dilogo StatToolsBoxWhisker Plot aparezca:
En la seccin Variables seleccione Starting Salary.
Haga clic en OK.
El smbolo se usa para identificar una observacin atpica, y x para identificar la media.
Covarianza y correlacin
Utilizamos los datos de la tienda de estreos y equipos de sonido de la tabla 3.7 para demostrar
el clculo de la covarianza muestral y el coeficiente de correlacin muestral. Primero se usa
Data Set Manager con el fin crear un conjunto de datos StatTools para estos datos por medio
del procedimiento descrito en el apndice del captulo 1. Los pasos siguientes proporcionarn
la covarianza muestral y el coeficiente de correlacin muestral.
Paso 1. Haga clic en la ficha StatTools en la cinta de opciones.
Paso 2. En Analyses Group, haga clic en Summary Statistics.
Paso 3. Elija la opcin Correlation and Covariance.
WEB archivo Paso 4. Cuando el cuadro de dilogo StatToolsCorrelation and Covariance aparezca:
Stereo En la seccin Variables:
Elija No. of Commercials.
Seleccione Sales Volume.
En la seccin Tables to Create:
Seleccione Table of Correlations.
Elija Table of Covariances.
En la seccin Table Structure, seleccione Symmetric.
Haga clic en OK.
Una tabla muestra el coeficiente de correlacin y la covarianza aparecer.
CAPTULO 4
Introduccin
a la probabilidad
CONTENIDO 4.3 ALGUNAS RELACIONES
ESTADSTICA EN LA PRCTICA: BSICAS DE
OCEANWIDE SEAFOOD PROBABILIDAD
Complemento de un evento
4.1 EXPERIMENTOS, REGLAS DE Ley de la adicin
CONTEO Y ASIGNACIN
DE PROBABILIDADES 4.4 PROBABILIDAD
Reglas de conteo, combinaciones CONDICIONAL
y permutaciones Eventos independientes
Asignacin de probabilidades Ley de la multiplicacin
Probabilidades para el proyecto 4.5 TEOREMA DE BAYES
de KP&L Mtodo tabular
4.2 EVENTOS Y SUS
PROBABILIDADES
Estadstica en la prctica 149
ESTADSTICA en LA PRCTICA
OCEANWIDE SEAFOOD*
SPRINGBORO, OHIO
Oceanwide Seafood es el principal proveedor de pescado
y mariscos de calidad del suroeste de Ohio. La empresa
vende ms de 90 variedades de mariscos frescos y congela-
dos de todo el mundo y prepara cortes especiales segn las
especificaciones de sus clientes, que incluyen los principa-
les restaurantes y minoristas de alimentos en Ohio, Ken-
tucky e Indiana. La empresa, fundada en 2005, ha logrado
tener xito al proporcionar un excelente servicio al cliente
y mariscos de calidad excepcional.
La probabilidad y la informacin estadstica se utilizan
para la toma de decisiones operativas y de marketing. Por
ejemplo, para seguir la pista del crecimiento de la empresa
y establecer los futuros niveles meta de ventas, se utiliza El atn de aleta azul se enva a Oceanwide Seafood casi
una serie de tiempo que muestra las ventas mensuales. Es- todos los das. Gregor Kervina, 2009/Fotografa usada
tadsticos como el tamao medio de los pedidos del cliente con autorizacin de Shutterstock.com.
y el nmero medio de das que tarda en hacer los pagos
ayudan a identificar a los mejores clientes de la empresa, costo de $6.67 por libra para que el precio que fija a sus
as como a proporcionar puntos de referencia para el manejo clientes sea rentable.
de los problemas de las cuentas por cobrar. Adems, los Para ayudar a determinar el porcentaje del rendimien-
datos sobre los niveles mensuales de inventario se usan en to probable del procesamiento y corte de atn entero, se
el anlisis de la utilidad de operacin y las tendencias en las recabaron datos sobre el rendimiento de una muestra del
ventas de productos. producto entero. La variable y denota el porcentaje de ren-
El anlisis de probabilidad ha ayudado a Oceanwide dimiento del producto. Utilizando los datos, Oceanwide
a determinar precios razonables y rentables para sus pro- pudo determinar que 5% de las veces dicho rendimiento
ductos. Por ejemplo, cuando recibe un pescado entero fue por lo menos de 90%. En la notacin de probabilidad
fresco de uno de sus proveedores, ste se procesa y corta condicional, sta se escribe P(Y % 90% | atn) ! 0.05; es
para cumplir con los pedidos de cada cliente. Un atn ente- decir, la probabilidad de que el rendimiento sea por lo me-
ro fresco de 100 libras conservado en hielo podra costarle nos de 90%, teniendo en cuenta que el pescado es un atn,
a Oceanwide $500. A simple vista, el costo para la empresa es 0.05. Si Oceanwide estableci el precio de venta del pro-
parece ser $500/100 ! $5 por libra. Sin embargo, debido ducto sobre la base de un rendimiento de 90%, la empresa
a la prdida en la operacin de procesamiento y corte, un obtendr un rendimiento menor al esperado 95% de las ve-
atn entero de 100 libras no proporcionar 100 libras de ces. Como resultado, estara subestimando su costo por li-
producto terminado. Si la operacin de procesamiento y bra y tambin el precio para sus clientes. Otra informacin
corte produce 75% del atn entero, el nmero de libras de de probabilidad condicional para otros porcentajes de ren-
producto terminado disponible para vender a los clientes dimiento ayudaron a la gerencia a seleccionar un rendi-
sera 0.75(100) ! 75 libras, no 100 libras. En este caso, el miento de 70% como base para determinar el costo del atn
costo real del atn para la empresa sera $500/75 ! $6.67 y el precio que fija para sus clientes. Probabilidades condi-
por libra. Por tanto, Oceanwide necesitara determinar un cionales parecidas sobre otros productos del mar permitie-
ron establecer porcentajes para fijar precios por rendimiento
para cada tipo de producto del mar. En este captulo usted
* Los autores agradecen a Dale Hartlage, presidente de Oceanwide aprender a calcular e interpretar las probabilidades con-
Seafood Company, por proporcionar este artculo para la seccin Es- dicionales y otras ms que son tiles en el proceso de toma
tadstica en la prctica. de decisiones.
Los gerentes o administradores suelen basar sus decisiones en un anlisis de incertidumbre como
los siguientes:
1. Qu posibilidades hay de que las ventas disminuyan si los precios aumentan?
2. Cul es la probabilidad de que un nuevo mtodo de ensamble mejore la productividad?
3. Qu tan probable es que este proyecto se complete a tiempo?
4. Qu posibilidad hay de que una nueva inversin sea rentable?
150 Captulo 4 Introduccin a la probabilidad
Algunos de los primeros La probabilidad es una medida numrica de la posibilidad de que un evento ocurra. Por
trabajos sobre probabilidad tanto, se utiliza como una medida del grado de incertidumbre asociado con cada uno de los cua-
tuvieron su origen en una
tro eventos previamente listados. Si las probabilidades estn disponibles, se puede determinar
serie de cartas entre Pierre
de Fermat y Blaise Pascal la posibilidad de ocurrencia de cada evento.
en la dcada de 1650. Los valores de probabilidad siempre se asignan en una escala de 0 a 1. Una probabilidad
cercana a 0 indica que es poco probable que un evento ocurra, una probabilidad cercana a 1 in-
dica que es casi seguro que un evento se produzca. Otras probabilidades entre 0 y 1 representan
grados de posibilidad de que un evento ocurra. Por ejemplo, si se considera el evento lluvia
para maana, se entiende que cuando el informe del clima indica una probabilidad de llu-
via casi nula, significa que la posibilidad de lluvia es muy baja. Sin embargo, si se informa
una probabilidad de 0.90 de que llueva, es probable que llueva. Una medida de 0.50 indica
que la probabilidad de que llueva es igual a la de que no llueva. La figura 4.1 representa el pun-
to de vista de la probabilidad como una medida numrica de la posibilidad de que un evento
ocurra.
Cuando se especifican todos los resultados posibles del experimento, el espacio muestral
de ste queda definido.
ESPACIO MUESTRAL
A los resultados del Un resultado experimental tambin se conoce como punto de la muestra para identificarlo
experimento tambin se les como un elemento del espacio muestral.
llama puntos de la muestra.
0 0.5 1.0
Probabilidad:
S ! {cara, cruz}
El espacio muestral para el segundo experimento de la tabla, en el que se selecciona una parte
para inspeccionarla, se describe como sigue:
Los dos ejemplos que se acaban de describir tienen dos resultados del experimento (puntos de
la muestra). Sin embargo, suponga que se considera el cuarto caso listado en la tabla: el tiro
de un dado. Los resultados del experimento posibles, que se definen como el nmero de pun-
tos que tiene la cara superior del dado, son los seis puntos del espacio muestral de este expe-
rimento.
S ! {1, 2, 3, 4, 5, 6}
Por tanto, hay cuatro resultados experimentales posibles. En este caso, es fcil listarlos todos.
La regla de conteo para experimentos de pasos mltiples permite determinar el nmero de
resultados del experimento sin listarlos.
FIGURA 4.2 Diagrama de rbol para el experimento del lanzamiento de dos monedas
Resultado
Paso 1 Paso 2 experimental
Primer lanzamiento Segundo lanzamiento (puntos de la muestra)
(H, H )
Cara
Cruz
a
Car
(H, T )
Cru (T, H )
z Cara
Cruz
(T, T )
Sin el diagrama de rbol, Un diagrama de rbol es una representacin grfica que ayuda a visualizar un experimento
podra pensarse que de pasos mltiples. La figura 4.2 muestra un diagrama de rbol para el experimento del lan-
hay slo tres resultados zamiento de dos monedas. La secuencia de pasos va de izquierda a derecha a travs del rbol.
experimentales posibles
para dos lanzamientos de
El paso 1 corresponde al lanzamiento de la primera moneda y el paso 2, al lanzamiento de la
una moneda: 0 caras, segunda. En cada paso, los dos resultados posibles son cara o cruz. Observe que a cada resultado
1 cara y 2 caras. posible del paso 1 le corresponden las dos ramas de los dos resultados posibles del paso 2. Ca-
da uno de los puntos en el extremo derecho del rbol representa un resultado experimental. Cada
trayectoria que recorre por el rbol desde el nodo que est en el extremo izquierdo hasta uno de
los nodos en el extremo derecho es una secuencia nica de resultados.
Ahora se explicar cmo se utilizan la reglas de conteo para experimentos de pasos mlti-
ples mediante el anlisis de un proyecto de expansin de Kentucky Power & Light Company
(KP&L), el cual tiene la finalidad de incrementar la capacidad de generacin de una de sus plan-
tas en el norte de Kentucky. El proyecto est dividido en dos etapas o pasos secuenciales: etapa
1 (diseo) y etapa 2 (construccin). Aun cuando cada una se programar y controlar lo ms
detalladamente posible, la gerencia no puede predecir el tiempo exacto requerido para comple-
tar cada etapa. Un anlisis de proyectos de construccin similares revel que la duracin posible
de la etapa de diseo sera de 2, 3 o 4 meses y la duracin probable de la fase de construccin
sera de 6, 7 u 8 meses. Adems, debido a la necesidad apremiante de tener ms electricidad, la
gerencia fij una meta de 10 meses para completar todo el proyecto.
Como este proyecto tiene tres tiempos de terminacin posibles para la etapa de diseo (pa-
so 1) y tres tiempos de terminacin posibles para la de construccin (paso 2), se aplica la regla
de conteo para los experimentos de pasos mltiples para determinar un total de (3)(3) ! 9 re-
sultados del experimento. Para describir dichos resultados se utiliza una notacin de dos n-
meros; por ejemplo, (2, 6) indica que la etapa de diseo se completar en 2 meses y la de
construccin en 6. Este resultado experimental implica un total de 2 # 6 ! 8 meses para com-
pletar todo el plan. La tabla 4.1 resume los nueve resultados del experimento del problema de
KP&L. El diagrama de rbol de la figura 4.3 muestra cmo ocurren los nueve resultados (pun-
tos de la muestra).
La regla de conteo y el diagrama de rbol ayudan al gerente de proyectos a identificar
los resultados del experimento y a determinar la duracin posible del proyecto. A partir de la
4.1 Experimentos, reglas de conteo y asignacin de probabilidades 153
TABLA 4.1 Resultados del experimento (puntos de la muestra) del proyecto de KP&L
Duracin (meses)
Etapa 1 Etapa 2 Notacin para resultados Duracin total
Diseo Construccin del experimento del proyecto (meses)
2 6 (2, 6) 8
2 7 (2, 7) 9
2 8 (2, 8) 10
3 6 (3, 6) 9
3 7 (3, 7) 10
3 8 (3, 8) 11
4 6 (4, 6) 10
4 7 (4, 7) 11
4 8 (4, 8) 12
Resultado
Paso 1 Paso 2 experimental Duracin total
Diseo Construccin (puntos de la muestra) del proyecto
(2, 6) 8 meses
.
6m
7 m.
(2, 7) 9 meses
8m
.
(2, 8) 10 meses
.
2m
(3, 6) 9 meses
.
6m
3 m. 7 m.
(3, 7) 10 meses
8m
.
(3, 8) 11 meses
4m
.
(4, 6) 10 meses
.
6m
7 m.
(4, 7) 11 meses
8m
.
(4, 8) 12 meses
154 Captulo 4 Introduccin a la probabilidad
informacin de la figura 4.3 se ve que ste durar de 8 a 12 meses, y que seis de los nueve re-
sultados del experimento tienen la duracin deseada de 10 meses o menos. Aun cuando la iden-
tificacin de los resultados del experimento puede parecer til, es necesario considerar cmo
se asignan los valores de probabilidad a dichos resultados antes de evaluar la probabilidad de
que el proyecto se complete dentro de los 10 meses deseados.
Combinaciones Una segunda regla de conteo til permite contar el nmero de resultados
cuando el experimento consiste en la seleccin de n objetos de un conjunto (generalmente ma-
yor) de N objetos. sta se conoce como regla de conteo para combinaciones.
N N!
C nN ! ! (4.1)
n n!(N " n)!
Por tanto, 10 resultados son posibles para el experimento de seleccin de dos partes al azar de
un grupo de cinco. Si las cinco partes se etiquetan como A, B, C, D y E, las 10 combinaciones
o resultados del experimento son AB, AC, AD, AE, BC, BD, BE, CD, CE y DE.
Como otro ejemplo, considere el sistema de lotera de Florida que utiliza la seleccin al azar
de seis enteros de un grupo de 53 para determinar al ganador de la semana. La regla de conteo
para combinaciones, la ecuacin (4.1), se utiliza para determinar el nmero de maneras en que
seis enteros diferentes pueden seleccionarse de un grupo de 53.
La regla de conteo para La regla de conteo para combinaciones establece que casi 23 millones de resultados experi-
combinaciones muestra que mentales son posibles en el sorteo de la lotera. Una persona que compra un billete tiene 1 opor-
el evento de ganar la lotera
es muy poco probable.
tunidad en 22 957 480 de ganar.
Permutaciones Una tercera regla de conteo que en ocasiones es til es la regla de conteo
para permutaciones. sta permite que una persona calcule el nmero de resultados experimen-
tales cuando se seleccionan n objetos de un conjunto de N objetos y el orden de seleccin es
4.1 Experimentos, reglas de conteo y asignacin de probabilidades 155
N N!
P nN ! n! ! (4.2)
n (N " n)!
5! 5! (5)(4)(3)(2)(1) 120
P 52 ! ! ! ! ! 20
(5 " 2)! 3! (3)(2)(1) 6
Por tanto, hay 20 resultados posibles para el experimento de seleccionar dos partes al azar de un
grupo de cinco cuando se toma en cuenta el orden de seleccin. Si las partes se etiquetan como
A, B, C, D y E, las 20 permutaciones son AB, BA, AC, CA, AD, DA, AE, EA, BC, CB, BD,
DB, BE, EB, CD, DC, CE, EC, DE y ED.
Asignacin de probabilidades
Ahora se explicar cmo asignar las probabilidades a los resultados del experimento. Los en-
foques de tres pasos ms usuales son el mtodo clsico, el de frecuencia relativa y el subjetivo.
Sea cual fuere el mtodo empleado, se deben cumplir dos requisitos bsicos para la asignacin
de probabilidades.
2. La suma de las probabilidades para todos los resultados del experimento debe ser
igual a 1. Para n resultados, este requisito se escribe como
Como ejemplo, considere el experimento del lanzamiento de una moneda sin truco; los
dos resultados, es decir, cara y cruz, son igualmente probables. Dado que uno de los dos resul-
tados igualmente probables es una cara, la probabilidad de observar una cara es 1/2, o 0.50.
Asimismo, la probabilidad de observar una cruz tambin es 1/2 o 0.50.
En otro ejemplo, considere el experimento de arrojar un dado. Parecera razonable concluir
que los seis resultados posibles son igualmente probables y, por consiguiente, a cada resultado
se le asigna una probabilidad de 1/6. Si P(1) denota la probabilidad de que un punto aparezca
en la cara superior del dado, entonces P(1) ! 1/6. De igual manera, P(2) ! 1/6, P(3) ! 1/6,
P(4) ! 1/6, P(5) ! 1/6 y P(6) ! 1/6. Observe que estas probabilidades satisfacen los dos re-
quisitos bsicos de las ecuaciones (4.3) y (4.4), ya que cada una es mayor o igual que cero y
suman 1.0.
El mtodo de frecuencia relativa de asignacin de probabilidades es apropiado cuando
los datos estn disponibles para estimar la proporcin del tiempo en que ocurrir el resultado si
el experimento se repite un gran nmero de veces. Como ejemplo considere un estudio de los
tiempos de espera en el departamento de rayos X para un hospital local. Un empleado registr el
nmero de pacientes que esperan el servicio a las 9:00 a.m. durante 20 das sucesivos y obtuvo
los resultados siguientes.
Estos datos arrojan que en 2 de los 20 das, cero pacientes esperaban por el servicio; en
5 de los das, un paciente esperaba por el servicio, etc. Utilizando el mtodo de la frecuencia
relativa, se asignara una probabilidad de 2/20 ! 0.10 para el resultado experimental de cero
pacientes esperando; 5/20 ! 0.25 para un paciente que espera; 6/20 ! 0.30 para dos pacientes;
4/20 ! 0.20 para tres sujetos y 3/20 ! 0.15 para cuatro. Al igual que con el mtodo clsico, el
uso del mtodo de la frecuencia relativa cumple automticamente con los dos requisitos bsi-
cos de las ecuaciones (4.3) y (4.4).
El mtodo subjetivo de asignacin de probabilidades es ms apropiado cuando no se puede
asumir en forma realista que los resultados del experimento son igualmente probables y cuando
se dispone de pocos datos relevantes. Cuando el mtodo subjetivo se utiliza para asignar pro-
babilidades a los resultados del experimento, es posible usar cualquier informacin disponible,
como nuestra experiencia o intuicin. Despus de considerar toda la informacin disponible, un
valor de probabilidad que expresa nuestro grado de creencia (en una escala de 0 a 1) de que el
resultado experimental ocurrir se especifica. Debido a que la probabilidad subjetiva expresa
el grado de creencia de una persona, es personal. Utilizando este mtodo, se puede esperar que
distintas personas asignen probabilidades diferentes al mismo resultado experimental.
El mtodo subjetivo exige un cuidado especial para asegurar que los dos requisitos bsicos
de las ecuaciones (4.3) y (4.4) se satisfagan. Sin considerar el grado de creencia de una perso-
na, el valor de la probabilidad asignada a cada resultado experimental debe ser de entre 0 y 1,
inclusive, y la suma de todas las probabilidades para los resultados experimentales debe ser
igual a 1.0.
Considere el caso en el que Tom y Judy Elsbernd hacen una oferta para comprar una casa.
Hay dos resultados posibles:
E1 ! su oferta es aceptada
E2 ! su oferta es rechazada
4.1 Experimentos, reglas de conteo y asignacin de probabilidades 157
Judy cree que la probabilidad de que su oferta sea aceptada es de 0.8; por tanto, establecera
P(E1 ) ! 0.8 y P(E 2 ) ! 0.2. Tom, no obstante, cree que la probabilidad de que su oferta se acepte
es de 0.6; por consiguiente, establecera P(E1 ) ! 0.6 y P(E 2 ) ! 0.4. Note que la estimacin
de la probabilidad para E1 de Tom refleja un pesimismo mayor de que su oferta ser aceptada.
El teorema de Bayes Tanto las probabilidades asignadas de Judy como las de Tom satisfacen los dos requisitos
(vea la seccin 4.5) bsicos. El hecho de que sus estimaciones sean diferentes recalca la naturaleza personal del
proporciona un medio mtodo subjetivo.
para combinar de manera
subjetiva determinadas
Aun cuando en las situaciones de negocios puede aplicarse ya sea el mtodo clsico o el
probabilidades previas con mtodo de frecuencia relativa, los gerentes tal vez quieran proporcionar estimaciones de proba-
las probabilidades obtenidas bilidad subjetivas. En estos casos, las mejores estimaciones con frecuencia se obtienen al com-
por otros medios para binar las estimaciones de los mtodos clsico y de frecuencia relativa con las de probabilidad
lograr las probabilidades subjetivas.
revisadas, o posteriores.
Nmero de
Duracin (meses) proyectos anteriores
Etapa 1 Etapa 2 con estos tiempos
Diseo Construccin Punto de muestreo de terminacin
2 6 (2, 6) 6
2 7 (2, 7) 6
2 8 (2, 8) 2
3 6 (3, 6) 4
3 7 (3, 7) 8
3 8 (3, 8) 2
4 6 (4, 6) 2
4 7 (4, 7) 4
4 8 (4, 8) 6
Total 40
158 Captulo 4 Introduccin a la probabilidad
TABLA 4.3 Asignaciones de probabilidad para el proyecto de KP&L con base en el mtodo
de frecuencia relativa
NOTAS Y COMENTARIOS
Ejercicios
Mtodos
1. Un experimento consta de tres pasos con tres resultados posibles para el primer paso, dos re-
sultados posibles para el segundo y cuatro para el tercero. Cuntos resultados experimentales
existen para todo el experimento?
2. De cuntas maneras pueden seleccionarse tres elementos de un grupo de seis? Utilice las le-
AUTO evaluacin tras A, B, C, D, E y F para identificar los elementos y elabore una lista cada una de las distintas
combinaciones de tres elementos.
3. Cuntas permutaciones de tres elementos pueden seleccionarse de un grupo de seis? Utili-
ce las letras A, B, C, D, E y F para identificar los elementos y elabore una lista de cada una de
las permutaciones de B, D y F.
4. Considere el experimento de lanzar una moneda tres veces.
a) Elabore un diagrama de rbol para el experimento.
b) Prepare una lista de los resultados del experimento.
c) Cul es la probabilidad para cada resultado experimental?
5. Suponga que un experimento tiene cinco resultados igualmente probables: E1, E 2, E3, E4, E5.
Asigne probabilidades a cada resultado y muestre que se cumplen los requisitos de las ecua-
ciones (4.3) y (4.4). Qu mtodo utiliz?
6. Un experimento con tres resultados se repiti 50 veces y mostr que E1 ocurri 20 veces, E 2
AUTO evaluacin 13 veces y E3 17 veces. Asigne probabilidades a los resultados. Qu mtodo us?
7. Alguien que toma decisiones asign de manera subjetiva las probabilidades siguientes a los cua-
tro resultados de un experimento: P(E1 ) ! 0.10, P(E 2 ) ! 0.15, P(E3 ) ! 0.40 y P(E4 ) ! 0.20.
Son vlidas estas asignaciones de probabilidad? Explique por qu.
4.1 Experimentos, reglas de conteo y asignacin de probabilidades 159
Aplicaciones
8. En la ciudad de Mildford, las aplicaciones para los cambios de zonificacin pasan por un
proceso de dos pasos: una revisin de la comisin de planeacin y una decisin final del con-
sejo ciudadano. En el paso 1 la comisin de planeacin revisa el cambio de zona solicitado y
hace una recomendacin positiva o negativa respecto de ese cambio. En el paso 2 el consejo
ciudadano revisa la recomendacin y luego vota para aprobar o desaprobar el cambio de zona.
Suponga que el desarrollador de un complejo de departamentos presenta una solicitud para un
cambio de zona. Considere el proceso de aplicacin como un experimento.
a) Cuntos puntos de la muestra hay para este experimento? Lstelos.
b) Construya un diagrama de rbol para el experimento.
9. El muestreo aleatorio simple utiliza una muestra de tamao n de una poblacin de tamao N
AUTO evaluacin para obtener datos que se pueden usar para hacer inferencias sobre las caractersticas de una
poblacin. Suponga que de una poblacin de 50 cuentas bancarias se quiere tomar una muestra
al azar de cuatro cuentas con el fin de aprender acerca de la poblacin. Cuntas muestras al
azar diferentes de las cuatro cuentas son posibles?
10. En Estados Unidos, muchos estudiantes han acumulado una deuda cuando se gradan de la
AUTO evaluacin universidad. En la tabla siguiente se muestra el porcentaje de graduados que al terminar han
acumulado una deuda y el monto medio de sta para los estudiantes de cuatro universidades y
cuatro colegios de arte (U.S. News and World Report, Americas Best Colleges, 2008).
Universidad % con deuda Monto ($) Colegio % con deuda Monto ($)
Pace 72 32 980 Wartburg 83 28 758
Iowa State 69 32 130 Morehouse 94 27 000
Massachusetts 55 11 227 Wellesley 55 10 206
SUNY-Albany 64 11 856 Wofford 49 11 012
a) Para Estados Unidos, cul es la probabilidad de que un conductor use cinturn de segu-
ridad?
b) La probabilidad de uso del cinturn para un conductor estadounidense un ao antes fue
de 0.75. El jefe de la NHTSA, el Dr. Jeffrey Runge, haba esperado una probabilidad de
0.78 en 2003. Se sentira complacido con los resultados de la encuesta de 2003?
c) Cul es la probabilidad del uso del cinturn de seguridad por regin del pas? En qu
regin se usa ms?
d) Qu proporcin de los conductores de la muestra proviene de cada regin del pas? Qu
regin tuvo la mayora de conductores selecionados? Cul tuvo la segunda mayora?
e) Suponiendo que el nmero total de conductores de cada regin es el mismo, ve usted
alguna razn por la cual la estimacin de probabilidad del inciso a) podra ser demasiado
alta? Explique.
12. La lotera Powerball se juega dos veces a la semana en 28 estados, las Islas Vrgenes y el dis-
trito de Columbia. Para jugarla, un participante debe comprar un boleto y luego seleccionar
cinco dgitos de los nmeros de 1 al 55 y un nmero de Powerball de los dgitos 1 al 42. Para
determinar los nmeros ganadores para cada juego, los oficiales de la lotera extrajeron cinco
bolas blancas de una urna con 55 bolas blancas y una bola roja de una urna con 42 bolas ro-
jas. Para ganar la lotera, los nmeros de un participante deben coincidir con los de las cinco
bolas blancas en cualquier orden y con el nmero de la bola Powerball roja. Ocho colabora-
dores de la planta ConAgra Foods en Lincoln, Nebraska, reclamaron el premio mayor rcord
de $365 millones el 18 de febrero de 2006, al coincidir los nmeros 15-17-43-44-49 y la bola
Powerball nmero 29. Otros premios en efectivo se otorgan cada vez que el juego se reali-
za. Por ejemplo, se paga un premio de $200 000 si los cinco nmeros del participante coinciden
con los nmeros de las cinco bolas blancas (sitio de Powerball, 19 de marzo de 2006).
a) Calcule el nmero de formas en que los primeros cinco nmeros pueden ser seleccionados.
b) Cul es la probabilidad de ganar un premio de $200 000 por coincidir los nmeros de las
cinco bolas blancas?
c) Cul es la probabilidad de ganar el premio mayor Powerball?
13. Una empresa que fabrica pasta dental estudia cinco diseos de empaque diferentes. Suponien-
do que un diseo tiene igual probabilidad de ser seleccionado por un consumidor como cual-
quier otro, qu probabilidad de seleccin asignara a cada uno de los diseos de empaque?
En un experimento real se pidi a 100 consumidores que seleccionaran el diseo de su prefe-
rencia. Se obtuvieron los datos siguientes. Los datos confirman la creencia de que un diseo
tiene la misma probabilidad de ser seleccionado que otro? Explique por qu.
Nmero de
Diseo veces preferido
1 5
2 15
3 30
4 40
5 10
EVENTO
Como ejemplo, retome el proyecto de KP&L y suponga que el gerente est interesado en
el evento de que el proyecto completo se termine en 10 meses o menos. Al observar la tabla 4.3
se ve que seis puntos de la muestra (2, 6), (2, 7), (2, 8), (3, 6), (3, 7) y (4, 6) proporcionan
una duracin de 10 meses o menos. C denota el evento de que el proyecto dure 10 meses o
menos; escribimos
C ! {(2, 6), (2, 7), (2, 8), (3, 6), (3, 7), (4, 6)}
Se dice que el evento C ocurre si cualquiera de estos seis puntos de la muestra aparece como el
resultado experimental.
Otros eventos que podran ser de inters para la gerencia de KP&L son los siguientes.
Con ayuda de la informacin de la tabla 4.3, vemos que estos eventos constan de los puntos de
la muestra siguientes:
L ! {(2, 6), (2, 7), (3, 6)}
M ! {(3, 8), (4, 7), (4, 8)}
Una variedad de eventos adicionales puede definirse para el proyecto de KP&L, pero en cada
caso el evento debe identificarse como una coleccin de puntos de la muestra para el expe-
rimento.
Dadas las probabilidades de los puntos de la muestra mostrados en la tabla 4.3, podemos
utilizar la definicin siguiente para calcular la probabilidad de cualquier evento que la gerencia
de KP&L podra desear considerar.
PROBABILIDAD DE UN EVENTO
De modo parecido, debido a que el evento de que el proyecto se complete en menos de 10 meses
est dado por L ! {(2, 6), (2, 7), (3, 6)}, la probabilidad de este evento est determinada por
Por ltimo, para el evento de que el proyecto se termine en ms de 10 meses, tenemos M ! {(3,
8), (4, 7), (4, 8)}, y por tanto
P(M) ! P(3, 8) # P(4, 7) # P(4, 8)
! 0.05 # 0.10 # 0.15 ! 0.30
162 Captulo 4 Introduccin a la probabilidad
NOTAS Y COMENTARIOS
1. El espacio muestral, S, es un evento. Debido a que del experimento son igualmente probables. En es-
contiene todos los resultados del experimento, tie- tos casos, la probabilidad de un evento se calcula
ne una probabilidad de 1; es decir, P(S) ! 1. contando el nmero de resultados del experimen-
2. Cuando se utiliza el mtodo clsico para asignar to en el evento y dividiendo el resultado entre el
probabilidades, el supuesto es que los resultados nmero total de resultados del experimento.
Ejercicios
Mtodos
14. Un experimento tiene cuatro resultados igualmente probables: E1, E 2, E3 y E4.
a) Cul es la probabilidad de que E 2 ocurra?
b) Cul es la probabilidad de que cualesquiera de los dos resultados ocurran (por ejemplo,
E1 o E3 )?
c) Cul es la probabilidad de que cualesquiera de los tres resultados ocurran (por ejem-
plo, E1 o E 2 o E4 )?
15. Considere el experimento de seleccionar una carta de una baraja de 52 cartas. Cada carta co-
AUTO evaluacin rresponde a un punto muestral con una probabilidad de 1/52.
a) Elabore una lista de los puntos de la muestra en el evento de seleccionar un as.
b) Liste los puntos de la muestra en el evento de elegir una carta de bastos.
c) Elabore una lista de los puntos de la muestra en el evento de seleccionar una figura (jota,
reina o rey).
d) Calcule las probabilidades asociadas con cada uno de los eventos de los incisos a), b) y c).
16. Considere el experimento de arrojar un par de dados. Suponga que le interesa la suma de los
valores de las caras mostradas en el dado.
a) Cuntos puntos de la muestra son posibles? (Sugerencia: utilice la regla de conteo para
los experimentos de pasos mltiples.)
b) Elabore una lista de los puntos de la muestra.
c) Cul es la probabilidad de obtener un valor de 7?
d) Cul es la probabilidad de obtener un valor de 9 o mayor?
e) Debido a que cada tiro tiene seis valores pares de eventos posibles (2, 4, 6, 8, 10 y 12) y
slo cinco valores impares posibles (3, 5, 7, 9 y 11), el dado debe mostrar ms a menudo
valores pares que impares. Est usted de acuerdo con este enunciado? Explique.
f ) Qu mtodo utiliz para asignar las probabilidades requeridas?
4.2 Eventos y sus probabilidades 163
Aplicaciones
17. Revise los puntos de la muestra de KP&L y las probabilidades de los puntos de la muestra de
AUTO evaluacin las tablas 4.2 y 4.3.
a) La etapa de diseo (etapa 1) rebasar el presupuesto si tarda 4 meses en completarse. Ela-
bore una lista de los puntos de la muestra en el evento de que la etapa de diseo sobrepase
el presupuesto.
b) Cul es la probabilidad de que la etapa de diseo rebase el presupuesto?
c) La etapa de construccin (etapa 2) rebasar el gasto presupuestado si tarda 8 meses en
completarse. Elabore una lista de los puntos de la muestra en el evento de que la etapa
de construccin sobrepase el presupuesto.
d) Cul es la probabilidad de que la fase de construccin rebase el presupuesto?
e) Cul es la probabilidad de que ambas etapas lo sobrepasen?
18. Para investigar con qu frecuencia las familias suelen comer en casa, Harris Interactive encues-
t a 496 adultos que vivan con nios menores de 18 aos (USA Today, 3 de enero de 2007).
Los resultados de la encuesta se muestran en la tabla siguiente.
Nmero de Nmero de
comidas familiares respuestas a
por semana la encuesta
0 11
1 11
2 30
3 36
4 36
5 119
6 114
7 o ms 139
Para una familia seleccionada al azar con nios menores de 18 aos, calcule lo siguiente:
a) La probabilidad de que la familia no coma en casa durante la semana.
b) La probabilidad de que la familia coma por lo menos cuatro veces en casa durante la
semana.
c) La probabilidad de que la familia coma dos o menos veces en casa durante la semana.
19. La National Sporting Goods Association realiz una encuesta a personas de 7 aos de edad o
mayores acerca de su participacin en actividades deportivas (Statistical Abstract of the United
States, 2002). La poblacin total en este grupo de edades se report en 248.5 millones, con
120.9 millones de hombres y 127.6 millones de mujeres. El nmero de participantes para las
cinco actividades deportivas principales se muestra enseguida.
Participantes (millones)
Actividad Hombre Mujer
Ciclismo 22.2 21.0
Acampar 25.6 24.3
Ejercitarse caminando 28.7 57.7
Ejercitarse con equipo 20.4 24.4
Nadar 26.4 34.4
a) Para una mujer seleccionada al azar, estime la probabilidad de participacin en cada una
de las actividades deportivas.
b) Para un hombre seleccionado al azar, calcule la probabilidad de participacin en cada
una de las actividades deportivas.
c) Para una persona seleccionada al azar, cul es la probabilidad de que se ejercite cami-
nando?
d) Suponga que acaba de ver a una persona que se ejercita caminando. Cul es la probabili-
dad de que se trate de una mujer? Cul es la probabilidad de que sea hombre?
164 Captulo 4 Introduccin a la probabilidad
20. La revista Fortune publica una lista anual de las 500 empresas ms grandes de Estados Unidos.
Los datos siguientes muestran los cinco estados con el nmero ms grande de empresas Fortune
500 (The New York Times Almanac, 2006).
Nmero de
Estado empresas
Nueva York 54
California 52
Texas 48
Illinois 33
Ohio 30
Suponga que una empresa Fortune 500 es elegida al azar para un cuestionario de seguimiento.
Cules son las probabilidades de los eventos siguientes?
a) Sea N el evento de que las oficinas corporativas de la empresa tienen su sede en Nueva
York. Calcule P(N ).
b) Sea T el evento de que las oficinas corporativas de la empresa tienen su sede en Texas.
Calcule P(T ).
c) Sea B el evento de que la sede de las oficinas corporativas de la empresa est en estos cin-
co estados. Calcule P(B).
21. La poblacin adulta estadounidense por edad es la siguiente (The World Almanac, 2009). Los
datos se proporcionan en millones de personas.
Edad Nmero
18 a 24 29.8
25 a 34 40.0
35 a 44 43.4
45 a 54 43.9
55 a 64 32.7
65 y ms 37.8
P(A) ! P(Ac ) ! 1
4.3 Algunas relaciones bsicas de probabilidad 165
Espacio muestral S
Evento A Ac
Complemento
del evento A
Se puede concluir que un contacto de un cliente nuevo tiene una probabilidad de 0.20 de gene-
rar una venta.
En otro ejemplo, un agente de compras establece una probabilidad de 0.90 de que un pro-
veedor enve mercanca sin partes defectuosas. Utilizando el complemento, se puede concluir
que hay una probabilidad de 1 " 0.90 ! 0.10 de que la mercanca contenga partes defectuosas.
Ley de la adicin
La ley de la adicin es til cuando interesa conocer la probabilidad de que ocurra por lo me-
nos uno de dos eventos. Es decir, con los eventos A y B nos interesa conocer la probabilidad de
que ocurra el evento A o el evento B, o ambos.
Antes de presentar la ley de la adicin, debemos estudiar dos conceptos relacionados con la
combinacin de eventos: la unin de eventos y la interseccin de eventos. Dados dos eventos A
y B, la unin de A y B se define como sigue.
La unin de A y B es el evento que contiene todos los puntos de la muestra que pertene-
cen a A o B o ambos. La unin se denota mediante A " B.
El diagrama de Venn de la figura 4.5 representa la unin de los eventos A y B. Observe que
los dos crculos contienen todos los puntos de la muestra del evento A, as como todos los puntos
166 Captulo 4 Introduccin a la probabilidad
Espacio muestral S
Evento A Evento B
de la muestra del evento B. El hecho de que los crculos se traslapen indica que algunos pun-
tos de la muestra estn contenidos tanto en A como en B.
A continuacin se presenta la definicin de interseccin de A y B.
LEY DE LA ADICIN
Espacio muestral S
Evento A Evento B
4.3 Algunas relaciones bsicas de probabilidad 167
Para entender de manera intuitiva la ley de la adicin, considere que los dos primeros trmi-
nos de la ley, P(A) # P(B), representan todos los puntos de la muestra en A " B. Sin embar-
go, debido a que los puntos de la muestra en la interseccin A # B estn en A y en B, cuando
se calcula P(A) # P(B), en realidad se estn contando dos veces cada uno de los puntos de la
muestra en A # B. Este conteo excesivo se corrige al restar P(A # B).
Como ejemplo de una aplicacin de la ley de la adicin, considere el caso de una pequea
planta de ensamble con 50 empleados. Se espera que cada trabajador complete las asignaciones
de trabajo a tiempo y de tal manera que el producto ensamblado apruebe la inspeccin final.
De vez en cuando, algunos trabajadores no cumplen con los estndares de desempeo, ya que
terminan la tarea con atraso o ensamblan un producto defectuoso. Al final del periodo de eva-
luacin del desempeo, el gerente de produccin encontr que 5 de los 50 trabajadores ter-
minaron el trabajo con atraso, 6 de los 50 ensamblaron un producto defectuoso y 2 de los 50
terminaron con atraso y ensamblaron un producto defectuoso.
Sean
5
P(L) ! ! 0.10
50
6
P(D) ! ! 0.12
50
2
P(L # D) ! ! 0.04
50
Despus de revisar los datos de desempeo, el gerente de produccin decidi asignar una
calificacin baja a cualquier empleado cuyo trabajo estuviera atrasado o defectuoso, por lo que
el evento de inters es L " D. Cul es la probabilidad de que el gerente asigne una califica-
cin de bajo desempeo a un empleado?
Note que la pregunta de probabilidad trata de la unin de dos eventos. En concreto, se de-
sea conocer P(L " D). Mediante la ecuacin (4.6) tenemos
Al conocer los valores de las tres probabilidades en el lado derecho de esta expresin, se puede
escribir
Este clculo indica que hay una probabilidad de 0.18 de que un empleado seleccionado al azar
reciba una calificacin de bajo desempeo.
En otro ejemplo de la ley de la adicin, considere un estudio reciente realizado por el jefe
de personal de una importante firma de software. El estudio revel que 30% de los emplea-
dos que dejaron la empresa en un plazo de dos aos lo hizo principalmente porque se senta
insatisfecho con su sueldo, 20% se fue porque no estaba satisfecho con el trabajo que se le
asign y 12% indic insatisfaccin tanto con su sueldo como con el trabajo asignado. Cul
es la probabilidad de que un empleado que deja la empresa en un plazo de dos aos lo haga
168 Captulo 4 Introduccin a la probabilidad
Se tiene P(S ) ! 0.30; P(W ) ! 0.20, y P(S # W ) ! 0.12. Utilizando la ecuacin (4.6), la ley
de la adicin, tenemos
P(S " W ) ! P(S) # P(W) " P(S # W) ! 0.30 # 0.20 " 0.12 ! 0.38
Se obtuvo una probabilidad de 0.38 de que un empleado abandone la empresa por las razones
del sueldo o el trabajo asignado.
Antes de concluir nuestro anlisis de la ley de la adicin, considere un caso especial que
surge para los eventos mutuamente excluyentes.
Se dice que dos eventos son mutuamente excluyentes si no tienen puntos de la muestra
en comn.
Los eventos A y B son mutuamente excluyentes si, cuando ocurre un evento, el otro no pue-
de ocurrir. Por tanto, un requisito para que A y B sean mutuamente excluyentes consiste en que
su interseccin no debe contener puntos de la muestra. El diagrama de Venn que representa dos
eventos mutuamente excluyentes A y B se muestra en la figura 4.7. En este caso P(A # B) ! 0,
y la ley de la adicin puede escribirse como sigue.
Espacio muestral S
Evento A Evento B
4.3 Algunas relaciones bsicas de probabilidad 169
Ejercicios
Mtodos
22. Suponga que tiene un espacio muestral con cinco resultados experimentales igualmente pro-
bables: E1, E 2, E3, E4 y E5. Sea
A ! {E1, E2}
B ! {E3, E4}
C ! {E2, E3, E5}
a) Calcule P(A), P(B) y P(C ).
b) Encuentre P(A " B). A y B son mutuamente excluyentes?
c) Calcule Ac, C c, P(Ac ) y P(C c ).
d) Defina A " B c y P(A " B c ).
e) Calcule P(B " C ).
23. Suponga que tiene un espacio muestral S ! {E1, E 2, E3, E4, E5, E6, E 7}, donde E1, E 2, . . . ,
AUTO evaluacin E 7 denotan los puntos de la muestra. Las asignaciones de probabilidad siguientes se aplican:
P(E1 ) ! 0.05; P(E 2 ) ! 0.20; P(E3 ) ! 0.20; P(E4 ) ! 0.25; P(E5 ) ! 0.15; P(E6 ) ! 0.10, y
P(E 7) ! 0.05. Sean
A ! {E1, E4, E6}
B ! {E2, E4, E7}
C ! {E2, E3, E5, E7}
a) Calcule P(A), P(B) y P(C).
b) Encuentre A " B y P(A " B).
c) Calcule A # B y P(A # B).
d) A y C son mutuamente excluyentes?
e) Calcule B c y P(B c ).
Aplicaciones
24. Clarkson University encuest al alumnado para conocer qu pensaba sobre la universidad.
Una parte de la encuesta solicitaba a los alumnos que indicaran si su experiencia general en
Clarkson estaba por debajo de sus expectativas, cumpla con las mismas o las rebasaba. Los
resultados mostraron que 4% de los encuestados no proporcion respuesta, 26% dijo que su
experiencia estaba por debajo de sus expectativas y 65% afirm que su experiencia cumpla
con sus expectativas.
a) Si se elige un estudiante al azar, cul es la probabilidad de que l diga que su experiencia
rebas sus expectativas?
b) Si se escoge un alumno al azar, cul es la probabilidad de que l diga que su experiencia
cumpli o rebas sus expectativas?
25. La Oficina del Censo de Estados Unidos proporciona datos sobre el nmero de adultos jvenes,
entre 18 y 24 aos, que viven en la casa de sus padres.1 Sean
M ! el evento de que un hombre adulto joven viva en casa de sus padres
F ! el evento de que una mujer adulta joven viva en casa de sus padres
Si se seleccionan al azar un hombre adulto joven y una mujer adulta joven, los datos de la Ofi-
cina del Censo permiten concluir P(M) ! 0.56 y P(F) ! 0.42 (The World Almanac, 2006). La
probabilidad de que ambos estn viviendo en la casa de sus padres es 0.24.
a) Cul es la probabilidad de que por lo menos uno de los dos adultos jvenes seleccionados
viva en casa de sus padres?
b) Cul es la probabilidad de que ambos adultos jvenes vivan solos (ninguno vive en casa
de sus padres)?
1 Los datos incluyen adultos jvenes solos que viven en los dormitorios de la universidad, debido a que se supone que
regresan a casa de sus padres cuando no hay clases.
170 Captulo 4 Introduccin a la probabilidad
26. La informacin sobre los fondos de inversin proporcionada por Morningstar Investment Re-
search incluye el tipo de fondo, es decir, capital nacional, capital internacional o renta fija y
la calificacin Morningstar para el fondo. sta se expresa con 1 estrella (calificacin menor)
a 5 estrellas (calificacin mayor). Una muestra de 25 fondos de inversin fue seleccionada de
Morningstar Funds500 (2008). Se obtuvieron los conteos siguientes:
Diecisis fondos de inversin eran fondos de capital nacional.
Trece fondos de inversin se calificaron con 3 estrellas o menos.
Siete de los fondos de capital nacional se calificaron con 4 estrellas.
Dos fondos de capital nacional se calificaron con 5 estrellas.
Suponga que uno de estos 25 fondos de inversin es seleccionado al azar con el fin de conocer
ms sobre el fondo y su estrategia de inversin.
a) Cul es la probabilidad de seleccionar un fondo de capital nacional?
b) Cul es la probabilidad de elegir un fondo con una calificacin de 4 o 5 estrellas?
c) Cul es la probabilidad de seleccionar un fondo de capital nacional y que tiene una cali-
ficacin de 4 o 5 estrellas??
d) Cul es la probabilidad de escoger un fondo de capital nacional o que tiene una califica-
cin de 4 o 5 estrellas?
27. Qu ligas de basquetbol colegial de la NCAA tienen mayor probabilidad de hacer que un
equipo juegue en el partido del campeonato nacional de basquetbol colegial? Durante los l-
timos 20 aos, la Atlantic Coast Conference (ACC) califica primero por tener un equipo en el
partido del campeonato 10 veces. La Southeastern Conference (SEC) se clasifica en segundo
lugar por tener un equipo en el partido de campeonato 8 veces. Sin embargo, estas dos ligas
tuvieron equipos en el partido del campeonato slo una vez, cuando Arkansas (SEC) derrot
a Duke (ACC) 76-70 en 1994 (sitio web de la NCAA, abril de 2009). Utilice estos datos para
estimar las probabilidades siguientes.
a) Cul es la probabilidad de que la ACC tenga un equipo en el partido del campeonato?
b) Cul es la probabilidad para la SEC?
c) Cul es la probabilidad de que la ACC y la SEC tengan ambos equipos en el partido del
campeonato?
d) Cul es la probabilidad de que por lo menos un equipo de estas dos ligas juegue en el
partido del campeonato? Es decir, cul es la probabilidad de que un equipo de la ACC o
la SEC juegue en el campeonato?
e) Cul es la probabilidad de que el partido del campeonato no tenga un equipo de una de
estas dos ligas?
AUTO evaluacin
28. Una encuesta de suscriptores a una revista revel que 45.8% rent un automvil durante los
12 meses anteriores por razones de trabajo, 54% lo rent en el mismo periodo por razones per-
sonales y 30% tanto por razones de trabajo como personales.
a) Cul es la probabilidad de que un suscriptor rentara un automvil durante los 12 meses
anteriores por razones de trabajo o personales?
b) Cul es la probabilidad de que un suscriptor no rentara un automvil durante el periodo
de referencia por razones de trabajo o personales?
29. Los estudiantes de bachillerato con registros acadmicos slidos aplican para las universidades
ms selectivas de Estados Unidos en nmeros mayores cada ao. Debido a que el nmero de
vacantes permanece relativamente estable, algunas universidades rechazan ms aspirantes
de forma anticipada. La Universidad de Pennsylvania recibi 2 851 solicitudes de admisin
anticipadas. De este grupo, acept a 1 033 estudiantes, rechaz a 854 en el acto y difiri 964
al grupo de admisin regular para una consideracin posterior. En el pasado, la universidad ha
admitido a 18% de los estudiantes diferidos que present una solicitud de admisin anticipada
durante el proceso de admisin regular. Contando tanto a los alumnos aceptados de forma
anticipada como durante el proceso de admisin regular, el tamao total de la generacin fue
de 2 375 (USA Today, 24 de enero de 2001). E, R y D representan los eventos de que un estu-
diante que solicita la admisin anticipada sea aceptado de forma anticipada, rechazado en el
acto o diferido al grupo de admisiones regulares.
a) Utilice los datos para estimar P(E), P(R) y P(D).
b) Los eventos E y D son mutuamente excluyentes? Calcule P(E # D).
4.4 Probabilidad condicional 171
c) Para los 2 375 estudiantes admitidos en la universidad, cul es la probabilidad de que uno
seleccionado al azar sea aceptado durante la admisin anticipada?
d) Suponga que un estudiante presenta una solicitud de ingreso a la universidad para una
admisin anticipada. Cul es la probabilidad de que sea aceptado por una admisin anti-
cipada o sea diferido e ingresado despus durante el proceso regular de admisin?
La divisin de los valores de la tabla 4.4 entre el total de 1 200 oficiales permite resumir la in-
formacin disponible con los valores de probabilidad siguientes.
Una probabilidad de P(M # A) ! 288/1 200 ! 0.24 de que un agente elegido al azar
sea hombre y sea promovido
Una probabilidad de P(M # Ac) ! 672/1 200 ! 0.56 de que un agente elegido al azar
sea hombre y no sea promovido
TABLA 4.4 Estado de la promocin de los oficiales de polica durante los dos aos anteriores
Una probabilidad de P(W # A) ! 36/1 200 ! 0.03 de que un oficial elegido al azar
sea mujer y sea promovida
Una probabilidad de P(W # Ac) ! 204/1 200 ! 0.17 de que un agente elegido al azar
sea mujer y no sea promovida
Debido a que cada uno de estos valores da la probabilidad de la interseccin de dos eventos, las
probabilidades se llaman probabilidades conjuntas. La tabla 4.5, que proporciona un resumen
de la informacin de probabilidad sobre la situacin de la promocin de oficiales de polica, se
conoce como tabla de probabilidad conjunta.
Los valores en los bordes de esta tabla proporcionan las probabilidades de cada caso por
separado. Es decir, P(M) ! 0.80; P(W ) ! 0.20; P(A) ! 0.27, y P(Ac ) ! 0.73. Estos datos se re-
fieren a las probabilidades marginales debido a su ubicacin en los bordes de la tabla de pro-
babilidad conjunta. Observe que las probabilidades marginales se encuentran al sumar las
probabilidades conjuntas en la fila o columna correspondiente de la tabla. Por ejemplo, la proba-
bilidad marginal de ser promovido es P(A) ! P(M # A) # P(W # A) ! 0.24 # 0.03 ! 0.27.
De las probabilidades marginales, tambin vemos que 80% de la fuerza policiaca son hombres
y 20% mujeres, y que 27% de todos los oficiales fueron promovidos y 73% no fueron pro-
movidos.
Para comenzar, se har el anlisis de probabilidad condicional mediante el clculo de la
probabilidad de que un oficial sea promovido dado que es hombre. En la notacin de la pro-
babilidad condicional se trata de determinar P(A # M). Para calcularla, primero observe que esta
notacin simplemente significa que se est considerando la probabilidad del evento A (pro-
mocin), dado que la condicin designada como el evento M (el oficial es hombre) se sabe que
existe. Por tanto P(A # M) indica que estamos interesados slo en el estado de la promocin de
los 960 oficiales hombres. Debido a que 288 de estos 960 oficiales fueron ascendidos, la proba-
bilidad de ser promovido, dado que el oficial es hombre, es de 288/960 ! 0.30. En otras palabras,
dado su gnero, ese oficial tena una probabilidad de 30% de ser promovido en los ltimos dos
aos.
Este procedimiento fue fcil de aplicar debido a que los valores de la tabla 4.4 muestran
el nmero de oficiales en cada categora. Ahora queremos demostrar cmo las probabilidades
condicionales como P(A # M) se calculan directamente de las probabilidades de eventos rela-
cionados ms que de los datos de la frecuencia de la tabla 4.4.
Hemos mostrado que P(A # M ) ! 288/960 ! 0.30. Ahora dividamos tanto el numerador
como el denominador de esta fraccin entre 1 200, el nmero total de oficiales que participaron
en el estudio.
288 288/1 200 0.24
P(A # M) ! ! ! ! 0.30
960 960/1 200 0.80
Ahora se ve que la probabilidad condicional P(A # M) se calcula como 0.24/0.80. Revise la tabla
de probabilidad conjunta (tabla 4.5). Tome nota en particular de que 0.24 es la probabilidad
4.4 Probabilidad condicional 173
conjunta de A y M; es decir, P(A # M ) ! 0.24. Tambin note que 0.80 es la probabilidad mar-
ginal de que un oficial elegido al azar es hombre; es decir, P(M) ! 0.80. Por tanto, la proba-
bilidad condicional P(A # M) se calcula como la razn de la probabilidad conjunta P(A # M) a
la probabilidad marginal P(M ).
P(A # M) 0.24
P(A # M) ! ! ! 0.30
P(M) 0.80
El hecho de que las probabilidades condicionales se calculen como la razn de una probabilidad
conjunta a una probabilidad marginal proporciona la frmula general siguiente para los clculos
de la probabilidad condicional para dos eventos A y B.
PROBABILIDAD CONDICIONAL
P(A # B)
P(A # B) ! (4.7)
P(B)
P(A # B)
P(B # A) ! (4.8)
P(A)
Evento A ! B
Evento A Evento B
174 Captulo 4 Introduccin a la probabilidad
Ya determinamos que P(A # M) ! 0.30. Ahora utilizamos los valores de la tabla 4.5 y la
relacin bsica de la probabilidad condicional en la ecuacin (4.7) para calcular la probabili-
dad de que un polica sea promovido dado que es mujer; es decir, P(A # W ). Con ayuda de la
ecuacin (4.7), reemplazando W con B obtenemos
P(A ! W ) 0.03
P(A # W) ! ! ! 0.15
P(W) 0.20
A qu conclusin llega? La probabilidad de una promocin, dado que el polica es hombre, es
de 0.30, el doble de la probabilidad de 0.15 considerando que el polica es mujer. Aun cuando
el uso de la probabilidad condicional no prueba por s misma que existe discriminacin en el
caso, los valores de probabilidad condicional apoyan el argumento presentado por los policas
hombres.
Eventos independientes
En la ilustracin anterior, P(A) ! 0.27; P(A # M) ! 0.30, y P(A # W ) ! 0.15. Vemos que la
probabilidad de una promocin (evento A) no ha cambiado ni se ha visto influida por el hecho
de que el polica sea hombre o mujer. En particular, debido a que P(A # M) ' P(A), diramos
que los eventos A y M son dependientes. Es decir, la probabilidad del evento A (promocin) se
ve alterada o afectada por conocer que el evento M (el polica es hombre) existe. Asimismo, con
P(A # W ) ' P(A), diramos que A y W son eventos dependientes. No obstante, si la probabilidad
del evento A no cambia por la existencia del evento M es decir, P(A # M) ! P(A) diramos
que A y M son eventos independientes. Esta situacin conduce a la definicin siguiente de la
independencia de dos eventos.
EVENTOS INDEPENDIENTES
o
P(B # A) ! P(B) (4.10)
Ley de la multiplicacin
Mientras que la ley aditiva de la probabilidad se utiliza para calcular la probabilidad de la unin
de dos eventos, la ley de la multiplicacin se utiliza para calcular la probabilidad de la intersec-
cin de dos eventos. Esta ltima ley se basa en la definicin de la probabilidad condicional.
Con ayuda de las ecuaciones (4.7) y (4.8) y calculando P(A ! B), se obtiene la ley de la mul-
tiplicacin.
LEY DE LA MULTIPLICACIN
o
P(A ! B) ! P(A)P(B # A) (4.12)
con una suscripcin tambin adquiera la edicin dominical (evento S) es de 0.75; es decir,
P(S # D) ! 0.75. Cul es la probabilidad de que una familia se suscriba tanto a las ediciones
dominicales como a las ediciones diarias del peridico? Utilizando la ley de la multiplicacin,
calculamos el P(S ! D) deseado como
P(S ! D) ! P(D)P(S # D) ! 0.84(0.75) ! 0.63
Se sabe que 63% de las familias se suscribe tanto a las ediciones dominicales como a las diarias.
Antes de concluir esta seccin, considere el caso especial de la ley de la multiplicacin
cuando los eventos involucrados son independientes. Recuerde que los eventos A y B son in-
dependientes siempre que P(A # B) ! P(A) o P(B # A) ! P(B). Por consiguiente, utilizando las
ecuaciones (4.11) y (4.12) para el caso especial de los eventos independientes, obtenemos la ley
de la multiplicacin siguiente.
NOTAS Y COMENTARIOS
No confunda la nocin de eventos mutuamente exclu- que ocurre un evento mutuamente excluyente, el otro
yentes con la de eventos independientes. Dos eventos no puede ocurrir; por tanto, la probabilidad de que el
con probabilidades diferentes de cero no pueden ser otro evento ocurra se reduce a cero: son eventos de-
mutuamente excluyentes e independientes. Si se sabe pendientes.
Ejercicios
Mtodos
30. Suponga que tenemos dos eventos, A y B, con P(A) ! 0.50; P(B) ! 0.60, y P(A ! B) ! 0.40.
AUTO evaluacin a) Calcule P(A # B).
b) Calcule P(B # A).
c) Los eventos A y B son independientes? Por qu?
176 Captulo 4 Introduccin a la probabilidad
31. Suponga que tenemos dos eventos, A y B, que son mutuamente excluyentes. Suponga adems
que sabemos que P(A) ! 0.30 y P(B) ! 0.40.
a) Cunto es P(A ! B)?
b) Cunto es P(A # B)?
c) Un alumno de estadstica sostiene que los conceptos de eventos mutuamente excluyentes y
de eventos independientes en realidad son lo mismo, y que por tanto si los eventos son mu-
tuamente excluyentes, deben ser independientes. Est de acuerdo con esta afirmacin?
Utilice la informacin de probabilidad de este problema para argumentar su respuesta.
d) Qu conclusin general formulara acerca de los eventos mutuamente excluyentes e in-
dependientes dados los resultados de este problema?
Aplicaciones
32. La industria automotriz vendi 657 000 vehculos en Estados Unidos durante enero de 2009
(The Wall Street Journal, 4 de febrero de 2009). Este volumen se redujo 37% desde enero de
2008 a medida que las condiciones econmicas continuaron deteriorndose. Los tres gran-
des fabricantes de automviles de Estados Unidos, a saber General Motors, Ford y Chrysler,
vendieron 280 500 vehculos, 48% menos desde enero de 2008. Un resumen de las ventas por
fabricante y tipo de vehculo vendido se muestra en la tabla siguiente. Los datos estn en miles
de unidades. Los fabricantes lderes no estadounidenses son Toyota, Honda y Nissan. La cate-
gora camin ligero incluye los modelos pickup, minivan, SUV y crossover.
Tipo de vehculo
Automvil Camin ligero
Estadounidense 87.4 193.1
Fabricante
No estadounidense 228.5 148.0
a) Elabore una tabla de probabilidad conjunta para estos datos y utilcela para responder las
preguntas restantes.
b) Cules son las probabilidades marginales? Qu le dicen sobre las probabilidades asocia-
das con el fabricante y el tipo de vehculo vendido?
c) Si un vehculo fue producido por una de las automotrices estadounidenses, cul es la
probabilidad de que la unidad sea un automvil? Y de que sea un camin ligero?
d) Si un vehculo no fue producido por uno de los fabricantes estadounidenses, cul es la pro-
babilidad de que se trate de un automvil? Cul es la probabilidad de que sea un camin
ligero?
e) Si la unidad era un camin ligero, cul es la probabilidad de que haya sido producido por
uno de los fabricantes estadounidenses?
f ) Qu le dice la informacin de probabilidad sobre las ventas?
33. En una encuesta de estudiantes de maestra se obtuvieron los datos siguientes sobre la primera
AUTO evaluacin razn de los estudiantes para solicitar el ingreso en la escuela en que se matricularon.
Razn de la solicitud
Calidad de Costo o conveniencia
la escuela de la escuela Otros Totales
Estado de Tiempo completo 421 393 76 890
inscripcin Tiempo parcial 400 593 46 1 039
Totales 821 986 122 1 929
Pagar renta
S No
S 56 52
Comprar un automvil
No 14 78
a) Elabore una tabla de probabilidad conjunta y utilcela para responder las preguntas res-
tantes.
b) Con base en las probabilidades marginales sobre comprar un automvil y pagar la renta,
es ms probable que los padres apoyen a sus hijos adultos con la compra de un automvil
o el pago de la renta? Cul es su interpretacin de las probabilidades marginales?
c) Si los padres proporcionaron respaldo financiero para comprar un automvil, cul es la
probabilidad de que apoyaran con el pago de la renta?
d) Si los padres no proveyeron ayuda financiera para comprar un automvil, cul es la pro-
babilidad de que apoyaran con el pago de la renta?
e) La ayuda econmica para comprar un automvil es independiente de la proporcionada
para pagar la renta? Utilice las probabilidades para justificar su respuesta.
f ) Cul es la probabilidad de que los padres proporcionaran ayuda financiera para sus hijos
adultos, ya sea para comprar un automvil o pagar la renta?
36. Jerry Stackhouse de los Mavericks de Dallas de la Asociacin Nacional de Basquetbol es el
mejor lanzador de tiro libre del equipo, al anotar 89% de sus tiros (sitio web de ESPN, julio de
2008). Suponga que ms tarde, en un partido de basquetbol, le cometen una falta o foul a Jerry
Stackhouse y se le otorgan dos tiros.
a) Cul es la probabilidad de que anote ambos tiros?
b) Cul es la probabilidad de que anote por lo menos uno?
c) Cul es la probabilidad de que falle ambos tiros?
178 Captulo 4 Introduccin a la probabilidad
Aplicacin
Probabilidades Informacin Probabilidades
del teorema
previas nueva posteriores
de Bayes
Como una aplicacin del teorema de Bayes, considere una empresa de manufactura que
recibe embarques de refacciones de dos proveedores diferentes. Sea A1 el evento de que una
refaccin proviene del proveedor 1, y A 2 el evento de que una refaccin proviene del provee-
dor 2. En la actualidad, 65% de las partes adquiridas por la empresa son del proveedor 1 y el
35% restante son del proveedor 2. De ah que si una refaccin es seleccionada al azar, se le
asignaran las probabilidades previas P(A1) ! 0.65 y P(A 2 ) ! 0.35.
La calidad de las partes adquiridas vara con la fuente de suministro. Los datos histricos
sugieren que las calificaciones de calidad de los dos proveedores se muestran en la tabla 4.6. Si
G denota el evento de que una refaccin est en buen estado y B denota el evento de que una
refaccin est en mal estado, la informacin de la tabla 4.6 proporciona los valores de proba-
bilidad condicional siguientes.
El diagrama de rbol de la figura 4.10 representa el proceso de la empresa que recibe una re-
faccin de uno de los dos proveedores y luego descubre que est en buen o mal estado como un
experimento de dos pasos. Se ve que los cuatro resultados del experimento son posibles; dos
corresponden a la refaccin que est en buen estado y dos a la que est en mal estado.
Cada uno de los resultados es la interseccin de dos eventos, as que se puede utilizar la re-
gla de la multiplicacin para calcular las probabilidades. Por ejemplo,
Porcentaje de Porcentaje de
refacciones en buen estado refacciones en mal estado
Proveedor 1 98 2
Proveedor 2 95 5
180 Captulo 4 Introduccin a la probabilidad
G (A1, G)
B
A1
(A1, B)
A2
G (A2, G)
B
(A2, B)
Nota. El paso 1 ilustra que la refaccin llega de uno de dos proveedores, y el paso 2
muestra si la refaccin es buena o mala.
de que provenga del proveedor 1 y cul de que provenga del proveedor 2? Con la informa-
cin del rbol de probabilidades (figura 4.11), el teorema de Bayes ayuda a responder estas
preguntas.
Partiendo de que B denota el evento de que la refaccin se encuentra en mal estado, se
buscan las probabilidades posteriores P(A1 # B) y P(A 2 # B). A partir de la ley de la probabilidad
condicional sabemos que
P(A1 ! B)
P(A1 # B) ! (4.14)
P(B)
0.05
P( A2 ! B) ! P( A2)P( B | A2) ! 0.0175
4.5 Teorema de Bayes 181
Para obtener P(B), note que el evento B puede ocurrir slo de dos maneras: (A1 ! B) y (A 2 ! B).
Por tanto, tenemos
P(B) ! P(A1 ! B) " P(A2 ! B) (4.16)
! P(A1)P(B # A1) " P(A2)P(B # A2)
Al sustituir las ecuaciones (4.15) y (4.16) en la ecuacin (4.14) y escribir un resultado parecido
para P(A 2 # B), se obtiene el teorema de Bayes para el caso de dos eventos.
P(A1)P(B # A1)
P(A1 # B) !
P(A1)P(B # A1) " P(A2)P(B # A2)
(0.65)(0.02) 0.0130
! !
(0.65)(0.02) " (0.35)(0.05) 0.0130 " 0.0175
0.0130
! ! 0.4262
0.0305
(0.35)(0.05)
P(A2 # B) !
(0.65)(0.02) " (0.35)(0.05)
0.0175 0.0175
! ! ! 0.5738
0.0130 " 0.0175 0.0305
Considere que en esta aplicacin se inici con una probabilidad de 0.65 de que una refaccin
seleccionada al azar fuera del proveedor 1. Sin embargo, dada la informacin de que la refac-
cin se encuentra en mal estado, la probabilidad de que sea del proveedor 1 baja a 0.4262. De
hecho, si la parte se encuentra en mal estado, tiene una posibilidad mayor que 50 50 de provenir
del proveedor 2, es decir, P(A 2 # B) ! 0.5738.
El teorema de Bayes es vlido cuando los eventos de los que se quiere calcular las probabi-
lidades posteriores son mutuamente excluyentes y su unin es el espacio muestral total.2 Para el
caso de los n eventos mutuamente excluyentes A1, A 2 , . . . , An , cuya unin es el espacio muestral
entero, el teorema de Bayes se utiliza para calcular cualquier probabilidad posterior P(Ai # B)
como se muestra aqu.
TEOREMA DE BAYES
P(Ai)P(B # Ai)
P(Ai # B) ! (4.19)
P(A1)P(B # A1) " P(A2 )P(B # A2) " . . . " P(An)P(B # An)
2 Si la unin de los eventos es todo el espacio muestral entero, se dice que los eventos son colectivamente exhaustivos.
182 Captulo 4 Introduccin a la probabilidad
Con las probabilidades previas P(A1), P(A 2 ), . . . , P(An ) y las probabilidades condicionales apro-
piadas P(B # A1), P(B # A 2 ), . . . , P(B # An ), la ecuacin (4.19) se usa para calcular la probabi-
lidad posterior de los eventos A1, A 2 , . . . , An.
Mtodo tabular
Un mtodo tabular es til para efectuar los clculos del teorema de Bayes. Un mtodo de este
tipo se muestra en la tabla 4.7 para el problema del proveedor de refacciones. Los clculos
mostrados all se realizan con los pasos siguientes.
P(Ai ! B)
P(Ai # B) !
P(B)
TABLA 4.7 Mtodo tabular de los clculos del teorema de Bayes para el problema de los dos
proveedores
NOTAS Y COMENTARIOS
Ejercicios
Mtodos
39. Las probabilidades previas para los eventos A1 y A 2 son P(A1) ! 0.40 y P(A 2 ) ! 0.60. Tambin
AUTO evaluacin se sabe que P(A1 ! A 2 ) ! 0. Suponga que P(B # A1) ! 0.20 y P(B # A 2 ) ! 0.05.
a) Los eventos A1 y A 2 son mutuamente excluyentes? Explique su respuesta.
b) Calcule P(A1 ! B) y P(A 2 ! B).
c) Calcule P(B).
d) Aplique el teorema de Bayes para calcular P(A1 # B) y P(A 2 # B).
40. Las probabilidades previas de los eventos A1, A 2 y A3 son P(A1 ) ! 0.20; P(A 2 ) ! 0.50,
y P(A3 ) ! 0.30. Las probabilidades condicionales para el evento B, dados A1, A 2 y A3 son
P(B # A1 ) ! 0.50; P(B # A 2 ) ! 0.40, y P(B # A3 ) ! 0.30.
a) Calcule P(B ! A1 ), P(B ! A2 ) y P(B ! A3 ).
b) Aplique el teorema de Bayes, la ecuacin 4.19, para calcular la probabilidad posterior
P(A 2 # B).
c) Utilice el mtodo tabular para aplicar el teorema de Bayes al clculo de P(A1 # B), P(A 2 # B)
y P(A3 # B).
Aplicaciones
41. Una firma de consultora present una licitacin para un proyecto de investigacin grande.
La gerencia de la firma pens en un principio que tena una probabilidad de 50-50 de ganar el
proyecto. Sin embargo, la agencia donde present la licitacin le solicit despus informacin
sobre su propuesta. La experiencia previa indica que en 75% de las licitaciones exitosas y en
40% de las fallidas, la agencia solicit informacin adicional.
a) Cul es la probabilidad previa de que la licitacin tenga xito (es decir, previa a la soli-
citud de informacin adicional)?
b) Cul es la probabilidad condicional de que se solicite informacin adicional si al final la
licitacin tiene xito?
c) Calcule la probabilidad posterior de que la licitacin tenga xito, dado que se solicita in-
formacin adicional.
42. Un banco local revis su poltica de tarjetas de crdito con la intencin de cancelar algunas
AUTO evaluacin tarjetas. En el pasado, aproximadamente 5% de los tarjetahabientes no cumpli con sus pagos,
por lo que el banco no pudo cobrar los estados de cuenta pendientes. Por tanto, la gerencia es-
tableci una probabilidad previa de 0.05 de que cualquier tarjetahabiente en particular no pa-
gue. El banco calcul tambin que la probabilidad de retraso en el pago mensual era de 0.20
para aquellos clientes que s pagaban. Desde luego, la probabilidad de retrasarse en un pago
mensual para aquellos que no pagaron es 1.
a) Dado que un cliente no realiz uno o ms pagos mensuales, calcule la probabilidad pos-
terior de que no cumpla con el pago.
b) Al banco le gustara retirar su tarjeta si la probabilidad de que el cliente no cumpla con
el pago es mayor que 0.20. El banco debe retirar la tarjeta si el cliente no hace un pago
mensual? Por qu?
184 Captulo 4 Introduccin a la probabilidad
43. Los automviles compactos obtienen un mejor millaje con respecto al consumo de gasolina,
pero no son tan seguros como los grandes. Los compactos representaron 18% de los vehculos
en la carretera, pero los accidentes que involucran unidades pequeas causaron 11 898 muer-
tes en un ao reciente (Readers Digest, mayo de 2000). Suponga que la probabilidad de que
un automvil compacto est involucrado en un accidente es de 0.18. La probabilidad de un
accidente fatal con el mismo tipo de vehculo es 0.128 y la probabilidad de un percance que
no provoca una muerte con un automvil compacto es 0.05. Suponga que se entera de un acci-
dente fatal. Cul es la probabilidad de que est involucrado un automvil pequeo? Considere
que la probabilidad de tener un percance es independiente del tamao del vehculo.
44. El American Council of Education inform que 47% de los estudiantes de primer ao uni-
versitario obtiene su ttulo y se grada en cinco aos (Associated Press, 6 de mayo de 2002).
Suponga que los registros de graduacin muestran que las mujeres constituyen 50% de los
estudiantes que se graduaron en cinco aos, pero slo 45% de los que no se graduaron en este
lapso. Quienes no se haban graduado en los cinco aos abandonaron la escuela o siguieron
estudiando su carrera.
a) Sean A1 ! el estudiante graduado en cinco aos
A 2 ! el estudiante que no se gradu en cinco aos
W ! el estudiante es mujer
Utilizando la informacin aportada, cules son los valores para P(A1 ), P(A 2 ), P(W # A1 ) y
P(W # A 2 )?
b) Cul es la probabilidad de que una estudiante mujer se grade en cinco aos?
c) Cul es la probabilidad de que un hombre se grade en cinco aos?
d) Dados los resultados anteriores, cul es el porcentaje de mujeres y el de hombres que
asisten a la clase de primer ao?
45. En un artculo sobre las alternativas de inversin, la revista Money inform que las acciones de
frmacos proporcionan un potencial de crecimiento a largo plazo, con ms de 50% de la poblacin
estadounidense adulta que toma con regularidad medicamentos por prescripcin mdica. Para
los adultos de 65 aos y mayores, 82% toma frmacos con regularidad por prescripcin. Para los
adultos de 18 a 64 aos de edad, 49% los ingiere con regularidad por prescripcin. El grupo
de edades de 18 a 64 aos representa 83.5% de la poblacin adulta (Statistical Abstract of the
United States, 2008).
a) Cul es la probabilidad de que un adulto seleccionado al azar tenga 65 aos o ms?
b) Dado que un adulto toma medicamentos por prescripcin de manera regular, cul es la
probabilidad de que tenga 65 aos o ms?
Resumen
En este captulo se presentaron los conceptos bsicos de probabilidad y se ilustr cmo se uti-
liza el anlisis de probabilidad para proporcionar informacin til en la toma de decisiones. Se
describi cmo se interpreta la probabilidad como una medida numrica de la posibilidad de
que un evento ocurra. Adems, se vio que las probabilidades de un evento se pueden calcular
ya sea sumando las probabilidades de los resultados del experimento (puntos de la muestra)
que comprenden el evento, o utilizando las relaciones establecidas por la suma, la probabilidad
condicional y las leyes de multiplicacin de la probabilidad. Para los casos en los que hay in-
formacin adicional disponible, se mostr cmo se utiliza el teorema de Bayes para obtener las
probabilidades revisadas o posteriores.
Glosario
Complemento de A Evento que consiste en todos los puntos de la muestra que no estn en A.
Diagrama de rbol Representacin grfica que ayuda en la visualizacin de un experimento
de pasos mltiples.
Diagrama de Venn Representacin grfica para ilustrar de manera simblica el espacio mues-
tral y las operaciones que involucran eventos en los cuales ste se representa por medio de un
rectngulo y los eventos se dibujan como crculos dentro del espacio muestral.
Espacio muestral Conjunto de todos los resultados del experimento.
Frmulas clave 185
Frmulas clave
N N!
C nN ! ! (4.1)
n n!(N $ n)!
N N!
P nN ! n! ! (4.2)
n (N $ n)!
186 Captulo 4 Introduccin a la probabilidad
Probabilidad condicional
P(A ! B)
P(A # B) ! (4.7)
P(B)
P(A ! B)
P(B # A) ! (4.8)
P(A)
Ley de la multiplicacin
P(A ! B) ! P(B)P(A # B) (4.11)
P(A ! B) ! P(A)P(B # A) (4.12)
Teorema de Bayes
P(Ai)P(B # Ai)
P(Ai # B) ! (4.19)
P(A1)P(B # A1) " P(A2 )P(B # A2) " . . . " P(An)P(B # An)
Ejercicios complementarios
46. La encuesta de The Wall Street Journal/Harris Personal Finance pregunt a 2 082 adultos si
tenan casa propia (sitio web All Business, 23 de enero de 2008). Un total de 1 249 encuesta-
dos respondi S. De los 450 encuestados en el grupo de edades de 18 a 34 aos, 117 respon-
dieron S.
a) Cul es la probabilidad de que un encuestado tenga casa propia?
b) Cul es la probabilidad de que una persona del grupo de edades de 18 a 34 aos tenga
vivienda propia?
c) Cul es la probabilidad de que un encuestado no tenga casa propia?
d) Cul es la probabilidad de que una persona del grupo de edades de 18 a 34 aos no tenga
vivienda propia?
47. Un ejecutivo de finanzas hizo dos inversiones nuevas: una en la industria del petrleo y otra en
bonos municipales. Despus de un ao, cada una de las inversiones se clasificar como exitosa
o sin xito. Considere como un experimento efectuar las dos inversiones.
a) Cuntos puntos de la muestra existen para este experimento?
b) Muestre un diagrama de rbol y liste los puntos de la muestra.
c) Sea O ! al evento de que la inversin en la industria del petrleo es exitosa y M ! el
evento de que la inversin en bonos municipales es exitosa. Elabore una lista de los puntos
de la muestra en O y M.
d) Liste los puntos de la muestra en la unin de los eventos (O # M ).
e) Elabore una lista de los puntos de la muestra en la interseccin de los eventos (O ! M).
f ) O y M son mutuamente excluyentes? Explique.
48. A principios de 2003, el presidente Bush propuso eliminar los impuestos de dividendos a los
accionistas sobre la base de que era un doble gravamen. Las corporaciones pagan impues-
tos sobre las ganancias que despus pagan en dividendos. En una encuesta a 671 estadouni-
denses, TechnoMetrica Market Intelligence encontr que 47% estuvo a favor de la propuesta,
44% se opuso y 9% no estaba seguro (Investors Business Daily, 13 de enero de 2003). Al mirar
Ejercicios complementarios 187
las respuestas en todas las polticas de partidos, la encuesta revel que estaban a favor 29% de
los demcratas, 64% de los republicanos y 48% de los independientes.
a) Cuntos de los encuestados estaban a favor de la eliminacin de los impuestos sobre los
dividendos?
b) Cul es la probabilidad condicional a favor de la propuesta dado que la persona encues-
tada es un demcrata?
c) La afiliacin a un partido es independiente de si una persona est a favor de la propuesta?
d) Si asume que las respuestas de las personas concordaron con sus intereses personales, cul
grupo cree que se beneficiar ms de la aprobacin de la propuesta?
49. Un estudio de 31 000 admisiones en los hospitales del estado de Nueva York revel que 4% de
los ingresos condujo a lesiones causadas por los tratamientos; un sptimo de estas lesiones de-
sencadenadas por los tratamientos ocasion la muerte, y un cuarto fue causado por negligen-
cia. Las demandas por negligencia mdica se presentan en uno de cada 7.5 casos y los pagos
se efectan en una de cada dos demandas.
a) Cul es la probabilidad de que una persona admitida en el hospital sufra una lesin cau-
sada por un tratamiento debido a negligencia?
b) Cul es la probabilidad de que una persona ingresada muera por una lesin causada por
un tratamiento?
c) En el caso de una lesin ocasionada por un tratamiento, cul es la probabilidad de que
una demanda por negligencia sea pagada?
50. Una encuesta por telfono para determinar la respuesta de los espectadores a un nuevo pro-
grama de televisin arroj los datos siguientes.
Calificacin Frecuencia
Mala 4
Debajo del promedio 8
Promedio 11
Arriba del promedio 14
Excelente 13
e) Cul es la probabilidad de que una familia tenga un ingreso inferior a $25 000?
f) Cul es la probabilidad de que una familia dirigida por alguien con educacin superior
gane menos de $25 000?
g) El ingreso familiar es independiente del nivel educativo?
52. Una encuesta de los nuevos estudiantes inscritos en una maestra proporcion los datos si-
guientes para 2 018 estudiantes.
Aplicado a ms
de una escuela
S No
23 y menores 207 201
24 26 299 379
Grupo de
2730 185 268
edades
3135 66 193
36 y mayores 51 169
55. Una empresa de bienes de consumo public un anuncio de televisin para uno de sus produc-
tos de jabn. Sobre la base de una encuesta que se realiz, se asignaron las probabilidades a los
eventos siguientes.
Las probabilidades asignadas fueron P(B) ! 0.20; P(S) ! 0.40, y P(B ! S) ! 0.12.
a) Cul es la probabilidad de que una persona adquiera el producto dado que recuerda ha-
ber visto el anuncio? Ver el anuncio aumenta la probabilidad de que compre el produc-
to? Como alguien que toma decisiones, recomendara seguir transmitiendo el anuncio
(asumiendo que el costo es razonable)?
b) Suponga que las personas que no adquieren el producto de jabn de la empresa lo com-
pran a sus competidores. Cul sera su estimacin de la cuota de mercado de la empresa?
Esperara usted que seguir transmitiendo el anuncio aumente su participacin de mer-
cado? Por qu?
c) La empresa tambin prob otro anuncio y le asign los valores de P(S) ! 0.30 y P(B ! S) !
0.10. Cul es la probabilidad conjunta P(B # S) de este otro anuncio? Cul comercial
parece haber tenido el efecto ms grande sobre las compras de los clientes?
56. Cooper Realty es una pequea compaa de bienes races ubicada en Albany, Nueva York,
que se especializa principalmente en listados residenciales. Recientemente se interes en de-
terminar la probabilidad de que uno de sus listados se vendiera en cierto nmero de das.
Un anlisis de las ventas de la empresa de 800 casas en aos anteriores arroj los datos si-
guientes.
a) Si A se define como el evento de que una casa aparezca en el listado por ms de 90 das
antes de ser vendida, calcule la probabilidad de A.
b) Si B se define como el evento de que el precio de oferta inicial sea menor de $150 000,
calcule la probabilidad de B.
c) Cul es la probabilidad de A ! B?
d) Suponiendo que un contrato se acaba de firmar para listar una casa con un precio inicial
de menos de $150 000, cul es la probabilidad de que Cooper Realty tarde ms de 90 das
en venderla?
e) Los eventos A y B son independientes?
57. Una empresa estudi el nmero de accidentes que generaron prdida de tiempo en la planta
de Brownsville, Texas. Los registros histricos muestran que 6% de los empleados tuvo ac-
cidentes que generaron una prdida de tiempo el ao pasado. La gerencia cree que un progra-
ma especial de seguridad reducir los percances a 5% durante el ao en curso. Adems, estima
que 15% de los empleados que sufri este tipo de accidentes el ao anterior sufrir uno que
generar prdida de tiempo durante el ao en curso.
a) Qu porcentaje de los empleados tendr accidentes que generen una prdida de tiempo
en los dos aos?
b) Qu porcentaje tendr por lo menos un accidente que cause una prdida de tiempo en el
periodo de dos aos?
190 Captulo 4 Introduccin a la probabilidad
58. Una encuesta revel que 8% de los usuarios de Internet que tienen 18 aos o ms informan que
mantienen un blog. Refirindose al grupo de edades de 18 a 29 aos como adultos jvenes, la
encuesta revel que, de los bloggers, 54% son adultos jvenes y de los no bloggers, 24% son
adultos jvenes (Pew Internet & American Life Project, 19 de julio de 2006).
a) Elabore una tabla de probabilidad conjunta para estos dos datos con dos filas (bloggers en
comparacin con no bloggers) y dos columnas (adultos jvenes frente a adultos mayores).
b) Cul es la probabilidad de que un usuario de Internet sea un adulto joven?
c) Cul es la probabilidad de que un internauta mantenga un blog y sea un adulto joven?
d) Suponga que en una encuesta telefnica de seguimiento se contact a un adulto de 24 aos
de edad. Cul es la probabilidad de que esta persona mantenga un blog?
59. Una compaa petrolera compr un terreno en Alaska. Los estudios geolgicos preliminares
asignaron las probabilidades previas siguientes.
Cmo debe interpretar la empresa la prueba de suelo? Cules son las probabilidades revisa-
das y cul es la nueva probabilidad de encontrar petrleo?
60. Las empresas que hacen negocios por Internet a menudo obtienen informacin acerca de
los visitantes a la Web a partir de las pginas ya visitadas. El artculo Internet Marketing
(Interfaces, marzo/abril de 2001) describe cmo se usan los datos sobre el flujo de clics en las
pginas web consultadas, junto con un sistema bayesiano de actualizacin para determinar el
gnero de un visitante. ParFore cre una pgina web para comercializar equipo y ropa de golf.
A la gerencia le gustara que cierta oferta apareciera para las mujeres que visitan la pgina y
que se exhibiera una oferta distinta para los hombres. A partir una muestra de consultas ante-
riores a otras pginas web, la gerencia se enter de que 60% de quienes consultan la pgina de
ParFore son hombres y 40% mujeres.
a) Cul es la probabilidad previa de que el prximo visitante de la pgina web sea una mujer?
b) Suponga que sabe que el visitante actual al sitio web de ParFore antes de abrir su pgina
visit la pgina de Dillards, y que las mujeres tienen tres veces ms probabilidades de
consultar la pgina de Dillards que los hombres. Cul es la probabilidad revisada de que
el visitante actual a la pgina web de ParFore sea del gnero femenino? Debe usted mos-
trar la oferta que atrae a ms visitantes mujeres o la que atrae a ms visitantes varones?
TABLA 4.8 Total de casos desechados, apelados y revocados en los tribunales del condado
de hamilton
Municipal Court
Total Cases Appealed Reversed
Judge Disposed Cases Cases
Mike Allen 6 149 43 4
Nadine Allen 7 812 34 6
Timothy Black 7 954 41 6
David Davis 7 736 43 5
Leslie Isaiah Gaines 5 282 35 13
Karla Grady 5 253 6 0
Deidra Hair 2 532 5 0
Dennis Helmick 7 900 29 5
Timothy Hogan 2 308 13 2
James Patrick Kenney 2 798 6 1
Joseph Luebbers 4 698 25 8
William Mallory 8 277 38 9
Melba Marsh 8 219 34 7
Beth Mattingly 2 971 13 1
Albert Mestemaker 4 975 28 9
Mark Painter 2 239 7 3
Jack Rosen 7 790 41 13
Mark Schweikert 5 403 33 6
David Stockdale 5 371 22 4
John A. West 2 797 4 2
Total 108 464 500 104
192 Captulo 4 Introduccin a la probabilidad
El propsito del estudio del peridico es evaluar el desempeo de los jueces. Las apelacio-
nes con frecuencia son el resultado de los errores cometidos por stos, y el peridico quera
saber cules de ellos hacan un buen trabajo y cules cometan demasiados errores. A usted
le llaman para que ayude en el anlisis de datos. Utilice sus conocimientos de probabilidad y
probabilidad condicional para ayudar a calificar a los jueces. Tal vez pueda analizar la probabili-
dad de los casos manejados en los diferentes tribunales que fueron apelados y revocados.
Informe gerencial
Elabore un informe con sus calificaciones de los jueces. Incluya tambin un anlisis de la pro-
babilidad de apelacin y la revocacin de casos en los tres tribunales. Como mnimo, su informe
debe incluir lo siguiente:
1. La probabilidad de casos apelados (Appealed Cases) y revocados (Reversed Cases) en
los tres tribunales.
2. La probabilidad de que un caso sea apelado, por cada juez.
3. La probabilidad de que un caso sea revocado, por cada juez.
4. La probabilidad de una revocacin, dada una apelacin, por cada juez.
5. Una clasificacin de los jueces dentro de cada tribunal. Establezca los criterios que
manej y las razones de su eleccin.
CAPTULO
Chapter 3 [(H2F)]
5 193
Distribuciones de probabilidad
discreta
CONTENIDO El problema de Martin Clothing
ESTADSTICA EN LA PRCTICA: Store
CITIBANK Uso de tablas de probabilidades
binomiales
5.1 VARIABLES ALEATORIAS Valor esperado y varianza
Variables aleatorias discretas de la distribucin binomial
Variables aleatorias continuas
5.5 DISTRIBUCIN DE
5.2 DISTRIBUCIONES DE PROBABILIDAD
PROBABILIDAD DISCRETA DE POISSON
5.3 VALOR ESPERADO Un ejemplo con intervalos
Y VARIANZA de tiempo
Valor esperado Un ejemplo con intervalos
Varianza de longitud o de distancia
5.4 DISTRIBUCIN DE 5.6 DISTRIBUCIN
PROBABILIDAD BINOMIAL DE PROBABILIDAD
Un experimento binomial HIPERGEOMTRICA
194 Captulo 5 Distribuciones de probabilidad discreta
ESTADSTICA en LA PRCTICA
CITIBANK*
LONG ISLAND CITY, NUEVA YORK
Citibank, la divisin de banca minorista de Citigroup,
presta una amplia gama de servicios financieros que inclu-
yen cuentas corrientes y de ahorro, prstamos e hipotecas,
seguros y servicios de inversin. Ofrece estos servicios por
medio de un sistema nico llamado Citibanking.
Citibank fue uno de los primeros bancos de Estados
Unidos en introducir los cajeros automticos (ATM). Es-
tos dispositivos, ubicados en los centros bancarios Citicard
(CBC), permiten a los clientes realizar todas sus operaciones
bancarias en un solo lugar con el toque de un dedo, las 24
horas del da, los 7 das de la semana. Ms de 150 funciones
diferentes, que varan de depsitos a manejo de inversiones,
pueden realizarse con facilidad. Los clientes de Citibank Un cajero automtico vanguardista de Citibank.
utilizan cajeros automticos para 80% de sus transacciones. Jeff Greenberg/Photo Edit.
Cada CBC opera como un sistema de fila de espera al
que los clientes llegan en forma aleatoria a solicitar un ser-
vicio en uno de los cajeros automticos. Si todos los cajeros
estn ocupados, los clientes que llegan esperan en fila. De
manera peridica se realizan estudios de la capacidad del una tasa media de dos clientes por minuto, la tabla siguiente
CBC para analizar los tiempos de espera de los usuarios y
muestra las probabilidades del nmero de usuarios que po-
determinar si se requieren ms cajeros automticos. dran llegar durante un periodo de un minuto.
Los datos recabados por Citibank mostraron que la x Probabilidad
llegada aleatoria de los clientes sigue una distribucin de
0 0.1353
probabilidad conocida como distribucin de Poisson. Me- 1 0.2707
diante esta distribucin, Citibank puede calcular las pro- 2 0.2707
babilidades del nmero de personas que llegan a un CBC 3 0.1804
durante cualquier periodo y tomar decisiones sobre el n- 4 0.0902
5 o ms 0.0527
mero de cajeros automticos que se necesitan. Por ejemplo,
x es el nmero de personas que llegan durante un periodo Las distribuciones de probabilidad discreta como la utili-
de un minuto. Suponiendo que un CBC decompletado tiene zada por Citibank son el tema de este captulo. Adems de
la distribucin de Poisson, usted aprender acerca de las
* Los autores agradecen a Stacey Karter, de Citibank, por proporcionar distribuciones binomial e hipergeomtrica y cmo se uti-
este artculo para Estadstica en la prctica. lizan para proporcionar informacin til de probabilidad.
Este captulo contina con el estudio de la probabilidad mediante la introduccin de los con-
ceptos variables aleatorias y distribuciones de probabilidad. El tema central son las distribucio-
nes de probabilidad discreta. En particular se cubren tres distribuciones de este tipo: binomial,
de Poisson e hipergeomtrica.
VARIABLE ALEATORIA
Las variables aleatorias
deben asumir valores Una variable aleatoria es una descripcin numrica de los resultados de un experimento.
numricos.
En efecto, una variable aleatoria asocia un valor numrico con cada resultado experimen-
tal posible. El valor numrico particular de la variable aleatoria depende del resultado del ex-
perimento. sta se clasifica como discreta o continua en funcin de los valores numricos que
asume.
Una variable aleatoria que puede asumir cualquier nmero finito de valores o una sucesin
infinita de valores como 0, 1, 2, . . . se conoce como variable aleatoria discreta. Por ejemplo,
considere el experimento de un sujeto que presenta el examen de certificacin de contador p-
blico, el cual consta de cuatro partes. Una variable aleatoria se define como x ! el nmero de
partes del examen aprobadas. Se trata de una variable aleatoria discreta, ya que puede asumir
un nmero finito de valores 0, 1, 2, 3 o 4.
En otro ejemplo, considere el experimento de los automviles que llegan a una caseta de
cobro. La variable aleatoria de inters es x ! el nmero de vehculos que llegan durante un
periodo de un da. Los valores posibles para x provienen de la secuencia de nmeros enteros 0,
1, 2, etc. Por consiguiente, x es una variable aleatoria discreta que asume uno de los valores de
esta secuencia infinita.
Aunque los resultados de muchos experimentos se describen de manera natural por medio
de valores numricos, otros no pueden describirse as. Por ejemplo, en una encuesta se podra
preguntar a una persona si recuerda el mensaje de un comercial de televisin reciente. Este
experimento tendra dos resultados posibles: la persona no recuerda el mensaje y la persona re-
cuerda el mensaje. Tambin es posible describir numricamente estos resultados experimentales
mediante la definicin de la variable aleatoria discreta x como sigue: sea x ! 0 si la persona no
recuerda el mensaje y x ! 1 si la persona recuerda el mensaje. Los valores numricos de esta
variable son arbitrarios (se podra usar 5 y 10), pero son aceptables con base en la definicin de
una variable, es decir, x es una variable aleatoria, ya que proporciona una descripcin numrica
de los resultados del experimento.
La tabla 5.1 muestra algunos ejemplos de variables aleatorias discretas. Tenga en cuenta
que en cada ejemplo la variable asume un nmero finito de valores o una secuencia infinita de
valores como 0, 1, 2, . . . Estos tipos de variables se estudian con detalle en este captulo.
Valores posibles de la
Experimento Variable aleatoria (x) variable aleatoria
Llamar a cinco clientes Nmero de clientes que hacen 0, 1, 2, 3, 4, 5
un pedido
Inspeccionar un embarque de 50 radios Nmero de radios defectuosos 0, 1, 2, . . . , 49, 50
Encargarse de un restaurante por un da Nmero de clientes 0, 1, 2, 3, . . .
Vender un automvil Gnero del cliente 0 si es hombre, 1 si es mujer
196 Captulo 5 Distribuciones de probabilidad discreta
Valores posibles de la
Experimento Variable aleatoria (x) variable aleatoria
Operar un banco Tiempo entre las llegadas de los x&0
clientes, en minutos
Llenar una lata de refresco Cantidad de onzas 0 % x % 12.1
(mx. ! 12.1 onzas)
Construir una biblioteca Porcentaje del proyecto completado 0 % x % 100
despus de seis meses
Probar un proceso qumico nuevo Temperatura a la que ocurre la 150 % x % 212
reaccin (mn. 150 F; mx. 212 F)
NOTAS Y COMENTARIOS
Una forma de determinar si una variable aleatoria el segmento de recta entre los dos puntos representa
es discreta o continua es pensar en sus valores como tambin los valores posibles de la variable aleatoria,
puntos en un segmento de recta. Elija dos puntos que entonces sta es continua.
representen valores de la variable aleatoria. Si todo
Ejercicios
Mtodos
1. Considere el experimento de lanzar una moneda dos veces.
AUTO evaluacin a) Elabore una lista de los resultados experimentales.
b) Defina una variable aleatoria que represente el nmero de caras que caen en los dos lan-
zamientos.
c) Muestre el valor que la variable aleatoria asumira en cada uno de los resultados expe-
rimentales.
d) Esta variable aleatoria es discreta o continua?
5.2 Distribuciones de probabilidad discreta 197
Aplicaciones
3. Tres estudiantes programaron entrevistas para un empleo de verano en el Instituto Brookwood.
AUTO evaluacin En cada caso el resultado de la entrevista ser una oferta de empleo o ninguna oferta. Los re-
sultados experimentales se definen en funcin de los resultados de las tres entrevistas.
a) Prepare una lista de los resultados experimentales.
b) Defina una variable aleatoria que representa el nmero de ofertas de empleo formuladas.
La variable aleatoria es continua?
c) Muestre el valor de la variable aleatoria para cada uno de los resultados experimentales.
4. En noviembre la tasa de desempleo estadounidense fue de 4.5% (USA Today, 4 de enero de
2007). La Oficina del Censo incluye nueve estados de la regin noreste. Suponga que la varia-
ble aleatoria de inters es el nmero de estados que tuvieron una tasa de desempleo en noviem-
bre menor de 4.5%. Qu valores puede tomar esta variable aleatoria?
5. Para realizar cierto tipo de anlisis de sangre, los tcnicos deben llevar a cabo dos procedi-
mientos. El primero requiere uno o dos pasos, y el segundo requiere ya sea uno, dos o tres
pasos.
a) Elabore una lista de los resultados experimentales asociados con el anlisis de sangre.
b) Si la variable aleatoria de inters es el nmero total de pasos requeridos para hacer el an-
lisis completo (ambos procedimientos), determine qu valor asumir la variable aleatoria
en cada uno de los resultados experimentales.
6. Enseguida se proporciona una serie de experimentos y sus variables aleatorias asociadas. En
cada caso, determine los valores que la variable aleatoria puede asumir y si es discreta o con-
tinua.
histricos, sabemos que x es una variable aleatoria discreta que puede asumir los valores 0,
1, 2, 3, 4 o 5. En la notacin de la funcin de probabilidad, f (0) es la probabilidad de vender
0 unidades, f (1) es la probabilidad de vender 1 automvil, y as sucesivamente. Dado que los
datos histricos muestran que en 54 de los 300 das se vendieron 0 unidades, se asigna el valor
54/300 ! 0.18 a f (0), lo que indica que la probabilidad de que se vendan 0 automviles en un
da es de 0.18. Asimismo, como en 117 de los 300 das se vendi un vehculo, se asigna el valor
117/300 ! 0.39 a f (1), indicando que la probabilidad de que se venda exactamente 1 automvil
en un da es de 0.39. Si se contina de esta manera para los otros valores de la variable aleatoria,
obtenemos los valores de f (2), f (3), f (4) y f (5) como muestra la tabla 5.3, que es la distribu-
cin de probabilidad para el nmero de vehculos vendidos durante un da en DiCarlo Motors.
Una de las principales ventajas de definir una variable aleatoria y su distribucin de pro-
babilidad es que, una vez que se conoce esta ltima, es relativamente fcil determinar la
probabilidad de una variedad de eventos que pueden ser tiles para quien toma decisiones. Por
ejemplo, utilizando la distribucin de probabilidad para DiCarlo Motors que aparece en la ta-
bla 5.3, vemos que el nmero de automviles que es ms probable vender en un da es 1, con
una probabilidad de f (1) ! 0.39. Adems, hay una probabilidad de f (3) " f (4) " f (5) ! 0.14 "
0.04 " 0.01 ! 0.19 de vender 3 o ms unidades durante un da. Estas probabilidades, adems
de otras que quien toma decisiones puede solicitar, proporcionan informacin que le ayudan a
entender el proceso de la venta de automviles en DiCarlo Motors.
Cuando se desarrolla una funcin de probabilidad para una variable aleatoria discreta, se
deben satisfacer las dos condiciones siguientes.
Estas condiciones son CONDICIONES REQUERIDAS PARA UNA FUNCIN DE PROBABILIDAD DISCRETA
anlogas a los dos
requerimientos bsicos para f (x) & 0 (5.1)
asignar probabilidades a los
resultados experimentales ! f (x) ! 1 (5.2)
presentados en el captulo 4.
La tabla 5.3 muestra que las probabilidades de la variable aleatoria x satisfacen la ecuacin
(5.1); f (x) es mayor o igual que 0 para todos los valores de x. Adems, como estas probabili-
dades suman 1, la ecuacin (5.2) tambin se satisface. Por tanto, la funcin de probabilidad de
DiCarlo Motors es una funcin de probabilidad discreta vlida.
Tambin se presentan las distribuciones de probabilidad de manera grfica. En la figura
5.1 los valores de la variable aleatoria x para DiCarlo Motors aparecen en el eje horizontal y la
probabilidad asociada con estos valores se muestra en el eje vertical.
Adems de tablas y grficas para describir las distribuciones de probabilidad, con frecuen-
cia se utiliza una frmula que proporciona la funcin de probabilidad, f (x), para cada valor de
x f (x)
0 0.18
1 0.39
2 0.24
3 0.14
4 0.04
5 0.01
Total 1.00
5.2 Distribuciones de probabilidad discreta 199
f(x)
0.40
Probabilidad
0.30
0.20
0.10
0.00 x
0 1 2 3 4 5
Nmero de automviles vendidos en un da
Donde:
Por ejemplo, suponga que para el experimento de lanzar un dado la variable aleatoria x
se define como el nmero de puntos en la cara que queda hacia arriba. Para este experimento,
n ! 6 valores son posibles para la variable aleatoria; x ! 1, 2, 3, 4, 5, 6. Por tanto, la funcin de
probabilidad para esta variable aleatoria uniforme discreta es
f (x) ! 1/6 x ! 1, 2, 3, 4, 5, 6
x f (x)
1 1/6
2 1/6
3 1/6
4 1/6
5 1/6
6 1/6
200 Captulo 5 Distribuciones de probabilidad discreta
x f (x)
1 1/10
2 2/10
3 3/10
4 4/10
x
f (x) ! para x ! 1, 2, 3 o 4
10
Ejercicios
Mtodos
7. La distribucin de probabilidad para la variable aleatoria x se presenta enseguida.
AUTO evaluacin
x f (x)
20 0.20
25 0.15
30 0.25
35 0.40
Aplicaciones
8. Los datos siguientes se obtuvieron por conteo del nmero de salas de operaciones en uso en
AUTO evaluacin el Hospital General Tampa durante un periodo de 20 das: en tres de estos das slo se us una
sala de ciruga; en cinco de estos das se usaron dos; en ocho das se utilizaron tres, y en cuatro
das se usaron las cuatro salas de operaciones del hospital.
a) Use el mtodo de frecuencia relativa a efecto de construir una distribucin de probabili-
dad para el nmero de salas de operacin en uso en cualquier da dado.
b) Trace una grfica de la distribucin de probabilidad.
c) Muestre que su distribucin de probabilidad satisface las condiciones requeridas para una
distribucin de probabilidad discreta vlida.
5.2 Distribuciones de probabilidad discreta 201
9. En Estados Unidos, 38% de los alumnos de cuarto grado de primaria no puede leer un libro
apropiado para su edad. Los datos siguientes muestran el nmero de sujetos, por edad, que
se identificaron como nios con problemas de aprendizaje que requieren educacin especial.
La mayora tiene problemas de lectura que debieron identificarse y corregirse antes del tercer
grado. La ley federal estadounidense actual prohbe que la mayora de los nios reciba ayuda
adicional de programas de educacin especial hasta que el retraso sea de aproximadamente dos
aos de aprendizaje, y por lo general eso significa hasta tercer grado o grados superiores (USA
Today, 6 de septiembre, 2001).
Suponga que se desea seleccionar una muestra de menores con problemas de aprendizaje y que
deben tomar educacin especial a efecto de incluirlos en un programa diseado para mejorar su
capacidad de lectura. Sea x una variable aleatoria que indica la edad de un nio seleccionado
al azar.
a) Use los datos para elaborar una distribucin de probabilidad para x. Especifique los valores
de la variable aleatoria y los valores correspondientes de la funcin de probabilidad f (x).
b) Trace una grfica de la distribucin de probabilidad.
c) Muestre que la distribucin de probabilidad satisface las ecuaciones (5.1) y (5.2).
10. A continuacin se presentan las distribuciones de frecuencias porcentuales de la satisfaccin
laboral para una muestra de altos directivos y gerentes de rango medio en el rea de sistemas
de informacin (SI). Las puntaciones varan de baja, 1 (muy insatisfecho), a alta, 5 (muy satis-
fecho).
x f (x)
100 000 0.10
200 000 0.20
300 000 0.25
400 000 0.30
500 000 0.10
600 000 0.05
x f (x)
$100 0.10
0 0.20
50 0.30
100 0.25
150 0.10
200
El valor esperado es un
promedio ponderado VALOR ESPERADO DE UNA VARIABLE ALEATORIA DISCRETA
de los valores que asume
la variable aleatoria E(x) ! ! !x f (x) (5.4)
cuando los pesos son
las probabilidades.
Ambas notaciones, E(x) y se usan para denotar el valor esperado de una variable aleatoria.
La ecuacin (5.4) muestra que para calcular el valor esperado de una variable aleatoria dis-
creta se debe multiplicar cada valor de la variable por su probabilidad correspondiente f (x),
y despus se suman los productos que resultan. Utilizando el ejemplo de la venta de automvi-
El valor esperado no tiene les de DiCarlo Motors de la seccin 5.2, en la tabla 5.4 se muestra el clculo del valor esperado
que ser un valor que la para el nmero de vehculos vendidos durante un da. La suma de las entradas de la columna
variable aleatoria pueda x f (x) muestra que el valor esperado es 1.50 unidades por da. Por consiguiente, aunque se sabe
asumir.
que en un da cualquiera las ventas pueden ser de 0, 1, 2, 3, 4 o 5 automviles, DiCarlo antici-
pa que con el tiempo se vender un promedio diario de 1.50. Suponiendo que un mes tiene 30
das de operacin, se usa el valor esperado de 1.50 para pronosticar el promedio de ventas men-
suales de 30(1.50) ! 45 vehculos.
Varianza
Aun cuando el valor esperado proporciona el valor medio de la variable aleatoria, a menudo
necesitamos una medida de variabilidad o dispersin. As como la varianza se us en el captu-
lo 3 para resumir la variabilidad en los datos, ahora la varianza se usa para resumir la varia-
bilidad en los valores de una variable aleatoria. A continuacin se presenta la frmula para la
varianza de una variable aleatoria discreta.
La varianza es un
promedio ponderado de las
desviaciones al cuadrado de VARIANZA DE UNA VARIABLE ALEATORIA DISCRETA
una variable aleatoria
de su media. Los pesos Var (x) ! 2 ! !(x $ )2f (x) (5.5)
son las probabilidades.
Como muestra la ecuacin (5.5), una parte esencial de la frmula de la varianza es la des-
viacin, x $ , la cual mide a qu distancia est el valor esperado, o la media, , de un valor
particular de la variable aleatoria. Para calcular la varianza de una variable aleatoria, las desvia-
ciones se elevan al cuadrado y luego se ponderan por el valor correspondiente de la funcin de
probabilidad. La suma de estas desviaciones al cuadrado ponderadas para todos los valores de la
variable aleatoria se conocen como la varianza. Las notaciones Var (x) y 2 se usan para denotar
la varianza de una variable aleatoria.
TABLA 5.4 Clculo del valor esperado para el nmero de automviles que se venden en un da
en Dicarlo Motors
x f (x) xf (x)
0 0.18 0(0.18) ! 0.00
1 0.39 1(0.39) ! 0.39
2 0.24 2(0.24) ! 0.48
3 0.14 3(0.14) ! 0.42
4 0.04 4(0.04) ! 0.16
5 0.01 5(0.01) ! 0.05
1.50
x x$ (x $ )2 f(x) (x $ )2 f(x)
0 0 $ 1.50 ! $1.50 2.25 0.18 2.25(.18) ! 0.4050
1 1 $ 1.50 ! $0.50 0.25 0.39 0.25(.39) ! 0.0975
2 2 $ 1.50 ! 0.50 0.25 0.24 0.25(.24) ! 0.0600
3 3 $ 1.50 ! 1.50 2.25 0.14 2.25(.14) ! 0.3150
4 4 $ 1.50 ! 2.50 6.25 0.04 6.25(.04) ! 0.2500
5 5 $ 1.50 ! 3.50 12.25 0.01 12.25(.01) ! 0.1225
1.2500
! "1.25 ! 1.118
La desviacin estndar se mide en las mismas unidades que la variable aleatoria ( ! 1.118
automviles) y por tanto a menudo se prefiere para describir la variabilidad de una variable alea-
toria. La varianza 2 se mide en unidades cuadradas y, por tanto, es ms difcil de interpretar.
Ejercicios
Mtodos
15. La tabla siguiente proporciona una distribucin de probabilidad para la variable aleatoria x.
x f (x)
3 0.25
6 0.50
9 0.25
y f( y)
2 0.20
4 0.30
7 0.40
8 0.10
a) Calcule E( y).
b) Calcule Var (y) y .
5.3 Valor esperado y varianza 205
Aplicaciones
17. El nmero de estudiantes que presentan la prueba de aptitudes escolares SAT ha aumentado a
una cifra sin precedente de 1.5 millones (Consejo del Colegio, 26 de agosto de 2008). Se per-
mite que los estudiantes repitan la prueba con la esperanza de que mejoren la calificacin que
se enva a las oficinas de admisin de los colegios y universidades. El nmero de veces que la
SAT fue presentada y el nmero de estudiantes son los siguientes.
Nmero Nmero de
de veces estudiantes
1 721 769
2 601 325
3 166 736
4 22 299
5 6 730
a) Sea x una variable aleatoria que indica el nmero de veces que un estudiante presenta el
SAT. Muestre la distribucin de probabilidad para esta variable aleatoria.
b) Cul es la probabilidad de que un estudiante presente el SAT ms de una vez?
c) Cul es la probabilidad de que un estudiante lo presente tres o ms veces?
d) Cul es el valor esperado del nmero de veces que se presenta el SAT? Cul es su inter-
pretacin del valor esperado?
e) Cules son la varianza y la desviacin estndar para el nmero de veces que se presenta
el SAT?
18. El estudio American Housing Survey report los datos siguientes sobre el nmero de recma-
AUTO evaluacin ras ocupadas en casas propias y rentadas en las ciudades centrales (sitio web de la Oficina del
Censo de Estados Unidos, 31 de marzo de 2003).
a) Defina una variable aleatoria x ! nmero de recmaras en las casas rentadas y elabore
una distribucin de probabilidad para la variable aleatoria (x ! 4 representa 4 o ms re-
cmaras.)
b) Calcule el valor esperado y la varianza del nmero de recmaras en las casas rentadas.
c) Defina una variable aleatoria y ! nmero de recmaras en las casas propias, y elabore
una distribucin de probabilidad para la variable aleatoria ( y ! 4 representa 4 o ms
recmaras.)
d) Calcule el valor esperado y la varianza para el nmero de recmaras en las casas propias.
e) Qu observaciones puede hacer de la comparacin del nmero de recmaras en casas
rentadas en comparacin con las casas propias?
19. La NBA (National Basketball Association) lleva un registro de una variedad de estadsticas para
cada equipo. Dos de stas registran el porcentaje de tiros de campo y el porcentaje de tiros de
tres puntos efectuados por equipo. Los registros de tiros de los 29 equipos de la NBA para una
parte de la temporada 2004 mostraban que la probabilidad de anotar dos puntos en un tiro de
206 Captulo 5 Distribuciones de probabilidad discreta
campo era de 0.44, y la probabilidad de anotar tres puntos al hacer un tiro de tres puntos era de
0.34 (sitio web de la NBA, 3 de enero de 2004).
a) Cul es el valor esperado de un tiro de dos puntos para estos equipos?
b) Cul es el valor esperado de un tiro de tres puntos para estos equipos?
c) Si la probabilidad de hacer un tiro de dos puntos es mayor que la de hacer un tiro de
tres puntos, por qu los entrenadores permiten que algunos jugadores lancen tiros de tres
puntos si tienen la oportunidad? Use el valor esperado para explicar su respuesta.
20. La distribucin de probabilidad de las reclamaciones por daos que pag Newton Automobile
Insurance Company por seguro contra choques es la siguiente.
a) Use el pago de choque esperado para determinar la prima del seguro contra colisiones
que permitira a la empresa no ganar ni perder.
b) La compaa de seguros cobra una tarifa anual de $520 por la cobertura de choques. Cul
es el valor esperado del seguro contra choques para un asegurado? (Pista: son los pa-
gos esperados de la empresa menos el costo de cobertura.) Por qu el cliente compra un
seguro contra colisiones con este valor esperado?
21. Las siguientes distribuciones de probabilidad de las puntuaciones de satisfaccin laboral para
una muestra de altos directivos y gerentes de rango medio del rea de sistemas de informacin
(SI) vara de un valor bajo de 1 (muy insatisfecho) a un valor alto de 5 (muy satisfecho).
Probabilidad
Puntuacin de Altos directivos Gerentes de rango
satisfaccin laboral de SI medio de SI
1 0.05 0.04
2 0.09 0.10
3 0.03 0.12
4 0.42 0.46
5 0.41 0.28
a) Cul es el valor esperado de la puntuacin de satisfaccin laboral para los altos di-
rectivos?
b) Cul es el valor esperado de dicha puntuacin para los gerentes de rango medio?
c) Calcule la varianza de las puntuaciones de satisfaccin laboral para los directivos y los
gerentes de rango medio.
d) Estime la desviacin estndar de las calificaciones de satisfaccin laboral en las dos dis-
tribuciones de probabilidad.
e) Compare la satisfaccin laboral de los altos directivos con la de los gerentes de nivel
medio.
22. La demanda de un producto de Carolina Industries vara mucho cada mes. La distribucin de
probabilidad en la tabla siguiente, con base en los datos de aos pasados, muestra la demanda
mensual de la empresa.
a) Si la empresa basa los pedidos de cada mes en el valor esperado de la demanda mensual,
cul debe ser la cantidad de pedidos mensuales de Carolina para este producto?
b) Suponga que cada unidad demandada genera ingresos de $70 y que cada una cuesta $50.
Cunto ganar o perder la empresa en un mes si hace un pedido con base en su respuesta
al inciso a) y la demanda real del artculo es 300 unidades?
23. La Encuesta de Viviendas y Unidades Desocupadas de la Ciudad de Nueva York mostr un
total de 59 324 unidades de vivienda bajo control de rentas y 236 263 unidades bajo renta regu-
lada construidas en 1947 o despus. Las distribuciones de probabilidad del nmero de personas
que viven en estas viviendas rentadas se proporcionan a continuacin (sitio web de la Oficina
del Censo de Estados Unidos, 12 de enero de 2004).
Nmero de
personas Control de rentas Renta regulada
1 0.61 0.41
2 0.27 0.30
3 0.07 0.14
4 0.04 0.11
5 0.01 0.03
6 0.00 0.01
a) Cul es el valor esperado del nmero de personas que viven en cada tipo de unidad?
b) Cul es la varianza del nmero de personas que viven en cada tipo de unidad?
c) Haga algunas comparaciones entre el nmero de personas que viven en viviendas bajo
rentas controladas y el nmero de personas que viven en unidades de renta regulada.
24. J. R. Ryland Computer Company considera la expansin de una planta para permitir a la em-
presa comenzar la fabricacin de una computadora nueva. El presidente de la firma debe de-
terminar si el proyecto de expansin se realiza a mediana o a gran escala. La demanda para
la computadora nueva es incierta, y para propsitos de planeacin puede ser baja, mediana o
alta. Las probabilidades estimadas para la demanda son 0.20, 0.50 y 0.30, respectivamente; x
y y indican las utilidades anuales en miles de dlares. Los encargados de la planeacin en la
empresa elaboraron los pronsticos de utilidades siguientes para los proyectos de expansin a
mediana y gran escala.
a) Calcule el valor esperado para las utilidades asociadas con las dos alternativas de expan-
sin. Cul decisin es preferible para el objetivo de maximizar las utilidades esperadas?
b) Calcule la varianza para la utilidad asociada con las dos alternativas de expansin. Cul
decisin es preferible para el objetivo de minimizar el riesgo o la incertidumbre?
Un experimento binomial
Un experimento binomial tiene las cuatro propiedades siguientes.
Jakob Bernoulli Si estn presentes las propiedades 2, 3 y 4, se dice que los ensayos son generados por un
(1654-1705), el primero proceso de Bernoulli. Si, adems, la propiedad 1 est presente, se dice que tenemos un expe-
de una familia de
rimento binomial. La figura 5.2 representa una secuencia posible de xitos y fracasos para un
matemticos suizos,
public un tratado sobre experimento binomial que consta de ocho ensayos.
probabilidad que contena En un experimento binomial, lo que interesa es el nmero de xitos que ocurren en los n
la teora de permutaciones ensayos. Si x denota el nmero de xitos que ocurren en n ensayos, vemos que x puede asumir
y combinaciones, as como los valores 0, 1, 2, 3..., n. Debido a que el nmero de valores es finito, x es una variable aleatoria
el teorema binomial.
discreta. La distribucin de probabilidad asociada con esta variable se llama distribucin de
probabilidad binomial. Por ejemplo, considere el experimento de lanzar una moneda cinco
veces y en cada lanzamiento observe si la moneda cae con cara o cruz en el lado superior. Su-
ponga que queremos contar el nmero de caras que aparecen durante los cinco lanzamientos.
Este ejemplo muestra las propiedades de un experimento binomial? Cul es la variable alea-
toria de inters? Observe que:
Ensayos 1 2 3 4 5 6 7 8
Resultados S F F S S F S S
5.4 Distribucin de probabilidad binomial 209
Por tanto, las propiedades de un experimento binomial se satisfacen. La variable aleatoria que
interesa es x ! nmero de caras que ocurren en cinco ensayos. En este caso, x puede tomar los
valores 0, 1, 2, 3, 4 o 5.
En otro ejemplo, considere a una vendedora de seguros que visita a 10 familias selecciona-
das al azar. El resultado asociado con cada visita se clasifica como un xito si la familia compra
un seguro y un fracaso si no lo compra. A partir de su experiencia, la vendedora sabe que la pro-
babilidad de que una familia seleccionada al azar compre un seguro es de 0.10. Al revisar las
propiedades de un experimento binomial se observa que:
1. El experimento consta de 10 ensayos idnticos; cada uno consiste en visitar a una fa-
milia.
2. En cada ensayo hay dos resultados posibles: la familia compra el seguro (xito) o no lo
compra (fracaso).
3. Se asume que las probabilidades de que haya una compra o no la haya son iguales para
cada visita, con p ! 0.10 y 1 " p ! 0.90.
4. Los ensayos son independientes, porque las familias se eligen al azar.
Como estos cuatro supuestos se cumplen, este ejemplo es un experimento binomial. La variable
aleatoria de inters es el nmero de ventas obtenidas al hacer contacto con las 10 familias. En
este caso, x puede asumir los valores 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 y 10.
La propiedad 3 del experimento binomial se llama supuesto de estacionariedad y a veces se
confunde con la propiedad 4, la independencia de los ensayos. Para ver cmo difieren, conside-
re de nuevo el caso de la vendedora que visita a las familias para ofrecer seguros. Si, a medida
que el da avanza, la empleada se cansa y pierde entusiasmo, la probabilidad de xito (vender
un seguro) para el dcimo contacto podra disminuir a 0.05, por ejemplo. En este caso, la pro-
piedad 3 (estacionariedad) no se cumplira y el experimento no sera binomial. Incluso si la
propiedad 4 se cumple, es decir, que las decisiones de compra de cada familia se realizaran en
forma independiente, el experimento no sera binomial si la propiedad 3 no se satisface.
En las aplicaciones con experimentos binomiales se usa una frmula matemtica espe-
cial, llamada funcin de probabilidad binomial, para calcular la probabilidad de x xitos en n
ensayos. Enseguida se mostrar cmo se desarrolla la frmula, en el contexto de un problema
ilustrativo, usando los conceptos de probabilidad presentados en el captulo 4.
1. El experimento se describe como una secuencia de tres ensayos idnticos, uno para
cada uno de los tres clientes que entran en la tienda.
2. Para cada ensayo hay dos resultados posibles: el cliente efecta una compra (xito) o el
cliente no efecta una compra (fracaso).
3. Se asume que la probabilidad de que el cliente realice una compra (0.30) o no la rea-
lice (0.70) es la misma para todos los clientes.
4. La decisin de compra de cada sujeto es independiente de las decisiones que tomen los
otros clientes.
210 Captulo 5 Distribuciones de probabilidad discreta
S (S, S, S) 3
S
F (S, S, F) 2
S (S, F, S) 2
S F
F (S, F, F) 1
S (F, S, S) 2
F S
F (F, S, F) 1
S (F, F, S) 1
F
F (F, F, F) 0
S ! Hay compra
F ! No hay compra
x ! Nmero de clientes que efectan una compra
n n!
! (5.6)
x x!(n " x)!
donde
n! ! n(n " 1)(n " 2) . . . (2)(1)
y por definicin,
0! ! 1
Ahora regresemos al experimento de Martin Clothing Store que consiste en las decisiones
de compra de tres clientes. La ecuacin (5.6) permite determinar el nmero de resultados que
1
Esta frmula, presentada en el captulo 4, determina el nmero de combinaciones de n objetos seleccionados x a la
vez. Para el experimento binomial, esta frmula combinatoria proporciona el nmero de resultados experimentales (se-
cuencias de n ensayos), lo que da como resultado x xitos.
5.4 Distribucin de probabilidad binomial 211
n 3 3! (3)(2)(1) 6
! ! ! ! !3
x 2 2!(3 " 2)! (2)(1)(1) 2
La ecuacin (5.6) muestra que tres de los resultados experimentales produjeron dos xitos.
A partir de la figura 5.3, vemos que estos tres resultados se denotan por (S, S, F), (S, F, S) y
(F, S, S).
Usando la ecuacin (5.6) para determinar cuntos resultados experimentales tienen tres
xitos (compras) en los tres ensayos, obtenemos
n 3 3! 3! (3)(2)(1) 6
! ! ! ! ! !1
x 3 3!(3 " 3)! 3!0! 3(2)(1)(1) 6
A partir de la figura 5.3 observamos que el resultado experimental con tres xitos se identifica
por (S, S, S).
Se sabe que la ecuacin (5.6) se utiliza para determinar el nmero de resultados experimen-
tales que dan lugar a x xitos. Si se determinar la probabilidad de x xitos en n ensayos, no
obstante, tambin debemos conocer la probabilidad asociada con cada uno de estos resultados.
Como los ensayos de un experimento binomial son independientes, sencillamente es posible
multiplicar las probabilidades asociadas con el resultado de cada ensayo para encontrar la pro-
babilidad de una secuencia particular de xitos y fracasos.
La probabilidad de que los dos primeros clientes compren y que el tercero no compre, de-
notada por (S, S, F), est dada por
pp (1 " p)
Con una probabilidad de 0.30 de una compra en cualquier ensayo, la probabilidad de una com-
pra en los primeros dos ensayos y ninguna compra en el tercero est dada por
Otros dos resultados experimentales tambin dan lugar a dos xitos y un fracaso. Las probabili-
dades de tres resultados que tienen dos xitos se presentan a continuacin.
Observe que los tres resultados experimentales con dos xitos tienen exactamente la mis-
ma probabilidad. Esta observacin es vlida en general. En cualquier experimento binomial,
todas las secuencias de resultados de ensayos que producen x xitos en n ensayos tienen la
misma probabilidad de ocurrencia. La probabilidad de cada secuencia de ensayos que producen
x xitos en n ensayos se presenta a continuacin.
212 Captulo 5 Distribuciones de probabilidad discreta
En el caso de la tienda Martin Clothing Store, esta frmula indica que cualquier resultado
experimental con dos xitos tiene una probabilidad de p2(1 " p)(3"2) ! p2(1 " p)1 !
(0.30)2(0.70)1 ! 0.063.
Como la ecuacin (5.6) muestra el nmero de resultados de un experimento binomial con
x xitos y la ecuacin (5.7) proporciona la probabilidad de cada secuencia con x xitos, las ecua-
ciones (5.6) y (5.7) se combinan para obtener la funcin de probabilidad binomial siguiente.
n x
f (x) ! p (1 " p)(n"x) (5.8)
x
donde
x ! nmero de xitos
p ! probabilidad de un xito en un ensayo
n ! nmero de ensayos
f (x) ! probabilidad de x xitos en n ensayos
n n!
!
x x!(n " x)!
TABLA 5.6 Distribucin de probabilidad para el nmero de clientes que efectan una compra
x f(x)
3!
0 (0.30)0(0.70)3 ! 0.343
0!3!
3!
1 (0.30)1(0.70)2 ! 0.441
1!2!
3!
2 (0.30)2(0.70)1 ! 0.189
2!1!
3! 0.027
3 (0.30)3(0.70)0 !
3!0! 1.000
5.4 Distribucin de probabilidad binomial 213
f (x)
0.50
0.40
Probabilidad
0.30
0.20
0.10
0.00 x
0 1 2 3
Nmero de clientes que efectan una compra
10!
f (4) ! (0.30)4(0.70)6 ! 0.2001
4!6!
TABLA 5.7 Valores seleccionados del ejemplo de la tabla de probabilidad binomial: n ! 10; x ! 3; p !.040;
f (3) ! 0.2150
p
n x 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50
9 0 0.6302 0.3874 0.2316 0.1342 0.0751 0.0404 0.0207 0.0101 0.0046 0.0020
1 0.2985 0.3874 0.3679 0.3020 0.2253 0.1556 0.1004 0.0605 0.0339 0.0176
2 0.0629 0.1722 0.2597 0.3020 0.3003 0.2668 0.2162 0.1612 0.1110 0.0703
3 0.0077 0.0446 0.1069 0.1762 0.2336 0.2668 0.2716 0.2508 0.2119 0.1641
4 0.0006 0.0074 0.0283 0.0661 0.1168 0.1715 0.2194 0.2508 0.2600 0.2461
5 0.0000 0.0008 0.0050 0.0165 0.0389 0.0735 0.1181 0.1672 0.2128 0.2461
6 0.0000 0.0001 0.0006 0.0028 0.0087 0.0210 0.0424 0.0743 0.1160 0.1641
7 0.0000 0.0000 0.0000 0.0003 0.0012 0.0039 0.0098 0.0212 0.0407 0.0703
8 0.0000 0.0000 0.0000 0.0000 0.0001 0.0004 0.0013 0.0035 0.0083 0.0176
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0008 0.0020
10 0 0.5987 0.3487 0.1969 0.1074 0.0563 0.0282 0.0135 0.0060 0.0025 0.0010
1 0.3151 0.3874 0.3474 0.2684 0.1877 0.1211 0.0725 0.0403 0.0207 0.0098
2 0.0746 0.1937 0.2759 0.3020 0.2816 0.2335 0.1757 0.1209 0.0763 0.0439
3 0.0105 0.0574 0.1298 0.2013 0.2503 0.2668 0.2522 0.2150 0.1665 0.1172
4 0.0010 0.0112 0.0401 0.0881 0.1460 0.2001 0.2377 0.2508 0.2384 0.2051
5 0.0001 0.0015 0.0085 0.0264 0.0584 0.1029 0.1536 0.2007 0.2340 0.2461
6 0.0000 0.0001 0.0012 0.0055 0.0162 0.0368 0.0689 0.1115 0.1596 0.2051
7 0.0000 0.0000 0.0001 0.0008 0.0031 0.0090 0.0212 0.0425 0.0746 0.1172
8 0.0000 0.0000 0.0000 0.0001 0.0004 0.0014 0.0043 0.0106 0.0229 0.0439
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0005 0.0016 0.0042 0.0098
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0010
El software para estadstica, como Minitab, y los programas de hoja de clculo, como
Excel, tambin permiten calcular probabilidades binomiales. Considere el ejemplo de Martin
Clothing Store con n ! 10 y p ! 0.30. La figura 5.5 muestra las probabilidades binomiales ge-
neradas por Minitab para todos los valores posibles de x. Note que estos valores son los mismos
que aquellos encontrados en la columna p ! 0.30 de la tabla 5.7. En el apndice 5.1 se explica
el procedimiento paso por paso para usar Minitab con la finalidad de generar el resultado que
se exhibe en la figura 5.5. En el apndice 5.2 se describe cmo usar Excel para calcular proba-
bilidades binomiales.
E(x) ! ! np (5.9)
Var (x) ! 2 ! np(1 " p) (5.10)
5.4 Distribucin de probabilidad binomial 215
FIGURA 5.5 Resultado de Minitab que muestra las probabilidades binomiales para el problema
de Martin Clothing Store
x P(X = x)
0.00 0.0282
1.00 0.1211
2.00 0.23350
3.00 0.2668
4.00 0.2001
5.00 0.1029
6.00 0.0368
7.00 0.0090
8.00 0.0014
9.00 0.0001
10.00 0.0000
En el caso del problema de Martin Clothing Store con tres clientes, se usa la ecuacin (5.9)
para calcular el nmero esperado de clientes que realizarn una compra.
Suponga que para el mes siguiente Martin Clothing Store pronostica que 1 000 clientes entrarn
en la tienda. Cul es el nmero esperado de personas que realizarn una compra? La respues-
ta es ! np ! (1 000)(0.3) ! 300. Por tanto, para aumentar el nmero esperado de compras,
la empresa debe lograr que ms clientes entren en el establecimiento y/o aumentar de alguna
manera la probabilidad de que un cliente realice una compra cuando est adentro.
En este problema con tres clientes, vemos que la varianza y la desviacin estndar del n-
mero de ellos que harn una compra es
Para los prximos 1 000 clientes que entren en la tienda, la varianza y la desviacin estndar del
nmero de personas que harn una compra son
NOTAS Y COMENTARIOS
1. La tabla binomial del apndice B muestra valores 2. Algunas fuentes presentan las tablas binomiales
de p hasta p ! 0.95, inclusive. Algunas fuentes de en forma acumulada. Al usarlas para encontrar
la tabla binomial slo muestran valores de p hasta exactamente x xitos en n ensayos, se deben res-
p ! 0.50. Parecera que una tabla como sta no tar las entradas de la tabla correspondiente. Por
puede usarse cuando la probabilidad de xito re- ejemplo, f (2) ! P(x $ 2) " P(x $ 1). La tabla
basa p ! 0.50. No obstante, puede utilizarse si se binomial del apndice B proporciona f (2) direc-
considera que la probabilidad de n " x fracasos tamente. Para calcular las probabilidades acumu-
es tambin la probabilidad de x xitos. Por tan- ladas usando las tablas binomiales del apndice B,
to, cuando la probabilidad de xito es mayor que se suman las entradas de la tabla correspondien-
p ! 0.50, se calcula la probabilidad de n " x fra- te. Por ejemplo, para determinar la probabilidad
casos en vez de la probabilidad de xitos. La pro- acumulada P(x $ 2), calcule la suma f (0) %
babilidad de fracasos, 1 " p, es menor que 0.50 f (1) % f (2).
cuando p # 0.50.
216 Captulo 5 Distribuciones de probabilidad discreta
Ejercicios
Mtodos
25. Considere un experimento binomial con dos ensayos y p ! 0.4.
AUTO evaluacin a) Trace un diagrama de rbol para este experimento (vea la figura 5.3).
b) Calcule la probabilidad de un xito, f (l).
c) Calcule f (0).
d) Estime f (2).
e) Calcule la probabilidad de por lo menos un xito.
f ) Determine el valor esperado, la varianza y la desviacin estndar.
26. Considere un experimento binomial con n ! 10 y p ! 0.10.
a) Calcule f (0).
b) Estime f (2).
c) Calcule P(x $ 2).
d) Determine P(x & 1).
e) Calcule E(x).
f ) Estime Var(x) y .
27. Considere un experimento binomial con n ! 20 y p ! 0.70.
a) Calcule f (12).
b) Determine f (16).
c) Calcule P(x & 16).
d) Estime P(x $ 15).
e) Calcule E(x).
f ) Defina Var(x) y .
Aplicaciones
28. Un estudio de Harris Interactive para Intercontinental Hotels & Resorts pregunt a los en-
cuestados: Cuando viaja por el mundo, se aventura por cuenta propia para experimentar
la cultura, o sigue con su grupo del tour y los itinerarios? El sondeo revel que 23% de los
encuestados se queda con su grupo de viaje (USA Today, 21 de enero de 2004).
a) En una muestra de seis viajeros internacionales, cul es la probabilidad de que dos se
queden con el grupo del tour?
b) En una muestra de seis viajeros, cul es la probabilidad de que por lo menos dos perma-
nezcan con su grupo de viaje?
c) En una muestra de 10 viajeros, cul es la probabilidad de que ninguno se quede con el
grupo del tour?
29. En San Francisco, 30% de los trabajadores toma diario el transporte pblico (USA Today, 21 de
diciembre de 2005).
a) En una muestra de 10 trabajadores, cul es la probabilidad de que exactamente tres to-
men el transporte pblico todos los das?
b) En una muestra de 10 trabajadores, cul es la probabilidad de que por lo menos tres
aborden el transporte pblico todos los das?
30. Cuando una mquina nueva funciona adecuadamente, slo 3% de los artculos producidos
AUTO evaluacin resulta con defectos. Suponga que seleccionamos al azar dos partes producidas en la mquina
y que nos interesa el nmero de partes defectuosas encontradas.
a) Describa las condiciones bajo las cuales esta situacin sera un experimento binomial.
b) Trace un diagrama de rbol parecido al de la figura 5.3 que muestra este problema como
un experimento de dos ensayos.
c) En cuntos resultados experimentales se encuentra exactamente un defecto?
d) Calcule las probabilidades asociadas con no encontrar defecto, y hallar exactamente uno
y dos defectos.
5.4 Distribucin de probabilidad binomial 217
31. El 9% de los estudiantes universitarios en Estados Unidos tiene estados de cuenta de sus tarje-
tas de crdito mayores a $7 000 (Readers Digest, julio de 2002). Suponga que 10 estudiantes
fueron seleccionados al azar para entrevistarlos sobre el uso de tarjetas de crdito.
a) La seleccin de 10 estudiantes es un experimento binomial? Explique por qu.
b) Cul es la probabilidad de que dos de los consultados tengan un estado de cuenta de su
tarjeta de crdito mayor de $7 000?
c) Cul es la probabilidad de que ninguno tenga un estado de cuenta mayor de $7 000?
d) Cul es la probabilidad de que por lo menos tres tengan un estado de cuenta mayor de
$7 000?
32. Los radares militares y sistemas de deteccin de misiles estn diseados para advertir a un pas
de un ataque enemigo. Una pregunta de fiabilidad de un sistema de este tipo permite determi-
nar si ste es capaz de identificar un ataque y emitir una advertencia. Suponga que un sistema
de deteccin particular tiene una probabilidad 0.90 de detectar un ataque con misiles. Use la
distribucin de probabilidad binomial para responder las preguntas siguientes.
a) Cul es la probabilidad de que un solo sistema de deteccin capte un ataque?
b) Si dos sistemas de deteccin se instalan en la misma zona y trabajan de forma indepen-
diente, cul es la probabilidad de que por lo menos uno detecte el ataque?
c) Si se instalan tres sistemas, cul es la probabilidad de que por lo menos uno de ellos iden-
tifique el ataque?
d) Recomendara el uso de sistemas de deteccin mltiple? Explique sus razones.
33. En 2001, el 50% de los estadounidenses crea que el pas atravesaba por una recesin aun-
que tcnicamente la economa no haba mostrado dos trimestres consecutivos de crecimiento
negativo (Business Week, 30 de julio de 2001). Para una muestra de 20 estadounidenses, realice
los clculos siguientes.
a) Estime la probabilidad de que exactamente 12 personas crean que el pas estaba en re-
cesin.
b) Calcule la probabilidad de que no ms de cinco personas crean que el pas pasaba por
una recesin.
c) Cuntas personas esperara que dijeran que el pas atravesaba por una recesin?
d) Calcule la varianza y la desviacin estndar del nmero de personas que crean que el pas
estaba en recesin.
34. La Encuesta de Poblacin actual de la Oficina del Censo muestra que 28% de los individuos,
con edades de 25 y mayores, han completado cuatro aos de universidad (The New York Times
Almanac, 2006). Para una muestra de 15 individuos con edades de 25 y mayores, responda las
preguntas siguientes.
a) Cul es la probabilidad de que cuatro hayan completado cuatro aos de universidad?
b) Cul es la probabilidad de que tres o ms hayan completado cuatro aos de universidad?
35. Una universidad encontr que 20% de sus estudiantes se retir sin completar el curso intro-
ductorio de estadstica. Suponga que 20 alumnos se registraron para el curso.
a) Calcule la probabilidad de que dos o menos estudiantes se retirarn.
b) Determine la probabilidad de que exactamente cuatro abandonarn el curso.
c) Calcule la probabilidad de que tres se retirarn.
d) Estime el nmero esperado de retiros.
36. Una encuesta realizada por TD Ameritrade encontr que uno de cada cuatro inversionistas
dispone de fondos cotizados en bolsa en sus portafolios (USA Today, 11 de enero de 2007).
Considere una muestra de 20 inversionistas.
a) Calcule la probabilidad de que exactamente cuatro inversionistas disponen de fondos co-
tizados en bolsa en sus portafolios.
b) Calcule la probabilidad de que por lo menos dos tienen fondos cotizados en bolsa en sus
portafolios.
c) Si usted encuentra que exactamente 12 inversionistas disponen de fondos cotizados en
bolsa en sus portafolios, dudara de la exactitud de los resultados de la encuesta?
d) Calcule el nmero esperado de inversionistas que tienen fondos cotizados en bolsa en sus
portafolios.
37. El 23% de los automviles no cuenta con un seguro (CNN, 23 de febrero de 2006). En un fin de
semana en particular, hubo 35 automviles involucrados en accidentes de trfico.
a) Cul es el nmero esperado de estos vehculos que no cuenta con un seguro?
b) Cules son la varianza y la desviacin estndar?
218 Captulo 5 Distribuciones de probabilidad discreta
TABLA 5.8 Valores seleccionados del ejemplo de las tablas de probabilidad de Poisson:
! 10; x ! 5; f (5) ! 0.0378
x 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 10
0 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0000
1 0.0010 0.0009 0.0009 0.0008 0.0007 0.0007 0.0006 0.0005 0.0005 0.0005
2 0.0046 0.0043 0.0040 0.0037 0.0034 0.0031 0.0029 0.0027 0.0025 0.0023
3 0.0140 0.0131 0.0123 0.0115 0.0107 0.0100 0.0093 0.0087 0.0081 0.0076
4 0.0319 0.0302 0.0285 0.0269 0.0254 0.0240 0.0226 0.0213 0.0201 0.0189
5 0.0581 0.0555 0.0530 0.0506 0.0483 0.0460 0.0439 0.0418 0.0398 0.0378
6 0.0881 0.0851 0.0822 0.0793 0.0764 0.0736 0.0709 0.0682 0.0656 0.0631
7 0.1145 0.1118 0.1091 0.1064 0.1037 0.1010 0.0982 0.0955 0.0928 0.0901
8 0.1302 0.1286 0.1269 0.1251 0.1232 0.1212 0.1191 0.1170 0.1148 0.1126
9 0.1317 0.1315 0.1311 0.1306 0.1300 0.1293 0.1284 0.1274 0.1263 0.1251
10 0.1198 0.1210 0.1219 0.1228 0.1235 0.1241 0.1245 0.1249 0.1250 0.1251
11 0.0991 0.1012 0.1031 0.1049 0.1067 0.1083 0.1098 0.1112 0.1125 0.1137
12 0.0752 0.0776 0.0799 0.0822 0.0844 0.0866 0.0888 0.0908 0.0928 0.0948
13 0.0526 0.0549 0.0572 0.0594 0.0617 0.0640 0.0662 0.0685 0.0707 0.0729
14 0.0342 0.0361 0.0380 0.0399 0.0419 0.0439 0.0459 0.0479 0.0500 0.0521
15 0.0208 0.0221 0.0235 0.0250 0.0265 0.0281 0.0297 0.0313 0.0330 0.0347
16 0.0118 0.0127 0.0137 0.0147 0.0157 0.0168 0.0180 0.0192 0.0204 0.0217
17 0.0063 0.0069 0.0075 0.0081 0.0088 0.0095 0.0103 0.0111 0.0119 0.0128
18 0.0032 0.0035 0.0039 0.0042 0.0046 0.0051 0.0055 0.0060 0.0065 0.0071
19 0.0015 0.0017 0.0019 0.0021 0.0023 0.0026 0.0028 0.0031 0.0034 0.0037
20 0.0007 0.0008 0.0009 0.0010 0.0011 0.0012 0.0014 0.0015 0.0017 0.0019
21 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
22 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004
23 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001
220 Captulo 5 Distribuciones de probabilidad discreta
Ejercicios
Mtodos
38. Considere una distribucin de Poisson con ! 3.
a) Escriba una funcin de probabilidad de Poisson apropiada.
b) Calcule f (2).
c) Determine f (1).
d) Calcule P(x & 2).
AUTO evaluacin 39. Considere una distribucin de Poisson con una media de dos ocurrencias por periodo.
a) Escriba una funcin de probabilidad de Poisson apropiada.
b) Cul es el nmero esperado de ocurrencias en tres periodos?
c) Escriba una funcin de probabilidad de Poisson apropiada para determinar la probabilidad
de ocurrencias en tres periodos.
d) Calcule la probabilidad de dos ocurrencias en un periodo.
e) Estime la probabilidad de seis ocurrencias en tres periodos.
f ) Calcule la probabilidad de cinco ocurrencias en dos periodos.
Aplicaciones
40. Las llamadas telefnicas entran a una razn de 48 por hora en la oficina de reservaciones de
Regional Airways.
a) Calcule la probabilidad de recibir tres llamadas en un intervalo de 5 minutos.
b) Estime la probabilidad de recibir exactamente 10 llamadas en 15 minutos.
c) Suponga que actualmente no hay llamada en espera. Si el agente tarda 5 minutos en ter-
minar la llamada actual, cuntas personas estimara que estuvieran esperando en el tel-
fono para ese entonces? Cul es la probabilidad de que no haya llamada en espera?
d) Si no se procesa actualmente alguna llamada, cul es la probabilidad de que el agente tarde
3 minutos en un asunto personal sin ser interrumpido por una llamada?
5.6 Distribucin de probabilidad hipergeomtrica 221
41. Durante el periodo en que una universidad local hace registros por telfono, las llamadas en-
tran a una razn de una cada 2 minutos.
a) Cul es el nmero esperado de llamadas en una hora?
b) Cul es la probabilidad de tres llamadas en 5 minutos?
c) Cul es la probabilidad de que no haya llamadas en un periodo de 5 minutos?
42. Cada ao ms de 50 millones de huspedes se hospedan en hoteles que ofrecen alojamiento
AUTO evaluacin y desayuno. El sitio web para Bed and Breakfast Inns de Norteamrica, que recibe un prome-
dio de siete visitantes por minuto, permite a muchos hoteles de este tipo atraer clientes (Time,
septiembre de 2001).
a) Calcule la probabilidad de que nadie visite el sitio web en un periodo de un minuto.
b) Estime la probabilidad de dos o ms visitantes al sitio web en un periodo de un minuto.
c) Calcule la probabilidad de uno o ms visitantes en un periodo de 30 segundos.
d) Determine la probabilidad de cinco o ms visitantes en un periodo de un minuto.
43. Los pasajeros de una lnea area llegan al azar y de manera independiente a la instalacin de re-
visin de pasajeros en un aeropuerto internacional. La razn media de llegadas es de 10 per-
sonas por minuto.
a) Calcule la probabilidad de que no haya llegadas en un periodo de un minuto.
b) Determine la probabilidad de que tres pasajeros o menos lleguen en un periodo de un minuto.
c) Calcule la probabilidad de que no haya llegadas en un periodo de 15 segundos.
d) Estime la probabilidad de cuando menos una llegada en un periodo de 15 segundos.
44. Cada ao ocurre un promedio de 15 accidentes areos (The World Almanac and Book of Facts,
2004).
a) Calcule el nmero medio de accidentes areos por mes.
b) Determine la probabilidad de que no ocurran percances durante un mes.
c) Calcule la probabilidad de exactamente un accidente al mes.
d) Estime la probabilidad de que ocurra ms de un accidente mensual.
45. El Consejo de Seguridad Nacional de Estados Unidos estima que los accidentes fuera del tra-
bajo le cuestan a las empresas del pas casi $200 000 millones al ao en productividad perdida
(Consejo de Seguridad Nacional, marzo de 2006). Con base en las estimaciones de la institu-
cin, se espera que las empresas con 50 empleados promedien tres accidentes fuera del trabajo
por ao. Responda las preguntas siguientes para las empresas con 50 empleados.
a) Cul es la probabilidad de que no ocurran accidentes fuera del trabajo durante un periodo
de un ao?
b) Cul es la probabilidad de que ocurran por lo menos dos percances fuera del trabajo du-
rante un periodo de un ao?
c) Cul es el nmero esperado de accidentes fuera del trabajo durante seis meses?
d) Cul es la probabilidad de accidentes fuera del trabajo durante los seis meses siguientes?
r N"r
x n"x
f (x) ! (5.12)
N
n
donde
x ! nmero de xitos
n ! nmero de ensayos
f (x) ! probabilidad de x xitos en n ensayos
N ! nmero de elementos en la poblacin
r ! nmero de elementos en la poblacin etiquetados como xitos
N
Observe que representa el nmero de maneras en que n elementos pueden seleccio-
n
r
narse de una poblacin de tamao N; expresa el nmero de formas en que x xitos pueden
x
N"r
seleccionarse de un total de r xitos en la poblacin, y representa el nmero de ma-
n"x
neras en que n x fracasos pueden elegirse de un total de N r fracasos en la poblacin.
Para la distribucin de probabilidad hipergeomtrica, x es una variable aleatoria discreta, y
la funcin de probabilidad f (x) dada por la ecuacin (5.12) por lo general se aplica a los valo-
res de x ! 0, 1, 2, . . . , n. Sin embargo, slo son vlidos los valores de x donde el nmero de
xitos observados es menor o igual que el nmero de xitos en la poblacin (x $ r) y donde el
nmero de fracasos observados es menor o igual que el nmero de fracasos en la poblacin
(n " x $ N " r). Si estas dos condiciones no son vlidas para uno o ms valores de x, la
f (x) ! 0 correspondiente indica que la probabilidad de este valor de x es cero.
Para ilustrar los clculos que implica el uso de la ecuacin (5.12), considere la siguiente
aplicacin de control de calidad. Los fusibles elctricos producidos por Ontario Electric se
empacan en cajas de 12 unidades cada una. Suponga que un inspector selecciona al azar tres de
los 12 fusibles de una caja para probarlos. Si sta contiene exactamente cinco fusibles averia-
dos, cul es la probabilidad de que el inspector encuentre exactamente un fusible defectuo-
so en los tres que seleccion? En esta aplicacin n ! 3 y N ! 12. Con r ! 5 fusibles defectuosos
en la caja, la probabilidad de encontrar x ! 1 fusible defectuoso es
5 7 5! 7!
1 2 1!4! 2!5! (5)(21)
f (1) ! ! ! ! 0.4773
12 12! 220
3 3!9!
Ahora suponga que quiere conocer la probabilidad de encontrar por lo menos 1 fusible de-
fectuoso. La manera ms fcil de responder esta pregunta consiste en calcular primero la pro-
babilidad de que el inspector no encuentre un fusible en mal estado. La probabilidad de
x ! 0 es
5 7 5! 7!
0 3 0!5! 3!4! (1)(35)
f (0) ! ! ! ! 0.1591
12 12! 220
3 3!9!
5.6 Distribucin de probabilidad hipergeomtrica 223
Con una probabilidad de cero fusibles defectuosos f (0) ! 0.1591, concluimos que la probabi-
lidad de encontrar por lo menos uno debe ser 1 " 0.1591 ! 0.8409. Por tanto, hay una pro-
babilidad razonablemente alta de que el inspector encuentra por lo menos 1 fusible defectuoso.
La media y la varianza de una distribucin hipergeomtrica son las siguientes.
r
E(x) ! ! n (5.13)
N
r r N"n
Var (x) ! 2 ! n 1" (5.14)
N N N"1
r 5
!3 !n
! 1.25
N 12
r r N"n 5 5 12 " 3
2 ! n 1" !3 1" ! 0.60
N N N"1 12 12 12 " 1
NOTAS Y COMENTARIOS
Considere una distribucin hipergeomtrica con n son las mismas que las usadas para calcular el valor
ensayos. Sea p ! (r/N) que denota la probabilidad esperado y la varianza de una distribucin binomial,
de un xito en el primero ensayo. Si el tamao de la como en las ecuaciones (5.9) y (5.10).
poblacin es grande, el trmino (N " n)/(N " 1) en Cuando el tamao de la poblacin es grande, una
la ecuacin (5.14) se aproxima a 1. Como resultado, distribucin hipergeomtrica puede aproximarse por
el valor esperado y la varianza se escriben E(x) ! np una distribucin binomial con n ensayos y una pro-
y Var(x) ! np(1 " p). Note que estas expresiones babilidad de xito de p ! (r/N).
Ejercicios
Mtodos
46. Suponga que N ! 10 y r ! 3. Calcule las probabilidades hipergeomtricas para los valores
AUTO evaluacin siguientes de n y x.
a) n ! 4, x ! 1.
b) n ! 2, x ! 2.
c) n ! 2, x ! 0.
d) n ! 4, x ! 2.
e) n ! 4, x ! 4.
47. Suponga que N ! 15 y r ! 4. Cul es la probabilidad de x ! 3 para n ! 10?
Aplicaciones
48. En un estudio realizado por Gallup Organization se pregunt a los encuestados: Cul es su
deporte favorito para ver? El futbol americano y el basquetbol clasificaron como nmero
uno y dos respectivamente en cuanto a preferencia (sitio web de Gallup, 3 de enero de 2004).
Suponga que en un grupo de 10 individuos, siete prefieren el futbol americano y tres el bas-
quetbol. Seleccionemos una muestra al azar de tres de estos individuos.
a) Cul es la probabilidad de que exactamente dos prefieran el futbol americano?
b) Cul es la probabilidad de que la mayora (ya sea dos o tres) prefiera el futbol americano?
224 Captulo 5 Distribuciones de probabilidad discreta
49. El blackjack o veintiuno, como se le llama con frecuencia, es un juego de apuestas popular
en los casinos de Las Vegas. A un jugador se le reparten dos cartas. Las figuras (jotas, reinas
y reyes) y los dieces tienen un valor de 10. Los ases tienen un valor de 1 u 11. Una baraja de
52 cartas contiene 16 con un valor de puntos de 10 (jotas, reinas, reyes y dieces) y cuatro ases.
a) Cul es la probabilidad de que las dos cartas repartidas sean ases o cartas de 10 puntos?
b) Cul es la probabilidad de que ambas sean ases?
c) Cul es la probabilidad de que las dos tengan un valor de 10?
d) Un blackjack es una carta de 10 puntos y un as que dan un valor de 21. Use las respuestas
de los incisos a), b) y c) para determinar la probabilidad de que a un jugador le repartan
un blackjack. [Pista. El inciso d) no es un problema hipergeomtrico. Elabore una rela-
cin lgica propia de cmo las probabilidades hipergeomtricas de los incisos a), b) y c)
pueden combinarse para responder esta pregunta.]
50. Axline Computers fabrica computadoras personales en dos plantas, una en Texas y la otra en
AUTO evaluacin Hawaii. La planta de Texas cuenta con 40 empleados y la de Hawaii con 20. A una muestra
aleatoria de 10 empleados se le pedir que llene un cuestionario de beneficios.
a) Cul es la probabilidad de que ninguno de los empleados de la muestra trabaje en la plan-
ta de Hawaii?
b) Cul es la probabilidad de que uno de estos empleados trabaje en la planta de Hawaii?
c) Cul es la probabilidad de que dos o ms sujetos de la muestra labore en la planta de
Hawaii?
d) Cul es la probabilidad de que nueve de los empleados trabajen en la planta de Texas?
51. La encuesta de restaurantes de ZAGAT proporciona las calificaciones de los platillos, la de-
coracin y el servicio de algunos restaurantes de Estados Unidos. Para 15 establecimientos
ubicados en Boston, el precio medio de una cena, incluyendo una bebida y la propina, es de
$48.60. Usted est de viaje de negocios en Boston y cenar en tres de estos restaurantes. Su
empresa le rembolsar un mximo de $50 por cena. Los socios de negocios familiarizados con
estos establecimientos le han dicho que el costo de la cena en un tercio de los restaurantes de
la encuesta rebasa los $50. Suponga que selecciona al azar tres de estos negocios para comer.
a) Cul es la probabilidad de que ninguna de las cenas rebase el costo que cubre su empresa?
b) Cul es la probabilidad de que una de las cenas supere el costo que cubre su empresa?
c) Cul es la probabilidad de que dos de las cenas rebasen tal costo?
d) Cul es la probabilidad de que tres de las cenas rebasen dicho costo?
52. El Troubled Asset Relief Program (TARP), aprobado por el Congreso de Estados Unidos en
octubre de 2008, aport $700 000 millones como apoyo financiero para que la economa del
pas saliera adelante. Ms de $200 000 millones se destinaron a instituciones financieras con
problemas con la esperanza de que hubiera un incremento en los crditos para ayudar a reacti-
var la economa. Pero tres meses despus, una encuesta de la Reserva Federal revel que dos
tercios de los bancos que recibieron fondos del TARP haban restringido las condiciones de los
crditos empresariales (The Wall Street Journal, 3 de febrero de 2009). De los 10 principales
bancos receptores de fondos del TARP, slo tres incrementaron realmente los crditos durante
el periodo.
En este ejercicio, suponga que se seleccionn al azar tres de estos 10 bancos para efectuar un
estudio que permitir seguir supervisando las prcticas crediticias de estas instituciones. Sea
x una variable aleatoria que indica el nmero de bancos en el estudio que incrementaron sus
crditos.
a) Cunto es f (0)? Cul es su interpretacin de este valor?
b) Cunto es f (3)? Cul es su interpretacin de este valor?
c) Calcule f (1) y f (2). Muestre la distribucin de probabilidad para el nmero de bancos en
el estudio que incrementaron sus crditos. Qu valor de x tiene la mayor probabilidad?
d) Cul es la probabilidad de que el estudio muestre por lo menos un banco que increment
sus crditos?
e) Calcule el valor esperado, la varianza y la desviacin estndar para la variable aleatoria.
Resumen
Una variable aleatoria proporciona una descripcin numrica del resultado de un experimento.
La distribucin de probabilidad de esta variable describe cmo se distribuyen las probabilida-
des entre los valores que la misma puede asumir. Para cualquier variable aleatoria discreta x,
la distribucin de probabilidad se define por medio de una funcin de probabilidad, denotada
por f (x), que proporciona la probabilidad asociada con cada valor de la variable aleatoria. Una
vez que la funcin de probabilidad se define, puede calcularse el valor esperado, la varianza y
desviacin estndar de dicha variable.
La distribucin binomial se utiliza para determinar la probabilidad de x xitos en n ensa-
yos siempre que el experimento tenga las propiedades siguientes:
Cuando las cuatro propiedades se cumplen, la funcin de probabilidad binomial se utiliza para
determinar la probabilidad de obtener x xitos en n ensayos. En este captulo tambin se pre-
sentaron las frmulas para la media y la varianza de la distribucin binomial.
La distribucin de Poisson se usa cuando se desea determinar la probabilidad de obtener
x ocurrencias en un intervalo de tiempo o espacio. Es necesario que se cumplan los supuestos
siguientes para que la distribucin de Poisson pueda aplicarse.
1. La probabilidad de una ocurrencia del evento es la misma para dos intervalos cuales-
quiera de igual longitud.
2. La ocurrencia o no ocurrencia del evento en cualquier intervalo es independiente de su
ocurrencia o no ocurrencia en cualquier otro intervalo.
Glosario
Frmulas clave
n x
f (x) ! p (1 " p)(n"x) (5.8)
x
Valor esperado de una distribucin binomial
E(x) ! ! np (5.9)
r r N"n
Var (x) ! 2 ! n 1" (5.14)
N N N"1
Ejercicios complementarios
53. El estudio de Big Money de Barrons pregunt a 131 gerentes de inversiones de todo Estados
Unidos su perspectiva sobre la inversin a corto plazo (Barrons, 28 de octubre de 2002).
Sus respuestas mostraron los siguientes indicadores: 4% eran muy optimistas; 39% optimistas;
29% neutrales; 21% pesimistas, y 7% muy pesimistas. Sea x la variable aleatoria que refleja el
nivel de optimismo con respecto al mercado y que asume los valores x ! 5 para muy optimista
hasta x ! 1 para muy pesimista.
a) Elabore una distribucin de probabilidad para el nivel de optimismo de los gerentes de
inversiones.
b) Calcule el valor esperado para el nivel de optimismo.
c) Calcule su varianza y desviacin estndar.
d) Comente qu indican sus resultados sobre el nivel de optimismo y su variabilidad.
54. La Asociacin Estadounidense de Inversionistas Individuales publica una gua anual para los
principales fondos de inversin (The Individual Investors Guide to the Top Mutual Funds,
22a. ed., American Association of Individual Investors, 2003). La clasificacin del riesgo total
para 29 categoras de fondos de inversin se muestra a continuacin.
Nmero de categoras
Riesgo total de fondos
Bajo 7
Por debajo del promedio 6
Promedio 3
Por encima del promedio 6
Alto 7
a) Sea x ! 1 para el riesgo bajo y hasta x ! 5 para el riesgo alto; elabore una distribucin de
probabilidad para el nivel de riesgo.
b) Cules son el valor esperado y la varianza para el riesgo total?
c) Resulta que 11 de las categoras eran fondos de bonos. Para estos ltimos, siete catego-
ras se clasificaron como bajas, y cuatro por debajo del promedio. Compare el riesgo total
de los fondos de bonos con las 18 categoras de los fondos de acciones.
228 Captulo 5 Distribuciones de probabilidad discreta
55. La preparacin del presupuesto de una universidad de la regin central de Estados Unidos
gener los siguientes pronsticos de gastos para el ao prximo (en millones de dlares): $9,
$10, $11, $12 y $13. Como se conocen los gastos actuales, se asignaron las probabilidades
respectivas siguientes: 0.3, 0.2, 0.25, 0.05 y 0.2.
a) Muestre la distribucin de probabilidad para el pronstico de gastos.
b) Cul es el valor esperado de este pronstico para el ao prximo?
c) Cul es la varianza del pronstico de gastos para el ao prximo?
d) Si las proyecciones de ingresos estimadas para el ao son $12 millones, comente cul es la
posicin financiera del colegio.
56. Un estudio revel que en promedio una persona tarda alrededor de 26 minutos en trasladar-
se de su casa al trabajo o viceversa. Adems, 5% de los encuestados inform que tarda ms
de una hora en ir o regresar del trabajo (sitio web de Bureau of Transportation Statistics, 11 de
enero de 2004).
a) Si 20 personas se encuestan un da en particular, cul es la probabilidad de que tres de
ellas informen que tardan ms de una hora en trasladarse?
b) Si 20 personas se encuestan un da en particular, cul es la probabilidad de que ninguna
informe que tarda ms de una hora en trasladarse?
c) Si una empresa tiene 2 000 empleados, cul es el nmero esperado de empleados que
tardan ms de una hora en trasladarse de su trabajo a su casa o viceversa?
d) Si una empresa tiene 2 000 empleados, cules son la varianza y la desviacin estndar del
nmero de ellos que tardan ms de una hora en trasladarse?
57. Un grupo de accin poltica prev entrevistar a los propietarios de casas para evaluar el impacto
causado por una cada reciente de los precios de la vivienda. Segn el estudio de finanzas per-
sonales de The Wall Street Journal/Harris Interactive, 26% de los individuos de 1834 aos,
50% del grupo de 35-44 aos y 88% de los individuos mayores de 55 aos son propietarios de
una vivienda (sitio web de All Business, 23 de enero de 2008).
a) Cuntas personas del grupo de edades de entre 18 y 34 aos deben incluirse en la mues-
tra para encontrar un nmero esperado de al menos 20 propietarios de una casa?
b) Cuntas personas del grupo de 35-44 aos de edad deben incluirse en la muestra para
encontrar un nmero esperado de al menos 20 propietarios de una vivienda?
c) Cuntos sujetos de 55 aos y ms deben considerarse para encontrar un nmero espe-
rado de al menos 20 propietarios de una vivienda?
d) Si el nmero de 18-34 aos de la muestra es igual al valor identificado en el inciso a),
cul es la desviacin estndar del nmero de personas que sern propietarias?
e) Si el nmero de 35-44 aos de la muestra es igual al valor indicado en el inciso b),
cul es la desviacin estndar del nmero de personas que sern propietarias de una
vivienda?
58. Muchas empresas usan una tcnica de control de calidad conocida como muestreo de acep-
tacin para monitorear los envos entrantes de partes, materias primas, etc. En la industria
electrnica, los proveedores por lo general envan los componentes en lotes grandes. La ins-
peccin de una muestra de n componentes se considera como los n ensayos de un experimen-
to binomial. El resultado de la prueba de cada componente (ensayo) es que ste se clasifique
como bueno o defectuoso. Reynolds Electronics acepta un lote de cierto proveedor si los com-
ponentes defectuosos del lote no rebasan 1%. Suponga que se prueba una muestra aleatoria de
cinco artculos de un embarque reciente.
a) Asuma que 1% del embarque est defectuoso. Calcule la probabilidad de que ningn com-
ponente de la muestra est averiado.
b) Suponga que 1% del embarque est defectuoso. Calcule la probabilidad de que exacta-
mente uno de los componentes de la muestra tenga defectos.
c) Cul es la probabilidad de observar una o ms partes defectuosas en la muestra si 1% del
embarque lo est?
d) Se sentira cmodo al aceptar el embarque si se encontr que un componente estaba de-
fectuoso? Por qu?
Ejercicios complementarios 229
59. La tasa de desempleo en el estado de Arizona es de 4.1% (sitio web de CNN Money, 2 de
mayo de 2007). Suponga que 100 personas disponibles para un empleo en Arizona son selec-
cionadas al azar.
a) Cul es el nmero esperado de personas desempleadas?
b) Cules son la varianza y la desviacin estndar del nmero de personas sin empleo?
60. Un estudio realizado por Zogby International revel que de aquellos estadounidenses para
quienes la msica desempea un papel muy importante en su vida, 30% dijeron que sus
estaciones de radio locales siempre transmiten el tipo de msica que les gusta (sitio web de
Zogby, 12 de enero de 2004). Suponga que se toma una muestra de 800 personas para quienes
la msica desempea un papel importante en su vida.
a) Cuntas personas esperara que dijeran que sus estaciones de radio locales siempre trans-
miten el tipo de msica que les gusta?
b) Cul es la desviacin estndar del nmero de encuestados que piensa que sus estacio-
nes de radio locales siempre transmiten el tipo de msica que les agrada?
c) Cul es la desviacin estndar del nmero de encuestados que no piensa que sus esta-
ciones de radio locales difunden la msica de su preferencia?
61. En un lavado automotriz los automviles llegan de manera aleatoria e independiente; la pro-
babilidad de un arribo es la misma para cualesquier dos intervalos de tiempo de igual duracin.
La tasa de llegada media es 15 vehculos por hora. Cul es la probabilidad de que durante una
hora cualquiera de operacin lleguen 20 o ms automviles?
62. En un nuevo proceso de produccin automatizada hay un promedio de 1.5 interrupciones por
da. Debido a los costos asociados con una interrupcin, la gerencia est preocupada por la
posibilidad de que haya tres o ms durante el da. Suponga que stas ocurren aleatoriamente,
que la probabilidad de interrupcin es la misma para cualesquiera dos intervalos de tiempo de
igual duracin, y que las interrupciones en un lapso son independientes de las que ocurren en
otro lapso. Cul es la probabilidad de que haya tres o ms durante un da?
63. Un director regional responsable del desarrollo de negocios en el estado de Pennsylvania est
preocupado por el nmero de quiebras de las empresas pequeas. Si el nmero medio de estas
quiebras por mes es 10, cul es la probabilidad de que exactamente cuatro empresas peque-
as incurran en esta situacin durante un mes determinado? Suponga que la probabilidad de
una quiebra es la misma para dos meses cualesquiera y que su ocurrencia o no ocurrencia en
algn mes es independiente de las quiebras en cualquier otro mes.
64. Las llegadas de los clientes a un banco son aleatorias e independientes, y la probabilidad de
un arribo en un periodo de un minuto es la misma que en cualquier otro periodo de un minuto.
Responda las preguntas siguientes suponiendo una tasa media de llegadas de tres clientes por
minuto.
a) Cul es la probabilidad de exactamente tres llegadas en un periodo de un minuto?
b) Cul es la probabilidad de por lo menos tres llegadas en un periodo de un minuto?
65. Una baraja contiene 52 cartas, cuatro de las cuales son ases. Cul es la probabilidad de que
al repartir las cartas en una mano de cinco se obtengan los siguientes casos?
a) Un par de ases.
b) Exactamente un as.
c) Ningn as.
d) Por lo menos un as.
66. Durante la semana que termin el 16 de septiembre de 2001, Tiger Woods fue el golfista
que ms dinero gan en el PGA Tour. Sus ganancias sumaron un total de $5 517 777. De los 10
principales golfistas mejor remunerados, siete usaron pelotas de golf de la marca Titleist (sitio
web de PGA Tour). Suponga que seleccionan al azar a dos de los 10 principales golfistas que
ganan ms dinero.
a) Cul es la probabilidad de que exactamente uno use una pelota de golf Titleist?
b) Cul es la probabilidad de que ambos usen pelotas Titleist?
c) Cul es la probabilidad de que ninguno use esta marca de pelota?
230 Captulo 5 Distribuciones de probabilidad discreta
La salida de Minitab con las probabilidades binomiales aparecer como se muestra en la figu-
ra 5.5.
Minitab proporciona probabilidades de Poisson e hipergeomtricas de una manera pareci-
da. Por ejemplo, para calcular las probabilidades de Poisson, las nicas diferencias se encuen-
tran en el paso 3, donde se seleccionara la opcin Poisson, y en el paso 4, donde se introducira
Mean en vez del nmero de ensayos y la probabilidad de xito.
FIGURA 5.6 Hoja de trabajo de Excel para calcular las probabilidades binomiales
A B C D
1 Number of Trials (n) 10
2 Probability of Success (p) 0.3
3
4 x f (x)
5 0 =BINOMDIST(B5,$B$1,$B$2,FALSE)
6 1 =BINOMDIST(B6,$B$1,$B$2,FALSE)
7 2 =BINOMDIST(B7,$B$1,$B$2,FALSE)
8 3 =BINOMDIST(B8,$B$1,$B$2,FALSE)
9 4 =BINOMDIST(B9,$B$1,$B$2,FALSE)
10 5 =BINOMDIST(B10,$B$1,$B$2,FALSE)
11 6 =BINOMDIST(B11,$B$1,$B$2,FALSE)
12 7 =BINOMDIST(B12,$B$1,$B$2,FALSE)
13 8 =BINOMDIST(B13,$B$1,$B$2,FALSE)
14 9 =BINOMDIST(B14,$B$1,$B$2,FALSE)
15 10 =BINOMDIST(B15,$B$1,$B$2,FALSE)
16 A B C D
1 Number of Trials (n) 10
2 Probability of Success (p) 0.3
3
4 x f (x)
5 0 0.0282
6 1 0.1211
7 2 0.2335
8 3 0.2668
9 4 0.2001
10 5 0.1029
11 6 0.0368
12 7 0.0090
13 8 0.0014
14 9 0.0001
15 10 0.0000
16
La hoja de trabajo de valores de la figura 5.6 muestra que las probabilidades obtenidas
son las mismas que las de la figura 5.5. Las probabilidades de Poisson e hipoergeomtri-
cas se calculan de modo parecido. Se usan las funciones POISSON e HYPGEOMDIST. El cuadro
de dilogo Insert Function (insertar funcin) de Excel ayuda al usuario a introducir los argu-
mentos apropiados para estas funciones (vea el apndice E).
CAPTULO 6
Distribuciones de
probabilidad continua
CONTENIDO 6.3 APROXIMACIN NORMAL
ESTADSTICA EN LA PRCTICA: DE LAS PROBABILIDADES
PROCTER & GAMBLE BINOMIALES
ESTADSTICA en LA PRCTICA
PROCTER & GAMBLE*
CINCINNATI, OHIO
Procter & Gamble (P&G) produce y comercializa deter-
gentes, paales desechables, frmacos que no requieren
receta mdica, dentfricos, jabones de tocador, enjuagues
bucales y toallas de papel, entre otros artculos. En todo
el mundo, P&G tiene la marca lder en ms categoras de
productos de consumo que cualquier otra empresa. Des-
de su fusin con Gillette, tambin fabrica y comercializa
rastrillos, navajas de afeitar y muchos otros artculos para
el cuidado personal.
Como lder en la aplicacin de mtodos estadsticos
en la toma de decisiones, P&G emplea a personas con di-
versas formaciones acadmicas: ingenieros, expertos en
estadstica, investigadores de operaciones y administrado- Algunos de los muchos productos conocidos de Procter &
res de empresas. Las principales tecnologas cuantitativas Gamble. Robert Sullivan/AFP/Getty Images.
en que estos especialistas aplican sus conocimientos son
las decisiones probabilsticas y el anlisis de riesgos, la
simulacin avanzada, la mejora de la calidad y los mto- variable, d ! x " y, en el anlisis. Se entrevist a varios
dos cuantitativos (por ejemplo, programacin lineal, anli- expertos para determinar las distribuciones de probabili-
sis de regresin y anlisis de probabilidad). dad para x y y. A su vez, esta informacin se utiliz para
La Divisin de Productos Qumicos Industriales de elaborar una distribucin de probabilidad de la diferencia
P&G es un proveedor importante de alcoholes grasos de- en los precios d. Esta distribucin de probabilidad continua
rivados de sustancias naturales como el aceite de coco y mostr una probabilidad de 0.90 de que la diferencia en
el petrleo. La divisin quera conocer los riesgos econ- los precios fuera de $0.0655 o menos y una probabilidad
micos y las oportunidades de ampliar sus instalaciones de de 0.50 de que esta diferencia fuera de $0.035 o menos.
produccin de alcoholes grasos, por lo que solicit la ayu- Adems, slo haba una probabilidad de 0.10 de que tal di-
da de los expertos de P&G en decisiones probabilsticas ferencia fuera de $0.0045 o menos.
y anlisis de riesgos. Despus de estructurar y modelar el La Divisin de Productos Qumicos Industriales pens
problema, se determin que la clave de la rentabilidad radi- que para llegar a un consenso era fundamental cuantificar
caba en la diferencia entre los costos de las materias primas el efecto de las diferencias en los precios de las materias
derivadas del petrleo y del coco. No era posible determinar primas. Las probabilidades obtenidas se usaron en un an-
los costos futuros, pero los analistas pudieron aproximarlos lisis de sensibilidad de tales diferencias. El anlisis revel
utilizando las variables aleatorias continuas siguientes. informacin suficiente para fundamentar una recomenda-
cin a la gerencia.
x ! precio del aceite de coco por libra de alcoholes El uso de las variables aleatorias continuas y sus dis-
grasos tribuciones de probabilidad ayud a P&G en el anlisis de
los riesgos econmicos asociados con la produccin de al-
y
coholes grasos. Al leer este captulo, usted comprender
y ! precio de la materia prima derivada del petrleo las variables aleatorias continuas y sus distribuciones de
por libra de alcoholes grasos probabilidad, incluida una de las ms importantes en la es-
tadstica: la distribucin normal.
Como la clave de la rentabilidad radicaba en la diferencia
entre estas dos variables aleatorias, se emple una tercera
* Los autores agradecen a Joel Kahn, de Procter & Gamble, por propor- Las diferencias en los precios establecidas aqu se modificaron para
cionar este artculo para Estadstica en la prctica. proteger los datos confidenciales.
234 Captulo 6 Distribuciones de probabilidad continua
La figura 6.1 es una grfica de esta funcin de densidad de probabilidad. En general, la funcin
de densidad de probabilidad uniforme para una variable aleatoria x se define por medio de la
frmula siguiente.
1 para a $ x $ b
f (x) ! b " a (6.1)
0 en cualquier otro caso
f (x)
1
20
x
120 125 130 135 140
Tiempo de vuelo en minutos
FIGURA 6.2 El rea proporciona la probabilidad de que el tiempo de vuelo est entre 120
y 130 minutos
f (x)
P(120 ! x ! 130) " rea " 1/20(10) " 10/20 " 0.50
1
20
10
x
120 125 130 135 140
Tiempo de vuelo en minutos
236 Captulo 6 Distribuciones de probabilidad continua
Qu observaciones puede hacer sobre el rea bajo la grfica f (x) y la probabilidad? Son
idnticas! De hecho, esta observacin es vlida para todas las variables aleatorias continuas.
Una vez que la funcin de densidad de probabilidad f (x) se identifica, la probabilidad de que
x tome un valor entre uno inferior x1 y uno superior x2 se obtiene al calcular el rea bajo la gr-
fica f (x) en el intervalo de x1 a x2.
Dada la distribucin uniforme para el tiempo de vuelo y usando la interpretacin del rea
como una medida de probabilidad, es posible responder cualquier cantidad de preguntas de
probabilidad sobre los tiempos de vuelo. Por ejemplo, cul es la probabilidad de un tiempo
de vuelo entre 128 y 136 minutos? El ancho del intervalo es 136 ! 128 " 8. Con la altura uni-
forme de f (x) " 1/20, se ve que P(128 # x # 136) " 8(1/20) " 0.40.
Observe que P(120 # x # 140) " 20(1/20) " 1; es decir, el rea total bajo la grfica
f (x) es igual a 1. Esta propiedad es vlida para todas las distribuciones de probabilidad conti-
nua y es el anlogo de la condicin que indica que la suma de las probabilidades debe ser igual
a 1 para una funcin de probabilidad discreta. En el caso de una funcin de densidad de proba-
bilidad continua, se requiere tambin que f (x) $ 0 para todos los valores de x. Este requeri-
miento es el anlogo del requisito de f (x) $ 0 para las funciones de probabilidad discretas.
Hay dos diferencias importantes entre el tratamiento de la variable aleatoria continua y el
tratamiento de sus homlogas discretas.
a%b
E(x) "
2
(b ! a)2
Var (x) "
12
En estas frmulas, a es el valor menor y b es el valor mayor que la variable aleatoria puede
asumir.
Al aplicar estas frmulas a la distribucin uniforme de los tiempos de vuelo de Chicago a
Nueva York obtenemos
(120 % 140)
E(x) " " 130
2
(140 ! 120)2
Var (x) " " 33.33
12
NOTAS Y COMENTARIOS
Para ver con mayor claridad por qu la altura de una La altura de la funcin de densidad de probabilidad,
funcin de densidad de probabilidad no es una pro- f (x), es 2 para valores de x entre 0 y 0.5. No obstante,
babilidad, considere la variable aleatoria con la dis- se sabe que las probabilidades nunca pueden ser ma-
tribucin de probabilidad uniforme siguiente. yores que 1. Por tanto, se ve que f (x) no se interpreta
como la probabilidad de x.
2 para 0 # x # 0.5
f (x) "
0 en cualquier otro caso
Ejercicios
Mtodos
1. Se sabe que la variable aleatoria x est distribuida de manera uniforme entre 1.0 y 1.5.
AUTO evaluacin a) Trace la grfica de la funcin de densidad de probabilidad.
b) Calcule P(x " 1.25).
c) Determine P(1.0 # x # 1.25).
d) Calcule P(1.20 & x & 1.5).
2. La variable aleatoria x est distribuida de manera uniforme entre 10 y 20.
a) Trace la grfica de la funcin de densidad de probabilidad.
b) Calcule P(x & 15).
c) Estime P(12 & x & 18).
d) Calcule E(x).
e) Determine Var (x).
Aplicaciones
3. Delta Airlines ofrece un tiempo de 2 horas, 5 minutos para sus vuelos de Cincinnati a Tampa.
Suponga que se piensa que los tiempos de vuelo reales estn distribuidos uniformemente entre
2 horas y 2 horas, 20 minutos.
a) Trace la grfica de la funcin de densidad de probabilidad para el tiempo de vuelo.
b) Cul es la probabilidad de que el vuelo no se retrase ms de 5 minutos?
c) Cul es la probabilidad de que se retrase ms de 10 minutos?
d) Cul es el tiempo esperado de vuelo?
4. La mayora de los lenguajes de cmputo incluye una funcin para generar nmeros aleatorios.
AUTO evaluacin En Excel, la funcin RAND se utiliza para generar nmeros aleatorios entre 0 y 1. Si x denota
un nmero aleatorio generado por medio de RAND, entonces x es una variable aleatoria conti-
nua con la funcin de densidad de probabilidad siguiente.
1 para 0 # x # 1
f (x) "
0 en cualquier otro caso
5. La distancia de lanzamiento de los 100 mejores golfistas del tour PGA est entre 284.7 y 310.6
yardas (Golfweek, 29 de marzo de 2003). Suponga que la distancia de lanzamiento de estos
deportistas est distribuida de manera uniforme a lo largo de este intervalo.
a) Proporcione una expresin matemtica para la funcin de densidad de probabilidad de la
distancia de lanzamiento.
b) Cul es la probabilidad de que la distancia de lanzamiento de uno de estos golfistas sea
menor de 290 yardas?
c) Cul es la probabilidad de que esta distancia de lanzamiento sea como mnimo de 300
yardas?
d) Cul es la probabilidad de que la distancia de lanzamiento est entre 290 y 305 yardas?
e) Cuntos de estos golfistas lanzan la pelota cuando menos 290 yardas?
6. En promedio, las comedias de 30 minutos que se transmiten por televisin tienen 22 minutos
de programacin (CNBC, 23 de febrero de 2006). Suponga que la distribucin de probabili-
dad de los minutos de programacin se aproxima por medio de una distribucin uniforme de
18 a 26 minutos.
a) Cul es la probabilidad de que una comedia tenga 25 o ms minutos de programacin?
b) Cul es la probabilidad de que tenga entre 21 y 25 minutos de programacin?
c) Cul es la probabilidad de que incluya ms de 10 minutos de comerciales o de otras inte-
rrupciones que no forman parte de la programacin?
7. Suponga que le interesa adquirir un terreno y sabe que hay otros compradores interesados en
l.1 El vendedor anuncia que aceptar la oferta ms alta mayor de $10 000. Considere que la
oferta del competidor x es una variable aleatoria que est distribuida uniformemente entre
$10 000 y $15 000.
a) Suponga que usted propone $12 000. Cul es la probabilidad de que su oferta sea acep-
tada?
b) Considere que ofrece $14 000. Cul es la probabilidad de que se acepte su postura?
c) Qu cantidad debe proponer para maximizar la probabilidad de comprar la propiedad?
d) Suponga que conoce a alguien que est dispuesto a pagarle $16 000 por la propiedad.
Considerara ofrecer menos de la cantidad del inciso c)? Por qu?
Curva normal
La forma de la distribucin normal se ilustra por medio una curva con forma de campana que
exhibe la figura 6.3. La funcin de densidad de probabilidad que define la curva de la distribu-
cin normal se muestra en seguida.
1 Este ejercicio se basa en un problema sugerido por el profesor Roger Myerson, de la Northwestern University.
6.2 Distribucin de probabilidad normal 239
Desviacin estndar
x
Media
1 2 2
f (x) " e!(x!) $2 (6.2)
"2
Donde:
" media
" desviacin estndar
" 3.14159
e " 2.71828
La curva normal tiene dos 1. La familia completa de distribuciones normales se diferencia por medio de dos parme-
parmetros, y , que tros: la media y la desviacin estndar .
determinan la ubicacin y
2. El punto ms alto de una curva normal se encuentra sobre la media, el cual coincide con
la forma de la distribucin
normal. la mediana y la moda de la distribucin.
3. La media de una distribucin normal puede tener cualquier valor numrico: negativo,
cero o positivo. A continuacin se muestran tres distribuciones normales que tienen la
misma desviacin estndar pero tres medias diferentes (!10, 0 y 20).
x
10 0 20
240 Captulo 6 Distribuciones de probabilidad continua
!5
! 10
6. Las probabilidades para la variable aleatoria normal estn representadas por las reas
bajo la curva normal. El rea total bajo la curva de una distribucin normal es 1. Como
la distribucin es simtrica, el rea bajo la curva a la izquierda de la media es 0.50 y el
rea a la derecha tambin es 0.50.
7. Los porcentajes de los valores en algunos intervalos de uso comn son los siguientes.
a) 68.3% de los valores de una variable aleatoria normal se sitan ms o menos a una
desviacin estndar de su media.
Estos porcentajes son la b) 95.4% de los valores de una variable aleatoria normal se encuentran ms o menos a
base para la regla emprica dos desviaciones estndar de su media.
que se present en la
c) 99.7% de los valores de una variable aleatoria normal estn ms o menos dentro de
seccin 3.3.
tres desviaciones estndar de su media.
99.7%
95.4%
68.3%
x
! 3 ! 1 " 1 " 3
! 2 " 2
#1
z
0
1 2
$2
f (z) ! e"z
"2
Como ocurre con otras variables aleatorias continuas, los clculos de la probabilidad con
cualquier distribucin normal se efectan al obtener las reas bajo la grfica de la funcin de
densidad de probabilidad. Por tanto, para encontrar la probabilidad de que una variable aleatoria
normal est dentro de cualquier intervalo especfico, debe calcularse el rea bajo la curva normal
Para la funcin de densidad en ese intervalo.
de probabilidad normal, la Para la distribucin normal estndar, las reas bajo la curva normal ya se han estimado
altura de la curva normal y estn disponibles en tablas que se utilizan para el clculo de probabilidades. Una tabla como
vara, y se requieren
matemticas ms avanzadas
stas aparece en las dos guardas de la cubierta anterior del libro. La de la pgina izquierda
para calcular las reas que contiene las reas o probabilidades acumuladas correspondientes a los valores de z menores o
representan la probabilidad. iguales a la media de cero. La tabla de la pgina derecha contiene las reas o probabilidades
acumuladas que corresponden a los valores de z superiores o iguales a la media de cero.
242 Captulo 6 Distribuciones de probabilidad continua
Los tres tipos de probabilidades que se necesita calcular incluyen: 1) la probabilidad de que
la variable aleatoria normal estndar z sea menor o igual que un valor determinado; 2) la pro-
babilidad de que z est entre dos valores dados, y 3) la probabilidad de que z sea mayor o igual
que un valor determinado. Para conocer cmo se usa la tabla de probabilidad acumulada de la
distribucin normal estndar con el propsito de calcular estos tres tipos de probabilidades,
considere algunos ejemplos.
Como la variable aleatoria Primero se mostrar cmo calcular la probabilidad de que z sea menor o igual que 1.00, es-
normal estndar es to es, P(z ! 1.00). Esta probabilidad acumulada es el rea bajo la curva normal a la izquierda
continua, P(z ! 1.00) "
de z " 1.00 en la grfica siguiente.
P(z $ 1.00).
P(z $ 1.00)
z
0 1
Para ilustrar el segundo tipo de clculo de la probabilidad, suponga que se quiere determi-
nar la probabilidad de que z est en el intervalo entre #0.50 y 1.25; es decir, P(#0.50 ! z !
1.25). La grfica siguiente muestra esta rea, o probabilidad.
6.2 Distribucin de probabilidad normal 243
P(z # !0.50)
z
0.50 0 1.25
Se requieren tres pasos para calcular esta probabilidad. Primero se encuentra el rea bajo
la curva normal a la izquierda de z " 1.25. Segundo, se obtiene el rea bajo la curva normal a la
izquierda de z " #0.50. Y por ltimo, se resta el rea a la izquierda de z " #0.50, del rea
a la izquierda de z " 1.25 para obtener P(#0.50 ! z ! 1.25).
Para calcular el rea bajo la curva normal a la izquierda de z " 1.25, primero se localiza
la fila 1.2 en la tabla de probabilidad normal estndar y luego se avanza hasta la columna 0.05.
Como el valor que aparece en la fila 1.2 y en la columna 0.05 es 0.8944, P(z ! 1.25) " 0.8944.
De manera similar, cuando se quiere determinar el rea bajo la curva a la izquierda de z "
#0.50, se usa la tabla de la pgina izquierda para localizar el valor de la fila #0.5 y la colum-
na 0.00; como el valor es 0.3085, P(z ! #0.50) " 0.3085. Por tanto, P(#0.50 ! z ! 1.25) "
P(z ! 1.25) # P(z ! #0.50) " 0.8944 # 0.3085 " 0.5859.
Considere otro ejemplo del clculo de la probabilidad de que z est en el intervalo entre
dos valores dados. A menudo se quiere conocer la probabilidad de que una variable aleatoria
normal asuma un valor dentro de cierto nmero de desviaciones estndar de la media. Supon-
ga que queremos calcular la probabilidad de que la variable aleatoria normal estndar est
dentro de una desviacin estndar de la media; es decir, P(#1.00 ! z ! 1.00). Para ello, pri-
mero se obtiene el rea bajo la curva entre #1.00 y 1.00. Antes se encontr que P(z ! 1.00) "
0.8413. Si observa de nuevo la tabla de las guardas de la cubierta anterior del libro, se ve que el
rea bajo la curva a la izquierda de z " #1.00 es 0.1587; por tanto P(z ! #1.00) " 0.1587. De
ah que P(#1.00 ! z ! 1.00) " P(z ! 1.00) # P(z ! #1.00) " 0.8413 # 0.1587 " 0.6826.
Esta probabilidad se muestra grficamente en la figura siguiente.
z
1.00 0 1.00
244 Captulo 6 Distribuciones de probabilidad continua
Para explicar cmo se efecta el tercer tipo de clculo de probabilidad, suponga que se
quiere determinar la probabilidad de obtener un valor z por lo menos igual a 1.58; es decir,
P(z ! 1.58). El valor en la fila z " 1.5 y la columna 0.08 de la tabla normal acumulada es
0.9429; por tanto, P(z # 1.58) " 0.9429. Sin embargo, como el rea total bajo la curva normal
es 1, P(z ! 1.58) " 1 $ 0.9429 " 0.0571. Esta probabilidad se muestra en la figura siguiente.
z
$2 $1 0 !1 !2
En los ejemplos anteriores se mostr cmo calcular las probabilidades cuando se propor-
cionan valores de z especficos. En algunas situaciones se da una probabilidad y se quiere tra-
bajar a la inversa para encontrar el valor de z correspondiente. Suponga que quiere determinar
un valor de z tal que la probabilidad de obtener un valor de z mayor sea 0.10. La figura siguiente
muestra esta situacin de manera grfica.
Probabilidad # 0.10
z
$2 $1 0 !1 !2
Cul es el valor de z?
Dada una probabilidad, se Este problema es el inverso de las situaciones presentadas en los ejemplos anteriores, en
puede usar la tabla normal los cuales se especific el valor de z y luego se calcul la probabilidad, o rea, correspondiente.
estndar en modo inverso
En este ejemplo se proporciona la probabilidad, o rea, y luego se pide determinar el valor z
para encontrar el valor de z
correspondiente. respectivo. Para hacerlo, se usa la tabla de probabilidad normal estndar de una manera un poco
distinta.
Recuerde que esta tabla proporciona el rea bajo la curva a la izquierda de un valor de z
determinado. Se tiene la informacin de que el rea en el extremo superior de la curva es 0.10.
Por consiguiente, el rea bajo la curva a la izquierda del valor de z desconocido debe ser igual
a 0.9000. Al revisar el cuerpo de la tabla, encontramos que 0.8997 es el valor de probabili-
dad acumulada ms cercano a 0.9000. La seccin de la tabla que muestra este resultado se re-
produce a continuacin.
6.2 Distribucin de probabilidad normal 245
Al leer el valor de z en la columna del extremo izquierdo y la fila superior de la tabla, en-
contramos que es 1.28. Por tanto, un rea de aproximadamente 0.9000 (en realidad, 0.8997)
estar a la izquierda de z ! 1.28.2 Respecto de la pregunta formulada originalmente, hay una
probabilidad aproximada de 0.10 de que el valor de z sea mayor que 1.28.
Estos ejemplos ilustran que la tabla de probabilidades acumuladas para la distribucin de
probabilidad normal estndar es til para encontrar las probabilidades asociadas con los valores
de la variable aleatoria normal estndar z. Se pueden plantear dos tipos de preguntas. El prime-
ro especifica un valor, o valores, para z y pide usar la tabla para determinar las reas o probabi-
lidades correspondientes. El segundo proporciona un rea, o probabilidad, y pide usar la tabla
para determinar el valor de z correspondiente. Por tanto, se requiere flexibilidad en el uso de
la tabla de probabilidad normal estndar para responder la pregunta de probabilidad deseada.
En la mayora de los casos el trazo de una grfica de distribucin de probabilidad normal es-
tndar y el sombreado del rea apropiada ayudan a visualizar la situacin y a encontrar la
respuesta correcta.
2 Se podra haber hecho una interpolacin en el cuerpo de la tabla para obtener una aproximacin ms exacta del valor
de z que corresponde al rea de 0.9000. Si se hace esto para obtener una posicin decimal ms precisa, producira un
valor de z de 1.282. No obstante, en la mayora de las situaciones prcticas es suficiente con la precisin que se obtiene
simplemente utilizando el valor de la tabla ms cercano a la probabilidad buscada.
246 Captulo 6 Distribuciones de probabilidad continua
P(x # 40 000)
" 5 000
x
40 000
" 36 500
z
0 0.70
Nota. z " 0 corresponde Nota. z " 0.70 corresponde
a x " " 36 500 a x " 40 000
6.2 Distribucin de probabilidad normal 247
En x ! 40 000 tenemos
Remtase ahora a la parte inferior de la figura 6.6. Vemos que un valor de x ! 40 000 en la
distribucin normal de Grear Tire corresponde al valor de z ! 0.70 en la distribucin normal
estndar. Consultando la tabla de probabilidad normal estndar, constatamos que el rea bajo la
curva normal estndar a la izquierda de z ! 0.70 es 0.7580. Por tanto, 1.000 " 0.7580 ! 0.2420
es la probabilidad de que z exceda 0.70, y por consiguiente x exceder de 40 000. Podemos con-
cluir que alrededor de 24.2% de los neumticos superar las 40 000 millas.
Ahora suponga que Grear considera una garanta que proporcionar un descuento sobre los
neumticos de remplazo si los originales no proporcionan el millaje garantizado. Cul debe ser
este millaje si Grear quiere que no ms de 10% de los neumticos sean aptos para la garanta de
descuento? Esta pregunta se interpreta grficamente en la figura 6.7.
Con base en la figura 6.7, el rea bajo la curva a la izquierda del millaje de garanta desco-
nocido debe ser 0.10. As que primero se debe calcular el valor de z que recorta un rea de 0.10
en el extremo izquierdo de una distribucin normal estndar. Utilizando la tabla de probabilidad
normal estndar vemos que z ! "1.28 recorta un rea de 0.10 en el extremo inferior. Por con-
siguiente, z ! "1.28 es el valor de la variable aleatoria normal estndar que corresponde a la
garanta de millaje buscada en la distribucin normal de Grear Tire. Para encontrar el valor de x
que corresponde a z ! "1.28, tenemos
x"
El millaje de garanta que z! ! "1.28
se debe encontrar es 1.28
desviaciones estndar x " ! "1.28
por debajo de la media. Por
tanto, x ! " 1.28. x ! " 1.28
! 5 000
Millaje de la ! 36 500
garanta ! ?
248 Captulo 6 Distribuciones de probabilidad continua
Ejercicios
Mtodos
8. Utilizando la figura 6.4 como gua, trace una curva normal para la variable aleatoria x que tenga
una media de ! 100 y una desviacin estndar de ! 10. Marque el eje horizontal con los
valores 70, 80, 90, 100, 110, 120 y 130.
9. Una variable aleatoria est normalmente distribuida con una media de ! 50 y una desviacin
estndar de ! 5.
a) Trace una curva normal para la funcin de densidad de la probabilidad. Marque el eje ho-
rizontal con los valores 35, 40, 45, 50, 55, 60 y 65. La figura 6.4 muestra que la curva
normal casi toca el eje horizontal en tres desviaciones estndar bajo la media y tres des-
viaciones estndar sobre la media (en este caso en 35 y 65).
b) Cul es la probabilidad de que la variable aleatoria asuma un valor entre 45 y 55?
c) Cul es la probabilidad de que asuma un valor entre 40 y 60?
10. Trace una grfica para la distribucin normal estndar. Rotule el eje horizontal con los valores
"3, "2, "1, 0, 1, 2 y 3. Luego use la tabla de probabilidades para la distribucin normal es-
tndar incluida en el libro para calcular las probabilidades siguientes.
a) P(z # 1.5).
b) P(z # 1).
c) P(1 # z # 1.5).
d) P(0 $ z $ 2.5).
11. Dado que z es una variable aleatoria normal estndar, calcule las probabilidades siguientes.
a) P(z # "1.0).
b) P(z % "1).
c) P(z % "1.5).
d) P("2.5 # z).
e) P("3 $ z # 0).
12. Puesto que z es una variable aleatoria normal estndar, calcule las probabilidades siguientes.
a) P(0 # z # 0.83).
b) P("1.57 # z # 0).
c) P(z & 0.44).
d) P(z % "0.23).
e) P(z $ 1.20).
f ) P(z # "0.71).
13. Dado que z es una variable aleatoria normal estndar, calcule las probabilidades siguientes.
AUTO evaluacin a) P("1.98 # z # 0.49).
b) P(0.52 # z # 1.22).
c) P("1.75 # z # "1.04).
14. Considerando que z es una variable aleatoria normal estndar, calcule z para cada situacin.
a) El rea a la izquierda de z es 0.9750.
b) El rea entre 0 y z es 0.4750.
c) El rea a la izquierda de z es 0.7291.
d) El rea a la derecha de z es 0.1314.
e) El rea a la izquierda de z es 0.6700.
f ) El rea a la derecha de z es 0.3300.
6.2 Distribucin de probabilidad normal 249
15. Dado que z es una variable aleatoria normal estndar, calcule z para cada situacin.
AUTO evaluacin a) El rea a la izquierda de z es 0.2119.
b) El rea entre "z y z es 0.9030.
c) El rea entre "z y z es 0.2052.
d) El rea a la izquierda de z es 0.9948.
e) El rea a la derecha de z es 0.6915.
16. Considerando que z es una variable aleatoria normal estndar, calcule z para cada situacin.
a) El rea a la derecha de z es 0.01.
b) El rea a la derecha de z es 0.025.
c) El rea a la derecha de z es 0.05.
d) El rea a la derecha de z es 0.10.
Aplicaciones
17. Para los deudores con buenas calificaciones de crdito, la deuda media de las cuentas revol-
ventes y a plazos es de $15 015 (BusinessWeek, 20 de marzo de 2006). Suponga que la desvia-
cin estndar es $3 540 y que los montos de la deuda se distribuyen de manera normal.
a) Cul es la probabilidad de que la deuda para un deudor con un buen crdito sea mayor
de $18 000?
b) Cul es la probabilidad de que la deuda para dicho deudor sea menor de $10 000?
c) Cul es la probabilidad de que esta deuda est entre $12 000 y $18 000?
d) Cul es la probabilidad de que la deuda no sea mayor de $14 000?
18. El precio medio de las acciones de las empresas que forman el S&P 500 es $30, y la desviacin
estndar es $8.20 (BusinessWeek, publicacin anual especial, primavera de 2003). Suponga
AUTO evaluacin que los precios de las acciones se distribuyen normalmente.
a) Cul es la probabilidad de que las acciones de una empresa tengan un precio mnimo de
$40?
b) Cul es la probabilidad de que el precio de las acciones no supere $20?
c) Qu tan alto debe ser el precio de las acciones de una firma para situarla en el 10% de las
principales empresas?
19. En un artculo sobre el costo de la asistencia mdica, la revista Money inform que una visita
a la sala de urgencias de un hospital por algo tan simple como un dolor de garganta tiene un
costo medio de $328 (Money, enero de 2009). Suponga que el costo de este tipo de visitas se
distribuye normalmente con una desviacin estndar de $92. Responda las preguntas siguien-
tes sobre el costo de una visita a la sala de urgencias de un hospital para este servicio mdico.
a) Cul es la probabilidad de que el costo sea mayor que $500?
b) Cul es la probabilidad de que sea menor que $250?
c) Cul es la probabilidad de que est entre $300 y $400?
d) Si el costo para un paciente est en el 8% ms bajo de cargos para este servicio mdico,
cul fue el costo de la visita a la sala de urgencias?
20. En enero de 2003, el empleado estadounidense pas un promedio de 77 horas conectado a
Internet mientras trabajaba (CNBC, 15 de marzo de 2003). Suponga que la media poblacio-
nal es 77 horas, los tiempos estn distribuidos normalmente y la desviacin estndar es de
20 horas.
a) Cul es la probabilidad de que en enero de 2003 un empleado seleccionado al azar pa-
sara menos de 50 horas conectado a Internet?
b) Qu porcentaje de empleados pas ms de 100 horas conectado a Internet en dicha
fecha?
c) Una persona es clasificada como usuario intensivo si est en el 20% superior de uso. En
el mes de referencia, cuntas horas tuvo que conectarse un empleado para que se le con-
siderara un usuario intensivo?
21. Una persona debe estar en el 2% ms alto de la poblacin en una prueba de IQ para aspirar
a la membresa de Mensa, la sociedad internacional de IQ alto (U.S. Airways Attach, sep-
tiembre de 2000). Si las calificaciones del IQ estn normalmente distribuidas con una media de
100 y una desviacin estndar de 15, qu puntaje debe tener una persona que desea calificar
para Mensa?
250 Captulo 6 Distribuciones de probabilidad continua
22. La tarifa media de pago por hora para los directores de finanzas en la regin central del nores-
te de Estados Unidos es de $32.62, y la desviacin estndar es $2.32 (Bureau of Labor Sta-
tistics, septiembre de 2005). Suponga que las tarifas de pago estn distribuidas normalmente.
a) Cul es la probabilidad de que un director de finanzas gane entre $30 y $35 por hora?
b) Qu tan alta debe ser la tarifa por hora para ubicar a un director de finanzas en el 10%
superior con respecto al pago?
c) Para un director de finanzas seleccionado al azar, cul es la probabilidad de que gane
menos de $28 por hora?
23. El tiempo necesario para completar un examen final en un curso universitario particular est
distribuido normalmente con una media de 80 minutos y una desviacin estndar de 10 minu-
tos. Responda las preguntas siguientes.
a) Cul es la probabilidad de completar el examen en una hora o menos?
b) Cul es la probabilidad de que un estudiante termine el examen en ms de 60 minutos
pero en menos de 75?
c) Suponga que la clase tiene 60 estudiantes y el periodo de examen dura 90 minutos. Cun-
tos estudiantes esperara usted que lo completaran en el tiempo asignado?
24. El volumen negociado en la Bolsa de Valores de Nueva York es ms intenso durante la pri-
mera media hora (temprano por la maana) y en la ltima media hora (tarde en la tarde) del
da de negociacin. Los volmenes negociados temprano en la maana (millones de acciones)
durante 13 das en enero y febrero se muestran enseguida (Barrons, 23 de enero de 2006; 13 y
17 de febrero de 2006).
WEB archivo 214 163 265 194 180
Volume
202 198 212 201
174 171 211 211
La distribucin de probabilidad del volumen negociado es aproximadamente normal.
a) Calcule la media y la desviacin estndar para usarla como estimaciones de la media po-
blacional y la desviacin estndar.
b) Cul es la probabilidad de que, en un da seleccionado al azar, el volumen negociado por
la maana sea menor de 180 millones de acciones?
c) Cul es la probabilidad de que este volumen exceda los 230 millones de acciones?
d) Cuntas acciones debern negociarse para que el volumen negociado por la maana en
un da determinado est entre el 5% ms ocupado de los das?
25. Segn Sleep Foundation, el promedio de sueo nocturno es de 6.8 horas (Fortune, 20 de mar-
zo de 2006). Suponga que la desviacin estndar es 0.6 horas y que la distribucin de proba-
bilidad es normal.
a) Cul es la probabilidad de que una persona seleccionada al azar duerma ms de 8 horas?
b) Cul es la probabilidad de que duerma 6 horas o menos?
c) Los mdicos sugieren dormir entre 7 y 9 horas cada noche. Qu porcentaje de la pobla-
cin se toma este tiempo?
FIGURA 6.8 Aproximacin normal para una distribucin de probabilidad normal con
n ! 100 y p ! 0.10 que muestra la probabilidad de 12 errores
!3
x
11.5
! 10 12.5
La probabilidad
de 13 o menos
errores es 0.8790
x
10 13.5
Al usar la tabla de probabilidad normal estndar, vemos que el rea bajo la curva (figura
6.8) a la izquierda de 12.5 es 0.7967. Del mismo modo, el rea bajo la curva a la izquierda de
11.5 es 0.6915. Por tanto, el rea entre 11.5 y 12.5 es 0.7967 ! 0.6915 " 0.1052. La aproxima-
cin normal a la probabilidad de 12 xitos en 100 ensayos es 0.1052.
En otro ejemplo, suponga que se desea calcular la probabilidad de 13 o menos errores en
la muestra de 100 facturas. La figura 6.9 muestra el rea bajo la curva normal que se aproxi-
ma a esta probabilidad. Tenga en cuenta que el uso del factor de correccin de continuidad da
como resultado el valor de 13.5 utilizado para calcular la probabilidad deseada. El valor de z
que corresponde a x " 13.5 es
13.5 ! 10.0
z" " 1.17
3.0
La tabla de probabilidad normal estndar muestra que el rea bajo la curva normal estndar a la
izquierda de z " 1.17 es 0.8790. El rea bajo la curva normal que se aproxima a la probabili-
dad de 13 o menos errores est dada por la porcin sombreada de la grfica de la figura 6.9.
Ejercicios
Mtodos
26. Una distribucin de probabilidad binomial tiene p " 0.20 y n " 100.
AUTO evaluacin a) Cul es la media y la desviacin estndar?
b) Esta situacin es una en la cual las probabilidades binomiales pueden aproximarse por
medio de la distribucin de probabilidad normal? Explique por qu.
c) Cul es la probabilidad de exactamente 24 xitos?
d) Cul es la probabilidad de 18 a 22 xitos?
e) Cul es la probabilidad de 15 o menos xitos?
27. Suponga que la distribucin de probabilidad binomial tiene p " 0.60 y n " 200.
a) Cules son la media y la desviacin estndar?
b) Esta situacin es del tipo en que las probabilidades binomiales pueden aproximarse por
medio de la distribucin de probabilidad normal? Explique por qu.
6.4 Distribucin de probabilidad exponencial 253
Aplicaciones
28. Aunque continan los estudios para mostrar que fumar ocasiona problemas de salud importan-
AUTO evaluacin tes, en Estados Unidos 20% de los adultos fuma. Considere un grupo de 250 sujetos.
a) Cul es el nmero esperado de adultos que fuman?
b) Cul es la probabilidad de que menos de 40 fumen?
c) Qu probabilidad hay de que de 55 a 60 adultos fumen?
d) Cul es la probabilidad de que 70 o ms fumen?
29. Un estudio del Consejo de Control de los Ingresos Internos encontr que 82% de los con-
tribuyentes consider que es muy importante para el Servicio de Administracin Tributaria
Estados Unidos (IRS) asegurar que los contribuyentes con ingresos altos no mientan sobre sus
declaraciones de impuestos (The Wall Street Journal, 11 de febrero de 2009).
a) Para una muestra de ocho contribuyentes, cul es la probabilidad de que por lo menos
seis digan que es muy importante garantizar que los contribuyentes con ingresos altos no
mientan sobre sus declaraciones de impuestos? Use la funcin de probabilidad de distri-
bucin binomial de la seccin 5.4 para responder esta pregunta.
b) Para una muestra de 80 contribuyentes, cul es la probabilidad de que por lo menos 60
digan que es muy importante garantizar que los contribuyentes con altos ingresos no mien-
tan sobre sus declaraciones fiscales? Use la aproximacin normal de la distribucin bino-
mial para responder esta pregunta.
c) A medida que el nmero de ensayos en una aplicacin de distribucin binomial aumen-
ta, cul es la ventaja de usar la aproximacin normal de la distribucin binomial para
calcular las probabilidades?
d) Cuando el nmero de ensayos para una aplicacin de distribucin binomial es grande, los
desarrolladores de software de estadstica preferiran usar la funcin de probabilidad de
distribucin binomial mostrada en la seccin 5.4 o la aproximacin normal de la distri-
bucin binomial estudiada en la seccin 6.3? Explique por qu.
30. Cuando usted firma un contrato para obtener una tarjeta de crdito, lo lee detenidamente?
En una encuesta de FindLaw.com se pregunt a las personas: Cunto cuidado pone al leer
un contrato de tarjeta de crdito? (USA Today, 16 de octubre de 2003). Los hallazgos arroja-
ron que 44% lee cada palabra, 33% lee lo suficiente para entender el contrato, 11% slo le da
un vistazo y 4% no lo lee.
a) Para una muestra de 500 personas, cuntas esperara que dijeran que leen cada palabra
de un contrato de tarjeta de crdito?
b) Para una muestra de 500 personas, cul es la probabilidad de que 200 o menos digan que
leen todas las palabras del contrato?
c) Para una muestra de 500 personas, cul es la probabilidad de que por lo menos 15 digan
que no leen los contratos?
31. Un hotel de un centro vacacional en Myrtle Beach tiene 120 habitaciones. En los meses de
verano, la ocupacin del hotel es de aproximadamente 75%.
a) Cul es la probabilidad de que por lo menos la mitad de las habitaciones est ocupada
en un da determinado?
b) Cul es la probabilidad de que 100 o ms habitaciones estn ocupadas en un da determi-
nado?
c) Cul es la probabilidad de que 80 o menos estn ocupadas en tal da?
1 !x/
f (x) " e para x $ 0 (6.4)
FIGURA 6.10 Distribucin exponencial para el ejemplo del muelle de carga Schips
f (x)
0.07
P(x ! 6)
0.05
P(6 ! x ! 18)
0.03
0.01
x
0 6 12 18 24 30
Tiempo de carga
6.4 Distribucin de probabilidad exponencial 255
Por tanto, la probabilidad de que la carga del camin tarde entre 6 y 18 minutos es igual a
0.6988 # 0.3297 ! 0.3691. Las probabilidades para cualquier otro intervalo pueden calcu-
larse de manera similar.
Una propiedad de la En el ejemplo anterior, el tiempo medio que toma cargar un camin es ! 15 minutos. Una
distribucin exponencial propiedad de la distribucin exponencial indica que la media de la distribucin y la desviacin
indica que la media y la
estndar de la distribucin son iguales. Por tanto, la desviacin estndar del tiempo que lleva
desviacin estndar son
iguales. cargar un camin es ! 15 minutos. La varianza es 2 ! (15)2 ! 225.
Si las llegadas siguen una La distribucin de probabilidad exponencial continua est relacionada con la distribucin de
distribucin de Poisson, el Poisson discreta. Si la distribucin de Poisson proporciona una descripcin apropiada del n-
tiempo entre las llegadas
mero de ocurrencias por intervalo, la distribucin exponencial provee una descripcin de la
debe seguir una distribucin
exponencial. duracin del intervalo entre ocurrencias.
Para ilustrar esta relacin, suponga que el nmero de automviles que llegan a un autola-
vado durante una hora se describe por medio de una distribucin de probabilidad de Poisson
con una media de 10 automviles por hora. La funcin de probabilidad de Poisson que da la
probabilidad de x llegadas por hora es
10 xe#10
f (x) !
x!
Como el nmero medio de arribos es 10 automviles por hora, el tiempo promedio entre la
llegada de los vehculos es
1 hora
! 0.1 hora/automvil
10 automviles
Por tanto, la distribucin exponencial correspondiente que describe el tiempo entre las llegadas
tiene una media de ! 0.1 hora por automvil; como resultado, la funcin de densidad de pro-
babilidad exponencial apropiada es
1 #x/0.1
f (x) ! e ! 10e#10x
0.1
256 Captulo 6 Distribuciones de probabilidad continua
NOTAS Y COMENTARIOS
Como se aprecia en la figura 6.10, la distribucin ex- ciones es 2. La distribucin exponencial nos da una
ponencial est inclinada a la derecha. De hecho, la buena idea de cmo se ve una distribucin inclinada.
medicin de la inclinacin para este tipo de distribu-
Ejercicios
Mtodos
32. Considere la funcin de densidad de probabilidad exponencial siguiente.
1 #x /8
f (x) ! e para x $ 0
8
Aplicaciones
34. El tiempo requerido para pasar la inspeccin de seguridad en el aeropuerto puede ser molesto
para los viajeros. El tiempo de espera medio durante los periodos pico en el Aeropuerto Inter-
nacional de Cincinnati/norte de Kentucky es de 12.1 minutos (The Cincinnati Enquirer, 2 de
febrero de 2006). Suponga que el tiempo para pasar la inspeccin de seguridad sigue una dis-
tribucin exponencial.
a) Cul es la probabilidad de que tarde menos de 10 minutos pasar la inspeccin de seguri-
dad durante un periodo pico?
b) Cul es la probabilidad de que pasar la inspeccin tarde ms de 20 minutos?
c) Cul es la probabilidad de que la inspeccin tome entre 10 y 20 minutos?
d) Son las 8:00 a.m. (un periodo pico) y usted acaba de formarse en la fila de inspeccin.
Para tomar su vuelo debe estar en la puerta en 30 minutos. Transcurren 12 minutos desde
el momento en que pasa la inspeccin de seguridad hasta que llega a su puerta, cul es la
probabilidad de que pierda el vuelo?
35. El tiempo entre las llegadas de los vehculos en una interseccin particular sigue una distribu-
AUTO evaluacin cin de probabilidad exponencial con una media de 12 segundos.
a) Trace esta distribucin de probabilidad exponencial.
b) Cul es la probabilidad de que el tiempo de llegada entre los vehculos sea de 12 o menos
segundos?
c) Cul es la probabilidad de que este tiempo sea de 6 o menos segundos?
d) Cul es la probabilidad de 30 o ms segundos entre las llegadas de vehculos?
Resumen 257
36. Comcast Corporation es la compaa de televisin por cable ms grande, el segundo provee-
dor de servicios de Internet ms importante, y el cuarto proveedor de servicios telefnicos
ms grande de Estados Unidos. La empresa, generalmente conocida por su calidad y servicio
confiable, experimenta peridicamente interrupciones de servicio inesperadas. El 14 de enero
de 2009, una interrupcin de este tipo ocurri para los clientes que vivan en el suroeste de
Florida. Cuando los clientes llamaron a la oficina de Comcast, un mensaje grabado les dijo que
la empresa estaba al tanto del corte del servicio y que se anticipaba que ste sera restablecido
en dos horas. Suponga que dos horas es el tiempo medio para efectuar la reparacin y que el
tiempo de reparacin tiene una distribucin de probabilidad exponencial.
a) Cul es la probabilidad de que el servicio de cable sea reanudado en una hora o menos?
b) Cul es la probabilidad de que la reparacin tarde entre una y dos horas?
c) Para un cliente que llama a la oficina de Comcast a la 1:00 p.m., cul es la probabilidad
de que el servicio de cable no se haya reanudado todava a las 5:00 p.m.?
37. Collinas Italian Caf en Houston, Texas, anuncia que los pedidos tardan en llegar alrededor de
25 minutos (sitio web de Collinas, 27 de febrero de 2008). Suponga que el tiempo necesario
para que un pedido est listo a fin de que lo recoja el cliente tiene una distribucin exponen-
cial con una media de 25 minutos.
a) Cul es la probabilidad de que un pedido para llevar est listo en 20 minutos?
b) Si un cliente llega 30 minutos despus de hacer un pedido, cul es la probabilidad de que
la orden no est lista?
c) Un cliente particular vive a 15 minutos del Collinas Italian Caf. Si el cliente realiza un
pedido telefnico a las 5:20 de la tarde, cul es la probabilidad de que el cliente pueda
acudir en auto a la cafetera, recoger el pedido y regresar a casa antes de las 6:00 p.m.?
38. Las interrupciones mientras usted trabaja reducen su productividad? Segn un estudio de la
Universidad de California, las personas de negocios son interrumpidas a una tasa de aproxi-
madamente 5 veces por hora (Fortune, 20 de marzo de 2006). Suponga que el nmero de
interrupciones sigue una distribucin de probabilidad de Poisson.
a) Muestre la distribucin de probabilidad para el tiempo entre interrupciones.
b) Cul es la probabilidad de que una persona de negocios no tenga interrupciones durante
un periodo de 15 minutos?
c) Cul es la probabilidad de que la siguiente interrupcin ocurra dentro de 10 minutos para
una persona de negocios en particular?
Resumen
Este captulo ampla el anlisis de las distribuciones de probabilidad para el caso de las variables
aleatorias continuas. La principal diferencia conceptual entre las distribuciones de probabili-
dad discretas y continuas involucra el mtodo de calcular las probabilidades. Con las distribu-
ciones discretas, la funcin de probabilidad f (x) proporciona la probabilidad de que la variable
aleatoria x asuma varios valores. Con las distribuciones continuas, la funcin de densidad de
probabilidad f (x) no proporciona los valores de probabilidad directamente. En su lugar, las pro-
babilidades estn dadas por las reas bajo la curva o grfica de la funcin de densidad de proba-
bilidad f (x). Debido a que el rea bajo la curva encima de un solo punto es cero, se observa que
la probabilidad de cualquier valor particular es cero para una variable aleatoria continua.
Tres distribuciones de probabilidad continua uniforme, normal y exponencial se tratan
con detalle en este captulo. La distribucin normal se utiliza ampliamente en la inferencia es-
tadstica y su uso es abundante en el resto del libro.
258 Captulo 6 Distribuciones de probabilidad continua
Glosario
Distribucin de probabilidad exponencial Distribucin de probabilidad continua que se
utiliza en el clculo de probabilidades para el tiempo que toma completar una tarea.
Distribucin de probabilidad normal Distribucin de probabilidad continua. Su funcin
de densidad de probabilidad tiene forma de campana y est determinada por su media y su
desviacin estndar .
Distribucin de probabilidad normal estndar Distribucin normal con una media de cero
y una desviacin estndar de uno.
Distribucin de probabilidad uniforme Distribucin de probabilidad continua para la cual
la probabilidad de que la variable aleatoria asuma un valor en cualquier intervalo es la misma
para cada intervalo de igual longitud.
Factor de correccin de continuidad Valor de 0.5 que se suma o resta de un valor de x
cuando la distribucin normal continua se usa para aproximar la distribucin binomial discreta.
Funcin de densidad de probabilidad Funcin utilizada para calcular las probabilidades de
una variable aleatoria continua. El rea bajo la grfica de una funcin de densidad de la proba-
bilidad a lo largo de un intervalo representa la probabilidad.
Frmulas clave
1 2 2
f (x) ! e#(x#) $2 (6.2)
"2
x#
z! (6.3)
1 #x/
f (x) ! e para x $ 0 (6.4)
Ejercicios complementarios
39. Una ejecutiva de negocios, transferida de Chicago a Atlanta, necesita vender su casa en Chi-
cago rpidamente. Un ejecutivo de la empresa ha ofrecido comprarla por $210 000, pero la
oferta expira al final de la semana. La ejecutiva actualmente no tiene una mejor oferta, pero
puede darse el lujo de dejar la casa en el mercado otro mes. De las conversaciones con su
Ejercicios complementarios 259
agente de bienes races, el ejecutivo cree que el precio que obtendr al dejar la casa en el mer-
cado otro mes si est distribuido de manera uniforme estar entre $200 000 y $225 000.
a) Si deja la casa en el mercado otro mes, cul es la expresin matemtica para la funcin
de densidad de probabilidad del precio de venta?
b) Si la deja en el mercado otro mes, cul es la probabilidad de que obtenga por lo menos
$215 000 por la casa?
c) Si la deja en el mercado otro mes, cul es la probabilidad de que obtenga menos de
$210 000?
d) La ejecutiva debe dejar la casa en el mercado otro mes? Por qu?
40. La Oficina de Estadsticas Laborales de Estados Unidos informa que los gastos anuales pro-
medio en alimentos y bebidas para todas las familias asciende a $5 700 (Money, diciembre de
2003). Suponga que dichos gastos anuales estn distribuidos normalmente y que la desviacin
estndar es $1 500.
a) Cul es el rango de gastos de 10% de las familias con el gasto anual ms bajo en alimen-
tos y bebidas?
b) Qu porcentaje de las familias erog ms de $7 000 al ao ambos conceptos?
c) Cul es el rango de gastos para 5% de las familias con el gasto anual ms alto en alimen-
tos y bebidas?
41. Motorola utiliza la distribucin normal para determinar la probabilidad de defectos y su n-
mero esperado en un proceso de produccin. Suponga que este proceso genera artculos con
un peso medio de 10 onzas. Calcule la probabilidad de un defecto y el nmero esperado de
defectos en una corrida de produccin de 1 000 unidades en las siguientes situaciones.
a) La desviacin estndar del proceso es 0.15, y el control de procesos se establece en ms o
menos una desviacin estndar. Las unidades con un peso inferior a 9.85 o superior a 10.15
onzas se clasificarn como defectos.
b) Por medio de mejoras en el diseo de procesos, la desviacin estndar del proceso puede
reducirse a 0.05. Suponga que el control de procesos sigue siendo el mismo, con pesos
inferiores a 9.85 o superiores a 10.15 onzas que se clasificarn como defectos.
c) Cul es la ventaja de reducir la variacin en el proceso, ocasionando as que los lmites
del control de procesos estn en un mayor nmero de desviaciones estndar de la media?
42. La cantidad media anual que las familias estadounidenses gastan en el transporte diario es
$6 312 (Money, agosto de 2001). Considere que este monto est normalmente distribuido.
a) Suponga que se entera de que 5% de las familias estadounidenses gast menos de $1000
en transporte diario. Cul es la desviacin estndar de la cantidad erogada?
b) Cul es la probabilidad de que una familia gaste entre $4 000 y $6 000?
c) Cul es el rango de gasto para 3% de las familias con el costo de transporte diario ms
alto?
43. Cond Nast Traveler publica una lista de oro de los hoteles principales en todo el mundo. El
hotel Broadmoor en Colorado Springs tiene 700 habitaciones y est en la lista de oro de 2004
(Cond Nast Traveler, enero de 2004). Suponga que el grupo de marketing de Broadmoor pro-
nostica una demanda media de 670 habitaciones para el prximo fin de semana. Considere que
esta demanda est distribuida normalmente con una desviacin estndar de 30.
a) Cul es la probabilidad de que todas las habitaciones del hotel sean rentadas?
b) Cul es la probabilidad de que 50 o ms habitaciones no sean rentadas?
c) Recomendara usted al hotel considerar la oferta de una promocin para aumentar la
demanda? Qu consideraciones seran importantes?
44. Ward Doering Auto Sales estudia ofrecer un contrato de servicio especial que cubra el costo
total de cualquier trabajo de servicio requerido en los vehculos rentados. Por experiencia, el
gerente de la empresa estima que los costos del servicio anuales estn distribuidos normalmen-
te de manera aproximada, con una media de $150 y una desviacin estndar de $25.
a) Si la empresa ofrece el contrato de servicio a los clientes por un cargo anual de $200,
cul es la probabilidad de que los costos del servicio al cliente rebasen el precio de con-
trato de $200?
b) Cules son las utilidades esperadas de Wards por contrato de servicio?
260 Captulo 6 Distribuciones de probabilidad continua
45. La falta de sueo ocasiona muertes por trfico? Un estudio realizado bajo los auspicios de la
National Highway Traffic Safety Administration encontr que el nmero medio de accidentes
fatales provocados por conductores somnolientos cada ao es de 1 550 (BusinessWeek, 26 de
enero de 2004). Suponga que el nmero anual de percances fatales se distribuye normalmente
con una desviacin estndar de 300.
a) Cul es la probabilidad de menos de 1000 accidentes fatales en un ao?
b) Cul es la probabilidad de que el nmero de percances fatales est entre 1 000 y 2 000 al
ao?
c) Durante un ao de estar en el 5% superior con respecto al nmero de accidentes fatales,
cuntos percances tendran que ocurrir?
46. Asuma que los resultados del examen de admisin a la universidad tienen una distribucin
normal, con una media de 450 y una desviacin estndar de 100.
a) Qu porcentaje de las personas que present la prueba obtuvo una calificacin de pun-
tuacin entre 400 y 500?
b) Suponga que alguien obtiene una calificacin de 630. Qu porcentaje de las personas que
presentaron la prueba logr la mejor calificacin? Qu porcentaje obtuvo la peor?
c) Si una universidad particular no admite alumnos con una calificacin inferior a 480, qu
porcentaje de las personas que presentaron la prueba ser aceptable para la universidad?
47. Segn Salary Wizard, el sueldo base promedio de un gerente de marca en Houston, Texas, es
de $88 592 y el de un gerente de marca en Los ngeles, California, es de $97 417 (sitio web de
Salary Wizard, 27 de febrero de 2008). Suponga que los sueldos estn normalmente distribui-
dos y que la desviacin estndar de los gerentes de marca en Houston es de $19 900 y en Los
ngeles es de $21 800.
a) Cul es la probabilidad de que un gerente de marca en Houston tenga un sueldo base
mayor de $100 000?
b) Cul es la probabilidad de que su homlogo en Los ngeles tenga un sueldo base que
rebase los $100 000?
c) Cul es la probabilidad de que un gerente de marca en Los ngeles tenga un sueldo base
inferior a $75 000?
d) Cunto tendra que ganar un gerente en Los ngeles para tener un sueldo superior a 99%
de sus homlogos de Houston?
48. Una mquina llena envases de un producto en particular. Se sabe a partir de datos previos que
la desviacin estndar de los pesos de llenado es 0.6 oz. Si slo a 2% de los envases contie-
ne menos de 18 onzas, cul es la media del peso de llenado de la mquina? Es decir, a qu
debe ser igual ? Suponga que los pesos de llenado tienen una distribucin normal.
49. Considere un examen de opcin mltiple con 50 preguntas. Cada interrogante tiene cuatro
respuestas posibles. Suponga que un estudiante que hizo la tarea y asisti a conferencias tiene
una probabilidad de 75% de responder correctamente cualquier pregunta.
a) Un estudiante debe responder correctamente 43 o ms preguntas para obtener una califi-
cacin de A. Qu porcentaje de los que hicieron su tarea y asistieron a conferencias
obtendr una calificacin de A en este examen de opcin mltiple?
b) Un alumno que responde correctamente de 35 a 39 preguntas recibir una calificacin
de C. Qu porcentaje de los que realizaron su tarea y asistieron a conferencias obtendr
una calificacin de C en este examen?
c) Un estudiante debe responder correctamente 30 o ms preguntas para aprobar el exa-
men. Qu porcentaje de los que efectuaron su tarea y asistieron a las conferencias lo
aprobar?
d) Considere que un estudiante no asisti a clases y no hizo la tarea para el curso. Por otra
parte, suponga que ste sencillamente adivina la respuesta a cada pregunta. Cul es la
probabilidad de que conteste 30 o ms preguntas correctamente y apruebe el examen?
50. Un jugador de blackjack en un casino de Las Vegas se enter de que la casa proporcionar
una habitacin gratis si el juego dura cuatro horas con una apuesta media de $50. La estrategia
Caso a resolver Specialty Toys 261
del jugador proporciona una probabilidad de 0.49 de ganar en cualquier mano, y sabe que hay
60 manos por hora. Suponga que el sujeto juega durante cuatro horas con una apuesta de $50
por mano.
a) Cul es el pago esperado del jugador?
b) Cul es la probabilidad de que pierda $1 000 o ms?
c) Cul es la probabilidad de que gane?
d) Suponga que el jugador comienza con $1 500. Cul es la probabilidad de que se quede sin
dinero para apostar?
51. El tiempo en minutos durante el cual un estudiante utiliza una terminal de computadora en el
centro informtico de una universidad importante sigue una distribucin de probabilidad expo-
nencial con una media de 36 minutos. Suponga que un estudiante llega a la terminal al mismo
tiempo que otro empieza a trabajar en ella.
a) Cul es la probabilidad de que la espera para el segundo estudiante sea de 15 minutos o
menos?
b) Cul es la probabilidad de que deba aguardar entre 15 y 45 minutos?
c) Cul es la probabilidad de que tenga que esperar una hora o ms?
52. El sitio web de Bed and Breakfast Inns of North America recibe aproximadamente a siete vi-
sitantes por minuto (Time, septiembre de 2001). Suponga que el nmero de visitantes al sitio
web por minuto sigue una distribucin de probabilidad de Poisson.
a) Cul es el tiempo medio entre visitas al sitio web?
b) Muestre la funcin de densidad de probabilidad exponencial para el tiempo entre las con-
sultas al sitio.
c) Cul es la probabilidad de que nadie entre al sitio web en un periodo de 1 minuto?
d) Cul es la probabilidad de que nadie entre en un periodo de 12 segundos?
53. The American Community Survey revel que los residentes de la ciudad de Nueva York tienen
los tiempos de viaje ms largos para transportarse al trabajo en comparacin con los residentes
de otras ciudades de Estados Unidos (sitio web de la Oficina del Censo de Estados Unidos,
agosto de 2008). Con base en las ltimas estadsticas disponibles, el tiempo medio de viaje para
transportarse al trabajo para los habitantes de la ciudad de Nueva York es de 38.3 minutos.
a) Suponga que la distribucin de probabilidad exponencial es aplicable y muestra la fun-
cin de densidad de probabilidad del tiempo de viaje para transportarse al trabajo para un
residente de esta ciudad.
b) Cul es la probabilidad de que un neoyorquino tarde entre 20 y 40 minutos para trans-
portarse al trabajo?
c) Cul es la probabilidad de que tarde ms de una hora?
54. El tiempo (en minutos) entre llamadas telefnicas en una oficina de reclamacin de seguros
tiene la distribucin de probabilidad exponencial siguiente.
escasez en el mercado aumenta a menudo la demanda a niveles altos y se pueden obtener gran-
des utilidades. Sin embargo, los juguetes nuevos tambin pueden ser un fracaso, dejando a
Specialty atorado con altos niveles de inventario que debe vender a precio bajo. Lo ms impor-
tante que la empresa enfrenta es decidir cuntas unidades de un juguete nuevo debe comprar
para satisfacer la demanda anticipada de ventas. Si se adquieren muy pocos, las ventas se per-
dern, si se compran muchos, las utilidades se reducirn debido a los precios bajos de las ventas
de liquidacin.
Para la prxima temporada, Specialty planea introducir un producto nuevo llamado Wea-
ther Teddy. Esta variante de un osito de peluche que habla se fabrica en una empresa de Taiwn.
Cuando un nio presiona la mano del osito, ste empieza a hablar. Un barmetro integrado
selecciona una de cinco respuestas que predicen las condiciones del clima. Las respuestas van
desde Parece ser buen da! Divirtete a Creo que va a llover hoy. No olvides tu paraguas.
Las pruebas del producto demostraron que, aunque no es un predictor del clima perfecto, sus
pronsticos son sorprendentemente atinados. Varios directivos de Specialty afirmaron que Teddy
hizo predicciones climticas tan buenas como muchos pronosticadores meteorolgicos locales
de televisin.
Al igual que con otros productos, Specialty enfrenta la decisin de cuntas unidades de
Teddy ordenar para la prxima temporada de vacaciones. Los miembros del equipo gerencial
sugirieron solicitar cifras de 15 000, 18 000, 24 000 o 28 000 unidades. La amplia variedad de
cantidades sugerida para el pedido indica un desacuerdo considerable respecto del potencial
de mercado. El equipo de administracin del producto le solicita tanto un anlisis de las proba-
bilidades de que las existencias se agoten para pedidos de varias cantidades, como una esti-
macin del potencial de utilidades, y una recomendacin de la cantidad del pedido. Specialty
espera vender el oso Weather Teddy en $24 sobre la base de un costo de $16 por unidad. Si que-
da inventario despus de la temporada de vacaciones, la tienda vender todo el excedente en
$5 por unidad. Despus de revisar el historial de ventas de productos similares, el encargado de
pronsticos de ventas adjunto de Specialty predijo una demanda esperada de 20 000 unidades
con una probabilidad 0.95 de que se ubicara entre 10 000 y 30 000 unidades.
Informe gerencial
Prepare un informe gerencial que aborde los temas siguientes y recomiende una cantidad de
pedido para el producto Wealher Teddy.
1. Use la prediccin del pronosticador de ventas para describir una distribucin de pro-
babilidad normal que permita aproximar la distribucin de la demanda. Trace la distri-
bucin y muestre su media y desviacin estndar.
2. Calcule la probabilidad de quedarse sin existencias para las cantidades de pedido suge-
ridas por los miembros del equipo gerencial.
3. Calcule las utilidades proyectadas para las cantidades de pedido sugeridas por el equipo
de administracin bajo tres escenarios: el peor caso en el cual las ventas ! 10 000 uni-
dades; el caso ms probable de ventas ! 20 000 unidades, y el mejor caso en el cual las
ventas ! 30 000 unidades.
4. Uno de los gerentes de Specialty consider que el potencial de utilidades es tan grande
que la cantidad de pedidos debe tener una posibilidad de 70% de satisfacer la demanda
y slo una probabilidad de 30% de que se agoten las existencias. Qu cantidad debe
solicitarse bajo esta poltica, y cul es la utilidad proyectada bajo los tres escenarios de
ventas?
5. Proporcione su propia sugerencia para una cantidad del pedido y observe las proyec-
ciones de las utilidades asociadas. Comente en qu se basa para hacer su recomen-
dacin.
ticos se describi por medio de una distribucin normal con ! 36 500 y ! 5 000. Una pre-
gunta formulada al respecto fue: cul es la probabilidad de que el millaje de neumticos reba-
sar las 40 000 millas?
Para las distribuciones de probabilidad continua, Minitab proporciona una probabilidad
acumulada; es decir, la probabilidad de que la variable aleatoria asuma un valor menor o igual
que una constante especificada. Para la pregunta del millaje de Grear Tire, se usa este programa
con el fin de determinar la probabilidad acumulada de que el millaje de los neumticos sea
menor o igual que 40 000 millas. (La constante especificada en este caso es 40 000.) Despus de
obtener la probabilidad acumulada de Minitab, debemos restarla de 1 para determinar la proba-
bilidad de que el millaje de los neumticos rebase la cifra de 40 000.
Antes de usar Minitab para calcular una probabilidad, debemos introducir la constante
especificada en una columna de la hoja de trabajo. Para la pregunta del millaje de los neum-
ticos de Grear se introdujo la constante especificada de 40 000 en la columna C1 de la hoja de
trabajo. Los pasos para usar Minitab con el propsito de calcular la probabilidad acumulada
de la variable aleatoria normal asumiendo un valor menor o igual que 40 000 se muestran a
continuacin.
Paso 1. Seleccione el men Calc.
Paso 2. Elija Probability Distributions.
Paso 3. Elija Normal.
Paso 4. Cuando aparezca el cuadro de dilogo Normal Distribution:
Seleccione Cumulative probability.
Introduzca 36 500 en el cuadro Mean.
Ingrese 5 000 en el cuadro Standard deviation.
Introduzca C1 en el cuadro Input column (la columna que contiene 40 000).
Haga clic en OK.
Despus de que el usuario hace clic en OK, Minitab imprime la probabilidad acumulada de
que la variable aleatoria normal asume un valor menor o igual que 40 000, y muestra que esta
probabilidad es de 0.7580. Puesto que se quiere conocer la probabilidad de que el millaje de los
neumticos sea mayor que 40 000, la probabilidad deseada es 1 # 0.7580 ! 0.2420.
Una segunda pregunta en el problema de Grear Tire Company fue: qu garanta de mi-
llaje debe establecer Grear para asegurar que no ms de 10% de los neumticos califique para
hacerla vlida? En seguida se proporciona una probabilidad y se quiere encontrar el valor co-
rrespondiente para la variable aleatoria. Minitab usa una rutina de clculo inversa para encon-
trar el valor de la variable aleatoria asociada con una probabilidad acumulada determinada.
Primero, debemos introducir esta ltima en una columna de la hoja de trabajo de Minitab (por
ejemplo, C1). En este caso, la probabilidad acumulada buscada es 0.10. Despus seguimos los
primeros tres pasos del procedimiento de Minitab como ya se explic. En el paso 4 se selecciona
Inverse cumulative probability en vez de Cumulative probability y se completan las partes
restantes del procedimiento. Minitab exhibe luego la garanta de 30 092 millas.
El programa es capaz de calcular las probabilidades para otras distribuciones de probabi-
lidad continua, incluida la distribucin de probabilidad exponencial. Para calcular las probabilida-
des exponenciales, siga el procedimiento explicado antes para la distribucin de probabilidad
normal y elija la opcin Exponential en el paso 3. El paso 4 es como se muestra, con la ex-
cepcin de que no es necesario introducir la desviacin estndar. El resultado para las proba-
bilidades acumuladas y las probabilidades acumuladas inversas es idntico al descrito para la
distribucin de probabilidad normal.
cmo se usa Excel para calcular probabilidades de cualquier distribucin normal. Los proce-
dimientos para las distribuciones exponencial y otras continuas son similares a los que se des-
criben para la distribucin normal.
Retomemos el problema de Grear Tire Company, donde el millaje de los neumticos se
describi por medio de una distribucin normal con ! 36 500 y ! 5 000. Suponga que le
interesa la probabilidad de que el millaje de los neumticos exceda las 40 000 millas.
La funcin NORMDIST de Excel proporciona las probabilidades acumuladas de una distri-
bucin normal. La forma general de la funcin es NORMDIST (x,,,cumulative). Para el cuarto
argumento, se especifica TRUE si se desea obtener una probabilidad acumulada. Por tanto, para
calcular la probabilidad acumulada de que el millaje de los neumticos sea menor o igual que
40 000 se introducira la frmula siguiente en cualquier celda de una hoja de trabajo de Excel:
! NORMDIST(40000,36500,5000,TRUE)
En este punto, aparecer 0.7580 en la celda donde fue introducida la frmula, lo que indica que
la probabilidad de que el millaje de los neumticos sea menor o igual que 40 000 es 0.7580.
Por tanto, la probabilidad de que el millaje de los neumticos sea superior a 40 000 es 1 #
0.7580 ! 0.2420.
La funcin NORMINV de Excel utiliza un clculo inverso para encontrar el valor de x co-
rrespondiente a una determinada probabilidad acumulada. Por ejemplo, suponga que se quiere
determinar el millaje garantizado que Grear debe ofrecer para que no ms de 10% de los neu-
mticos sea apto para la garanta. Se introduce la frmula siguiente en cualquier celda de una
hoja de trabajo de Excel:
! NORMINV(.1,36500,5000)
En este punto, aparece 30092 en la celda donde se introdujo la frmula, lo que indica que la
probabilidad de que un neumtico dura 30 092 millas o menos es 0.10.
La funcin de Excel para el clculo de probabilidades exponenciales es EXPONDIST. Su
uso es sencillo. Pero si usted necesita especificar los valores adecuados para los argumentos, el
cuadro de dilogo Insert Function de Excel puede ayudarle (vea el apndice E del libro).
CAPTULO
Chapter 3 [(H2F)]
7 265
Muestreo y distribuciones
de muestreo
CONTENIDO Valor prctico de la distribucin
ESTADSTICA EN LA PRCTICA: de muestreo de x
MEADWESTVACO CORPORATION Relacin entre el tamao de
la muestra y la distribucin
7.1 EL PROBLEMA de muestreo de x
DE MUESTREO DE
ELECTRONICS ASSOCIATES 7.6 DISTRIBUCIN
DE MUESTREO DE p
7.2 SELECCIN DE Valor esperado de p
UNA MUESTRA Desviacin estndar de p
Muestreo de una poblacin finita Forma de la distribucin
Muestreo de una poblacin de muestreo de p
infinita Valor prctico de la distribucin
7.3 ESTIMACIN PUNTUAL de muestreo de p
Consejo prctico 7.7 PROPIEDADES DE LOS
7.4 INTRODUCCIN A ESTIMADORES PUNTUALES
LAS DISTRIBUCIONES Insesgadez
MUESTRALES O Eficiencia
DE MUESTREO Consistencia
7.5 DISTRIBUCIN DE 7.8 OTROS MTODOS
MUESTREO DE x DE MUESTREO
Valor esperado de x Muestreo aleatorio estratificado
Desviacin estndar de x Muestreo por conglomerados
Forma de la distribucin Muestreo sistemtico
de muestreo de x Muestreo de conveniencia
Distribucin de muestreo de x Muestreo subjetivo
en el problema EAI
266 Captulo 7 Muestreo y distribuciones de muestreo
ESTADSTICA en LA PRCTICA
MEADWESTVACO CORPORATION*
STAMFORD, CONNECTICUT
MeadWestvaco Corporation, lder mundial en la produc-
cin de embalajes y papeles especiales, bienes de consumo
y de oficina y sustancias qumicas especiales, emplea a ms
de 30 000 personas. Opera a nivel mundial en 29 pases y
atiende a clientes localizados en 100 pases. La empresa
tiene una posicin lder en la produccin de papel, con una
capacidad de 1.8 millones de toneladas anuales. Entre los
productos que comercializa se encuentran papel para li-
bros y revistas, sistemas de embalaje para bebidas y produc-
tos de oficina. Los consultores internos de MeadWestvaco
usan el muestreo para obtener informacin diversa que
permite a la empresa ganar productividad y seguir siendo
competitiva. El muestreo aleatorio de los bosques de MeadWestvaco le
Por ejemplo, la firma posee bosques que le proporcio- permite a satisfacer necesidades futuras de materia prima.
nan los rboles, o la materia prima, para muchos de sus Walter Hodges/CORBIS.
productos. Los directivos requieren informacin confiable
y precisa acerca de sus bienes maderables para evaluar las En el proceso de acopio de datos de campo tambin
posibilidades de satisfaccin de las futuras necesidades de participan guardabosques a travs de toda la organizacin.
materia prima. Cul es el volumen actual de los bosques? De manera peridica, equipos de dos personas recolectan
Cul ha sido su crecimiento? Cul es su crecimiento pro- la informacin de cada rbol en todos los puntos muestra-
yectado? Las respuestas a estas preguntas permiten a los les. Los datos se ingresan en el sistema computacional de
directivos elaborar los planes para el futuro, incluyendo inventario forestal continuo (IFC) de la empresa. Los repor-
proyecciones a largo plazo y calendarios para la tala de tes obtenidos del sistema IFC contienen informacin de dis-
rboles. tribuciones de frecuencia con estadsticos sobre los tipos
Cmo recolecta MeadWestvaco la informacin acer- de rboles, volumen actual de los bosques, tasas de creci-
ca de los amplios bosques que requiere? Los datos que ob- miento anteriores y crecimiento y volumen proyectados. El
tiene de puntos muestrales en las reas forestales son la base muestreo y los correspondientes resmenes estadsticos de
para contar con informacin acerca de la poblacin de r- los datos muestrales proporcionan la informacin esencial
boles propiedad de la empresa. Para localizar estos puntos para la adecuada administracin de los bosques y selvas de
muestrales, primero se dividen los bosques en tres seccio- MeadWestvaco.
nes con base en la localizacin y el tipo de especmenes. En este captulo se estudia el muestreo aleatorio sim-
Mediante mapas y nmeros aleatorios, los analistas iden- ple y el proceso de seleccin de muestras. Se ver tambin
tifican puntos muestrales aleatorios de 1/5 a 1/7 de acres el uso de estadsticos como la media muestral y la propor-
en cada seccin forestal. Los ingnieros de MeadWestvaco cin muestral para estimar la media y la proporcin de la
recogen los datos de estos puntos muestrales para obtener poblacin. Tambin se presenta el importante concepto de
informacin acerca de la poblacin forestal. distribucin de muestreo.
La razn por la que se selecciona una muestra estriba en recabar datos para realizar una infe-
rencia y responder una pregunta de investigacin acerca de una poblacin.
7.1 El problema de muestreo de Electronics Associates 267
Para empezar, se presentan dos ejemplos en los que se utiliza el muestreo para responder
una pregunta de investigacin acerca de una poblacin.
1. Los miembros de un partido poltico en Texas consideraban postular a un determinado
candidato para el Senado, y los dirigentes del partido queran estimar la proporcin
de votantes registrados en el estado que podan apoyarlo. Por tanto, se seleccion una
muestra de 400 votantes registrados en Texas, y 160 de este total indicaron estar a favor
del candidato. As, una estimacin de la proporcin de la poblacin de votantes regis-
trados a favor del candidato es 160/400 ! 0.40.
2. Un fabricante de llantas est considerando producir un nuevo modelo que ofrezca
mayor duracin que los actuales neumticos de lnea de la empresa. Para estimar la
duracin media, en millas, el fabricante selecciona una muestra de 120 neumticos nue-
vos para probarlos. De los resultados de esta prueba se obtiene una media muestral de
36 500 millas. Por tanto, una estimacin de la vida til media de la poblacin de nue-
vas llantas es 36 500 millas.
Es importante observar que los resultados muestrales slo proporcionan una estimacin de los
Una media muestral valores de las caractersticas de la poblacin. No se espera que exactamente 0.40, o 40%, de
proporciona una estimacin
la poblacin de los votantes registrados est a favor del candidato, ni que la media muestral
de la media poblacional,
y una proporcin de 36 500 millas sea exactamente igual al millaje medio de la poblacin de todos los nuevos
muestral suministra neumticos. La razn es simple: la muestra slo contiene una parte de la poblacin. Es de espe-
una estimacin de la rarse algn error de muestro. Con mtodos adecuados, los resultados muestrales proporcionarn
proporcin poblacional. buenas estimaciones de los parmetros poblacionales. Pero cun buenos puede esperarse
En ambos casos puede que sean estos resultados? Por fortuna, existen procedimientos estadsticos para responder esta
esperarse un cierto error
pregunta.
de estimacin. Este captulo
ensea las bases para Definamos algunos trminos que se utilizan en el muestreo. La poblacin muestreada
determinar cun grande es aquella de la cual se extrae la muestra, y un marco es la lista de los elementos de donde se
puede ser ese error. seleccionar la muestra. En el primer ejemplo, la poblacin muestreada son todos los votantes
registrados en Texas, y el marco es una lista de todos los votantes registrados. Debido a que
stos constituyen un nmero finito, el primer ejemplo ilustra qu es un muestreo de una pobla-
cin finita. En la seccin 7.2 se analiza cmo seleccionar una muestra aleatoria simple cuando
se muestrea una poblacin finita.
Definir la poblacin muestreada del ejemplo del millaje de los neumticos es ms difcil,
porque la muestra de 120 llantas se obtuvo de un proceso productivo en un punto particular en
el tiempo. Podemos pensar la poblacin muestreada como la poblacin conceptual de todos
los neumticos que pueden ser fabricados en el proceso de produccin en un punto particular
en el tiempo. En este sentido, la poblacin muestreada se considera infinita, siendo imposible
construir un marco del cual trazar la muestra. En la seccin 7.2 se analiza cmo seleccionar una
muestra aleatoria simple en una situacin como sta.
En este captulo mostramos cmo emplear el muestreo aleatorio simple para seleccionar
una muestra de una poblacin finita y cmo puede tomarse una muestra aleatoria de una po-
blacin infinita generada por un proceso en marcha. Despus se analiza cmo usar una muestra
aleatoria simple para calcular estimaciones de una media poblacional, una desviacin estn-
dar poblacional y una proporcin poblacional. Tambin se introduce el importante concepto de
distribucin de muestreo o distribucin muestral. Como se ver, el conocimiento de la distri-
bucin de muestreo adecuada permite establecer qu tan cerca se encuentran las estimaciones
muestrales de los correspondientes parmetros poblacionales. En la ltima seccin se estudian
alternativas al muestreo aleatorio simple, empleadas con frecuencia en la prctica.
Utilizando los 2 500 gerentes de la empresa como poblacin para este estudio, es posible
WEB archivo determinar el sueldo anual y la situacin respecto del programa de capacitacin de cada suje-
to al consultar los archivos del personal. El conjunto de datos que contiene esta informacin
EAI para cada uno de los 2 500 gerentes que forman la poblacin se encuentra en el archivo deno-
minado EAI.
Con los datos de EAI y las frmulas presentadas en el captulo 3, se calcula la media pobla-
cional y la desviacin estndar poblacional de los sueldos anuales.
Una muestra aleatoria simple de tamao n de una poblacin finita de tamao N es una
muestra seleccionada de manera que cada posible muestra de tamao n tenga la misma
probabilidad de ser seleccionada.
Los nmeros aleatorios
generados por computadora Un procedimiento para seleccionar una muestra aleatoria simple de una poblacin finita es
tambin sirven para realizar elegir los elementos para la muestra de uno en uno, de manera que, en cada paso, cada uno de
el proceso de seleccin los elementos que quedan en la poblacin tenga la misma probabilidad de ser seleccionado. Al
de una muestra aleatoria.
elegir n elementos de esta manera, ser satisfecha la definicin de muestra aleatoria simple se-
Excel proporciona una
funcin para generar
leccionada de una poblacin finita.
nmeros aleatorios en Para elegir una muestra aleatoria simple de la poblacin finita de gerentes de EAI, primero
sus hojas de clculo. se le asigna un nmero a cada sujeto; por ejemplo, los nmeros del 1 al 2 500 en el orden en
7.2 Seleccin de una muestra 269
63 271 59 986 71 744 51 102 15 141 80 714 58 683 93 108 13 554 79 945
88 547 09 896 95 436 79 115 08 303 01 041 20 030 63 754 08 459 28 364
55 957 57 243 83 865 09 911 19 761 66 535 40 102 26 646 60 147 15 702
46 276 87 453 44 790 67 122 45 573 84 358 21 625 16 999 13 385 22 782
55 363 07 449 34 835 15 290 76 616 67 191 12 777 21 861 68 689 03 263
69 393 92 785 49 902 58 447 42 048 30 378 87 618 26 933 40 640 16 281
13 186 29 431 88 190 04 588 38 733 81 290 89 541 70 290 40 113 08 243
17 726 28 652 56 836 78 351 47 327 18 518 92 222 55 201 27 340 10 493
36 520 64 465 05 550 30 157 82 242 29 520 69 753 72 602 23 756 54 935
81 628 36 100 39 254 56 835 37 636 02 421 98 063 89 641 64 953 99 337
84 649 48 968 75 215 75 498 49 539 74 240 03 466 49 292 36 401 45 525
63 291 11 618 12 613 75 055 43 915 26 488 41 116 64 531 56 827 30 825
70 502 53 225 03 655 05 915 37 140 57 051 48 393 91 322 25 653 06 543
06 426 24 771 59 935 49 801 11 082 66 762 94 477 02 494 88 215 27 191
20 711 55 609 29 430 70 165 45 406 78 484 31 639 52 009 18 873 96 927
41 990 70 538 77 191 25 860 55 204 73 417 83 920 69 468 74 972 38 712
72 452 36 618 76 298 26 678 89 334 33 938 95 567 29 380 75 906 91 807
37 042 40 318 57 099 10 528 09 925 89 773 41 335 96 244 29 002 46 453
53 766 52 875 15 987 46 962 67 342 77 592 57 651 95 508 80 033 69 828
90 585 58 955 53 122 16 025 84 299 53 310 67 380 84 249 25 348 04 332
32 001 96 293 37 203 64 516 51 530 37 069 40 261 61 374 05 815 06 714
62 606 64 324 46 354 72 157 67 248 20 135 49 804 09 226 64 419 29 457
10 078 28 073 85 389 50 324 14 500 15 562 64 165 06 125 71 353 77 669
91 561 46 145 24 177 15 294 10 061 98 124 75 732 00 815 83 452 97 355
13 091 98 112 53 959 79 607 52 244 63 303 10 413 63 839 74 762 50 289
que aparecen sus nombres en el archivo de personal. A continuacin se revisa la tabla de dgitos
aleatorios que figuran en la tabla 7.1. Al consultar la primera fila, se advierte que cada dgi-
to, 6, 3, 2, . . . , es un nmero aleatorio con la misma oportunidad de aparecer que cualquier otro.
Como el nmero mayor en la lista de la poblacin de gerentes de EAI, 2 500, tiene cuatro dgitos,
se seleccionarn nmeros de la tabla en conjuntos o grupos de cuatro dgitos. Aun cuando para
la seleccin de nmeros aleatorios se puede empezar en cualquier lugar de la tabla y avanzar
Los nmeros aleatorios en sistemticamente en una de las cuatro direcciones, aqu se utilizar la primera fila y se avanzar
la tabla aparecen en grupos de izquierda a derecha. Los primeros siete nmeros aleatorios de cuatro dgitos son
de cinco para facilitar su
lectura. 6 327 1 599 8 671 7 445 1 102 1 514 1 807
Como los nmeros de la tabla son aleatorios, estas cifras de cuatro dgitos son todas igualmen-
te posibles.
Ahora se pueden usar estos nmeros aleatorios de cuatro dgitos para darle a cada uno de
los gerentes que constituyen la poblacin la misma oportunidad de ser incluido en la muestra
aleatoria. El primer nmero, 6 327, es mayor que 2 500. No corresponde a ninguno de los ge-
rentes numerados que forman la poblacin y, por tanto, se descarta. El segundo nmero, 1 599,
est entre 1 y 2 500. Por tanto, el primer gerente seleccionado para la muestra aleatoria es el
que tiene el nmero 1 599 en la lista de EAI. Siguiendo este proceso, se ignoran los nmeros
8 671 y 7 445 antes de identificar a los gerentes con los nmeros 1 102, 1 514 y 1 807 e incluir-
los en la muestra. Este proceso contina hasta que se tiene la muestra aleatoria de 30 gerentes
de EAI.
Al realizar este proceso para la seleccin de una muestra aleatoria simple, es posible que un
nmero que ya haya sido usado se encuentre de nuevo en la tabla antes de completar la mues-
tra de los 30 gerentes. Como no se quiere seleccionar a un sujeto ms de una vez, cualquier
nmero aleatorio que ya ha sido usado se ignora, porque el gerente correspondiente ya se ha
incluido en la muestra. A este tipo de seleccin se le conoce como muestreo sin remplazo.
270 Captulo 7 Muestreo y distribuciones de muestreo
Cuando se selecciona una muestra en la que se aceptan nmeros aleatorios ya usados y los
gerentes correspondientes son incluidos dos o ms veces, se realiza un muestreo con rempla-
zo. Muestrear con remplazo es una forma vlida de identificar una muestra aleatoria simple;
sin embargo, como es el procedimiento de muestreo ms usado, cuando se hable de muestreo
aleatorio simple se asumir que ste es sin reemplazo.
NOTAS Y COMENTARIOS
1. En esta seccin se ha tenido sumo cuidado en defi- gunos otros mtodos de muestreo probabilstico:
nir dos tipos de muestras: la muestra aleatoria sim- muestreo aleatorio estratificado, muestreo por con-
ple de una poblacin finita y la muestra aleatoria glomerados y muestreo sistemtico. Se utiliza el
de una poblacin infinita. En el resto de la obra se trmino simple en el muestreo aleatorio simple
har referencia a ellas como muestra aleatoria o para aclarar que es el mtodo que asegura que ca-
slo muestra. No se har distincin de que sea una da muestra de tamao n tiene la misma probabili-
muestra aleatoria simple a menos que sea nece- dad de ser seleccionada.
sario para el ejercicio o el anlisis. 3. El nmero de muestras aleatorias simples distin-
2. Los profesionales de la estadstica especializados tas de tamao n que pueden seleccionarse de una
en encuestas por muestreo de poblaciones finitas poblacin finita de tamao N es
utilizan mtodos que proporcionan muestras de
N!
probabilidad, con las cuales cada posible muestra
tiene una probabilidad conocida de seleccin y se n!(N # n)!
utiliza un proceso aleatorio para elegir sus ele- En esta expresin, N! y n! son las frmulas fac-
mentos. El muestreo aleatorio simple es uno de toriales estudiadas en el captulo 4. Al utilizar es-
esos mtodos. En la seccin 7.8 se describen al- ta expresin con los datos del problema de EAI,
272 Captulo 7 Muestreo y distribuciones de muestreo
en el que N ! 2 500 y n ! 30, se ve que se pueden cmo usar Minitab y Excel para seleccionar una
obtener aproximadamente 2.75 % 1069 muestras muestra aleatoria simple de una poblacin finita.
aleatorias simples distintas de 30 gerentes de EAI.
4. Para tomar una muestra aleatoria puede emplearse
software. En los apndices del captulo se explica
Ejercicios
Mtodos
1. Tome una poblacin finita con cinco elementos A, B, C, D y E. Se pueden seleccionar 10
AUTO evaluacin muestras aleatorias simples de tamao 2.
a) Liste las 10 muestras empezando con AB, AC y as en lo sucesivo.
b) Utilizando el muestreo aleatorio simple, cul es la probabilidad para cada muestra de
tamao 2 de ser seleccionada?
c) Asuma que el nmero aleatorio 1 corresponde a A, el nmero 2 corresponde a B y as en
lo sucesivo. Liste la muestra aleatoria de tamao 2 que ser seleccionada al usar los n-
meros aleatorios 8 0 5 7 5 3 2.
2. Suponga que una poblacin finita tiene 350 elementos. A partir de los ltimos tres dgitos de cada
uno de los siguientes nmeros aleatorios de cinco dgitos (por ejemplo: 601, 022, 448, . . .), de-
termine los primeros cuatro elementos que se seleccionarn para una muestra aleatoria simple.
98 601 73 022 83 448 02 147 34 229 27 553 84 147 93 289 14 209
Aplicaciones
3. Fortune publica datos sobre ventas, valor del activo, valor de mercado y utilidades por accin
AUTO evaluacin de las 500 corporaciones industriales ms grandes de Estados Unidos (Fortune 500, 2006).
Suponga que usted desea seleccionar una muestra aleatoria simple de 10 corporaciones de la
lista Fortune 500. Use los tres ltimos dgitos de la novena columna de la tabla 7.1, empezando
con 554. Leyendo hacia abajo por esa columna, identifique los nmeros de las 10 corporacio-
nes que se tomarn para la muestra.
4. A continuacin se presentan las 10 acciones ms activas en la Bolsa de Nueva York del 6 de
marzo de 2006 (The Wall Street Journal 7 de marzo de 2006).
AT&T Lucent Nortel Qwest BellSouth
Pfizer Texas Instruments General Electric iShrMSJpn LSI Logic
Las autoridades burstiles decidieron investigar las prcticas de negociacin utilizando una
muestra de tres de estas acciones.
a) Comenzando con el primer dgito aleatorio de la sexta columna de la tabla 7.1, lea los
nmeros descendiendo por esa columna para seleccionar una muestra aleatoria simple de
tres acciones para las autoridades.
b) Con la informacin aportada en la nota y comentario 3, determine cuntas muestras alea-
torias simples diferentes de tamao 3 pueden seleccionarse de una lista de 10 acciones.
5. Una organizacin estudiantil est interesada en estimar la proporcin de estudiantes que est
a favor de cierta disposicin de la escuela. Se cuenta con una lista de los nombres y direccio-
nes de los 645 estudiantes inscritos en el presente trimestre. Tomando nmeros aleatorios de
tres dgitos de la dcima fila de la tabla 7.1 y avanzando por esa fila de izquierda a derecha,
determine los 10 primeros estudiantes que sern seleccionados utilizando un muestreo aleato-
rio simple. Los nmeros aleatorios de tres dgitos empiezan con 816, 283 y 610.
6. El County and City Data Book de la Oficina del Censo de Estados Unidos cuenta con infor-
macin de los 3 139 condados de Estados Unidos. Suponga que para un estudio nacional se
recogern datos de 30 condados seleccionados de forma aleatoria. De la ltima columna de la
tabla 7.1 extraiga nmeros aleatorios de cuatro dgitos para determinar las cifras correspon-
dientes a los primeros cinco condados seleccionados para la muestra. Ignore los primeros d-
gitos y empiece con los nmeros aleatorios de cuatro dgitos 9 945, 8 364, 5 702 y as sucesi-
vamente.
7.3 Estimacin puntual 273
7. Suponga que se toma una muestra aleatoria simple de 12 de los 372 mdicos de una deter-
minada ciudad. Los nombres de los miembros de una organizacin mdica local estn dis-
ponibles. De la tabla 7.1 use la octava columna de nmeros aleatorios de cinco dgitos para
determinar cules sern los 12 mdicos para la muestra. Ignore los primeros dos dgitos de
cada grupo de cinco. Este proceso empieza con el nmero 108 y contina descendiendo por la
columna de nmeros aleatorios.
8. Las siguientes acciones conforman el promedio industrial Dow Jones (Barrons, 23 de marzo
de 2009).
Suponga que se quiere seleccionar una muestra de seis de esas empresas para realizar un estu-
dio a profundidad de prcticas administrativas. Utilice los primeros dos dgitos de cada fila de
la novena columna de la tabla 7.1 para seleccionar una muestra aleatoria de seis empresas.
9. The Wall Street Journal proporciona el valor del activo neto, el rendimiento porcentual en lo
que va del ao y el rendimiento porcentual en tres aos de 555 fondos de inversin (The Wall
Street Journal, 25 de abril de 2003). Suponga que se usar una muestra aleatoria simple de 12
de estos 555 fondos para un estudio acerca de su tamao y desempeo. Utilice la cuarta colum-
na de nmeros aleatorios de la tabla 7.1 comenzando con 51102, para seleccionar la muestra
aleatoria simple de 12 fondos de inversin. Empiece con el fondo 102 y use los ltimos tres
dgitos de cada fila de la cuarta columna para el proceso de seleccin. Cules son los nmeros
de los 12 fondos de inversin en esta muestra aleatoria simple?
10. Indique cules de las siguientes situaciones involucran muestreo de una poblacin finita y cu-
les muestreo de una poblacin infinita. En los casos en que la poblacin muestreada sea finita,
describa cmo construira un marco.
a) Obtener una muestra de los conductores con licencia en el estado de Nueva York.
b) Determinar una muestra de las cajas de cereal producidas por Breakfast Choice Company.
c) Extraer una muestra de automviles cruzando el puente Golden Gate en un fin de semana
normal.
d) Definir una muestra de estudiantes en un curso de estadstica en la Universidad de Indiana.
e) Obtener una muestra de las rdenes que son procesadas por una empresa de pedidos por
correo.
TABLA 7.2 Sueldo anual y situacin respecto del programa de capacitacin para una muestra
aleatoria simple de 30 gerentes de EAI
trales correspondientes: media muestral y desviacin estndar muestral s. Con las frmulas para
ambas categoras, presentadas en el captulo 3, se obtiene que la media muestral es
x 19
p! ! ! 0.63
n 30
Al efectuar los clculos anteriores, se lleva a cabo el proceso estadstico conocido como esti-
macin puntual. A la media muestral x se le identifica como estimador puntual de la media
poblacional , a la desviacin estndar muestral s como el estimador puntual de la desviacin
estndar poblacional y a la proporcin muestral p como el estimador puntual de la propor-
cin poblacional p. Al valor numrico obtenido de x, s o p se le conoce como estimacin
puntual. As, en la muestra aleatoria simple de 30 gerentes de EAI que se presenta en la ta-
bla 7.2, $51 814 es la estimacin puntual de , $3 348 es la estimacin puntual de y 0.63 es
la estimacin puntual de p. En la tabla 7.3 se resumen los resultados muestrales y se compa-
ran las estimaciones puntuales con los valores de los parmetros poblacionales.
Como se observa en la tabla 7.3, las estimaciones puntuales difieren un poco de los corres-
pondientes parmetros poblacionales. Estas diferencias son de esperarse, ya que para elaborar
las estimaciones muestrales se usa una muestra, y no un censo de toda la poblacin. En el cap-
tulo siguiente se ver cmo elaborar un intervalo de estimacin para tener informacin respecto
de qu tan cerca est la estimacin muestral del parmetro poblacional.
7.3 Estimacin puntual 275
TABLA 7.3 Resumen de las estimaciones puntuales obtenidas de una muestra aleatoria simple
de 30 gerentes de EAI
Consejo prctico
El tema de la mayor parte del resto de este libro se relaciona con la inferencia estadstica. La
estimacin puntual es una de sus formas. Se utiliza un estadstico de muestra para hacer una
inferencia acerca de un parmetro poblacional. Al realizar inferencias acerca de una pobla-
cin basada en una muestra, es importante tener una correspondencia cerrada entre la poblacin
muestreada y la poblacin objetivo. La poblacin objetivo es aquella de la cual buscamos
hacer inferencias, en tanto que la poblacin muestreada es aquella de la cual se toma realmente
la muestra. En esta seccin se describe el proceso de tomar una muestra aleatoria simple de la
poblacin de gerentes en EAI y establecer puntos estimados de caractersticas de la misma po-
blacin. As, la poblacin muestreada y la poblacin objetivo son idnticas, que es la situacin
deseada. En otros casos, sin embargo, no es fcil obtener una correspondencia cerrada entre
ambos tipos de poblaciones.
Piense en el caso de un parque temtico seleccionando una muestra de sus clientes para
conocer algunas de sus caractersticas, como la edad y el tiempo que pasan en el parque. Supon-
ga que todos los elementos de la muestra se seleccionan en un da en que la entrada al parque
est restringida a los empleados de una gran empresa. Entonces la poblacin muestreada esta-
ra compuesta de los empleados de dicha empresa y los miembros de su familia. Si la poblacin
objetivo se busca para realizar inferencias acerca de los clientes usuales durante un verano
comn, se podra encontrar una diferencia significativa entre la poblacin muestreada y la po-
blacin objetivo. En tal caso, se podra cuestionar la validez de los puntos de estimacin que
se estn realizando. La gerencia del parque estara en mejor posicin para saber si una muestra
tomada en un da especfico parecera ser representativa de la poblacin objetivo.
En resumen, cada vez que se utiliza una muestra para hacer inferencias acerca de una pobla-
cin, debemos estar seguros de que el estudio est diseado para que la poblacin muestreada
y la poblacin objetivo estn en un acuerdo cerrado. El buen juicio es un ingrediente necesario
en una prctica estadstica slida.
Ejercicios
Mtodos
11. Los datos siguientes provienen de una muestra aleatoria simple.
AUTO evaluacin
5 8 10 7 10 14
a) Cul es la estimacin puntual de la media poblacional?
b) Cul es la estimacin puntual de la desviacin estndar poblacional?
12. Como respuestas a una pregunta de encuesta a una muestra de 150 individuos se obtuvieron
75 S, 55 No y 20 sujetos que no dieron su opinin.
a) Cul es la estimacin puntual de la proporcin en la poblacin que responde S?
b) Cul es la estimacin puntual de la proporcin en la poblacin que responde No?
276 Captulo 7 Muestreo y distribuciones de muestreo
Aplicaciones
13. La siguiente informacin son datos obtenidos en una muestra aleatoria de las ventas de cinco
AUTO evaluacin meses:
Mes 1 2 3 4 5
Unidades vendidas 94 100 85 94 92
a) Calcule una estimacin puntual de la media poblacional del nmero medio de unidades
vendidas por mes.
b) Calcule una estimacin puntual de la desviacin estndar poblacional.
14. BusinessWeek public informacin sobre 283 fondos de inversin (BusinessWeek, 26 de enero
WEB archivo de 2004). En el conjunto de datos MutualFund se encuentra una muestra de 40 de estos fondos.
Use este conjunto de datos para efectuar lo que se solicita en los incisos siguientes.
MutualFund a) Calcule una estimacin puntual de la proporcin de fondos de inversin de BusinessWeek
que son fondos de cargo.
b) Desarrolle una estimacin puntual de la proporcin de fondos clasificados como de alto
riesgo.
c) Calcule una estimacin puntual de la proporcin de fondos con una puntuacin abajo del
promedio para el riesgo.
15. Muchos medicamentos empleados en la cura del cncer son costosos. Business Week dio a co-
nocer los costos de los tratamientos con Herceptin, un medicamento suministrado para el cn-
cer de mama (BusinessWeek, 30 de enero de 2006). Los siguientes son los costos (en dolres)
de tratamientos comunes con Herceptin en una muestra aleatoria simple de 10 pacientes.
4 376 5 578 2 717 4 920 4 495
4 798 6 446 4 119 4 237 3 814
a) Calcule una estimacin puntual del costo medio de un tratamiento con Herceptin.
b) Desarrolle una estimacin puntual de la desviacin estndar para los costos de los trata-
mientos con Herceptin.
16. En una muestra de 50 empresas de la lista Fortune 500 (Fortune, 14 de abril de 2003), cinco se
encontraban en Nueva York, seis en California, dos en Minnesota y una en Wisconsin.
a) Calcule una estimacin de la proporcin de empresas de Fortune 500 con sede en Nueva
York.
b) Desarrolle una estimacin del nmero de empresas de Fortune 500 ubicadas en Minnesota.
c) Calcule una estimacin de la proporcin de empresas de Fortune 500 que no se encuen-
tran en ninguno de estos estados.
17. La American Association of Individuals Investors (AAII) realiza sondeos semanales entre sus
suscriptores para determinar cuntos se muestran optimistas, pesimistas o indiferentes res-
pecto del mercado de acciones a corto plazo. Sus hallazgos en la semana que termin el 2 de
marzo de 2006 son consistentes con los resultados muestrales siguientes (sitio web de AAII,
7 de marzo de 2006).
Optimistas 409 Indiferentes 299 Pesimistas 291
Proporcione una estimacin puntual de los parmetros poblacionales siguientes.
a) Proporcin de suscriptores de AAII que son optimistas respecto del mercado de acciones.
b) Proporcin de suscriptores que son indiferentes al mercado de acciones.
c) Proporcin de suscriptores que son pesimistas acerca del mercado accionario.
FIGURA 7.1 Histograma de la frecuencia relativa de los valores de x obtenidos en 500 muestras
aleatorias simples de tamao 30 cada una
0.30
0.25
Frecuencia relativa
0.20
0.15
0.10
0.05
media de los 500 valores de x se encuentran cerca de la media poblacional ! $51 800. En
la seccin siguiente se describirn ms detalladamente las propiedades de la distribucin de
muestreo de x.
Los 500 valores de la proporcin muestral de p se resumen en el histograma de frecuencia
relativa de la figura 7.2. Como ocurre con x, p es una variable aleatoria. Si se tomara cada mues-
tra posible de tamao 30 y para cada una se calculara el valor de p, la distribucin de probabi-
lidad que se obtuviera sera la distribucin de muestreo de p. En la figura 7.2, el histograma de
frecuencia relativa de los 500 valores muestrales proporciona una idea general de la apariencia
de la distribucin de muestreo de p.
En la prctica slo se selecciona una muestra aleatoria simple de la poblacin. En esta
seccin el proceso de muestreo se repiti 500 veces para ilustrar que es posible tomar muchas
muestras diferentes y que distintas muestras darn valores diversos de los estadsticos mues-
trales x y p. A la distribucin de muestreo de cualquier estadstico determinado se le llama
distribucin de muestreo del estadstico. En la seccin 7.5 se presentan las caractersticas de
la distribucin de muestreo de x. En la seccin 7.6 se describen las caractersticas de la distri-
bucin de muestreo de p.
DISTRIBUCIN DE MUESTREO DE x
FIGURA 7.2 Histograma de la frecuencia relativa de los valores de p obtenidos en 500 muestras
aleatorias simples de tamao 30 cada una
0.40
0.35
0.30
Frecuencia relativa
0.25
0.20
0.15
0.10
0.05
Valor esperado de x
En el problema de muestreo de EAI se vio que en distintas muestras aleatorias simples se ob-
tienen valores diferentes para la media muestral x. Como la variable aleatoria x puede tener
muchos valores diversos, suele ser de inters conocer la media de todos los valores de x que se
obtienen con diferentes muestras aleatorias simples. La media de la variable aleatoria x es el
valor esperado de x; sea ste E(x) y la media de la poblacin de la que se selecciona una
muestra aleatoria simple. Se puede demostrar que cuando se emplea el muestreo aleatorio sim-
ple, E(x) y son iguales.
VALOR ESPERADO DE x
El valor esperado de x
es igual a la media de la E(x) ! (7.1)
poblacin de la cual se
seleccion la muestra. donde:
Este resultado ensea que utilizando el muestreo aleatorio simple, el valor esperado o me-
dia de la distribucin de muestreo de x es igual a la media de la poblacin. En la seccin 7.1 se
vio que el sueldo anual medio de los gerentes de EAI es ! $51 800. Por tanto, con base en la
ecuacin (7.1), la media de todas las medias muestrales posibles en el estudio de EAI es tam-
bin $51 800.
Cuando el valor esperado de un estimador puntual es igual al parmetro poblacional, se
dice que el estimador puntual es insesgado. Por tanto, la ecuacin (7.1) indica que x es un es-
timador insesgado de la media poblacional .
Desviacin estndar de x
Ahora se definir la desviacin estndar de la distribucin de muestreo de x. Se emplear la
notacin siguiente.
x ! desviacin estndar de x
! desviacin estndar de la poblacin
n ! tamao de la muestra
N ! tamao de la poblacin
DESVIACIN ESTNDAR DE x
Al comparar las dos frmulas en (7.2) se ve que el factor "(N # n)$(N # 1) se requiere
cuando la poblacin es finita, pero no cuando es infinita. A este factor se le conoce como factor
de correccin para una poblacin finita. En muchas situaciones prcticas de muestreo se en-
cuentra que, aunque la poblacin sea finita, es grande, mientras que el tamao de la muestra es
pequeo. En estos casos el factor de correccin para una poblacin finita "(N # n)$(N # 1)
es cercano a 1. Por tanto, la diferencia entre el valor de la desviacin estndar de x para las
poblaciones finitas e infinitas se vuelve despreciable. Entonces x ! $"n se convierte en una
buena aproximacin a la desviacin estndar de x aun cuando la poblacin sea finita. Esta ob-
servacin lleva al siguiente lineamiento, o regla general, para calcular la desviacin estndar
de x.
El problema 21 muestra En los casos en que n/N & 0.05, para calcular x debe usarse la versin para poblaciones
que cuando n/N " 0.05, finitas de la frmula (7.2). En este libro, a menos que se indique otra cosa, se supondr que el ta-
el factor de correccin
para una poblacin finita
mao de la poblacin es grande, n/N " 0.05, y se utilizar la expresin (7.3) para calcular x.
tiene poco efecto en el Para calcular x se necesita conocer , la desviacin estndar de la poblacin. Para subra-
valor de x . yar, an ms, la diferencia entre x y , a la desviacin estndar de x, x , se le llama error
estndar de la media. En general, el trmino error estndar se refiere a la desviacin estn-
El trmino error estndar dar de un estimador puntual. Ms adelante se ver que el valor del error estndar de la media
se utiliza en la inferencia ayuda a determinar qu tan lejos puede estar la media muestral de la media poblacional. Ahora,
estadstica para referirse de nuevo con el ejemplo de EAI, se calcula el error estndar de la media correspondiente a las
a la desviacin estndar
de un estimador puntual.
muestras aleatorias simples de 30 gerentes de EAI.
En la seccin 7.1 vimos que la desviacin estndar de los sueldos anuales en la poblacin
de los 2 500 gerentes de EAI era ! 4 000. En este caso la poblacin es finita, N ! 2 500. Sin
embargo, como el tamao de la muestra es 30, se tiene n/N ! 30/2 500 ! 0.012. Dado que el
tamao de la muestra es menor que 5% del tamao de la poblacin, se puede ignorar el factor
de correccin para una poblacin finita y usar la ecuacin (7.3) para calcular el error estndar.
4 000
x ! ! ! 730.3
"n "30
En la figura 7.3 se ilustra cmo funciona el teorema del lmite central en tres poblacio-
nes diferentes; cada columna se refiere a una de ellas. En el panel superior de la figura se apre-
cia que ninguna de las tres poblaciones est distribuida normalmente. La poblacin I tiene una
distribucin uniforme, y a la II se le conoce como distribucin de orejas de conejo. Esta dis-
tribucin es simtrica, pero los valores ms probables se encuentran en las colas de la distri-
bucin. La forma de la poblacin III se parece a una distribucin exponencial y es sesgada a la
derecha.
En los tres paneles superiores de la figura 7.3 se presentan las formas de las distribuciones
de muestreo de tamaos n ! 2, n ! 5 y n ! 30. Cuando el tamao es 2, se observa que cada dis-
tribucin de muestreo tiene una forma diferente a la distribucin poblacional correspondiente.
282 Captulo 7 Muestreo y distribuciones de muestreo
FIGURA 7.3 Ilustracin del teorema central del lmite con tres poblaciones
Distribucin
poblacional
Distribucin
de muestreo
de x
(n ! 2)
Distribucin
de muestreo
de x
(n ! 5)
Distribucin
de muestreo
de x
(n ! 30)
Con el tamao 5 vemos que las formas de las distribuciones de muestreo en los casos de las
poblaciones I y II empiezan a parecerse a la forma de una distribucin normal. En el caso de
la poblacin III, aun cuando la forma de la distribucin de muestreo comienza a semejarse a una
distribucin normal, se observa todava cierto sesgo a la derecha. Por ltimo, para el tamao
30, la forma de cada una de las tres distribuciones de muestreo es aproximadamente normal.
Desde un punto de vista prctico, con frecuencia se querr saber qu tan grande debe ser el
tamao de la muestra antes de aplicar el teorema del lmite central y suponer que la forma de la
distribucin de muestreo es aproximadamente normal. En las investigaciones estadsticas se ha
estudiado este problema en distribuciones de muestreo de x de diversas poblaciones y tamaos
de muestra. En la prctica estadstica general se asume que, en la mayora de las aplicaciones, la
distribucin de muestreo de x se puede aproximar mediante una distribucin normal siempre que
la muestra sea de tamao 30 o mayor. En los casos en que la poblacin es muy sesgada o existen
7.5 Distribucin de muestreo de x 283
observaciones atpicas, pueden necesitarse muestras de tamao 50. Por ltimo, si la poblacin
es discreta, el tamao de muestra necesario para la aproximacin normal suele depender de la
proporcin poblacional. Se profundizar ms en este tema cuando se estudie la distribucin de
muestreo de p en la seccin 7.6.
FIGURA 7.4 Distribucin de muestreo de x para el sueldo medio anual de una muestra
aleatoria simple de 30 gerentes de EAI
x
51 800
E(x)
284 Captulo 7 Muestreo y distribuciones de muestreo
El rea bajo la curva a la izquierda de z ! "0.68 es 0.2483. Por tanto, P(51 300 # x #
La distribucin de muestreo
52 300) ! P(z # 0.68) " P(z $ "0.68) ! 0.7517 " 0.2483 ! 0.5034.
de x se utiliza para obtener Estos clculos indican que hay una probabilidad de 0.5034 de que con una muestra aleatoria
informacin probabilstica simple de 30 gerentes de EAI se obtenga una media muestral x que est en un margen de $500
en torno a qu tan cerca de la media poblacional. Por tanto, la probabilidad de que la diferencia entre x y ! $51 800
se encuentra la media sea superior a $500 es 1 " 0.5034 ! 0.4966. En otras palabras, una muestra aleatoria simple
muestral x de la media
poblacional .
de 30 gerentes de EAI tiene aproximadamente 50/50 oportunidades de tener una media muestral
que no difiera de la media poblacional en ms de los aceptables $500. Quiz deba pensarse en
FIGURA 7.5 Probabilidad de que una media muestral se encuentre en un margen de $500
de la media poblacional en una muestra aleatoria simple de 30 gerentes de EAI
Distribucin de muestreo
de x x # 730.30
x
51 300 51 800 52 300
7.5 Distribucin de muestreo de x 285
una muestra de tamao mayor. Se explorar esta posibilidad considerando la relacin entre el
tamao de la muestra y la distribucin de muestreo de x.
4 000
x ! ! ! 400
"n "100
En la figura 7.6 se ilustran las distribuciones de muestreo de x correspondientes a n ! 30 y a
n ! 100. Como la distribucin muestral con n ! 100 tiene un error estndar ms pequeo, ha-
br menos variacin entre los valores de x y stos tendern a estar ms cerca de la media po-
blacional que los valores de x con n ! 30.
La distribucin de muestreo de x, en el caso de n ! 100, puede emplearse para calcular la
probabilidad de que una muestra aleatoria simple de 100 gerentes de EAI d una media mues-
tral que no difiera de los $500 de la media poblacional. Como la distribucin de muestreo es
normal y su media es $51 800 y el error estndar de la media es 400, se emplea la tabla de pro-
babilidad normal estndar para determinar el rea o la probabilidad.
Para x ! 52 300 (figura 7.7) tenemos
FIGURA 7.6 Comparacin entre las distribuciones de muestreo de x con muestras aleatorias
simples de tamao n ! 30 y n ! 100 gerentes de EAI
Con n ! 100,
x ! 400
Con n ! 30,
x ! 730.3
x
51 800
286 Captulo 7 Muestreo y distribuciones de muestreo
FIGURA 7.7 Probabilidad de que la media muestral est en un margen de $500 de la media
poblacional usando una muestra aleatoria simple de 100 gerentes de EAI
x
51 800
51 300 52 300
NOTAS Y COMENTARIOS
1. Al presentar la distribucin de muestreo de x para 2. La demostracin del teorema del lmite central re-
el problema de EAI, se aprovech la ventaja de quiere observaciones independientes en la mues-
que se conocan la media poblacional ! 51 800 y tra. Esta condicin se satisface cuando se trata de
la desviacin estndar poblacional ! 4 000. Sin poblaciones infinitas y poblaciones finitas si el
embargo, lo usual es que los valores de la media muestreo se hace con remplazo. Aunque el teo-
y la desviacin estndar poblacionales que se ne- rema del lmite central no se refiere directamente
cesitan para determinar la distribucin de mues- a muestreos sin remplazo de poblaciones finitas,
treo de x no se conozcan. En el captulo 8 se ver se aplican sus hallazgos cuando la poblacin es de
cmo se usan la media muestral x y la desviacin tamao grande.
estndar muestral s cuando no se conocen y .
7.5 Distribucin de muestreo de x 287
Ejercicios
Mtodos
18. La media de una poblacin es 200 y su desviacin estndar es 50. Se tomar una muestra
aleatoria simple de tamao 100 y se utilizar la media muestral x para estimar la media po-
blacional.
a) Cul es el valor esperado de x?
b) Cul es la desviacin estndar de x?
c) Ilustre la distribucin de muestreo de x.
d) Qu expresa la distribucin de muestreo de x?
AUTO evaluacin 19. La media de una poblacin es 200 y su desviacin estndar es 50. Suponga que se selecciona
una muestra aleatoria simple de tamao 100 y que se usa x para estimar .
a) Cul es la probabilidad de que la diferencia entre la media muestral y la media pobla-
cional no sea mayor que !5?
b) Y de que la diferencia entre la media muestral y la media poblacional no sea mayor
que !10?
20. Suponga que la desviacin estndar poblacional es " 25. Calcule el error estndar de la me-
dia, x, con muestras de tamao 50, 100, 150 y 200. Qu puede decir acerca del tamao del
error estndar de la media conforme el tamao de la muestra aumenta?
21. Suponga que se toma una muestra aleatoria simple de tamao 50 a partir de una poblacin
en la que " 10. Determine el valor del error estndar de la media en cada uno de los casos
siguientes (si es necesario, use el factor de correccin para una poblacin finita).
a) El tamao de la poblacin es infinito.
b) El tamao de la poblacin es N " 50 000.
c) El tamao de la poblacin es N " 5 000.
d) El tamao de la poblacin es N " 500.
Aplicaciones
22. Regrese al problema de los gerentes de EAI. Suponga que se utiliza una muestra aleatoria sim-
ple de 60 gerentes.
a) Dibuje la distribucin de muestreo de x si se emplean muestras aleatorias simples de ta-
mao 60.
b) Qu sucede con la distribucin de muestreo de x si se usan muestras aleatorias simples
de tamao 120?
c) Qu puede decir acerca de qu le sucede a la distribucin de muestreo de x conforme el
AUTO evaluacin tamao de la muestra aumenta? Parece lgica esta generalizacin? Explique.
23. En el problema de muestreo de EAI (figura 7.5), se indic que con n " 30, la probabilidad de
que la media muestral no difiriera ms de !$500 de la media poblacional era 0.5034.
a) Cul es la probabilidad de que la media muestral no difiera ms de $500 de la media
poblacional si se usa una muestra de tamao 60?
b) Responda el inciso a) si el tamao de la muestra es 120.
24. Barrons report que el nmero promedio de semanas que un individuo est desempleado es de
17.5 (Barrons, 18 de febrero de 2008). Suponga que el tamao de la media poblacional es 17.5
semanas para la poblacin de todos los individuos desempleados, y que la desviacin estndar
poblacional es de cuatro semanas. Asuma que quiere seleccionar una muestra aleatoria de 50
individuos sin empleo para un estudio de seguimiento.
a) Presente la distribucin de muestreo de x, la media muestral promedio de una muestra de
50 individuos desempleados.
b) Cul es la probabilidad de que la muestra aleatoria simple de los 50 sujetos proporcio-
ne una media muestral que no difiera de la media poblacional en ms de una semana?
c) Cul es la probabilidad de que la muestra aleatoria simple referida proporcione una me-
dia muestral que no difiera de la media poblacional en ms de semana?
288 Captulo 7 Muestreo y distribuciones de muestreo
25. El College Board inform que se obtuvieron las siguientes puntuaciones medias en las tres
partes del examen de admisin a las universidades (The World Almanac, 2009).
x
p"
n
donde
Como se indica en la seccin 7.4, la proporcin muestral p es una variable aleatoria y su distri-
bucin de probabilidad se conoce como distribucin de muestreo de p.
DISTRIBUCIN DE MUESTREO DE p
Valor esperado de p
El valor esperado de p, la media de todos los posibles valores de p, es igual a la proporcin
poblacional p.
290 Captulo 7 Muestreo y distribuciones de muestreo
VALOR ESPERADO DE p
donde
Desviacin estndar de p
Como en el caso de la desviacin estndar de x, la desviacin estndar de p depende de si la
poblacin es finita o infinita. Las dos frmulas para calcularla se presentan a continuacin.
DESVIACIN ESTNDAR DE p
Al comparar las dos frmulas en (7.5) se aprecia que la nica diferencia es el uso del factor
de correccin para una poblacin finita "(N $ n)$(N $ 1).
Como en el caso de la media muestral x, la diferencia entre las expresiones para una po-
blacin finita y una infinita es despreciable si el tamao de la poblacin finita es grande en
comparacin con el tamao de la muestra. Se seguir la misma regla recomendada para la me-
dia muestral. Es decir, si la poblacin es finita y n/N # 0.05 se usar p " "p(1 $ p)$n. Pero
si la poblacin es finita y n/N % 0.05, entonces deber utilizarse el factor de correccin para
una poblacin finita. Tambin, a menos que se especifique otra cosa, en este libro se supondr
que el tamao de la poblacin es grande en comparacin con el tamao de la muestra y, por
tanto, el factor de correccin para una poblacin finita no ser necesario.
En la seccin 7.5 se utiliz el trmino error estndar de la media para referirse a la desvia-
cin estndar de x. Se dijo que en general la expresin error estndar se refiere a la desviacin
estndar de un estimador puntual. As, en el caso de proporciones, se usa el error estndar de
la proporcin para referirse a la desviacin estndar de p. Ahora se vuelve al ejemplo de EAI
para calcular el error estndar de la proporcin asociada con la muestra aleatoria simple de los
30 gerentes de EAI.
En el estudio de EAI se sabe que la proporcin poblacional de gerentes que han participado
en el programa de capacitacin es p " 0.60. Como n/N " 30/2 500 " 0.012, se puede ignorar el
factor de correccin para una poblacin finita al calcular el error estndar de la proporcin. En
la muestra aleatoria simple de 30 gerentes, p es
Distribucin de muestreo
de p
p ! 0.0894
p
0.60
E( p)
0.60(1 $ 0.60)
p " " 0.049
100
Con una muestra de 100 gerentes de EAI, se calcula ahora la probabilidad de que la propor-
cin muestral tenga un valor que no difiera en ms de 0.05 de la proporcin poblacional. Como
la distribucin de muestreo es aproximadamente normal, con media 0.60 y desviacin estndar
0.049, se puede usar la tabla de probabilidad normal estndar para determinar el rea o proba-
bilidad. Para p " 0.65, se tiene z " (0.65 $ 0.60)/0.049 " 1.02. La tabla de probabilidad nor-
mal estndar indica que la probabilidad acumulada correspondiente a z " 1.02 es 0.8461. De
p
0.55 0.60 0.65
7.6 Distribucin de muestreo de p 293
manera similar, para p ! 0.55, se tiene que z ! (0.55 0.60)/0.049 ! "1.02. Se encuentra que
la probabilidad acumulada correspondiente a z ! "1.02 es 0.1539. Por tanto, si el tamao de la
muestra aumenta de 30 a 100, la probabilidad de que la proporcin muestral p no difiera en ms
de 0.05 de la proporcin poblacional p aumenta a 0.8461 " 0.1539 ! 0.6922.
Ejercicios
Mtodos
31. Una muestra aleatoria de tamao 100 es seleccionada de una poblacin en la que p ! 0.40.
a) Cul es el valor esperado de p?
b) Cul es el error estndar de p?
c) Exprese la distribucin de muestreo de p.
d) Qu indica esta distribucin?
32. Una proporcin poblacional es 0.40. Se toma una muestra aleatoria simple de tamao 200 y la
AUTO evaluacin proporcin muestral p se usa para estimar la proporcin poblacional.
a) Cul es la probabilidad de que la proporcin muestral est entre #0.03 de la proporcin
poblacional?
b) Cul es la probabilidad de que la proporcin muestral se encuentre entre #0.05 de la
proporcin poblacional?
33. Suponga que la proporcin poblacional es 0.55. Calcule el error estndar de la proporcin, p ,
para los tamaos de muestra 100, 200, 500 y 1 000. Qu puede decir acerca del tamao del
error estndar a medida que el tamao de la muestra aumenta?
34. La proporcin poblacional es 0.30. Cul es la probabilidad de que las proporciones muestral
y poblacional estn entre #0.04 con los tamaos de muestra siguientes?
a) n ! 100
b) n ! 200
c) n ! 500
d) n ! 1 000
e) Qu ventaja tiene un tamao grande de muestra?
Aplicaciones
35. El director de Doerman Distributors, Inc. piensa que 30% de los pedidos proviene de nuevos
AUTO evaluacin clientes. Para ver la proporcin de clientes nuevos se usar una muestra aleatoria simple de 100
pedidos.
a) Suponga que el director est en lo cierto y que p ! 0.30. Cul es la distribucin de mues-
treo de p en este estudio?
b) Cul es la probabilidad de que la proporcin muestral de p est entre 0.20 y 0.40?
c) Cul es la probabilidad de que est entre 0.25 y 0.35?
36. The Cincinnati Enquirer informa que en Estados Unidos 66% de los adultos y 87% de los
jvenes entre 12 y 17 aos usan Internet (The Cincinnati Enquirer, 7 de febrero de 2006). Con-
sidere estos datos como proporciones poblacionales y suponga que se usar una muestra de 300
adultos y 300 jvenes para obtener informacin respecto de su opinin acerca de la seguridad
en Internet.
a) Exponga la distribucin de muestreo de p, siendo p la proporcin muestral de adultos que
usan Internet.
b) Cul es la probabilidad de que la diferencia entre la proporcin muestral y la proporcin
poblacional de adultos que usan Internet no sea mayor que #0.04?
c) Cul es la probabilidad de que la diferencia entre la proporcin muestral y la propor-
cin poblacional de jvenes que usan Internet no sea mayor que #0.04?
294 Captulo 7 Muestreo y distribuciones de muestreo
d) Son diferentes las probabilidades del inciso b) y del inciso c)? Si es as, por qu?
e) Responda al inciso b) en el caso de que el tamao de la muestra sea 600. Es menor la
probabilidad? Por qu?
37. Las personas terminan por desechar 12% de lo que compran en el supermercado (Readers
Digest, marzo de 2009). Asuma que sta es la verdadera proporcin poblacional y que planea
realizar una encuesta por muestreo de 450 compradores para investigar ms acerca de su com-
portamiento.
a) Presente la distribucin de muestreo de p, la proporcin de mercanca que desechan los
encuestados de la muestra.
b) Cul es la probabilidad de que la encuesta genere una proporcin muestral de #0.03 de
la proporcin poblacional?
c) Cul es la probabilidad de que la encuesta genere una proporcin muestral de #0.015 de
la proporcin poblacional?
38. Roper ASW realiz una encuesta para obtener informacin acerca de la opinin de los estadou-
nidenses respecto del dinero y la felicidad (Money, octubre de 2003). De los entrevistados, 56%
dijo revisar el estado de su chequera por lo menos una vez al mes.
a) Suponga que se toma una muestra de 400 estadounidenses adultos. Indique la distribu-
cin de muestreo de la proporcin de stos que revisa el estado de su chequera por lo menos
una vez al mes.
b) Cul es la probabilidad de que la diferencia entre las proporciones muestral y poblacional
no sea mayor que #0.02?
c) Cul es la probabilidad de que dicha diferencia no sea mayor que #0.04?
39. En 2008, el Better Business Bureau resolvi 75% de las quejas que recibi (USA Today, 2
de marzo de 2009). Suponga que ha sido contratado por esta oficina para investigar los re-
clamos que recibi este ao y que involucran a nuevos concesionarios automotrices. Usted
planea seleccionar una muestra de las quejas de estos ltimos para estimar la proporcin que
el Better Business Bureau est en posibilidad de resolver. Asuma que la proporcin poblacio-
nal de quejas resueltas de nuevos concesionarios automotrices es 0.75, la misma que la propor-
cin general de reclamos resueltos en 2008.
a) Suponga que selecciona una muestra de 450 quejas que involucran a nuevos concesionarios
automotrices. Presente la distribucin muestral de p.
b) Con base en la muestra de 450 quejas, cul es la probabilidad de que la diferencia entre
las proporciones muestral y poblacional no sea mayor que 0.04?
c) Suponga que selecciona una muestra de 200 quejas que involucran a nuevos concesiona-
rios automotrices. Presente la distribucin de muestreo de p.
d) Con base en la muestra ms pequea de slo 200 quejas, cul es la probabilidad de que la
diferencia entre las proporciones muestral y poblacional no sea mayor que 0.04?
e) Con base en lo determinado por el incremento en la probabilidad, qu tanto se ganara en
precisin si se tomara la muestra ms grande en el inciso b)?
40. The Grocery Manufacturers of America informa que 76% de los consumidores lee los ingre-
dientes que se mencionan en la etiqueta de un producto. Suponga que la proporcin poblacio-
nal es p = 0.76 y que de la poblacin de consumidores se selecciona una muestra de 400.
a) Exprese la distribucin de muestreo de la proporcin muestral p, si p es la proporcin de
consumidores de la muestra que lee los ingredientes que se mencionan en la etiqueta.
b) Cul es la probabilidad de que la diferencia entre las proporciones muestral y poblacio-
nal no sea mayor que #0.03?
c) Conteste el inciso b) si el tamao de la muestra es 750 consumidores.
41. El Food Marketing Institute informa que 17% de los hogares gasta ms de $100 en productos
de abarrotes. Suponga que la proporcin poblacional es p ! 0.17 y que de la poblacin se toma
una muestra aleatoria simple de 800 hogares.
a) Exprese la distribucin de muestreo de p, la proporcin muestral de hogares que gastan
ms de $100 semanales en abarrotes.
b) Cul es la probabilidad de que la proporcin poblacional no difiera en ms de 0.02 de la
proporcin poblacional?
c) Conteste el inciso b) en caso de que el tamao de la muestra sea de 1 600 hogares.
7.7 Propiedades de los estimadores puntuales 295
En esta notacin, es la letra griega theta y la notacin se lee theta sombrero. En general,
representa cualquier parmetro poblacional como, por ejemplo, la media poblacional, la des-
viacin estndar poblacional, la proporcin poblacional, etc., y representa el correspondiente
estadstico muestral, por ejemplo, la media muestral, la desviacin estndar muestral y la pro-
porcin muestral.
Insesgadez
Si el valor esperado del estadstico muestral es igual al parmetro poblacional que se estima, se
dice que el estadstico muestral es un estimador insesgado del parmetro poblacional.
INSESGADEZ
E() !
donde
Por tanto, el valor esperado, o media, de todos los posibles valores de un estadstico mues-
tral insesgado es igual al parmetro poblacional que se est estimando.
En la figura 7.10 se exponen los casos de los estimadores puntuales sesgado e insesgado.
En la grfica que ilustra el estimador insesgado, la media de la distribucin de muestreo es igual
al valor del parmetro poblacional. En este caso los errores de estimacin se equilibran, ya
que algunas veces el valor del estimador puntual puede ser menor que y otras veces es ma-
yor que . En el estimador sesgado, la media de la distribucin de muestreo es menor o mayor
que el valor del parmetro poblacional. En la grfica B de la figura 7.10, E() es mayor que
; as, la probabilidad de que los estadsticos muestrales sobreestimen el valor del parmetro
poblacional es grande. En la figura se muestra la amplitud de este sesgo.
Al estudiar las distribuciones de muestreo de la media muestral y de la proporcin mues-
tral, se vio que E(x) ! y que E( p) ! p. Por tanto, x y p son estimadores insesgados de sus
correspondientes parmetros poblacionales y p.
En cuanto a la desviacin estndar muestral s y la varianza muestral s 2, se puede demos-
trar que E(s 2) ! 2. Por consiguiente, se concluye que la varianza muestral s 2 es un estimador
insesgado de la varianza poblacional 2. En efecto, en el captulo 3, cuando se presentaron las
296 Captulo 7 Muestreo y distribuciones de muestreo
Sesgo
E( )
Eficiencia
Suponga que se usa una muestra aleatoria simple de n elementos para obtener dos estimadores
puntuales insesgados de un mismo parmetro poblacional. En estas circunstancias, se preferir
usar el estimador puntual con el menor error estndar, ya que tender a dar estimaciones ms
cercanas al parmetro poblacional. Se dice que el estimador puntual con menor error estndar
tiene mayor eficiencia relativa que los otros.
En la figura 7.11 se presentan las distribuciones de muestreo de dos estimadores puntuales
insesgados, 1 y 2. Observe que el error estndar de 1 es menor que el error estndar de 2; por
Distribucin de muestreo
de 1
Distribucin de muestreo
de 2
Parmetro
7.8 Otros mtodos de muestreo 297
Cuando se muestrean tanto, los valores de 1 tienen ms posibilidades de estar cerca del parmetro que los valores
poblaciones normales, de 2. Como el error estndar del estimador puntual 1 es menor que el del estimador puntual
el error estndar de la
media muestral es menor
2 , 1 es relativamente ms eficiente que 2 y se prefiere como estimador puntual.
que el error estndar de
la mediana muestral. Por
tanto, la media muestral Consistencia
es ms eficiente que la
mediana muestral. La tercera propiedad relacionada con un buen estimador puntual es la consistencia. Dicho de
manera sencilla, un estimador puntual es consistente si su valor tiende a estar ms cerca del
parmetro poblacional a medida que el tamao de la muestra aumenta. En otras palabras, una
muestra grande tiende a proporcionar mejor estimacin puntual que una pequea. Observe
que en el caso de la media muestral x, el error estndar de x est dado por x ! $"n. Pues-
to que x est vinculado con el tamao de la muestra, de manera que muestras mayores dan
valores menores de x, entonces las de tamao grande tienden a proporcionar estimadores pun-
tuales ms cercanos a la media de la poblacin . Mediante un razonamiento similar, tambin
se puede concluir que la proporcin muestral p es un estimador consistente de la proporcin
poblacional p.
NOTAS Y COMENTARIOS
En el captulo 3 se dijo que la media y la mediana en el problema de EAI, con n ! 30, el error estndar
son dos medidas de localizacin central. En este cap- de la media fue x ! 730.3, mientras que el de la me-
tulo slo se estudi la media debido a que cuando se diana en este problema sera 1.25 " (730.3) ! 913.
muestrea una poblacin normal, en la cual la media Por tanto, la media muestral es ms eficiente y tendr
y la mediana poblacionales son idnticas, el error es- ms probabilidad de estar dentro de una determinada
tndar de la mediana es aproximadamente 25% ma- distancia de la media poblacional.
yor que el error estndar de la media. Recuerde que
Poblacin
un estrato son parecidos, ste tendr una varianza pequea. Por tanto, con muestras relativa-
mente pequeas de los estratos se obtienen buenas estimaciones de sus caractersticas. Si stos
son homogneos, el muestreo aleatorio estratificado proporciona resultados tan precisos como
los de un muestreo aleatorio simple, pero con una muestra de tamao total menor.
Muestreo sistemtico
Para ciertos muestreos, en especial en aquellos con poblaciones grandes, se necesita mucho
tiempo para tomar una muestra aleatoria simple, pues se requiere determinar primero los n-
Poblacin
meros aleatorios y despus contar y recorrer toda una lista de la poblacin hasta encontrar
los elementos correspondientes. Una alternativa al muestreo aleatorio simple es el muestreo
sistemtico. Por ejemplo, si se quiere una muestra de tamao 50 de una poblacin que tiene
5 000 elementos, se muestrea uno de cada 5 000/50 ! 100 elementos de la poblacin. En este
caso, un muestreo sistemtico consiste en seleccionar en forma aleatoria uno de los primeros
100 elementos de la lista de la poblacin. Los otros se identifican empezando con el primer ele-
mento muestreado y seleccionando cada 100o. elemento que siga en la lista. En efecto, los
elementos de la muestra de 50 se identifican movindose sistemticamente entre la poblacin
e identificando cada 100o. elemento despus del primero seleccionado aleatoriamente. Por lo
general, de esta manera es ms fcil identificar la muestra de 50 que si se utilizara el muestreo
aleatorio simple. Como el primer elemento que se selecciona es elegido al azar, se supone que
una muestra sistemtica tiene las propiedades de una muestra aleatoria simple. Este supuesto
es aplicable, en especial, cuando la lista de los elementos de la poblacin constituye un orden
aleatorio de los elementos.
Muestreo de conveniencia
Los mtodos de muestreo hasta ahora analizados se conocen como tcnicas probabilsticas
de muestreo. Los elementos seleccionados de una poblacin tienen una probabilidad conocida
de ser incluidos en la muestra. La ventaja del muestreo probabilstico estriba en que, por lo
general, se identifica la distribucin de muestreo del estadstico muestral correspondiente. Para
determinar las propiedades de la distribucin de muestreo se usan las frmulas para el mues-
treo aleatorio simple presentadas en este captulo. La distribucin de muestreo permite plantear
afirmaciones probabilsticas acerca del error asociado con el uso de los resultados muestrales al
hacer inferencias de la poblacin.
El muestreo de conveniencia es una tcnica de muestreo no probabilstica. Como el
nombre lo indica, la muestra se determina principalmente por conveniencia. Los elementos
se incluyen sin que haya una probabilidad previamente especificada o conocida de que sean
incorporados en la muestra. Por ejemplo, un profesor que realiza una investigacin en una
universidad puede usar estudiantes voluntarios para que constituyan una muestra simplemente
porque los tiene al alcance y participarn como sujetos a un costo bajo o sin costo. De manera
similar, un inspector puede muestrear un cargamento de naranjas seleccionndolas al azar de
varias cajas. Marcar cada naranja y usar un mtodo probabilstico de muestreo puede no resultar
prctico. Muestras como capturas en la vida salvaje y paneles de voluntarios en investigaciones
del consumidor son tambin de conveniencia.
Esta tcnica tiene la ventaja de que es relativamente fcil seleccionar la muestra y recabar
los datos; sin embargo, es imposible evaluar su bondad en trminos de representatividad de
la poblacin. Una muestra de conveniencia puede dar buenos resultados o no; ningn proce-
dimiento justificado estadsticamente permite un anlisis e inferencia probabilsticos acerca de
la calidad de los resultados muestrales. Algunas veces los investigadores aplican los mtodos
estadsticos propios de muestras probabilsticas a las muestras de conveniencia con el argumen-
to de que sta se trata como si fuera una muestra probabilstica. Sin embargo, estos argumentos
no tienen fundamento y se debe tener cuidado al interpretar los resultados de muestreos de con-
veniencia que han sido utilizados para hacer inferencias acerca de las poblaciones.
Muestreo subjetivo
Otra tcnica de muestreo no probabilstica es el muestreo subjetivo. En este mtodo la per-
sona que ms sabe sobre un asunto selecciona elementos de la poblacin a los que considera
los ms representativos. Este mtodo suele representar una manera relativamente fcil de se-
leccionar una muestra. Por ejemplo, un reportero puede elegir a dos o tres senadores consi-
derando que stos reflejan la opinin general de todos los senadores. Sin embargo, la calidad de
los resultados muestrales depende de la persona que selecciona la muestra. Aqu tambin hay
que tener mucho cuidado al hacer inferencias acerca de las poblaciones a partir de muestreos
subjetivos.
300 Captulo 7 Muestreo y distribuciones de muestreo
NOTAS Y COMENTARIOS
Cuando se realizan muestreos de poblaciones finitas, resultados a los parmetros poblacionales que se es-
se recomienda usar mtodos de muestreo probabils- timan. Con los muestreos de conveniencia o con los
tico: muestreo aleatorio simple, muestreo aleatorio es- subjetivos no se puede estimar la bondad de los resul-
tratificado, muestreo por conglomerados o muestreo tados. Por tanto, debe tenerse mucho cuidado al in-
sistemtico. Existen frmulas para evaluar la bon- terpretar resultados basados en mtodos de muestreo
dad de los resultados muestrales basadas en el uso no probabilstico.
de estos mtodos en trminos de la cercana de los
Resumen
Glosario
Consistencia Propiedad de un estimador puntual que se hace presente siempre que muestras
ms grandes tienden a proporcionar estimaciones puntuales ms cercanas al parmetro pobla-
cional.
Distribucin de muestreo o muestral Distribucin de probabilidad que consta de todos los
posibles valores de un estadstico muestral.
Eficiencia relativa Dados dos estimadores puntuales insesgados de un mismo parmetro po-
blacional, el estimador puntual con menor error estndar ser ms eficiente.
Error estndar Desviacin estndar de un estimador puntual.
Estadstico muestral Caracterstica muestral, por ejemplo, la media muestral x, la desviacin
estndar muestral s, la proporcin muestral p, etc. El valor del estadstico muestral se utiliza
para estimar el valor del parmetro poblacional correspondiente.
Estimacin puntual Valor de un estimador que se utiliza en una situacin particular como
estimacin del parmetro poblacional.
Estimador puntual Un estadstico muestral como x, s o p que proporciona una estimacin
puntual del parmetro poblacional correspondiente.
Factor de correccin para una poblacin finita Es el trmino "(N # n)$(N # 1) utilizado
en las frmulas de x y p siempre que se muestrea de una poblacin finita y no de una pobla-
cin infinita. Sin embargo, hay una regla generalmente aceptada: ignorar el factor de correccin
en una poblacin finita siempre que n/N $ 0.05.
Insesgadez Propiedad de un estimador puntual que se hace presente cuando el valor espera-
do del estimador es igual al parmetro poblacional que se estima.
Frmulas clave 301
Frmulas clave
Valor esperado de x
E(x) ! (7.1)
Valor esperado de p
E(p) ! p (7.4)
302 Captulo 7 Muestreo y distribuciones de muestreo
Ejercicios complementarios
42. U. S. News & World Report publica informacin extensa acerca de las mejores universidades
de Estados Unidos (Americas Best Colleges, ed. 2009). Entre otras cosas, proporciona una
lista de las 133 mejores universidades a nivel nacional. Se desea tomar una muestra de tales
instituciones para realizar un estudio de seguimiento de sus alumnos. Inicie en la parte inferior
de la tercera columna de dgitos aleatorios de la tabla 7.1. Ignore los dos primeros dgitos de
cada conjunto de cinco nmeros usando nmeros aleatorios de tres cifras. Empiece con 959,
lea hacia arriba de la columna para identificar el nmero (de 1 a 133) de las siete primeras
universidades a incluir en una muestra aleatoria simple. Contine iniciando en la parte inferior
de las columnas cuarta y quinta, y lea hacia arriba si es necesario.
43. Los estadounidenses estn cada vez ms preocupados por el aumento en los costos de Medi-
care. En 1990 el promedio de gastos anuales de un derechohabiente de Medicare ascenda a
$3 267; en 2003 este promedio haba aumentado a $6 883 (Money, otoo de 2003). Suponga
que usted contrata a una firma de consultora para tomar una muestra de 50 de los derecho-
habientes de Medicare en 2003 con objeto de investigar los gastos. Asuma que la desviacin
estndar poblacional en 2003 fue $2 000.
a) Presente la distribucin de muestreo de la cantidad media de los gastos de Medicare para
una muestra de 50 derechohabientes en 2003.
b) Cul es la probabilidad de que la media muestral no se aleje ms de %$300 de la media
poblacional?
c) Cul es la probabilidad de que la media muestral sea mayor que $7 500? Si la empresa que
contrat le dice que la media muestral para los derechohabientes que entrevist es $7 500,
dudara de que la empresa contratada hubiera hecho un procedimiento de muestreo alea-
torio simple adecuado? Por qu?
44. BusinessWeek encuesta a exalumnos de administracin 10 aos despus de terminados sus
estudios (BusinessWeek, 22 de septiembre de 2003). Uno de sus hallazgos indica que gastan en
promedio $115.50 semanales en comidas sociales. A usted se le pide que realice un estudio con
una muestra de 40 de estos exalumnos. Asuma que la desviacin estndar poblacional es $35.
a) Presente la distribucin de muestreo de x, la media muestral de los gastos semanales de
los 40 exalumnos de administracin.
b) Cul es la probabilidad de que la media muestral no se aleje en ms o menos $10 de la
media poblacional?
c) Suponga que encuentra una media muestral de $100. Cul es la probabilidad de hallar
una media muestral de $100 o menos? Considerara que los exalumnos de esta muestra
son un grupo con un gasto inusualmente bajo? Por qu?
45. El tiempo promedio que un estadounidense destina a ver televisin es de 15 horas por semana
(Money, noviembre de 2003). Suponga que se toma una muestra de 60 estadounidenses para
investigar con ms detalle sus hbitos a este respecto. Asuma que la desviacin estndar pobla-
cional en las horas de televisin semanales es ! 4 horas.
a) Cul es la probabilidad de que la media muestral no se aleje ms o menos de 1 hora de la
media poblacional?
b) Cul es la probabilidad de que la media muestral no se aleje ms o menos de 45 minutos
de la media poblacional?
46. Despus de deducir los gastos necesarios, el costo promedio por asistir a la Universidad del
Sur de California (USC) es de $27 175 (U. S. News & World Report, Americas Best Colleges,
ed. 2009). Suponga que la desviacin estndar poblacional es $7 400. Asuma que se selecciona
una muestra aleatoria de 60 estudiantes de la USC de esta poblacin.
a) Cul es el valor del error estndar de la media?
b) Cul es la probabilidad de que la media muestral sea mayor que $27 175?
Ejercicios complementarios 303
54. Lori Jeffrey es una exitosa representante de ventas de libros universitarios. Histricamente,
ella consigue una adopcin de libros de texto en 25% de sus llamadas de ventas. Considere sus
telefonemas de ventas de un mes como muestra de todas sus posibles llamadas; suponga que en
el anlisis estadstico de los datos se encuentra que el error estndar de la proporcin es 0.0625.
a) De qu tamao fue la muestra que se utiliz en el anlisis? Es decir, cuntas llamadas
hizo Lori Jeffrey en ese mes?
b) Sea p la proporcin muestral de adopciones de libros de texto en el mes. Presente la distri-
bucin de muestreo de p.
c) Mediante la distribucin de muestreo de p, calcule la probabilidad de que Lori lograr
adopciones de libros de texto en 30% o ms de sus llamadas de ventas en el lapso de un
mes.
Valor esperado de x
Se tiene una poblacin con media y varianza 2. Se selecciona una muestra aleatoria sim-
ple de tamao n cuyas observaciones individuales se denotan x1, x2, . . . , xn. La media muestral
x se calcula como sigue.
!xi
x!
n
Si se repiten los muestreos aleatorios simples de tamao n, x ser una variable aleatoria que
tomar diferentes valores dependiendo de los n elementos que formen la muestra. El valor espe-
rado de la variable aleatoria x es la media de todos los posibles valores de x.
!xi
Media de x ! E(x) ! E
n
1
! [E(x1 & x2 & . . . & xn)]
n
1
! [E(x1) & E(x2) & . . . & E(xn)]
n
1
E(x) ! ( & & . . . & )
n
1
! (n) !
n
Este resultado indica que la media de todos los posibles valores de x es igual a la media pobla-
cional . Es decir, E(x) ! .
Desviacin estndar de x
Se tiene, de nuevo, una poblacin con media y varianza 2, y una media muestral dada por
!xi
x!
n
Apndice 7.1 Valor esperado y desviacin estndar de x 305
Se sabe que x es una variable aleatoria que toma distintos valores numricos, con repetidas
muestras aleatorias simples de tamao n, dependiendo de los n elementos que integran la mues-
tra. Lo que sigue es una derivacin de la frmula para la desviacin estndar de los valores de
x, x, en el caso de que la poblacin sea infinita. La deduccin de la frmula para x cuando la
poblacin es finita y el muestreo se realiza sin remplazo es ms complicada, y queda fuera de
los alcances de este libro.
De vuelta al caso de una poblacin infinita, recuerde que una muestra aleatoria simple de
una poblacin infinita consta de observaciones x1, x2, . . . , xn que son independientes. Las dos
expresiones siguientes son frmulas generales para la varianza de variables aleatorias.
donde x y y son variables aleatorias independientes. Utilizando las dos ecuaciones anteriores,
se puede deducir la frmula para la varianza de la variable aleatoria x como sigue.
!xi 1
Var (x) ! Var ! Var !xi
n n
1 2
Var (x) ! Var (!xi)
n
1 2
! Var (x1 & x2 & . . . & xn )
n
En el caso de una poblacin infinita, las variables aleatorias x1, x2, , xn son independientes, lo
que permite escribir
1 2
Var (x) ! [Var (x1) & Var (x2) & . . . & Var (xn )]
n
1 2 2
Var (x) ! ( & 2 & . . . & 2]
n
1 2 2
Var (x) ! (n 2) !
n n
x ! " Var (x) !
"n
306 Captulo 7 Muestreo y distribuciones de muestreo
La muestra aleatoria con las 30 reas metropolitanas aparece en las columnas C3 y C4.
TABLA 7.6 Puntuacin general para las primeras 10 reas metropolitanas en el conjunto
de datos MetAreas
Las filas de cualquier conjunto de datos en Excel se pueden colocar en orden aleatorio agre-
gando una columna al conjunto de datos y llenando la columna con nmeros aleatorios median-
te la funcin !RAND(). Despus, con la herramienta de Excel para ordenar en forma ascendente
aplicada a la columna de nmeros aleatorios, las filas del conjunto de datos se reordenan de
forma aleatoria. La muestra aleatoria de tamao n aparecer en las n primeras filas del conjunto
de datos reordenado.
En el conjunto de datos MetAreas, los encabezados aparecen en la fila 1 y las 100 reas
metropolitanas se encuentran en las filas 2 a 101. Para seleccionar una muestra aleatoria de 30
reas metropolitanas aplique los pasos siguientes.
La muestra aleatoria con 30 reas metropolitanas aparecer en las filas 2 a 31 del conjunto de
datos reordenado. Los nmeros aleatorios de la columna C ya no son necesarios y pueden bo-
rrarse si se desea.
ESTADSTICA en LA PRCTICA
FOOD LION*
SALISBURY, CAROLINA DEL NORTE
Food Lion, fundada en 1957 como Food Town, es una de
las ms grandes cadenas de supermercados de Estados
Unidos, con 1 300 tiendas en 11 estados del sudeste y el
Atlntico medio. La empresa vende ms de 24 000 produc-
tos diferentes y ofrece mercancas de marcas publicitadas a
nivel nacional y regional, as como una cantidad cada vez
mayor de productos de gran calidad de marca propia espe-
cialmente fabricados por Food Lion. La cadena mantiene su
liderazgo en precios bajos y asegura la calidad a partir de
eficientes controles, entre ellos, formatos estndar de tien-
da, diseo innovador de los almacenes, instalaciones con
uso eficiente de energa y sincronizacin de datos con los
proveedores. Food Lion mira hacia un futuro de innova- Pan fresco llegando al almacn de Food Lion.
cin continua, crecimiento, liderazgo en precios y servicios Jeff Greenberg/PhotoEdit.
a sus clientes.
Siendo un negocio intensivo en inventarios, Food Lion
decidi adoptar como forma de valuacin de inventarios
el mtodo UEPS (ltimo en entrar, primero en salir), el cual costo actual de final de ao como al del ao anterior. Para
compara los costos y los ingresos actuales, minimizando ahorrar tiempo y gastos excesivos por el conteo del inven-
los efectos de los cambios radicales de precios sobre los re- tario en las 1 200 tiendas, Food Lion selecciona una mues-
sultados de utilidad y prdida. Adems, el mtodo UEPS tra aleatoria simple de 50 establecimientos. El inventario
reduce la utilidad neta, disminuyendo con ello los impues- fsico de final de ao se realiza en cada una de las tiendas
tos al ingreso o sobre la renta durante los periodos de in- de la muestra. Para obtener el ndice UEPS de cada uno de
flacin. los grupos de inventario se utilizan los costos del ao actual
Food Lion establece un ndice UEPS para cada uno de y del ao anterior.
los siete grupos de inventario: abarrotes, papel/artculos En uno de los ltimos aos, la estimacin muestral del
para el hogar, artculos para mascotas, bienes para la salud ndice UEPS para el inventario del grupo de productos de sa-
y la belleza, lcteos, cigarros/tabaco y cervezas/vinos. Por lud y belleza fue de 1.015. Con un nivel de confianza de
ejemplo, un ndice UEPS de 1.008 para el grupo de abarrotes 95%, Food Lion calcul un margen de error de 0.006 para
indica que el valor de este inventario, a los costos actuales, la estimacin muestral. Por tanto, el intervalo de 1.009 a
refleja un aumento de 0.8% debido a la inflacin en el l- 1.021 proporciona una estimacin por intervalo de con-
timo periodo de un ao. fianza de 95% del ndice UEPS poblacional. Este nivel de
Un ndice UEPS para cada grupo requiere que el inven- precisin se consider muy bueno.
tario de final de ao de cada producto sea valuado tanto al En ese captulo aprender cmo calcular el margen de
error asociado con una estimacin puntual. Tambin ver
* Los autores agradecen a Keith Cunningham, director de Impuestos, y
cmo usar esta informacin para construir e interpretar es-
a Bobby Harkey, del equipo de Contadores fiscales, por proporcionar timaciones por intervalo para una media poblacional y una
este artculo para Estadstica en la prctica. proporcin poblacional.
En el captulo 7 se dijo que un estimador puntual es un estadstico muestral que se usa para
estimar un parmetro poblacional. Por ejemplo, la media muestral x es un estimador puntual
de la media poblacional , y la proporcin muestral p es un estimador puntual de la proporcin
poblacional p. Como no se puede esperar que dicho estadstico muestral suministre el valor
exacto del parmetro poblacional, se suele calcular una estimacin por intervalo al sumar y
restar a la estimacin puntual un cantidad llamada margen de error. La forma general de una
estimacin por intervalo es:
El objetivo de la estimacin por intervalo es aportar informacin sobre qu tan cerca se encuen-
tra la estimacin puntual obtenida de la muestra, del valor del parmetro poblacional.
En este captulo se explica cmo obtener una estimacin por intervalo para la media po-
blacional y para la proporcin poblacional p. La frmula general para obtener una estima-
cin por intervalo de una media poblacional es la siguiente.
x % margen de error
De manera similar, la frmula general para obtener una estimacin por intervalo de una pro-
porcin poblacional es la que se indica enseguida.
p % margen de error
Las distribuciones muestrales o de muestreo de x y de p son clave para calcular estas estima-
ciones por intervalo.
1
Se aprovecha que las cantidades gastadas tienen una distribucin normal para concluir que la distribucin de mues-
treo de x tiene una distribucin normal. Si la poblacin no la tuviera, se podra invocar el teorema del lmite central, y el
hecho de que el tamao de la muestra es n = 100, para concluir que la distribucin de muestreo de x es aproximada-
mente normal. De cualquier manera, esta distribucin es como se observa en la figura 8.1.
8.1 Media poblacional: conocida 311
FIGURA 8.1 Distribucin de muestreo de la media muestral de las cantidades gastadas para mues-
tras aleatorias simples de 100 clientes
Distribucin de muestreo 20
x = ! !2
de x n 100
FIGURA 8.2 Distribucin de muestreo de x que ilustra la ubicacin de la media muestral que est
dentro de 3,92 de
Distribucin de muestreo x ! 2
de x
95% de todos los
valores de x
3.92 3.92
1.96 x 1.96 x
312 Captulo 8 Estimacin por intervalo
Distribucin de muestreo
de x
x " 2
95% de todos los
valores de x
3.92 3.92
x1
Intervalo dado por
x1 ! 3.92
x2
x3
Intervalo dado por
x2 ! 3.92 Intervalo dado por
Media x3 ! 3.92
poblacional (observe que este intervalo
no incluye )
8.1 Media poblacional: conocida 313
cin por intervalo de que se basa en los datos de la ltima semana va de 82 ! 3.92 " 78.08
a 82 # 3.92 " 85.92. Como 95% todos los intervalos construidos usando x $ 3.92 contendrn
Este anlisis ofrece una la media poblacional, se tiene 95% de confianza de que el intervalo 78.08 a 85.92 conten-
visin de porqu se le llama ga . Entonces dicho intervalo tiene un nivel de confianza de 95%. Al valor 0.95 se le cono-
intervalo de confianza
de 95%.
ce como coeficiente de confianza, y al intervalo 78.08 a 85.92 como intervalo de confianza
de 95%.
Como el margen de error est dado por z/2($"n ), la frmula general de una estimacin
por intervalo de la media poblacional con conocida es la siguiente.
En el ejemplo de Lloyds, mediante la expresin (8.1) se construye un intervalo de con-
x $ z/2 (8.1)
"n
fianza de 95% con un coeficiente de confianza (1 ! ) " 0.95 y, por tanto, " 0.05. En la tabla
de distribucin normal estndar se ve que un rea de /2 " 0.05/2 " 0.025 en la cola superior
corresponde a z0.025 " 1.96. Como en el ejemplo de Lloyds, la media muestral es x " 82,
" 20 y el tamao de la muestra es n " 100, se obtiene
20
82 $ 1.96
"100
82 $ 3.92
Por tanto, al emplear la expresin (8.1), el margen de error es 3.92 y el intervalo de confianza
de 95% va de 82 ! 3.92 " 78.08 a 82 # 3.92 " 85.92.
Aunque a menudo se usa un nivel de confianza de 95%, tambin suelen utilizarse otros ni-
veles, como 90 y 99%. En la tabla 8.1 se muestran los valores de z/2 correspondientes a los
niveles de confianza ms utilizados. A partir de estos valores y de la expresin (8.1), el inter-
valo de confianza de 90% en el ejemplo de Lloyds es
20
82 $ 1.645
"100
82 $ 3.29
Por tanto, para 90% de confianza, el margen de error es 3.29 y el intervalo de confianza es
82 ! 3.29 " 78.71 a 82 # 3.29 " 85.29. De manera similar, el intervalo de 99% es
20
82 $ 2.576
"100
82 $ 5.15
Consejo prctico
Si la poblacin tiene una distribucin normal, el intervalo de confianza que se obtiene con la
expresin (8.1) es exacto. En otras palabras, si esta expresin se usa repetidas veces para gene-
rar intervalos de confianza de 95%, exactamente 95% de los intervalos generados contendrn
la media poblacional. Si la poblacin no tiene una distribucin normal, el intervalo de confianza
obtenido con la expresin (8.1) ser aproximado. En tal caso, la calidad de la aproximacin
depende tanto de la distribucin de la poblacin como del tamao de la muestra.
En la mayora de las aplicaciones, cuando se utiliza la expresin (8.1), un tamao de mues-
tra n % 30 es adecuado para obtener una estimacin por intervalo de la media poblacional. Si
la poblacin no est distribuida normalmente, pero es ms o menos simtrica, puede esperarse
que tamaos de muestra hasta de 15 proporcionen una buena aproximacin del intervalo de
confianza. Con tamaos menores, la expresin (8.1) slo se debe usar si el analista cree, o est
dispuesto a suponer, que la distribucin de la poblacin es al menos aproximadamente normal.
NOTAS Y COMENTARIOS
Ejercicios
Mtodos
1. En una muestra aleatoria simple de 40 artculos la media muestral obtenida es 25. La desvia-
cin estndar poblacional es " 5.
a) Cul es el error estndar de la media, x?
b) Con 95% de confianza, cul es el margen de error?
8.1 Media poblacional: conocida 315
2. En una muestra aleatoria simple de 50 artculos de una poblacin en la que " 6, la media
AUTO evaluacin muestral resultante es 32.
a) Proporcione un intervalo de confianza de 90% para la media poblacional.
b) Calcule un intervalo de confianza de 95% para la media poblacional.
c) Proporcione un intervalo de confianza de 99% para el mismo indicador.
3. En una muestra aleatoria simple de 60 artculos, la media muestral es 80. La desviacin es-
tndar poblacional es " 15.
a) Calcule el intervalo de confianza de 95% para la media poblacional.
b) Suponga que la misma media muestral se obtuvo de una muestra de 120 artculos. Pro-
porcione el intervalo de confianza de 95% para la media poblacional.
c) Cul es el efecto de una muestra de tamao grande sobre la estimacin por intervalo?
4. Para la media poblacional, el intervalo de confianza de 95% result de 152 a 160. Si " 15,
cul es el tamao de la muestra utilizada en este estudio?
Aplicaciones
5. Con objeto de estimar la cantidad media que gasta un cliente en una comida en un importan-
AUTO evaluacin te restaurante de Atlanta, se recabaron los datos de una muestra de 49 comensales. Suponga que
la desviacin estndar de la poblacin es $5.
a) Cul es el margen de error para 95% de confianza?
b) Si la media poblacional es $24.80, cul es el intervalo de confianza de 95% para la media
poblacional?
6. Nielsen Media Research llev a cabo un estudio para conocer cunto tiempo se vea televisin
WEB archivo en los hogares en el horario de 8:00 a 11:00 de la noche. Los datos que se encuentran en el
archivo Nielsen son consistentes con los hallazgos reportados (The World Almanac, 2003).
Nielsen
Con base en estudios anteriores, la desviacin estndar poblacional se considera conocida y es
" 3.5 horas. Proporcione una estimacin mediante un intervalo de confianza de 95% para la
media del tiempo que se ve televisin a la semana en el horario de referencia.
7. The Wall Street Journal inform que en 2008 los accidentes automovilsticos le costaron
$162 mil millones a Estados Unidos (The Wall Street Journal, 5 de marzo de 2008). El costo
promedio por persona de los accidentes automovilsticos en el rea de Tampa, Florida, fue con-
siderado de $1 599. Suponga que este costo promedio se bas en una muestra de 50 personas
que estuvieron involucradas en dichos percances y que la desviacin estndar poblacional es
" $600. Cul es el margen de error para un intervalo de 95% de confianza? Qu recomen-
dara si el estudio requiriera un margen de error de $150 o menos?
8. The National Quality Research Center, de la Universidad de Michigan, proporciona medidas
trimestrales de las opiniones de los consumidores acerca de ciertos bienes y servicios (The
Wall Street Journal, 18 de febrero de 2003). En una encuesta sobre 10 restaurantes de comida
rpida y pizza, la media muestral del ndice de satisfaccin del cliente fue 71. Datos anteriores
indican que la desviacin estndar poblacional ha sido relativamente estable, con " 5.
a) Qu debe estar dispuesto a asumir el investigador para considerar si un margen de error
es deseable?
b) Con 95% de confianza, cul es el margen de error?
c) Cul es el margen de error si se desea 99% de confianza?
9. La AARP dio a conocer un estudio para saber cunto tardan las personas fsicas en preparar su
WEB archivo decla-racin federal de impuestos sobre la renta (AARP Bulletin, abril de 2008). Los datos con-
TaxReturn tenidos en el archivo TaxReturn son congruentes con los resultados del estudio, y proporcionan
el tiempo en horas requerido por 40 personas para completar su declaracin federal de impues-
tos sobre la renta. Con base en datos de aos anteriores, se asume que la desviacin estndar
poblacional es " 9 horas. Cul es la estimacin mediante un intervalo de confianza de 95%
para la media del tiempo que demoran las personas en completar su declaracin fiscal?
10. La revista Playbill report que el ingreso familiar anual medio de sus suscriptores es $119 155
(Playbill, enero de 2006). Suponga que la estimacin del ingreso familiar anual medio est ba-
sada en una muestra de 80 familias y que por datos de estudios anteriores la desviacin estndar
poblacional es conocida y es " $30 000.
316 Captulo 8 Estimacin por intervalo
FIGURA 8.4 Comparacin de la distribucin normal estndar con las distribuciones t para 10
y 20 grados de libertad
z, t
0
8.2 Media poblacional: desconocida 317
grados de libertad exhibe menos variabilidad y un mayor parecido con la distribucin normal
estndar. Note tambin que la media de toda distribucin t es cero.
Para denotar el rea en la cola superior de la distribucin t, a la t se le coloca un subndice.
Por ejemplo, as como se us z0.025 para indicar el valor de z que deja en la cola superior de la
distribucin normal estndar un rea de 0.025, tambin se usar t0.025 para indicar el valor de t
que deja en la cola superior de la distribucin t un rea de 0.025. En general, se manejar la
notacin t/2 para representar el valor de t que deja un rea de /2 en la cola superior de la dis-
tribucin t (figura 8.5).
La tabla 2 del apndice B contiene una distribucin t. En la tabla 8.2 se muestra una par-
te. Cada fila corresponde a una distribucin t distinta con los grados de libertad que se indican.
Por ejemplo, en la distribucin t con 9 grados de libertad, t0.025 " 2.262. De manera similar,
en la distribucin t con 60 grados de libertad, t0.025 " 2.000. A medida que estos grados aumen-
A medida que los grados tan, t0.025 se aproxima a z0.025 " 1.96. En efecto, el valor z de la distribucin normal estndar
de libertad aumentan, la se encuentra en la fila correspondiente a infinitos grados de libertad (etiquetado como &) de la
distribucin t se aproxima
tabla de distribuciones t. Si los grados de libertad son ms de 100, se puede usar la fila corres-
ms a la distribucin
normal estndar. pondiente a infinitos grados para aproximar el verdadero valor de t; en otras palabras, para ms
de 100 grados de libertad, el valor z normal estndar proporciona una buena aproximacin del
valor t.
En la seccin 8.1 se mostr que la estimacin por intervalo de la media poblacional cuando
es conocida es
x $ z/2
"n
Para calcular una estimacin por intervalo de cuando no se conoce , se usa la desviacin
estndar muestral s para estimar , y z/2 se sustituye por el valor t/2 de la distribucin t. El
/2
t
0 t/2
318 Captulo 8 Estimacin por intervalo
rea o
probabilidad
0 t
margen de error est dado, entonces, por t/2 s$"n . Con este margen, la expresin general para
una estimacin por intervalo de la media poblacional cuando no se conoce es la siguiente.
s
x $ t/2 (8.2)
"n
La razn por la que el nmero de grados de libertad para el valor de t en la expresin (8.2)
sea n ! 1 se debe al uso de s como estimacin de la desviacin estndar poblacional . La ex-
presin para calcular la desviacin estndar muestral es
!(x i ! x)2
s"
n!1
el valor apropiado de t0.025. El valor de t que se necesita est en la fila que indica 69 grados de
libertad y en la columna correspondiente a 0.025 en la cola superior. El valor que se encuentra
en t0.025 " 1.995.
Con la expresin (8.2) para calcular la estimacin por intervalo de la media poblacional de
los saldos en las tarjetas de crdito tenemos:
4 007
9 312 $ 1.995
"70
9 312 $ 955
Consejo prctico
Si la poblacin tiene una distribucin normal, el intervalo de confianza suministrado en la ex-
presin (8.2) es exacto y se puede usar con cualquier tamao de muestra. Si la poblacin no
sigue una distribucin normal, el intervalo de confianza en la expresin (8.2) ser aproximado.
En este caso la calidad de la aproximacin depende tanto de la distribucin de la poblacin
como del tamao de la muestra.
En la mayora de las aplicaciones, un tamao de muestra n % 30 es suficiente al usar la
expresin (8.2) para obtener una estimacin por intervalo de la media poblacional. Sin embar-
Cuando la distribucin de go, si la distribucin de la poblacin es muy sesgada o si hay observaciones atpicas, la mayora
la poblacin es altamente de los especialistas en estadstica recomienda un tamao de muestra de 50 o ms. Si la pobla-
sesgada o hay observaciones
atpicas, se requieren
cin no tiene una distribucin normal pero es ms o menos simtrica, con un tamao de mues-
muestras grandes. tra de 15 puede esperarse una buena aproximacin al intervalo de confianza. Con muestras ms
pequeas la expresin (8.2) slo debe usarse si el analista cree, o est dispuesto a suponer, que
la distribucin de la poblacin es por lo menos aproximadamente normal.
FIGURA 8.6 Intervalo de confianza de Minitab para el estudio de los saldos en las tarjetas
de crdito
52 59 54 42
WEB archivo 44
55
50
54
42
60
48
55
Scheer 44 62 62 57
45 46 43 56
este programa, el director de manufactura solicita una estimacin de la media poblacional del
tiempo requerido para que los empleados de mantenimiento completen la capacitacin asistida
por computadora.
Considere una muestra de 20 individuos que siguen el programa de capacitacin. En la ta-
bla 8.4 se muestran los datos del tiempo, en das, que necesit cada uno para completar el pro-
grama. En la figura 8.7 aparece un histograma de los datos. Con base en ste, qu se puede
decir de la distribucin de la poblacin? Primero, con base en los datos muestrales, no es posi-
ble concluir que la poblacin sea normal, si bien no se tienen evidencias de sesgo o de obser-
vaciones atpicas. Por tanto, mediante los lineamientos de la subseccin anterior, se concluye
que una estimacin por intervalo basada en la distribucin t parece ser aceptable para esta
muestra de 20 empleados.
A continuacin se calcula la media muestral y la desviacin estndar muestral.
!xi 1 030
x" " " 51.5 das
n 20
4
Frecuencia
0
40 45 50 55 60 65
Duracin de la capacitacin (das)
322 Captulo 8 Estimacin por intervalo
Para dar un intervalo de confianza de 95%, se usa la tabla 2 del apndice B y n ! 1 " 19 gra-
dos de libertad y se obtiene t0.025 " 2.093. La expresin (8.2) suministra la estimacin por in-
tervalo de la media poblacional.
6.84
51.5 $ 2.093
"20
51.5 $ 3.2
La estimacin puntual de la media poblacional es 51.5 das. El margen de error es 3.2 das y el
intervalo de confianza de 95% va de 51.5 ! 3.2 " 48.3 das a 51.5 # 3.2 " 54.7 das.
Usar un histograma de los datos muestrales para tener informacin acerca de la distribu-
cin de la poblacin no es siempre concluyente, pero en muchos casos es la nica informacin
disponible. El histograma, junto con la opinin del analista, suele utilizarse para decidir si es
adecuado usar la expresin (8.2) para obtener una estimacin por intervalo.
FIGURA 8.8 Resumen de los procedimientos para la estimacin por intervalo de la media
poblacional
Se puede considerar
S que se conoce la No
desviacin estndar
poblacional ?
Utilice la desviacin
estndar muestral s
para estimar
Use Use
s
x z /2 x t /2
n n
NOTAS Y COMENTARIOS
1. En los casos en que conoce , el margen de error, res de x. De esta manera, cuando x es mayor que
z/2($"n ), es fijo y es el mismo para todas las la media poblacional, s tiende a ser mayor que .
muestras de tamao n. Cuando no se conoce, el Este sesgo hace que el margen de error, t/2(s$"n ),
margen de error, t/2(s$"n ), vara de una muestra sea mayor de lo que sera si se conociera . Un
a otra. Esta variacin se debe a que la desviacin intervalo de confianza con un margen de error
estndar muestral s cambia de acuerdo con la mayor tender a incluir con ms frecuencia la me-
muestra que se seleccione. Si s es grande, se ob- dia poblacional que si se usara el verdadero
tiene un margen de error mayor, mientras que si s valor . Pero cuando x es menor que la media po-
es pequea, se obtiene un margen de error menor. blacional, la correlacin entre x y s hace que el
2. Qu sucede con las estimaciones por intervalo margen de error sea ms pequeo. En este caso,
cuando la poblacin es sesgada? Considere una dichos intervalos de confianza con menor margen
poblacin sesgada a la derecha en la cual los da- de error incluirn la media poblacional menos
tos con valores grandes jalan la distribucin hacia veces que si se conociera y se usara . Por esta
esa direccin. Cuando existe un sesgo as, hay una razn se recomienda usar tamaos de muestra ms
correlacin positiva entre la media muestral x y grandes cuando la distribucin de la poblacin es
la desviacin estndar muestral s. Valores mayores muy sesgada.
de s tienden a corresponderse con valores mayo-
Ejercicios
Mtodos
11. En la distribucin t con 16 grados de libertad, encuentre el rea, o la probabilidad, de cada una
de las regiones siguientes.
a) A la derecha de 2.120
b) A la izquierda de 1.337
c) A la izquierda de !1.746
d) A la derecha de 2.583
e) Entre !2.120 y 2.120
f ) Entre !1.746 y 1.746
12. Encuentre los valores de t para las situaciones siguientes.
a) Un rea de 0.025 en la cola superior, con 12 grados de libertad.
b) Un rea de 0.05 en la cola inferior, con 50 grados de libertad.
c) Un rea de 0.01 en la cola superior, con 30 grados de libertad.
d) Entre los que queda 90% del rea, con 25 grados de libertad.
e) Entre los que queda 95% del rea, con 45 grados de libertad.
13. Los datos muestrales siguientes provienen de una poblacin normal: 10, 8, 12, 15, 13, 11, 6, 5.
AUTO evaluacin a) Cul es la estimacin puntual de la media poblacional?
b) Cul es la estimacin puntual de la desviacin estndar poblacional?
c) Con 95% de confianza, cul es el margen de error para la estimacin de la media po-
blacional?
d) Cul es el intervalo de confianza de 95% para la media poblacional?
14. En una muestra aleatoria simple con n " 54, la media muestral es 22.5 y la desviacin estn-
dar muestral es 4.4.
a) Proporcione un intervalo de confianza de 90% para la media poblacional.
b) Determine un intervalo de confianza de 95% para la media poblacional.
324 Captulo 8 Estimacin por intervalo
Aplicaciones
15. Los agentes de ventas de Skillings Distributors presentan un informe semanal que enumera
AUTO evaluacin a los clientes contactados durante la semana. En una muestra de 65 informes, la media muestral
es 19.5 clientes por semana. La desviacin estndar muestral es 5.2. Proporcione intervalos
de confianza de 90 y 95% para la media poblacional del nmero de clientes contactados se-
manalmente por el personal de ventas.
16. El nmero medio de horas de vuelo de los pilotos de Continental Airlines es 49 horas por mes
(The Wall Street Journal, 25 de febrero de 2003). Suponga que esta media se bas en las ho-
ras de vuelo de una muestra de 100 pilotos de esa empresa y que la desviacin estndar mues-
tral es de 8.5 horas.
a) A 95% de confianza, cul es el margen de error?
b) Proporcione el intervalo de estimacin de 95% de confianza para la media poblacional de
las horas de vuelo de los pilotos.
c) La media en las horas de vuelo de los pilotos de United Airlines es de 36 horas por mes.
Use los resultados del inciso b) para analizar la diferencia entre la cantidad de horas de
vuelo de los pilotos en las dos lneas areas. The Wall Street Journal informa que United
Airlines tiene el costo laboral ms alto de todas las aerolneas. La informacin proporcio-
nada en estos ejercicios, sirve para entender por qu se puede esperar que esta empresa
tenga los costos ms altos?
17. La International Air Transport Association realiza encuestas entre los viajeros de negocios
en las que se califica la calidad de los aeropuertos de salida internacional. La calificacin mxi-
ma es 10. Se seleccion una muestra aleatoria simple de 50 viajeros de negocios y a cada uno
se le solicit su evaluacin para el aeropuerto internacional de Miami. Las calificaciones que
proporcionaron estos 50 viajeros se muestran a continuacin.
6 4 6 8 7 7 6 3 3 8 10 4 8
WEB archivo 7 8 7 5 9 5 8 4 3 8 5 5 4
Miami 4 4 8 4 5 6 2 5 9 9 8 4 8
9 9 5 9 7 8 3 10 8 9 6
Proporcione la estimacin por intervalo de confianza de 95% para la media poblacional de
las calificaciones al aeropuerto de Miami.
18. Con frecuencia, las personas mayores pasan momentos muy difciles buscando empleo. La
WEB archivo AARP ha reportado el nmero de semanas que toma a los trabajadores de ms de 55 aos co-
JobSearch
locarse en un puesto. Los datos en nmero de semanas dedicadas a buscar empleo que se en-
cuentran en el archivo JobSearch son congruentes con los hallazgos de la AARP (AARP Bulletin,
abril de 2008).
a) Proporcione una estimacin puntual de la media poblacional del nmero de semanas que
le toma a los trabajadores de ms de 55 aos encontrar un empleo.
b) Cul es el margen de error con 95% de confianza?
c) Cul es la estimacin por intervalo de confianza de 95% para la media poblacional?
d) Analice el grado de sesgo que puede encontrarse en los datos muestrales. Qu sugerira
para la repeticin de este estudio?
19. El costo promedio por noche de un cuarto de hotel en la ciudad de Nueva York es $273 (Smart-
Money, marzo de 2009). Suponga que esta estimacin se basa en una muestra de 45 hoteles y
que la desviacin estndar muestral es $65.
a) Con 95% de confianza, cul es el margen de error?
b) Cul es la estimacin por intervalo de confianza de 95% para la media poblacional?
c) Hace dos aos, el costo promedio por noche de un cuarto de hotel en Nueva York era de
$229. Analice la variacin en el costo en este periodo de dos aos.
8.3 Determinacin del tamao de la muestra 325
20. Los comerciales interrumpen constantemente su programa de televisin favorito? CNBC pre-
WEB archivo sent datos estadsticos sobre la cantidad promedio de minutos de programa en media hora de
Program transmisin (CNBC, 23 de febrero de 2006). Los datos siguientes (en minutos) son representa-
tivos de sus hallazgos.
21.06 22.24 20.62
21.66 21.23 23.86
23.82 20.30 21.52
21.52 21.91 23.14
20.02 22.20 21.20
22.37 22.19 22.34
23.36 23.44
Suponga que la poblacin es aproximadamente normal. Proporcione una estimacin puntual
y un intervalo de confianza de 95% para la cantidad media de minutos de programa en media
hora de transmisin televisiva.
21. El consumo de bebidas alcohlicas entre mujeres jvenes en edad de beber se ha incremen-
WEB archivo tado en el Reino Unido, Estados Unidos y Europa (The Wall Street Journal, 15 de febrero de
Alcohol
2006). Datos (consumo anual en litros) reportados por este peridico tomados de una muestra
de 20 mujeres europeas jvenes son los siguientes.
266 82 199 174 97
170 222 115 130 169
164 102 113 171 0
93 0 93 110 130
Suponga que la poblacin es ms o menos simtrica. Proporcione un intervalo de confianza de
95% para el consumo medio anual de bebidas alcohlicas entre las mujeres europeas jvenes.
22. Hannah Montana: La Pelcula, de Disney, se estren el fin de semana de Pascua en abril de
2009. Durante los tres das del fin de semana, la pelcula se convirti en la atraccin nmero
uno en taquilla (The Wall Street Journal, 13 de abril de 2009). Los ingresos de ventas de bole-
tos en dlares de una muestra de 25 salas se listan a continuacin.
WEB archivo 20 200 10 150 13 000 11 320 9 700
TicketSales 8 350 7 300 14 000 9 940 11 200
10 750 6 240 12 700 7 430 13 500
13 900 4 200 6 750 6 700 9 330
13 185 9 200 21 400 11 380 10 800
a) Cul es la estimacin por intervalo de confianza de 95% para los ingresos medios de las
ventas de boletos por sala? Interprete su resultado.
b) Con un precio por boleto de $7.16, cul es la estimacin del nmero medio de especta-
dores por sala?
c) La pelcula se exhibi en 3 118 cines. Estime el nmero total de espectadores que vieron
Hannah Montana: La Pelcula y el total de las ventas de boletos en taquilla los tres das
del fin de semana.
La cantidad z/2($"n) es el margen de error. De manera que, como se ve, z/2, la desviacin
estndar poblacional , y el tamao de la muestra n se combinan para determinar el margen de
error. Una vez que se selecciona el coeficiente de confianza 1 ! , z/2 puede ser determinado.
Por tanto, si se tiene el valor de , es posible encontrar el tamao de muestra n necesario para
proporcionar cualquier margen de error deseado. A continuacin se presenta el desarrollo de la
frmula utilizada para calcular el tamao n de muestra deseado.
Sea E " el margen de error deseado:
E " z/2
"n
Al despejar "n tenemos
z/2
"n "
E
Al elevar al cuadrado ambos lados de esta ecuacin, se obtiene la expresin siguiente para el
tamao de la muestra.
La ecuacin (8.3)
proporciona una buena TAMAO DE LA MUESTRA PARA UNA ESTIMACIN POR INTERVALO DE LA MEDIA
recomendacin
POBLACIONAL
del tamao de la muestra.
Sin embargo, la opinin (z/2)2 2
del analista cuenta n" (8.3)
para determinar si el E2
tamao de muestra final
debe ajustarse hacia arriba.
Este tamao de muestra proporciona el margen de error deseado al nivel de confianza
elegido.
En la ecuacin (8.3), E es el margen de error que el usuario est dispuesto a aceptar, y el
valor z/2 es consecuencia directa del nivel de confianza que se utilizar para calcular la esti-
macin por intervalo. A reserva de la decisin del usuario, 95% de confianza es el valor ms
frecuentemente elegido (z0.025 " 1.96).
Por ltimo, para usar la ecuacin (8.3) es necesario contar con el valor de la desviacin
estndar poblacional . Sin embargo, aun cuando este valor no se conozca, puede utilizarse la
ecuacin (8.3) siempre que se tenga un valor preliminar o un valor planeado de . En la prcti-
ca, suele usarse alguno de los procedimientos siguientes para obtenerlo.
El valor planeado de
1. Se utiliza como valor planeado de una estimacin de la desviacin estndar poblacio-
la desviacin estndar
poblacional debe nal calculada a partir de datos de estudios anteriores.
especificarse antes de 2. Se opta por un estudio piloto seleccionando una muestra preliminar. La desviacin estn-
determinar el tamao de la dar muestral obtenida de la muestra preliminar puede usarse como valor planeado de .
muestra. Aqu se ofrecen 3. Se usa el juicio personal para adivinar el mejor valor de . Por ejemplo, se puede em-
tres mtodos para obtener
pezar por estimar el mayor y el menor valor en los datos de la poblacin. La diferencia
este valor planeado de .
entre ambos valores proporciona una estimacin del rango de los datos. Por ltimo, este
valor dividido entre 4 suele considerarse como una aproximacin burda a la desviacin
estndar y tomarse como un valor planeado aceptable de .
La ecuacin (8.3) revis los datos muestrales del estudio anterior y encontr que la desviacin estndar muestral
proporciona el tamao de del costo de la renta diaria era $9.65. Al utilizar $9.65 como valor planeado de , tenemos:
muestra mnimo necesario
para obtener el margen de (z/2)2 2 (1.96)2(9.65)2
error deseado. Si el tamao n" 2 " " 89.43
de muestra calculado no E 22
es un nmero entero, se De esta manera, el tamao de la muestra necesario para obtener un margen de error de $2 debe
redondea al siguiente ser de por lo menos 89.43 rentas de automviles medianos. En casos como ste, en los que el
nmero entero, con lo que
valor de n no es un nmero entero, se redondea al siguiente valor entero; as que el tamao de
se tendr un margen de
error ligeramente menor al muestras que se aconseja es 90 rentas de automviles medianos.
requerido.
Ejercicios
Mtodos
23. Qu tan grande debe seleccionarse una muestra para tener un intervalo de confianza de 95%
con un margen de error de 10? Suponga que la desviacin estndar poblacional es 40.
24. En un conjunto de datos se estima que el rango es 36.
AUTO evaluacin a) Cul es el valor planeado para la desviacin estndar poblacional?
b) De qu tamao deber ser la muestra para que el margen de error en un intervalo de con-
fianza de 95% sea 3?
c) De qu tamao deber ser la muestra para que el margen de error sea 2 en un intervalo de
confianza de 95%?
Aplicaciones
25. Remtase al ejemplo de Scheer Industries de la seccin 8.2. Use 6.84 das como valor planeado
AUTO evaluacin para la desviacin estndar poblacional.
a) Asuma 95% de confianza, de qu tamao deber ser la muestra para tener un margen de
error de 1.5 das?
b) Si la declaracin de precisin se hizo con 90% de confianza, de qu tamao deber ser la
muestra para tener un margen de error de 2 das?
26. El costo promedio de un galn de gasolina sin plomo en Greater Cincinnati es $2.41 (The Cin-
cinnati Enquirer, 3 de febrero de 2006). En una poca de constantes cambios en los precios,
un peridico muestrea las gasolineras y presenta un informe sobre los precios del combustible.
Suponga que la desviacin estndar es $0.15 en los precios del galn de la gasolina sin plomo
y recomiende el tamao apropiado de muestra n que debe usar este peridico para tener un
margen de error con 95% de confianza.
a) Suponga que el margen de error requerido es $0.07.
b) Asuma que el margen de error deseado es $0.05.
c) Ahora considere que el margen de error requerido es $0.03.
27. Los sueldos anuales iniciales para estudiantes graduados en una carrera en administracin se
espera que estn entre $30 000 y $45 000. Suponga que se quiere dar un intervalo de confian-
za de 95% para estimar la media poblacional anual de los sueldos iniciales. Cul es el valor
planeado de la desviacin estndar poblacional? Cun grande deber ser la muestra si se quie-
re que el margen de error sea cualquiera de los siguientes?
a) $500.
b) $200.
c) $100.
d) Recomendara usted intentar obtener $100 como margen de error? Explique.
28. Con base en una encuesta en lnea de ShareBuilder, un proveedor de planes de retiro, y Harris
Interactive se report que 60% de las mujeres propietarias de negocios no estn seguras de
estar ahorrando lo suficiente para su retiro (SmallBiz, invierno de 2006). Suponga que se quie-
re efectuar un estudio de seguimiento para determinar cunto estn ahorrando las propietarias
de negocios cada ao con miras a su retiro y se quiere utilizar $100 como margen de error
requerido para un intervalo estimado de la media poblacional. Utilice $1 100 como un valor
planeado para la desviacin estndar y recomiende un tamao muestral para cada una de las
siguientes situaciones.
a) Se requiere un intervalo de confianza de 90% para la cantidad media ahorrada.
b) Se necesita un intervalo de confianza de 95% para la cantidad media ahorrada.
328 Captulo 8 Estimacin por intervalo
p $ margen de error
/2 /2
p
p
z/2 p z/2 p
8.4 Proporcin poblacional 329
p(1 " p)
p ! (8.4)
n
p(1 " p)
Margen de error ! z/2 (8.5)
n
Con este margen de error, la expresin general para la estimacin por intervalo de la proporcin
poblacional es la siguiente.
p(1 " p)
p # z/2
n
0.44 # 0.0324
p(1 " p)
E ! z/2
n
Al despejar n de esta frmula, se obtiene la frmula para calcular el tamao de la muestra con
el que se tendr el margen de error deseado, E.
Sin embargo, debido a que no se conocer p sino hasta que se tome la muestra, no es posi-
ble usar esta frmula para calcular el tamao de la muestra con el que se obtendr el margen
de error deseado. Se necesita, entonces, un valor planeado de p til para hacer este clculo. Con
p* como valor planeado de p, la frmula para calcular el tamao de la muestra con el que se
obtendr el error E queda como se presenta a continuacin.
De regreso al estudio de mujeres golfistas, suponga que la empresa desea llevar a cabo otra
investigacin para determinar la proporcin actual en la poblacin de golfistas que est satis-
fecha con la disponibilidad de horarios de salida. De qu tamao deber ser la muestra si se
desea que en la estimacin de la proporcin poblacional el margen de error sea 0.025 a 95% de
confianza? Como E ! 0.025 y z/2 ! 1.96, se necesita un valor planeado p* para responder la
pregunta. Utilizando como valor planeado p* el resultado del estudio anterior, p ! 0.44, con
la ecuacin (8.7) se obtiene
p* p*(1 ! p*)
0.10 (0.10)(0.90) ! 0.09
0.30 (0.30)(0.70) ! 0.21
0.40 (0.40)(0.60) ! 0.24
0.50 (0.50)(0.50) ! 0.25 mximo valor de p*(1 " p*)
0.60 (0.60)(0.40) ! 0.24
0.70 (0.70)(0.30) ! 0.21
0.90 (0.90)(0.10) ! 0.09
As, el tamao de la muestra debe ser por lo menos de 1 514.5 golfistas mujeres para satisfacer
el margen de error requerido. Al redondear al valor entero siguiente, tenemos que se necesitan
1 515 golfistas para obtener el margen de error deseado.
La cuarta alternativa sugerida para seleccionar un valor planeado p* es elegir p* ! 0.50.
Cuando no se cuenta con ninguna otra informacin, suele utilizarse este valor. Para entender por
qu, observe que el numerador de la ecuacin (8.7) indica que el tamao de la muestra es pro-
porcional a la cantidad p*(1 " p*). Si el valor de p*(1 " p*) es grande, el tamao de la muestra
tambin lo ser. En la tabla 8.5 se consideran algunos valores que puede tener p*(l " p*). El
mximo valor se presenta cuando p* ! 0.50. De esta manera, en caso de duda acerca del valor
planeado apropiado, sabemos que p* ! 0.50 dar el mayor tamao de muestra que se puede
recomendar. En efecto, con el mayor tamao de muestra posible se va a lo seguro. Si resulta
que la proporcin muestral es diferente del valor planeado, el margen de error ser menor que
el anticipado. De manera que al usar p* ! 0.50 se garantiza que el tamao de la muestra ser
suficiente para obtener el margen de error deseado.
En el ejemplo del estudio de las golfistas, si se usa como valor planeado p* ! 0.50, el ta-
mao de muestra que se obtiene es
NOTAS Y COMENTARIOS
El margen de error deseado para calcular una pro- tos mrgenes, la ecuacin (8.7) suministra un tamao
porcin poblacional casi siempre es 0.10 o menos. de la muestra que es suficiente para satisfacer los re-
En las encuestas de opinin pblica a nivel nacional querimientos de np $ 5 y n(1 " p) $ 5 para usar
en Estados Unidos conducidas por Gallup y Harris, una distribucin normal como aproximacin de la dis-
un margen de error de 0.03 o 0.04 es comn. Con es- tribucin de muestreo de x.
Ejercicios
Mtodos
31. Una muestra aleatoria simple de 400 individuos proporciona 100 respuestas S.
AUTO evaluacin a) Determine la estimacin puntual de la proporcin poblacional de individuos cuya res-
puesta ser S.
b) Cul es la estimacin del error estndar de la proporcin p?
c) Calcule el intervalo de confianza de 95% para la proporcin poblacional.
332 Captulo 8 Estimacin por intervalo
32. En una muestra aleatoria de 800 elementos se obtiene una proporcin muestral, p ! 0.70.
a) Proporcione un intervalo de 90% de confianza para la proporcin poblacional.
b) Proporcione un intervalo de confianza de 95% para la proporcin poblacional.
33. En un estudio, el valor planeado para la proporcin poblacional es p* ! 0.35. De qu tamao
se debe tomar la muestra para dar un intervalo de confianza de 95% con un margen de error
de 0.05?
34. Para 95% de confianza, de qu tamao se deber tomar la muestra para obtener un margen de
error de 0.03 en la estimacin de una proporcin poblacional? Suponga que no se cuenta con
datos anteriores para obtener un valor planeado de p*.
Aplicaciones
35. El Consumer Reports National Research Center realiz una encuesta telefnica con 2 000 adul-
AUTO evaluacin tos para conocer sus principales preocupaciones econmicas proyectadas al futuro (Consumer
Reports, enero de 2009). Los resultados mostraron que 1 760 de los encuestados afirmaron
que la salud futura es una de sus principales preocupaciones econmicas.
a) Cul es la estimacin puntual de la proporcin poblacional de adultos que piensan que la
salud futura es una de las principales preocupaciones econmicas?
b) A 90% de confianza, cul es el margen de error?
c) Proporcione el intervalo de 90% de confianza para la proporcin poblacional de adultos
que piensan que la salud futura es una de las principales preocupaciones econmicas.
d) Proporcione el intervalo de 95% de confianza para esta proporcin poblacional.
36. Con base en estadsticas publicadas por la CNBC, la cantidad de vehculos que no estn ase-
gurados es sorprendente (CNBC, 23 de febrero de 2006). Los resultados muestrales indican que
46 de 200 vehculos no estn asegurados.
a) Cul es la estimacin puntual de la proporcin de vehculos no asegurados?
b) Proporcione un intervalo de confianza de 95% para la proporcin poblacional.
37. Towers Perrin, una firma de consultora de recursos humanos de Nueva York, realiz un es-
tudio con 1 100 empleados de empresas medianas y grandes para determinar qu tan insatis-
fechos estaban con su trabajo (The Wall Street Journal, 29 de enero de 2003). En el archivo
JobSatisfaction se muestran datos representativos. Un S como respuesta indica que al em-
pleado le desagrada mucho su puesto actual.
a) Proporcione la estimacin puntual de la proporcin poblacional de empleados a quienes
WEB archivo les disgusta mucho su puesto actual.
b) A 95% de confianza, cul es el margen de error?
JobSatisfaction
c) Cul es el intervalo de confianza de 95% para la proporcin de la poblacin de emplea-
dos a quienes les desagrada mucho su puesto actual?
d) Towers Perrin estima que a los empleadores les cuesta un tercio de un sueldo anual en-
contrar a un sucesor y hasta 1.5 veces el sueldo anual encontrar a un sucesor para un em-
pleado que recibe una alta compensacin. Cul es el mensaje de esta investigacin para
los empleadores?
38. Segn Thomson Financial, hasta el 25 de enero de 2006 la mayora de las empresas que infor-
maban tener utilidades haban superado las estimaciones (BusinessWeek, 6 de febrero de 2006).
En una muestra de 162 compaas, 104 superaron las estimaciones, 29 coincidieron y 29 se
quedaron cortas.
a) Cul es la estimacin puntual de la proporcin de empresas que se quedaron cortas?
b) Determine el margen de error y proporcione un intervalo de confianza de 95% para la
proporcin que super las estimaciones.
c) De qu tamao debe de ser la muestra si el margen de error es 0.05?
39. El porcentaje de personas que no tena un seguro mdico en 2003 era de 15.6% (Statistical
AUTO evaluacin Abstract of the United States, 2006). Se le solicit a un comit del Congreso realizar un estu-
dio para obtener informacin actualizada.
a) Qu tamao de muestra le recomienda usted al comit si el objetivo es que en la esti-
macin de la proporcin actual de individuos que no tienen seguro mdico el margen de
error sea 0.03? Use 95% de confianza.
b) Repita el inciso a) usando 99% de confianza.
Resumen 333
40. Por muchos aos, las empresas han luchado con el creciente costo del cuidado de la salud.
Recientemente los incrementos han disminuido debido a la menor inflacin en los precios del
servicio y a los empleados que pagan gran parte de esos beneficios. Una reciente encuesta
de Mercer mostr que era probable que 52% de los empleadores estadounidenses requiriera
contribuciones ms altas de los empleados para la cobertura del cuidado de la salud en 2009
(BusinessWeek, 16 de febrero de 2009). Suponga que la encuesta se bas en una muestra de 800
empresas. Calcule el margen de error y un intervalo de confianza de 95% para la proporcin
de compaas con probabilidad de requerir contribuciones ms altas de los empleados para la
cobertura del cuidado de la salud en 2009.
41. Los jvenes de Estados Unidos usan Internet intensamente: 87% de los jvenes entre 12 y 17
aos son usuarios de la red (The Cincinnati Enquirer, 1 de febrero de 2006). En una muestra de
usuarios de Internet de esta edad, 9% vot por MySpace como el sitio ms popular de la Web.
Suponga que en este estudio participaron 1400 sujetos. Cules son los mrgenes de error y la
estimacin por intervalo de la proporcin poblacional de quienes consideran que este sitio es
el ms popular? Use 95% de nivel de confianza.
42. Una encuesta realizada durante la campaa presidencial tom en junio una muestra de 491
votantes potenciales. El objetivo consisti en estimar la proporcin de votantes potenciales a
favor de cada candidato. Suponga que el valor planeado es p* ! 0.50, con un nivel de confian-
za de 95%.
a) Si p* ! 0.50, cul fue el margen de error planeado en la encuesta de junio?
b) Al acercarse la eleccin de noviembre se busca una mejor precisin y un menor margen de
error. Suponga que los mrgenes de error que se piden son los que se muestran en la tabla
siguiente. Calcule el tamao de muestra que se recomienda para cada estudio.
43. Phoenix Wealth Management/Harris Interactive realiz un estudio con 1 500 individuos cuyo
patrimonio era de un milln o ms de dlares, y obtuvo diversos datos estadsticos sobre la
gente pudiente (BusinessWeek, 22 de septiembre de 2003). Los tres aos anteriores haban sido
malos para el mercado accionario, lo que motiv algunas de las preguntas planteadas.
a) En este estudio se encontr que 53% de los encuestados perdi 25% o ms del valor de su
portafolio en los ltimos tres aos. Proporcione un intervalo de confianza de 95% para la
proporcin de personas pudientes que perdieron 25% o ms del valor de su portafolio en
el periodo de referencia.
b) El estudio indic que 31% de los encuestados siente que deber ahorrar ms para su reti-
ro con objeto de compensar lo perdido. Proporcione un intervalo de confianza de 95% para
la proporcin poblacional.
c) De los encuestados, 5% don $25 000 o ms para obras de caridad el ao anterior. Propor-
cione un intervalo de confianza de 95% para la proporcin de quienes aportaron $25 000
o ms para obras caritativas.
d) Compare los mrgenes de error de las estimaciones por intervalo de los incisos a), b) y c).
Cul es la relacin entre margen de error y p? Si usa la misma muestra para obtener va-
rias proporciones, cul debe usarse para elegir el valor planeado p*? Por qu considera
que en estos casos suela usarse p* ! 0.50?
Resumen
En este captulo se presentaron los mtodos para obtener estimaciones por intervalo de la me-
dia poblacional y de la proporcin poblacional. Un estimador puntual puede o no proporcionar
una buena estimacin de un parmetro poblacional. Un intervalo de estimacin suministra una
media de la precisin de una estimacin. Tanto la estimacin por intervalo de una media pobla-
cional como la de una proporcin poblacional tienen la forma: estimacin puntual # margen
de error.
334 Captulo 8 Estimacin por intervalo
Glosario
conocida Caso en el que datos histricos o alguna otra informacin proporciona un buen
valor para ser considerado como desviacin estndar poblacional antes de tomar la muestra.
Este valor conocido de se usa en la estimacin por intervalo para calcular el margen de error.
desconocida El caso ms comn cuando no existen bases slidas para estimar la desviacin
estndar poblacional antes de tomar la muestra. En la estimacin por intervalo se usa la desvia-
cin estndar muestral s para calcular el margen de error.
Coeficiente de confianza Nivel de confianza expresado como valor decimal. Por ejemplo
0.95 es el coeficiente de confianza correspondiente al nivel de confianza de 95%.
Distribucin t Familia de distribuciones de probabilidad utilizada para obtener una estima-
cin por intervalo de la media poblacional cuando la desviacin estndar poblacional no se
conoce y se estima mediante la desviacin estndar muestral s.
Estimacin por intervalo Estimacin de un parmetro poblacional que suministra un in-
tervalo que se cree que contiene el valor del parmetro. Para las estimaciones por intervalo
abordadas en este captulo se adopta la forma: estimacin puntual # margen de error.
Grados de libertad Parmetro de la distribucin t. Cuando se usa esta distribucin para
calcular una estimacin por intervalo de la media poblacional, la distribucin t correspon-
diente tiene n " 1 grados de libertad, donde n es el tamao de la muestra aleatoria simple.
Intervalo de confianza Otro nombre para designar la estimacin por intervalo.
Margen de error Valor # que se suma y se resta de la estimacin puntual con objeto de ob-
tener una estimacin por intervalo de un parmetro poblacional.
Nivel de confianza Confianza asociada con la estimacin por intervalo. Por ejemplo, si un
procedimiento de estimacin por intervalo proporciona intervalos tales que 95% de ellos con-
tendr el parmetro poblacional, se dice que esa estimacin por intervalo tiene un nivel de
confianza de 95%.
Ejercicios complementarios 335
Frmulas clave
Ejercicios complementarios
44. En un estudio realizado con 54 corredores de bolsa con descuento, se encontr que la media
de los precios cobrados por una transaccin de 100 acciones a $50 la accin, fue $33.77 (AAII
Journal, febrero de 2006). Este estudio se realiza anualmente. Con base en los datos histricos
disponibles, considere que la desviacin estndar poblacional conocida es $15.
a) Segn los datos muestrales, cul es el margen de error asociado con un intervalo de con-
fianza de 95%?
b) Proporcione un intervalo de confianza de 95% para la media de los precios cobrados por
una transaccin de 100 acciones a $50 cada una.
45. En una encuesta realizada por la American Automobile Association se encontr que una fami-
lia de cuatro miembros gasta en promedio en vacaciones $215.60 por da. Suponga que en una
muestra de 64 familias de vacaciones en las cataratas del Nigara la media muestral encontra-
da fue de $252.45 por da y la desviacin estndar muestral fue de $74.50.
a) Proporcione una estimacin, mediante un intervalo de confianza de 95%, para la media de
la cantidad que gasta por da una familia de cuatro que est de vacaciones en las cataratas
del Nigara.
b) Con base en el intervalo de confianza del inciso a), parece que la media poblacional de la
cantidad gastada por da por las familias que visitan las cataratas del Nigara es diferente
de la media reportada por la American Automobile Association? Explique.
46. Los 92 millones de estadunidenses de ms de 50 aos de edad controlan 50% de todos los in-
gresos discrecionales (AARP Bulletin, marzo de 2008). La AARP estima que el gasto promedio
anual en restaurantes y comida para llevar fue de $1 873 por individuo de ese grupo de edad.
Suponga que tal estimacin se basa en una muestra de 80 personas y que la desviacin estndar
muestral es $550.
a) Cul es el margen de error en este estudio? Use 95% de confianza.
b) Cul es el intervalo de confianza de 95% de la media poblacional de la cantidad gastada
en restaurantes y comida para llevar?
c) Cul es su estimacin de la cantidad total gastada por los estadunidenses de ms de 50
aos de edad en restaurantes y comida para llevar?
d) Si la cantidad gastada en ambos aspectos es sesgada a la derecha, esperara que la canti-
dad media gastada sea mayor o menor que $1 873?
336 Captulo 8 Estimacin por intervalo
47. Numerosos observadores de los mercados burstiles aseguran que cuando la razn P/E en las
acciones es superior a 20, el mercado est sobrevaluado. La razn P/E es el precio de una accin
dividido entre las ganancias (earnings) de los ltimos 12 meses. Suponga que usted desea saber
si actualmente el mercado est sobrevaluado y qu proporcin de las empresas pagan dividen-
dos (Dividend). A continuacin aparece una muestra aleatoria de 30 firmas que cotizan en la
Bolsa de Valores de Nueva York (NYSE) (Barrons, 19 de enero de 2004).
a) Proporcione una estimacin puntual para la razn poblacional P/E de las acciones que
cotizan en la Bolsa de Valores de Nueva York. Maneje un intervalo de confianza de
95%.
b) Con base en su respuesta del inciso a), considera usted que el mercado est sobrevaluado?
c) Proporcione una estimacin puntual de la proporcin de empresas en la NYSE que pagan
dividendos. El tamao de la muestra es suficientemente grande para justificar el empleo
de la distribucin normal en el clculo de un intervalo de confianza para esta proporcin?
Por qu?
48. US Airways llev a cabo diversos estudios que indican ahorros importantes si los viajeros fre-
WEB archivo cuentes del programa Dividend Miles realizaran en lnea el canje de millas y programaran los
vuelos ganados (US Airways Attach, febrero de 2003). En un estudio se recabaron datos sobre
Flights
el tiempo que se requiere para realizar por telfono el canje de millas y la programacin de un
vuelo ganado. En el archivo de datos Flights se encuentra una muestra de tiempos en minutos
requeridos para programar por telfono cada uno de los 150 vuelos ganados. Use Minitab o
Excel para contestar las preguntas siguientes.
a) Cul es la media muestral del nmero de minutos que se requiere para programar por
telfono los vuelos ganados?
b) Proporcione el intervalo de confianza de 95% para la media poblacional del tiempo reque-
rido para programar por telfono los vuelos.
c) Suponga que un agente de boletos por telfono trabaja 7.5 horas por da. Cuntos vuelos
ganados se espera que atienda en un da?
d) Diga cmo esta informacin apoya el plan de US Airways de usar un sistema en lnea para
reducir costos.
49. En un estudio realizado por Accountemps se le solicit a 200 ejecutivos de una muestra pro-
WEB archivo porcionar datos sobre la cantidad de minutos por da que pierden los oficinistas tratando de
localizar cosas mal guardadas, mal archivadas o mal clasificadas. Los datos congruentes con
ActTemps
esta investigacin se encuentran en el archivo de datos ActTemps.
a) Use ActTemps para dar una estimacin puntual de los minutos por da perdidos por los
oficinistas en localizar cosas mal guardadas, mal archivadas o mal clasificadas.
b) Cul es la desviacin estndar muestral?
c) Proporcione un intervalo de confianza de 95% para la cantidad de minutos perdidos por da.
50. Se efectan pruebas de rendimiento de gasolina con un determinado modelo de automvil. Si se
desea dar un intervalo de confianza de 98% con un margen de error de 1 milla por galn, cun-
tos automviles debern usarse? Suponga que por pruebas anteriores se sabe que la desviacin
estndar del rendimiento es 2.6 millas por galn.
Ejercicios complementarios 337
51. Un centro mdico quiere estimar la media del tiempo que se necesita para programar una cita
de un paciente. De qu tamao deber ser la muestra si se quiere que el margen de error sea de
2 minutos y que el nivel de confianza sea 95%? De qu tamao deber tomarse la muestra si
se quiere que el nivel de confianza sea 99%? Para la desviacin estndar poblacional use 8 mi-
nutos como valor planeado.
52. BusinessWeek presenta datos sobre el sueldo anual ms bonos de presidentes ejecutivos (CEO).
En una muestra preliminar la desviacin estndar es $675; los datos se dan en miles de dlares.
De cuntos CEO deber constar la muestra si se quiere estimar el sueldo anual ms bonos con
un margen de error de $100 000? (Nota. El margen de error deseado ser E ! 100 si los datos
estn dados en miles de dlares.) Use 95% de confianza.
53. El National Center for Education Statistics informa que 47% de los estudiantes universitarios
trabaja para pagar sus estudios y su sustento. Suponga que se emple una muestra de 450 estu-
diantes en la investigacin.
a) Proporcione un intervalo de confianza de 95% para dicha proporcin poblacional.
b) Proporcione un intervalo de confianza de 99% para la proporcin poblacional de estu-
diantes que trabajan para mantenerse y pagar sus estudios.
c) Qu ocurre con el margen de error cuando el nivel de confianza aumenta de 95% a
99%?
54. En un estudio de USA Today/CNN/Gallup realizado con 369 padres que trabajan, se encontr
que 200 consideran que pasan muy poco tiempo con sus hijos debido a sus compromisos la-
borales.
a) Proporcione una estimacin puntual de la proporcin poblacional de padres que trabajan y
piensan que pasan muy poco tiempo con sus hijos debido a sus compromisos laborales.
b) Cul es el margen de error para 95% de confianza?
c) Cul es el intervalo de confianza de 95% para la proporcin poblacional de padres que
trabajan y piensan que pasan muy poco tiempo con sus hijos debido a sus compromisos
ocupacionales?
55. De qu le sera ms difcil prescindir: de su televisor o de su computadora? En un estudio
reciente efectuado con 1 677 usuarios de Internet en Estados Unidos, se encontr que a 74%
de la lite tecnolgica juvenil (edad promedio de 22 aos) le sera ms difcil prescindir de su
computadora (PC Magazine, 3 de febrero de 2004). Slo para 48% sera ms difcil renunciar
a su televisor.
a) Desarrolle un intervalo de confianza de 95% para la proporcin de jvenes a quienes les
sera difcil prescindir de su computadora.
b) Encuentre un intervalo de confianza de 99% para la proporcin de jvenes a quienes
les sera difcil renunciar a su televisor.
c) En cul de los incisos, a) o b), es mayor el margen de error? Explique por qu.
56. El aeropuerto internacional Cincinnati/Northern Kentucky obtuvo en 2005 el segundo lugar
en puntualidad en la llegada de vuelos entre los aeropuertos con ms actividad del pas (The
Cincinnati Enquirer, 3 de febrero de 2003). Suponga que esto se basa en una muestra de 550
vuelos, de los cuales 455 llegaron a tiempo.
a) Elabore una estimacin puntual de la tasa de llegadas puntuales (proporcin de vuelos que
llegan a tiempo) al aeropuerto.
b) Construya un intervalo de confianza de 95% para la proporcin poblacional de llegadas a
tiempo en todos los vuelos del aeropuerto en 2005.
57. El 2003 Statistical Abstract of the United States proporciona el porcentaje de personas de 18
aos o ms que fuma. Asuma que en un nuevo estudio para recabar datos sobre los fumadores
y no fumadores se usa 0.30 como estimacin preliminar de la proporcin que fuma.
a) De qu tamao deber tomarse la muestra para estimar la proporcin de fumadores con
un margen de error de 0.02? Use 95% de confianza.
b) Suponga que el estudio usa su recomendacin para el tamao de la muestra del inciso a)
y encuentra 520 fumadores. Cul es la estimacin puntual de la proporcin de fumadores
en la poblacin?
c) Cul es el intervalo de confianza de 95% para la proporcin de fumadores en la po-
blacin?
338 Captulo 8 Estimacin por intervalo
58. Una firma de tarjetas de crdito de un conocido banco desea estimar la proporcin de tarjetaha-
bientes que al final del mes tienen un saldo distinto de cero que ocasiona cargos. Suponga que
el margen de error deseado es 0.03 con 98% de confianza.
a) De qu tamao deber tomarse la muestra si se cree que 70% de los tarjetahabientes de la
firma tienen un saldo distinto de cero al final del mes?
b) De qu tamao deber tomarse la muestra si no se puede especificar ningn valor pla-
neado para la proporcin?
59. En un estudio se le solicit a 200 personas que indicaran su principal fuente de informacin
de noticias; 110 afirmaron que eran los noticieros de televisin.
a) Proporcione un intervalo de confianza de 95% para la proporcin poblacional de perso-
nas que tienen como principal fuente de noticias la televisin.
b) Cul ser el tamao de muestra necesario para estimar la proporcin poblacional con un
margen de error de 0.05 y 95% de confianza?
60. Aunque para los viajeros de negocios, los horarios y los costos son aspectos importantes al
elegir una lnea area, en un estudio realizado por USA Today se encontr que para este sector
el factor ms importante estriba en que la lnea tenga un programa de viajero frecuente. En
una muestra de n ! 1 993 pasajeros que participaron en la encuesta, 618 indicaron como factor
ms importante un programa de viajero frecuente.
a) Cul es la estimacin puntual de la proporcin poblacional de viajeros de negocios que
consideran el programa de viajero frecuente como el factor ms importante al elegir una
lnea area?
b) Proporcione un intervalo de confianza de 95% para estimar la proporcin poblacional.
c) De qu tamao deber ser la muestra para un margen de error de 0.01 con 95% de con-
fianza? Aconsejara que USA Today tratara de tener esta precisin? Por qu?
El archivo denominado Professional contiene las respuestas a estas preguntas. En la tabla 8.6
se muestra la parte de este archivo correspondiente a las respuestas de los primeros cinco en-
trevistados.
Caso a resolver 2 Gulf Real Estate Properties 339
Informe gerencial
Elabore un informe gerencial con los resultados del estudio. Adems de los resmenes estads-
ticos, analice cmo la revista puede usarlos para atraer ms anunciantes. Tambin presente una
recomendacin a los editores para que empleen los resultados en la eleccin de los temas de
inters para sus suscriptores. Su informe debe contener los siguientes puntos, pero no limite su
anlisis a estas reas.
Informe gerencial
1. Use la estadstica descriptiva apropiada para resumir cada una de las tres variables de
los 40 condominios con vista al golfo.
2. Aplique la estadstica descriptiva adecuada para resumir cada una de las tres variables
de los 18 condominios sin vista al golfo.
3. Compare los resultados. Analice cualquier estadstico especfico que ayude al agente de
ventas inmobiliarias a conocer ms sobre el mercado de los condominios.
* Datos sustentados en las ventas de condominios reportadas en el Naples MLS (Coldwell Banker, junio de 2000).
340 Captulo 8 Estimacin por intervalo
TABLA 8.7 Datos de venta de propiedades vendidas por Gulf Real State Properties
4. Proporcione un intervalo de confianza de 95% para estimar las medias poblacionales del
precio de venta (Sales Price) y del nmero de das necesario para vender (Days to Sell)
los condominios con vista al golfo. Interprete los resultados.
5. Encuentre un intervalo de confianza de 95% para estimar las medias poblacionales del
precio de venta y el nmero de das necesarios para vender los condominios sin vista
al golfo. Interprete los resultados.
6. Suponga que se necesita estimar el precio medio de venta de los condominios con vista
al golfo con un margen de error de $40 000 y el precio medio de venta de los condomi-
Apndice 8.1 Estimacin por intervalo con Minitab 341
nios sin vista al golfo con un margen de error de $15 000. Si se usa 95% de confianza,
de qu tamao debern ser las muestras?
7. Gulf Real Estate Properties firm contratos para dos nuevos catlogos: un condomi-
nio con vista al golfo con un precio de lista de $585 000 y un condominio sin vista al
golfo con un precio de $285 000. Cul es su estimado del precio final de venta y el
nmero de das requerido para vender cada una de estas unidades?
Informe gerencial
1. Use la estadstica descriptiva adecuada para resumir los datos sobre los problemas en la
transmisin.
2. Proporcione un intervalo de confianza de 95% para estimar, en la poblacin de autom-
viles con fallas en la transmisin, el nmero de millas promedio recorridas hasta que se
presenta el problema. Haga una interpretacin gerencial del intervalo estimado.
3. Analice las consecuencias de sus hallazgos en trminos de la creencia de que algunos
propietarios de automviles tuvieron problemas prematuros con la transmisin.
4. Cuntos registros de reparacin deben tomarse en la muestra si se desea estimar la
media poblacional del nmero de millas recorridas hasta la aparicin de problemas en
la transmisin con un margen de error de 5 000 millas? Use 95% de confianza.
5. Qu otra informacin deseara recolectar para evaluar mejor los problemas con la
transmisin?
Proporcin poblacional
La estimacin por intervalo se ilustra utilizando los datos de las mujeres golfistas presentados
WEB archivo en la seccin 8.4. Los datos aparecen en la columna C1 de la hoja de clculo de Minitab. Las
TeeTimes respuestas individuales se registraron como Yes (S) cuando la golfista est satisfecha con la
disponibilidad de horarios de salida y No, en caso contrario. Usando los pasos siguientes se
calcula un intervalo de confianza de 95% para estimar la proporcin de golfistas satisfechas con
la disponibilidad de los horarios de salida.
Paso 1. Seleccione el men Stat.
Paso 2. Elija Basic Statistics.
Paso 3. Elija 1 Proportion.
Paso 4. Cuando el cuadro de dilogo 1 Proportion aparezca:
Ingrese C1 en el cuadro Samples in columns.
Paso 5. Elija Options.
Paso 6. Cuando el cuadro de dilogo 1 Proportion-Options aparezca:
Seleccione Use test and interval based on normal distribution.
Haga clic en OK.
Paso 7. Haga clic en OK.
Apndice 8.2 Estimacin por intervalo usando Excel 343
Por omisin, Minitab emplea 95% como nivel de confianza. Para especificar otro nivel, como
90%, cuando aparezca el cuadro de dilogo 1 Proportion-Options en el paso 6, ingrese 90 en el
cuadro Confidence Level.
Nota. La rutina 1 Proportion de Minitab usa un ordenamiento alfabtico de las respuestas
y selecciona la segunda respuesta como la proporcin poblacional de inters. En el ejemplo de
las mujeres golfistas, Minitab maneja el orden alfabtico No-Yes y de esta manera da el inter-
valo de confianza para la proporcin de las respuestas Yes. Como Yes era la respuesta de inters,
los resultados de Minitab fueron los adecuados. Sin embargo, si el orden alfabtico no da la
respuesta de inters, se selecciona cualquier celda de la columna y se usa la secuencia: Editor
% Column % Value Order. Minitab le proporcionar la opcin de usar un orden especificado
por el usuario, pero usted debe ubicar en segundo lugar de la lista la respuesta de inters en el
cuadro define-an-order.
El resumen de estadsticas aparecer en las columnas C y D. Contine con el clculo del mar-
gen de error usando la funcin Confidence de Excel como sigue:
Paso 5. Seleccione la celda C16 e ingrese el ttulo Margin of error.
Paso 6. Elija la celda D16 e ingrese la frmula de Excel !CONFIDENCE(0.5,20,100).
Los tres parmetros de esta funcin son:
FIGURA 8.10 Estimacin por intervalo de la media poblacional de saldos en tarjetas de crdito
usando Excel
A B C D E F
1 NewBalance NewBalance
2 9 430
Estimacim puntual
3 7 535 Mean 9 312
4 4 078 Standard Error 478.9281
5 5 604 Median 9 466
6 5 179 Mode 13 627
7 4 416 Standard Deviation 4 007
8 10 676 Sample Variance 16 056 048
9 1 627 Kurtosis "0.296
10 10 112 Skewness 0.18792
11 6 567 Range 18 648
12 13 627 Minimum 615
13 18 719 Maximum 19 263
14 14 661 Sum 651 840
15 12 195 Count 70 Margen de error
16 10 544 Confidence Level(95.0%) 955.4354
Nota. Las filas 18 a 69 17 13 659
estn ocultas. 70 9 743
71 10 324
71
Apndice 8.2 Estimacin por intervalo usando Excel 345
Proporcin poblacional
Esta estimacin por intervalo se ilustra usando los datos del estudio de las mujeres golfistas
presentado en la seccin 8.4. Los datos se encuentran en la columna A de la hoja de clculo de
Excel. En la informacin recabada, una respuesta Yes (S) implica que la golfista est satisfe-
cha con los horarios de salida disponibles y No cuando no es el caso. Excel no proporciona una
rutina ya elaborada para la estimacin de una proporcin poblacional; sin embargo, es relati-
vamente fcil disponer una plantilla para usarla con tal propsito. La plantilla de la figura 8.11
WEB archivo proporciona un intervalo de confianza de 95% para la estimacin de la proporcin de golfis-
Interval p tas satisfechas con los horarios de salida disponibles. Observe que en la figura 8.11, en las
FIGURA 8.11 Plantilla de Excel para la estimacin por intervalo de una proporcin poblacional
A B C D
1 Response Interval Estimate of a Population Proportion
2 Yes
3 No Sample Size =COUNTA(A2:A901)
4 Yes Response of Interest Yes
5 Yes Count for Response =COUNTIF(A2:A901,D4)
6 No Sample Proportion =D5/D3
7 No
8 No Confidence Coefficient 0.95
9 Yes z Value =NORMSINV(0.5+D8/2)
10 Yes
11 Yes Standard Error =SQRT(D6*(1-D6)/D3)
12 No Margin of Error =D9*D11
13 No
14 Yes Point Estimate =D6
15 No Lower Limit =D14-D12
16 No Upper Limit =D14+D12
17 Yes
18 No A B C
901 Yes 1 Response Interval Estimate of a Population Proportion
902 2 Yes
3 No Sample Size 900
Ingrese la respuesta
4 Yes Response of Interest Yes de inters
5 Yes Count for Response 396
6 No Sample Proportion 0.4400
7 No Ingrese el coeficiente
8 No Confidence Coefficient 0.95 de confianza
9 Yes z Value 1.960
10 Yes
11 Yes Standard Error 0.0165
12 No Margin of Error 0.0324
13 No
14 Yes Point Estimate 0.4400
15 No Lower Limit 0.4076
16 No Upper Limit 0.4724
17 Yes
Nota. Las filas 19 a 900 18 No
estn ocultas. 901 Yes
902
346 Captulo 8 Estimacin por intervalo
celdas de la hoja de clculo que aparece en segundo plano, se presentan las frmulas que pro-
porcionan los resultados de la hoja de clculo que aparece en primer plano. Los siguientes son
los pasos para usar la plantilla con este archivo de datos.
Paso 1. Ingrese el rango de datos A2:A901 en la frmula !COUNTA de la celda D3.
Paso 2. Introduzca S como respuesta de inters en la celda D4.
Paso 3. Ingrese el rango de datos A2:A901 en la frmula !COUNTIF de la celda D5.
Paso 4. Incorpore 0.95 como coeficiente de confianza en la celda D8.
Esta plantilla proporciona automticamente los lmires inferior y superior del intervalo de con-
fianza en las celdas D15 y D16, y se usa para calcular un intervalo de confianza para la propor-
cin poblacional en otras aplicaciones. Por ejemplo, para calcular la estimacin por intervalo de
un nuevo archivo de datos, se ingresan los nuevos datos muestrales en la columna A de la ho-
ja de clculo y despus se modifican las cuatro celdas indicadas en los anteriores pasos. Si la
nueva muestra de datos ya ha sido resumida, no es necesario ingresar los datos muestrales en
la hoja de clculo. En este caso se ingresa el tamao de la muestra en la celda D3 y la propor-
cin muestral en la celda D6; la plantilla proporcionar el intervalo de confianza para la pro-
porcin poblacional. La hoja de clculo de la figura 8.11 se encuentra en el archivo Interval p
del sitio web del libro.
estimar la media poblacional del costo diario del alquiler de automviles medianos en Estados
Unidos. El director del proyecto especific que la media poblacional del costo del alquiler por
da debe estimarse con un margen de error de $2 y un nivel de confianza de 95%. Los datos
muestrales de un estudio anterior proporcionaron una desviacin estndar muestral de $9.65;
esta cifra se utilizar como el valor planeado de la desviacin estndar poblacional. Los pasos
siguientes pueden usarse para calcular el tamao de la muestra recomendado para proporcio-
nar un intervalo de confianza estimado de 95% de la media poblacional con un margen de error
de $2.
ESTADSTICA en LA PRCTICA
JOHN MORRELL & COMPANY*
CINCINNATI, OHIO
John Morrell & Company inici en Inglaterra en 1827 y es
considerado el fabricante de productos crnicos con opera-
cin continua ms antiguo de Estados Unidos. Es una
subsidiaria de propiedad absoluta y administrada indepen-
dientemente de Smithfield Foods, Smithfield, Virginia.
John Morrell & Company ofrece a los consumidores una
amplia lnea de productos de carne de puerco procesada
y fresca de 13 marcas regionales que comprenden John
Morrell, E-Z-Cut, Tobins First Prize, Dinner Bell, Hun-
ter, Kretschmar, Rath, Rodeo, Shenson, Farmers Hickory
Platillos totalmente listos para que el consumidor los caliente
Brand, Iowa Quality y Peytons. Cada marca regional dis-
y sirva en una charola incluida para horno de microondas.
fruta del reconocimiento y la lealtad de sus consumidores.
Cortesa de John Morrells Convenient Cuisine Products.
Las investigaciones de mercado de Morrell propor-
cionan a los directivos informacin actualizada acerca de
los diversos productos de la empresa y su posicin en re-
muestrales respaldan el rechazo de H0 en favor de la hi-
lacin con las otras marcas competidoras de productos si-
ptesis alternativa Ha, la empresa concluir que en una
milares. En un estudio reciente se compar uno de los
comparacin de los tres productos, el suyo es preferido por
productos de Morrell, Beef Pot Roast, con otros similares
ms de 50% de la poblacin de consumidores.
de dos de sus competidores principales. En esta prueba de
En un estudio independiente se efectu una prueba de
comparacin de los tres productos se emple una muestra
degustacin empleando una muestra de 224 consumido-
de consumidores para que indicaran cmo calificaban los
res de Cincinnati, Milwaukee y Los ngeles, en la que 150
productos en trminos de sabor, apariencia, aroma y pre-
eligieron el producto de Morrell como el de su preferencia.
ferencia en general.
A partir del procedimiento estadstico de prueba de hip-
Una de las cuestiones que se deseaba investigar era
tesis, la hiptesis nula fue rechazada. Mediante el estudio
si el producto de Morrell era la eleccin preferente de
se encontraron evidencias estadsticas que favorecan la Ha
ms de 50% de la poblacin de consumidores. Si p repre-
senta la proporcin poblacional que prefiere tal produc- y se lleg a la conclusin de que el producto de Morrell
to, la prueba de hiptesis para la cuestin que se investiga es preferido por ms de 50% de la poblacin de consu-
es la siguiente. midores.
La estimacin puntual de la proporcin poblacional
H0: p & 0.50 es p ! 150/224 ! 0.67. De este modo, los datos muestrales
Ha: p % 0.50 sirvieron para hacer publicidad en una revista de alimentos
en la cual se mostraba que en una comparacin del sabor
La hiptesis nula H0 indica que la preferencia por el pro- de los tres productos, el de Morrell era preferido en una
ducto de Morrell es menor o igual que 50%. Si los datos relacin 2 a 1 sobre los de la competencia.
En este captulo se estudiar cmo formular hiptesis y
* Los autores agradecen a Marty Butler, vicepresidente de Marketing
la forma de elaborar pruebas como la utilizada por Morrell.
de John Morrell, por proporcionar este artculo para Estadstica en la Mediante el anlisis de datos muestrales se podr determi-
prctica. nar si una hiptesis debe o no ser rechazada.
En los captulos 7 y 8 se describi cmo usar una muestra para calcular estimaciones puntua-
les y por intervalo de parmetros poblacionales. En este captulo se contina con el estudio
de la inferencia estadstica mostrando cmo usar la prueba de hiptesis para determinar si una
afirmacin acerca del valor de un parmetro poblacional debe o no ser rechazada.
En las pruebas de hiptesis se empieza por hacer un supuesto tentativo acerca del par-
metro poblacional. A este supuesto tentativo se le llama hiptesis nula, y se denota por H0.
Despus se define otra hiptesis, llamada hiptesis alternativa, que contradice lo que establece
350 Captulo 9 Pruebas de hiptesis
H0: & 24
Ha: % 24
Si los resultados muestrales llevan a la conclusin de rechazar H0, se puede hacer la inferencia
de que % 24 es verdadera. Los investigadores tendran el sustento estadstico necesario para
afirmar que el nuevo sistema de inyeccin de combustible aumenta el rendimiento medio en
millas por galn. Debera considerarse por tanto la produccin de automviles con el nuevo
sistema de inyeccin de combustible. Pero si los resultados obtenidos indican que no se puede
9.1 Formulacin de las hiptesis nula y alternativa 351
La conclusin de que la rechazar H0, los investigadores no pueden concluir que el nuevo sistema es mejor que el actual.
hiptesis de investigacin La produccin de automviles con el nuevo diseo no se puede justificar sobre la base de un
es verdadera se formula
millaje mayor por gasolina. Quiz ser necesario investigar ms y realizar futuras pruebas.
si los datos muestrales
proporcionan suficiente Las empresas exitosas se mantienen en la competencia desarrollando nuevos productos,
evidencia para demostrar mtodos, marcas, sistemas y similares, que son lo mejor de lo que se dispone en la actualidad.
que se puede rechazar la Antes de adoptar algo nuevo, es deseable realizar investigacin para determinar si hay sustento
hiptesis nula. estadstico para la conclusin de que el nuevo enfoque es en efecto mejor. En tales casos, la
hiptesis de investigacin se establece como la hiptesis alternativa. Por ejemplo, se desarro-
lla un mtodo nuevo de enseanza que se considera mejor que el actual. La hiptesis alternati-
va indica que el mtodo nuevo es mejor. La hiptesis nula establece que el mtodo nuevo no
es mejor que el antiguo. Se desarrolla un nuevo plan de bono para la fuerza de ventas en un
intento por aumentar estas ltimas. La hiptesis alternativa es que el nuevo plan de bono au-
mentar las ventas. La hiptesis nula es que el nuevo plan de bono no aumentar las ventas.
Se desarrolla un medicamento con el objetivo de reducir la presin arterial con mayor eficacia
que un medicamento ya existente. La hiptesis alternativa es que el nuevo frmaco reducir la
presin arterial ms que el anterior. La hiptesis nula indica que el nuevo medicamento no re-
ducir la presin arterial ms que la medicina existente. En cada caso, el rechazo de la hiptesis
nula H0 proporciona el sustento estadstico para la hiptesis de investigacin. Se vern muchos
ejemplos de pruebas de hiptesis en situaciones de investigacin como stas a lo largo de este
captulo y en lo que resta en el libro.
H0: $ 67.6
Ha: ' 67.6
Usualmente se asume como Una agencia gubernamental responsable de validar las etiquetas de fabricacin podra selec-
cierta la informacin que cionar una muestra de envases con bebida refrescante, calcular la media muestral del peso de
proporciona un fabricante
llenado y usar los resultados para probar las hiptesis anteriores. Si los resultados muestra-
acerca de su producto y se
establece como hiptesis les llevan a la conclusin de rechazar H0, se puede hacer la inferencia de que Ha: ' 67.6 es
nula. Puede formularse verdadera. Con este sustento estadstico, la agencia tiene justificada la conclusin de que la
la conclusin de que la leyenda no es correcta y se est realizando un llenado insuficiente de los envases. Se podrn
informacin no es correcta considerar acciones para obligar al fabricante a cumplir con los estndares del etiquetado. Pero
si la hiptesis nula es
si los resultados muestrales indican que no se puede rechazar H0, no es apropiado rechazar el
rechazada.
supuesto de que el etiquetado del fabricante es correcto. Con esta conclusin no se puede rea-
lizar ninguna accin.
352 Captulo 9 Pruebas de hiptesis
Analicemos ahora una variacin del ejemplo de las bebidas refrescantes viendo la misma
situacin desde la perspectiva del fabricante. La operacin de llenado de los envases est dise-
ada para completarlos con 67.6 onzas de lquido como se declara en la etiqueta. La empresa
no quiere llenar de manera incompleta los contenedores porque podra terminar en una queja
de los clientes por llenado insuficiente, o quizs hasta de una agencia gubernamental. Sin em-
bargo, tampoco quiere sobrellenar los contenedores, pues agregar ms bebida refrescante de la
apropiada podra resultar un costo innecesario. La meta de la empresa sera ajustar la operacin
de forma tal que la media poblacional del peso de llenado por envase sea 67.6 onzas de lquido
como se declara en la etiqueta.
Aunque sta es la meta de la empresa, de tiempo en tiempo cualquier proceso de produc-
cin puede salirse del ajuste. Si esto ocurre en el ejemplo, podra presentarse un llenado insu-
ficiente o en exceso de la bebida refrescante. En ambos casos la empresa quisiera saberlo a fin
de corregir la situacin reajustando la operacin de llenado a las 67.6 onzas de lquido progra-
madas. En una aplicacin de prueba de hiptesis, se empezara de nuevo con el supuesto de que
el proceso de produccin opera de forma correcta y establecer la hiptesis nula como ! 67.6
onzas de lquido. La hiptesis alternativa que rebate este supuesto sostiene que ( 67.6, la
cual indica que est ocurriendo llenado insuficiente o en demasa. Las hiptesis nula y alterna-
tiva de la prueba de hiptesis del fabricante son:
H0: ! 67.6
Ha: ( 67.6
Suponga que el fabricante utiliza un procedimiento de control de calidad para seleccionar pe-
ridicamente una muestra de envases de la operacin de llenado y calcular la media muestral
del peso de llenado por botella. Si los resultados muestrales llevan a la conclusin de rechazar
H0, se puede hacer la inferencia de que Ha: ( 67.6 es verdadera. Concluimos que los con-
tenedores no se estn llenando de manera apropiada y el proceso de produccin debe ajustarse
para restaurar la media poblacional a 67.6 onzas de lquido por envase. Pero si los resultados
muestrales indican que no se puede rechazar H0, no es posible descartar el supuesto de que la
operacin de llenado de los envases del fabricante funciona de manera apropiada. En este caso
no se tomara ninguna accin adicional y la produccin continuara adelante.
Las dos formas anteriores de pruebas de hiptesis del fabricante de bebidas refrescantes
muestran que las hiptesis nula y alternativa varan dependiendo del punto de vista del inves-
tigador o de quien toma las decisiones. Para formular hiptesis correctamente, es importante
comprender el contexto de la situacin y estructurarlas a efecto de proporcionar la informacin
que requiere el investigador o quien toma la decisin.
igualdad (ya sea $, & o !) debe aparecer siempre en la hiptesis nula. Al elegir la forma ade-
cuada para H0 y Ha hay que tener en mente que la hiptesis alternativa a menudo es lo que la
prueba trata de demostrar. Por tanto, preguntarse si el usuario busca evidencias en apoyo de
' 0 , % 0 , o ( 0 ayudar a determinar Ha. Los ejercicios siguientes tienen por objeto
aportar prctica en la eleccin de la forma adecuada de una prueba de hiptesis para la media
poblacional.
Ejercicios
1. El gerente del Danvers-Hilton Resort Hotel afirma que la cantidad media que gastan los hus-
pedes en un fin de semana es de $600 o menos. Un miembro del equipo de contadores observ
que en los ltimos meses haban aumentado tales cantidades. El contador emplea una muestra
de las cuentas de fin de semana de los huspedes para probar la afirmacin del gerente.
a) Qu forma de hiptesis deber usar para probar la afirmacin del gerente? Explique.
Condicin poblacional
H0 verdadera Ha verdadera
Conclusin Error
H0 es aceptada
correcta tipo II
Conclusin
Error Conclusin
H0 es rechazada
tipo I correcta
caso de que Ha sea verdadera. Desafortunadamente, las conclusiones correctas no siempre son
posibles. Como la prueba de hiptesis se basa en una informacin muestral, debe considerarse
que existe la posibilidad de error. La tabla 9.1 ilustra las dos clases de errores comunes en una
prueba de hiptesis.
En la primera fila se ilustra qu sucede cuando H0 es aceptada. Si H0 es verdadera, la con-
clusin es correcta. Pero si Ha es verdadera, se comete un error tipo II; es decir, H0 es aceptada
cuando es falsa. En la segunda fila de la tabla 9.1 se muestra qu sucede si la conclusin es
rechazar H0. Si H0 es verdadera, se comete un error tipo I; es decir, H0 es rechazada cuando
es verdadera. Pero si Ha es verdadera, es correcto rechazar H0.
Recuerde la prueba de hiptesis analizada en la seccin 9.1 en la cual un grupo de inves-
tigacin desarroll un nuevo sistema de inyeccin de combustible con objeto de aumentar el
rendimiento del hidrocarburo en un determinado modelo de automvil. Como con el sistema
actual el rendimiento promedio es 24 millas por galn, la prueba de hiptesis se formul como
sigue.
H0: & 24
Ha: % 24
La hiptesis alternativa, Ha: % 24, indica que los investigadores buscan evidencias muestra-
les que apoyen la conclusin de que con el nuevo sistema de inyeccin de combustible la media
poblacional del rendimiento es mayor que 24.
En esta aplicacin, el error tipo I de rechazar H0 cuando es verdadera implica que los in-
vestigadores afirmen que el nuevo sistema mejora el rendimiento de millas por galn ( % 24)
cuando en realidad no es nada mejor que el actual. En cambio, el error tipo II de aceptar H0 cuan-
do es falsa corresponde a la conclusin de los investigadores de que el nuevo sistema no es
mejor que el actual ( & 24) cuando en realidad s mejora el rendimiento de millas por galn.
En la prueba de hiptesis del rendimiento de millas por galn, la hiptesis nula es H0:
& 24. Admita que la hiptesis nula es verdadera como una igualdad; es decir ! 24. A la
probabilidad de cometer un error tipo I cuando la hiptesis nula es verdadera como igualdad
se le conoce como nivel de significancia. Por tanto, en la prueba de hiptesis del rendimiento
de combustible, el nivel de significancia es la probabilidad de rechazar H0: & 24 cuando
! 24. Dada la importancia de este concepto, se redacta otra vez la definicin de nivel de
significancia.
NIVEL DE SIGNIFICANCIA
Para denotar el nivel de significancia se usa la letra griega (alfa), y los valores que suelen
utilizarse para son 0.05 y 0.01.
En la prctica, el responsable de la prueba de hiptesis especifica el nivel de significan-
cia. Al elegir controla la probabilidad de cometer un error tipo I. Si el costo de cometer este
error es alto, los valores pequeos de son preferibles. Si el costo no es demasiado alto, en-
tonces usa valores mayores para . A las aplicaciones de la prueba de hiptesis en que slo se
controla el error tipo I se les llama pruebas de significancia. Muchas aplicaciones de las prue-
bas de hiptesis son de este tipo.
Aunque en la mayora de las aplicaciones de las pruebas de hiptesis se controla la pro-
babilidad de cometer un error tipo I, no siempre sucede lo mismo con uno tipo II. Por tanto,
Si los datos muestrales son si se decide aceptar H0, no es posible establecer el nivel de confianza en esa decisin. Debido
consistentes con la hiptesis a la incertidumbre asociada con el hecho de cometer un error tipo II al realizar una prueba de
nula H0 , se seguir la significancia, los profesionales de la estadstica suelen recomendar que se diga H0 no es recha-
prctica de concluir que
no es rechazada H0. Esta
zada en lugar de H0 es aceptada. Decir H0 no es rechazada implica la recomendacin de
conclusin es preferible reservarse tanto el juicio como la accin. En efecto, al no aceptar directamente H0, se evita el
a la de H0 es aceptada, riesgo de cometer un error tipo II. Siempre que no se determine y controle la probabilidad de
porque al aceptarla se corre cometerlo, no se dir H0 es aceptada. En esos casos slo son posibles dos conclusiones: H0 no
el riesgo de cometer un es rechazada o H0 es rechazada.
error tipo II.
Aunque es poco comn controlar el error tipo II en una prueba de hiptesis, es posible. En
las secciones 9.7 y 9.8 se ilustra el procedimiento para controlar y determinar la probabilidad
de cometer este tipo de error. Si se ha establecido un control adecuado del mismo, las medidas
basadas en la conclusin H0 es aceptada pueden ser adecuadas.
NOTAS Y COMENTARIOS
Walter Williams, columnista y profesor de economa para la aprobacin de medicamentos. Cuando incurre
de la Universidad George Mason, indica que existe en un error tipo I, la FDA no aprueba un medicamen-
siempre la posibilidad de cometer un error tipo I o to que es seguro y efectivo. Al cometer en un error
un error tipo II al tomar cualquier decisin (The Cin- tipo II, aprueba un frmaco que presenta efectos se-
cinnati Enquirer, 14 de agosto de 2005). Hace notar cundarios imprevistos. Sin importar la decisin que
que la Food and Drug Administration (FDA) corre el se tome, la probabilidad de cometer un error costoso
riesgo de cometer estos errores en sus procedimientos no se puede eliminar.
Ejercicios
5. Nielsen inform que los hombres jvenes estadounidenses ven diariamente 56.2 minutos de
AUTO evaluacin televisin en las horas de mayor audiencia (The Wall Street Journal Europe, 18 de noviem-
bre de 2003). Un investigador cree que en Alemania los jvenes ven ms tiempo la televisin
en las horas de mayor audiencia. Este investigador toma una muestra de hombres jvenes ale-
manes y registra el tiempo que ven televisin en un da. Los resultados muestrales se usan para
probar las siguientes hiptesis nula y alternativa.
se establece la hiptesis alternativa. Si denota la media poblacional del peso de llenado, las
hiptesis nula y alternativa son las siguientes.
H0: $ 3
H a: ' 3
Estadstico de prueba En el estudio de Hilltop Coffee las pruebas realizadas con ante-
rioridad por la FTC indican que la desviacin estndar poblacional se considera conocida, sien-
do su valor ! 0.18. Estas pruebas muestran tambin que se puede sostener que la poblacin
de los pesos de llenado tiene una distribucin normal. Segn lo estudiado en el captulo 7 so-
bre distribuciones de muestreo, sabemos que si la poblacin de la que se toma la muestra tiene
una distribucin normal, la distribucin de muestreo de x tambin es normal. En consecuen-
cia, en el estudio de Hilltop Coffee, la distribucin de muestreo de x ser normal. Con un valor
El error estndar de x conocido de ! 0.18 y un tamao de muestra de n ! 36, en la figura 9.1 se ilustra la distri-
es la desviacin estndar bucin de muestreo de x si la hiptesis nula, considerada como igualdad, es verdadera; es de-
de la distribucin de cir, cuando ! 0 ! 3.1 Observe que el error estndar de x est dado por x ! $"n !
muestreo de x.
0.18$ "36 ! 0.3.
Como la distribucin de muestreo de x est distribuida normalmente, la distribucin de
muestreo de
x " 0 x"3
z! !
x 0.03
1
Cuando se elaboran distribuciones de muestreo para una prueba de hiptesis, se asume que H 0 es satisfecha como
igualdad.
358 Captulo 9 Pruebas de hiptesis
Distribucin de muestreo
de x
0.18
x ! ! ! 0.03
n 36
x
!3
es una distribucin normal estndar. Si el valor de z ! "1, esto significa que el valor de x es un
error estndar menor que el valor hipottico de la media; si el valor de z ! "2, esto significa
que el valor de x es dos errores estndar menor que el valor hipottico de la media, y as suce-
sivamente. Para determinar la probabilidad que corresponde a cualquier valor de z en la cola
inferior se usa la tabla de probabilidad normal estndar. Por ejemplo, el rea en la cola inferior
para z ! "3.00 es 0.0013. As, la probabilidad de obtener un valor de z que sea tres o ms
errores estndar menor que la media es 0.0013. Como resultado, la probabilidad de registrar un
valor de x que sea 3 o ms errores estndar menor que la media poblacional hipottica 0 ! 3
tambin es 0.0013. Si la hiptesis nula es verdadera, un resultado as es poco probable.
En una prueba de hiptesis para la media poblacional en el caso de conocida, se emplea
la variable aleatoria normal estndar z como estadstico de prueba para determinar si x se
desva lo suficiente del valor hipottico de como para justificar el rechazo de la hiptesis
nula. Como x ! $"n, el estadstico de prueba es el siguiente.
x " 0
z! (9.1)
$"n
La cuestin clave en una prueba de cola inferior es: qu tan pequeo debe ser el estadstico
de prueba z para que se decida rechazar la hiptesis nula? Para responder esta pregunta se usan
dos mtodos: el mtodo del valor-p y el mtodo del valor crtico.
Mtodo del valor-p En este enfoque se usa el valor del estadstico de prueba z para
calcular una probabilidad llamada valor-p.
Ahora se ver cmo se calcula y utiliza el valor-p. Para el clculo, se usa el valor del esta-
dstico de prueba. El mtodo a seguir depende de si se trata de una prueba de cola inferior, de
cola superior o de dos colas. En la primera, el valor-p es la probabilidad de conseguir un valor
del estadstico de prueba tan pequeo o menor que el obtenido con la muestra. Por ende, para
calcular el valor-p en una prueba de cola inferior, en el caso de conocida, se debe determinar
el rea bajo la curva normal estndar para valores de z ! que el valor del estadstico de prueba.
Una vez calculado el valor-p, se debe decidir si es lo suficientemente pequeo para rechazar la
hiptesis nula. Como se ver ms adelante, para esta decisin hay que comparar el valor-p con
el nivel de significancia.
Ahora calculamos el valor-p para la prueba de cola inferior del estudio de Hilltop Coffee.
WEB archivo Suponga que en la muestra de las 36 latas de caf, la media muestral obtenida es x " 2.92 li-
Coffee bras. Es x " 2.92 lo suficientemente pequea para que se rechace H0? Como es una prueba
de cola inferior, el valor-p es el rea bajo la curva normal estndar para valores de z ! que
el valor del estadstico de prueba. Al usar x " 2.92, " 0.18 y n " 36, se determina el valor
del estadstico de prueba z.
x # 0 2.92 # 3
z" " " #2.67
$"n 0.18$"36
FIGURA 9.2 Valor-p en el estudio de Hilltop Coffee, en el que x " 2.92 y z " #2.67
Distribucin de muestreo x ! ! 0.03
de x
x
0 ! 3
x ! 2.92
Distribucin de muestreo
x"3
de z !
0.03
Valor-p ! 0.0038
z
z ! "2.67 0
360 Captulo 9 Pruebas de hiptesis
suficientemente pequeo como para que H0 sea rechazada? La respuesta depende del nivel de
significancia de la prueba.
Como se indic antes, el director del programa de pruebas de la FTC eligi como nivel de
significancia un valor de 0.01. Seleccionar ! 0.01 significa que l est dispuesto a tolerar
una probabilidad de 0.01 para rechazar la hiptesis nula cuando sea verdadera como igualdad
(0 ! 3). La muestra de 36 latas de Hilltop Coffee dio como resultado un valor-p ! 0.0038, lo
cual significa que la probabilidad de obtener x ! 2.92 o menor, si la hiptesis nula considera-
da como igualdad es verdadera, es 0.0038. Como 0.0038 es menor o igual que ! 0.01, H0 es
rechazada. De manera que para el nivel de significancia 0.01 se encontr evidencia estadstica
suficiente para rechazar la hiptesis nula.
Ahora se puede establecer ya la regla general para determinar cundo rechazar la hipte-
sis nula al usar el mtodo del valor-p. Dado un nivel de significancia , la regla para el rechazo
utilizando el mtodo del valor-p es la siguiente.
En la prueba para Hilltop Coffee, el valor-p de 0.0038 llev a que la hiptesis nula fuera
rechazada. Aunque la base para tomar la decisin del rechazo fue comparar el valor-p con el
nivel de significancia especificado por el director de la FTC, el valor-p observado de 0.0038
indica que H0 hubiera sido rechazada para cualquier valor de # 0.0038. Debido a esto, el
valor-p se conoce tambin como nivel de significancia observado.
Quienes toman decisiones pueden expresar opiniones distintas respecto del costo de come-
ter un error tipo I y elegir niveles de significancia distintos. Al proporcionar el valor-p como
parte de los resultados de la prueba de hiptesis, alguien que toma decisiones puede comparar
el valor-p con su propio nivel de significancia y posiblemente tome otra decisin respecto de
rechazar o no H0.
Mtodo del valor crtico En este mtodo primero se determina un valor para el estads-
tico de prueba llamado valor crtico. En una prueba de cola inferior ste sirve como punto de
referencia para determinar si el valor del estadstico de prueba es lo suficientemente pequeo
para rechazar la hiptesis nula. El valor crtico es el valor del estadstico de prueba que corres-
ponde a un rea de (nivel de significancia) en la cola inferior de la distribucin de muestreo
del estadstico. En otras palabras, es el mayor valor del estadstico de prueba que har que se
rechace la hiptesis nula. A continuacin, de nuevo con el ejemplo de Hilltop Coffee, se ver
cmo funciona este mtodo.
En el caso de conocida, la distribucin de muestreo del estadstico de prueba z es la dis-
tribucin normal estndar. Por tanto, el valor crtico es el valor del estadstico de prueba que
corresponde a un rea de ! 0.01 en la cola inferior de la distribucin normal estndar. En la
tabla de probabilidad normal estndar aparece que z ! $2.33 proporciona un rea de 0.01 en
la cola inferior (figura 9.3). De manera que si con la muestra se obtiene un valor del estadstico
de prueba menor o igual a $2.33, el valor-p correspondiente ser menor o igual a 0.01; en este
caso la hiptesis nula deber ser rechazada. Entonces, en el estudio de Hilltop Coffee la regla
para el rechazo usando el valor crtico para un nivel de significancia de 0.01 es
Distribucin de muestreo de
x " 0
z!
/ n
! 0.01
z
z ! "2.33 0
La regla de rechazo se puede generalizar empleando el mtodo del valor crtico para cual-
quier nivel de significancia. La regla de rechazo en una prueba de cola inferior es la siguiente.
Rechazar H0 si z " $z
En las pruebas de hiptesis, el mtodo del valor-p y el mtodo del valor crtico llevarn
siempre a la misma decisin de rechazo; esto es, siempre que el valor-p sea menor o igual que
, el valor del estadstico de prueba ser menor o igual al valor crtico. La ventaja del mtodo
del valor-p radica en que dice cun significativos son los resultados (el nivel de significancia
observado). Si se usa el mtodo del valor crtico, slo se sabe que los resultados son significati-
vos al nivel de significancia establecido.
Al principio de esta seccin se dijo que las pruebas de una cola, para la media poblacional,
toman una de las dos formas siguientes.
El estudio de Hilltop Coffee sirvi para ilustrar cmo realizar una prueba de cola inferior. El
mismo mtodo general se usa para realizar una prueba de cola superior. Para sta tambin se
calcula el estadstico de prueba z usando la ecuacin (9.1). Pero en una prueba de cola superior
el valor-p es la probabilidad de obtener un valor para el estadstico de prueba tan grande o
mayor que el obtenido con la muestra. Por tanto, para calcular el valor-p de una prueba de cola
superior en el caso de conocida, es necesario determinar el rea bajo la curva normal estndar
a la derecha del estadstico de prueba. Utilizando el mtodo del valor crtico, la hiptesis nula
es rechazada si el valor del estadstico de prueba es mayor o igual al valor crtico z; en otras
palabras, H0 es rechazada si z # z.
362 Captulo 9 Pruebas de hiptesis
H0: ! 0
Ha: " 0
En esta subseccin se muestra cmo realizar una prueba de dos colas para la media poblacio-
nal en el caso en que se conoce . Como ilustracin, se considera el caso de una prueba de hi-
ptesis en la empresa MaxFlight, Inc.
La U.S. Golf Association (USGA), establece reglas que deben satisfacer los fabricantes de
equipos de golf si quieren que sus productos sean aceptados en los eventos de la organizacin.
MaxFlight emplea procesos de manufactura de alta tecnologa para fabricar pelotas de golf
que tienen una distancia media de recorrido de 295 yardas. Sin embargo, algunas veces el pro-
ceso se desajusta y se fabrican pelotas que tienen una distancia media de recorrido diferente.
Cuando la distancia media es menor que 295 yardas, a la empresa le preocupa perder clientes
porque las pelotas de golf no proporcionen la medida anunciada. Cuando es mayor de 295 yar-
das, las pelotas de MaxFlight pueden ser rechazadas por la USGA por exceder los estndares
respecto de distancia de recorrido y rodaje.
El programa de control de calidad de la empresa consiste en tomar muestras peridicas de
50 pelotas de golf para monitorear el proceso de manufactura. Con cada muestra se realiza una
prueba de hiptesis para determinar si el proceso se ha desajustado. Para elaborar las hipte-
sis nula y alternativa se empieza por suponer que el proceso est funcionando correctamente; es
decir, las pelotas de golf que se fabrican alcanzan una distancia media de 295 yardas. Este es el
supuesto que establece la hiptesis nula. La hiptesis alternativa indica que la distancia media
no es igual 295 yardas. Como el valor hipottico es 0 ! 295, las hiptesis nula y alternativa
en el caso de la prueba de hiptesis de MaxFlight son las siguientes.
H0: ! 295
Ha: " 295
12
x ! ! ! 1.7
"n "50
Como el tamao de la muestra es grande, el teorema del lmite central (captulo 7) permite con-
cluir que la distribucin de muestreo de x puede aproximarse mediante una distribucin nor-
mal. En la figura 9.4 se ilustra la distribucin de muestreo de x para la prueba de hiptesis de
MaxFlight con una media poblacional hipottica de 0 ! 295.
Suponga que se toma una muestra de 50 pelotas de golf y que la media muestral es x !
WEB archivo 297.6 yardas. Esta media muestral favorece la conclusin de que la media poblacional es ma-
GolfTest yor de 295 yardas. Este valor de x es suficientemente mayor que 295 para hacer que H0 sea
rechazada a un nivel de significancia de 0.05? En la seccin anterior se describieron dos mto-
dos que pueden utilizarse para responder esta pregunta: el mtodo del valor-p y el mtodo del
valor crtico.
9.3 Media poblacional: conocida 363
Distribucin de muestreo
de x
12
x ! ! ! 1.7
n 50
0 ! 295
Mtodo del valor-p Recuerde que el valor-p es la probabilidad que sirve para determi-
nar si la hiptesis nula es rechazada. En una prueba de dos colas, los valores del estadstico
de prueba en ambas colas proporcionan evidencias contra la hiptesis nula. En este tipo de prue-
ba el valor-p es la probabilidad de obtener un valor para el estadstico de prueba tan improbable
o ms improbable que el obtenido con la muestra. A continuacin veremos cmo se calcula el
valor-p en la prueba de hiptesis de MaxFlight.
Primero calculamos el valor del estadstico de prueba. En el caso en que se conoce , el
estadstico de prueba z es la variable aleatoria normal estndar. Empleando la ecuacin (9.1) con
x ! 297.6, el valor del estadstico de prueba es
x # 0 297.6 # 295
z! ! ! 1.53
$"n 12$"50
Ahora, para calcular el valor-p hay que encontrar la probabilidad de obtener, para el estadsti-
co de prueba, un valor por lo menos tan improbable como z ! 1.53. Es claro que los valores
z $ 1.53 son por lo menos igual de improbables. Pero como sta es una prueba de dos colas,
los valores z % #1.53 tambin son al menos tan improbables como el valor del estadstico de
prueba obtenido con la muestra. En la figura 9.5 vemos que el valor-p para dos colas est dado,
z
#1.53 0 1.53
en este caso, por P(z ! "1.53) # P(z $ 1.53). Como la curva normal es simtrica, calculamos
la probabilidad determinando el rea bajo la curva normal estndar a la derecha de z % 1.53 y la
duplicamos. La tabla de la distribucin normal estndar indica que el rea a la izquierda de
z % 1.53 es 0.9370. Entonces, el rea bajo la curva normal estndar a la derecha de z % 1.53 es
1.0000 " 0.9370 % 0.0630. Al duplicar esta cantidad, encontramos que en la prueba de hipte-
sis de dos colas de MaxFlight el valor-p % 2(0.0630) % 0.1260.
Ahora se compara el valor-p con el nivel de significancia para ver si la hiptesis nula es
rechazada. Como el nivel de significancia es de % 0.05, la hiptesis nula no es rechazada,
porque el valor-p % 0.1260 & 0.05. Como no hay rechazo, no es necesario tomar medidas para
ajustar el proceso de manufactura de MaxFlight.
El clculo del valor-p en una prueba de dos colas puede parecer un poco complicado en
comparacin con el clculo del valor-p en las pruebas de una cola, pero se simplifica mediante
los siguientes tres pasos.
Mtodo del valor crtico Antes de dejar esta seccin, se ver la forma de comparar el
valor del estadstico de prueba z con un valor crtico para tomar la decisin en una prueba de
dos colas. En la figura 9.6 se aprecia que los valores crticos en esta prueba se encuentran tanto
en la cola superior como en la cola inferior de la distribucin normal estndar. Si el nivel de
significancia es % 0.05, en cada cola, el rea ms all del valor crtico es /2 % 0.05/2 %
0.025. En la tabla de probabilidad normal estndar se encuentra que los valores crticos para
el estadstico de prueba son "z0.025 % "1.96 y z0.025 % 1.96. Entonces, al utilizar el mtodo del
valor crtico, la regla de rechazo para dos colas es:
z
"1.96 0 1.96
Rechazar H0 Rechazar H0
9.3 Media poblacional: conocida 365
TABLA 9.2 Resumen de las pruebas de hiptesis para la media poblacional: caso con conocida
El consejo prctico acerca del tamao de la muestra para pruebas de hiptesis es seme-
jante a la recomendacin sugerida en el captulo 8 con respecto a la estimacin por intervalo.
En la mayor parte de las aplicaciones, para el procedimiento de prueba de hiptesis revisado
en esta seccin, un tamao de muestra n ! 30 es adecuado. En los casos en los que el tamao
sea menor de 30, la distribucin de la poblacin de la cual se toma la muestra se vuelve una
consideracin importante. Si la poblacin tiene una distribucin normal, el procedimiento de
prueba de hiptesis descrito es exacto y puede utilizarse con cualquier tamao de muestra. Si la
poblacin no tiene una distribucin normal, pero es por lo menos aproximadamente simtrica,
con tamaos de muestra hasta de 15 pueden esperarse resultados aceptables.
366 Captulo 9 Pruebas de hiptesis
x ( z/2
"n
En este captulo se mostr que una prueba de hiptesis de dos colas para la media poblacional
tiene la siguiente forma.
H0: # 0
Ha: & 0
El uso del mtodo del intervalo de confianza para realizar una prueba de hiptesis se ilus-
trar empleando el ejemplo de MaxFlight. Esta prueba de hiptesis tiene la forma siguiente.
H0: # 295
Ha: & 295
2
Para ser congruentes con la regla para rechazar H0 cuando el valor-p " , se debe rechazar H0 utilizando el mtodo del
intervalo de confianza si ocurre que 0 es igual a uno de los puntos finales del intervalo de 100(1 ' )%.
9.3 Media poblacional: conocida 367
Para probar esta hiptesis con un nivel de confianza de # 0.05, se tom una muestra de 50
pelotas de golf y se encontr una distancia media muestral de x # 297.6 yardas. Recuerde que
la desviacin estndar poblacional es # 12. Al aplicar estos resultados a z0.025 # 1.96, obte-
nemos que el intervalo de 95% de confianza para estimar la media poblacional es
x ( z 0.025
"n
12
297.6 ( 1.96
"50
297.6 ( 3.3
294.3 a 300.9
Este hallazgo permite al gerente de control de calidad concluir que con 95% de confianza la
distancia media para la poblacin de pelotas de golf est entre 294.3 y 300.9 yardas. Como el
valor hipottico de la media poblacional 0 # 295 est en dicho intervalo, la conclusin de la
prueba de hiptesis es que no se puede rechazar la hiptesis nula, H0: # 295.
Preste atencin a que estos anlisis y ejemplo pertenecen a pruebas de hiptesis de dos
colas para la media poblacional. Sin embargo, la misma relacin entre intervalo de confianza y
prueba de hiptesis de dos colas existe para otros parmetros poblacionales. Esta relacin tam-
bin se extiende a pruebas de hiptesis de una cola para parmetros poblacionales; sin embargo,
para ello se pide elaborar intervalos de confianza unilaterales que son muy poco utilizados en
la prctica.
NOTAS Y COMENTARIOS
Se mostr cmo usar el valor-p. Entre menor sea s- Entre 0.01 y 0.05: fuerte evidencia para con-
te, mayor es la evidencia en contra de H0 y a favor cluir que Ha es verdadera.
de Ha. A continuacin se listan algunos lineamientos Entre 0.05 y 0.10: evidencia dbil para con-
que los expertos en estadstica recomiendan para in- cluir que Ha es verdadera.
terpretar valores-p pequeos. Mayor que 0.10: evidencia insuficiente para
concluir que Ha es verdadera.
Menor que 0.01: evidencia terminante para
concluir que Ha es verdadera.
Ejercicios
Nota para el estudiante. En algunos ejercicios que siguen se pide usar el mtodo del valor-p y en
otros el mtodo del valor crtico. Ambos llevarn a la misma conclusin en una prueba de hipte-
sis. Se presentan ejercicios con ambos mtodos para que el lector adquiera prctica en su uso. En las
secciones y captulos posteriores se preferir usar el enfoque del valor-p, pero el estudiante puede
elegir el que prefiera.
Mtodos
9. Considere la prueba de hiptesis siguiente.
H0: ! 20
Ha: $ 20
368 Captulo 9 Pruebas de hiptesis
H0: ! 80
Ha: $ 80
Se utiliz una muestra de 100 y la desviacin estndar poblacional es 12. Calcule el valor-p y
establezca su conclusin para cada uno de los resultados muestrales siguientes. Use # 0.01.
a) x # 78.5
b) x # 77
c) x # 75.5
d) x # 81
13. Considere la prueba de hiptesis siguiente.
H0: " 50
Ha: % 50
H0: # 22
Ha: & 22
9.3 Media poblacional: conocida 369
Con una muestra de 75, la desviacin estndar poblacional es 10. Calcule el valor-p y establezca
sus conclusiones para cada uno de los resultados muestrales siguientes. Use # 0.01.
a) x # 23
b) x # 25.1
c) x # 20
Aplicaciones
15. Las declaraciones de impuestos presentadas antes del 31 de marzo obtienen un reembolso
AUTO evaluacin que en promedio es de $1 056. Considere la poblacin de los contribuyentes de ltima ho-
ra que presentan su declaracin en los ltimos cinco das del periodo para este trmite (nor-
malmente del 10 al 15 de abril).
a) Un investigador sugiere que la razn por la que estos declarantes esperan hasta los lti-
mos das se debe a que en promedio obtienen un reembolso menor que los que declaran
antes del 31 de marzo. Establezca las hiptesis apropiadas de manera que el rechazo de H0
favorezca la sugerencia de este investigador.
b) En una muestra de 400 personas que presentaron su declaracin entre el 10 y el 15 de
abril, la media muestral de los reembolsos fue $910. Por experiencia se sabe que es posi-
ble considerar que la desviacin estndar poblacional es # $1 600. Cul es el valor-p?
c) Con # 0.05, cul es su conclusin?
d) Repita la prueba de hiptesis anterior usando el mtodo del valor crtico.
16. En un estudio acerca de cmo utilizan las tarjetas de crdito los estudiantes no titulados, se
report que este tipo de poblacin tiene un saldo medio en su tarjeta de crdito de $3 173
(Sallie Mae, abril de 2009). Tal cifra fue la ms alta de todos los tiempos y tuvo un incremen-
to de 44% sobre la de los cinco aos previos. Suponga que se realiza un estudio actual para
determinar si es posible concluir que el saldo medio en la tarjeta de crdito de estudiantes no
titulados ha continuado en aumento comparado con el informe de abril de 2009. Con base en
reportes previos, utilice una desviacin estndar poblacional de # $1 000.
a) Establezca las hiptesis nula y alternativa.
b) Cul es el valor-p de una muestra de 180 estudiantes no titulados con un saldo medio
muestral en su tarjeta de crdito de $3 325?
c) Usando un nivel de significancia de 0.05, cul es su conclusin?
17. Las sociedades de valores de Wall Street pagaron en 2005 gratificaciones de fin de ao de
$125 500 por empleado (Fortune, 6 de febrero de 2006). Suponga que se desea tomar una
muestra de los empleados de la empresa de valores Jones & Ryan para ver si la media de la
gratificacin de fin de ao es diferente de la media de $125 500 reportada para la poblacin.
a) Establezca las hiptesis nula y alternativa que se usaran para probar si las gratificaciones
de fin de ao de Jones & Ryan difieren de la media poblacional.
b) Suponga que una muestra de 40 empleados de Jones & Ryan exhibi una media mues-
tral de las gratificaciones de $118 000. Suponga que la desviacin estndar poblacional es
# $30 000 y calcule el valor-p.
c) Con # 0.05 como nivel de significancia, cul es su conclusin?
d) Repita esta prueba de hiptesis usando el mtodo del valor crtico.
18. La rentabilidad total anual promedio de los fondos de inversin de U.S. Diversified Equity de
1999 a 2003 fue de 4.1% (BusinessWeek, 26 de enero de 2004). Un investigador desea realizar
una prueba de hiptesis para saber si los rendimientos de determinados fondos de crecimiento
(mid-cap growth funds) difieren de manera significativa del promedio de los fondos de U.S.
Diversified Equity.
a) Establezca las hiptesis que se pueden usar para determinar si la rentabilidad anual me-
dia de estos fondos difiere de la media de los fondos de U.S. Diversified Equity.
b) En una muestra de 40 fondos el rendimiento medio fue de x # 3.4%. Suponga que
por estudios anteriores se sabe que la desviacin estndar poblacional de estos fondos es
# 2%. Use los resultados muestrales para calcular el estadstico de prueba y el valor-p
para la prueba de hiptesis.
c) Con # 0.05, cul es su conclusin?
370 Captulo 9 Pruebas de hiptesis
19. El U.S. Department of Labor inform que los ingresos promedio para los trabajadores esta-
dounidenses de la produccin en 2001 era $14.32 por hora (The World Almanac, 2003). En
una muestra de 75 trabajadores tomada en 2003, la media muestral fue $14.68 por hora. Si la
desviacin estndar poblacional es # $1.45, se puede concluir que ha habido un aumento
en la media de las ganancias por hora? Use # 0.05.
20. En Estados Unidos, un hogar paga en promedio $32.79 mensuales por el servicio de Internet
(CNBC, 18 de enero de 2006). En una muestra de 50 hogares de un estado del sur la media
muestral fue $30.63. Use la desviacin estndar poblacional de # $5.60.
a) Formule las hiptesis para una prueba en la que se quiere determinar si los datos muestra-
les favorecen la conclusin de que la cantidad media mensual pagada por el servicio de
Internet en este estado del sur es menor a la media de todo el pas, que es de $32.79.
b) Cul es el valor del estadstico de prueba?
c) Cul es el valor-p?
d) Con # 0.01, qu concluye?
21. Fowle Marketing Research, Inc. tasa la tarifa que cobra a sus clientes en el supuesto de que
WEB archivo una encuesta por telfono se realiza en un promedio de 15 minutos o menos. Si se requiere
Fowle
ms tiempo en promedio, se cobra una cantidad adicional. La duracin de las encuestas en una
muestra de 35 de ellas se presentan en el archivo Fowle. Por estudios anteriores se puede con-
siderar que la desviacin estndar poblacional es conocida y que es # 4 minutos. El cobro
de la cantidad adicional est justificado?
a) Formule las hiptesis nula y alternativa para esta aplicacin.
b) Calcule el valor del estadstico de prueba.
c) Cul es el valor-p?
d) Con # 0.01, cul es su conclusin?
22. CNN y ActMedia presentaron un canal de televisin dirigido a las personas que esperan en las
colas de los supermercados. En este canal se transmitan noticias, reportajes cortos y publi-
cidad. La duracin de la programacin se basaba en el supuesto de que la media poblacional
del tiempo que los clientes esperan en la fila de la caja es 8 minutos. Se utilizar una mues-
tra de tiempos de espera reales para probar ese supuesto y determinar si el tiempo medio de
espera difiere de ese estndar.
a) Formule las hiptesis para esta aplicacin.
b) En una muestra de 120 clientes, la media muestral de tiempo de espera fue 8.5 minutos.
Suponga que la desviacin estndar poblacional es # 3.2 minutos. Cul es el valor-p?
c) Con # 0.05, cul es su conclusin?
d) Calcule un intervalo de 95% de confianza para la media poblacional. Esto sustenta su
conclusin?
En la seccin 8.2 se vio que una estimacin por intervalo de la media poblacional en el
caso de desconocida se basa en una distribucin de probabilidad llamada distribucin t. Las
pruebas de hiptesis para la media poblacional cuando no se conoce tambin se basan en la
distribucin t. Para desconocida, el estadstico de prueba tiene distribucin t con n ' 1 gra-
dos de libertad.
x ' 0
t# (9.2)
s$"n
H0: " 7
Ha: % 7
t # 1.84
Como se ve, t # 1.84 est entre 1.671 y 2.001. Aunque esta tabla no proporciona el valor
exacto de t, los valores en la fila rea en la cola superior indican que el valor-p debe ser me-
nor que 0.05 y mayor que 0.025. Con un nivel de significancia # 0.05, esto es todo lo que se
necesita saber para rechazar la hiptesis nula y concluir que Heathrow debe ser considerado un
aeropuerto de servicio superior.
El apndice F indica cmo Debido a que es engorroso usar una tabla t para calcular los valores-p, y puesto que slo
calcular los valores-p se pueden obtener valores-p aproximados, se mostrar cmo calcular valores-p exactos usando
usando Excel o Minitab.
Excel o Minitab. Estas instrucciones se encuentran al final del libro, en el apndice F. Usan-
do ambos programas con t # 1.84, el valor-p que se obtiene en la cola superior es 0.0354 para
la prueba de hiptesis del aeropuerto de Heathrow. Como 0.0354 < 0.05, la hiptesis nula es
rechazada y se concluye que ste se debe considerar un aeropuerto de servicio superior.
H0: # 40
Ha: & 40
Si H0 no puede ser rechazada, Holiday continuar con la produccin planeada con base en la
estimacin del director de Marketing de que la media poblacional de la cantidad solicitada por
punto de venta ser # 40 unidades. Pero si H0 es rechazada, Holiday reevaluar de inmediato
su plan de produccin de este juguete. Se usa una prueba de dos colas porque la empresa quiere
reevaluar su plan de produccin si la media poblacional de la cantidad demandada por punto
de venta es menor o mayor a la prevista. Como no se cuenta con datos histricos (se trata de un
producto nuevo), la media poblacional y la desviacin estndar poblacional deben estimarse
usando los valores x y s que se obtengan con los datos muestrales.
En la muestra de 25 puntos de venta la media que se obtiene es x # 37.4 y la desviacin
WEB archivo estndar s # 11.79 unidades. Antes de usar la distribucin t, el analista elabora un histogra-
ma con los datos muestrales con objeto de ver cul es la forma de la distribucin poblacional.
Orders
El histograma no indica evidencias de sesgo ni de valores atpicos, de manera que el analista
9.4 Media poblacional: desconocida 373
concluye que es adecuado usar la distribucin t con n ' 1 # 24 grados de libertad. Usando
la ecuacin (9.2) con x # 37.4, 0 # 40, s # 11.79 y n # 25, el valor que se obtiene para el
estadstico de prueba es
Como se trata de una prueba de dos colas, el valor-p es el doble del rea bajo la curva de la
distribucin t para t " '1.10. En la tabla 2 del apndice B, la fila de la distribucin t para 24
grados de libertad proporciona la informacin siguiente.
t # 1.10
La tabla de distribucin t slo contiene valores t positivos. Sin embargo, como la distribu-
cin t es simtrica, el rea bajo la curva a la derecha de t # 1.10 es igual al rea bajo la curva
a la izquierda de t # '1.10. Se encuentra as que t # 1.10 est entre 0.857 y 1.318. En la fila
rea en la cola superior se ve que el rea en la cola a la derecha de t # 1.10 est entre 0.20 y
0.10. Duplicando estas cantidades, el valor-p debe estar entre 0.40 y 0.20. Como el nivel de sig-
nificancia es # 0.05, se ve que el valor-p es mayor que . Por tanto, H0 no puede ser rechaza-
da. No hay evidencia suficiente para concluir que Holiday deba modificar su plan de produccin
para la temporada siguiente.
En el apndice F se indica cmo calcular el valor-p para esta prueba usando Minitab o
Excel. El valor-p que se obtiene es 0.2822. Con el nivel de significancia # 0.05, H0 no puede
ser rechazada, dado que 0.2822 % 0.05.
Para tomar la decisin en esta prueba de dos colas tambin se puede comparar el estadstico
de prueba con el valor crtico. Usando # 0.05 y la distribucin t con 24 grados de libertad,
't0.025 # '2.064 y t0.025 # 2.064 son los valores crticos para la prueba de dos colas. La regla
de rechazo usando el estadstico de prueba es
Con base en el estadstico de prueba t # '1.10, H0 no puede ser rechazada. Este resultado
indica que Holyday puede continuar con su plan de produccin para la temporada prxima con
base en la expectativa de # 40.
TABLA 9.3 Resumen de las pruebas de hiptesis para la media poblacional: caso de desconocida
Ejercicios
Mtodos
23. Considere la prueba de hiptesis siguiente.
H0: " 12
Ha: % 12
H0: ! 45
Ha: $ 45
Se usa una muestra de 36. Identifique el valor-p y establezca su conclusin para cada uno de
los siguientes resultados muestrales. Use # 0.01.
a) x # 44 y s # 5.2
b) x # 43 y s # 4.6
c) x # 46 y s # 5.0
9.4 Media poblacional: desconocida 375
H0: # 100
Ha: & 100
Se utiliza una muestra de 65. Identifique el valor-p y establezca su conclusin para cada uno
de los siguientes resultados muestrales. Use # 0.05.
a) x # 103 y s # 11.5
b) x # 96.5 y s # 11
c) x # 102 y s # 10.5
Aplicaciones
27. La Employment and Training Administration inform que la prestacin media del seguro
AUTO evaluacin de desempleo es de $238 por semana (The World Almanac, 2003). Un investigador del esta-
do de Virginia anticip que datos muestrales indicarn que la prestacin media semanal del
seguro de desempleo en ese estado es menor que la media de todo el pas.
a) Establezca las hiptesis adecuadas de manera que el rechazo de H0 favorezca la afirma-
cin del investigador.
b) En una muestra de 100 individuos, la media muestral semanal del seguro de desempleo
encontrada fue $231, con una desviacin estndar muestral de $80. Cul es el valor-p?
c) Si # 0.05, cul es su conclusin?
d) Repita la prueba de hiptesis anterior utilizando el mtodo del valor crtico.
28. Al presentar una protesta, un grupo de accionistas exige que la media de permanencia de un
presidente ejecutivo (CEO) sea de por lo menos nueve aos. En una encuesta de empresas
publicada en The Wall Street Journal se encontr una media muestral de permanencia de los
CEO de x # 7.27 aos, con una desviacin estndar de s # 6.38 aos (The Wall Street Journal,
2 de enero de 2007).
a) Formule las hiptesis que se usarn para rebatir la validez de la exigencia del grupo de
accionistas.
b) Suponga que en la muestra se incluyeron 85 empresas. Cul es el valor-p para la prueba
de hiptesis?
c) Con # 0.01, cul es su conclusin?
29. El precio de un diamante de un quilate de color H y pureza VS2 de Diamond Source USA es
WEB archivo $5 600 (sitio web de Diamond Source, marzo de 2003). Un joyero del medio oeste llama a sus
Diamonds
contactos en el distrito de los diamantes de Nueva York para saber si el precio medio de los que
venden en ese lugar difiere de $5 600.
a) Formule las hiptesis que se usarn para determinar si el precio medio en Nueva York
difiere de $5 600.
b) Los precios en una muestra de 25 contactos en la ciudad de Nueva York se presentan en
el archivo Diamonds. Cul es el valor-p?
c) Con # 0.05, es posible rechazar la hiptesis nula? Cul es su conclusin?
d) Repita la prueba de hiptesis anterior usando el mtodo del valor crtico.
30. CNN, compaa de AOL Time Warner Inc., tiene el liderazgo de noticias en televisin por
cable. Nielsen Media Research indica que en 2002 la media de la audiencia de CNN fue de
600 000 espectadores por da (The Wall Street Journal, 10 de marzo de 2003). Suponga que en
una muestra de 40 das durante la primera mitad de 2003, la cantidad diaria de espectadores
haya sido de 612 000, con una desviacin estndar muestral de 65 000 sujetos.
a) Cules son las hiptesis si el director de CNN desea informacin sobre cualquier cambio
en la cantidad de espectadores de la empresa?
b) Cul es el valor-p?
c) Elija su propio nivel de significancia. Cul es su conclusin?
d) Qu recomendacin le hara al director de CNN en esta aplicacin?
31. The Coca-Cola Company report que la media de ventas anuales per cpita de sus bebidas en
Estados Unidos fue de 423 botellas de 8 onzas (sitio web de Coca-Cola Company, 3 de febrero
376 Captulo 9 Pruebas de hiptesis
32. Segn la National Automobile Dealers Association, el precio medio de un automvil usado es
WEB archivo de $10 192. El gerente de una distribuidora de la ciudad de Kansas revis una muestra de 50
UsedCars
automviles usados vendidos recientemente en ese establecimiento, con objeto de determinar
si la media poblacional de sus precios difera del precio medio en todo el pas. Los precios de
los 50 automviles se encuentran en el archivo denominado UsedCars.
a) Formule las hiptesis que se usarn para determinar si existe diferencia en el precio medio
de los automviles usados de la distribuidora.
b) Cul es el valor-p?
c) Con # 0.05, cul es su conclusin?
33. El consumo anual per cpita de leche en Estados Unidos es de 21.6 galones (Statistical Abstract
of the United States: 2006). Usted cree que en el oeste medio el consumo de leche es mayor
y desea fundamentar su opinin. En una muestra de 16 personas de Webster City, pueblo del
oeste medio, la media muestral del consumo anual es de 24.1 galones y la desviacin estn-
dar es s # 4.8.
a) Elabore una prueba de hiptesis que se pueda usar para determinar si el consumo medio
anual en Webster City es mayor que la media nacional.
b) Cul sera una estimacin puntual de la diferencia entre el consumo medio anual en
Webster City y la media nacional?
c) Con # 0.05 pruebe si hay una diferencia significativa. Cul es su conclusin?
34. Joans Nursery se especializa en jardines de zonas residenciales diseados segn el gusto del
cliente. La estimacin del precio de un proyecto se basa en el nmero de rboles, arbustos,
etc., a emplear en el proyecto. Para propsitos de estimacin de costos, los gerentes conside-
ran que se requieren dos horas de trabajo para plantar un rbol mediano. A continuacin se
presentan los tiempos (en horas) realmente requeridos en una muestra de 10 rboles plantados
durante el mes pasado.
1.7 1.5 2.6 2.2 2.4 2.3 2.6 3.0 1.4 2.3
Con un nivel de significancia # 0.05, realice una prueba para ver si el tiempo necesario
promedio para plantar los rboles difiere de 2 horas.
a) Establezca las hiptesis nula y alternativa.
b) Calcule la media muestral.
c) Calcule la desviacin estndar muestral.
d) Cul es el valor-p?
e) Cul es su conclusin?
La primera forma es una prueba de cola inferior, la segunda es de cola superior y la tercera es
de dos colas.
Las pruebas de hiptesis para la proporcin poblacional se basan en la diferencia entre la
proporcin muestral p y la proporcin poblacional hipottica p0. Los mtodos para realizarlas
son semejantes a los usados para las pruebas de hiptesis de la media poblacional. La nica
diferencia radica en que para calcular el estadstico de prueba se usa la proporcin muestral y su
error estndar. Despus, para determinar si la hiptesis nula es rechazada, se utiliza el mtodo
del valor-p o el mtodo del valor crtico.
Para ver un ejemplo, considere el caso del campo de golf Pine Creek. En los aos ante-
riores, 20% de los jugadores del campo eran mujeres. Para aumentar la proporcin del sector
femenino, Pine Creek realiz una promocin especial diseada para atraer a mujeres golfistas.
Un mes despus de realizada la promocin, el directivo del campo solicit un estudio estads-
tico para determinar si la proporcin de jugadoras haba aumentado. Como el objetivo es deter-
minar si la proporcin de jugadoras se increment, lo apropiado es una prueba de cola superior
en la que Ha: p % 0.20. Las hiptesis nula y alternativa para esta prueba son:
p ' p0
z# (9.3)
p
tiene una distribucin de probabilidad normal estndar. Con p # "p0(1 ' p0)$n, la variable
aleatoria normal estndar z es el estadstico de prueba empleado para realizar las pruebas de
hiptesis acerca de la proporcin poblacional.
3
En la mayor parte de las aplicaciones de pruebas de hiptesis para la proporcin poblacional, los tamaos de las mues-
tras son suficientemente grandes para usar la aproximacin a la distribucin normal. La distribucin de muestreo exacta
de p es discreta y la probabilidad para cada valor de p est dada por la distribucin binomial. En consecuencia, las
prue-bas de hiptesis son un poco ms complicadas cuando las muestras son pequeas y no se puede usar la aproxima-
cin a la distribucin normal.
378 Captulo 9 Pruebas de hiptesis
p ' p0
z# (9.4)
p0(1 ' p0)
n
Ahora es posible calcular el estadstico de prueba para la prueba de hiptesis del campo
WEB archivo de golf Pine Creek. Considere una muestra aleatoria de 400 jugadores en la que 100 de ellos
WomenGolf son mujeres. La proporcin de las golfistas en la muestra es
100
p# # 0.25
400
Como la prueba de hiptesis para el campo de golf es una prueba de cola superior, el valor-p es
la probabilidad de que z sea mayor o igual que z # 2.50; esto es, es el rea bajo la curva normal
estndar para z ! 2.50. En la tabla de probabilidad normal estndar aparece que el rea a la
izquierda de z # 2.50 es 0.9938. Por tanto, el valor-p en la prueba de Pine Creek es 1.0000 #
0.9938 # 0.0062. En la figura 9.7 se ilustra el clculo de este valor-p.
Recuerde que el administrador del campo especific # 0.05 como nivel de significancia.
Un valor-p # 0.0062 $ 0.05 proporciona evidencia estadstica suficiente para rechazar H0 al
nivel de significancia 0.05. As, la prueba proporciona apoyo estadstico suficiente para con-
cluir que la promocin especial increment la proporcin de jugadoras en el campo de golf.
La decisin de rechazar o no la hiptesis nula tambin se toma utilizando el mtodo del
valor crtico. El valor crtico que corresponde a un rea de 0.05 en la cola superior de una distri-
bucin de probabilidad normal es z0.05 # 1.645. Entonces, la regla de rechazo usando el mto-
do del valor crtico exige descartar H0 si z ! 1.645. Como z # 2.50 % 1.645, H0 es rechazada.
Una vez ms, los mtodos del valor-p y del valor crtico llevan a la misma conclusin en una
prueba de hiptesis, pero el primero proporciona ms informacin. Para un valor-p #0.0062,
FIGURA 9.7 Clculo del valor-p para la prueba de hiptesis de Pine Creek
rea ! 0.9938
z
2.5
9.5 Proporcin poblacional 379
la hiptesis nula ser rechazada para cualquier nivel de significancia mayor o igual que
0.0062.
Resumen
El procedimiento empleado en una prueba de hiptesis para la proporcin poblacional es se-
mejante al mtodo usado en una prueba de hiptesis para la media poblacional. Aunque slo se
ilustr cmo realizar una prueba de hiptesis de cola superior para la proporcin poblacional,
en el caso de pruebas de cola inferior o de dos colas se recurre a procedimientos similares. En
la tabla 9.4 se presenta una sntesis de las pruebas de hiptesis para la proporcin poblacional.
Se supone que np ! 5 y n(1 " p) ! 5, con lo cual se puede usar una distribucin normal como
aproximacin a la distribucin de muestreo de p.
Ejercicios
Mtodos
35. Considere la prueba de hiptesis siguiente:
H0: p # 0.20
Ha: p $ 0.20
Se seleccion una muestra de 300 elementos. Calcule el valor-p y establezca su conclusin para
cada uno de los resultados muestrales siguientes. Use # 0.05.
a) p # 0.68 c) p # 0.70
b) p # 0.72 d) p # 0.77
380 Captulo 9 Pruebas de hiptesis
Aplicaciones
37. En un estudio se encontr que, en 2005, el 12.5% de los trabajadores estadounidenses perte-
neca a un sindicato (The Wall Street Journal, 21 de enero de 2006). El caso es que en 2006
se toma una muestra de 400 trabajadores para ver si el esfuerzo realizado por los sindicatos
por organizarse ha hecho que aumente el nmero de sus miembros.
a) Formule las hiptesis que puedan ser usadas para determinar si la afiliacin a los sindi-
catos ha aumentado en 2006.
b) Si los resultados muestrales indican que 52 de los trabajadores pertenecen a los sindicatos,
cul es el valor-p de esta prueba de hiptesis?
c) Con # 0.05, cul es su conclusin?
38. Un estudio realizado por Consumer Reports indica que 64% de los clientes de los supermer-
AUTO evaluacin cados piensa que las marcas de esos establecimientos son tan buenas como las marcas nacio-
nales. Para investigar si estos resultados aplican a sus propios productos, un fabricante de
salsa de tomate de una marca nacional pregunt a los integrantes de una muestra si considera-
ban las salsas de tomate de marca propia de los supermercados tan buenas como la de marca
nacional.
a) Formule las hiptesis para determinar si el porcentaje de clientes de los supermercados
que considera las salsas de tomate de marca propia de estos establecimientos tan buenas
como la de marca nacional difiere de 64%.
b) Si en una muestra de 100 clientes, 52 opinan que las marcas de los supermercados son
tan buenas como las nacionales, cul es el valor-p?
c) Con # 0.05, cul es la conclusin?
d) Le dar gusto esta conclusin al fabricante de la marca nacional de salsa de tomate? Ex-
plique.
39. Segn el Pew Internet & American Life Project, 75% de los estadounidenses adultos usa In-
WEB archivo ternet (sitio web de Pew Internet, 19 de abril de 2008). Los autores del projecto Pew tambin
AgeGroup
reportaron el porcentaje de estadounidenses que usa Internet por grupo de edad. Los datos en
el archivo AgeGroup son congruentes con sus hallazgos. Esos datos fueron obtenidos de una
muestra de 100 usuarios en el grupo de edad de 30 a 49 aos y 200 usuarios en el grupo de
edad de 50 a 64 aos. Un Yes (S) indica que el encuestado usa Internet; un No indica que el
encuestado no lo hace.
a) Establezca las hiptesis que pueden utilizarse para determinar si el porcentaje de usuarios
de Internet en ambos grupos de edad difieren del promedio general de 75%.
b) Estime la proporcin de usuarios en el grupo de edad de 30 a 49 aos. Esta proporcin
difiere significativamente de la proporcin general de 0.75? Utilice # 0.05.
c) Determine la proporcin de usuarios en el grupo de edad de 50 a 64 aos. Esta propor-
cin difiere significativamente de la proporcin general de 0.75? Utilice # 0.05.
d) Esperara que la proporcin de usuarios en el grupo de 18 a 29 aos sea ms grande o
ms pequea que la proporcin del grupo de edad de 30 a 49 aos? Sustente su conclu-
sin con los resultados obtenidos en los incisos b) y c).
40. Antes del Super Bowl de 2003, la ABC pronostic que 22% de la audiencia por televisin ex-
presara inters por ver uno de sus programas por estrenar, entre ellos: 8 Simple Rules, Are You
Hot? y Dragnet. Durante el Super Bowl, la ABC pas anuncios sobre estos programas de tele-
visin. Al da siguiente del evento, una firma de publicidad tom una muestra de 1 532 espec-
tadores que los vieron, de los cuales 414 afirmaron que veran alguna de las series promovidas
por la ABC (The Wall Street Journal, 30 de enero de 2003).
a) Cul es la estimacin puntual de la proporcin de espectadores que despus de ver los
anuncios dijeron que veran los programas de televisin?
b) Con # 0.05, determine si la intencin de ver los programas de la ABC aument signi-
ficativamente despus de ver los anuncios. Establezca las hiptesis apropiadas, calcule el
valor-p y defina su conclusin.
c) Por qu tales estudios son valiosos para las empresas y los negocios de publicidad?
41. En una conferencia en 2006, un ejecutivo de una empresa de corredura en el mercado de di-
nero dijo a un grupo de analistas que por lo menos 70% de los inversionistas confiaba en lograr
9.6 Prueba de hiptesis y toma de decisiones 381
sus objetivos de inversin. UBS Investor Optimism Survey realiz un estudio, del 2 al 15 de
enero, y encontr que 67% de los inversionistas confiaba en lograr sus objetivos de inversin
(CNCB, 20 de enero de 2006).
a) Formule las hiptesis para probar la validez de lo expresado por el ejecutivo de la empre-
sa mediadora en el mercado de dinero.
b) Suponga que para este estudio, UBS Investor Optimism Survey recab informacin de
300 inversionistas. Cul es el valor-p en esta prueba de hiptesis?
c) Con # 0.50, debe rechazarse lo que afirma el ejecutivo?
42. Segn el Center for Logistics Management de la Universidad de Nevada, 6% de todas las
mercancas vendidas en Estados Unidos son devueltas (BusinessWeek, 15 de enero de 2007).
Una tienda departamental en Houston tom una muestra de 80 artculos vendidos en enero y
encontr que 12 de ellos fueron devueltos.
a) Calcule una estimacin puntual de la proporcin de artculos devueltos para la poblacin
de transacciones de ventas en el almacn de Houston.
b) Calcule un intervalo de 95% de confianza para la proporcin de devoluciones en el alma-
cn de Houston.
c) La proporcin de devoluciones es significativamente distinta de las devoluciones de to-
da la nacin en conjunto? Proporcione sustento estadstico para su respuesta.
43. Eagle Outfitters es una cadena de tiendas que se especializa en ropa de invierno y equipo para
WEB archivo excursionismo. Esta empresa planea una promocin con envo de cupones de descuento pa-
ra todos sus clientes con tarjeta de crdito. La promocin se considerar un xito si ms de
Eagle
10% de los que reciban el cupn lo utilizan. Antes de realizar la promocin a nivel nacional, se
enva cupones a una muestra de 100 clientes con tarjeta de crdito.
a) Desarrolle las hiptesis que pueden utilizarse para probar si la proporcin poblacional de
aquellos que usarn el cupn es suficiente como para hacer la promocin en todo el pas.
b) El archivo Eagle contiene los datos muestrales. Obtenga una estimacin puntual de la pro-
porcin poblacional.
c) Use # 0.05 y realice la prueba de hiptesis. La empresa debe realizar esta promocin
en todo el pas?
44. En un artculo anunciado en su portada, BusinessWeek public informacin acerca de los hbi-
WEB archivo tos de sueo de los estadounidenses (BusinessWeek, 26 de enero de 2004). El artculo sealaba
que la privacin del sueo ocasiona diversos problemas, entre ellos muertes en las autopis-
Drowsy
tas. El 51% de los conductores admiti manejar sintindose somnoliento. Un investigador
plante la hiptesis de que este problema es an mayor entre los trabajadores de los turnos
nocturnos.
a) Formule las hiptesis que ayuden a determinar si ms de 51% de la poblacin de traba-
jadores de los turnos nocturnos admite conducir somnoliento.
b) En una muestra de 400 trabajadores de turnos nocturnos se identific a quienes admitan
conducir somnolientos. Consulte el archivo Drowsy. Cul es la proporcin muestral?
Cul es el valor-p?
c) Con # 0.1, cul es su conclusin?
45. Numerosos inversionistas y analistas financieros piensan que el promedio industrial Dow Jones
(DJIA) es un buen barmetro del mercado de acciones. El 31 de enero de 2006, de las 30 accio-
nes que constituyen el DJIA, 9 aumentaron de precio (The Wall Street Journal, 1 de febrero de
2006). A partir de este hecho, un analista burstil afirm que 30% de las acciones de la Bolsa
de Nueva York se incrementaran ese mismo da.
a) Formule las hiptesis nula y alternativa para probar lo que afirma el analista.
b) En una muestra de 50 acciones de la bolsa de Nueva York, 24 aumentaron. Establezca la
estimacin puntual de la proporcin poblacional de las acciones se incrementaron.
c) Realice una prueba de hiptesis usando # 0.01 como nivel de significancia. Cul es la
conclusin?
Se compara, entonces, el valor-p con una probabilidad controlada de cometer un error tipo I, ,
que se conoce como nivel de significancia para la prueba. Si el valor-p & , se concluye re-
chazar H0, y los resultados se declaran significantes; de otra manera, se concluye no rechazar
H0. Con una prueba de significancia se controla la probabilidad de cometer un error tipo I, pero
no uno tipo II. Por tanto, se recomienda la conclusin no rechazar H0 ms que aceptar H0,
po que esta ltima nos expone al riesgo de cometer un error tipo II de aceptar H0 cuando es falsa.
Con la conclusin de no rechazar H0 la evidencia estadstica se considera no concluyente y
es por lo general un indicador para postergar una decisin o una accin hasta que se pueda rea-
lizar mayor investigacin y pruebas.
Pero si el propsito de una prueba de hiptesis es tomar cierta decisin cuando H0 es ver-
dadera y una decisin diferente cuando Ha es verdadera, quien debe tomarla desear, y en
muchos casos tendr que actuar tanto en el caso en que la conclusin sea no rechazar H0 como
en el caso en que sea rechazar H0. Si se da esta situacin, los expertos en estadstica recomien-
dan controlar la probabilidad de cometer un error tipo II. Con las probabilidades controladas
de cometer tanto un error tipo I como tipo II, la conclusin de la prueba de hiptesis es ya sea
aceptar H0 o rechazar H0. En el primer caso, se concluye que H0 es verdadera, mientras que
en el segundo, que Ha es verdadera. As, se puede tomar una decisin y emprender una accin
apropiada cuando se lleg a una conclusin.
Una buena ilustracin de una prueba de hiptesis para tomar decisiones es el muestreo de
aceptacin de lotes, un tema que se discutir con ms detalle en el captulo 20. Por ejemplo, un
director de control de calidad tiene que decidir si acepta un pedido de bateras de un proveedor
o si lo rechaza por ser de mala calidad. Suponga que las especificaciones de diseo indican que
se requieren bateras con una vida til promedio de por lo menos 120 horas. Para evaluar si
el pedido recibido satisface esta especificacin, se selecciona una muestra de 36 bateras y se
prueban. Con base en esta muestra, se deber tomar la decisin de aceptar el pedido o devolver-
lo al proveedor por no tener la calidad adecuada. Sea el nmero medio de horas de vida til
que tienen las bateras del envo. Las hiptesis nula y alternativa para la media poblacional se
presentan a continuacin.
H0: ! 120
Ha: % 120
la media del nmero de horas de vida til es menor que la especificada de 120 horas. Si H0 no
se rechaza, la decisin ser aceptar el pedido.
Suponga que se usa el nivel de significancia de # 0.05 para realizar la prueba de hip-
tesis. El estadstico de prueba en el caso de conocida es
Con base en el mtodo del valor crtico y z0.05 # 1.645, la regla de rechazo en esta prueba de
cola inferior es
Asuma que se seleccionar una muestra de 36 bateras y que por pruebas anteriores se puede
considerar que se conoce la desviacin estndar poblacional y que su valor es # 12 horas. La
regla de rechazo indica que H0 ser descartada si
x " 120
z# & "1.645
12$"36
12
x & 120 " 1.645 # 116.71
"36
Rechazar H0 siempre que x & 116.71 significa que se tomar la decisin de aceptar el pedido
siempre que
x ' 116.71
Con esta informacin se pueden calcular ya las probabilidades asociadas con cometer un error
tipo II. Primero, recuerde que se comete este error cuando la verdadera media del pedido es
menor de 120 horas y se decida aceptar H0: ! 120. Por tanto, para calcular la probabilidad
de cometerlo, se debe elegir un valor de menor que 120 horas. Por ejemplo, suponga que la
calidad del envo es pobre si la vida promedio de las bateras es # 112 horas. Si en realidad
es verdad que # 112, cul es la probabilidad de aceptar H0: ! 120 y cometer as un error
tipo II? Observe que es la probabilidad de que la media muestral x sea mayor de 116.71 cuando
# 112.
En la figura 9.8 se presenta la distribucin de muestreo de x si la media es # 112. El
rea sombreada en la cola superior da la probabilidad de obtener x ' 116.71. Utilizando la
distribucin normal estndar vemos que para x # 116.71.
La tabla de probabilidad normal estndar indica que para z # 2.36, el rea en la cola superior
es 1.0000 " 0.9909 # 0.0091. Entonces, 0.0091 es la probabilidad de cometer un error tipo II
cuando # 112. Si se usa para denotar la probabilidad de cometer este error, tenemos que si
# 112, # 0.0091. Podemos concluir que si la media de la poblacin es 112 horas, la pro-
babilidad de incurrir en un error tipo II es de slo 0.0091.
384 Captulo 9 Pruebas de hiptesis
12
x ! !2
36
! 0.0091
x
112 116.71
2.36 x H0 aceptar
Estos clculos se repiten con otros valores de menores de 120. Para cada valor de se
obtendrn diferentes probabilidades de cometer un error tipo II. Por ejemplo, suponga que en el
pedido de bateras la media de vida til es # 115 horas. Como H0 ser aceptada siempre que
x ' 116.71, el valor z obtenido con # 115 est dado por
En la tabla de probabilidad normal estndar vemos que el rea en la cola superior de la distri-
bucin normal estndar que corresponde a z # 0.86 es 1.0000 " 0.8051 # 0.1949. Si la ver-
dadera media es # 115, la probabilidad de incurrir en un error tipo II es # 0.1949.
Como se muestra en la En la tabla 9.5 se muestran las probabilidades de cometer un error tipo II para varios valo-
tabla 9.5, la probabilidad de res de menores de 120. Observe que si aumenta y se acerca a 120, la probabilidad aumenta
cometer un error tipo II
hacia un lmite superior de 0.95. Pero a medida que disminuye y se aleja de 120, la probabi-
depende del valor de la
media poblacional . Si los lidad de cometer el error disminuye. Este es el patrn que se debe esperar. Cuando la verdadera
valores de son cercanos media poblacional est cerca del valor de la hiptesis nula, # 120, la probabilidad de come-
a 0 , la probabilidad de ter un error tipo II es alta. Pero cuando la verdadera media poblacional est muy por debajo del
cometer un error tipo II valor # 120 de la hiptesis nula, la probabilidad que se menciona es baja.
puede ser alta.
TABLA 9.5 Probabilidad de cometer un error tipo II en la prueba de hiptesis del muestreo
de aceptacin de lotes
116.71 !
z" Probabilidad de Potencia
Valor de 12$"36 un error tipo II () (1 ! )
112 2.36 0.0091 0.9909
114 1.36 0.0869 0.9131
115 0.86 0.1949 0.8051
116.71 0.00 0.5000 0.5000
117 "0.15 0.5596 0.4404
118 "0.65 0.7422 0.2578
119.999 "1.645 0.9500 0.0500
9.7 Clculo de la probabilidad de los errores tipo II 385
FIGURA 9.9 Curva de potencia para la prueba de hiptesis del muestreo de aceptacin de lotes
0.80
0.60
0.40
0.20
112 115 118 120
H0 falsa
Ejercicios
Mtodos
46. Considere la prueba de hiptesis siguiente.
AUTO evaluacin
H0: " 10
Ha: # 10
4
Algunas veces, para proporcionar informacin acerca de la probabilidad de cometer un error tipo II, se usa otra grfica
denominada curva caracterstica de operacin, la cual muestra la probabilidad de aceptar H0 y por tanto proporciona
para los valores de en los que la hiptesis nula es falsa. Con esta grfica se puede leer directamente la probabilidad
de cometer un error tipo II.
386 Captulo 9 Pruebas de hiptesis
H0: $ 20
Ha: % 20
Se toma una muestra de 200 elementos y la desviacin estndar poblacional es $ 10. Uti-
lice $ 0.05. Calcule la probabilidad de cometer un error tipo II si la media poblacional es:
a) $ 18.0
b) $ 22.5
c) $ 21.0
Aplicaciones
48. Fowle Marketing Research, Inc. basa la tarifa que cobra a sus clientes en el supuesto de que
una encuesta por telfono se puede realizar en un promedio de 15 minutos o menos. Si se
requiere ms tiempo en promedio, se cobra una cantidad adicional. Con una muestra de 35 en-
cuestas, una desviacin estndar poblacional de 4 minutos y 0.01 como nivel de significancia,
se usar la media muestral para probar la hiptesis nula H0: & 15.
a) Cul es su interpretacin del error tipo II en este problema? Qu impacto tiene en la
empresa?
b) Cul es la probabilidad de cometer un error tipo II si la verdadera media de los tiempos
es $ 17 minutos?
c) Cul es la probabilidad de cometerlo si la verdadera media de los tiempos es $ 18
minutos?
d) Dibuje la forma general de la curva de potencia de esta prueba.
49. Un grupo de investigacin del consumidor est interesado en probar la afirmacin de un fa-
AUTO evaluacin bricante de automviles de que un nuevo modelo econmico recorrer por lo menos 25 millas
por cada galn de gasolina (H0: " 25).
a) Con 0.02 como nivel de significancia y una muestra de 30 automviles, cul es la regla
de rechazo basada en el valor de x en la prueba para determinar si debe rechazarse la afir-
macin del fabricante? Suponga que es 3 millas por galn.
b) Cul es la probabilidad de cometer un error tipo II si el verdadero rendimiento es 23 mi-
llas por galn?
c) Cul es la probabilidad de cometerlo si el verdadero rendimiento es 24 millas por galn?
d) Cul es la probabilidad si el verdadero rendimiento es 25.5 millas por galn?
50. La revista Young Adult establece la hiptesis siguiente acerca de la edad de sus suscriptores.
H0: $ 28
Ha: % 28
51. En la operacin de una lnea de produccin se prueba la exactitud del peso de llenado mediante
la prueba de hiptesis siguiente.
H0: " 0
Ha: # 0
c $ 0 ! z (9.5)
"n
388 Captulo 9 Pruebas de hiptesis
FIGURA 9.10 Determinacin del tamao de la muestra para valores especficos de las
probabilidades de cometer un error tipo I () y un error tipo II ()
Distribucin de muestreo
H0: ! 0 de x cuando
Ha: " 0 H0 es verdadera y # 0
Rechazar H0
0 x
Distribucin de muestreo
de x cuando
H0 es falsa y a " 0
Nota: x #
n
a c x
c $ a ! z (9.6)
"n
Ahora lo que buscamos es elegir un valor para c, de manera que cuando H0 sea rechazada y Ha
aceptada, la probabilidad de cometer un error tipo I sea igual a la probabilidad elegida para ,
y la probabilidad de cometer un error tipo II sea igual al valor elegido para . Por consiguiente,
con ambas ecuaciones (9.5) y (9.6) se debe obtener el mismo valor de c y la ecuacin siguiente
debe satisfacerse.
0 ! z $ a ( z
"n "n
Para determinar el tamao de muestra que se necesita, primero se despeja "n como sigue.
0 ! a $ z ( z
"n "n
(z ( z )
0 ! a $
"n
9.8 Determinacin del tamao de la muestra en una prueba de hiptesis. . . 389
y
(z " z)
"n !
( 0 # a)
Al elevar al cuadrado ambos lados de la expresin, obtenemos la frmula siguiente para el ta-
mao de la muestra necesario en una prueba de hiptesis de una cola para la media poblacional.
(z " z)2 2
n! (9.7)
( 0 # a)2
donde
Nota. Para una prueba de hiptesis de dos colas, en la ecuacin (9.7) se usa z/2 en lugar de z .
Como las probabilidades de los dos errores tipo I y tipo II se han controlado usando n ! 50,
queda justificado que el gerente de control de calidad utilice las declaraciones H0 es aceptada
o H0 es rechazada en esta prueba de hiptesis. Las inferencias correspondientes se hacen te-
niendo probabilidades admisibles de cometer un error de cualquiera de ambos tipos.
Acerca de la relacin entre , y el tamao n de la muestra caben tres observaciones.
1. Una vez que se tienen dos de estos tres valores, el tercero puede calcularse.
2. Dado un nivel de significancia , aumentando el tamao de la muestra se reduce .
3. Dado un tamao de muestra, al reducirse aumenta y al incrementarse , disminu-
ye .
Ejercicios
Mtodos
AUTO evaluacin 54. Considere la prueba de hiptesis siguiente.
H0: $ 10
Ha: % 10
H0: ! 20
Ha: & 20
Aplicaciones
56. Suponga que el director del proyecto de estudio de Hilltop Coffee (vea la seccin 9.3) solicita
una probabilidad de 0.10 de declarar que la empresa no comete ninguna violacin si en reali-
dad est llenando con 1 onza de menos (a ! 2.9375 libras), Cul ser el tamao de muestra
recomendado?
57. Una batera industrial especial debe tener una vida de por lo menos 400 horas. Considere una
AUTO evaluacin prueba de hiptesis con 0.02 como nivel de significancia. Si en las bateras de un determinado
lote de produccin la media verdadera de vida til es 385 horas, el gerente de produccin desea
un procedimiento de muestreo que slo 10% de las veces indique de manera errnea que el lote
es aceptable. Qu tamao de muestra se recomienda para esta prueba de hiptesis? Use 30
horas como estimacin de la desviacin estndar poblacional.
Resumen 391
58. La revista Young Adult plantea la hiptesis siguiente acerca de la edad de sus suscriptores.
H0: ! 28
Ha: & 28
Si el gerente que realiza la prueba admite una probabilidad de 0.15 de cometer un error tipo II
cuando la verdadera edad promedio es 29 aos, de qu tamao debe tomarse la muestra? Su-
ponga que ! 6 y que el nivel de significancia es 0.05.
59. En un estudio sobre el rendimiento de la gasolina en los automviles, medido como millas por
galn, se probaron las hiptesis siguientes.
Hiptesis Conclusin
H0: $ 25 mpg Confirma lo que sostiene el fabricante
Ha: % 25 mpg Refuta lo que sostiene el fabricante; el rendimiento
es menor de lo afirmado
Para ! 3 y un nivel de significancia de 0.02, qu tamao de muestra se recomienda si el
investigador desea tener 80% de probabilidad de detectar que es menor que 25 millas por
galn cuando en realidad es 24?
Resumen
Las pruebas de hiptesis constituyen un procedimiento estadstico que utiliza datos muestrales
para determinar si una afirmacin acerca del valor de un parmetro poblacional debe o no re-
chazarse. Como hiptesis se tienen dos afirmaciones opuestas acerca de un parmetro pobla-
cional. A una se le llama hiptesis nula (H0) y a la otra hiptesis alternativa (Ha). En la seccin
9.1 se proporcionaron los lineamientos para elaborar estas hiptesis en tres situaciones encon-
tradas a menudo en la prctica.
Si se tienen datos histricos o alguna otra informacin que proporcione una base para supo-
ner que se conoce la desviacin estndar poblacional, el procedimiento de prueba de hiptesis
para la media poblacional se sustenta en la distribucin normal estndar. Si no se conoce , se
usa la desviacin estndar muestral s para estimarlo, y el procedimiento de la prueba de hipte-
sis se basa en la distribucin t. En ambos casos, la calidad de los resultados depende tanto de la
forma de la distribucin de la poblacin como del tamao de la muestra. Si la poblacin tiene
distribucin normal, los dos procedimientos para la prueba de hiptesis son aplicables, aun con
tamaos de muestra pequeos. Si la poblacin no est distribuida normalmente, se necesitan ta-
maos de muestra mayores. En las secciones 9.3 y 9.4 se proporcionaron los lineamientos ge-
nerales para determinar este tamao. En el caso de pruebas de hiptesis para la proporcin
poblacional, en el procedimiento de la prueba de hiptesis se usa un estadstico de prueba sus-
tentado en la distribucin normal estndar.
En todos los casos el valor del estadstico de prueba se utiliza para calcular un valor-p para
la prueba. ste es una probabilidad que se usa para determinar si la hiptesis nula es rechazada
o no. Si el valor-p es menor o igual que el nivel de significancia , la hiptesis nula puede ser
rechazada.
Las conclusiones de una prueba de hiptesis tambin pueden obtenerse al comparar el valor
del estadstico de prueba con el valor crtico. En pruebas de cola inferior, la hiptesis nula es
rechazada si el valor del estadstico de prueba es menor o igual que el valor crtico. En pruebas
de cola superior, la hiptesis nula es rechazada si el valor del estadstico de prueba es mayor o
igual al valor crtico. En pruebas de dos colas hay dos valores crticos: uno en la cola inferior de
la distribucin de muestreo y otro en la cola superior. En este caso, la hiptesis nula es recha-
zada si el valor del estadstico de prueba es menor o igual al valor crtico de la cola inferior, o
bien, mayor o igual que el valor crtico de la cola superior.
Tambin se presentaron extensiones de los procedimientos de prueba de hiptesis para in-
cluir un anlisis del error tipo II. En la seccin 9.7 se mostr la forma de calcular la probabilidad
de cometerlo. En la seccin 9.8 se explic cmo determinar el tamao de la muestra de manera
que se controlen tanto la probabilidad de cometer un error tipo I como un error tipo II.
392 Captulo 9 Pruebas de hiptesis
Glosario
Curva de potencia Grfica que da la probabilidad de rechazar H0 para cada uno de los posi-
bles valores del parmetro poblacional que no satisfaga la hiptesis nula. La curva de potencia
proporciona las probabilidades de rechazar correctamente la hiptesis nula.
Error tipo I Error de rechazar H0 cuando es verdadera.
Error tipo II Error de aceptar H0 cuando es falsa.
Estadstico de prueba Un estadstico cuyo valor ayuda a determinar si la hiptesis nula es
rechazada.
Hiptesis alternativa Hiptesis que se concluye como verdadera cuando la hiptesis nula es
rechazada.
Hiptesis nula Hiptesis que se supone tentativamente verdadera en una prueba de hiptesis.
Nivel de significancia Probabilidad de cometer un error tipo I cuando la hiptesis nula es
verdadera como igualdad.
Potencia Probabilidad de rechazar adecuadamente H0 cuando sta es falsa.
Prueba de dos colas Prueba de hiptesis en la que la hiptesis nula es rechazada debido a un
valor del estadstico de prueba que se encuentra en cualquiera de las dos colas de la distribucin
muestral.
Prueba de una cola Prueba de hiptesis en la que la hiptesis nula es rechazada para valores
del estadstico de prueba en una de las colas de la distribucin de muestreo.
Valor crtico Valor que se compara con el estadstico de prueba para determinar si H0 es
rechazada.
Valor-p Probabilidad que proporciona una medida de la evidencia, dada por la muestra, con-
tra la hiptesis nula. Entre menor sea un valor-p, mayor ser la evidencia contra H0. En una
prueba de cola inferior, el valor-p es la probabilidad de obtener un valor para el estadstico
de prueba tan pequeo o menor que el aportado por la muestra. En una prueba de cola superior,
el valor-p es la probabilidad de obtener un valor para el estadstico de prueba tan grande o
mayor que el proporcionado por la muestra. En una prueba de dos colas, el valor-p es la pro-
babilidad de obtener un valor para el estadstico de prueba tan poco probable, o aun menos
probable, que el aportado por la muestra.
Frmulas clave
Ejercicios complementarios
60. En una lnea de produccin, el peso promedio con que se llena cada recipiente es 16 onzas.
Un exceso o una insuficiente de llenado ocasionan problemas serios y, cuando son detectados,
es necesario que el operador detenga la lnea de produccin para reajustar el mecanismo de
llenado. Con base en datos anteriores, se supone que la desviacin estndar poblacional es
! 0.8 onzas. Cada hora, un inspector de control de calidad toma una muestra de 30 recipien-
tes y decide si es necesario detener la produccin y hacer un reajuste. El nivel de significancia
es ! 0.05.
a) Establezca la prueba de hiptesis para esta aplicacin al control de calidad.
b) Si se encuentra que la media muestral es x ! 16.32 onzas, cul es el valor-p? Qu me-
didas recomendara usted tomar?
c) Si se encuentra que la media muestral es x ! 15.82 onzas, cul es el valor-p? Qu
medidas sera preferible tomar?
d) Use el mtodo del valor crtico. Cul es la regla de rechazo en la prueba de hiptesis
anterior? Repita los incisos b) y c). Llega a la misma conclusin?
61. En Western University, la media histrica en las puntuaciones de los solicitantes de una beca
es 900. La desviacin estndar poblacional histrica que se considera conocida es ! 180.
Cada ao, el decano asistente utiliza una muestra de las solicitudes para determinar si la pun-
tuacin media ha cambiado entre los solicitantes de becas.
a) Establezca las hiptesis.
b) Cul es el intervalo de 95% de confianza para la estimacin de la media poblacional de
las puntuaciones en el examen si en una muestra de 200 estudiantes la media muestral es
x ! 935?
c) Use el intervalo de confianza para realizar una prueba de hiptesis. Manejando ! 0.05,
a qu conclusin llega?
d) Cul es el valor-p?
62. Playbill es una revista que se distribuye entre las personas que asisten a obras musicales y
otro tipo de producciones teatrales. El ingreso medio anual por familia de la poblacin de lec-
tores de Playbill es de $119 155 (Playbill, enero de 2006). Suponga que la desviacin estndar
es ! $20 700. Un grupo cvico de San Francisco asegura que entre las personas de la zona
de la Baha que van al teatro el ingreso medio es ms alto. En una muestra de 60 personas de
la Baha que suelen acudir al teatro se encontr que el ingreso medio por hogar es de $126 100.
a) Establezca las hiptesis que sean tiles para determinar si los datos muestrales apoyan la
conclusin de que las personas de la zona de la Baha que suelen asistir al teatro tienen un
ingreso medio por familia ms alto que los dems lectores de Playbill.
b) Cul es el valor-p a partir de la muestra de las 60 personas de la Baha que suelen acudir
al teatro?
c) Use ! 0.01 como nivel de significancia. A qu conclusin llega?
63. El viernes los corredores de bolsa de Wall Street esperaban ansiosos la publicacin del gobier-
no federal sobre el aumento de nminas no agrcolas en enero. El primer consenso estimado
entre los economistas fue que se esperaba un aumento de 250 000 nuevos empleos (CNBC, 3 de
febrero de 2006). Sin embargo, en una muestra de 20 economistas tomada el jueves en la tar-
de, la media muestral fue 266 000, con una desviacin estndar muestral de 24 000. Los analis-
tas financieros suelen llamar a tales medias muestrales, basadas en las ltimas informaciones,
whisper number. Trate la estimacin del consenso como la media poblacional. Realice
una prueba de hiptesis para determinar si el whisper number justifica la conclusin de un
aumento estadsticamente significativo en la estimacin del consenso de los economistas. Use
! 0.01 como nivel de significancia.
64. Datos emitidos por el National Center for Health Statistics muestran que la edad media a la
WEB archivo que las mujeres tienen su primer hijo fue 25.0 en 2006 (The Wall Street Journal, 4 de febrero de
FirstBirth 2009). La reportera Sue Shellenbarger seal que, en varios aos, ste fue el primer descenso
en el indicador de referencia. Una muestra reciente de 42 mujeres proporcion los datos del
archivo FirstBirth en el sitio web acerca de la edad a la que tuvieron su primer hijo. Estos
datos indican un cambio con respecto a 2006 en la edad media a la que las mujeres tienen su
primer hijo? Use ! 0.05.
394 Captulo 9 Pruebas de hiptesis
65. En un amplio estudio sobre los costos de atencin a la salud en Estados Unidos se presentaron
datos que mostraban un gasto medio de Medicare por derechohabiente de $6 883 en 2003 (Mo-
ney, otoo de 2003). Para investigar las diferencias en todo el pas, un investigador tom una
muestra de 40 derechohabientes en Indianpolis. En la muestra, el gasto medio de Medicare en
2003 fue de $5 980 y la desviacin estndar de $2 518.
a) Establezca las hiptesis a usar para determinar si el gasto anual medio de Medicare en
Indianpolis es menor a la media nacional.
b) Use los resultados muestrales anteriores para calcular el estadstico de prueba y el valor-p.
c) Use ! 0.05. Cul es su conclusin?
d) Repita la prueba de hiptesis usando el mtodo del valor crtico.
66. La cmara de comercio de una comunidad de la costa del Golfo en Florida anuncia en su
publicidad que hay disponibilidad de propiedades en el rea residencial a un costo medio de
$125 000 o menos por lote. Suponga que en una muestra de 32 propiedades se encuentra una
media muestral de $130 000 por terreno y una desviacin estndar muestral es $12 500. Use
0.05 como nivel de significancia para probar la validez de lo que se dice en la publicidad.
67. La U.S. Energy Administration inform que en Estados Unidos el precio medio del galn de ga-
WEB archivo solina era de $2.357 (U.S. Energy Administration, 30 de enero de 2006). En el archivo de datos
llamado Gasoline se encuentran los precios de gasolina normal encontrados en una muestra de
Gasoline
50 estaciones de servicio en estados del Atlntico sur. Realice una prueba de hiptesis para
determinar si el precio medio del galn de combustible en los estados del Atlntico sur es dife-
rente a la media nacional. Use ! 0.05 como nivel de significancia y formule su conclusin.
68. En un estudio del Center for Disease Control (CDC) se encontr que 23% de los adultos son
fumadores y de stos, 70% indic que quiere dejar este hbito (Associated Press, 26 de julio de
2002). El CDC inform que, de las personas que fumaron en algn momento de su vida, 50%
haban podido dejar de hacerlo. Parte del estudio indic que el xito en prescindir del cigarro
aumenta con el nivel de estudios. Suponga que en una muestra de 100 personas con ttulo uni-
versitario que han fumado en algn momento de su vida, 64 lograron renunciar a su hbito.
a) Especifique las hiptesis a usar para determinar si la poblacin de personas con ttulo
universitario tiene ms xito para dejar de fumar que la poblacin general.
b) Dados los datos muestrales, cul es la proporcin de personas con ttulo universitario que,
habiendo fumado en algn momento de su vida, pudieran dejar de hacerlo?
c) Cul es el valor-p? Con ! 0.01, cul es la conclusin de la prueba de hiptesis?
69. La promocin de una lnea area se sustenta en el supuesto de que dos terceras partes de los
viajeros de negocios usan una computadora porttil en sus viajes durante la noche.
a) Establezca las hiptesis a usar para probar este supuesto.
b) Cul es la proporcin muestral encontrada en un estudio patrocinado por American Ex-
press, en que 355 de 546 viajeros de negocios utilizaban su computadora porttil en sus
viajes de negocios durante la noche?
c) Cul es el valor-p?
d) Use ! 0.05. A qu conclusin llega?
70. Los call centers (centros de atencin telefnica) virtuales son atendidos por personas que tra-
bajan desde su hogar. La mayora de los agentes en casa gana de $10 a $15 por hora sin bene-
ficios de seguridad social frente a $7 a $9 por hora con beneficios en un call center tradicional
(BusinessWeek, 23 de enero de 2006). Regional Airways considera emplear agentes en casa,
pero slo si conservan una satisfaccin del cliente mayor de 80%. Se realiz una prueba con
agentes de este tipo. En una muestra de 300 clientes, 252 indicaron estar satisfechos con el
servicio.
a) Elabore las hiptesis de prueba para determinar si los datos muestrales apoyan la con-
clusin de que el servicio al cliente con agentes en casa satisface el criterio de Regional
Airways.
b) Cul es la estimacin puntual del porcentaje de clientes satisfechos?
c) Cul es el valor-p proporcionado por los datos muestrales?
d) Cul es la conclusin en esta prueba de hiptesis? Use como nivel de significancia
! 0.05.
71. Durante el ao electoral 2004 se publicaban a diario los resultados de los nuevos sondeos. En
una consulta de IBD / TIPP a 910 adultos, 503 encuestados dijeron sentirse optimistas ante las
Ejercicios complementarios 395
perspectivas nacionales y el ndice de liderazgo del presidente Bush aument 4.7 puntos, a 55.3
puntos (Investors Business Daily, 14 de enero de 2004).
a) Cul es la proporcin muestral de encuestados optimistas ante las perspectivas nacio-
nales?
b) Un director de campaa quiere afirmar que el sondeo indica que la mayora de los adultos
se sienten optimistas ante las perspectivas nacionales. Elabore una prueba de hiptesis
de manera que el rechazo de la hiptesis nula permita concluir que la proporcin de opti-
mistas es mayor de 50%.
c) Use los datos del sondeo para calcular el valor-p en la prueba de hiptesis del inciso b).
Explique al director lo que dice este valor-p acerca del nivel de significancia de los re-
sultados.
72. Una estacin de radio de Myrtle Beach anuncia que, por lo menos, 90% de los hoteles y mote-
les estarn llenos el fin de semana en que se conmemora el Da de los Cados. La radiodifusora
aconseja a sus oyentes hacer sus reservaciones con anticipacin si piensan pasar ese fin de
semana en esa localidad vacacional. La noche del sbado, una muestra de 58 hoteles y moteles,
indic que 49 estaban completamente llenos y 9 an tenan habitaciones libres. Cul es su
reaccin ante lo anunciado por la estacin de radio despus de ver la evidencia muestral? Use
! 0.05 al realizar el estadstico de prueba. Cul es el valor-p?
73. En Estados Unidos, segn el gobierno federal, 24% de los trabajadores amparados por el plan
de atencin a la salud no tuvieron que contribuir a la prima en su empresa (Statistical Abstract
of the United States: 2006). En un estudio reciente se encontr que a 81 de los 400 trabajadores
muestreados no se les pidi que contribuyeran para el plan de atencin a la salud en su empresa.
a) Elabore las hiptesis para probar si ha disminuido el porcentaje de trabajadores a quienes
no se les pide que contribuyan con su empresa para el plan de atencin a la salud.
b) Cul es la estimacin puntual de la proporcin que tiene un seguro de salud financiado
totalmente por su empresa?
c) Se ha registrado una disminucin estadsticamente significativa en la proporcin de
trabajadores que tienen un seguro de salud financiado totalmente por su empresa? Use
! 0.05.
74. Shorney Construction Company licita proyectos suponiendo que la media del tiempo desper-
diciado por trabajador es de 72 minutos o menos por da. Para probar este supuesto se usa una
muestra de 30 trabajadores de la construccin. Suponga que la desviacin estndar poblacional
es 20 minutos.
a) Establezca las hiptesis para esta prueba.
b) Cul es la probabilidad de cometer un error tipo II si la media poblacional del tiempo
desperdiciado fueran 80 minutos?
c) Cul es la probabilidad de cometer este error si la media poblacional del tiempo desper-
diciado fueran 75 minutos?
d) Cul es la probabilidad de cometerlo si la media poblacional del tiempo desperdiciado
fueran 70 minutos?
e) Trace la curva de potencia para este problema.
75. Existe un programa de ayuda federal para las zonas de bajos ingresos. Para recibirla, el ingreso
medio de la localidad debe ser menor de $15 000 anuales. Aquellas con ingreso medio anual
de $15 000 o ms no son elegibles. La decisin de asignacin de la ayuda se basa en una mues-
tra de los habitantes de la zona. Se realiza una prueba de hiptesis con 0.02 como nivel de
significancia. Si los lineamientos establecen una probabilidad mxima de 0.05 de no otorgar
esta ayuda a una zona en la que el ingreso medio anual sea de $14 000, qu tamao de muestra
deber utilizarse en el estudio? Use ! $4 000 para desarrollar su plan.
76. Para probar si en el proceso de fabricacin de un jabn de bao se satisface el estndar de pro-
ducir 120 barras por lote se usan las hiptesis H0: ! 120 y Ha: & 120. Use 0.05 como nivel
de significancia en esta prueba y 5 para la desviacin estndar.
a) Si la media de produccin disminuye a 117 barras por lote, la empresa desea tener 98% de
oportunidad de concluir que no se est satisfaciendo el estndar de produccin. De qu
tamao deber tomarse la muestra?
b) Con el tamao de muestra del inciso a), cul es la probabilidad de concluir que el pro-
ceso opera satisfactoriamente para cada una de las siguientes medias de produccin ver-
daderas: 117, 118, 119, 121, 122 y 123 barras por lote? Es decir, cul es, en cada caso, la
probabilidad de cometer un error tipo II?
396 Captulo 9 Pruebas de hiptesis
H0: ! 12
Ha: & 12
Informe gerencial
1. Con cada una de las muestras realice una prueba de hiptesis usando 0.01 como nivel
de significancia. Determine las acciones a emprender si resulta necesario. Proporcione
el estadstico de prueba y el valor-p de cada prueba.
2. Calcule la desviacin estndar de cada una de las cuatro muestras. Parece razonable el
supuesto de 0.21 para la desviacin estndar poblacional?
3. Calcule lmites de alrededor de ! 12 para la media muestral x de manera que, en tan-
to las medias muestrales se encuentren dentro de estos lmites, pueda considerarse que
el proceso opera de manera satisfactoria. Pero si x excede el lmite superior, o es menor
al lmite inferior, ser necesario emprender las acciones correctivas. Estos lmites se
conocen en el control de calidad como lmites de control superior e inferior.
4. Analice las consecuencias de modificar el nivel de significancia por un valor mayor.
Qu falla o error crece si se aumenta el valor del nivel de significancia?
Durante su estancia en Bayview, alguna vez present algn trabaj copiado de Internet
como propio?
S No
Durante su estancia en Bayview, alguna vez copi las respuestas del examen de otro es-
tudiante?
S No
Durante su estancia en Bayview, alguna vez colabor con otros estudiantes para realizar
proyectos que se supona que deban ser efectuados de manera individual?
S No
Cualquier estudiante que contest S a una o ms de esas preguntas se considera que estuvo
involucrado en algn tipo de engao. Parte de los datos recolectados se presentan a continua-
cin con las siguientes etiquetas: Student (estudiante); Copied from Internet (copi de Inter-
net); Copied on Exam (copi de otro examen); Collaborated on Individual Project (colabor
en proyectos individuales) y Gender (gnero). El conjunto completo est en el archivo llamado
Bayview.
398 Captulo 9 Pruebas de hiptesis
1 No No No Female
WEB archivo 2 No No No Male
3 Yes No Yes Male
Bayview
4 Yes Yes No Male
5 No No Yes Male
6 Yes No No Female
. . . . .
. . . . .
. . . . .
88 No No No Male
89 No Yes Yes Male
90 No No No Female
Informe gerencial
Prepare un informe para el decano de la universidad que resuma su evaluacin de la naturaleza
del engao entre los estudiantes de negocios de la Universidad de Bayview. Asegrese de in-
cluir los siguientes puntos en su reporte.
1. Use la estadstica descriptiva para resumir los datos y comente sus hallazgos.
2. Elabore un intervalo de 95% de confianza para la proporcin de todos los estudiantes,
la proporcin de los estudiantes hombres y la proporcin de las estudiantes mujeres que
estuvieron involucrados en algn tipo de trampa.
3. Realice una prueba de hiptesis para determinar si la proporcin de estudiantes de ne-
gocios en Bayview que estuvieron involucrados en algn tipo de engao es menor que
la de alumnos en la misma disciplina de otras instituciones, como lo report el Chroni-
cle of Higher Education.
4. Realice una prueba de hiptesis para determinar si la proporcin de estudiantes de ne-
gocios en Bayview que estuvieron involucrados en algn tipo de engao es menor que
la de alumnos de otras carreras en otras instituciones, como lo report el Chronicle
of Higher Education.
5. Con base en su anlisis de los datos, qu consejo podra dar al decano?
Proporcin poblacional
Se ilustra con el ejemplo del campo de golf Pine Creek presentado en la seccin 9.5. Los da-
WEB archivo tos con las respuestas mujer (Female) y hombre (Male) estn en la columna Cl de la hoja de
WomenGolf clculo de Minitab. Este software usa un orden alfabtico de las respuestas y selecciona la se-
gunda respuesta para la proporcin poblacional de inters. En este caso Minitab utiliza el orden
alfabtico Female-Male (mujer-hombre) y entrega la proporcin poblacional de las respuestas
Male (hombre). Como Female (mujer) es la respuesta de inters, hay que modificar el orden
* Minitab proporciona simultneamente los resultados de la prueba de hiptesis y la estimacin por intervalo. El usuario
debe seleccionar cualquier nivel de confianza para la estimacin por intervalo de la media poblacional: aqu se sugiere
95% de confianza.
400 Captulo 9 Pruebas de hiptesis
alfabtico como sigue. Seleccione cualquier celda de la columna y use la secuencia Editor (
Column ( Value Order. Despus elija la opcin de ingresar un orden especificado por el usua-
rio. Ingrese Male-Female en el cuadro Define-an-order y d clic en OK. La rutina 1 Proportion
de Minitab suministrar los resultados de la prueba de hiptesis para la proporcin poblacional
de golfistas. Proceda como sigue:
Paso 1. Seleccione el men Stat.
Paso 2. Elija Basic Statistics.
Paso 3. Elija 1 Proportion.
Paso 4. Cuando el cuadro de dilogo 1 Proportion aparezca:
Ingrese C1 en el cuadro Samples in Columns.
Seleccione Perform Hypothesis Test.
Ingrese 0.20 en el cuadro Hypothesized proportion.
Seleccione Options.
Paso 5. Cuando el cuadro de dilogo 1 Proportion-Options aparezca:
Ingrese 95 en el cuadro Confidence level.
Seleccione greater than en el cuadro Alternative.
Elija Use test and interval based on normal distribution.
Haga clic en OK.
Paso 6. Haga clic en OK.
FIGURA 9.11 Hoja de clculo de Excel para pruebas de hiptesis sobre la media poblacional
con conocida
A B C D E
1 Yards Hypothesis Test About a Population Mean
2 303 With Known
3 282
4 289 Sample Size =COUNT(A2:A51)
5 298 Sample Mean =AVERAGE(A2:A51)
6 283 Population Std. Deviation 12
7 317
8 297 Hypothesized Value 295
9 308
10 317 Standard Error =D6/SQRT(D4)
11 293 Test Statistic z =(D5-D8)/D10
12 284
13 290 p-value (Lower Tail) =NORMSDIST(D11)
14 304 p-value (Upper Tail) =1-D13
15 290 p-value (Two Tail) =2*MIN(D13,D14)
16 311
17 305 A B C D E
49 303 1 Yards Hypothesis Test About a Population Mean
50 301 2 303 With Known
51 292 3 282
52 4 289 Sample Size 50
5 298 Sample Mean 297.6
6 283 Population Std. Deviation 12
7 317
8 297 Hypothesized Value 295
9 308
10 317 Standard Error 1.70
11 293 Test Statistic z 1.53
12 284
13 290 p-value (Lower Tail) 0.9372
14 304 p-value (Upper Tail) 0.0628
15 290 p-value (Two Tail) 0.1255
16 311
Nota. Las filas 18 a 48 estn 17 305
ocultas. 49 303
50 301
51 292
52
la columna A de la hoja de clculo. Modifique las frmulas de las celdas D4 y D5 para que
correspondan al nuevo rango de datos. Para obtener los resultados, ingrese la desviacin estn-
dar poblacional en la celda D6, y en la celda D8 ingrese el valor hipottico de la media pobla-
cional. Si los nuevos datos muestrales ya han sido resumidos, no es necesario ingresarlos en la
hoja de clculo. En este caso, para obtener los resultados se ingresa el tamao de la muestra en
la celda D4, la media muestral en la celda D5, la desviacin estndar poblacional en la celda D6
y el valor hipottico de la media poblacional en la celda D8. La hoja de clculo que se presenta
en la figura 9.11 est disponible en el archivo Hyp Sigma Known en el sitio web del libro.
402 Captulo 9 Pruebas de hiptesis
FIGURA 9.12 Hoja de clculo de Excel para pruebas de hiptesis sobre una media poblacional
con desconocida
A B C D E
1 Rating Hypothesis Test About a Population Mean
2 5 With Unknown
3 7
4 8 Sample Size =COUNT(A2:A61)
5 7 Sample Mean =AVERAGE(A2:A61)
6 8 Sample Std. Deviation =STDEV(A2:A61)
7 8
8 8 Hypothesized Value 7
9 7
10 8 Standard Error =D6/SQRT(D4)
11 10 Test Statistic t =(D5-D8)/D10
12 6 Degrees of Freedom =D4-1
13 7
14 8 p-value (Lower Tail) =IF(D11<0,TDIST(-D11,D12,1),1-TDIST(D11,D12,1))
15 8 p-value (Upper Tail) =1-D14
16 9 p-value (Two Tail) =2*MIN(D14,D15)
17 7
59 7 A B C D E
60 7 1 Rating Hypothesis Test About a Population Mean
61 8 2 5 With Unknown
62 3 7
4 8 Sample Size 60
5 7 Sample Mean 7.25
6 8 Sample Std. Deviation 1.05
7 8
8 8 Hypothesized Value 7
9 7
10 8 Standard Error 0.136
11 10 Test Statistic t 1.841
12 6 Degrees of Freedom 59
13 7
14 8 p-value (Lower Tail) 0.9647
15 8 p-value (Upper Tail) 0.0353
16 9 p-value (Two Tail) 0.0706
17 7
59 7
Nota. Las filas 18 a 58 estn
60 7
ocultas.
61 8
62
Apndice 9.2 Pruebas de hiptesis con Excel 403
versin de la hoja de clculo presentada en primer plano. Los datos se ingresan en las celdas
A2:A61. Para usar la plantilla con estos datos son necesarios los pasos siguientes.
Paso 1. Ingrese el rango de datos A2:A61 en la frmula !COUNT de la celda D4 para
obtener el tamao de la muestra.
Paso 2. Introduzca el rango de datos A2:A61 en la frmula !AVERAGE de la celda D5
para obtener la media muestral.
Paso 3. Ingrese el rango de datos A2:A61 en la frmula !STDEV de la celda D6 para
obtener la desviacin estndar muestral.
Paso 4. Ingrese el valor hipottico 7 de la media poblacional en la celda D8.
Las frmulas de las celdas restantes proporcionarn automticamente el error estndar en la cel-
da D8, el valor del estadstico de prueba t en la D11, el nmero de grados de libertad en la D12,
y tres valores-p. Como la hiptesis alternativa ( ( 7) indica que se trata de una prueba de cola
superior, para tomar la decisin de rechazar o no, se usa el valor-p (Upper Tail) de la celda D15.
Como el valor-p ! 0.0353 % ! 0.05, la hiptesis nula es rechazada. Los valores-p de las cel-
das D14 y D16 se usaran si se tratara de una prueba de hiptesis de cola inferior o de dos colas.
Esta plantilla se utiliza para los clculos de pruebas de hiptesis de otras aplicaciones.
Por ejemplo, para realizar una prueba de hiptesis con un nuevo conjunto de datos, stos se
ingresan en la columna A de la hoja de clculo y se modifican las frmulas de las celdas D4,
D5 y D6 para que correspondan al nuevo rango de datos. Para obtener los resultados, se ingresa
en la celda D8 el valor hipottico de la media poblacional. Si los datos muestrales ya han sido
resumidos, no es necesario incorporarlos en la hoja de clculo. En este caso, para obtener los re-
sultados se ingresa el tamao de la muestra en la celda D4, la media muestral en la celda D5, la
desviacin estndar muestral en D6 y el valor hipottico de la media poblacional en la celda
D8. La hoja de clculo que se presenta en la figura 9.12 se encuentra con el nombre Hyp Sigma
Unknown en el sitio web del libro.
Proporcin poblacional
Se ilustra con el ejemplo del campo de golf Pine Creek presentado en la seccin 9.5. Los da-
WEB archivo tos con las respuestas golfista Mujer (Female) y Hombre (Male) estn en la columna A de la
Hypothesis p
hoja de clculo de Excel. Consulte la figura 9.13 a medida que se describe este procedimien-
to. La hoja de clculo que aparece en segundo plano indica las frmulas usadas para obtener
los resultados que figuran en la hoja que est en primer plano. Los datos estn en las cel-
das A2:A401. Los pasos siguientes se usan para probar la hiptesis H0: p ' 0.20 frente a
Ha: p ( 0.20.
Paso 1. Ingrese el rango de datos A2:A401 en la frmula !COUNT de la celda D3 para
obtener el tamao de la muestra.
Paso 2. Ingrese Female como respuesta de inters en la celda D4.
Paso 3. Incorpore el rango de datos A2:A401 en la frmula !COUNTIF de la celda D5
para contar el nmero de respuestas de inters.
Paso 4. Ingrese el valor hipottico 0.20 de la proporcin poblacional en la celda D8.
Las frmulas de las celdas restantes proporcionarn automticamente el error estndar en la
celda D10, el valor del estadstico de prueba z en la D11, y tres valores-p. Como la hiptesis
alternativa (p ( 0.20) indica que se trata de una prueba de cola superior, para tomar la decisin
de rechazar o no se usa el valor-p (Upper Tail) de la celda D14. Como el valor-p ! 0.0062 %
! 0.05, la hiptesis nula es rechazada. Los valores-p de las celdas D13 o D15 se usaran si se
tratara de una prueba de hiptesis de cola inferior o de dos colas, respectivamente.
Esta planilla se puede utilizar para los clculos de pruebas de hiptesis con otras aplicacio-
nes. Por ejemplo, para realizar una prueba de hiptesis con otro conjunto de datos, ingreslos en
la columna A de la hoja de clculo. Se modifican las frmulas de las celdas D3 y D5 para que
correspondan al nuevo rango de datos. Para obtener los resultados, se ingresa en la celda D4 la
respuesta de inters y en la D8 el valor hipottico de la proporcin poblacional. Si los nuevos
datos muestrales ya han sido resumidos, no es necesario ingresarlos en la hoja de clculo. En
este caso, para obtener los resultados se ingresa el tamao de la muestra en la celda D3, la
proporcin muestral en D6 y el valor hipottico de la proporcin poblacional en la D8. La hoja
de clculo que se presenta en la figura 9.13 se encuentra bajo el nombre de Hypothesis p en el
sitio web del libro.
404 Captulo 9 Pruebas de hiptesis
FIGURA 9.13 Hoja de clculo de Excel para pruebas de hiptesis de una proporcin poblacional
A B C D E
1 Golfer Hypothesis Test About a Population Proportion
2 Female
3 Male Sample Size =COUNTA(A2:A401)
4 Female Response of Interest Female
5 Male Count for Response =COUNTIF(A2:A401,D4)
6 Male Sample Proportion =D5/D3
7 Female
8 Male Hypothesized Value 0.20
9 Male
10 Female Standard Error =SQRT(D8*(1-D8)/D3)
11 Male Test Statistic z =(D6-D8)/D10
12 Male
13 Male p-value (Lower Tail) =NORMSDIST(D11)
14 Male p-value (Upper Tail) =1-D13
15 Male p-value (Two Tail) =2*MIN(D13,D14)
16 Female
400 Male A B C D E
401 Male 1 Golfer Hypothesis Test About a Population Proportion
402 2 Female
3 Male Sample Size 400
4 Female Response of Interest Female
5 Male Count for Response 100
6 Male Sample Proportion 0.2500
7 Female
8 Male Hypothesized Value 0.20
9 Male
10 Female Standard Error 0.0200
11 Male Test Statistic z 2.50
12 Male
13 Male p-value (Lower Tail) 0.9938
14 Male p-value (Upper Tail) 0.0062
15 Male p-value (Two Tail) 0.0124
Nota. Las filas 17 a 399 16 Female
estn ocultas. 400 Male
401 Male
402
Se inicia con Data Set Manager para crear un conjunto de datos de StatTools utilizando
el procedimiento descrito en el apndice del captulo 1. Los pasos siguientes se utilizan para
probar la hiptesis de H0: ' 7 contra Ha: ( 7.
ESTADSTICA en LA PRCTICA
U.S. FOOD AND DRUG ADMINISTRATION
WASHINGTON, D.C.
La U.S. Food and Drug Administration (Oficina de Ali-
mentos y Medicamentos de Estados Unidos, FDA), a travs
del Centro de Evaluacin e Investigacin sobre Medica-
mentos (CDER, por sus siglas en ingls), garantiza que es-
tos ltimos sean confiables y efectivos. Pero el CDER no
se encarga de realizar las pruebas necesarias a los produc-
tos nuevos. La empresa interesada en comercializarlos es
la responsable de presentar las evidencias de que son con-
fiables y efectivos. Despus, en el CDER, cientficos y espe-
cialistas en estadstica revisan las evidencias presentadas.
Las empresas interesadas en que se apruebe un nuevo
medicamento realizan extensos estudios estadsticos para
apoyar su solicitud. Las pruebas que se efectan en la indus-
tria farmacutica suelen comprender tres etapas: 1) pruebas
preclnicas; 2) pruebas de uso prolongado y confiabilidad,
y 3) pruebas de eficiencia clnica. En cada una de las etapas
sucesivas disminuye la posibilidad de que el medicamen-
to pase las rigurosas pruebas; en cambio, el costo de las
pruebas subsiguientes aumenta enormemente. Los estudios
Los mtodos estadsticos se utilizan para desarrollar y probar
realizados informan que el costo promedio de la investiga-
medicamentos nuevos. Lester Lefkowitz/CORBIS.
cin y desarrollo de un nuevo frmaco es de $250 millones
y dura 12 aos. De esta manera, es importante descartar ya
en las pruebas de las primeras etapas aquellos medicamen-
tos que no resultarn tiles e identificar los que parecen una prueba de hiptesis para determinar la diferencia en-
prometedores para continuar sometindolos a las distin- tre las medias de las poblaciones del nuevo medicamento
tas pruebas. y del medicamento estndar. Si el primero es menos eficaz
La estadstica desempea un papel muy importante en que el segundo o tiene efectos indeseables, se rechaza y
la investigacin farmacutica, para la cual existen regula- queda eliminado del programa de pruebas. Slo los nuevos
ciones gubernamentales estrictas y rigurosas. En las prue- frmacos que muestran comparaciones prometedoras res-
bas preclnicas suelen emplearse pruebas estadsticas que pecto de los de tipo estndar se mantienen en pruebas de
implican dos o tres estudios de poblaciones para determinar uso prolongado y confiabilidad.
si se debe continuar con las pruebas de uso prolongado y En las etapas de pruebas de uso prolongado y confia-
confiabilidad del nuevo producto. Las poblaciones son: una bilidad y de eficiencia clnica tambin se recolectan ms
para el nuevo medicamento, una de control, y otra para un datos y se realizan otros estudios multipoblacionales. La
medicamento estndar. Los estudios preclnicos inician con FDA requiere que los mtodos estadsticos se definan antes
el envo del frmaco al departamento de farmacologa para de que se realicen las pruebas para evitar sesgos. Adems,
que evale su eficacia; esto es, su capacidad para produ- para no incurrir en sesgos humanos, algunos estudios clni-
cir los efectos esperados. Como parte de este proceso, se cos son de doble o de triple ciego. Es decir, ni el paciente
le pide a un especialista en estadstica que disee un expe- ni el investigador saben quin recibe cul medicamento. Si
rimento para probar el nuevo producto. En este diseo se el nuevo satisface todos los requerimientos en comparacin
especifica el tamao de la muestra y los mtodos estadsti- con el estndar, se presenta una solicitud de aceptacin del
cos de anlisis. En los estudios en los que intervienen dos nuevo producto ante la FDA. La solicitud es rigurosamente
poblaciones se usa una muestra para obtener datos sobre la analizada por los cientficos y especialistas en estadstica
eficacia del nuevo medicamento (poblacin 1) y otra para de esta oficina.
obtener datos acerca de la eficacia de un producto similar En este captulo aprender cmo calcular intervalos
estndar (poblacin 2). Dependiendo del uso que tendr el de confianza y realizar pruebas de hiptesis para medias
nuevo ejemplar en disciplinas como neurologa, cardiolo- y proporciones cuando se comparan dos poblaciones. Se
ga e inmunologa, se probarn tanto ste como el frma- presentarn las tcnicas para analizar tanto muestras aleato-
co estndar. En la mayor parte de los estudios se emplea rias independientes como muestras pareadas.
408 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
En los captulos 8 y 9 se mostr cmo obtener una estimacin por intervalo y conducir una
prueba de hiptesis cuando se trata de una sola media poblacional o de una sola proporcin
poblacional. En este captulo se contina con el estudio de la inferencia estadstica mostrando
la forma de estimar por intervalo y realizar pruebas de hiptesis cuando se tienen dos poblacio-
nes y lo que interesa es la diferencia entre dos medias poblacionales o entre dos proporciones
poblacionales. Por ejemplo, quiz desee obtener una estimacin por intervalo para la diferencia
entre el sueldo inicial medio de una poblacin de hombres y el sueldo inicial medio de una po-
blacin de mujeres, o necesite realizar una prueba de hiptesis para determinar si hay alguna
diferencia entre la proporcin de piezas defectuosas producidas por el proveedor A y la propor-
cin de partes defectuosas producidas por el proveedor B. El estudio de inferencia estadstica
para dos poblaciones se inicia mostrando cmo obtener una estimacin mediante un intervalo
de confianza y cmo realizar una prueba de hiptesis para la diferencia entre las medias de
dos poblaciones en el caso en que se conozcan sus desviaciones estndar.
La estimacin puntual de la diferencia entre las dos medias poblacionales es la diferencia en-
tre las dos medias muestrales.
x1 # x2 (10.1)
En la figura 10.1 se proporciona una visin esquemtica del proceso que se sigue para es-
timar la diferencia entre dos medias poblacionales empleando dos muestras aleatorias simples
El error estndar de independientes.
x1 ! x2 es la desviacin Como otros estimadores puntuales, el estimador puntual x1 # x2 tiene un error estndar
estndar de la distribucin
que describe la variacin en la distribucin de muestreo del estimador. Cuando se tienen dos
de muestreo de x1 ! x2.
muestras aleatorias simples independientes, el error estndar de x1 # x2 es el siguiente.
ERROR ESTNDAR DE x1 # x2
21 2
x1#x2 ! " 2 (10.2)
n1 n2
Si ambas poblaciones tienen distribucin normal o si los tamaos de las muestras son su-
ficientemente grandes para que el teorema del lmite central permita concluir que las distribu-
ciones de muestreo de x1 # x2 puedan ser aproximadas mediante una distribucin normal, la
distribucin muestral de x1 # x2 tendr una distribucin normal cuya media es 1 # 2.
Como se ilustra en el captulo 8, una estimacin por intervalo est dada por una estimacin
puntual ) un margen de error. En el caso de la estimacin de la diferencia entre dos medias
poblacionales, una estimacin por intervalo tendr la forma siguiente.
x1 # x2 ) margen de error
Poblacin 1 Poblacin 2
Clientes de la tienda Clientes de la tienda
del centro de la ciudad suburbana
1 ! media de las edades de los 2 ! media de las edades
clientes de la tienda del de los clientes de la
centro de la ciudad tienda suburbana
21 2
El margen de error se Margen de error " z/2 x1!x2 " z/2 # 2 (10.3)
n1 n2
obtiene multiplicando el
error estndar por z/2.
En consecuencia, la estimacin por intervalo de la diferencia entre las dos medias poblacionales
es la que se indica enseguida:
21 2
x1 ! x2 $ z/2 # 2 (10.4)
n1 n2
92 102
40 ! 35 $ 1.96 #
36 49
5 $ 4.06
As pues, el margen de error es 4.06 aos y la estimacin por intervalo de 95% de confianza
de la diferencia entre las dos medias poblacionales va de 5 ! 4.06 " 0.94 aos a 5 # 4.06 "
9.06 aos.
En muchas aplicaciones, D0 " 0. Con un ejemplo de prueba de hiptesis de dos colas, cuando
D0 " 0, la hiptesis nula es H0: 1 ! 2 " 0. En este caso, la hiptesis nula indica que 1 y 2
son iguales. Rechazar H0 lleva a la conclusin de que Ha: 1 ! 2 ) 0 es verdadera; es decir,
1 y 2 no son iguales.
Los pasos presentados en el captulo 9 para realizar una prueba de hiptesis tambin son
aplicables aqu. Hay que elegir el nivel de significancia, calcular el valor del estadstico de
prueba y encontrar el valor-p para determinar si se rechaza la hiptesis nula. En el caso de dos
muestras aleatorias independientes, se mostr que el estimador puntual x1 ! x2 tiene un error
estndar x1!x2 dado por la expresin (10.2), y cuando los tamaos de las muestras son sufi-
cientemente grandes, la distribucin de x1 ! x2 se puede considerar normal. En este caso, el
estadstico de prueba para la diferencia entre dos medias poblacionales cuando se conocen 1 y
2 es el que se da a continuacin.
(x1 ! x2 ) ! D0
z" (10.5)
21 22
#
n1 n2
Se parte del supuesto tentativo de que no hay diferencia entre la calidad de la educacin en uno
y otro centro de enseanza. Entonces, en trminos de las puntuaciones medias obtenidas en el
examen, la hiptesis nula es que 1 ! 2 " 0. Si las evidencias muestrales llevan a rechazar
esta hiptesis, se concluir que s hay diferencia entre las medias de las puntuaciones de exa-
men en las dos poblaciones. Esta conclusin indicar que hay diferencia en la calidad de los
dos centros y sugerir la necesidad de realizar un estudio para investigar las razones de estas
discrepancias. Las hiptesis nula y alternativa en esta prueba de dos colas se expresan como se
indica a continuacin.
H0: 1 ! 2 " 0
Ha: 1 ! 2 ) 0
entre las medias poblacionales de los dos centros de enseanza? Para responder esta pregunta
se calcula el estadstico de prueba empleando la ecuacin (10.5).
Consejo prctico
En la mayor parte de las aplicaciones de estimaciones por intervalo y de pruebas de hiptesis
presentadas en esta seccin, las muestras aleatorias con n1 % 30 y n2 % 30 se consideran ade-
cuadas. En el caso en que una o las dos muestras sea menor que 30, las distribuciones de las
poblaciones son importantes. En general, cuando esto ocurre, es importante que el analista se
convenza de que es razonable suponer que las distribuciones de las dos poblaciones son al me-
nos aproximadamente normales.
Ejercicios
Mtodos
1. Los resultados siguientes provienen de muestras aleatorias simples independientes tomadas de
AUTO evaluacin dos poblaciones.
Muestra 1 Muestra 2
n1 " 50 n2 " 35
x1 " 13.6 x2 " 11.6
1 " 2.2 2 " 3.0
Los resultados siguientes se obtuvieron de dos muestras independientes tomadas de dos po-
blaciones.
Muestra 1 Muestra 2
n1 " 40 n2 " 50
x1 " 25.2 x2 " 22.8
1 " 5.2 2 " 6.0
H0: 1 ! 2 " 0
Ha: 1 ! 2 ) 0
Los siguientes son los resultados de dos muestras independientes tomadas de dos poblaciones.
Muestra 1 Muestra 2
n1 " 80 n2 " 70
x1 " 104 x2 " 106
1 " 8.4 2 " 7.6
Aplicaciones
4. Cond Nast Traveler realiza una encuesta anual en la que los lectores califican su crucero fa-
AUTO evaluacin vorito. Los navos se califican en una escala de 100 puntos, donde los valores ms altos indican
un mejor servicio. Una muestra de 37 cruceros que transportan menos de 500 pasajeros result
con una calificacin promedio de 85.36 y una muestra de 44 navos que transportan 500 o ms
pasajeros recibi una calificacin promedio de 81.40 (Cond Nast Traveler, febrero de 2008).
Suponga que la desviacin estndar poblacional es 4.55 para los cruceros que transportan a
menos de 500 pasajeros y 3.97 para los que transportan a 500 o ms paseantes.
a) Cul es la estimacin puntual de la diferencia entre la calificacin media poblacional de
los navos que transportan menos de 500 pasajeros y la calificacin media poblacional
de los que transportan 500 o ms personas.
b) Cul es el margen de error con 95% de confianza?
c) Cul es la estimacin por intervalo de 95% de confianza para la diferencia entre las cali-
ficaciones medias poblacionales de ambos tamaos de cruceros?
5. Se esperaba que el Da de San Valentn el gasto promedio fuera de $100.89 (USA Today, 13 de
febrero de 2006). Hay diferencia en las cantidades que desembolsan los hombres y las muje-
res? El gasto promedio en una muestra de 40 hombres fue de $135.67 y en una muestra de 30
mujeres fue de $68.64. Por estudios anteriores se sabe que la desviacin estndar poblacional
en el consumo de los hombres es $35 y en el de las mujeres es $20.
414 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
El banco desea estimar la diferencia entre el saldo medio en las cuentas de cheques de la
poblacin de clientes de Cherry Grove y el saldo medio en las cuentas de cheques de la pobla-
cin de clientes de Becchmont. Enseguida se calcular el margen de error y una estimacin por
intervalo para la diferencia entre estas dos medias poblacionales.
En la seccin 10.1 se proporciona la estimacin por intervalo siguiente para el caso en que
se conocen las desviaciones estndar poblacionales, 1 y 2.
21 2
x1 ! x2 $ z/2 # 2
n1 n2
416 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
Cuando se estiman 1 y Cuando no se conocen 1 y 2 se emplean las desviaciones estndar muestrales sl y s2 para es-
2 mediante s1 y s2, se timar 1 y 2 , y z/2 se sustituye por t/2. Entonces la estimacin por intervalo para la diferencia
usa la distribucin t para
entre dos medias poblacionales queda dada por la expresin siguiente.
hacer inferencias sobre la
diferencia entre dos medias
poblacionales.
ESTIMACIN POR INTERVALO PARA LA DIFERENCIA ENTRE DOS MEDIAS
POBLACIONALES: 1 Y 2 DESCONOCIDAS
s 21 s2
x1 ! x2 $ t/2 # 2 (10.6)
n1 n2
s 21 s2 2
# 2
n1 n2
gl " (10.7)
1 s 21 2
1 s 22 2
#
n1 ! 1 n1 n2 ! 1 n2
De vuelta al ejemplo del Clearwater National Bank, se mostrar cmo usar la expresin
(10.6) para obtener una estimacin por intervalo de 95% de confianza de la diferencia entre las
medias poblacionales de los saldos en las cuentas de cheques de sus dos sucursales. Los datos
muestrales de Cherry Grove son n1 " 28, x1 " $1 025 y s1 " $150, y los de la sucursal Beech-
mont son n2 " 22, x2 " $910 y s2 " $125. El clculo de los grados de libertad (gl) para t/2 es:
s 21 s2 2
150 2 1252 2
# 2 #
n1 n2 28 22
gl " " " 47.8
1 s 21 2
1 s 22 2
1 150 2 2 1 1252 2
# #
n1 ! 1 n1 n2 ! 1 n2 28 ! 1 28 22 ! 1 22
Como el resultado no es un nmero entero, se redondea hacia abajo a 47 para obtener un va-
lor t mayor y una estimacin por intervalo ms prudente. En la tabla de la distribucin t para
47 grados de libertad se encuentra que t0.025 " 2.012. Segn la expresin (10.6), el intervalo de
95% de confianza para la diferencia entre las dos medias poblacionales se calcula como sigue.
s 21 s2
x1 ! x2 $ t 0.025 # 2
n1 n2
150 2 1252
1 025 ! 910 $ 2.012 #
28 22
115 $ 78
La estimacin puntual de la diferencia entre las dos medias poblacionales de los saldos en las
cuentas de cheques es $115. El margen de error es $78 y la estimacin por intervalo de 95% de
10.2 Inferencias acerca de la diferencia entre dos medias poblacionales: 1 y 2... 417
confianza para la diferencia entre las dos medias poblacionales es el que va de 115 ! 78 " $37
a 115 # 78 " $193.
Esta sugerencia es til El clculo manual de los grados de libertad usando la expresin (10.7) es laborioso, pero
cuando se usa la ecuacin muy sencillo si se usa software. Sin embargo, observe que las expresiones s 21$n1 y s 22$n2 apa-
(10.7) para calcular
recen tanto en la expresin (10.6) como en la (10.7). Por tanto, slo habr que calcular estos
manualmente los grados
de libertad. valores una vez para usarlos en ambas ecuaciones, (10.6) y (10.7).
(x1 ! x2 ) ! D0
z"
21 2
# 2
n1 n2
(x1 ! x2 ) ! D0
t" (10.8)
s 21 s2
# 2
n1 n2
TABLA 10.1 Datos y resumen estadsticos del tiempo requerido en el estudio de la prueba
de software
caso en el que la diferencia entre las dos muestras poblacionales 1 ! 2 ser mayor que cero.
La hiptesis de investigacin 1 ! 2 ( 0 se establece como hiptesis alternativa. Por ende, la
prueba de hiptesis ser:
H0: 1 ! 2 & 0
Ha: 1 ! 2 ( 0
s 21 s2 2
40 2 442 2
# 2 #
n1 n2 12 12
gl " " " 21.8
1 s 21 2
1 s 22 2
1 40 2 2
1 442 2
# #
n 1 ! 1 n1 n2 ! 1 n2 12 ! 1 12 12 ! 1 12
Al redondear hacia abajo se usar una distribucin t con 21 grados de libertad. La fila corres-
pondiente de la tabla de distribucin t es la siguiente.
t " 2.27
10.2 Inferencias acerca de la diferencia entre dos medias poblacionales: 1 y 2... 419
FIGURA 10.2 Resultado de Minitab para la prueba de hiptesis usando la tecnologa actual y el nuevo software
Slo es posible determinar En una prueba de cola superior el valor-p es el rea en la cola superior a la derecha de
un rango para el valor-p t " 2.27. Con base en este resultado, se ve que el valor-p est entre 0.025 y 0.01. Por tanto,
cuando se utiliza la tabla
es menor que " 0.05 y se rechaza H0. Los resultados muestrales permiten al investigador
de distribucin t. Excel o
Minitab muestran el valor-p concluir que 1 ! 2 ( 0, o que 1 ( 2. Por consiguiente, el estudio de investigacin apoya
exacto " 0.017. la conclusin de que el nuevo software proporciona una media poblacional menor de tiempo
requerido.
Para las pruebas de hiptesis acerca de la diferencia entre dos medias poblacionales se
usan Excel o Minitab. En la figura 10.2 se presentan los resultados que proporciona Minitab
para la comparacin de la tecnologa actual y el nuevo software. En la ltima lnea se ve que
t " 2.27 y el valor-p " 0.017. Observe que Minitab usa la ecuacin (10.7) para calcular los
21 grados de libertad de este anlisis.
Consejo prctico
Se recomienda, siempre que Los procedimientos aqu presentados para estimaciones por intervalo y pruebas de hiptesis
sea posible, usar muestras son slidos y pueden usarse con muestras relativamente pequeas. En la mayor parte de las
del mismo tamao, n1 " n2 .
aplicaciones con muestras iguales o casi del mismo tamao, y de manera que el tamao total
de la muestra, n1 + n2, sea por lo menos 20, se esperan muy buenos resultados aun cuando
las poblaciones no sean normales. Si las distribuciones de las poblaciones son muy sesgadas
o contienen valores atpicos, se recomiendan muestras ms grandes. Las pequeas slo de-
ben usarse cuando el analista est convencido de que las distribuciones de las poblaciones son
aproximadamente normales.
NOTAS Y COMENTARIOS
Otro mtodo que se utiliza para hacer inferencias el cual tiene n1 # n2 ! 2 grados de libertad. A partir
acerca de la diferencia entre dos medias poblacionales de aqu el clculo del valor-p y la interpretacin de
cuando no se conocen 1 y 2 se basa en el supuesto de los resultados muestrales se efectan de manera idn-
que las dos desviaciones estndar poblacionales son tica a lo indicado en esta seccin.
iguales (1 " 2 " ). Bajo este supuesto, las dos El problema con este procedimiento es la di-
desviaciones estndar muestrales se combinan para ficultad que suele existir para verificar que las dos
obtener la siguiente varianza muestral combinada. desviaciones estndar poblacionales son iguales. Lo
ms frecuente es encontrar que no son iguales. Con
el procedimiento de la varianza combinada pueden no
(n 1 ! 1)s 21 # (n 2 ! 1)s 22
s 2p " obtenerse resultados satisfactorios, en especial si los
n1 # n 2 ! 2 tamaos de las muestras, n1 y n2, son muy distintos.
El procedimiento t presentado en esta seccin no
El estadstico de prueba t es: requiere el supuesto de que las dos desviaciones estn-
dar poblacionales son iguales y puede usarse cuando
(x1 ! x 2) ! D0 stas son o no iguales. Es un procedimiento ms ge-
t" , neral y se recomienda para la mayora de las aplica-
1 1 ciones.
sp #
n1 n2
420 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
Ejercicios
Mtodos
9. Los resultados siguientes se obtuvieron de muestras aleatorias independientes tomadas de
AUTO evaluacin dos poblaciones.
Muestra 1 Muestra 2
n1 " 20 n2 " 30
x1 " 22.5 x2 " 20.1
s1 " 2.5 s2 " 4.8
Muestra 1 Muestra 2
n1 " 35 n2 " 40
x1 " 13.6 x2 " 10.1
s1 " 5.2 s2 " 8.5
Muestra 1 10 7 13 7 9 8
Muestra 2 8 7 8 4 6 9
Aplicaciones
12. El Departamento de Transporte de Estados Unidos informa sobre la cantidad de millas que
AUTO evaluacin recorren en automvil los habitantes de las 75 principales reas metropolitanas del pas. Su-
ponga que en una muestra aleatoria simple de 50 residentes de Buffalo, la media es 22.5 millas
10.2 Inferencias acerca de la diferencia entre dos medias poblacionales: 1 y 2... 421
por da y la desviacin estndar es 8.4 millas por da, mientras que en una muestra aleatoria
simple independiente de 40 habitantes de Boston la media es 18.6 millas por da y la desviacin
estndar es 7.4 millas por da.
a) Cul es la estimacin puntual de la diferencia entre la media de las millas por da que
recorre un habitante de Buffalo y la media de las millas por da que recorre un habitante
Boston?
b) Cul es el intervalo de 95% de confianza para la diferencia entre las dos medias pobla-
cionales?
13. FedEx y United Parcel Service (UPS) son las dos empresas de paquetera lderes en el mundo en
WEB archivo cuanto a volumen e ingresos (The Wall Street Journal, 27 de enero de 2004). Segn el Consejo
Cargo
Internacional de Aeropuertos, las terminales ereas internacionales de Memphis (FedEx) y
de Louisville (UPS) son dos de los 10 mayores aeropuertos de carga del mundo. Las muestras
aleatorias siguientes describen las toneladas de carga por da que pasan por estas terminales.
Los datos se registran en miles de toneladas.
Memphis
9.1 15.1 8.8 10.0 7.5 10.5
8.3 9.1 6.0 5.8 12.1 9.3
Louisville
4.7 5.0 4.2 3.3 5.5
2.2 4.1 2.6 3.4 7.0
a) Calcule la media muestral y la desviacin estndar muestral para cada uno de los aero-
puertos.
b) Cul es la estimacin puntual de la diferencia entre las dos medias poblacionales? Inter-
prete este valor en trminos del aeropuerto de mayor volumen y compare la diferencia de
volmenes entre las dos terminales.
c) Proporcione un intervalo de 95% de confianza para la diferencia entre las medias pobla-
cionales diarias de los dos aeropuertos.
14. Los sueldos de las enfermeras en Tampa, Florida, son ms bajos que en Dallas, Texas? La
informacin de sueldos muestra que el personal de enfermera en Tampa gana menos que el de
Dallas (The Tampa Tribune, 15 de enero de 2007). Suponga que en un estudio de seguimiento
de 40 enfermeras en Tampa y 50 en Dallas se obtuvieron los siguientes resultados.
Tampa Dallas
n1 " 40 n2 " 50
x1 " $56 100 x2 " $59 400
s1 " $6 000 s2 " $7 000
a) Formule la hiptesis de tal forma que, si se rechaza la hiptesis nula, se pueda concluir
que los sueldos de las enfermeras en Tampa son significativamente ms bajos que en
Dallas. Use " 0.05.
b) Cul es el valor del estadstico de prueba?
c) Cul es el valor-p?
d) A qu conclusin llega?
15. Las lesiones entre los jugadores de las grandes ligas de beisbol han aumentado en los ltimos
aos. La expansin de las ligas, de 1992 a 2001, hizo que la lista de jugadores se incrementar
15%. Sin embargo, la cantidad de beisbolistas en la lista de inhabilitados a causa de una lesin
aument 32% en ese mismo periodo (USA Today, 8 de julio de 2002). Una cuestin a investigar
es si los jugadores de las grandes ligas permanecan en la lista de lesionados ms tiempo en
2001 que quienes estaban en esa lista una dcada antes.
422 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
a) Formule las hiptesis pertinentes para determinar si los datos muestrales confirman la
hiptesis de que los estudiantes cuyos padres tienen un nivel de estudios ms alto obtienen
mejores puntuaciones en el SAT.
b) Cul es la estimacin puntual de la diferencia entre las medias de las dos poblaciones?
c) Calcule el valor-p en esta prueba de hiptesis.
d) Con " 0.05, cul es su conclusin?
17. Con cierta periodicidad, Merrill Lynch solicita a sus clientes evaluaciones sobre los consul-
tores y los servicios financieros que les proporciona. Las puntuaciones ms altas en la en-
cuesta de satisfaccin del cliente indican mejor servicio con 7 como la puntuacin ms alta.
A continuacin se presentan en forma resumida las puntuaciones otorgadas a dos consultores
financieros por los miembros de dos muestras aleatorias independientes. El consultor A tiene
10 aos de experiencia, mientras que el consultor B tiene slo 1 ao. Use " 0.05 y realice
una prueba para determinar si el consultor con ms experiencia tiene la media poblacional ms
alta en la evaluacin del servicio.
10.3 Inferencias acerca de la diferencia entre dos medias poblacionales: muestras pareadas 423
Consultor A Consultor B
n1 " 16 n2 " 10
x1 " 6.82 x2 " 6.25
s1 " 0.64 s2 " 0.75
H0: 1 ! 2 " 0
Ha: 1 ! 2 ) 0
En la eleccin del procedimiento de muestreo para obtener los datos y probar las hiptesis se
consideran dos diseos alternos. Uno se basa en muestras independientes y el otro en muestras
pareadas (o muestras por pares).
que se utiliza para probar la diferencia entre las dos medias es el presentado en la sec-
cin 10.2.
2. Diseo de muestras pareadas. Se toma una muestra aleatoria simple de trabajadores.
Cada trabajador usa primero uno de los mtodos y despus el otro. A cada sujeto se le
asigna en forma aleatoria el orden en que aplicar los dos mtodos; algunos primero
usarn el mtodo 1 y otros el mtodo 2. Cada trabajador proporcionar un par de valores
de datos, un valor para el mtodo 1 y otro para el mtodo 2.
En el diseo de muestras pareadas los dos mtodos se prueban bajo condiciones similares (es
decir, con los mismos trabajadores); por tanto, este diseo suele conducir a errores muestra-
les ms pequeos que el de muestras independientes. La razn principal se debe a que en el
diseo de muestras pareadas se elimina la variacin entre los trabajadores, ya que los mismos
sujetos prueban los dos mtodos.
A continuacin, con el empleo del diseo de muestras pareadas se demostrar la diferencia
entre las medias poblacionales para los dos mtodos de produccin. Se emplea una muestra
aleatoria de seis trabajadores. En la tabla 10.2 se indican los tiempos que requirieron los seis
sujetos para realizar la tarea. Observe que de cada trabajador se obtuvieron dos datos, uno con
cada mtodo de produccin. Tambin observe que en la ltima columna se proporciona, para
cada sujeto de la muestra, la diferencia di entre los tiempos para completar la tarea.
Lo principal en el anlisis de muestras pareadas consiste en darse cuenta de que nicamente
hay que considerar la columna de las diferencias. De manera que se tienen seis valores de datos
(0.6, !0.2, 0.5, 0.3, 0 y 0.6) que se usarn para analizar la discrepancia entre las medias pobla-
cionales de los dos mtodos de produccin.
Sea d " la media de la diferencia en los valores de la poblacin de trabajadores. Con esta
notacin, las hiptesis nula y alternativa se expresan como sigue.
H0: d " 0
Ha: d ) 0
Si H0 es rechazada, se concluye que las medias poblacionales difieren en los tiempos requeri-
Fuera del uso de la dos para completar la tarea con los dos mtodos.
notacin d, las frmulas La notacin d sirve para recordar que las muestras pareadas proporcionan datos que son
para la media muestral
diferencias. A continuacin se calcula la media y la desviacin estndar muestrales de las seis
y la desviacin estndar
muestral son las mismas diferencias en los valores que se presentan en la tabla 10.2.
que se han manejado
antes en este libro. !di 1.8
d " " " 0.30
n 6
!(di ! d )2 0.56
sd " " " 0.335
n!1 5
TABLA 10.2 Tiempos para completar una tarea en un diseo de muestras pareadas
Si la muestra es grande, no Como la muestra es pequea, n " 6, es preciso suponer que la poblacin de las diferencias
se necesita el supuesto de tiene una distribucin normal. Este supuesto es necesario para usar la distribucin t en la prue-
que la poblacin tiene una
ba de hiptesis y para calcular la estimacin por intervalo. Con esta presuncin, el estadstico
distribucin normal. En los
captulos 8 y 9 se presentan de prueba siguiente tiene una distribucin t con n ! 1 grados de libertad.
los lineamientos sobre el
tamao de la muestra para
usar la distribucin t.
ESTADSTICO DE PRUEBA PARA PRUEBAS DE HIPTESIS CON MUESTRAS PAREADAS
d ! d
t" (10.9)
sd $"n
Una vez que los datos de las A continuacin se usar la ecuacin (10.9) para probar las hiptesis H0: d " 0 y Ha: d ) 0,
diferencias son calculados, usando " 0.05. El estadstico de prueba se calcula sustituyendo en la ecuacin (10.9) los
el procedimiento para
la distribucin t de las
resultados muestrales, d " 0.30, sd " 0.335 y n " 6.
muestras pareadas es
el mismo que para la
d ! d 0.30 ! 0
estimacin y la prueba t" " " 2.20
de hiptesis de una sola sd $"n 0.335$"6
poblacin descritas en los
captulos 8 y 9.
Ahora se calcular el valor-p para esta prueba de dos colas. Como t " 2.20 ( 0, el estads-
tico de prueba se encuentra en la cola superior de la distribucin t. Como t " 2.20, el rea en
la cola superior a la derecha del estadstico de prueba se identifica usando la tabla de distribu-
cin t con grados de libertad " n ! l " 6 ! l " 5. A continuacin se copia la informacin
correspondiente a la fila de la tabla de distribucin t para 5 grados de libertad.
t " 2.20
Como se ve, el rea en la cola superior est entre 0.05 y 0.025. Por tratarse de una prueba de
dos colas, se duplica este valor y se concluye que el valor-p se ubica entre 0.10 y 0.05. Este
valor-p es mayor que " 0.05. Por ende, no se rechaza la hiptesis nula H0: d " 0. Con Excel
o Minitab y los datos de la tabla 10.2 se encuentra el valor-p exacto " 0.080.
Adems, tambin se puede obtener un intervalo de confianza para estimar la diferencia
entre las dos medias poblacionales usando la metodologa para una sola poblacin presentada
en el captulo 8. A continuacin se presenta el clculo para obtener un intervalo de 95% de
confianza.
sd
d $ t 0.025
"n
0.335
0.3 $ 2.571
"6
0.3 $ 0.35
Por tanto, el margen de error es 0.35 y el intervalo de 95% de confianza para estimar la dife-
rencia entre las medias poblacionales de los dos mtodos de produccin va de !0.05 minutos
a 0.65 minutos.
426 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
NOTAS Y COMENTARIOS
1. En el ejemplo presentado en esta seccin, los tra- ferencias a ser usados en el anlisis de muestras
bajadores realizan la tarea primero con un mtodo pareadas.
y luego con el otro. Este ejemplo ilustra un dise- 2. Con el mtodo de muestras pareadas para obtener
o de muestras pareadas en el que cada elemento inferencias sobre dos medias poblacionales, por
(trabajador) de la muestra arroja dos datos. Para lo general se logran mejores resultados que con
obtener el par de datos tambin se emplean ele- el mtodo de muestras independientes; por tanto,
mentos diferentes pero similares. Por ejemplo, es el ms recomendable. Sin embargo, en muchas
un trabajador en una ubicacin forma pareja con aplicaciones no se logran formar pares o el tiem-
otro en diferente ubicacin (con similitud en edad, po y el costo requeridos son excesivos. En tales
gnero, experiencia, nivel de estudio, etc.) De las casos se deber recurrir al mtodo de muestras in-
parejas de sujetos se obtendrn los datos de las di- dependientes.
Ejercicios
Mtodos
19. Considere la prueba de hiptesis siguiente.
AUTO evaluacin
H0: d & 0
Ha: d ( 0
Poblacin
Elemento 1 2
1 21 20
2 28 26
3 18 18
4 20 20
5 26 24
Poblacin
Elemento 1 2
1 11 8
2 7 8
3 9 6
4 12 7
5 13 10
6 15 15
7 15 14
10.3 Inferencias acerca de la diferencia entre dos medias poblacionales: muestras pareadas 427
Aplicaciones
21. Una firma de investigacin de mercados usa una muestra de individuos para calificar el poten-
AUTO evaluacin cial de compra de un determinado producto antes y despus de que los individuos vean un co-
mercial de televisin que lo promociona. La calificacin del potencial de compra se efecta con
una escala del 0 al 10, con los valores ms altos indicando un mayor potencial. En la hiptesis
nula se establece que la media de las calificaciones de despus ser menor o igual a la media
de las calificaciones antes. El rechazo de esta hiptesis indica que el comercial mejora la
media de la calificacin del potencial de compra. Use " 0.05 y los datos de la tabla siguiente
para probar esta hiptesis y exprese un comentario sobre la utilidad del comercial.
22. En el archivo titulado Earnings2005 se encuentran datos sobre las utilidades por accin en los
WEB archivo que se comparan las obtenidas en un trimestre con las del trimestre anterior. Proporcione un
Earnings2005
intervalo de 95% de confianza para estimar la diferencia entre las medias poblacionales del
trimestre dado frente a las del trimestre anterior. Las utilidades aumentaron?
23. En un estudio del Bank of America sobre el gasto de los consumidores, se recabaron datos
sobre las cantidades pagadas con tarjetas de crdito en seis categoras diferentes: transporte,
supermercado, restaurantes, gastos domsticos, mobiliario, vestido y diversin (US. Airways
Attach, diciembre de 2003). Suponga que con datos de 43 tarjetas de crdito se identifican
las cantidades anuales que se gastaron en supermercado (poblacin 1) y en restaurantes (pobla-
cin 2). A partir de las diferencias, la media muestral de stas fue d " $850, y la desviacin
estndar muestral fue sd " $1 123.
a) Formule las hiptesis nula y alternativa para probar que no hay diferencia entre las medias
poblacionales de los gastos en supermercado y en restaurantes pagados ambos con tarjeta
de crdito.
b) Con 0.05 como nivel de significancia, se puede concluir que hay diferencia entre las
medias poblacionales? Cul es el valor-p?
c) En qu categora, supermercado o restaurantes, es mayor la media poblacional de los
gastos anuales pagados con tarjeta de crdito? Proporcione la estimacin puntual de la
diferencia entre las medias poblacionales. Considere un intervalo de 95% de confianza para
estimar la diferencia entre estas medias poblacionales.
24. Las personas que viajan en avin suelen elegir de qu aeropuerto salir con base en el costo
WEB archivo del vuelo. Para determinar de qu aeropuerto es ms costoso salir, considerando el de Dayton,
AirFare
Ohio, y el de Louisville, Kentucky, se recolectan datos (en dlares) de una muestra de vuelos a
ocho ciudades (The Cincinnati Enquirer, 19 de febrero de 2006). Un investigador sostiene que
es mucho ms costoso partir de Dayton que de Louisville. Use los datos muestrales para ver si
sustentan tal afirmacin. Como nivel de significancia use " 0.05.
428 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
25. En los ltimos aos prolifera una cantidad cada vez mayor de opciones de entretenimiento
que compiten por el tiempo de los consumidores. En 2004 la televisin por cable y la radio
superaron a la televisin abierta, la msica grabada y los peridicos, convirtindose en los me-
dios de entretenimiento ms usados (The Wall Street Journal, 26 de enero de 2004). Con una
muestra de 15 individuos, los investigadores obtienen los datos de las horas por semana que
destinan a ver televisin por cable y de las horas por semana en que escuchan la radio.
a) Use como nivel de significancia 0.05 y haga una prueba para la diferencia entre las medias
poblacionales de la cantidad de horas destinadas a la televisin por cable y la cantidad de
horas destinadas a la radio. Cul es el valor-p?
b) Cul es la media muestral de la cantidad de horas por semana empleadas en ver televi-
sin por cable? Cul es la media muestral de la cantidad de horas por semana destinadas
a escuchar radio? Cul de estos medios tiene mayor uso?
26. En la tabla siguiente se presentan las puntuaciones en las rondas primera y cuarta (final) de
una muestra de 20 golfistas (Player) que compitieron en los torneos de la PGA (Golfweek, 14
y 28 de febrero de 2009). Suponga que se desea determinar si la media de las puntuaciones en
la primera ronda (First Round) de un evento del PGA Tour es significativamente diferente de la
media de las puntuaciones en la cuarta y ltima ronda (Final Round). La presin del juego en
la ronda final causa que las puntuaciones aumenten? O el incremento en la concentracin del
golfista ocasiona que las puntuaciones disminuyan?
a) Utilice " 0.10 para probar si existe una diferencia estadsticamente significativa entre
las medias poblacionales de las puntuaciones de la primera y cuarta rondas. Cul es el
valor-p? A qu conclusin llega?
b) Cul es la estimacin puntual de la diferencia entre las dos medias poblacionales? Para
cul ronda es menor la media poblacional de la puntuacin?
c) Cul es el margen de error para la estimacin por intervalo de 95% de confianza para la
diferencia entre las medias poblacionales? Podra utilizarse este intervalo de confianza
para probar la hiptesis del inciso a)? Explique.
27. Un fabricante produce dos modelos de una lijadora automtica, uno de lujo y otro estndar,
diseado para uso domstico. Los precios de venta de una muestra de distribuidores minoristas
se presentan a continuacin.
a) En los precios minoristas sugeridos por el fabricante para los dos modelos, la diferencia
es de $10. Use como nivel de significancia 0.05 y pruebe que la diferencia media entre los
precios de los dos modelos es realmente de $10.
b) Cul es el intervalo de 95% de confianza para la diferencia entre la media de los precios
de ambos modelos?
La diferencia entre las dos proporciones poblacionales est dada por p1 ! p2. La estimacin
puntual de p1 ! p2 se indica enseguida.
430 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
p1 ! p2 (10.10)
ERROR ESTNDAR DE p1 ! p2
Si los tamaos de las muestras son suficientemente grandes para que n1 p1, n1(1 ! p1),
n2 p2 y n2(l ! p2) sean todos mayores o iguales que 5, la distribucin de muestreo de p1 ! p2
puede ser aproximada por una distribucin normal.
Como ya se indic antes, una estimacin por intervalo est dada por una estimacin puntual
$ un margen de error. En el clculo de la diferencia entre dos proporciones poblacionales, una
estimacin por intervalo toma la forma siguiente.
p1 ! p2 $ margen de error
La forma general de una estimacin por intervalo para la diferencia entre dos proporciones
poblacionales es la siguiente.
Oficina 1 Oficina 2
n1 " 250 n2 " 300
Nmero de declaraciones con errores " 35 Nmero de declaraciones con errores " 27
Las proporciones muestrales en cada una de las oficinas son las siguientes.
WEB archivo
35
TaxPrep p1 " " 0.14
250
27
p2 " " 0.09
300
La estimacin puntual de la diferencia entre las proporciones de declaraciones con errores en
las dos poblaciones es p1 ! p2 " 0.14 ! 0.09 " 0.05. Por tanto, se estima que la oficina 1
comete 0.05 o 5% ms errores que la oficina 2.
Ahora se puede usar la expresin (10.13) para calcular el margen de error y la estimacin
por intervalo para la diferencia entre las dos proporciones poblacionales. Utilizando un inter-
valo de 90% de confianza con z/2 ! z0.05 " 1.645, tenemos
0.05 $ 0.045
Si se supone que H0 es verdadera como igualdad, las proporciones poblacionales son iguales y
p1 " p2 " p. En este caso, p1! p2 se convierte en la expresin que se presenta enseguida.
432 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
p(1 ! p) p(1 ! p) 1 1
p1! p2 " # " p(1 ! p) (10.14)
n1 n2 n1 # n 2
Como no se conoce p, se combinan los estimadores puntuales de las dos muestras (p1 y p2)
con objeto de obtener un solo estimador puntual de p como se indica a continuacin.
n1 p1 # n 2 p2
p" (10.15)
n1 # n 2
( p1 ! p2)
z" (10.16)
1 1
p(1 ! p)
n1 # n 2
H0: p1 ! p2 " 0
Ha: p1 ! p2 ) 0
n1 p1 # n 2 p2 250(0.14) # 300(0.09)
p" " " 0.1127
n1 # n 2 250 # 300
10.4 Inferencias acerca de la diferencia entre dos proporciones poblacionales 433
Al calcular el valor-p para esta prueba de dos colas se observa, primero, que z " 1.85 se en-
cuentra en la cola superior de la distribucin normal estndar. Considerando z " 1.85 y la
tabla de distribucin normal estndar, se encuentra que el rea en la cola superior es 1.0000 !
0.9678 " 0.0322. Al multiplicar esta rea por 2, dado que se trata de una prueba de dos colas, se
tiene que el valor-p es 2(0.0322) " 0.0644. Como este valor es menor que " 0.10, se rechaza
H0 para el nivel de significancia 0.10. La empresa concluye que las proporciones de errores de
las dos oficinas difieren. La conclusin de esta prueba de hiptesis es consistente con los re-
sultados de la estimacin por intervalo calculada antes, los cuales indicaban que la diferencia
entre las proporciones poblacionales de errores en las dos oficinas estaba entre 0.005 y 0.095,
siendo la oficina 1 la que arrojaba una mayor tasa de errores.
Ejercicios
Mtodos
28. Considere los resultados siguientes obtenidos de muestras independientes tomadas de dos po-
AUTO evaluacin blaciones.
Muestra 1 Muestra 2
n1 " 400 n2 " 300
p1 " 0.48 p2 " 0.36
Los siguientes resultados se obtuvieron de muestras independientes tomadas de las dos po-
blaciones.
Muestra 1 Muestra 2
n1 " 200 n2 " 300
p1 " 0.22 p2 " 0.16
a) Cul es el valor-p?
b) Usando " 0.05, cul es la conclusin en esta prueba de hiptesis?
434 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
Aplicaciones
30. En una encuesta de BusinessWeek/Harris se pidi a los ejecutivos de empresas grandes su opi-
nin acerca de cmo vean las perspectivas econmicas para el futuro. Una de las preguntas era:
Piensa usted que en los prximos 12 meses aumentar en su empresa el nmero de empleados
de tiempo completo? En la encuesta actual, 220 de 400 ejecutivos respondieron S, mientras
que en la realizada el ao anterior, 192 de 400 respondieron en el mismo sentido. Encuentre
un intervalo de 95% de confianza para estimar la diferencia entre las proporciones en estas dos
encuestas. Cul es su interpretacin de la estimacin por intervalo?
31. La Asociacin Profesional de Golf (PGA, por sus siglas en ingls) midi la precisin en golpes
cortos de los golfistas profesionales que jugaron en el PGA Tour, y de los mejores golfistas ama-
teurs que participaron en el World Amateur Championship (Golf Magazine, enero de 2007).
En una muestra de 1 075 golpes cortos de 6 pies de golfistas profesionales se encontr que
688 fueron efectivos. En una muestra de 1 200 golpes cortos de 6 pies de golfistas amateurs se
encontr que 696 fueron efectivos.
a) Calcule la proporcin de golpes cortos efectivos de 6 pies de golfistas profesionales. Esti-
me la proporcin de golpes cortos efectivos de 6 pies de los golfistas amateurs. Qu gru-
po tiene mayor precisin?
b) Cul es la estimacin puntual de la diferencia entre las proporciones de las dos pobla-
ciones? Qu indica tal estimacin acerca del porcentaje de golpes cortos efectivos de
ambos grupos de golfistas?
c) Cul es el intervalo de 95% de confianza para la diferencia entre las dos proporciones
poblacionales? Interprete este intervalo de confianza en trminos del porcentaje de golpes
cortos efectivos de ambos grupos.
32. En un estudio de la Asociacin Estadounidense de Automovilistas (AAA, por sus siglas en
ingls) se investig si era ms probable que conductores de gnero masculino o femenino se
detuvieran para solicitar indicaciones sobre cmo llegar a una direccin (AAA, enero de 2006).
Se preguntaba a los conductores: Si usted y su cnyuge van en su automvil y se pierden, se
detiene para preguntar por el domicilio que busca? En una muestra representativa se encon-
tr que 300 de 811 mujeres dijeron que s se detenan para preguntar, mientras que 255 de 750
hombres dijeron que tambin lo hacan.
a) La hiptesis de investigacin de AAA afirmaba que era ms probable que las mujeres se
detuvieran para preguntar por el domicilio. Formule las hiptesis nula y alternativa para
este estudio.
b) Cul es el porcentaje de mujeres que dijo que se detendra para preguntar por el domicilio?
c) Cul es el porcentaje de hombres que se manifest en el mismo sentido?
d) Pruebe la hiptesis usando " 0.05. Cul es el valor-p y cul es la conclusin a la que
se esperara que llegara AAA?
33. Los aeropuertos OHare de Chicago y Hartsfield-Jackson de Atlanta son dos de las termi-
nales areas ms saturadas en Estados Unidos. A menudo la congestin ocasiona retrasos en las
llegadas y salidas de los vuelos. La Oficina de Transporte monitore el desempeo a tiempo y
con demora en los principales aeropuertos (Travel & Leisure, noviembre de 2006). Se conside-
ra que un vuelo est retrasado si tiene ms de 15 minutos de dilacin respecto de su horario. A
continuacin se presentan datos de las salidas retrasadas en los aeropuertos OHare de Chicago
y Hartsfield-Jackson de Atlanta.
Comercial A Comercial B
Nmero de personas que vio el comercial 150 200
Nmero de personas que recordaba el mensaje 63 60
a) Use " 0.05 y pruebe la hiptesis de que entre los dos comerciales no hay diferencia en
las proporciones poblacionales de personas que recordaron el mensaje.
b) Calcule un intervalo de 95% de confianza para la diferencia entre las proporciones de
personas que recordaron el mensaje en las dos poblaciones.
36. Durante el SuperBowl de 2003, un comercial de la cerveza Miller Lite Beer, conocido como
The Miller Lite Girls, fue uno de los tres anuncios ms eficaces televisados en el evento (USA
Today, 29 de diciembre de 2003). Un estudio para determinar la eficacia de los comerciales,
conducido por USA Todays Ad Track, emple muestras separados por grupos de edades para
ver el efecto de la publicidad en el SuperBowl sobre los distintos sectores demogrficos. A
continuacin se presentan los resultados muestrales respecto del anuncio de cerveza.
Le gust mucho
Grupo de edad Tamao de la muestra el comercial
Menos de 30 aos 100 49
De 30 a 49 aos 150 54
a) Formule una prueba de hiptesis para determinar si las proporciones poblacionales de los
dos grupos de edad difieren.
436 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
Resumen
En este captulo se estudian los procedimientos para desarrollar estimaciones por intervalo y
pruebas de hiptesis cuando se tienen dos poblaciones. Primero se explica cmo hacer inferen-
cias acerca de la diferencia entre dos medias poblacionales cuando se seleccionan muestras
aleatorias simples independientes. Se considera primero el caso donde las desviaciones estn-
dar poblacionales, 1 y 2, se suponen conocidas. La distribucin normal estndar z se utiliza
para desarrollar la estimacin por intervalo y es til como estadstico de prueba para las pruebas
de hiptesis. Despus se estudia el caso en que las desviaciones estndar poblacionales no se
conocen y se estiman mediante las desviaciones estndar muestrales s1 y s2. En esta circunstan-
cia, se usa la distribucin t para obtener una estimacin por intervalo que sirve como estadstico
de prueba en la prueba de hiptesis.
A continuacin se estudian las inferencias acerca de las diferencias entre dos medias po-
blacionales con el diseo de muestras pareadas. En este diseo, cada elemento proporciona un
par de datos, uno de cada poblacin. La diferencia entre los pares de valores de datos se usa para
el anlisis estadstico. El diseo de muestras pareadas suele preferirse al diseo de muestras
independientes debido a que con ellas se suele mejorar la precisin de la estimacin.
Por ltimo, se estudian las estimaciones por intervalo y las pruebas de hiptesis para la
diferencia entre dos proporciones poblacionales. Los procedimientos estadsticos para analizar
esta diferencia son similares a los procedimientos estadsticos para analizar la diferencia entre
dos medias poblacionales.
Glosario
Frmulas clave
x1 ! x2 (10.1)
Error estndar de x1 ! x2
21 2
x1!x2 " # 2 (10.2)
n1 n2
s 21 s2
x1 ! x2 $ t/2 # 2 (10.6)
n1 n2
s 21 s2 2
# 2
n1 n2
gl " (10.7)
1 s 21 2
1 s 22 2
#
n1 ! 1 n1 n2 ! 1 n2
d ! d
t" (10.9)
sd $"n
p1 ! p2 (10.10)
438 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
Error estndar de p1 ! p2
p(1 ! p) p(1 ! p) 1 1
p1! p2 " # " p(1 ! p) (10.14)
n1 n2 n1 # n 2
n1 p1 # n 2 p2
p" (10.15)
n1 # n 2
( p1 ! p2)
z" (10.16)
1 1
p(1 ! p)
n1 # n 2
Ejercicios complementarios
38. Safegate Foods Inc. est rediseando las cajas de cobro en sus supermercados en todo el pas y
prueba dos diseos. Ambos sistemas se instalaron en dos supermercados y se midi el tiempo
que tardaban los clientes en pasar por la caja. Los resultados se presentan resumidos en la si-
guiente tabla.
Sistema A Sistema B
n1 " 120 n2 " 100
x1 " 4.1 minutos x2 " 3.4 minutos
1 " 2.2 minutos 2 " 1.5 minutos
Con 0.05 como nivel de significancia, realice una prueba de hiptesis para determinar si
hay diferencia entre las medias poblacionales del tiempo que tardan los clientes en pasar por la
caja con estos dos sistemas. Cul se preferir?
39. El valor de las casas tiende a incrementarse en el tiempo en condiciones normales, pero la re-
WEB archivo cesin de 2008 y 2009 ocasion la cada en Estados Unidos de los precios de venta inmobilia-
HomePrices
rios (BusinessWeek, 9 de marzo de 2009). Se quiere saber si los datos apoyan esta conclusin.
El archivo HomePrices contiene datos de 30 ventas de casas en 2006 y 40 en 2009.
Ejercicios complementarios 439
a) Proporcione una estimacin puntual para la diferencia entre las medias poblacionales de
los precios en los dos aos.
b) Desarrolle una estimacin por intervalo de 99% de confianza para la diferencia entre los
precios de reventa de casas en 2006 y 2009.
c) Considerara justificado concluir que los precios de reventa han disminuido de 2006 a
2009? Por qu?
40. Los fondos de inversin (Mutual Funds) se clasifican en fondos con comisin (Load) y sin co-
misin (No Load). En los primeros se requiere que el inversor pague una cantidad base inicial
o un porcentaje de la cantidad invertida en el fondo. En los fondos sin comisin no se requiere
este pago inicial. Algunos asesores financieros aseguran que vale la pena pagar la comisin de
los fondos con comisin, porque ofrecen tasas medias de rendimiento mayores que los otros.
Se seleccionaron muestras de 30 fondos de inversin con comisin y de 30 sin comisin. Se
recabaron los datos sobre su rendimiento anual en un periodo de cinco aos. Estos datos se
presentan en el conjunto de datos Mutual. La informacin de los cinco primeros fondos con
comisin y de los cinco primeros fondos sin comisin se presentan en la tabla siguiente.
a) Desarrolle una estimacin puntual de la diferencia entre las medias poblacionales de los
costos de los dos tipos de remodelacin.
b) Proporcione un intervalo de 90% de confianza para la diferencia entre estas dos medias
poblacionales.
42. A principios de 2009 la economa experiment una recesin. Cmo afect al mercado accio-
nario? Se presentan datos acerca del precio por accin registrado el 1 de enero (January 1) y el
30 de abril (April 30) de una muestra de 15 empresas (The Wall Street Journal, 1 de mayo de
2009).
440 Captulo 10 Inferencia estadstica acerca de medias y proporciones con dos poblaciones
a) Establezca las hiptesis pertinentes para probar la diferencia entre la proporcin poblacio-
nal de hombres y la de mujeres que prefieren ver televisin para pasar su tiempo libre.
b) Cul es la proporcin muestral de hombres que destinan su tiempo libre a ver televi-
sin? Cul es la proporcin muestral de mujeres?
c) Lleve a cabo la prueba de hiptesis y calcule el valor-p. Cul es la conclusin con 0.05
como nivel de significancia?
d) Cul es el margen de error y la estimacin por intervalo de 95% de confianza para la
diferencia entre las proporciones poblacionales?
44. Una empresa grande de seguros de automvil toma muestras de hombres asegurados, casados
y solteros, y determina cuntos reclamaron el seguro en los tres aos anteriores.
Caso a resolver Par, Inc. 441
a) Use " 0.05. Haga una prueba para determinar si la razn de reclamaciones es diferen-
te entre asegurados solteros y casados.
b) Proporcione un intervalo de 95% de confianza para la diferencia entre las proporciones
de las dos poblaciones.
45. Se realizaron pruebas mdicas para probar la resistencia a frmacos contra la tuberculosis. En
Nueva Jersey, de 142 casos, 9 mostraron resistencia a los medicamentos. En Texas, de 268
casos, 5 fueron resistentes a los frmacos. Estos datos indican que existe una diferencia esta-
dsticamente significativa entre la proporcin de casos resistentes en estos dos estados? Utilice
0.02 como nivel de significancia. Cul es el valor-p y cul es la conclusin a que se llega?
46. En marzo de 2008 se esperaba que las tasas de ocupacin aumentaran en Myrtle Beach, Ca-
WEB archivo rolina del Sur (The Sun News, 29 de febrero de 2008). Los datos en el archivo Occupancy
permitirn responder a los hallazgos presentados por el peridico. La informacin presenta las
Occupancy
unidades alquiladas y las no alquiladas de una muestra aleatoria de propiedades para vacacio-
nar durante la primera semana de marzo de 2007 y marzo de 2008.
a) Estime la proporcin de unidades alquiladas durante la primera semana de marzo de
2007 y la primera semana de marzo de 2008.
b) Proporcione un intervalo de 95% de confianza para la diferencia entre las proporciones.
c) Con base en sus hallazgos, las tasas de alquiler de marzo de 2008 parecen haber aumen-
tado con respecto a las del ao anterior?
47. En la semana que terminaba el 15 de enero de 2009, el sentimiento alcista de los inversionis-
tas individuales fue 27.6% (AAII Journal, febrero de 2009). Se report que el sentimiento al-
cista era de 48.7% una semana antes y de 39.7% un mes antes. La medicin de este indicador
se basa en una encuesta que realiza la Asociacin Estadounidense de Inversionistas Individua-
les (AAII, por sus siglas en ingls). Suponga que cada medicin del sentimiento alcista se basa
en un tamao muestral de 240.
a) Proporcione un intervalo de 95% de confianza para la diferencia entre las mediciones
del sentimiento alcista en las dos semanas mencionadas.
b) Formule hiptesis de manera que el rechazo de la hiptesis nula permita concluir que
el sentimiento alcista ms reciente mencionado es ms dbil que el de un mes atrs.
c) Realice una prueba de hiptesis del inciso b) con " 0.01. Cul es su conclusin?
Informe gerencial
1. Formule y justifique una prueba de hiptesis que le sirva a Par para comparar las dis-
tancias de recorrido de la pelota actual y de la nueva pelota.
2. Analice los datos para formular la conclusin de la prueba de hiptesis. Cul es el
valor-p de la prueba? Qu le recomendara a Par, Inc.?
3. Proporcione un resumen de estadstica descriptiva con los datos de cada modelo.
4. Cul es el intervalo de 95% de confianza para la media poblacional de la distancia
de recorrido de cada modelo, y cul para la diferencia entre las medias de las dos po-
blaciones?
5. Ve usted que haya necesidad de tomar muestras ms grandes y de efectuar ms prue-
bas con las pelotas de golf? Analcelo.
Paso 4. Cuando el cuadro de dilogo 2-Sample t (Test and Confidence Interval) aparezca:
Seleccione Samples in different columns.
Ingrese Cl en el cuadro First.
Ingrese C2 en el cuadro Second.
Seleccione Options.
Paso 5. Cuando el cuadro de dilogo 2-Sample tOptions aparezca:
Ingrese 95 en el cuadro Confidence level.
Introduzca 0 en el cuadro Test difference.
Ingrese not equal en el cuadro Alternative.
Haga clic en OK.
Paso 6. Haga clic en OK.
La estimacin por intervalo de 95% de confianza va de $37 a $193, como se describi en la
seccin 10.2. El valor-p " 0.005 indica que la hiptesis nula de que las medias poblacionales
son iguales puede rechazarse para el nivel de significancia " 0.01. El paso 5 puede modifi-
carse para proporcionar otras aplicaciones con diferentes niveles de confianza, distintos valores
hipotticos y diversas formas de hiptesis.
* Las herramientas de anlisis de datos de Excel facilitan procedimientos para pruebas de hiptesis acerca de la diferen-
cia entre dos medias poblacionales. Excel no cuenta con una rutina de estimacin por intervalos para la diferencia entre
dos medias poblacionales ni para inferencias acerca de la diferencia entre dos proporciones poblacionales.
Apndice 10.2 Inferencias acerca de dos poblaciones usando Excel 445
ptesis acerca de la diferencia entre dos medias poblacionales se siguen los pasos que se indi-
can a continuacin.
El valor-p apropiado, de una cola, se denota P(T'"t) one-tail. Su valor de 0.017 permite re-
chazar la hiptesis nula con " 0.05.
Method 1 (mtodo 1) en la celda Al y Method 2 (mtodo 2) en la celda B2. Los tiempos re-
queridos para la realizacin de la tarea con el mtodo 1 se localizan en las celdas A2:A7 y para
la realizacin de la tarea con el mtodo 2 se encuentran en las celdas B2:B7. En el procedi-
miento de Excel se emplean los pasos previamente descritos para la prueba t, excepto que en
el paso 3 se debe elegir t-Test: Paired Two Sample for Means en la herramienta de anlisis
de datos. El rango para la variable 1 es A1:A7 y para la variable 2 es B1:B7.
El valor-p de dos colas se denota P(T'" t) two-tail. Su valor de 0.08 no permite rechazar
la hiptesis nula con " 0.05.
ESTADSTICA en LA PRCTICA
U.S. GOVERNMENT ACCOUNTABILITY*
WASHINGTON, D.C.
La U.S. Government Accountability Office (GAO) es una
organizacin de auditora independiente, no poltica, per-
teneciente al rea legislativa del gobierno federal. Los
auditores de la GAO determinan la eficacia tanto de los pro-
gramas federales existentes como de los que se proponen.
Para realizar su labor, deben ser competentes en la revisin
de documentos, investigacin legislativa y tcnicas de an-
lisis estadstico.
En un caso, los auditores de la GAO estudiaron un pro-
grama del Departamento del Interior que tena por objeto
limpiar los ros y lagos del pas. Como parte del proyecto,
se otorgaron subvenciones a las ciudades pequeas de Es-
tados Unidos. El Congreso pidi a la GAO que determinara Las aguas residuales de esta planta deben estar dentro de un
la eficiencia con la que operaba este programa. Con tal ob- determinado intervalo estadstico de valores de pH.
jetivo, el organismo revis documentos y visit varias plan- John B. Boykin/CORBIS
tas de tratamiento de residuos.
Uno de los objetivos de la auditora consista en veri-
ficar en las plantas que las aguas residuales (desechos tra-
tados) cumplieran determinadas normas. En las auditoras adecuadamente. Para una de las centrales la hiptesis nula
se revisaban, entre otros aspectos, datos muestrales sobre fue rechazada. Anlisis ms cuidadosos indicaron que en
contenido de oxgeno, pH y cantidad de slidos en suspen- esa planta la varianza del pH era significativamente menor
sin en las aguas residuales. Un requerimiento del programa de lo normal.
exiga que en cada planta se realizaran diversas pruebas dia- Los auditores visitaron el sitio para revisar el equipo
rias y que los datos obtenidos se enviaran al departamento de medicin y analizar los resultados estadsticos con el
de ingeniera del estado. Los datos de la investigacin ser- director de la planta. Encontraron que el equipo para la
van para determinar si las caractersticas de las aguas resi- medicin del pH no se usaba debido a que el operador no
duales se encontraban dentro de lmites aceptables. conoca su funcionamiento. Un ingeniero haba informado
As, por ejemplo, se analizaron cuidadosamente los al operador de los niveles de pH aceptables y ste slo ano-
valores promedio de pH y la varianza en los valores del taba valores similares sin realizar ninguna medicin. La
nivel de pH de las aguas residuales. La prueba de hiptesis varianza inusualmente baja de los datos de esta planta hi-
acerca de la varianza del pH en la poblacin de aguas resi- zo que H0 fuera rechazada. La GAO pens que era probable
duales fue la siguiente. que otras plantas tuvieran problemas similares y recomen-
d un programa de capacitacin para los operadores con
H 0: 2 " 20
objeto de mejorar la recoleccin de datos para el programa
Ha: 2 ) 20 de control de la contaminacin.
En esta prueba, 20 corresponde a la varianza poblacional En este captulo se estudiar cmo hacer inferencias
esperada en los valores de pH de una planta funcionando estadsticas acerca de las varianzas de una o dos poblacio-
nes. Tambin se presentarn dos nuevas distribuciones: la
* Los autores agradecen a Art Foreman y Dale Ledman de la U.S. Go-
distribucin ji-cuadrada y la distribucin F. Ambas son ti-
vernment Accountability Office por habe proporcionado este material les para obtener estimacin por intervalos y realizar prue-
para Estadstica en la prctica. bas de hiptesis para la varianza poblacional.
En los cuatro captulos anteriores se examinaron mtodos de inferencia estadstica para me-
dias y proporciones poblacionales. En este captulo se extiende este estudio a las varianzas
poblacionales. Un ejemplo en el que la varianza brinda informacin importante para tomar
una decisin es el caso de un proceso en el que se llenan recipientes con un detergente lquido.
El mecanismo de llenado se ajusta para el proceso de manera que el peso de llenado medio sea
16 onzas por envase. Aunque la media de 16 onzas es relevante, la varianza en los pesos de
llenado tambin es crtica.
450 Captulo 11 Inferencias acerca de varianzas poblacionales
Es decir, aun cuando el mecanismo de llenado tenga un ajuste adecuado para una media
de 16 onzas, no es de esperar que todos los envases contengan exactamente esta cantidad. Para
calcular la varianza muestral de la cantidad de onzas en cada envase, se toma una muestra de
recipientes llenos. Este valor servir como estimacin de la varianza para la poblacin de en-
En muchas aplicaciones vases que estn siendo llenados en el proceso de produccin. Si la varianza muestral es mo-
de fabricacin, controlar derada, el proceso de produccin contina. Pero si la varianza muestral es grande, puede estar
la varianza del proceso es ocurriendo exceso o insuficiencia de llenado aunque la media de 16 onzas sea la correcta. En
de suma importancia para este caso habr que reajustar el mecanismo de produccin con objeto de reducir la varianza de
conservar la calidad.
llenado de los recipientes.
En la primera seccin se analizarn inferencias acerca de la varianza de una sola pobla-
cin. Despus se estudiarn procedimientos para inferencias acerca de varianzas de dos po-
blaciones.
Siempre que de una poblacin normal se tome una muestra aleatoria simple de tamao n,
la distribucin de muestreo de
La distribucin ji-cuadrada
se basa en el muestreo de
una poblacin normal.
(n ! 1)s 2
(11.2)
2
En la figura 11.1 se presentan algunas de las posibles formas que puede tomar la distribucin
de (n ! 1)s 2/ 2.
Como se sabe, siempre que se tome una muestra aleatoria simple de tamao n de una po-
blacin normal, la distribucin muestral de (n ! 1)s 2/ 2 ser una distribucin ji-cuadrada, la
cual sirve para obtener una estimacin por intervalo y realizar pruebas de hiptesis acerca de
la varianza poblacional.
(n 1)s 2
0 2
0.95 de los
0.025 valores 2 posibles
0.025
2
0 8.907 32.852
20.975 20.025
452 Captulo 11 Inferencias acerca de varianzas poblacionales
rea o
probabilidad
(n ! 1)s 2
20.975 & & 20.025 (11.3)
2
En efecto, la expresin (11.3) proporciona una estimacin por intervalo en la que 0.95 o 95%
de todos los valores que puede tomar (n ! 1)s 2/ 2 estn en el intervalo que va de 20.975 a
20.025. Ahora es necesario realizar algunas manipulaciones algebraicas con la expresin (11.3)
para obtener una estimacin por intervalo de la varianza poblacional 2. Al modificar la desi-
gualdad de la izquierda tenemos
(n ! 1)s 2
20.975 &
2
Por tanto,
o
(n ! 1)s 2
2 & (11.4)
20.975
(n ! 1)s 2 (n ! 1)s 2
2 & 2 & (11.6)
0.025 20.975
Como la expresin (11.3) es verdadera para 95% de los valores (n ! 1)s 2/ 2, la expresin
(11.6) proporciona una estimacin por intervalo de 95% de confianza para la varianza pobla-
cional 2.
Ahora, de regreso al problema de proporcionar una estimacin por intervalo para la va-
rianza poblacional de las cantidades de llenado, recuerde que en la muestra de 20 envases la
varianza muestral fue s 2 " 0.0025. Dado que el tamao de la muestra es 20, tenemos 19 grados
de libertad. Como se aprecia en la figura 11.2, ya se determin que 20.975 " 8.907, y 20.025 "
32.852. Con estos valores en la expresin (11.6) se obtiene la siguiente estimacin por intervalo
para la varianza poblacional:
(19)(0.0025) (19)(0.0025)
& 2 &
32.852 8.907
Se puede obtener un o
intervalo de confianza para
la desviacin estndar 0.0014 & 2 & 0.0053
poblacional calculando
la raz cuadrada del Al calcular la raz cuadrada de estos valores se obtiene el siguiente intervalo de 95% de con-
lmite inferior y del lmite
superior del intervalo de
fianza para la desviacin estndar poblacional.
confianza para la varianza
poblacional. 0.0380 & & 0.0730
454 Captulo 11 Inferencias acerca de varianzas poblacionales
De esta manera se ha ilustrado el proceso del uso de la distribucin ji-cuadrada para obtener
una estimacin por intervalo de la varianza poblacional y la desviacin estndar poblacional.
Observe que, como se usaron 20.975 y 20.025, el coeficiente de confianza de la estimacin por
intervalo es 0.95. Extendiendo la expresin (11.6) al caso general con cualquier coeficiente de
confianza, tenemos la siguiente estimacin por intervalo para la varianza poblacional.
(n ! 1)s 2 2 (n ! 1)s 2
& & (11.7)
2/2 2(1!/2)
donde los valores 2 estn basados en una distribucin ji-cuadrada con n ! 1 grados de
libertad, y 1 ! es el coeficiente de confianza.
Pruebas de hiptesis
Con 20 para denotar el valor hipottico de la varianza poblacional, las tres formas de una prue-
ba de hiptesis para esta varianza son las siguientes.
Estas tres formas son semejantes a las utilizadas para realizar las pruebas de hiptesis de una
cola y de dos colas para las medias poblacionales y las proporciones poblacionales estudiadas
en los captulos 9 y 10.
En una prueba de hiptesis para la varianza poblacional se emplean el valor hipottico de la
varianza poblacional 20 y la varianza muestral s 2 para calcular el valor del estadstico de prue-
ba 2. Si la poblacin tiene una distribucin normal, el estadstico de prueba es el siguiente.
Una vez calculado el valor del estadstico de prueba 2 para determinar si se rechaza la
hiptesis nula, se emplea el mtodo del valor-p o el mtodo del valor crtico.
Considere ahora el siguiente ejemplo. St. Louis Metro Bus Company de Estados Unidos
desea promover una imagen de confiabilidad haciendo que sus conductores sean puntuales en
los horarios de llegada a las estaciones. La empresa desea que haya poca varianza en dichos
tiempos. En trminos de la varianza de los tiempos de arribo a las paradas, la empresa desea
que sea de 4 minutos o menos. Se formula la siguiente prueba de hiptesis para que la empre-
sa pueda determinar si la varianza poblacional en los tiempos de llegada a las estaciones es
excesiva.
H0: 2 & 4
Ha: 2 ( 4
11.1 Inferencias acerca de una varianza poblacional 455
Suponer, tentativamente, que H0 sea verdadera, es admitir que la varianza poblacional en los
tiempos de llegada se encuentra dentro de los lineamientos establecidos por la empresa. La H0
se rechaza si las evidencias muestrales indican que la varianza poblacional excede estos linea-
mientos. En tal caso habr que tomar medidas para reducirla. Esta prueba de hiptesis se realiza
usando " 0.05 como nivel de significancia.
WEB archivo Asuma que, en una muestra aleatoria de 24 llegadas a cierta parada en una interseccin en
BusTimes el centro de la ciudad, la varianza muestral encontrada es s 2 " 4.9. Si la distribucin poblacio-
nal de los tiempos de llegada es aproximadamente normal, el valor del estadstico de prueba es
el siguiente.
2 " 28.18
Dado que 2 " 28.18 es menor que 32.007, el rea en la cola superior (el valor-p) es mayor
que 0.10. Como el valor-p es ( " 0.05, no se puede rechazar la hiptesis nula. La muestra
no lleva a la conclusin de que la varianza poblacional en los tiempos de llegada a las paradas
sea excesiva.
Considerando la dificultad para determinar con exactitud el valor-p con las tablas de la
distribucin ji-cuadrada, es til emplear un software como Minitab o Excel. En el apndice F
al final del libro se describe cmo calcular los valores-p. En el apndice se especifica que el
valor-p exacto que corresponde a 2 " 28.18 es 0.2091.
Como ocurre con los otros procedimientos para pruebas de hiptesis, aqu tambin es posi-
ble recurrir al mtodo del valor crtico para obtener la conclusin de la prueba de hiptesis. Con
" 0.05, 20.05 proporciona el valor crtico en la cola superior para esta prueba. Considerando
FIGURA 11.3 Distribucin ji-cuadrada para el ejemplo de St. Louis Metro Bus
(n 1) s 2
2 !
02
valor-p
2
0 28.18
456 Captulo 11 Inferencias acerca de varianzas poblacionales
la tabla 11.1 y 23 grados de libertad, 20.05 ! 35.172. De esta manera, la regla de rechazo para
los tiempos de llegada a las paradas es la siguiente.
Como el valor del estadstico de prueba es 2 ! 28.18, no se puede rechazar la hiptesis nula.
En la prctica, las pruebas de hiptesis para la varianza poblacional que se encuentran con
ms frecuencia son pruebas de cola superior como la aqu presentada. En situaciones que impli-
can tiempos de arribo o de produccin, pesos de llenado, dimensiones de piezas y mediciones
parecidas, son deseables las varianzas pequeas, en tanto que las grandes son inaceptables. Al
establecer la varianza poblacional mxima permitida, es posible probar la hiptesis nula de que
la varianza poblacional es menor o igual que el valor mximo permitido, contra la hiptesis
alternativa de que es mayor que el valor mximo permitido. Con esta estructura de prueba de-
bern aplicarse acciones correctivas siempre que la hiptesis nula sea rechazada, lo que indica
la presencia de una varianza poblacional excesiva.
Como ocurre con la media y la proporcin poblacionales, tambin se realizan otras formas
de pruebas de hiptesis. A continuacin se presenta una prueba de dos colas para la varianza
poblacional considerando una situacin que suele presentarse en las oficinas de licencias para
conducir vehculos motorizados en Estados Unidos. Histricamente, la varianza en las puntua-
ciones de los exmenes presentados por las personas que solicitan una licencia para conducir
ha sido 2 ! 100. Ahora se ha elaborado una versin con preguntas nuevas. Los administra-
dores o gerentes desean que la varianza en las puntuaciones del examen se mantenga en los
niveles histricos. Para evaluar la varianza en las puntuaciones del nuevo examen se propone la
siguiente prueba de hiptesis de dos colas.
H0: 2 ! 100
Ha: 2 # 100
El rechazo de H0 indicar que la varianza ha cambiado y que ser necesario revisar algunas
preguntas del nuevo examen para que la varianza en sus puntuaciones sea parecida a la de
las puntuaciones del examen anterior. La nueva versin ser aplicada a los integrantes de una
muestra de 30 solicitantes de licencia de conducir. En esta prueba de hiptesis se usar como
nivel de significancia ! 0.05.
En este caso, la varianza muestral de las puntuaciones de 30 exmenes fue s 2 ! 162. El
valor del estadstico de prueba ji-cuadrada es el siguiente.
2 ! 46.98
De manera que el valor del estadstico de prueba 2 ! 46.98 corresponde a un rea entre 0.025
y 0.01 en la cola superior de la distribucin ji-cuadrada. Al duplicar este valor, tenemos que el
11.1 Inferencias acerca de una varianza poblacional 457
valor-p de dos colas est entre 0.05 y 0.02. Con Excel o Minitab se encuentra el valor-p exac-
to ! 0.374. Como el valor-p % ! 0.05, H0 es rechazada y se concluye que en el nuevo
examen las puntuaciones presentan una varianza poblacional distinta a la varianza histrica de
2 ! 100. Un resumen de las pruebas de hiptesis para la varianza poblacional se presenta en
la tabla 11.2.
Ejercicios
Mtodos
1. Utilizando la tabla 11.1 o la tabla 3 del apndice B, encuentre los valores siguientes de la dis-
tribucin ji-cuadrada.
a) 20.05, con gl ! 5.
b) 20.25, con gl ! 15.
c) 20.975, con gl ! 20.
d) 20.01, con gl ! 10.
e) 20.95, con gl ! 18.
2. En una muestra de 20 elementos, la desviacin estndar muestral es 5.
AUTO evaluacin a) Calcule una estimacin por intervalo de 90% de confianza para la varianza poblacional.
b) Defina una estimacin por intervalo de 95% de confianza para la varianza poblacional.
c) Calcule una estimacin por intervalo de 95% de confianza para la desviacin estndar
poblacional.
3. En una muestra de 16 elementos la desviacin estndar muestral es 9.5. Pruebe la hiptesis
siguiente usando ! 0.05. A qu conclusin llega? Utilice tanto el mtodo del valor-p como
el del valor crtico.
H 0: 2 % 50
H a: 2 & 50
Aplicaciones
4. La varianza en los pesos de los medicamentos es un aspecto crtico en la industria farmacu-
tica. Considere un medicamento cuyo peso est dado en gramos y una muestra de 18 unidades
del producto. La varianza muestral es s 2 ! 0.36.
a) Proporcione un intervalo de 90% de confianza para estimar la varianza poblacional de los
pesos del medicamento.
b) Proporcione un intervalo de 90% de confianza para estimar la desviacin estndar po-
blacional.
458 Captulo 11 Inferencias acerca de varianzas poblacionales
WEB archivo 1st Quarter 2nd Quarter 3rd Quarter 4th Quarter
Return 2001 $10.91 5.80 $9.64 6.45
2002 0.83 $10.48 $14.03 5.58
2003 $2.27 10.43 0.85 9.33
2004 1.34 1.11 $0.77 8.03
2005 $2.46 0.89 2.55 1.78
s 21
(11.9)
s 22
La figura 11.4 es una grfica de la distribucin F con 20 grados de libertad tanto en el nu-
merador como en el denominador. Como se ve en esta grfica, la distribucin F no es simtrica
y los valores F nunca pueden ser negativos. La forma de cada distribucin F depende de los gra-
dos de libertad tanto del numerador como del denominador.
Para denotar el valor F correspondiente a un rea o probabilidad de en la cola superior
de la distribucin se utiliza la notacin F . Por ejemplo, como aparece en la figura 11.4, F0.05
corresponde a un rea de 0.05 en la cola superior de la distribucin F con 20 grados de liber-
tad en el numerador y 20 grados de libertad en el denominador. El valor especfico de F0.05 se
0.05
F
0 2.12
F0.05
11.2 Inferencias acerca de dos varianzas poblacionales 461
H0: 21 ! 22
Ha: 21 # 22
De manera tentativa se supone que las varianzas poblacionales son iguales. Si se rechaza H0 , se
concluir que las varianzas poblacionales no son iguales.
Para realizar esta prueba de hiptesis se requieren dos muestras aleatorias independientes,
una de cada poblacin. Se calculan las dos varianzas muestrales. A la poblacin en la que se
encuentre la mayor varianza muestral se le considera poblacin 1. De manera que el tamao
de muestra n1 y la varianza muestral s 21 corresponden a la poblacin 1, y el tamao de muestra
n2 y la varianza muestral s 22 corresponden a la poblacin 2. Con base en el supuesto de que
ambas poblaciones tienen una distribucin normal, la relacin entre las varianzas muestrales
proporciona el siguiente estadstico de prueba F.
s 21
F! (11.10)
s 22
H0: 21 ! 22
Ha: 21 # 22
462 Captulo 11 Inferencias acerca de varianzas poblacionales
rea o
probabilidad
0 F
Grados de rea en
libertad en el la cola Grados de libertad en el numerador
denominador superior 10 15 20 25 30
10 0.10 2.32 2.24 2.20 2.17 2.16
0.05 2.98 2.85 2.77 2.73 2.70
0.025 3.72 3.52 3.42 3.35 3.31
0.01 4.85 4.56 4.41 4.31 4.25
Si se rechaza H0, se concluir que los servicios no tienen la misma calidad. Para realizar
esta prueba de hiptesis se usa ! 0.10 como nivel de significancia.
En una muestra de 26 tiempos de llegada de Milbank, la varianza muestral es 48, y en una
WEB archivo muestra de 16 tiempos de llegada de Gulf Park la varianza muestral es 20. Como la varianza en
SchoolBus la muestra de Milbank es la mayor, se etiqueta como poblacin 1. Usando la ecuacin (11.10)
se encuentra el valor del estadstico de prueba.
s 21 48
F! ! ! 2.40
s 22 20
11.2 Inferencias acerca de dos varianzas poblacionales 463
F ! 2.40
Como F ! 2.40 est entre 2.28 y 2.69, el rea en la cola superior de la distribucin se ubica
entre 0.05 y 0.025. Dado que se trata de una prueba de dos colas, se duplica el rea de la cola
superior y se obtiene un valor-p entre 0.10 y 0.05. Como se eligi ! 0.10 como nivel de
significancia, el valor-p ' ! 0.10. Por tanto, se rechaza la hiptesis nula. Esto lleva a la con-
clusin de que los dos servicios de autobs difieren en trminos de la varianza de los tiempos
en que llegan a recoger/dejar a las personas. Se le recomienda a la escuela el servicio de menor
varianza o el mejor, que es el ofrecido por la empresa Gulf Park.
Usando Excel o Minitab se encuentra que el estadstico de prueba F ! 2.40 corresponde
a un valor-p ! 0.0811. Como 0.0811 ' ! 0.10, se rechaza la hiptesis nula de que las dos
varianzas poblacionales son iguales.
Para usar el mtodo del valor crtico en una prueba de hiptesis de dos colas con ! 0.10,
se toman los valores crticos correspondientes a un rea de /2 ! 0.10/2 ! 0.05 en cada cola
de la distribucin. Como el valor del estadstico de prueba calculado con la ecuacin (11.10)
est siempre en la cola superior, basta determinar el valor crtico en esta cola. En la tabla 11.3
se encuentra que F0.05 ! 2.28. As, aun cuando se trata de una prueba de dos colas, la regla de
rechazo es la siguiente.
Como el estadstico de prueba es F ! 2.40 es mayor que 2.28, se rechaza H0 y se concluye que
los dos servicios difieren en trminos de la varianza en los tiempos en que llegan a recoger/
dejar a las personas.
Tambin se pueden realizar pruebas de una cola para dos varianzas poblacionales. En estos
casos se usa la distribucin F para determinar si una varianza poblacional es significativamente
mayor que la otra. Una prueba de hiptesis de una cola para dos varianzas poblacionales se
formula siempre como una prueba de cola superior:
TABLA 11.4 Resumen de las pruebas de hiptesis acerca de dos varianzas poblacionales
Nota. La poblacin 1
tiene la varianza
muestral ms grande
s 21 s 21
Estadstico de prueba F! F!
s 22 s 22
Regla de rechazo: Rechazar H0 si Rechazar H0 si
mtodo del valor-p el valor-p % el valor-p %
que entre los hombres. En la forma de la prueba de hiptesis de una cola analizada previamente,
las mujeres representarn la poblacin 1 y los hombres la poblacin 2. La prueba de hiptesis
se plantea como sigue.
Rechazar H0 dar al investigador el respaldo estadstico necesario para concluir que las mu-
jeres muestran mayor variacin en las actitudes respecto de los asuntos polticos.
Con la varianza muestral de las mujeres en el numerador y la de los hombres en el deno-
minador, la distribucin F tendr n1 $ 1 ! 41 $ 1 ! 40 grados de libertad en el numerador,
y n2 $ 1 ! 31 $ 1 ! 30 grados de libertad en el denominador. En esta prueba de hiptesis se
usa ! 0.05 como nivel de significancia. Como resultado, se encuentra una varianza mues-
tral s 21 ! 120 para las mujeres y s 22 ! 80 para los hombres. El estadstico de prueba es el si-
guiente.
s 21 120
F! ! ! 1.50
s 22 80
NOTAS Y COMENTARIOS
Las investigaciones confirman el hecho de que para bucin F no se puede usar a menos que sea razonable
usar la distribucin F es importante suponer que las suponer que ambas poblaciones tienen una distribu-
poblaciones tienen una distribucin normal. La distri- cin por lo menos aproximadamente normal.
Ejercicios 465
Ejercicios
Mtodos
13. En la tabla 4 del apndice B halle los valores siguientes de la distribucin F.
a) F0.05 con 5 y 10 grados de libertad.
b) F0.025 con 20 y 15 grados de libertad.
c) F0.01 con 8 y 12 grados de libertad.
d) F0.10 con 10 y 20 grados de libertad.
14. En una muestra de 16 elementos de la poblacin 1 la varianza muestral es s 21 ! 5.8, y en una
muestra de 21 elementos de la poblacin 2 la varianza muestral es s 22 ! 2.4. Pruebe las hip-
tesis siguientes usando 0.05 como nivel de significancia.
H 0: 21 % 22
H a: 21 & 22
Aplicaciones
16. Por lo general, los inversionistas utilizan la desviacin estndar del porcentaje de rendimiento
mensual de un fondo de inversin como medida del riesgo del fondo; en tales casos, un fondo
con una desviacin estndar grande se considera con ms riesgo que otro con una desviacin
estndar ms baja. Las desviaciones estndar de los fondos American Century Equity Growth y
Fidelity Growth Discovery fueron reportadas recientemente con 15% y 18.9%, respectivamen-
te (The Top Mutual Funds, AAII, 2009). Suponga que cada una de las desviaciones estndar se
basa en una muestra de 60 meses de rendimientos. Los resultados de la muestra sustentan la
conclusin de que el fondo Fidelity Growth Discovery tiene una varianza poblacional mayor
que el de American Century Equity? Cul fondo es el de mayor riesgo?
17. La mayora de los conductores sabe que el gasto anual medio en reparaciones de un automvil
AUTO evaluacin depende de la antigedad del vehculo. Un investigador desea saber si la varianza de los gas-
tos anuales que se aplican en reparacin tambin aumenta con la antigedad del vehculo. En
una muestra de 26 automviles de 4 aos de antigedad, la desviacin estndar muestral para
los gastos anuales en reparacin fue de $170, y en una muestra de 25 automviles de 2 aos de
antigedad fue de $100.
a) Establezca las versiones nula y alternativa de la hiptesis de investigacin de que la va-
rianza en los gastos anuales por reparacin es mayor entre ms viejos son los automviles.
b) Empleando 0.01 como nivel de significancia, cul es su conclusin? Cul es el valor-p?
Analice lo razonable de sus hallazgos.
18. Barrons obtuvo datos de los 1 000 principales asesores financieros (Barrons, 9 de febrero
de 2009). Merrill Lynch tiene 239 personas en la lista y Morgan Stanley, 121. Una muestra de
16 asesores de Merrill Lynch y 10 de Morgan Stanley evidenci que manejan muchas cuentas
muy grandes con una gran varianza en el total de fondos administrados. La desviacin estn-
dar de la cantidad administrada por los asesores de Merrill Lynch fue s1 ! $587 millones, y
la del monto manejado por los asesores de Morgan Stanley fue s2 ! $489 millones. Realice
466 Captulo 11 Inferencias acerca de varianzas poblacionales
una prueba de hiptesis con ! 0.10 para determinar si existe una diferencia significativa
entre las varianzas poblacionales de los montos administradas por las dos empresas. Cul es
su conclusin acerca de la variabilidad en la cantidad de fondos manejada por los asesores de
las dos firmas?
19. La varianza en un proceso de produccin es un indicador importante de la calidad del proce-
so. Las varianzas grandes representan una oportunidad para mejorarlo, buscando maneras de
reducir la varianza del proceso. Realice una prueba estadstica para determinar si existe una
diferencia significativa entre las varianzas de los pesos de las bolsas procesadas con dos m-
quinas diferentes (Machine 1 y Machine 2). Use 0.05 como nivel de significancia. Cul es su
conclusin? Alguna de las dos mquinas representa una oportunidad para mejorar la calidad?
20. Con base en los datos obtenidos en un estudio, se sabe que en las firmas de contadores p-
blicos la varianza de los sueldos anuales de los empleados con mayor antigedad es aproxi-
madamente 2.1, y la de los sueldos anuales de los gerentes es alrededor de 11.1. Estos datos
estn calculados en miles de dlares. Si se obtuvieron de muestras de 25 empleados con ma-
yor antigedad y 26 gerentes, pruebe la hiptesis de que las varianzas poblacionales de los
sueldos son iguales. Con 0.05 como nivel de significancia, cul es su conclusin?
21. Fidelity Magellan es un fondo de inversin de capital grande y Fidelity Small Cap Stock lo es
de capital pequeo (Morningstar Funds 500, 2006). La desviacin estndar de ambos fondos
se calcul empleando muestras aleatorias de tamao 26. La desviacin estndar muestral de
Fidelity Magellan result de 8.89% y la de Fidelity Small Cap Stock de 13.03%. Los analistas
financieros suelen usar la desviacin estndar como una medida del riesgo. Realice una prueba
de hiptesis para determinar si los fondos de capital pequeo son ms riesgosos que los de
capital grande. Utilice ! 0.05 como nivel de significancia.
22. Una hiptesis de investigacin sostiene que la varianza de las distancias de frenado de los
automviles sobre pavimento hmedo es mayor que la varianza de las distancias de frenado
sobre pavimento seco. En un estudio de 16 automviles desplazndose a una misma veloci-
dad, se les hizo frenar sobre pavimento hmedo y despus sobre pavimento seco. En el primer
caso la desviacin estndar de las distancias de frenado fue de 32 pies. Sobre pavimento seco
fue de 16 pies.
a) Con 0.05 como nivel de significancia, los datos muestrales justifican la conclusin de
que en las distancias de frenado sobre pavimento hmedo la varianza es mayor que sobre
pavimento seco? Cul es el valor-p?
b) Qu significan las conclusiones estadsticas de este estudio en trminos de las reco-
mendaciones para la seguridad al manejar?
Resumen
En este captulo se presentaron los procedimientos estadsticos que se usan en las inferencias
acerca de las varianzas poblacionales. Se introdujeron dos distribuciones de probabilidad nue-
vas: la distribucin ji-cuadrada y la distribucin F. La primera se usa en la estimacin por in-
tervalos y en pruebas de hiptesis para la varianza de una poblacin normal.
Se ilustr el uso de la distribucin F en pruebas de hiptesis para las varianzas de dos
poblaciones normales. En particular, se indic que si tenemos muestras aleatorias simples in-
Ejercicios complementarios 467
dependientes de tamaos n1 y n2, tomadas de dos poblaciones normales con varianzas iguales
21 ! 22, la distribucin muestral de la razn entre las dos varianzas muestrales s 21 $s 22 tiene
una distribucin F con n1 $ 1 grados de libertad en el numerador, y n2 $ 1 grados de libertad
en el denominador.
Frmulas clave
(n $ 1)s 2 2 (n $ 1)s 2
% % (11.7)
2/2 2(1$/2)
(n $ 1)s 2
2 ! (11.8)
20
Ejercicios complementarios
23. Por cuestiones de personal, los administradores del hotel Gibson-Marimont desean conocer
la variabilidad en la cantidad de habitaciones ocupadas por da en una determinada tempora-
da del ao. En una muestra de 20 das de operacin la media muestral es 290 habitaciones
ocupadas por da y la desviacin estndar muestral es 30 habitaciones.
a) Cul es la estimacin puntual de la varianza poblacional?
b) Proporcione una estimacin por intervalo de 90% de confianza para la varianza poblacional.
c) Desarrolle una estimacin por intervalo de 90% de confianza para la desviacin estndar
poblacional.
24. Las ofertas pblicas iniciales (OPI) de acciones suelen estar subvaluadas. La desviacin estn-
dar mide la dispersin o variacin del indicador subvaluacin-sobrevaluacin. En una muestra
de 13 OPI canadienses, negociadas despus en la Bolsa de Valores de Toronto, esta desviacin
estndar fue de 14.95. Proporcione una estimacin por intervalo de 95% de confianza para la
desviacin estndar poblacional del indicador subvaluacin-sobrevaluacin.
25. A continuacin se presentan los costos estimados de manutencin por da (Daily Living
Cost) de un ejecutivo que viaja a varias ciudades (City) importantes. Las estimaciones com-
prenden una habitacin individual en un hotel de cuatro estrellas, bebidas, desayuno, taxis y
costos incidentales.
City Daily Living Cost ($) City Daily Living Cost ($)
Bangkok 242.87 Mexico City 212.00
Bogota 260.93 Milan 284.08
WEB archivo Cairo 194.19 Mumbai 139.16
Dublin 260.76 Paris 436.72
Travel Frankfurt 355.36 Rio de Janeiro 240.87
Hong Kong 346.32 Seoul 310.41
Johannesburg 165.37 Tel Aviv 223.73
Lima 250.08 Toronto 181.25
London 326.76 Warsaw 238.20
Madrid 283.56 Washington, D.C. 250.61
468 Captulo 11 Inferencias acerca de varianzas poblacionales
Mtodo A Mtodo B
Tamao muestral n1 ! 31 n2 ! 25
Variacin muestral s 21 ! 25 s 22 ! 12
WEB archivo
Training
Course Completion Times (hours) for Proposed Computer-Assisted Method
[Tiempo para completar el curso (en horas) con el mtodo asistido por computadora]
74 75 77 78 74 80 73 73 78 76 76
74 77 69 76 75 72 75 72 76 72 77
73 77 69 77 75 76 74 77 75 78 72
77 78 78 76 75 76 76 75 76 80 77
76 75 73 77 77 77 79 75 75 72 82
76 76 74 72 78 71
Informe gerencial
1. Use la estadstica descriptiva adecuada para resumir las horas que se necesitaron con
cada mtodo. Qu semejanzas y diferencias observa entre estos datos muestrales?
470 Captulo 11 Inferencias acerca de varianzas poblacionales
2. Utilice los mtodos del captulo 10 para comentar las diferencias entre las medias po-
blacionales de los dos mtodos. Analice sus hallazgos.
3. Calcule la desviacin estndar y la varianza de los datos obtenidos con cada mtodo.
Realice una prueba de hiptesis para la igualdad de las varianzas poblacionales en los
datos obtenidos con los dos enfoques. Explique sus hallazgos.
4. Qu conclusin obtiene acerca de las diferencias entre los dos mtodos? Qu reco-
mienda? Explique.
5. Sugiere otros datos o pruebas que sean de utilidad antes de decidir qu programa de
capacitacin usar?
Seleccione Labels.
Ingrese 0.05 en cuadro Alpha.
(Nota. En este procedimiento, Excel usa alfa como rea en la cola superior.)
Seleccione Output Range e ingrese Cl en el cuadro.
Haga clic en OK.
Aparecern los resultados de la prueba de hiptesis, en los que se incluyen el valor-p y el valor
del estadstico de prueba 2.
CAPTULO 12
Pruebas de bondad de ajuste
e independencia
ESTADSTICA en LA PRCTICA
UNITED WAY*
ROCHESTER, NUEVA YORK
United Way of Greater Rochester es una organizacin sin
fines de lucro que se dedica a mejorar la calidad de vida de
las personas en los siete condados en los que proporciona
servicios para satisfacer las necesidades humanas de cui-
dado ms importantes de las comunidades.
La campaa anual de United Way/Cruz Roja para reco-
leccin de fondos que se realiza en cada primavera, patrocina
cientos de programas ofrecidos por ms de 200 proveedores
de servicios, los cuales atienden una amplia variedad de ne-
cesidades humanas (fsicas, mentales y sociales) y a perso-
nas de cualquier edad, origen y situacin econmica.
Debido a la gran cantidad de voluntarios involucra-
dos, United Way of Great Rochester mantiene sus costos de Los programas de United Way atienden necesidades de nios
operacin en slo 8 centavos por dlar recaudado. y adultos. Ed Bock/CORBIS
La organizacin decidi ordenar un estudio para co-
nocer la percepcin de la comunidad sobre la caridad. Se Ha: la percepcin sobre los gastos administrativos de
realizaron sesiones de grupo (focus-group) con profesio- United Way no es independiente de la ocupacin
nales, personal de servicio y trabajadores generales para del entrevistado.
recabar informacin preliminar sobre sus percepciones. La
informacin obtenida se utiliz para elaborar cuestionarios Dos de las preguntas del estudio suministraron los datos
del estudio. stos fueron probados, modificados y distri- para la prueba estadstica. Con una se obtena informacin
buidos a 440 personas, y se obtuvieron 323 cuestionarios sobre las percepciones acerca de los recursos que se desti-
contestados. naban a gastos administrativos (hasta 10, 11-20 y 21% o
A partir de los datos recolectados se prepararon diver- ms). Con la otra se indagaba sobre la ocupacin del en-
sos estadsticos descriptivos, como distribuciones de fre- trevistado.
cuencias y tabulaciones cruzadas. Una parte importante del La prueba ji-cuadrada con 0.05 como nivel de signifi-
anlisis incluy el manejo de tablas de contingencia y de cancia llev a rechazar la hiptesis nula de independencia
pruebas ji-cuadrada de independencia. Uno de los usos y, de esta manera, a la conclusin de que las percepciones
de esas pruebas estadsticas consisti en determinar si las sobre los gastos administrativos variaban segn la ocupacin.
percepciones sobre los gastos administrativos eran indepen- Estos gastos eran en realidad menores de 9%, pero 35% de
dientes de la ocupacin. los entrevistados tena la idea de que representaban 21% o
Las hiptesis para la prueba de independencia fueron ms. As que muchos tenan una percepcin inadecuada so-
las siguientes. bre los costos administrativos. De este conjunto, los emplea-
dos de lnea de produccin y de oficina, los vendedores y los
H 0: la percepcin sobre los gastos administrativos de tcnicos profesionales tenan percepciones ms equivocadas
United Way es independiente de la ocupacin del que otros grupos.
entrevistado. El estudio sobre la percepcin de la comunidad sirvi
para que United Way of Greater Rochester hiciera ajustes
* Los autores agradecen al doctor Philip R. Tyler, consultor de Marketing
a sus programas y actividades de recaudacin de fondos.
de United Way, por proporcionar este material para Estadstica en la En este captulo usted aprender cmo se realiza una prue-
prctica. ba estadstica de independencia como la descrita aqu.
En la siguiente seccin se presenta la prueba de bondad de ajuste para una poblacin mul-
tinomial. Ms adelante se aborda la prueba de independencia usando tablas de contingencia y
despus las pruebas de bondad de ajuste para distribuciones normales y de Poisson.
Scott Marketing Research realizar un estudio muestral y calcular la proporcin poblacional que
prefiere el producto de cada empresa. Despus aplicar una prueba de hiptesis para ver si el
nuevo producto modifica la participacin de mercado. Suponga que el producto no altera dicha
participacin; entonces, las hiptesis nula y alternativa sern las siguientes.
Si los resultados muestrales llevan al rechazo de H0, Scott Marketing Research tendr eviden-
cias de que la introduccin del nuevo producto afecta la participacin de mercado.
Considere que para este estudio la firma de investigacin ha empleado un panel de 200 con-
sumidores. A cada individuo se le pide que indique su preferencia entre el producto de la em-
presa A, el de la empresa B o el nuevo producto de la empresa C. Las 200 respuestas obtenidas
se presentan a continuacin en forma resumida.
El panel de 200
consumidores en el que Frecuencia observada
a cada consumidor se le
pide que elija una de tres Producto de la Producto de la Producto de la
alternativas, es equivalente empresa A empresa B empresa C
a un experimento 48 98 54
multinomial consistente
en 200 ensayos.
Ahora se realiza la prueba de bondad de ajuste para determinar si la muestra de las 200
preferencias de los clientes coincide con la hiptesis nula. La prueba de bondad de ajuste se
12.1 Prueba de bondad de ajuste: una poblacin multinomial 475
basa en la comparacin de los resultados muestrales observados con los resultados espera-
dos bajo el supuesto de que la hiptesis nula es verdadera. Por tanto, el paso siguiente es calcu-
lar las preferencias esperadas en los 200 clientes asumiendo que pA ! 0.30, pB ! 0.50 y pC !
0.20. Al hacerlo, se tendrn los resultados esperados.
Frecuencia esperada
Producto de Producto de Nuevo producto
la empresa A la empresa B de la empresa C
200(0.30) ! 60 200(0.50) ! 100 200(0.20) ! 40
2 ! a
k
( fi $ ei )2
(12.1)
i! 1
ei
donde:
fi ! frecuencia observada en la categora i
ei ! frecuencia esperada en la categora i
k ! nmero de categoras
Ahora, de regreso al ejemplo de Scott Marketing Research, los datos muestrales se emplea-
rn para probar la hiptesis de que en la poblacin multinomial las proporciones sigan siendo
pA ! 0.30, pB ! 0.50 y pC ! 0.20. El nivel de significancia que se usar es ! 0.05.Mediante
las frecuencias observadas y esperadas se calcula el valor del estadstico de prueba.Como las
frecuencias esperadas son todas 5 o ms, se calcula el estadstico de prueba ji-cuadrada como se
indica en la tabla 12.1, y se obtiene 2 ! 7.34.
La prueba de bondad de La hiptesis nula es rechazada si las diferencias entre las frecuencias observadas y espera-
ajuste es siempre una das son grandes. Estas diferencias darn un valor grande del estadstico de prueba. Entonces, la
prueba de una cola en la
prueba de bondad de ajuste ser siempre una prueba de cola superior. El rea en la cola superior
que el rechazo se presenta
en la cola superior de la se emplea en el estadstico de prueba y en el mtodo del valor-p para determinar si se puede
distribucin ji-cuadrada. rechazar la hiptesis nula. Para k $ 1 ! 3 $ 1 ! 2 grados de libertad, la tabla de ji-cuadrada
(tabla 3 del apndice B) proporciona lo siguiente.
TABLA 12.1 Clculo del estadstico de prueba ji-cuadrada para el estudio de participacin de mercado realizado
por Scott Marketing Research
Cuadrado de la
Frecuencia Frecuencia Cuadrado de diferencia dividido entre
Proporcin observada esperada Diferencia la diferencia la frecuencia esperada
Categora hipottica ( fi ) (ei ) ( fi $ ei ) ( fi $ ei )2 ( fi $ ei )2$ei
Empresa A 0.30 48 60 $12 144 2.40
Empresa B 0.50 98 100 $2 4 0.04
Empresa C 0.20 54 40 14 196 4.90
Total 200 2 ! 7.34
Como 7.34 & 5.991, se rechaza H0. Con los mtodos del valor crtico o del valor-p se llega a
la misma conclusin.
Aunque no se obtienen ms conclusiones como resultado de la prueba, es posible compa-
rar las frecuencias observadas y esperadas de manera informal para tener una idea de cmo
ha cambiado la estructura de participacin de mercado. Se observa que para la empresa C, la
frecuencia observada, 54, es mayor que la frecuencia esperada, 40. Como esta ltima se basaba
en la participacin de mercado existente, el que la frecuencia observada sea mayor indica que
el nuevo producto tendr un efecto positivo sobre la participacin de mercado de la empresa. Al
comparar las frecuencias observadas y esperadas de las otras dos empresas, se observa que la C
gana en participacin de mercado afectando ms a la A que a la B.
A continuacin se presentan, en forma resumida, los pasos generales que se siguen en una
prueba de bondad de ajuste para una distribucin poblacional multinomial hipottica.
2 ! a
k
( fi $ ei )2
i! 1
ei
5. Regla de rechazo:
Mtodo del valor-p: Rechazar H0 si el valor-p %
Mtodo del valor crtico: Rechazar H0 si 2 " 2
donde es el nivel de significancia utilizado para la prueba y se tienen k $ 1 grados
de libertad.
Ejercicios
Mtodos
1. Pruebe las hiptesis siguientes usando la prueba de bondad de ajuste 2.
AUTO evaluacin
Ho: pA ! pB ! pC ! pD ! 0.25
A: 85 B: 95 C: 50 D: 70
Aplicaciones
3. Durante las primeras 13 semanas de la temporada de televisin en Estados Unidos se registra-
AUTO evaluacin ron las proporciones siguientes de audiencia los sbados de 8:00 p.m. a 9:00 p.m.: ABC 29%,
CBS 28%, NBC 25% e independientes 18%. Dos semanas despus, en una muestra de 300
hogares se obtuvieron las audiencias siguientes en sbado por la noche: ABC 95 hogares, CBS
70, NBC 89, e independientes 46 hogares. Use ! 0.05 para determinar si han variado las
proporciones en la audiencia de televidentes.
4. M&M/MARS, fabricante de los chocolates M&M, realiz un sondeo nacional en el que ms de
10 millones de personas dieron su preferencia para un nuevo color. El resultado de este son-
deo fue el remplazo del color caf claro por uno azul. En el folleto Colors, distribuido por
478 Captulo 12 Pruebas de bondad de ajuste e independencia
el rea de Asuntos del Consumidor de M&M/Mars, la distribucin de los colores de las lunetas
(chocolates en forma de gragea) es la siguiente.
En un estudio posterior se emplearon como muestras bolsas de 1 libra para determinar si los
porcentajes reportados eran vlidos. En una muestra de 506 lunetas se obtuvieron los siguien-
tes resultados.
Use ! 0.05 para determinar si estos datos coinciden con los porcentajes reportados por la
empresa.
5. Dnde es ms frecuente que las mujeres compren ropa informal? De los datos de la U.S.
Shopper Database se obtuvieron los porcentajes siguientes acerca de las compras de ropa que
realizan las mujeres en distintas tiendas (The Wall Street Journal, 28 de enero de 2004).
La categora Otras incluye tiendas como Target, Kmart y Sears, as como numerosos es-
tablecimientos especializados. Ninguna de las tiendas de este grupo registra ms de 5% de
las compras femeninas. Un estudio reciente en el que se us una muestra de 140 mujeres en
Atlanta, Georgia, revel las siguientes cifras: Wal-Mart 42, tiendas departamentales tradicio-
nales 20, JC Penney 8, Kohls 10, por correo 21, y otras 39. Esta muestra indica que las com-
pras femeninas en Atlanta difieren de las preferencias que indica la U.S. Shopper Database?
Cul es el valor-p? Utilice ! 0.05. Cul es su conclusin?
6. La American Bankers Association recoge datos sobre el uso de tarjetas de crdito o dbito,
cheques personales y efectivo para el pago de compras en tienda (The Wall Street Journal,
16 de diciembre de 2003). En 1999 los datos encontrados fueron los siguientes.
En una muestra tomada en 2003 se encontr que de cada 220 compras en tienda, en 46 se
us tarjeta de crdito, en 67 tarjeta de dbito, en 33 cheque personal y en 74 pago en efectivo.
a) Con ! 0.01, se puede concluir que en este periodo de cuatro aos, de 1999 a 2003, se
ha generado un cambio en la manera en que los clientes pagan sus compras en las tiendas?
Cul es el valor-p?
b) A partir de los datos muestrales de 2003, calcule el porcentaje de uso de cada mtodo de
pago. Cul parece haber sido el principal o los principales cambios ocurridos en este pe-
riodo de cuatro aos?
c) Qu porcentaje de los pagos se efectu con tarjeta (de crdito o de dbito) en 2003?
12.2 Prueba de independencia 479
7. En el Shareholder Scoreboard de The Wall Street Journal se sigue el desempeo de las 1 000
principales empresas de Estados Unidos (The Wall Street Journal, 10 de marzo de 2003).
El comportamiento de cada firma se califica con base en los rendimientos anuales totales, que
comprenden cambios en los precios de las acciones y la reinversin de dividendos. Las cali-
ficaciones se asignan clasificando las 1 000 empresas en cinco grupos, del A (20% mejor), B
(siguiente 20%), hasta el E (20% inferior). Aqu se muestran las calificaciones obtenidas en un
ao por una muestra de 60 de las empresas ms grandes. El comportamiento de stas difiere
del desempeo de las 1 000 empresas del Shareholder Scoreboard? Utilice ! 0.05.
A B C D E
5 8 15 20 12
8. Qu tan bueno es el servicio proporcionado por las aerolneas a sus clientes? Un estudio re-
vel las siguientes evaluaciones de los viajeros: 3% excelente, 28% bueno, 45% aceptable y
24% malo (BusinessWeek, 11 de septiembre de 2000). Un estudio de seguimiento del servicio
de las compaas telefnicas, con una muestra de 400 adultos, revel las siguientes evaluacio-
nes: 24 excelente, 124 bueno, 172 aceptable y 80 malo. La distribucin de las evaluaciones
de las compaas telefnicas difiere de la distribucin de las evaluaciones de las lneas areas?
Pruebe con ! 0.01. Cul es su conclusin?
H0: la preferencia por un tipo de cerveza es independiente del gnero del consumidor
Ha: la preferencia por un tipo de cerveza no es independiente del gnero del consumidor
Para describir la situacin a estudiar se usa la tabla 12.2. Despus de identificar la poblacin
como todos los consumidores de cerveza, hombres y mujeres, se toma una muestra y a cada
Cerveza preferida
Ligera Clara Oscura
Hombre celda (1,1) celda (1,2) celda (1,3)
Gnero
Mujer celda (2,1) celda (2,2) celda (2,3)
480 Captulo 12 Pruebas de bondad de ajuste e independencia
TABLA 12.3 Resultados muestrales del tipo de cerveza que prefieren hombres y mujeres
(frecuencias observadas)
Cerveza preferida
Ligera Clara Oscura Total
Hombre 20 40 20 80
Gnero
Mujer 30 30 10 70
Total 50 70 30 150
individuo se le pide que indique cul de las tres cervezas de Albers prefiere. Cada sujeto de la
muestra se clasificar en una de las seis celdas de la tabla. As, por ejemplo, se puede tener un
Para probar si dos variables individuo hombre que prefiera la cerveza clara [celda (1,2)], o una mujer que se incline ms
son independientes, se por la ligera [celda (2,1)], o una mujer que prefiera la cerveza oscura [celda (2,3)], y as sucesi-
toma una muestra y vamente. Dado que en la tabla se han enumerado todas las posibles combinaciones de cerveza
se prepara una tabulacin
preferida y gnero o, en otras palabras, todas las posibles contingencias, a la tabla 12.2 se le
cruzada para resumir los
datos de las dos variables llama tabla de contingencia. Como en la prueba de independencia se usa el formato de este tipo
simultneamente. de tabla, a esta prueba tambin se le suele llamar prueba de tabla de contingencia.
Suponga que toma una muestra aleatoria simple de 150 consumidores. Cada individuo de
la muestra prueba los tres tipos de cerveza y despus se le pide que indique cul prefiere o cul
es su primera eleccin. En la tabulacin cruzada de la tabla 12.3 se presenta el resumen de las
respuestas recabadas en el estudio. Como se ve, los datos para la prueba de independencia se
obtienen contando las cantidades o frecuencias correspondientes a cada celda o categora. De
las 150 personas de la muestra, 20 hombres prefirieron la cerveza ligera, 40 la clara, 20 la os-
cura, etctera.
Los datos de la tabla 12.3 son las frecuencias observadas para cada una de las seis clases o
categoras. Si se determinan las frecuencias esperadas bajo el supuesto de independencia entre
cerveza preferida y gnero del consumidor, se puede emplear la distribucin ji-cuadrada para
establecer si existe diferencia significativa entre las frecuencias observadas y las esperadas.
Las frecuencias esperadas para las celdas de la tabla de contingencia se basan en la idea
siguiente. Primero se supone que la hiptesis nula es verdadera; es decir, que la cerveza preferi-
da es independiente del gnero del consumidor. Despus se observa que en la muestra de 150
consumidores, 50 prefirieron la cerveza ligera, 70 la clara y 30 la oscura. En trminos de pro-
porciones se concluye que ! de los consumidores eligi la cerveza ligera; !
la cerveza clara, y ! la cerveza oscura. Si el supuesto de independencia es correcto,
estas proporciones sern las que se observen tanto entre los hombres como entre las mujeres.
Por consiguiente, bajo el supuesto de independencia, es de esperarse que en la muestra de 80
sujetos del sexo masculino, ()80 ! 26.67 prefieran la cerveza ligera, ()80 ! 37.33 elijan
la cerveza clara y ()80 ! 16 prefieran la oscura. Al aplicar las proporciones correspondientes
a los 70 consumidores del sexo femenino, se obtienen las frecuencias esperadas que aparecen
en la tabla 12.4.
Sea eij la frecuencia esperada en la fila i, columna j de la tabla de contingencia. Mediante
dicha notacin, ahora se reconsidera el clculo de la frecuencia esperada correspondiente a los
TABLA 12.4 Frecuencias esperadas si la preferencia por uno de los tipos de cerveza es
independiente del gnero del consumidor
Cerveza preferida
Ligera Clara Oscura Total
Hombre 26.67 37.33 16.00 80
Gnero
Mujer 23.33 32.67 14.00 70
Total 50.00 70.00 30.00 150
12.2 Prueba de independencia 481
hombres (fila i ! 1) que prefieren la cerveza clara (columna j ! 2), es decir, la frecuencia espe-
rada el2. Siguiendo el argumento anterior para el clculo de esta frecuencia, vemos que
(80)(70)
e12 ! ()80 ! ()80 ! ! 37.33
150
Observe que en esta expresin, 80 es el nmero total de hombres (total de la fila 1), 70 es la
cantidad total de individuos que prefieren la cerveza clara (total de la columna 2) y 150 es el
tamao total de la muestra. Vemos entonces que
La generalizacin de esta expresin lleva a la frmula siguiente para obtener las frecuencias
esperadas en una tabla de contingencia para una prueba de independencia.
Al aplicar esta frmula para los consumidores hombres que prefieren la cerveza oscura,
encontramos que la frecuencia esperada es e13 ! (80(30)/150 ! 16.00, como se ilustra en la
tabla 12.4. Use la ecuacin (12.2) para verificar las otras frecuencias esperadas que se presentan
en esta tabla.
El procedimiento de prueba para comparar las frecuencias esperadas de la tabla 12.4 con
las frecuencias observadas de la tabla 12.3 es semejante a los clculos para la prueba de bondad
de ajuste de la seccin 12.1. En concreto, el valor 2 que se basa en las frecuencias observadas
y esperadas se calcula como se indica a continuacin.
2 ! a a
( fij $ eij)2
(12.3)
i j
eij
Donde:
La doble sumatoria de la ecuacin (12.3) indica que el clculo debe efectuarse con todas las
celdas que aparecen en la tabla de contingencia.
En las frecuencias esperadas registradas en la tabla 12.4 se ve que en cada categora esta
frecuencia es de cinco o ms. Por tanto, se puede proceder a calcular el estadstico de prueba
ji-cuadrada. En la tabla 12.5 se presentan los clculos necesarios para obtener el estadstico
de prueba ji-cuadrada que se utiliza para determinar si la preferencia por una cerveza es inde-
pendiente del gnero del consumidor. Como se observa, el valor del estadstico de prueba es
2 ! 6.12.
El nmero de grados de libertad para la distribucin ji-cuadrada adecuada se obtiene al
multiplicar el nmero de filas menos 1 por el nmero de columnas menos 1. Como se tienen
dos filas y tres columnas, los grados de libertad son (2 $ 1)(3 $ 1) ! 2. Igual que con la
prueba de bondad de ajuste, en la prueba de independencia H0 es rechazada si las diferencias
La prueba de independencia entre frecuencias observadas y esperadas dan un valor grande para el estadstico de prueba. De
es siempre una prueba de manera que la prueba de independencia es tambin una prueba de cola superior. La tabla de la
una cola en la que la regin
distribucin ji-cuadrada (tabla 3 del apndice B), proporciona la informacin siguiente para 2
de rechazo se encuentra
en la cola superior de la grados de libertad.
distribucin ji-cuadrada.
rea en la cola superior 0.10 0.05 0.025 0.01 0.005
Valor 2 (2 gl ) 4.605 5.991 7.378 9.210 10.597
2
! 6.12
El estadstico de prueba 2 ! 6.12 se encuentra entre 5.991 y 7.378. Por tanto, el rea corres-
pondiente en la cola superior o valor-p est entre 0.05 y 0.025. Utilizando los procedimientos
de Minitab o de Excel que se presentan en el apndice F, se obtiene el valor-p ! 0.0469. Como
el valor-p % ! 0.05, la hiptesis nula es rechazada y se concluye que la preferencia por una
cerveza no es independiente del gnero del consumidor.
Para simplificar los clculos que se requieren en una prueba de independencia, se usa soft-
ware como Minitab o Excel. La informacin a suministrar en estos procedimientos es la tabla
de contingencia de las frecuencias observadas, como se indican en la tabla 12.3. El software
calcula automticamente las frecuencias esperadas, el valor del estadstico de prueba 2 y el va-
lor-p. En los apndices 12.1 y 12.2 se presentan los procedimientos de Minitab y de Excel para
esta prueba de independencia. En la figura 12.1 aparecen los resultados que proporciona Mini-
tab para la prueba de Albers Brewery.
Aunque no se pueden obtener conclusiones adicionales como resultado de la prueba, es
posible realizar una comparacin informal de las frecuencias observadas y esperadas para darse
una idea de la dependencia entre cerveza preferida y gnero. Al observar las tablas 12.3 y 12.4,
es notorio que en los consumidores de sexo masculino las frecuencias observadas son ms altas
que las esperadas en la preferencia por las cervezas clara y oscura, mientras que en las mujeres
TABLA 12.5 Clculo del estadstico de prueba ji-cuadrada para determinar si la preferencia por un tipo
de cerveza es independiente del gnero del consumidor
Cuadrado de la diferencia
Frecuencia Frecuencia Cuadrado de dividido entre la
Cerveza observada esperada Diferencia la diferencia frecuencia esperada
Gnero preferida ( fij ) (eij ) ( fij $ eij ) ( fij $ eij )2 ( fij $ eij )2$eij
Hombre Ligera 20 26.67 $6.67 44.44 1.67
Hombre Clara 40 37.33 2.67 7.11 0.19
Hombre Oscura 20 16.00 4.00 16.00 1.00
Mujer Ligera 30 23.33 6.67 44.44 1.90
Mujer Clara 30 32.67 $2.67 7.11 0.22
Mujer Oscura 10 14.00 $4.00 16.00 1.14
Total 150 2 ! 6.12
12.2 Prueba de independencia 483
2 30 30 10 70
23.33 32.67 14.00
Total 50 70 30 150
NOTAS Y COMENTARIOS
El estadstico de prueba para las pruebas ji-cuadrada menos de cinco, es conveniente combinar dos catego-
de este captulo requiere una frecuencia esperada de ras adyacentes para tener una frecuencia esperada de
cinco para cada categora. Cuando una categora tiene cinco o ms en cada categora.
Ejercicios
Mtodos
9. La siguiente tabla de contingencia de 2 ( 3 contiene las frecuencias observadas en una mues-
AUTO evaluacin tra de tamao 200. Pruebe la independencia de las variables de fila y de columna utilizando la
prueba 2 con ! 0.05.
484 Captulo 12 Pruebas de bondad de ajuste e independencia
10. La siguiente tabla de contingencia 3 ( 3 contiene las frecuencias observadas en una muestra
de 240. Pruebe la independencia de la variable de las filas y la variable de las columnas utili-
zando la prueba 2 con ! 0.05.
Aplicaciones
11. Una de las preguntas del Subscriber Studio de BusinessWeek fue: En sus viajes de negocios de
AUTO evaluacin los ltimos 12 meses, qu tipo de boleto de avin compr con mayor frecuencia? Los datos
obtenidos se presentan en la siguiente tabla de contingencia.
Tipo de vuelo
Tipo de boleto Nacional Internacional
Primera clase 29 22
Negocios / clase ejecutiva 95 121
Vuelo tradicional / clase econmica 518 135
Use ! 0.05 y pruebe la independencia entre tipo de vuelo y tipo de boleto. Cul es su con-
clusin?
12. Visa Card USA estudi la frecuencia con que los consumidores de diversos rangos de edad
usan tarjetas plsticas (de crdito o de dbito) para pagar sus compras (Associated Press, 16
de enero de 2006). A continuacin se presentan los datos muestrales de 300 clientes divididos
en cuatro grupos de edad.
Grupo de edad
Forma de pago 1824 2534 3544 45 y ms
Plstico 21 27 27 36
Efectivo o cheque 21 36 42 90
Para los propsitos de este estudio, las empresas pequeas tienen menos de 100 empleados;
las medianas de 100 a 999, y las grandes 1 000 o ms. Los datos muestrales corresponden a 50
empleados de compaas pequeas, 75 de medianas y 100 de grandes.
Seguro mdico
Tamao de la empresa S No Total
Pequeo 36 14 50
Mediano 65 10 75
Grande 88 12 100
a) Realice una prueba de independencia para determinar si tener un seguro mdico es in-
dependiente del tamao de la empresa. Utilice ! 0.05. Cul es el valor-p y cul su
conclusin?
b) El artculo de USA Today considera ms probable que los empleados de empresas pe-
queas carezcan de un seguro mdico. Use porcentajes basados en la tabla anterior para
apoyar dicha conclusin.
14. Consumer Reports mide la satisfaccin de los propietarios de automviles diversos con la si-
guiente pregunta de encuesta: Considerando factores como precio, desempeo, confiabilidad,
comodidad y disfrute, comprara usted de nuevo este automvil? (sitio web de Consumer
Reports, enero de 2009). La muestra de datos de 300 propietarios de cuatro populares sedanes
medianos es la siguiente.
Automvil
Volvera Chevrolet Ford Honda Toyota
a comprar Impala Taurus Accord Camry Total
S 49 44 60 46 199
No 37 27 18 19 101
Aerolnea
Vol? American Continental Delta United Total
S 48 69 68 25 210
No 52 41 62 35 190
Use la prueba de independencia ji-cuadrada con un nivel de significancia de 0.05 para analizar
estos datos. Cul es su conclusin? Qu aerolnea elegira para volar en condiciones de tor-
mentas de nieve semejantes? Explique.
16. El inters por fuentes alternativas de energa se incrementa a medida que aumenta el precio del
petrleo. En un estudio de Financial Times/Harris Poll se entrevist a ciudadanos en seis pa-
ses para evaluar sus actitudes hacia diversas formas alternas de energa (sitio web de Harris
Interactive, 27 de febrero de 2008). Los datos de la siguiente tabla representan una parte de los
hallazgos de la encuesta acerca de si las personas estn a favor o en contra de la construccin
de nuevas plantas de energa nuclear.
Pas
Gran Estados
Respuesta Bretaa Francia Italia Espaa Alemania Unidos
Muy a favor 141 161 298 133 128 204
Ms a favor que en contra 348 366 309 222 272 326
En contra ms que a favor 381 334 219 311 322 316
Muy en contra 217 215 219 443 389 174
Horas de sueo
Edad Menos de 6 6 a 6.9 7 a 7.9 8 o ms Total
49 o menos 38 60 77 65 240
50 o ms 36 57 75 92 260
a) Realice una prueba de independencia para determinar si las horas de sueo entre semana
son independientes de la edad. Use a = 0.05. Cul es el valor-p y cul es su conclusin?
b) Cul es su estimacin del porcentaje de personas que duermen menos de 6 horas, de 6 a
6.9 horas, de 7 a 7.9, y 8 horas o ms entre semana?
18. Muestras tomadas en tres ciudades, Anchorage, Atlanta y Minneapolis, se usaron para obtener
informacin acerca del porcentaje de parejas casadas en las que los dos cnyuges trabajan
(USA Today, 15 de enero de 2006). Analice los datos siguientes para determinar si el hecho de
que los dos cnyuges trabajen es independiente del lugar donde viven. Use 0.05 como nivel
12.3 Prueba de bondad de ajuste: distribuciones de Poisson y normal 487
Ciudades
Trabajan Anchorage Atlanta Minneapolis
Ambos 57 70 63
Slo uno 33 50 90
19. En un programa de televisin, los dos presentadores suelen dar la impresin de no estar en
absoluto de acuerdo en cuanto a cules pelculas son mejores. En la evaluacin de un filme
pueden estar a favor (pulgar hacia arriba), en contra (pulgar hacia abajo) o indiferentes. Se
muestran las evaluaciones de 160 pelculas expresadas por los dos presentadores.
Presentador B
Presentador A En contra Indiferente A favor
En contra 24 8 13
Indiferente 8 13 11
A favor 10 9 64
Para analizar estos datos, use la prueba ji-cuadrada de independencia con 0.01 como nivel de
significancia. Cul es su conclusin?
Distribucin de Poisson
El uso de la prueba de bondad de ajuste se ilustra en el caso de una distribucin poblacional
que hipotticamente tiene una distribucin de Poisson. Considere, por ejemplo, las llegadas de
los clientes al Dubeks Food Market en Tallahassee, Florida. Debido a recientes problemas
de personal, los gerentes solicitan los servicios de una firma de consultora para que les ayude
en la programacin de los empleados de caja. Despus de revisar el avance de las filas en las
cajas, la firma de consultora sugerir un procedimiento para la programacin de los empleados.
Este procedimiento se basa en un anlisis matemtico de las filas y slo es aplicable si el nmero
de clientes que llegan durante un determinado lapso sigue una distribucin de Poisson. Por tan-
to, antes de poner en marcha el procedimiento de programacin, habr que recabar datos sobre
las llegadas de los clientes y realizar una prueba estadstica para ver si es razonable suponer que
los arribos siguen una distribucin de Poisson.
Las llegadas a la tienda se definen en trminos de cantidad de clientes que entran en el es-
tablecimiento durante intervalos de 5 minutos. Por tanto, las hiptesis nula y alternativa que se
indican enseguida son apropiadas para el estudio de Dubeks Food Market.
488 Captulo 12 Pruebas de bondad de ajuste e independencia
Si una muestra de llegadas de clientes indica que no se puede rechazar H0, Dubecks proceder a
poner en marcha el proceso de programacin de la firma de consultora. Pero si la muestra lleva
a rechazar H0, no se podr suponer que los arribos siguen una distribucin de Poisson y habr
que considerar otro procedimiento de programacin.
Para probar el supuesto de que las llegadas de los clientes en las maanas de los das en-
tre semana siguen una distribucin de Poisson, un empleado de la tienda toma una muestra
aleatoria de 128 intervalos de 5 minutos en las maanas de tres semanas consecutivas. Durante
cada uno de los intervalos de 5 minutos que forman la muestra, el empleado registra el nmero
de llegadas de clientes. Para resumir los datos, determina el nmero de intervalos de 5 minutos
en los que no hubo ninguna llegada, el nmero de intervalos de 5 minutos en los que se registr
una, el nmero de intervalos de 5 minutos en los que hubo dos, y as sucesivamente. Estos datos
se presentan en la tabla 12.6.
TABLA 12.6 La tabla proporciona las frecuencias observadas en las 10 categoras. Ahora se usa la prue-
Frecuencias ba de bondad de ajuste para determinar si la muestra de los 128 lapsos favorece la hiptesis
observadas en las relacionada con la distribucin de Poisson. Para usar la prueba de bondad de ajuste se deben
llegadas de los considerar las frecuencias esperadas para cada una de las 10 categoras, bajo el supuesto de que
clientes a Dubeks la distribucin de las llegadas sigue dicha distribucin. Es decir, si en realidad esto ocurre, es
en una muestra de necesario calcular el nmero esperado de lapsos en los que llegarn cero clientes, un cliente,
128 intervalos dos clientes, etctera.
de 5 minutos La funcin de probabilidad de Poisson, que ya se present en el captulo 5, es
Nmero de xe$
clientes Frecuencia f(x) ! (12.4)
que llegan observada x!
0 2 En esta funcin, representa la media o el nmero esperado de clientes que llegan en lapsos
1 8
2 10 de 5 minutos, x representa la variable aleatoria del nmero de arribos en un lapso de 5 minutos
3 12 y f(x) es la probabilidad de que x clientes llegarn en un lapso de 5 minutos.
4 18 Antes de usar la ecuacin (12.4) para calcular las probabilidades de Poisson, se necesita
5 22
6 22 una estimacin de , el nmero medio de llegadas de clientes en un lapso de 5 minutos. La
7 16 media muestral de los datos de la tabla 12.6 proporciona esta estimacin. Como se tienen 2 lap-
8 12 sos de 5 minutos en los que no lleg ningn cliente, 8 lapsos de 5 minutos en los que lleg un
9 6
cliente, etc., el nmero total de clientes que llegan en los 128 lapsos de 5 minutos es 0(2) )
Total 128
1(8) ) 2(10) ) . . . ) 9(6) ! 640. Este total de arribos en los 128 lapsos de la muestra dan
una media de llegadas de ! 640/128 ! 5 clientes por periodos de 5 minutos. Con este valor
como media para la distribucin de Poisson, una estimacin de la funcin de probabilidad de
Poisson en el caso de Dubeks Food Market es
5xe$5
f(x) ! (12.5)
x!
Esta funcin de probabilidad puede evaluarse para distintos valores de x y determinar as la pro-
babilidad que corresponde a las diferentes categoras de llegadas. En la tabla 12.7 se presentan
tales probabilidades, las cuales se encuentran tambin en la tabla 7 del apndice B. Por ejemplo,
la probabilidad de que lleguen 0 clientes en un lapso de cinco minutos es f(0) ! 0.0067, la
probabilidad del arribo de un cliente en un lapso de 5 minutos es f(l) ! 0.0337, y as sucesiva-
mente. Como se vio en la seccin 12.1, la frecuencia esperada en cada una de las categoras se
encuentra al multiplicar su probabilidad por el tamao de la muestra. Por ejemplo, el nmero
de lapsos de tiempo con 0 llegadas es (0.0067)(128) ! 0.86; el nmero esperado de lapsos con
1 llegada es (0.0337)(128) ! 4.31, y as sucesivamente.
Antes de hacer los clculos de ji-cuadrada habituales para comparar las frecuencias ob-
servadas y esperadas, hay que notar que en la tabla 12.7 hay cuatro categoras que tienen una
12.3 Prueba de bondad de ajuste: distribuciones de Poisson y normal 489
TABLA 12.7 Frecuencias esperadas en las llegadas de clientes a Dubeks, suponiendo que sigan
una distribucin de Poisson con ! 5
Cuando en alguna frecuencia esperada menor que cinco. Esta condicin incumple los requerimientos para el uso
categora el nmero de la distribucin ji-cuadrada. Sin embargo, las categoras con frecuencias esperadas meno-
esperado es menor de
res de cinco no son una dificultad, ya que se pueden combinar categoras adyacentes para satis-
cinco, no se satisfacen
las condiciones para la facer la condicin de que la frecuencia esperada sea por lo menos de cinco. En particular, se
prueba 2. Cuando esto combinan 0 y 1 en una sola categora y tambin se combinan 9 y 10 o ms en otra categora
ocurre, se pueden combinar simple. De esta manera se satisface la regla de un mnimo de cinco como frecuencia esperada en
categoras adyacentes para cada categora. En la tabla 12.8 se presentan las frecuencias observadas y las esperadas despus
incrementar a cinco el
de combinar categoras.
nmero esperado.
Como en la seccin 12.1, la prueba de bondad de ajuste se centra en las diferencias entre
frecuencias observadas y esperadas, fi $ ei. Por tanto, para calcular el estadstico de prueba ji-
cuadrada se usarn las frecuencias observadas y esperadas de la tabla 12.8.
2 ! a
k
( fi $ ei )2
i! 1
ei
TABLA 12.8 Frecuencias observadas y esperadas en las llegadas de clientes a Dubeks, despus
de combinar categoras
Frecuencia Frecuencia
Nmero de clientes observada esperada
que llegan ( fi ) (ei )
0o1 10 5.17
2 10 10.78
3 12 17.97
4 18 22.46
5 22 22.46
6 22 18.72
7 16 13.37
8 12 8.36
9 o ms 6 8.72
Total 128 128.00
490 Captulo 12 Pruebas de bondad de ajuste e independencia
TABLA 12.9 Clculo del estadstico de prueba ji-cuadrada para el estudio de Dubeks Food
Market
Cuadrado de la
diferencia
dividido entre
Nmero de Frecuencia Frecuencia Cuadrado de la frecuencia
clientes que observada esperada Diferencia la diferencia esperada
llegan (x) ( fi ) (ei ) ( fi $ ei ) ( fi $ ei )2 ( fi $ ei )2$ei
0o1 10 5.17 4.83 23.28 4.50
2 10 10.78 $0.78 0.61 0.06
3 12 17.97 $5.97 35.62 1.98
4 18 22.46 $4.46 19.89 0.89
5 22 22.46 $0.46 0.21 0.01
6 22 18.72 3.28 10.78 0.58
7 16 13.37 2.63 6.92 0.52
8 12 8.36 3.64 13.28 1.59
9 o ms 6 8.72 $2.72 7.38 0.85
Total 128 128.00 2 ! 10.96
En la tabla 12.9 se muestran los clculos necesarios para obtener el valor del estadstico de
prueba ji-cuadrada. El valor del estadstico de prueba es 2 ! 10.96.
En general, en una prueba de bondad de ajuste la distribucin ji-cuadrada tiene k $ p $ 1
grados de libertad, donde k es el nmero de categoras y p es el nmero de parmetros pobla-
cionales estimados a partir de los datos muestrales. Para la prueba de bondad de ajuste de la
distribucin de Poisson, la tabla 12.9 indica que k ! 9 categoras. Como los datos muestrales
se usaron para estimar la media de la distribucin de Poisson, p ! 1, por ende tenemos k $ p $
1 ! k $ 2 grados de libertad. Como k ! 9, tenemos 9 $ 2 ! 7 grados de libertad.
Suponga que en la prueba de la hiptesis nula de que la distribucin de probabilidad de
las llegadas de los clientes es una distribucin de Poisson, se usa 0.05 como nivel de significan-
cia. Para probar esta hiptesis, es necesario determinar el valor-p para el estadstico de prueba
2 ! 10.96 hallando el rea en la cola superior de la distribucin ji-cuadrada con 7 grados de
libertad. En la tabla 3 del apndice B se encuentra que 2 ! 10.96 corresponde a un rea en la
cola superior mayor que 0.10. Por consiguiente, sabemos que el valor-p es mayor que 0.10. Con
los procedimientos de Minitab y de Excel que se describen en el apndice F se obtiene que el
valor-p ! 0.1404. Como el valor-p & ! 0.05, no se puede rechazar H0. En consecuencia, no
se puede descartar el supuesto de que las llegadas de los clientes, en las maanas entre sema-
na, sigan una distribucin de probabilidad de Poisson. De esta manera, los gerentes de Dubeks
pueden continuar con el procedimiento de programacin para las maanas de los das entre
semana.
2 ! a
k
( fi $ ei )2
i! 1
ei
5. Regla de rechazo:
Distribucin normal
La prueba de bondad de ajuste para la distribucin normal tambin se basa en el uso de la distri-
bucin ji-cuadrada. Se sigue un procedimiento similar al aplicado para la distribucin de Pois-
son. Las frecuencias observadas en las diversas categoras de los datos muestrales se comparan
con las frecuencias esperadas, en particular cuando se supone que la poblacin tiene una distri-
bucin normal. Como esta distribucin es continua, es necesario modificar la manera en que se
definen las categoras y en que se calculan las frecuencias esperadas. La prueba de bondad de
ajuste para una distribucin normal se ilustrar con los datos de los exmenes presentados por
las personas que solicitan empleo en Chemline, Inc. Estos datos se presentan en la tabla 12.10.
TABLA 12.10 Cada ao Chemline contrata a cerca de 400 nuevos empleados para sus cuatro plantas en
Puntuaciones Estados Unidos. El director de personal se pregunta si la poblacin de puntuaciones de los ex-
obtenidas en una menes de los solicitantes tendr una distribucin normal. Si es as, esta distribucin podra
muestra aleatoria servir para evaluar las puntuaciones; es decir, podran identificarse fcilmente las que se ubican
de 50 solicitantes de en el 20% superior, el 40% inferior, etc. Por tanto, se desea probar la hiptesis nula de que la
empleo en la prueba poblacin de las puntuaciones de estos exmenes tiene una distribucin normal.
de aptitudes de Para empezar, se obtienen estimaciones de la media y la desviacin estndar de la distri-
Chemline bucin normal que se considerar en la hiptesis nula, considerando los datos de la tabla 12.10.
La media muestral x y la desviacin estndar muestral s se usan como estimadores puntuales
71 66 61 65 54 93
60 86 70 70 73 73 de la media y la desviacin estndar de la distribucin normal. Los clculos son los siguientes.
55 63 56 62 76 54
82 79 76 68 53 58 ! xi 3 421
85 80 56 61 61 64 x! ! ! 68.42
65 62 90 69 76 79 n 50
77 54 64 74 65 65
61 56 63 80 56 71
79 84 !(xi $ x)2 5 310.0369
s! ! ! 10.41
n$1 49
Con estos valores se establecen las siguientes hiptesis acerca de la distribucin de las puntua-
WEB archivo ciones del examen de los aspirantes.
Chemline
H0: la poblacin de las puntuaciones del examen tiene una distribucin normal,
con una media de 68.42 y una desviacin estndar de 10.41.
Ha: la poblacin de las puntuaciones del examen no tiene una distribucin normal,
con una media de 68.42 y una desviacin estndar de 10.41.
FIGURA 12.2 Distribucin normal hipottica de las puntuaciones de los exmenes para los
solicitantes de empleo en Chemline
! 10.41
Media 68.42
Ahora se ver cmo definir las categoras de una prueba de bondad de ajuste para una dis-
tribucin normal. En el caso de la distribucin de probabilidad discreta en la prueba para la
distribucin de Poisson fue fcil definir las categoras en trminos del nmero de clientes que
llegan, 0, 1, 2, etc. Sin embargo, para la distribucin de probabilidad normal continua es ne-
cesario emplear un procedimiento diferente para definir las categoras, esto es, en trminos de
intervalos de puntuaciones de examen.
Recuerde la regla de que en cada intervalo o categora la frecuencia esperada debe ser por
lo menos de cinco. Las categoras para las puntuaciones de examen se definen de manera que
la frecuencia esperada en cada una sea por lo menos de cinco. Como el tamao de la muestra
es 50, una manera de establecer las categoras es dividir la distribucin normal en 10 intervalos
Con una distribucin de con una misma probabilidad (vea la figura 12.3). Dado que el tamao de la muestra es 50, se
probabilidad continua, se espera tener cinco resultados en cada intervalo o categora, con lo que se satisface la regla de
establecen intervalos de
manera que en cada uno la
las frecuencias esperadas.
frecuencia esperada sea de Veamos ms de cerca el procedimiento para calcular los lmites de las categoras. Como
cinco o ms. se trata de una distribucin de probabilidad normal, para determinar estos lmites se emplean
las tablas de probabilidad normal estndar. Primero se determina la puntuacin de examen que
59.68
63.01
65.82
68.42
71.02
73.83
77.16
81.74
12.3 Prueba de bondad de ajuste: distribuciones de Poisson y normal 493
separa el 10% inferior de las puntuaciones. En la tabla 1 del apndice B se encuentra que el valor z
correspondiente a esta puntuacin de examen es !1.28. Por tanto, la puntuacin x " 68.42 !
1.28(10.41) " 55.10 es el valor que separa el 10% inferior de las puntuaciones de examen.
Para el 20% inferior tenemos z " !0.84 y, por tanto, x " 68.42 ! 0.84(10.41) " 59.68. Al
continuar de esta manera con la distribucin normal se obtienen los valores siguientes para las
puntuaciones de examen.
Frecuencia Frecuencia
Intervalo de observada esperada
puntuaciones de examen ( fi ) (ei )
Menores que 55.10 5 5
55.10 a 59.68 5 5
59.68 a 63.01 9 5
63.01 a 65.82 6 5
65.82 a 68.42 2 5
68.42 a 71.02 5 5
71.02 a 73.83 2 5
73.83 a 77.16 5 5
77.16 a 81.74 5 5
81.74 y ms 6 5
Total 50 50
494 Captulo 12 Pruebas de bondad de ajuste e independencia
TABLA 12.12 Clculo del estadstico de prueba ji-cuadrada en el ejemplo de las puntuaciones
de examen de los solicitantes de empleo en Chemline
Cuadrado de
la diferencia
dividido entre
Intervalos de Frecuencia Frecuencia Cuadrado de la frecuencia
puntuaciones observada esperada Diferencia la diferencia esperada
de examen ( fi ) (ei ) ( fi ! ei ) ( fi ! ei )2 ( fi ! ei )2$ei
Menos que 55.10 5 5 0 0 0.0
55.10 a 59.68 5 5 0 0 0.0
59.68 a 63.01 9 5 4 16 3.2
63.01 a 65.82 6 5 1 1 0.2
65.82 a 68.42 2 5 !3 9 1.8
68.42 a 71.02 5 5 0 0 0.0
71.02 a 73.83 2 5 !3 9 1.8
73.83 a 77.16 5 5 0 0 0.0
77.16 a 81.74 5 5 0 0 0.0
81.74 y ms 6 5 1 1 0.2
Total 50 50 2 " 7.2
Dado que se estiman esta hiptesis se necesita calcular el valor-p del estadstico de prueba 2 " 7.2 determinan-
dos parmetros de la do el rea correspondiente en la cola superior de la distribucin ji-cuadrada con 7 grados de
distribucin normal,
se pierden 2 grados de
libertad. Al consultar la tabla 3 del apndice B encontramos que el rea en la cola superior
libertad para la prueba 2. correspondiente a 2 " 7.2 es mayor que 0.10. Por consiguiente, sabemos que el valor-p es ma-
yor que 0.10. Con los procedimientos de Minitab y Excel presentados en el apndice F al final
del libro, vemos que 2 " 7.2 da un valor-p " 0.4084. Con el valor-p $ " 0.10 no se puede
rechazar la hiptesis nula de que la distribucin de probabilidad de las puntuaciones de examen
de los solicitantes de empleo en Chemline sea una distribucin normal. Esta distribucin se
puede usar como ayuda en la interpretacin de las puntuaciones de examen. A continuacin
se presenta un resumen de la prueba de bondad de ajuste para una distribucin normal.
2 " a
k
( fi ! ei )2
i" 1
ei
12.3 Prueba de bondad de ajuste: distribuciones de Poisson y normal 495
5. Regla de rechazo:
Ejercicios
Mtodos
20. A continuacin se presenta el nmero de ocurrencias por periodo y su frecuencia observada.
AUTO evaluacin Use " 0.05 y la prueba de bondad de ajuste para determinar si estos datos se ajustan a una
distribucin de Poisson.
21. Se cree que los siguientes datos provienen de una distribucin normal. Use la prueba de bon-
AUTO evaluacin dad de ajuste con " 0.05 para probar tal supuesto.
17 23 22 24 19 23 18 22 20 13 11 21 18 20 21
21 18 15 24 23 23 43 29 27 26 30 28 33 23 29
Aplicaciones
22. Al parecer, el nmero de accidentes automovilsticos por da en una determinada ciudad tiene
una distribucin de Poisson. A continuacin se presentan los datos de una muestra de 80 das
del ao anterior. Estos datos apoyan la creencia de que el nmero de accidentes por da tiene
una distribucin de Poisson? Use " 0.05.
Frecuencia observada
Nmero de accidentes (das)
0 34
1 25
2 11
3 7
4 3
23. Se cree que el nmero de llamadas telefnicas que llegan por minuto al conmutador de una
empresa tiene una distribucin de Poisson. Use " 0.10 y los datos de la pgina siguiente para
probar este supuesto.
496 Captulo 12 Pruebas de bondad de ajuste e independencia
Nmero de llamadas
telefnicas que
llegan por minuto Frecuencia observada
0 15
1 31
2 20
3 15
4 13
5 4
6 2
Total 100
24. Se tiene la percepcin de que la demanda semanal de un producto tiene una distribucin nor-
mal. Aplique una prueba de bondad de ajuste y los datos siguientes para probar este supuesto.
Use " 0.10. La media muestral es 24.5 y la desviacin estndar es 3.
18 20 22 27 22
25 22 27 25 24
26 23 20 24 26
27 25 19 21 25
26 25 31 29 25
25 28 26 28 24
25. Use " 0.01 y realice una prueba de bondad de ajuste para comprobar si la siguiente muestra
fue tomada de una distribucin normal.
55 86 94 58 55 95 55 52 69 95 90 65 87 50 56
55 57 98 58 79 92 62 59 88 65
Una vez realizada la prueba de bondad de ajuste, elabore un histograma con todos estos da-
tos. Este grfico respalda la conclusin a la que se lleg con la prueba de bondad de ajuste?
(Nota. x " 71 y s " 17.)
Resumen
ji-cuadrada. Valores altos de ji-cuadrada, producto de diferencias grandes entre las frecuencias
observadas y esperadas, lleva al rechazo de la hiptesis de independencia nula.
Glosario
Poblacin multinomial Poblacin en la que cada elemento corresponde a una y slo a una
de varias categoras. Una distribucin multinomial es una extensin de la distribucin bino-
mial de dos a tres o ms resultados.
Prueba de bondad de ajuste Prueba estadstica que se realiza para determinar si una distri-
bucin de probabilidad hipottica es rechazada como distribucin de una poblacin.
Tabla de contingencia Tabla que se emplea para resumir las frecuencias observadas y es-
peradas de una prueba de independencia.
Frmulas clave
2 " a
k
( fi ! ei )2
(12.1)
i" 1
ei
2 " a a
( fij ! eij)2
(12.3)
i j
eij
Ejercicios complementarios
26. Para establecer cuotas de ventas, el gerente de marketing supone que en los cuatro territorios de
ventas el potencial es el mismo. A continuacin se presenta una muestra de 200 ventas. Debe
rechazarse el supuesto del gerente? Use " 0.05.
Territorios de ventas
I II III IV
60 45 59 36
498 Captulo 12 Pruebas de bondad de ajuste e independencia
27. Del total de los inversionistas en fondos de inversin, 7% considera que las acciones corporati-
vas son muy seguras, 58% las califica de relativamente seguras, 24% de no muy seguras,
4% de no del todo seguras y 7% de no seguras. En un estudio de BusinessWeek/Harris se
pregunt a 529 inversionistas de fondos de inversin cmo calificaran los bonos corporativos
respecto de su seguridad. Las respuestas fueron las siguientes
Estos datos sirven para concluir que la participacin de mercado de estos tres automviles
cambi en el primer trimestre de 2004? Cul es el valor-p? Use un nivel de significancia de
0.05. Cul es su conclusin?
29. Una autoridad regional de trnsito est preocupada por el nmero de pasajeros que viajan en
una de las rutas de autobs. Al establecer la ruta se supuso que el nmero de pasajeros era el
mismo para todos los das de la semana, de lunes a viernes. Con los datos siguientes y usando
" 0.05, determine si el supuesto de la autoridad de trnsito es correcto.
Nmero de
Da pasajeros
Lunes 13
Martes 16
Mircoles 28
Jueves 17
Viernes 16
30. La encuesta anual de satisfaccin laboral de Computerworld revel que 28% de los gerentes
de sistemas de informacin (SI) estaba muy satisfecho con su trabajo, 46% se senta modera-
damente satisfecho, 12% no estaba satisfecho ni insatisfecho, 10% estaba ligeramente insatis-
fecho y 4% estaba muy insatisfecho. Suponga que en una muestra de 500 programadores se
encontraron los resultados que se listan a continuacin.
Ejercicios complementarios 499
Nmero de
Categora entrevistados
Muy satisfechos 105
Moderadamente satisfechos 235
Ni satisfechos ni insatisfechos 55
Ligeramente insatisfechos 90
Muy insatisfechos 15
Use " 0.05 y realice una prueba para determinar si la satisfaccin laboral entre los progra-
madores de computadoras es diferente de la satisfaccin laboral de los gerentes de SI.
31. De una muestra de piezas se obtiene la siguiente tabla de contingencia sobre la calidad, con
base en el turno de produccin.
Nmero Nmero
Turno de piezas de defectos
Primero 368 32
Segundo 285 15
Tercero 176 24
Use " 0.05 para probar la hiptesis de que la calidad de las piezas es independiente del turno
de produccin. Cul es su conclusin?
32. El Suscriber Study de The Wall Street Journal dio a conocer datos sobre el tipo de empleo de
sus suscriptores. Los siguientes datos muestrales corresponden a los clientes de las ediciones
del este y del oeste.
Regin
Edicin Edicin
Tipo de empleo del este del oeste
Tiempo completo 1 105 574
Medio tiempo 31 15
Autoempleo / consultor 229 186
No empleado 485 344
Use " 0.05 para probar la hiptesis de que el tipo de empleo es independiente de la regin.
Cul es su conclusin?
33. Una institucin de crdito facilit los datos siguientes sobre prstamos aprobados por cuatro de
sus agentes. Use " 0.05 y realice una prueba para determinar si la aprobacin de las decisio-
nes de prstamo es independiente del agente que recibe la solicitud respectiva.
34. En un estudio de Pew Research Center se pregunt a los entrevistados si preferan vivir en un
lugar con un ritmo de vida ms lento o en uno con un ritmo de vida ms acelerado (USA Today,
13 de febrero de 2009). Tome en cuenta los siguientes datos que constituyen una muestra de
las preferencias expresadas por 150 hombres y 150 mujeres.
Asistencia a la iglesia
Edad S No Total
20 29 31 69 100
30 39 63 87 150
40 49 94 106 200
50 59 72 78 150
36. Los siguientes datos sobre el nmero de llamadas de emergencia solicitando una ambulancia se
tomaron en una zona rural y en una zona urbana de Virginia.
Da de la semana
Domingo Lunes Martes Mircoles Jueves Viernes Sbado Total
Urbana 61 48 50 55 63 73 43 393
Zona
Rural 7 9 16 13 9 14 10 78
Total 68 57 66 68 72 87 53 471
55 85 72 99 48 71 88 70 59 98 80 74 93 85 74
82 90 71 83 60 95 77 84 73 63 72 95 79 51 85
76 81 78 65 75 87 86 70 80 64
Use " 0.05 y realice una prueba para determinar si se debe rechazar que una distribucin
normal sea representativa de la distribucin poblacional de las calificaciones.
Caso a resolver Una agenda bipartidista para el cambio 501
38. Se report el ndice de ocupacin de las oficinas en cuatro zonas metropolitanas de California.
Los datos siguientes indican que la cantidad de oficinas libres es independiente de la zona
metropolitana? Use 0.05 como nivel de significancia. Cul es su conclusin?
Estatus de ocupacin Los ngeles San Diego San Francisco San Jos
Ocupado 160 116 192 174
Vacante 40 34 33 26
39. Un vendedor realiza cuatro llamadas por da. En una muestra de 100 das, las frecuencias de
los volmenes de ventas son los siguientes.
Frecuencia observada
Nmero de ventas (das)
0 30
1 32
2 25
3 10
4 3
Total 100
Los registros indican que 30% de las llamadas llevan a una venta. Si las llamadas son indepen-
dientes, el nmero de ventas por da deber seguir una distribucin binomial. La funcin de
probabilidad binomial presentada en el captulo 5 es
n!
f (x) " px(1 ! p)n!x
x!(n ! x)!
En este ejercicio, suponga que la poblacin tiene una distribucin binomial con n " 4, p "
0.30 y x " 0, 1, 2, 3 y 4.
a) Mediante la funcin de probabilidad binomial, calcule las frecuencias esperadas para x "
0, 1, 2, 3 y 4. Si es necesario, combine categoras para satisfacer el requerimiento de que
la frecuencia esperada en cada categora debe ser de cinco o ms.
b) Use la prueba de bondad de ajuste para determinar si el supuesto de una distribucin bi-
nomial debe ser rechazado. Use " 0.05. Como no fue necesario estimar ninguno de los
parmetros de la distribucin binomial a partir de los datos muestrales, los grados de liber-
tad son k ! 1, donde k es el nmero de categoras.
1. Se debe reducir el sueldo a los legisladores por cada da que se retrasan en el presu-
puesto estatal?
S No
2. Debe haber ms restricciones al cabildeo?
S No
3. Debe haber lmites para que el mandato de los legisladores sea de un nmero determi-
nado de aos?
S No
Las respuestas fueron codificadas usando 1 para S y 2 para No. La base completa de datos est
WEB archivo disponible en el archivo titulado NYReform.
NYReform
Informe gerencial
1. Use la estadstica descriptiva para resumir los datos de este estudio. Cules son, res-
pecto de cada pregunta, las conclusiones preliminares acerca de la independencia entre
la respuesta (S, No) y la afiliacin poltica para cada una de las tres interrogantes en la
encuesta?
2. Para la pregunta 1, pruebe la independencia entre la respuesta (S, No) y la afiliacin
partidista. Use " 0.05.
3. Con respecto a la pregunta 2, pruebe la independencia entre la respuesta (S, No) y la
afiliacin poltica. Use " 0.05.
4. Con respecto a la pregunta 3, pruebe la independencia entre la respuesta (S, No) y la
afiliacin poltica. Use " 0.05.
5. Le parece que hay un amplio apoyo para los cambios en todos los aspectos polticos?
Explique.
Prueba de independencia
Se empieza con una nueva hoja de clculo de Minitab y se ingresan los datos de las frecuencias
observadas en las columnas 1, 2 y 3, respectivamente, del ejemplo de Alberts Brewery de la
seccin 12.2. Esto es, se ingresan las frecuencias observadas que corresponden a las prefe-
rencias por la cerveza ligera (20 y 30) en C1, a las preferencias por la cerveza clara (40 y 30)
en C2 y a las preferencias por la cerveza oscura (20 y 10) en C3. Los pasos para la prueba de
independencia usando Minitab son los siguientes.
Prueba de independencia
En el procedimiento de Excel para pruebas de independencia se requiere que el usuario obten-
WEB archivo ga las frecuencias observadas y las ingrese en una hoja de clculo. En el ejemplo de Albers
Independence Brewery presentado en la seccin 12.2 se proporcionan las frecuencias observadas, las cuales
se ingresan en las celdas B7 a D8, como se indica en la hoja de clculo de la figura 12.5. Las
frmulas que aparecen en las celdas de la hoja de clculo en segundo plano indican el procedi-
miento empleado para calcular las frecuencias esperadas. En la celda E22 se ingresan los grados
de libertad que, como se tienen dos filas y tres columnas, sern (2 ! 1)(3 ! 1) " 2. La funcin
CHITEST proporciona el valor-p en la celda E24.
504 Captulo 12 Pruebas de bondad de ajuste e independencia
FIGURA 12.4 Hoja de clculo de Excel para la prueba de bondad de ajuste en el ejemplo de Scott Marketing
Research
A B C D E
1 Goodness of Fit Test
2
3 Observed Expected
4 Frequency Frequency Calculations
5 48 60 =(A5-B5)^2/B5
6 98 100 =(A6-B6)^2/B6
7 54 40 =(A7-B7)^2/B7
8
9 Test Statistic =SUM(D5:D7)
10
11 Degrees of Freedom 2
12
13 p-Value =CHIDIST(D9,D11)
14 A B C D E
1 Goodness of Fit Test
2
3 Observed Expected
4 Frequency Frequency Calculations
5 48 60 2.40
6 98 100 0.04
7 54 40 4.90
8
9 Test Statistic 7.34
10
11 Degrees of Freedom 2
12
13 p-Value 0.0255
14
Apndice 12.2 Pruebas de bondad de ajuste e independencia con Excel 505
FIGURA 12.5 Hoja de clculo de Excel para la prueba de independencia de Albers Brewery
A B C D E F
1 Test of Independence
2
3 Observed Frequencies
4
5 Beer Preference
6 Gender Light Regular Dark Total
7 Male 20 40 20 =SUM(B7:D7)
8 Female 30 30 10 =SUM(B8:D8)
9 Total =SUM(B7:B8) =SUM(C7:C8) =SUM(D7:D8) =SUM(E7:E8)
10
11
12 Expected Frequencies
13
14 Beer Preference
15 Gender Light Regular Dark Total
16 Male =E7*B$9/$E$9 =E7*C$9/$E$9 =E7*D$9/$E$9 =SUM(B16:D16) A B C D E F
17 Female =E8*B$9/$E$9 =E8*C$9/$E$9 =E8*D$9/$E$9 =SUM(B17:D17) 1 Test of Independence
18 Total =SUM(B16:B17) =SUM(C16:C17) =SUM(D16:D17) =SUM(E16:E17) 2
19 3 Observed Frequencies
20 Test Statistic =CHIINV(E24,E22) 4
21 5 Beer Preference
22 Degrees of Freedom 2 6 Gender Light Regular Dark Total
23 7 Male 20 40 20 80
24 p-value =CHITEST(B7:D8,B16:D17) 8 Female 30 30 10 70
25 9 Total 50 70 30 150
10
11
12 Expected Frequencies
13
14 Beer Preference
15 Gender Light Regular Dark Total
16 Male 26.67 37.33 16 80
17 Female 23.33 32.67 14 70
18 Total 50 70 30 150
19
20 Test Statistic 6.12
21
22 Degrees of Freedom 2
23
24 p-value 0.0468
25
CAPTULO 13
Diseo de experimentos
y anlisis de varianza
ESTADSTICA en LA PRCTICA
BURKE MARKETING SERVICES, INC.*
CINCINNATI, OHIO
Burke Marketing Services, Inc. es una de las firmas de in-
vestigacin de mercados con ms experiencia en la indus-
tria. Cada da desarrolla ms propuestas de proyectos que
cualquier otra empresa del ramo en el mundo. Apoyada con
tecnologa de punta, Burke ofrece una amplia variedad de
posibilidades de investigacin, con lo que soluciona casi
cualquier problema de marketing.
En un estudio, cierta empresa solicit los servicios de
Burke para evaluar nuevas versiones potenciales de un ce-
real para nios. Por razones de confidencialidad, aqu se
nombrar a la empresa como Anon Company. Los cuatro
factores clave que los desarrolladores de productos de Anon
consideraban que podran mejorar el sabor del cereal eran
Burke aplica pruebas de degustacin para obtener valiosa
los siguientes. informacin estadstica acerca de qu quieren los clientes
de un producto. JLP/Sylvia Torres/CORBIS
1. Razn entre trigo y maz en las hojuelas de cereal.
2. Tipo de edulcorante: azcar, miel o artificial. El mtodo estadstico para estudiar los datos obtenidos
3. Presencia o ausencia de trozos con sabor a fruta. en las pruebas de degustacin fue el anlisis de varianza.
4. Tiempo de coccin, largo o corto. Los resultados de los anlisis mostraron lo siguiente.
Burke dise un experimento para determinar los efectos La composicin de las hojuelas y el tipo de edul-
de estos cuatro factores en el sabor del cereal. Por ejemplo, corante influyeron de manera importante en la eva-
se elabor un cereal de prueba con una razn especfica de luacin del sabor.
trigo y maz, azcar como edulcorante, trozos de sabor y Los trozos con sabor en realidad tuvieron un efec-
un tiempo corto de coccin; se prepar otro cereal de prue- to negativo en el sabor del cereal.
ba con diferente proporcin de trigo y maz, dejando igual El tiempo de coccin no tuvo ninguna influencia
los otros tres factores, y as de manera sucesiva. Despus, en el sabor.
grupos de nios probaron el sabor de los productos y dieron
su opinin acerca de cada uno. Esta informacin ayud a Anon a identificar los factores
que llevaran al cereal con mejor sabor.
El diseo de experimentos que Burke emple y el sub-
* Los autores agradecen al doctor Ronald Tatham, de Burke Marketing
secuente anlisis de varianza le ayudaron emitir una reco-
Services, por haber proporcionado este material para Estadstica en la mendacin para el diseo del producto. En este captulo se
prctica. ver cmo se realizan estos procedimientos.
En el captulo 1 se estableci que los estudios estadsticos se pueden clasificar como experi-
mentales u observacionales. En un estudio estadstico experimental se realiza un experimento
para generar los datos. ste comienza con la identificacin de la variable de inters. A continua-
cin se identifican y controlan una o ms variables que se considera que estn relacionadas con
la variable de inters, y se recogen datos de cmo influyen en ella.
En un estudio observacional los datos se obtienen por lo general mediante encuestas por
muestreo y no por un experimento controlado. Aunque tambin se emplean los principios para
un buen estudio, en estas investigaciones no es posible el control riguroso que se tiene en un
trabajo experimental. Por ejemplo, en un estudio de la relacin entre fumar y cncer de pulmn,
el investigador no puede asignarle a los sujetos el hbito de fumar. En realidad est restringido
a la simple observacin de los efectos de fumar en las personas que ya tienen este hbito, y los
efectos de no fumar en las personas que no lo tienen.
508 Captulo 13 Diseo de experimentos y anlisis de varianza
Sir Ronald Alymer Fisher En este captulo se presentan tres tipos de diseos de experimentos: diseo completamente
(1890-1962) invent la aleatorizado, diseo de bloques aleatorizado y experimento factorial. Para cada uno se muestra
rama de la estadstica
conocida como diseo de
cmo usar un procedimiento estadstico conocido como anlisis de varianza (ANOVA, por su
experimentos. Adems acrnimo en ingls) para analizar los datos disponibles. El ANOVA tambin se puede usar para
de sus aportaciones a la analizar los datos obtenidos en un estudio observacional. Por ejemplo, se ver que en un diseo
estadstica, fue un cientfico de experimentos completamente aleatorizado este procedimiento tambin sirve para probar la
sobresaliente en el campo
igualdad de tres o ms medias poblacionales cuando se obtienen los datos mediante un estudio
de la gentica.
observacional. En los captulos siguientes se ver que el ANOVA tiene gran importancia en el
anlisis de los resultados de estudios de regresin que incluyen tanto datos experimentales
como observacionales.
En la primera seccin se mencionan los principios bsicos de un estudio experimental
y se describe la forma de emplearlos en un diseo completamente aleatorizado. En la segunda
seccin se muestra cmo usar el ANOVA para analizar los datos de un diseo de experimento
completamente aleatorizado. En la ltima seccin se estudian procedimientos de comparacin
mltiple y otros dos diseos de experimentos ampliamente utilizados: el de bloques aleatoriza-
do y el experimento factorial.
Empleados en la planta de
Columbia, Carolina del Sur
Observe que el resultado de este experimento ser slo una medicin o nmero de unida-
des ensambladas por cada tratamiento. Para obtener datos adicionales de cada mtodo de en-
samble se debe repetir o replicar el proceso experimental bsico. Suponga, por ejemplo, que
en lugar de tomar al azar slo a tres trabajadores, se seleccionan 15, y luego se les asigna en
forma aleatoria cada uno de los tratamientos a cinco de ellos. Como cada uno de los mtodos
de ensamble es asignado a cinco trabajadores, se dice que se obtienen cinco rplicas. El proce-
so de replicacin es otro principio importante en el diseo de experimentos. En la figura 13.1 se
presenta el diseo completamente aleatorizado para el experimento de Chemitech.
Recoleccin de datos
Una vez realizado el diseo del experimento, se procede a recolectar y analizar los datos. En el
caso de Chemitech, se le explica a los trabajadores cmo emplear el mtodo de ensamble que les
ha sido asignado y empezarn a armar los sistemas de filtracin con ese mtodo. En la tabla 13.1
se presenta el nmero de unidades ensambladas por cada empleado en una semana. Tambin se
proporciona la media muestral, la varianza muestral y la desviacin estndar muestral obteni-
das con cada proceso de ensamble. As, la media muestral del nmero de unidades producidas
con el mtodo A es 62; con el mtodo B es 66, y usando el mtodo C es 52. Con base en es-
tos datos, parece que B proporciona las tasas ms altas de produccin que cualquiera de los
otros mtodos.
El punto a considerar es si cualquiera de las tres medias muestrales observadas difiere lo
suficiente como para concluir que las medias poblacionales correspondientes a estos tres m-
todos de ensamble son diferentes. Para escribir esto en trminos estadsticos, se introduce la
notacin siguiente.
Method
WEB archivo A B C
Chemitech 58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
Sample mean (media muestral) 62 66 52
Sample variance (varianza muestral) 27.5 26.5 31.0
Sample standard deviation (desviacin estndar muestral) 5.244 5.148 5.568
Aunque nunca se podr saber cules son los verdaderos valores de 1, 2 y 3, se utilizan las
medias muestrales para probar las hiptesis siguientes.
H0: 1 ! 2 ! 3
Si H0 es rechazada, no
podemos concluir que todas Ha: no todas las medias poblacionales son iguales
las medias poblacionales
son diferentes. Rechazar H0 , Como se demostrar ms adelante, el anlisis de varianza (ANOVA) es el procedimiento esta-
significa que por lo menos dstico que se emplea para determinar si las diferencias observadas entre las tres medias mues-
dos medias poblacionales
trales son lo suficientemente grandes para rechazar H0.
tienen valores diferentes.
Si los tamaos de las 1. En cada poblacin, la variable de respuesta est normalmente distribuida. Impli-
muestras son iguales, el cacin. En el experimento de Chemitech, el nmero de unidades producidas por sema-
anlisis de varianza no es
na (variable de respuesta) debe estar normalmente distribuido para cada mtodo de
sensible a divergencias
del supuesto de que ensamble.
las poblaciones estn 2. La varianza de la variable de respuesta, denotada como 2, es la misma en todas
normalmente distribuidas. las poblaciones. Implicacin. En el experimento de Chemitech, la varianza en el n-
mero de unidades producido por semana debe ser el mismo para cada mtodo de en-
samble.
3. Las observaciones deben ser independientes. Implicacin. En el experimento de
Chemitech la cantidad de unidades producida por semana por un empleado debe ser
independiente del nmero de unidades producidas por semana por cualquier otro em-
pleado.
2 2
x ! n
x3 x1 x2
anlisis de varianza, cada muestra provendr de la misma distribucin normal con media
y varianza 2. Recuerde que en el captulo 7 se vio que la distribucin muestral de la media
muestral x de una muestra aleatoria simple de tamao n tomada de una poblacin normal ten-
dr una distribucin normal con media y varianza 2/n. En la figura 13.2 se ilustra una dis-
tribucin muestral de este tipo.
Por consiguiente, si la hiptesis nula es verdadera, se considera cada una de las tres me-
dias muestrales, x1 ! 62, x2 ! 66 y x3 ! 52 de la tabla 13.1, como valores obtenidos aleato-
riamente de la distribucin muestral que aparece en la figura 13.2. En este caso, la media y la
varianza de los tres valores x se pueden usar para estimar la media y la varianza de la distribu-
cin muestral. Cuando los tamaos de las muestras son iguales, como en el caso de Chemitech,
la mejor estimacin de la media de la distribucin muestral de x es la media o el promedio de
las medias muestrales. Por tanto, en el experimento de Chemitech, una estimacin de la media
de la distribucin muestral de x es (62 " 66 " 52)/3 ! 60, a la cual se le conoce como media
muestral general. A su vez, una estimacin de la varianza de la distribucin muestral de x , 2x ,
se obtiene de la varianza de las tres medias muestrales.
2 ! n 2x
Por tanto,
x3 3 1 x1 x2 2
distribucin muestral de x. Para ilustrar qu ocurre cuando H0 es falsa, suponga que las medias
poblacionales son todas diferentes. Observe que como las tres muestras provienen de poblacio-
nes normales con medias diferentes, darn tres distribuciones muestrales distintas. En la figura
13.3 se advierte que en este caso las medias muestrales no estn tan cerca unas de otras como
cuando H0 es verdadera. Entonces s 2x ser mayor, haciendo que la estimacin entre tratamien-
tos de 2 tambin lo sea. En general, cuando las medias poblacionales no son iguales, la esti-
macin entre tratamientos sobreestimar la varianza poblacional 2 .
La variacin dentro de cada una de las muestras tambin tiene efecto sobre la conclusin
a la que se arriba con el anlisis de varianza. Cuando se selecciona una muestra aleatoria sim-
ple de cada poblacin, cada una de las varianzas muestrales proporciona una estimacin inses-
gada de 2. Por tanto, se combinan o juntan las estimaciones individuales de 2 en una general.
A la estimacin de 2 obtenida de esta manera se le conoce como estimacin conjunta o dentro
de los tratamientos de 2. Debido a que cada varianza muestral proporciona una estimacin de
2 que se basa slo en la variacin dentro de cada muestra, a la estimacin de 2 dentro de los
tratamientos no le afecta que las medias poblacionales sean iguales. Cuando los tamaos de
las muestras son iguales, la estimacin dentro de los tratamientos de 2 se obtiene al calcular el
promedio de las varianzas muestrales. En el experimento de Chemitech obtenemos
En resumen, la lgica detrs del ANOVA se basa en obtener dos estimaciones independien-
tes de la varianza poblacional comn de 2. Una estimacin de 2 se funda en la variabilidad
entre las medias muestrales mismas y la otra en la variabilidad entre los datos dentro de cada
muestra. Al comparar estas dos estimaciones de 2, podr determinarse si las medias poblacio-
nales son iguales.
NOTAS Y COMENTARIOS
H0: 1 ! 2 . . . ! k
Ha: no todas las medias poblacionales son iguales
donde
Se asume que de cada una de las k poblaciones o tratamientos se toma una muestra aleatoria
simple de tamao nj. Para los datos muestrales resultantes, sean
Las frmulas para la media muestral y la varianza muestral del tratamiento j son las siguientes:
a x ij
nj
i! 1
xj ! (13.1)
nj
a (x ij # x j)
nj
2
i! 1
s 2j ! (13.2)
nj # 1
La media muestral general, que se denota x, es la suma de todas las observaciones divididas
entre la cantidad total de las observaciones. Es decir,
a a x ij
k nj
j! 1 i! 1
x! (13.3)
nT
donde
a a x ij a a x ij$n a xj
k nj k nj k
j! 1 i! 1 j! 1 i! 1 j! 1
x! ! ! (13.5)
kn k k
En otras palabras, si todas las muestras son del mismo tamao, la media muestral general es el
promedio de las k medias muestrales.
En el experimento de Chemitech, como todas las muestras constaban de n ! 5 observa-
ciones, la media muestral general se calcula utilizando la frmula (13.5). Con base en los datos
de la tabla 13.1 obtenemos el siguiente resultado.
62 " 66 " 52
x! ! 60
3
a nj (x j # x )
k
2
j! 1
CMTR ! (13.6)
k#1
13.2 Anlisis de varianza y el diseo completamente aleatorizado 515
SCTR
CMTR ! (13.7)
k#1
donde
a nj (x j # x )
k
SCTR ! 2
(13.8)
j! 1
SCTR 520
CMTR ! ! ! 260
k#1 2
a (nj # 1)s j
k
2
j! 1
CME ! (13.9)
nT # k
SCE
CME ! (13.10)
nT # k
donde
a (nj # 1)s j
k
SCE ! 2
(13.11)
j! 1
Observe que el CME est basado en la variacin dentro de cada tratamiento; el que la hip-
tesis nula sea o no verdadera no tiene ninguna influencia. Por tanto, el CME proporciona siempre
una estimacin insesgada de 2.
516 Captulo 13 Diseo de experimentos y anlisis de varianza
Con base en los datos de la tabla 13.1 para el caso de Chemitech, obtenemos los resultados
siguientes.
CMTR
F! (13.12)
CME
F ! 9.18
13.2 Anlisis de varianza y el diseo completamente aleatorizado 517
Distribucin de muestreo
de CMTR/CME
valor-p
CMTR/CME
F ! 9.18
En el apndice F se explica Como F ! 9.18 es mayor que 6.93, el rea en la cola superior correspondiente a F ! 9.18 es
cmo calcular el valor-p con menor que 0.01. Por tanto, el valor-p es menor que 0.01. Para obtener el valor-p exacto, que
Minitab o Excel.
es 0.004, se puede usar Minitab o Excel. Como el valor-p $ ! 0.05, H0 es rechazada. La
prueba proporciona evidencias suficientes para concluir que las medias de las tres poblaciones
no son iguales. En otras palabras, el anlisis de varianza favorece la conclusin de que las me-
dias poblacionales del nmero de unidades producidas por semana con cada uno de los tres
mtodos de ensamble no son iguales.
Como en otros procedimientos de pruebas de hiptesis, aqu tambin puede emplearse el
mtodo del valor crtico. Como ! 0.05, el valor crtico de F es aquel que deja un rea de 0.05
en la cola superior de la distribucin F con 2 y 12 grados de libertad. En las tablas de la distri-
bucin F se encuentra F0.05 ! 3.89. Por tanto, la regla de rechazo en el caso del experimento
de Chemitech es
Rechazar H0 si F % 3.89
Con F ! 9.18, H0 es rechazada, y concluimos que las medias de las tres poblaciones no son
iguales. A continuacin se presenta un resumen del procedimiento general para probar la igual-
dad de k medias poblacionales.
H0: 1 ! 2 ! . . . ! k
Ha: no todas las medias poblacionales son iguales
ESTADSTICO DE PRUEBA
CMTR
F!
CME
REGLA DE RECHAZO
Tabla de ANOVA
Los clculos anteriores se pueden presentar de manera adecuada en un instrumento conocido
como tabla de anlisis de varianza o tabla de ANOVA. En la tabla 13.2 se observa la forma
general de una tabla ANOVA para un diseo completamente aleatorizado; la tabla 13.3 corres-
ponde a la tabla ANOVA del experimento de Chemitech. La suma de los cuadrados asociados
con la fuente de variacin que se indica como Total se conoce como suma total de cuadrados
(STC). Observe que los resultados del experimento de Chemitech indican que STC ! SCTR "
SCE, y que los grados de libertad que corresponden a este resultado es la suma de los grados
de libertad correspondiente a la suma de cuadrados debido a los tratamientos ms la suma de
cuadrados debido al error.
Cabe hacer notar que la STC dividida entre los grados de libertad n T # 1 no es otra cosa
que la varianza muestral general que se obtendra si se considerara la muestra de las 15 obser-
vaciones como un solo conjunto de datos. Si se toma todo el conjunto de datos como una sola
muestra, la frmula para calcular la suma total de cuadrados, STC, es
El anlisis de varianza
a a (x ij # x )
puede entenderse como un k nj
2
procedimiento estadstico STC ! (13.13)
de particionamiento de la j! 1 i! 1
suma total de los cuadrados
en componentes separados. Se puede demostrar que estos resultados observados para el anlisis de la tabla de varianza en el
caso del experimento de Chemitech tambin son aplicables a otros problemas. Es decir,
En otras palabras, la STC se particiona en dos sumas de cuadrados: la suma de cuadrados debi-
do a los tratamientos y la suma de cuadrados debido al error. Observe, adems, que los grados
de libertad que corresponden a la STC, n T # 1, se pueden partir en grados de libertad corres-
pondientes a SCTR, k # 1, y en grados de libertad correspondientes a SCE, n T # k. El anlisis
de varianza se puede ver como el proceso de particin de la suma total de cuadrados y los
grados de libertad en sus fuentes correspondientes: tratamientos y error. Al dividir las sumas
de cuadrados entre los correspondientes grados de libertad, se obtienen las estimaciones de la
varianza, el valor de F y el valor-p empleados en la prueba de hiptesis de igualdad entre las
medias poblacionales.
FIGURA 13.5 Salida de Minitab para el anlisis de varianza del experimento de Chemitech
Source DF SS MS F P
Factor 2 520.0 260.0 9.18 0.004
Error 12 340.0 28.3
Total 14 860.0
S ! 5.323 R-Sq ! 60.47% R-Sq(adj) ! 53.88%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
A 5 62.000 5.244 (-------*-------)
B 5 66.000 4.148 (------*-------)
C 5 52.000 5.568 (------*-------)
---+---------+---------+---------+------
Pooled StDev ! 5.323 49.0 56.0 63.0 70.0
s
x $ t/2 (13.15)
"n
5.323
62 $ 2.179 ! 62 $ 5.19
"5
520 Captulo 13 Diseo de experimentos y anlisis de varianza
Aunque los verdaderos valores de 1, 2 y 3 nunca puedan conocerse, se usarn los resulta-
dos muestrales para probar las hiptesis siguientes.
H0: 1 ! 2 ! 3
Ha: no todas las medias poblacionales son iguales
Observe que la prueba de hiptesis para el estudio observacional de NCP es exactamente igual a
la que se manej para el experimento de Chemitech. Tambin para analizar los datos del estudio
Media muestral 79 74 66
Varianza muestral 34 20 32
Desviacin estndar muestral 5.83 4.47 5.66
13.2 Anlisis de varianza y el diseo completamente aleatorizado 521
El ejercicio 8 en este observacional de NCP se emplea la misma metodologa de anlisis de varianza usada para el
captulo le pedir analizar experimento de Chemitech.
los datos de NCP utilizando
Aun cuando en ambos casos se utiliza la misma metodologa del ANOVA, vale la pena ob-
el procedimiento de anlisis
de varianza. servar la diferencia entre el estudio estadstico observacional de NCP y la investigacin esta-
dstica experimental de Chemitech. Las personas que realizaron el estudio de NCP no tuvieron
control sobre la asignacin de las plantas a cada uno de los empleados. Las plantas ya funcio-
naban y cada uno de los sujetos trabajaba en una de las tres. Lo nico que se pudo hacer en este
caso fue tomar una muestra aleatoria de seis empleados de cada una de las plantas y aplicarles
el examen de conocimiento sobre la calidad. Para clasificarlo como un trabajo experimental,
NPC tendra que haber tomado al azar 18 empleados y despus, de manera aleatoria, asignar las
plantas a cada uno.
NOTAS Y COMENTARIOS
1. La media muestral general tambin se calcula co- concepto de estimacin de 2 entre tratamientos.
mo media ponderada de las k medias muestrales. La ecuacin (13.6) es slo una generalizacin de
este resultado para el caso de tamaos muestrales
n 1x 1 " n 2 x 2 " . . . " n k x k distintos.
x!
nT 3. Si cada muestra tiene n observaciones, n T ! kn;
En los problemas en que se proporcionan las me- por tanto, n T # k ! k(n # 1), y la ecuacin (13.9)
dias muestrales, para calcular la media general es se puede reescribir como
ms sencillo utilizar esta frmula que la expresin
a (n # 1)s j (n # 1) a s 2j a sj
k k k
(13.3). 2 2
2. Si todas las muestras constan de n observaciones,
j! 1 j! 1 j! 1
la ecuacin (13.6) puede escribe como CME ! ! !
k(n # 1) k(n # 1) k
na (x j # x )2 a (x j # x )
k k
2
Ejercicios
Mtodos
1. Los datos siguientes se obtuvieron de un diseo completamente aleatorizado.
AUTO evaluacin
Tratamiento
A B C
162 142 126
142 156 122
165 124 138
145 142 140
148 136 150
174 152 128
Media muestral 156 142 134
Varianza muestral 164.4 131.2 110.4
3. Remtase al ejercicio 2.
a) Cules son las hiptesis implicadas en este problema?
b) Utilice el nivel de significancia ! 0.05, la hiptesis nula del inciso a) puede ser recha-
zada? Explique porqu.
4. En un experimento diseado para probar los niveles de resultado de tres tratamientos diferen-
tes se obtuvieron los resultados siguientes: STC ! 400, SCTR ! 150, n T ! 19. Establezca la
tabla ANOVA y pruebe si hay alguna diferencia significativa entre las medias de los resultados
de los tres tratamientos. Use ! 0.05.
5. En un diseo completamente aleatorizado se usaron 12 unidades experimentales para el primer
tratamiento, 15 para el segundo y 20 para el tercero. Complete el anlisis de varianza siguiente.
Emplee 0.05 como nivel de significancia, hay diferencia significativa entre los tratamientos?
6. Realice los clculos del anlisis de varianza para el siguiente diseo completamente aleatoriza-
do. Con ! 0.05, la diferencia entre las medias de tratamiento (treatment) es significativa?
Treatment
A B C
136 107 92
120 114 82
113 125 85
WEB archivo 107 104 101
131 107 89
Exer6 114 109 117
129 97 110
102 114 120
104 98
89 106
xj 119 107 100
s 2j 146.86 96.44 173.78
13.2 Anlisis de varianza y el diseo completamente aleatorizado 523
Aplicaciones
7. Un ingeniero propone tres mtodos distintos para ensamblar un producto. Para determinar el
nmero de unidades ensambladas correctamente con cada mtodo, se selecciona al azar a 30
empleados y se asignan de manera aleatoria a los tres enfoques propuestos, de manera que cada
mtodo sea empleado por 10 trabajadores. Se anota el nmero de unidades producidas correc-
tamente y a estos datos se les aplica el anlisis de varianza. Los resultados son los siguientes:
STC ! 10 800; SCTR ! 4 560.
a) Establezca la tabla ANOVA de este problema.
b) Use ! 0.05 para determinar si existen diferencias significativas entre las medias de los
tres mtodos de ensamble.
8. Vaya a la tabla 13.4 que presenta los datos de NCP. Establezca la tabla ANOVA y pruebe si existe
diferencia significativa entre las medias de las puntuaciones de examen en las tres plantas. Use
! 0.05.
9. Para estudiar el efecto de la temperatura en el rendimiento de un proceso qumico, se produ-
jeron cinco lotes con cada uno de tres niveles de temperatura. Los resultados se presentan a
continuacin. Establezca la tabla para el anlisis de varianza. Use ! 0.05 para probar si la
temperatura afecta el rendimiento medio del proceso.
Temperatura
50 C 60 C 70 C
34 30 23
24 31 28
36 34 28
39 23 30
32 27 31
10. En una auditora, los auditores tienen que emitir opiniones acerca de diversos aspectos con
base en sus propias experiencias directas (Direct), indirectas (Indirect) o la combinacin (Com-
bination) de ambas. En un estudio se pidi a los auditores que dieran su opinin acerca de la
frecuencia con que se presentan errores en una auditora. Luego se compararon estas opiniones
con los resultados reales. Suponga que los resultados que se presentan a continuacin se obtu-
vieron de un estudio similar; los valores bajos indican opiniones ms acertadas.
Use ! 0.05 para determinar si el tipo de experiencia en que se basa la opinin afecta su
calidad. Cul es su conclusin?
11. En la publicidad de cuatro pinturas (Paint 1, 2, 3 y 4) se dice que tienen el mismo tiempo de
secado. Para verificarlo, se prueban cinco muestras de cada una de las pinturas. Se registra el
tiempo en minutos necesario para que el secado sea suficiente para la aplicacin de una segun-
da mano. Los datos obtenidos se listan a continuacin.
524 Captulo 13 Diseo de experimentos y anlisis de varianza
Con ! 0.05 como nivel de significancia, realice una prueba para determinar si la media de
los tiempos de secado es la misma en cada tipo de pintura.
12. La Encuesta de satisfaccin de clientes de restaurantes de Consumer Reports se basa en ms
de 148 599 visitas a diferentes cadenas de restaurantes de servicio completo (sitio web de
Consumer Reports). Una de las variables en el estudio es el precio de los alimentos, la cantidad
promedio que paga una persona por la comida y la bebida, menos la propina. Suponga que un
reportero del Sun Coast Times cree que sera de inters para sus lectores realizar un estudio
similar en los restaurantes ubicados en la zona del Grand Strand en Myrtle Beach, Carolina
del Sur. El reportero seleccion una muestra de ocho restaurantes de mariscos (Seafood) ocho
italianos (Italian) y ocho de carnes (Steakhouse). Los datos a continuacin muestran los precios
de la comida en dlares de los 24 negocios muestreados. Utilice ! 0.05 para probar si hay
una diferencia significativa entre el precio medio de la comida en los tres tipos de restaurantes.
LSD de Fisher
Suponga que en un anlisis de varianza se encuentran evidencias estadsticas para rechazar la
hiptesis nula que plantea la igualdad de las medias poblacionales. En tal caso, para determi-
nar dnde estn las diferencias se puede emplear el procedimiento de la diferencia mnima sig-
nificativa (LSD, por sus siglas en ingls) de Fisher. Con el fin de ilustrar el uso del procedimiento
de la LSD de Fisher para comparar pares de medias poblacionales, remtase al experimento de
Chemitech presentado en la seccin 13.1. A partir del anlisis de varianza se concluy que el
nmero medio de unidades producidas por semana no era el mismo con los tres mtodos de en-
samble. En tal caso la siguiente pregunta es: se cree que hay diferencia entre los mtodos pero,
dnde ocurren las diferencias? Es decir, las medias que difieren, son las de las poblaciones 1
y 2? O las de las poblaciones 1 y 3? O las de las poblaciones 2 y 3?
En el captulo 10 se present un procedimiento estadstico para probar la hiptesis de la
igualdad de dos medias poblacionales. Con una ligera modificacin en la manera de evaluar
13.3 Procedimientos de comparacin mltiple 525
H0: i ! j
Ha: i % j
ESTADSTICO DE PRUEBA
xi # xj
t! (13.16)
1 1
CME "
ni nj
REGLA DE RECHAZO
A continuacin se usar este procedimiento para determinar si existe alguna diferencia sig-
nificativa entre la media de la poblacin 1 (mtodo A) y la media de la poblacin 2 (mtodo B)
con ! 0.05 como nivel de significancia. En la tabla 13.1 se indic que las medias obteni-
das con el mtodo A es 62 y con el mtodo B es 66. En la tabla 13.3 se observa que el valor del
CME es 28.33; sta es la estimacin de 2 con 12 grados de libertad. Con los datos de Chemi-
tech, el valor que se obtiene para el estadstico de prueba es
62 # 66
t! ! #1.19
1 1
28.33 "
5 5
Como se trata de una prueba de dos colas, el valor-p es el doble del rea bajo la curva de la dis-
tribucin t a la izquierda de t ! #1.19. En la tabla 2 del apndice B se encuentra la informacin
siguiente para la distribucin t con 12 grados de libertad.
t ! 1.19
La tabla de la distribucin t slo contiene valores positivos de t. Sin embargo, como la dis-
tribucin t es simtrica, podemos determinar el rea bajo la curva a la derecha de t ! 1.19 y
En el apndice F se duplicarla para determinar el valor-p que corresponde a t ! #1.19. En esta tabla vemos que
muestra cmo calcular t ! 1.19 se encuentra entre 0.20 y 0.10. Al duplicar estas cantidades, tenemos que el valor-p
los valores-p con Excel
debe estar entre 0.40 y 0.20. Se puede usar Excel o Minitab para ver que el valor-p exacto
o Minitab.
es 0.2571. Como este valor es mayor que ! 0.05, la hiptesis nula no puede ser rechazada.
Por tanto, no podemos concluir que la media poblacional del nmero de unidades produci-
das por semana con el mtodo A sea diferente que la media poblacional del mtodo B.
526 Captulo 13 Diseo de experimentos y anlisis de varianza
Muchas personas encuentran ms fcil determinar qu tan grande tiene que ser la diferen-
cia entre las medias muestrales para que H0 sea rechazada. En este caso el estadstico de prueba
es x i # x j , y la prueba se realiza siguiendo el procedimiento que se presenta a continuacin.
H0: i ! j
Ha: i % j
ESTADSTICO DE PRUEBA
xi # xj
donde
1 1
LSD ! t/2 CME " (13.17)
ni nj
1 1
LSD ! 2.179 28.33 " ! 7.34
5 5
Observe que si todos los tamaos muestrales son iguales, slo se necesita calcular un valor de
la LSD. En tales casos, basta comparar la magnitud de la diferencia entre dos medias muestrales
con el valor de la LSD. Por ejemplo, la diferencia entre las medias muestrales de la poblacin 1
(mtodo A) y de la poblacin 3 (mtodo C) es 62 # 52 ! 10. Esta diferencia es mayor que la
LSD ! 7.34, lo que significa que se puede rechazar la hiptesis nula de que la media pobla-
cional del nmero de unidades producidas por semana con el mtodo A sea igual que la media
poblacional del mtodo C. De manera similar, entre las medias muestrales de las poblaciones
2 y 3 la diferencia es 66 # 52 ! 14 ( 7.34, y se puede rechazar la hiptesis de que la media
poblacional obtenida con el mtodo B sea igual a la media poblacional del mtodo C. As, la
conclusin es que tanto el mtodo A como el B difieren del mtodo C.
La LSD de Fisher tambin se usa para obtener una estimacin mediante un intervalo de
confianza de la diferencia entre las medias de dos poblaciones. El procedimiento general que se
emplea es el siguiente.
xi # xj $ LSD (13.18)
donde
1 1
LSD ! t/2 CME " (13.19)
ni nj
Si el intervalo de confianza hallado con la expresin (13.18) incluye el valor cero, no se puede
rechazar la hiptesis nula de que las dos medias poblacionales sean iguales. Pero si dicho inter-
valo no incluye al valor cero, podemos concluir que s hay diferencia entre las medias poblacio-
nales. En el caso del experimento de Chemitech, recuerde que la LSD ! 7.34 (que corresponde
a t0.025 ! 2.179). Por tanto, una estimacin de la diferencia entre las medias poblacionales 1 y
2 empleando un intervalo de 95% de confianza es 62 # 66 $ 7.34 ! #4 $ 7.34 ! #11.34
a 3.34; como este intervalo incluye el cero, no se puede rechazar la hiptesis de que las dos
medias sean iguales.
En cada caso, el nivel de significancia empleado es ! 0.05. Por tanto, en cada prueba, si
la hiptesis nula es verdadera, la probabilidad de que se cometa un error tipo I es ! 0.05;
entonces, la probabilidad de no cometer un error tipo I es 1 # 0.05 ! 0.95. En el estudio de
los procedimientos de comparacin mltiple, a esta probabilidad de cometer un error tipo I
( ! 0.05) se le conoce como tasa de error tipo I por comparacin, la cual indica el nivel de
significancia que corresponde a una sola comparacin por pares.
Considere ahora una cuestin ligeramente diferente. Cul es la probabilidad de que al
hacer tres comparaciones por pares se cometa un error tipo I en por lo menos una de las tres
pruebas? Para responder esta pregunta, observe que la probabilidad de que no se cometa un
error tipo I en ninguna de las tres pruebas es (0.95) (0.95) (0.95) ! 0.8574.1 Por tanto, la pro-
babilidad de cometer por lo menos un error tipo I es 1 # 0.8574 ! 0.1426. Entonces, cuando
se usa el procedimiento de la LSD de Fisher para hacer los tres pares de comparaciones, la tasa
de error tipo I correspondiente a este mtodo no es 0.05, sino 0.1426, y se le conoce como tasa
de error tipo I por experimentacin o general. Para evitar confusiones, la tasa de error tipo I
por experimentacin se denota EW.
La tasa de error tipo I por experimentacin es mayor en estudios con ms poblaciones. Por
ejemplo, en un problema con cinco poblaciones hay 10 pares de comparaciones. Si se prueban
todas las comparaciones posibles por pares usando el procedimiento de la LSD de Fisher con
una tasa de error por comparacin de ! 0.05, la tasa de error tipo I por experimentacin ser
1 # (1 # 0.05)10 ! 0.40. En tales casos se prefiere buscar otras alternativas que proporcionen
un mejor control sobre la tasa de error por experimentacin.
Una alternativa para controlar la tasa de error general por experimentacin, conocida co-
mo ajuste de Bonferroni, consiste en usar en cada prueba tasas de error por comparacin ms
pequeas. Por ejemplo, si se quieren probar C comparaciones por pares y se desea que la pro-
1
Se supone que las tres pruebas son independientes y, por tanto, la probabilidad conjunta de los tres eventos se obtiene
con la simple multiplicacin de las probabilidades individuales. De hecho, las tres pruebas no son independientes porque
el CME se usa en cada prueba; en consecuencia, el error supuesto es mayor que el error mostrado.
528 Captulo 13 Diseo de experimentos y anlisis de varianza
babilidad mxima de cometer un error tipo I en todo el experimento sea EW, simplemente se
usa una tasa de error por comparacin igual a EW /C. En el experimento de Chemitech, si se de-
sea emplear el procedimiento de la LSD de Fisher para probar los tres pares de comparaciones
con una tasa de error mximo por experimentacin de EW ! 0.05, se establece como tasa
de error por comparacin ! 0.05/3 ! 0.017. En un problema con cinco poblaciones y 10
comparaciones por pares, el ajuste de Bonferroni sugerira una tasa de error por comparacin
de 0.05/10 ! 0.005. Recuerde que cuando se estudiaron las pruebas de hiptesis en el captulo
9 se vio que para un tamao de muestra dado, toda disminucin en la probabilidad de cometer
un error tipo I aumenta la probabilidad de cometer un error tipo II, el cual corresponde a acep-
tar la hiptesis de que las dos medias poblacionales son iguales cuando en realidad no lo son.
Por tanto, suele haber renuencia a realizar pruebas individuales con una baja tasa de error tipo I
por comparacin debido a que aumenta el riesgo de cometer un error tipo II.
Como solucin para tales situaciones se han elaborado otras alternativas, como el proce-
dimiento de Turkey y la prueba de rango mltiple de Duncan. Sin embargo, en la comunidad
estadstica existe una gran controversia respecto de cul es el mejor procedimiento. La ver-
dad es que no hay uno que sea el mejor para todo tipo de problemas.
Ejercicios
Mtodos
13. Los datos siguientes se obtuvieron con un diseo completamente aleatorizado.
AUTO evaluacin
a) Con ! 0.05 como nivel de significancia, puede rechazar la hiptesis nula de que las
medias de los tres tratamientos son iguales?
b) Use el procedimiento LSD de Fisher para probar si existe una diferencia significativa entre
las medias de los tratamientos A y B, A y C, y B y C. Use ! 0.05.
c) Utilice el procedimiento LSD de Fisher para obtener una estimacin por intervalo de 95%
de confianza para la diferencia entre las medias de los tratamientos A y B.
14. Los datos siguientes se obtuvieron con un diseo completamente aleatorizado. Para los clculos
correspondientes use ! 0.05.
a) Use el anlisis de varianza para probar si hay una diferencia significativa entre las medias
de los tres tratamientos.
b) Utilice el procedimiento LSD de Fisher para probar cules son las medias que difieren.
Aplicaciones
15. Con el fin de probar si la media del tiempo necesario para mezclar un lote de un material es
AUTO evaluacin la misma si emplea las mquinas de tres fabricantes, Jacobs Chemical obtiene los datos siguien-
tes sobre el tiempo (en minutos) requerido para mezclar el material.
Fabricantes
1 2 3
20 28 20
26 26 19
24 31 23
22 27 22
a) Use estos datos para probar si las medias poblacionales de los tiempos necesarios para
mezclar un lote de material usando las mquinas de estos tres fabricantes difieren. Use
! 0.05.
b) Con ! 0.05 como nivel de significancia, use el procedimiento LSD de Fisher para pro-
bar la igualdad entre las medias obtenidas con las mquinas del fabricante 1 y del fabri-
cante 3. Qu conclusin se obtiene despus de realizar la prueba?
16. Remtase al ejercicio 15. Use el procedimiento LSD de Fisher para obtener una estimacin por
AUTO evaluacin intervalo de 95% de confianza para la diferencia entre las medias del fabricante 1 y del fabri-
cante 2.
17. En un experimento diseado para investigar la percepcin de los valores ticos corporativos
entre personas especializadas en marketing, se obtuvieron los datos siguientes (las puntuacio-
nes ms altas indican valores ticos ms elevados).
a) Use ! 0.05 para probar si existe una diferencia significativa de percepcin entre los
tres grupos.
b) Con ! 0.05 como nivel de significancia, podemos concluir que s hay diferencias en-
tre la percepcin de los gerentes de marketing, los especialistas en investigacin de mer-
cados y los expertos en publicidad. Aplique los procedimientos estudiados en esta seccin
para determinar dnde estn las diferencias. Use ! 0.05.
18. Para probar si existe una diferencia significativa entre cuatro mquinas respecto del nmero
de horas entre dos averas, se obtuvieron los datos siguientes.
a) Con ! 0.05, como nivel de significancia, cul es la diferencia, si hay alguna, entre las
medias poblacionales de los tiempos de las cuatro mquinas?
b) Use el procedimiento LSD de Fisher para probar la igualdad de las medias en las mquinas
2 y 4. Utilice 0.05 como nivel de significancia.
19. Remtase al ejercicio 18. Use el ajuste de Bonferroni para probar si hay diferencia significativa
entre todos los pares de medias. Suponga que desea que el mximo de la tasa de error por ex-
perimentacin sea 0.05.
20. La International League of Triple-A, una liga menor de beisbol, aglomera 14 equipos en tres
divisiones: Norte, Sur y Oeste. A continuacin se muestran los datos del promedio de asistencia
(Attendance) a los juegos de los 14 equipos de la International League, incluyendo nombre del
equipo (Team Name) y divisin (Division) (sitio web de The Biz of Baseball, enero de 2009).
Tambin se muestran los rcords de los equipos: W indica el nmero de juegos ganados, L el
nmero de juegos perdidos y PCT la proporcin de juegos ganados.
a) Utilice ! 0.05 para probar cualquier diferencia en la media de asistencia para las tres
divisiones.
b) Utilice el procedimiento de la LSD de Fisher para determinar dnde se presentan las dife-
rencias. Use ! 0.05
Un diseo completamente Sin embargo, puede surgir un problema por diferencias debido a factores ajenos (no conside-
aleatorizado es til cuando rados en el experimento) que ocasionen que el trmino CME en este cociente se vuelva ms
las unidades experimentales
grande. En estos casos, el valor de F en la ecuacin (13.20) ser ms pequeo, haciendo que
son homogneas. Si estas
unidades son heterogneas, se concluya que no hay diferencia entre las medias de los tratamientos cuando en realidad s
suele emplearse la la hay.
formacin de bloques para En esta seccin se presenta un diseo de experimentos conocido como diseo de bloques
tener grupos homogneos. aleatorizado, cuyo propsito es controlar algunas fuentes ajenas de variacin eliminndolas
del trmino CME. Este diseo tiende a proporcionar una mejor estimacin de la varianza del
error y conduce a pruebas de hiptesis ms slidas en trminos de su capaciadad para detectar
13.4 Diseo de bloques aleatorizado 531
diferencias entre medias de tratamientos. Para ilustrar esto se retoma un estudio sobre el estrs
que experimentan los controladores del trfico areo.
TABLA 13.5 Diseo de bloques aleatorizado para la prueba de estrs en los controladores
de trfico areo
Treatments
System A System B System C
Controller 1 15 15 18
Controller 2 14 14 14
WEB archivo Controller 3 10 11 15
Blocks Controller 4 13 12 17
AirTraf c
Controller 5 16 13 16
Controller 6 13 13 13
532 Captulo 13 Diseo de experimentos y anlisis de varianza
TABLA 13.6 Resumen de los datos recolectados para la prueba de estrs en los controladores de trfico areo.
Tratamientos Totales de
Sistema A Sistema B Sistema C fila o de bloque Medias por bloque
Controlador 1 15 15 18 48 x 1. ! 48/3 ! 16.0
Controlador 2 14 14 14 42 x 2. ! 42/3 ! 14.0
Bloques Controlador 3 10 11 15 36 x 3. ! 36/3 ! 12.0
Controlador 4 13 12 17 42 x 4. ! 42/3 ! 14.0
Controlador 5 16 13 16 45 x 5. ! 45/3 ! 15.0
Controlador 6 13 13 13 39 x 6. ! 39/3 ! 13.0
Totales de
252
columna o 81 78 93 252 x! ! 14.0
de tratamiento 18
Medias por 81 78 93
tratamiento x.1 ! x.2 ! x.3 !
6 6 6
! 13.5 ! 13.0 ! 15.5
algunas medias muestrales necesarias que sern tiles para efectuar los clculos de la suma de
cuadrados del ANOVA. Dado que los valores bajos de estrs se consideran mejores, los datos
muestrales parecen favorecer el sistema B, en el que la media de las mediciones del estrs es
13. Sin embargo, la pregunta persiste: los resultados muestrales justifican la conclusin de
que las medias poblacionales de los niveles de estrs con estos tres sistemas difieren? Es decir,
las diferencias son estadsticamente significativas? Para responder esta pregunta se emplea
un anlisis del clculo de la varianza, similar al empleado en el diseo completamente alea-
torizado.
Procedimiento ANOVA
El procedimiento ANOVA para el diseo de bloques aleatorizado requiere la particin de la su-
ma total de los cuadrados (STC) en tres grupos: la suma de los cuadrados debido a los tratamien-
tos (SCTR), la suma de los cuadrados debido a los bloques (SCBL) y la suma de los cuadrados
debida al error (SCE). A continuacin se proporciona la frmula para este particionamiento.
Esta suma de la particin de cuadrados se presenta en la tabla ANOVA para el diseo de blo-
ques aleatorizado como se muestra en la tabla 13.7. La notacin empleada es
k ! nmero de tratamientos
b ! nmero de bloques
n T ! tamao muestral total (n T ! kb)
Observe que en la tabla ANOVA tambin se indica la particin de los n T # 1 grados de liber-
tad totales de manera que k # 1 grados de libertad correspondan a los tratamientos, b # 1 a
los bloques y (k # 1)(b # 1) al trmino del error. En la columna cuadrado medio se proporcio-
nan las sumas de los cuadrados divididas entre los grados de libertad, y F ! CMTR/CME es el
cociente F que se usa para probar si hay diferencias significativas entre las medias de los trata-
mientos. La contribucin ms importante del diseo de bloques aleatorizado radica en que, al
emplear bloques, se eliminan del trmino CME las diferencias individuales de los controladores
y se obtiene una prueba ms slida para las diferencias de estrs entre las tres alternativas de
estaciones de trabajo.
13.4 Diseo de bloques aleatorizado 533
TABLA 13.7 Tabla ANOVA para el diseo de bloques aleatorizado con k tratamientos
y b bloques
Clculos y conclusiones
Para calcular el estadstico F requerido para probar si existe diferencia entre las medias de los
tratamientos en un diseo de bloques aleatorizado, se necesita calcular el CMTR y el CME. Para
determinar estos dos cuadrados medios es preciso calcular primero la SCTR y la SCE; para esto
tambin se calcula la SCBL y la STC. En forma ms sencilla, estos procedimientos se realizan
en cuatro pasos. Adems de la notacin k, b y n T ya definida, se usar:
a a (x ij # x )
b k
2
STC ! (13.22)
i! 1 j! 1
SCTR ! b a
k
(x .j # x )2 (13.23)
j! 1
SCBL ! k a
b
(x i . # x )2 (13.24)
i! 1
En el caso de los datos de la tabla 13.6 sobre los controladores del trfico areo, con estos
clculos se obtienen las sumas de los cuadrados siguientes.
Paso 1. STC ! (15 # 14)2 " (15 # 14)2 " (18 # 14)2 " . . . " (13 # 14)2 ! 70
Paso 2. SCTR ! 6[(13.5 # 14)2 " (13.0 # 14)2 " (15.5 # 14)2] ! 21
Paso 3. SCBL ! 3[(16 # 14)2 " (14 # 14)2 " (12 # 14)2 " (14 # 14)2 "
(15 # 14)2 " (13 # 14)2] ! 30
Paso 4. SCE ! 70 # 21 # 30 ! 19
534 Captulo 13 Diseo de experimentos y anlisis de varianza
TABLA 13.8 Tabla ANOVA para la prueba de estrs de los controladores de trfico areo
Las sumas de cuadrados divididas entre sus grados de libertad proporcionan los correspon-
dientes cuadrados medios que se presentan en la tabla 13.8.
Ahora, para realizar la prueba de hiptesis se usar ! 0.05 como nivel de significancia.
El valor del estadstico de prueba es
CMTR 10.5
F! ! ! 5.53
CME 1.9
NOTAS Y COMENTARIOS
En un diseo de bloques aleatorizado, los grados de los efectos potenciales debido a los bloques pueden
libertad del error son menos que en un diseo comple- quedar ocultos por la prdida de grados de libertad del
tamente aleatorizado, debido a que en los b bloques error; con n grande, los efectos se minimizan.
se pierden b # 1 grados de libertad. Si n es pequeo,
Ejercicios
Mtodos
21. Considere los resultados experimentales del siguiente diseo de bloques aleatorizado. Realice
AUTO evaluacin los clculos necesarios para establecer la tabla de anlisis de varianza.
Tratamientos
A B C
1 10 9 8
2 12 6 5
Bloques 3 18 15 14
4 20 18 18
5 8 7 8
Aplicaciones
24. Un vendedor de automviles realiza una prueba para determinar si el tiempo en minutos que se
necesita para afinar un motor pequeo depende de si se utiliza un analizador de motor compu-
tarizado o uno electrnico. Debido a que el tiempo de afinacin vara entre automviles com-
pactos, medianos y grandes, en el experimento se utilizaron los tres tipos de vehculos como
bloques. Los datos obtenidos se indican a continuacin.
536 Captulo 13 Diseo de experimentos y anlisis de varianza
Analizador
Computarizado Electrnico
Compacto 50 42
Automvil Mediano 55 44
Grande 63 46
Use ! 0.05 y pruebe si existe alguna diferencia significativa entre los precios medios de los
cuatro minoristas.
26. El Examen de aptitud escolar (SAT, por sus siglas en ingls) contiene tres secciones: lectura
crtica, matemticas y redaccin. Cada parte se califica en una escala de 800 puntos. La in-
formacin de las puntuaciones del examen para la versin 2009 del SAT est disponible en el
sitio web del College Board. Una muestra de las puntuaciones alcanzadas por seis estudiantes
(Student) en el SAT se lista enseguida para lectura crtica (Critical Reading), matemticas (Ma-
thematics) y redaccin (Writing).
Critical
Student Reading Mathematics Writing
1 526 534 530
WEB archivo 2 594 590 586
3 465 464 445
SATScores 4 561 566 553
5 436 478 430
6 430 458 420
1. Una sesin de repaso de tres horas, en la que se revisa el tipo de preguntas que suele
encontrarse en el GMAT.
2. Un programa de un da en el que se ve el material ms relevante del examen, junto con
un examen muestra que se califica.
3. Un curso intensivo de 10 semanas en el que se identifican las debilidades de cada es-
tudiante y se establecen programas individualizados de mejora.
Por tanto, un factor en este estudio es el programa de preparacin, el cual tiene tres tratamien-
tos: un repaso de tres horas, un programa de un da y un curso de 10 semanas. Antes de se-
leccionar la opcin a adoptar, ms estudios llevarn a determinar el efecto de cada uno de
los programas sobre las puntuaciones obtenidas en este examen de admisin.
Por lo general, los aplicantes del GMAT son estudiantes de tres licenciaturas: negocios,
ingeniera y artes y ciencias. En consecuencia, el segundo factor de inters en el experimento
es si la licenciatura influye en la calificacin del GMAT. Para este segundo factor hay tambin
tres tratamientos: negocios, ingeniera y artes y ciencias. El diseo factorial de este experimen-
to con tres tratamientos para el factor A, programa de preparacin, y tres tratamientos para el
538 Captulo 13 Diseo de experimentos y anlisis de varianza
TABLA 13.9 Las nueve combinaciones de tratamiento en el experimento con dos factores
del GMAT
Factor B: licenciatura
Negocios Ingeniera Artes y ciencias
Factor A: Repaso de tres horas 1 2 3
programa Programa de un da 4 5 6
de preparacin Curso de 10 semanas 7 8 9
Factor B: College
Business Engineering Arts and Sciences
500 540 480
Three-hour review
580 460 400
WEB archivo Factor A:
460 560 420
Preparation One-day program
GMATStudy 540 620 480
Program
560 600 480
10-week course
600 580 410
13.5 Experimento factorial 539
TABLA 13.11 Tabla ANOVA para el experimento factorial de dos factores con r replicaciones
SCB CMB
Factor B SCB b#1 CMB !
b#1 CME
SCAB CMAB
Interaccin SCAB (a # 1)(b # 1) CMAB !
(a # 1)(b # 1) CME
SCE
Error SCE ab(r # 1) CME !
ab(r # 1)
Total STC nT # 1
sobre las puntuaciones del GMAT, se podr concluir que el efecto del tipo de programa de pre-
paracin depende de la licenciatura.
Procedimiento ANOVA
El procedimiento ANOVA para el experimento factorial de dos factores requiere la particin de
la suma total de cuadrados (STC) en cuatro grupos: suma de cuadrados del factor A (SCA), su-
ma de cuadrados del factor B (SCB), suma de cuadrados de la interaccin (SCAB) y suma de
cuadrados debido al error (SCE). La frmula para esta particin se da a continuacin.
En la tabla 13.11 se resumen las particiones de las sumas de cuadrados y de los grados de liber-
tad. Se emplea la notacin siguiente:
Clculos y conclusiones
Para determinar los estadsticos F que se requieren en las pruebas de significancia del factor A,
del factor B y de la interaccin, es necesario calcular CMA, CMB, CMAB y CME. Para obtener
estos cuatro cuadrados medios se debe calcular primero SCA, SCB, SCAB y SCE; con esto se
calcula tambin STC. Para simplificar la presentacin, los procedimientos se dividen en cinco
pasos. Adems de a, b, r y n T definidos previamente, se emplea la siguiente notacin.
a a a (x ijk # x )
a b r
2
STC ! (13.27)
i! 1 j! 1 k! 1
SCA ! br a (x i .
a
# x )2 (13.28)
i! 1
SCB ! ar a (x .j
b
# x )2 (13.29)
j! 1
SCAB ! r a a (x ij
a b
# x i . # x .j " x )2 (13.30)
i! 1 j! 1
En la tabla 13.12 se reportan los datos obtenidos en el experimento y las diversas sumas nece-
sarias para los clculos de las sumas de cuadrados. Mediante las ecuaciones (13.27) a (13.31) se
calculan las siguientes sumas de cuadrados del experimento factorial de dos factores del GMAT.
Paso 1. STC ! (500 # 515)2 " (580 # 515)2 " (540 # 515)2 " . . . "
(410 # 515)2 ! 82 450
Paso 2. SCA ! (3)(2)[(493.33 # 515)2 " (513.33 # 515)2 "
(538.33 # 515)2] ! 6 100
Paso 3. SCB ! (3)(2)[(540 # 515)2 " (560 # 515)2 " (445 # 515)2] ! 45 300
Paso 4. SCAB ! 2[(540 # 493.33 # 540 " 515)2 " (500 # 493.33 #
560 " 515)2 " . . . " (445 # 538.33 # 445 " 515)2] ! 11 200
Paso 5. SCE ! 82 450 # 6 100 # 45 300 # 11 200 ! 19 850
Estas sumas divididas entre sus correspondientes grados de libertad proporcionan los valores de
los cuadrados medios apropiados para estimar los dos efectos principales (programas de prepa-
racin y licenciatura) y el efecto de su interaccin.
Debido a la gran cantidad de clculos involucrada en cualquier experimento factorial des-
de uno modesto hasta uno de gran dimensin, usualmente la computadora juega un papel im-
portante en la realizacin de los clculos necesarios en el anlisis de varianza mostrado antes
y en la obtencin de los valores-p que se emplean para tomar las decisiones en la prueba de hi-
ptesis. En la figura 13.6 se presenta la pantalla de resultados de Minitab para el anlisis de
varianza del experimento factorial de dos factores del GMAT. Para realizar la prueba de hipte-
sis de dos factores en este estudio usaremos el resultado de Minitab y un nivel de significancia
! 0.05. El valor-p utilizado para probar si hay diferencias significativas entre los tres progra-
mas de preparacin (factor A) es 0.299. Como este valor-p ! 0.299 es mayor que ! 0.05, no
existe diferencia significativa entre las medias de las puntuaciones obtenidas en el GMAT para
los tres programas de preparacin. Sin embargo, en relacin con el efecto de la licenciatura, el
valor-p ! 0.005 es menor que ! 0.05; por tanto, s hay una diferencia significativa en las
medias de las puntuaciones en el GMAT entre las tres licenciaturas. Por ltimo, debido a que el
TABLA 13.12 Resumen de los datos del examen GMAT para el experimento de dos factores
Factor B: licenciatura
Totales de combinacin
de tratamiento Artes y Totales Medias del
Negocios Ingeniera ciencias de fila factor A
13.5
FIGURA 13.6 Pantalla de resultados de Minitab para el diseo de dos factores del examen GMAT
SOURCE DF SS MS F P
Factor A 2 6100 3050 1.38 0.299
Factor B 2 45300 22650 10.27 0.005
Interaction 4 11200 2800 1.27 0.350
Error 9 19850 2206
Total 17 82450
Ejercicios
Mtodos
28. En un experimento factorial con dos niveles para el factor A y tres niveles para el factor B se
AUTO evaluacin obtuvieron los datos siguientes.
Factor B
Nivel 1 Nivel 2 Nivel 3
135 90 75
Nivel 1 165 66 93
Factor A
125 127 120
Nivel 2 95 105 136
Realice una prueba para determinar si hay algunos efectos principales significativos y algn
efecto de interaccin. Use ! 0.05.
29. De los clculos de un experimento factorial con cuatro niveles para el factor A, tres niveles
para el factor B y tres replicaciones se obtuvieron los datos siguientes: STC ! 280, SCA ! 26,
SCB ! 23 y SCAB ! 175. Establezca la tabla ANOVA y pruebe si hay algunos efectos princi-
pales significativos y algn efecto de interaccin. Use ! 0.05.
Aplicaciones
30. Una empresa de ventas por catlogo realiz un experimento factorial para probar el efecto del
tamao de un anuncio de revista y su diseo sobre el nmero de solicitudes de catlogos re-
cibido (datos en miles). Se pusieron a consideracin tres diseos publicitarios y dos tamaos.
Los datos obtenidos se presentan a continuacin. Utilice el procedimiento ANOVA para un
13.5 Experimento factorial 543
diseo factorial a fin de probar si hay efectos significativos debido al tipo de diseo, al tama-
o del anuncio o a la interaccin. Use ! 0.05.
31. Un parque de diversin estudi algunos mtodos para reducir el tiempo de espera (en minutos)
al bajar y subir a los pasajeros a los juegos. Se propusieron dos mtodos para realizar estas ta-
reas. Para tomar en cuenta las diferencias potenciales debido al tipo de juego y a la interaccin
que puede haber entre tipo de juego y mtodo de subir y bajar a los pasajeros, se dise un ex-
perimento factorial. Use los datos siguientes para pobrar cualquier efecto significativo debido
al mtodo de subir y bajar a los pasajeros, el tipo de juego y la interaccin. Use ! 0.05.
Tipo de juego
Montaa rusa Rueda de la fortuna Tobogn
41 52 50
Mtodo 1
43 44 46
49 50 48
Mtodo 2
51 46 44
32. En un estudio diseado para comparar vehculos hbridos (Hybrid) y convencionales (Con-
ventional) con equipo similar, Consumer Reports prob varias clases de automviles hbridos,
automviles a gasolina y vehculos utilitarios deportivos (SUV). Los datos siguientes muestran
la clasificacin en millas por galn que Consumer Reports obtuvo para dos automviles com-
pactos (Small Car) hbridos, dos automviles medianos (Midsize Car) hbridos, dos SUV
compactos (Small SUV) hbridos y dos SUV medianos (Midsize SUV) hbridos; tambin se mues-
tra el rendimiento en millas por galn obtenidas de ocho modelos convencionales con equipo
similar (Consumer Reports, octubre de 2008). Make/Model indica fabricante y modelo; Class
(clase), Type (tipo) y MPG (millas por galn).
Realice pruebas para encontrar efectos significativos debido a la clase, tipo e interaccin con
un nivel de significancia ! 0.05.
544 Captulo 13 Diseo de experimentos y anlisis de varianza
33. En un estudio publicado en The Accounting Review se examinaron los efectos separados y
conjuntos de dos grados de presin de tiempo (bajo y moderado) y de tres niveles de conoci-
miento (inexperto, declarativo y de procedimiento) en la conducta de un grupo de sujetos al
seleccionar palabras clave en una investigacin de impuestos. A los sujetos se les presentaban
casos de impuestos que contenan una serie de hechos, un asunto sobre impuestos y un ndice
con 1 336 palabras clave. Se les peda que seleccionaran las palabras clave que creyeran que lle-
varan a una autoridad tributaria relevante a resolver el caso. Antes del experimento, un grupo
de expertos fiscales determin que en el texto haba 19 palabras clave relevantes. Los sujetos
en el grupo inexperto posean poco o ningn conocimiento declarativo o de procedimiento;
los sujetos en el grupo declarativo tenan un conocimiento declarativo significativo, pero poco
o ninguno de procedimiento, y los sujetos en el grupo de procedimiento tenan considerables
conocimientos declarativos y de procedimiento. El conocimiento declarativo abarca tanto las
reglas impositivas aplicables como los trminos tcnicos empleados para describir esas reglas;
y el de procedimiento es el conocimiento de las reglas que guan la bsqueda del investigador
de impuestos para encontrar palabras clave. Los sujetos en el grupo de poca presin de tiempo
contaron con 25 minutos para resolver el problema, cantidad de tiempo que deba ser ms que
adecuada para completar el caso; los sujetos en el grupo de presin de tiempo moderada tu-
vieron slo 11 minutos para resolver el problema. Se seleccionaron 25 sujetos para cada una
de las seis combinaciones de tratamientos y las medias muestrales de cada combinacin de
tratamientos se indican a continuacin (las desviaciones estndar estn entre parntesis).
Conocimiento
Inexperto Declarativo De procedimiento
1.13 1.56 2.00
Baja
(1.12) (1.33) (1.54)
Presin de tiempo
0.48 1.68 2.86
Moderada
(0.80) (1.36) (1.80)
Use el procedimiento del ANOVA para probar si hay diferencias significativas debido a la
presin de tiempo, al conocimiento o a la interaccin. Use 0.05 como nivel de significancia.
Asuma que la suma total de cuadrados en este experimento es 327.50.
Resumen
En este captulo se estudi cmo usar el anlisis de varianza para encontrar diferencias entre
las medias de varias poblaciones o tratamientos. Se present el diseo completamente aleato-
rizado, el diseo de bloques aleatorizado y el experimento factorial de dos factores. Los dise-
os completamente aleatorizado y de bloques aleatorizado se usan para formular conclusiones
acerca de las diferencias en las medias de un solo factor. El objetivo principal de la formacin
de bloques en el diseo de bloques aleatorizado es eliminar fuentes extraas de variacin del
trmino del error. La formacin de bloques proporciona una mejor estimacin de la verdadera
varianza del error y una mejor prueba para determinar si las medias de las poblaciones o tra-
tamientos del factor difieren de forma significativa.
Se mostr que la base para las pruebas estadsticas empleadas en el anlisis de varianza y
en el diseo de experimentos es la obtencin de dos estimaciones independientes de la varian-
za poblacional 2. En el caso de un solo factor, uno de los estimadores se basa en la variacin
entre los tratamientos; este estimador proporciona slo un estimador insesgado de 2 si las
medias 1, 2, . . . , k son iguales. El otro estimador de 2 se basa en la variacin de las ob-
servaciones dentro de cada muestra y siempre proporciona un estimador insesgado de 2. Al
calcular el cociente de estos dos estimadores (el estadstico F) se obtiene la regla de rechazo
para determinar si la hiptesis nula, que establece que las medias poblacionales o de los tra-
tamientos son iguales, es rechazada o no. En todos los diseos de experimentos aqu conside-
Frmulas clave 545
rados, la particin de las sumas de cuadrados y de los grados de libertad en sus diferentes fuen-
tes permite calcular los valores necesarios para el anlisis de varianza y las pruebas. Se mostr
tambin cmo usar el procedimiento de la LSD de Fisher y el ajuste de Bonferroni para realizar
comparaciones por pares y determinar cules medias son diferentes.
Glosario
Frmulas clave
a x ij
nj
i! 1
xj ! (13.1)
nj
a (x ij # x j)
nj
2
i! 1
s 2j ! (13.2)
nj # 1
546 Captulo 13 Diseo de experimentos y anlisis de varianza
a a x ij
k nj
j! 1 i! 1
x! (13.3)
nT
SCTR
CMTR ! (13.7)
k#1
a nj (x j # x )
k
SCTR ! 2
(13.8)
j! 1
SCE
CME ! (13.10)
nT # k
a (nj # 1)s j
k
SCE ! 2
(13.11)
j! 1
CMTR
F! (13.12)
CME
a a (x ij # x )
k nj
2
STC ! (13.13)
j! 1 i! 1
xi # xj
t! (13.16)
1 1
CME "
ni nj
LSD de Fisher
1 1
LSD ! t/2 CME " (13.17)
ni nj
Ejercicios complementarios 547
a a (x ij # x )
b k
2
STC ! (13.22)
i! 1 j! 1
SCTR ! b a
k
(x .j # x )2 (13.23)
j! 1
SCBL ! k a
b
(x i . # x )2 (13.24)
i! 1
Experimentos factoriales
Suma total de cuadrados
a a a (x ijk # x )
a b r
2
STC ! (13.27)
i!1 j! 1 k! 1
SCA ! br a (x i .
a
# x )2 (13.28)
i! 1
SCB ! ar a (x .j
b
# x )2 (13.29)
j! 1
SCAB ! r a a (x ij
a b
# x i . # x .j " x )2 (13.30)
i! 1 j! 1
Ejercicios complementarios
34. En un diseo de experimentos completamente aleatorizado se prob la capacidad de absorcin
de agua de tres marcas de toallas de papel. Se usaron toallas de un mismo tamao para probar
cuatro secciones de toalla por marca. A continuacin se proporcionan los datos de la capacidad
de absorcin. Con un nivel de significancia de 0.05, parece haber alguna diferencia en la ca-
pacidad de absorcin de estas marcas?
548 Captulo 13 Diseo de experimentos y anlisis de varianza
Marca
x y z
91 99 83
100 96 88
88 94 89
89 99 76
35. En un estudio publicado en el Journal of Small Business Management se concluy que los
individuos que se autoemplean no experimentan tanta satisfaccin laboral como los que no se
autoemplean. En esta investigacin, la satisfaccin laboral se midi con 18 items, cada uno de
los cuales se evaluaba con una escala de Likert con 1-5 opciones de respuesta, que iban de total-
mente de acuerdo a totalmente en desacuerdo. En esta escala, una puntuacin alta corresponde
a mayor satisfaccin laboral. La suma de las puntuaciones de los 18 items, que iban de 18-90,
se us para medir la satisfaccin laboral. Suponga que se utiliza este mtodo para medir la
satisfaccin laboral de abogados (Lawyer), terapeutas fsicos (Physical Therapist), diseadores
(Cabinetmaker) y analistas de sistemas (Systems Analyst). A continuacin se listan los resulta-
dos obtenidos en una muestra de 10 individuos de cada profesin.
Con ! 0.05 como nivel de significancia, pruebe si hay diferencia en la satisfaccin laboral
entre las cuatro profesiones.
36. La revista Money public los rendimientos porcentuales y las proporciones de gastos para los
fondos de capital y de bonos. Los datos siguientes representan las proporciones de gastos en
10 fondos de capital midcap, 10 fondos de capital small-cap, 10 fondos de capital Hybrid
(hbrido) y 10 fondos de capital Specialty (especializado) (Money, marzo de 2003).
Use ! 0.05 para probar si hay diferencias significativas entre las proporciones de gastos
medios de estos cuatro fondos de capital.
37. La Oficina del Censo de Estados Unidos (U.S. Census Bureau) realiza un clculo trimestral
de tasas de viviendas desocupadas y propiedad de vivienda por estado y rea estadstica me-
tropolitana (MSA, por sus siglas en ingls). Cada MSA tiene al menos un rea urbanizada de
50 000 o ms habitantes. Los siguientes datos son las tasas (%) de casas desocupadas para renta
por MSA en cuatro regiones geogrficas de Estados Unidos (Midwest, oeste medio; Northeast,
noreste; South, sur, y West, oeste) en el primer trimestre de 2008 (sitio web del U.S. Census
Bureau, enero de 2009).
Utilice ! 0.05 para probar si la tasa media de viviendas desocupadas es la misma para cada
regin geogrfica.
38. Se proponen tres nuevos mtodos de ensamble para un producto nuevo. Para determinar con
cul de los mtodos se producen ms unidades por hora se elige un diseo de experimentos
completamente aleatorizado y a 30 trabajadores seleccionados al azar se les asigna alguno de
los mtodos (Method) de fabricacin. En la tabla siguiente se presenta el nmero de unidades
producidas por cada uno de los trabajadores.
Method
A B C
97 93 99
73 100 94
WEB archivo 93 93 87
100 55 66
Assembly 73 77 59
91 91 75
100 85 84
86 73 72
92 90 88
95 83 86
550 Captulo 13 Diseo de experimentos y anlisis de varianza
Utilice estos datos y realice una prueba para ver si el nmero medio de unidades producidas es
la misma en los tres mtodos de fabricacin. Use ! 0.05.
39. En un estudio realizado para investigar la actividad de los clientes en las grandes tiendas, a
cada sujeto se le clasific al inicio como poco activo (Nonbrowser), medianamente activo
(Light Browser) y muy activo (Heavy Browser). Se obtuvo un valor para cada cliente que me-
da cun a gusto se encontraba en la tienda. Los valores ms altos indicaban que el cliente se
encontraba ms a gusto. Suponga que se obtuvieron los datos siguientes.
Light Heavy
Nonbrowser Browser Browser
4 5 5
5 6 7
6 5 5
WEB archivo 3 4 7
3 7 4
Browsing
4 4 6
5 6 5
4 5 7
a) Use ! 0.05 para probar si hay diferencia en el grado en que se sienten a gusto los tres
tipos de clientes.
b) Use el procedimiento de la LSD de Fisher para comparar los grados en que se sienten a
gusto los clientes poco activos y los medianamente activos. Use ! 0.05 Cul es su
conclusin?
40. Una empresa realiza una investigacin para determinar el rendimiento caracterstico, en millas
por galn, de tres marcas de gasolina. Como cada gasolina produce rendimientos distintos en
automviles de marcas diferentes, se eligen cinco marcas de vehculos que se tratan como
bloques en el experimento; es decir, el automvil de cada marca se prueba con los tres tipos de
gasolina. Los resultados del experimento (en millas por galn) se presentan a continuacin.
Marcas de gasolina
I II III
A 18 21 20
B 24 26 27
Automviles C 30 29 34
D 22 25 24
E 20 23 24
a) Con ! 0.05, se encuentra alguna diferencia significativa entre los rendimientos medios
en millas por galn de las tres marcas de gasolina?
b) Analice los datos experimentales usando el ANOVA para diseos completamente alea-
torizados. Compare sus hallazgos con los obtenidos en el inciso a). Cul es la ventaja de
tratar de eliminar el efecto de bloque?
41. Wegmans Food Markets y Tops Friendly Markets son las cadenas ms grandes de tiendas de
abarrotes en el rea de Rochester, Nueva York. Cuando Wal-Mart abri uno de sus Supercenter
en un suburbio de Rochester, los expertos predijeron que vendera ms barato que sus compe-
tidores locales. El diario Democrat and Chronicle public los precios de los 15 artculos (Item)
que se listan en la tabla que se presenta a continuacin.
Ejercicios complementarios 551
Con ! 0.05 como nivel de significancia, pruebe si hay una diferencia significativa en el
precio medio de estos 15 artculos entre las tres tiendas.
42. El U.S. Department of Housing and Urban Development publica datos que reflejan el merca-
do de rentas mensuales en las reas metropolitanas. Los datos siguientes representan los pre-
cios de alquiler ($) mensuales aceptables en cinco zonas metropolitanas para departamentos de
1, 2 y 3 recmaras (The New York Times Almanac, 2006).
Utilice 0.05 como nivel de significancia y pruebe si las medias de los precios de alquiler mensua-
les aceptables son iguales en estas cinco zonas metropolitanas.
43. Para identificar si hay alguna diferencia significativa en la rapidez de dos sistemas de soft-
ware para traducir el ingls a otros idiomas, se dise un experimento factorial. Como el idio-
ma al que se traduzca es tambin un factor importante, los dos sistemas se prueban traduciendo
tres: espaol, francs y alemn. Utilice los datos siguientes del tiempo en horas necesario para
efectuar esta tarea.
Idioma
Espaol Francs Alemn
8 10 12
Sistema 1
12 14 16
6 14 16
Sistema 2
10 16 22
Realice una prueba para determinar si hay alguna diferencia significativa debido al idioma al
que se traduce y si hay algn efecto de interaccin. Use ! 0.05.
44. En una fbrica se disea un experimento factorial para determinar si hay diferencia entre el
nmero de partes defectuosas producidas por dos mquinas y si el nmero de defectos depende
tambin de si a estas mquinas se les suministra la materia prima manualmente o mediante un
552 Captulo 13 Diseo de experimentos y anlisis de varianza
sistema de alimentacin automtico. A continuacin se presentan los datos del nmero de par-
tes defectuosas producidas. Use ! 0.05 para probar si hay algn efecto significativo debido
a la mquina, al sistema de suministro de la materia prima y a la interaccin.
Informe gerencial
1. Use estadstica descriptiva para resumir los datos de los dos estudios. Cules son sus
observaciones preliminares acerca de los valores de depresin?
2. Utilice el anlisis de varianza para ambos conjuntos de datos. En cada caso proporcione
las hiptesis a probar. Cules son sus conclusiones?
3. Si es necesario use inferencias acerca de las medias de cada uno de los tratamientos.
Cules son sus conclusiones?
Informe gerencial
1. Use la estadstica descriptiva para resumir los datos.
2. Desarrolle una estimacin con un intervalo de 95% de confianza del sueldo medio anual
de todos los vendedores, sin importar los aos de experiencia y el tipo de vendedor.
3. Calcule una estimacin con un intervalo de 95% de confianza del sueldo medio anual
de los vendedores internos.
4. Desarrolle una estimacin con un intervalo de 95% de confianza del sueldo medio anual
de los vendedores externos.
5. Utilice el anlisis de varianza para determinar si hay diferencias significativas debido
a la posicin. Use 0.05 como nivel de significancia y, por ahora, ignore el efecto de los
aos de experiencia.
554 Captulo 13 Diseo de experimentos y anlisis de varianza
Experimento factorial
En la seccin 13.5 se estudi el uso del anlisis de varianza para probar la igualdad de k medias
WEB archivo poblacionales con los datos de un experimento factorial. Para ilustrar el uso de Minitab en este
GMATStudy tipo de diseo de experimentos, se muestra cmo analizar los datos del experimento de dos fac-
tores del GMAT presentado en esta seccin. Las puntuaciones obtenidas en el GMAT e incluidas
Apndice 13.2 Anlisis de varianza con Excel 555
en la tabla 13.11 se han ingresado en la columna 1 de una hoja de trabajo de Minitab; la colum-
na 1 se ha etiquetado como Score, la 2 como Program y la 3 como College. Con los siguientes
pasos se obtiene la pantalla de Minitab que corresponde a la tabla de ANOVA presentada en la
fi-gura 13.6.
A B C D E F G H
1 Method A Method B Method C
2 58 58 48
3 64 69 57
4 55 71 59
5 66 64 47
6 67 68 49
7
8 Anova: Single Factor
9
10 SUMMARY
11 Groups Count Sum Average Variance
12 Method A 5 310 62 27.5
13 Method B 5 330 66 26.5
14 Method C 5 260 52 31
15
16
17 ANOVA
18 Source of Variation SS df MS F P-value F crit
19 Between Groups 520 2 260 9.1765 0.0038 3.8853
20 Within Groups 340 12 28.3333
21
22 Total 860 14
23
24
Experimento factorial
En la seccin 13.5 se estudi el uso del anlisis de varianza para probar la igualdad de k me-
dias poblacionales con los datos de un experimento factorial. Para ilustrar el uso de Excel en
este tipo de diseo de experimentos, se muestra cmo analizar los datos del experimento de
dos factores para el GMAT presentado en esa seccin. Las puntuaciones obtenidas en el GMAT,
que se presentan en la tabla 13.10, se han ingresado en las filas 2 a 7 de las columnas B, C y D
WEB archivo de la hoja de clculo como se observa en la figura 13.9. Con los pasos siguientes se obtienen los
GMATStudy resultados que se observan en las celdas A9:G44; la parte del ANOVA corresponde a la pantalla
de Minitab de la figura 13.6.
FIGURA 13.8 Solucin de Excel para la prueba de estrs de los controladores de trfico areo
A B C D E F G H
1 Controller System A System B System C
2 1 15 15 18
3 2 14 14 14
4 3 10 11 15
5 4 13 12 17
6 5 16 13 16
7 6 13 13 13
8
9 Anova: Two-Factor Without Replication
10
11 SUMMARY Count Sum Average Variance
12 1 3 48 16 3
13 2 3 42 14 0
14 3 3 36 12 7
15 4 3 42 14 7
16 5 3 45 15 3
17 6 3 39 13 0
18
19 System A 6 81 13.5 4.3
20 System B 6 78 13 2
21 System C 6 93 15.5 3.5
22
23
24 ANOVA
25 Source of Variation SS df MS F P-value F crit
26 Rows 30 5 6 3.16 0.0574 3.33
27 Columns 21 2 10.5 5.53 0.0242 4.10
28 Error 19 10 1.9
29
30 Total 70 17
31
FIGURA 13.9 Solucin de Excel para el experimento de dos factores del GMAT
A B C D E F G H
1 Business Engineering Arts and Sciences
2 3-hour review 500 540 480
3 580 460 400
4 1-day program 460 560 420
5 540 620 480
6 10-week course 560 600 480
7 600 580 410
8
9 Anova: Two-Factor With Replication
10
11 SUMMARY Business Engineering Arts and Sciences Total
12 3-hour review
13 Count 2 2 2 6
14 Sum 1 080 1 000 880 2 960
15 Average 540 500 440 493.33333
16 Variance 3 200 3 200 3 200 3 946.6667
17
18 1-day program
19 Count 2 2 2 6
20 Sum 1 000 1 180 900 3 080
21 Average 500 590 450 513.33333
22 Variance 3 200 1 800 1 800 5 386.6667
23
24 10-week course
25 Count 2 2 2 6
26 Sum 1 160 1 180 890 3 230
27 Average 580 590 445 538.33333
28 Variance 800 200 2 450 5 936.6667
29
30 Total
31 Count 6 6 6
32 Sum 3 240 3 360 2 670
33 Average 540 560 445
34 Variance 2 720 3 200 1 510
35
36
37 ANOVA
38 Source of Variation SS df MS F P-value F crit
39 Sample 6 100 2 3 050 1.38 0.2994 4.26
40 Columns 45 300 2 22 650 10.27 0.0048 4.26
41 Interaction 11 200 4 2 800 1.27 0.3503 3.63
42 Within 19 850 9 2205.5556
43
44 Total 82 450 17
45
Observe que en el paso 4 se seleccion la opcin Unstacked despus de hacer clic en el botn
Format. Esta opcin significa que los datos de los tres tratamientos aparecen en columnas se-
paradas de la hoja de clculo. Slo se podran utilizar dos columnas en el formato apilado. Por
ejemplo, los datos se organizaran de la siguiente forma.
A B C
1 Method A Units Produced
2 Method A 58
3 Method A 64
4 Method A 55
5 Method A 66
6 Method A 67
7 Method B 58
8 Method B 69
9 Method B 71
10 Method B 64
11 Method B 68
12 Method C 48
13 Method C 57
14 Method C 59
15 Method C 47
16 Method C 49
17
Con frecuencia los datos son registrados en un formato apilado. Para apilar los datos, simple-
mente seleccione la opcin Stacked despus de hacer clic en el botn Format.
CAPTULO 14
Regresin lineal simple
CONTENIDO Estimacin por intervalo
ESTADSTICA EN LA PRCTICA: Intervalo de confianza para
ALLIANCE DATA SYSTEMS el valor medio de y
Intervalo de prediccin para
14.1 MODELO DE REGRESIN un solo valor de y
LINEAL SIMPLE
Modelo de regresin y ecuacin 14.7 SOLUCIN POR
de regresin COMPUTADORA
Ecuacin de regresin estimada 14.8 ANLISIS DE RESIDUALES:
14.2 MTODO DE MNIMOS CONFIRMACIN DE LOS
CUADRADOS SUPUESTOS DEL MODELO
Grfica de residuales contra x
14.3 COEFICIENTE DE Grfica de residuales contra y
DETERMINACIN Residuales estandarizados
Coeficiente de correlacin Grfica de probabilidad normal
14.4 SUPUESTOS DEL MODELO 14.9 ANLISIS DE RESIDUALES:
14.5 PRUEBA DE SIGNIFICANCIA OBSERVACIONES ATPICAS
Estimacin de 2 Y OBSERVACIONES
Prueba t INFLUYENTES
Intervalo de confianza para 1 Deteccin de observaciones
Prueba F atpicas
Algunas advertencias acerca de Deteccin de observaciones
la interpretacin de las pruebas influyentes
de significancia
14.6 USO DE LA ECUACIN DE
REGRESIN ESTIMADA
PARA ESTIMACIN
Y PREDICCIN
Estimacin puntual
Estadstica en la prctica 561
ESTADSTICA en LA PRCTICA
ALLIANCE DATA SYSTEMS*
DALLAS, TEXAS
Alliance Data Systems (ADS) ofrece procesamiento de
transacciones y servicios de crdito y marketing en la cre-
ciente industria de la administracin de relaciones con el
cliente (CRM, por sus siglas en ingls). Los clientes de ADS
estn concentrados en cuatro industrias: ventas al detalle,
derivados del petrleo/tiendas de conveniencia, servicios
y transporte. En 1983, Alliance empez ofreciendo servi-
cios integrales de tramitacin de crdito para los sectores
minorista, de derivados del petrleo y de restaurantes de
categora media; actualmente emplea a ms de 6 500 perso-
nas que proporcionan servicios a clientes en todo el mundo.
Slo en Estados Unidos, ADS opera ms de 140 000 termi-
nales de punto de venta y procesa ms de 2 500 millones de
transacciones al ao. En este pas es la segunda empresa en
servicios de crdito de marca propia, pues maneja 49 pro-
Los expertos de Alliance Data Systems analizan el uso de un
gramas con casi 72 millones de tarjetahabientes. En 2001
modelo de regresin para predecir las ventas de una campaa
hizo una oferta pblica inicial y ahora cotiza en la bolsa de
de marketing directo. Cortesa de Alliance Data Systems.
Nueva York.
Como parte de sus servicios de marketing, ADS disea
campaas y promociones directas por correo. La empresa fue la cantidad total de adquisiciones a crdito realizadas
posee una base de datos con informacin sobre los hbitos en tiendas semejantes en los ltimos 39 meses. Los analis-
de consumo de ms de 100 millones de consumidores, lo tas de ADS obtuvieron una ecuacin de regresin estimada
que le permite dirigir sus acciones a quienes tienen la ma- en la que se relacionaba el monto de compra con la cantidad
yor probabilidad de beneficiarse de la publicidad por co- gastada en tiendas semejantes:
rreo directo. El grupo de desarrollo analtico de ADS emplea
el anlisis de regresin para construir modelos que miden y ! 26.7 " 0.00205x
y predicen la receptividad del consumidor a las campaas
de marketing directo. Algunos modelos de regresin predi- donde
cen la probabilidad de compra de las personas que reciben
la publicidad y otros pronostican la cantidad que gastarn y ! monto de la compra
cuando realicen una compra. x ! monto gastado en tiendas similares
En una determinada campaa, una cadena de tiendas
minoristas deseaba atraer a nuevos clientes. Para predecir Con esta ecuacin pudieron predecir que una persona que
el efecto de la campaa, los analistas de ADS tomaron de hubiera gastado $10 000 en tiendas semejantes en los l-
la base de datos una muestra de consumidores, les envia- timos 39 meses, gastara $47.20 como respuesta a la pu-
ron material promocional y despus recabaron datos sobre blicidad por correo directo. En este captulo se ver cmo
su respuesta. Los datos se referan al monto de la compra obtener estas ecuaciones de regresin estimada.
realizada por los sujetos que respondieron a la campaa, El modelo final que obtuvieron los analistas de ADS
as como a diversas variables especficas del consumidor tambin inclua otras variables que incrementaban el po-
que se consideraron tiles para predecir las ventas. La va- der predictivo de la ecuacin anterior, entre ellas la exis-
riable que ms contribuy a predecir el monto de compra tencia o no de una tarjeta de crdito bancaria, el ingreso
estimado y la cantidad promedio gastada en cada visita a la
* Los autores agradecen a Philip Clemance, director de Desarrollo Ana-
tienda seleccionada. En el captulo siguiente se ver cmo
ltico de Alliance Data Systems por haber proporcionado este material incorporar estas variables adicionales a un modelo de re-
para Estadstica en la prctica. gresin mltiple.
562 Captulo 14 Regresin lineal simple
Con frecuencia las decisiones gerenciales se basan en la relacin entre dos o ms variables. Por
ejemplo, al analizar la relacin entre el gasto en publicidad y las ventas, un gerente de marketing
puede tratar de predecir las ventas correspondientes a un determinado gasto en publicidad. En
otro caso, una empresa de servicios pblicos establece la relacin entre la temperatura diaria y
la demanda de electricidad para predecir la necesidad de fluido elctrico considerando las tem-
peraturas diarias que se esperan para el mes siguiente. Algunas veces los directivos se apoyan
en la intuicin para juzgar la relacin entre dos variables. Sin embargo, cuando los datos es-
tn disponibles, puede emplearse un procedimiento estadstico llamado anlisis de regresin
para obtener una ecuacin que indique cul es la relacin entre las variables.
Sir Francis Galton En la terminologa que se emplea en la regresin, la variable a predecir se llama variable
(1822-1911) fue el primero dependiente, y a la variable o variables que se usan para predecir su valor se les llama varia-
en emplear los mtodos
bles independientes. Por ejemplo, al analizar el efecto de los gastos en publicidad sobre las
estadsticos para estudiar la
relacin entre dos variables. ventas, como lo que busca el gerente de marketing es predecir estas ltimas, las ventas sern la
Galton estaba interesado variable dependiente.
en estudiar la relacin entre En este captulo se estudia el tipo ms sencillo de anlisis de regresin en el que interviene
las estaturas de padre e hijo. una variable independiente y una variable dependiente donde la relacin entre estas variables se
Karl Pearson (1857-1936),
aproxima mediante una lnea recta. A este tipo de anlisis se le conoce como regresin lineal
discpulo de Galton, analiz
esta relacin de estatura simple. Al anlisis en el que intervienen dos o ms variables independientes se le llama anlisis
de padre e hijo en 1 078 de regresin mltiple; ste y los casos en los que la relacin es curvilnea se estudian en los
parejas de individuos. captulos 15 y 16.
0 y 1 se conocen como parmetros del modelo, y * (la letra griega psilon) es una varia-
ble aleatoria denominada trmino del error. Este ltimo da cuenta de la variabilidad de y, que
no puede ser explicada por la relacin lineal entre x y y.
14.1 Modelo de regresin lineal simple 563
x x x
564 Captulo 14 Regresin lineal simple
Ecuacin de regresin
b0 y b1 estimada
proporcionan estimaciones y ! b0 " b1x
de 0 y 1 Estadsticos muestrales
b0, b1
14.2 Mtodo de mnimos cuadrados 565
NOTAS Y COMENTARIOS
Student Quarterly
Restaurant Population (1 000s) Sales ($1 000s)
i xi yi
1 2 58
WEB archivo 2 6 105
3 8 88
Armands
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
566 Captulo 14 Regresin lineal simple
220
200
160
140
120
100
80
60
40
20
x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
lacin lineal positiva entre x y y. As, para representar la relacin entre las ventas trimestrales
y la poblacin de estudiantes, se elige el modelo de regresin lineal simple. Decidido esto, la
tarea siguiente es usar los datos muestrales de la tabla 14.1 para determinar los valores de b0 y
b1 en la ecuacin de regresin lineal simple estimada. Para el restaurante isimo, la ecuacin de
regresin simple estimada es
donde
Como yi denota ventas observadas (reales) para el restaurante i, y yi representa el valor estimado
de las ventas en la ecuacin (14.4), para cada uno de los restaurantes de la muestra habr un
valor de ventas observadas yi y un valor de ventas estimadas yi. Para que la recta de regresin
estimada proporcione un buen ajuste a los datos, las diferencias entre los valores observados
y estimados deben ser pequeas.
En el mtodo de mnimos cuadrados se usan los datos muestrales para obtener los valores
de b0 y b1 que minimicen la suma de los cuadrados de las desviaciones (diferencias) entre los
valores observados de la variable dependiente yi y los valores estimados de la variable depen-
diente yi. El criterio que se emplea en el mtodo de mnimos cuadrados se basa en la expresin
(14.5).
14.2 Mtodo de mnimos cuadrados 567
Se pueden usar clculos diferenciales para demostrar (vea el apndice 14.1) que los valores
de b0 y b1 que minimiza la expresin (14.5) se pueden encontrar usando las ecuaciones (14.6)
y (14.7).
!(xi # x)( yi # y)
Al determinar b1 con ayuda b1 ! (14.6)
de una calculadora, en !(xi # x)2
los clculos intermedios
deben llevarse tantas cifras b0 ! y # b1x (14.7)
significativas como sea
posible. Se recomiendan donde:
por lo menos cuatro dgitos
significativos. xi ! valor de la variable independiente en la observacin isima
yi ! valor de la variable dependiente en la observacin isima
x ! media de la variable independiente
y ! media de la variable dependiente
n ! nmero total de observaciones
!xi 140
x! ! ! 14
n 10
!yi 1 300
y! ! ! 130
n 10
Utilizando las ecuaciones (14.6) y (14.7) y la informacin de la tabla 14.2, se calcula la pen-
diente y la interseccin de la ecuacin de regresin estimada para Armands Pizza Parlors. La
pendiente (b1) se calcula como se muestra enseguida.
1
Otra frmula para calcular b1 es
!xi yi # (!xi !yi )$n
b1 !
!x 2i # (!xi )2$n
Esta forma de la ecuacin (14.6) suele recomendarse cuando se emplea una calculadora para determinar b1.
568 Captulo 14 Regresin lineal simple
TABLA 14.2 Clculos de la ecuacin de regresin estimada por mnimos cuadrados para
Armands Pizza Parlors
!(xi # x)( yi # y)
b1 !
!(xi # x)2
2 840
!
568
!5
b 0 ! y # b1 x
! 130 # 5(14)
! 60
y ! 60 " 5x
De manera que las ventas trimestrales pronosticadas para este restaurante seran de $140 000.
En las secciones siguientes se vern los mtodos para evaluar el uso correcto de la ecuacin de
regresin para hacer estimaciones y predicciones.
14.2 Mtodo de mnimos cuadrados 569
FIGURA 14.4 Grfica de la ecuacin de regresin estimada para Armands Pizza Parlors:
y ! 60 " 5x
220
180
160
5x
140 60
"
y !
120
Pendiente b1 ! 5
100
80
60
Interseccin
con el eje y 40
b0 ! 60
20
x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
NOTAS Y COMENTARIOS
El mtodo de mnimos cuadrados proporciona una de mnimos cuadrados permite elegir la ecuacin de
ecuacin de regresin estimada que minimiza la suma mejor ajuste. Si se empleara otro criterio, como mini-
de los cuadrados de las desviaciones entre los valores mizar la suma de las desviaciones absolutas entre yi y
observados de la variable dependiente yi y los valo- yi , se obtendra una ecuacin diferente. En la prctica
res estimados de la variable dependiente yi . El criterio el mtodo de mnimos cuadrados es el ms utilizado.
Ejercicios
Mtodos
1. Dadas las siguientes cinco observaciones de las variables x y y.
AUTO evaluacin
xi 1 2 3 4 5
yi 3 7 5 11 14
c) Trate de aproximar la relacin entre x y y trazando una lnea recta que pase a travs de
los puntos de los datos.
d) Utilice las ecuaciones (14.6) y (14.7) para calcular b0 y b1, y desarrolle la ecuacin de re-
gresin estimada.
e) Use la ecuacin de regresin estimada para predecir el valor de y cuando x ! 4.
2. Dadas las siguientes cinco observaciones de las variables x y y.
xi 3 12 6 20 14
yi 55 40 55 10 15
xi 2 6 9 13 20
yi 7 18 9 26 23
Aplicaciones
4. Los datos siguientes son estaturas (en pulgadas) y pesos (en libras) de nadadoras.
AUTO evaluacin
Estatura 68 64 62 65 66
Peso 132 108 102 115 128
a) Trace el diagrama de dispersin de estos datos usando la estatura como variable indepen-
diente.
b) Qu indica el diagrama de dispersin del inciso a) respecto de la relacin entre las dos
variables?
c) Trate de aproximar la relacin entre estatura y peso trazando una lnea recta a travs de
los puntos de los datos.
d) Desarrolle la ecuacin de regresin estimada calculando los valores de b0 y b1
e) Si la estatura de una nadadora es de 63 pulgadas, cul ser su peso estimado?
5. Las ejercitadoras elpticas se estn convirtiendo en una de las mquinas de ejercicio ms po-
pulares. Su movimiento de bajo impacto es suave y estable, lo que las vuelve la eleccin pre-
ferida por las personas con problemas en rodillas y tobillos. Sin embargo, elegir la ejercitadora
adecuada puede resultar un proceso difcil. El precio y la calidad son factores importantes en
cualquier decisin de compra. Estn asociados los precios altos con las ejercitadoras elpticas
de alta calidad? Consumer Reports realiz amplias pruebas para desarrollar una clasificacin
general basada en facilidad de uso, ergonoma, construccin y rango de ejercicio. A continua-
14.2 Mtodo de mnimos cuadrados 571
cin se muestran los datos de precio (Price) y calificacin (Rating) de ocho ejercitadoras elpti-
cas probadas, de las cuales se detallan marca y modelo (Brand and Model) (Consumer Reports,
febrero de 2008).
a) Trace un diagrama de dispersin con estos datos empleando el precio como variable in-
dependiente.
b) Una tienda de equipo para ejercitarse que vende principalmente equipo caro puso un le-
trero sobre el rea de exhibicin que dice: Calidad: usted obtiene lo que paga. Con base
en su anlisis de los datos, considera usted que el letrero refleja de manera justa la rela-
cin precio-calidad de las ejercitadoras elpticas?
c) Utilice el mtodo de mnimos cuadrados para obtener la ecuacin de regresin estimada.
d) Utilice la ecuacin de regresin estimada para predecir la clasificacin de una ejercitadora
elptica con un precio de $1500.
6. El costo de un automvil seminuevo depende de factores como marca y modelo, ao, millas
recorridas, condiciones y si se compra en una agencia o a un vendedor particular. Para investi-
gar la relacin entre millas (Miles) recorridas y precio (Price) de venta, se obtuvieron los datos
de 10 operaciones de compra-venta entre particulares de un Honda Accord modelo 2000 (sitio
web de PriceHub, octubre de 2008).
Miles Price
(1 000s) ($1 000s)
90 7.0
59 7.5
WEB archivo 66 6.6
87 7.2
HondaAccord 90 7.0
106 5.4
94 6.4
57 7.0
138 5.1
87 7.2
7. Un gerente de ventas obtuvo los siguientes datos sobre ventas anuales (Annual Sales) y aos de
experiencia (Years of Experience) de 10 vendedores (Salesperson).
a) Trace un diagrama de dispersin con estos datos tomando como variable independiente los
aos de experiencia.
b) Obtenga una ecuacin de regresin estimada que pueda utilizarse para predecir las ventas
anuales proporcionando los aos de experiencia.
c) Utilice la ecuacin de regresin estimada para predecir las ventas anuales de un vendedor
con 9 aos de experiencia.
8. Bergans of Norway fabrica equipo para deportes a la intemperie desde 1908. Los siguientes
datos muestran el rango de temperatura (Temperature Rating) en F y el precio (Price) en d-
lares de 11 modelos (Model) de sleeping bags fabricados por Bergans (Backpacker 2006 Gear
Guide).
Temperature
Model Rating (F) Price ($)
Ranger 3-Seasons 12 319
Ranger Spring 24 289
WEB archivo Ranger Winter 3 389
Rondane 3-Seasons 13 239
SleepingBags Rondane Summer 38 149
Rondane Winter 4 289
Senja Ice 5 359
Senja Snow 15 259
Senja Zero 25 229
Super Light 45 129
Tight & Light 25 199
a) Trace un diagrama de dispersin con estos datos, en el que la variable independiente sea el
rango de temperatura (F).
b) Qu indica el diagrama de dispersin del inciso a) respecto de la relacin entre el rango
de temperatura (F) y precio?
c) Use el mtodo de mnimos cuadrados para desarrollar la ecuacin de regresin estimada.
d) Prediga cul ser el precio de un sleeping bag si el rango de temperatura (F) es 20.
9. Con frecuencia, los viajeros de las aerolneas empacan tanto como pueden en su maleta para
evitar las tarifas por sobreequipaje. Encontrar una maleta rodante durable, con gran capacidad
y fcil de mover puede ser difcil. La tabla siguiente muestra los resultados de pruebas realiza-
das por Consumer Reports en 10 maletas rodantes; las puntuaciones (Score) ms altas indican
mejores resultados en las pruebas en general (sitio web Consumer Reports, octubre de 2008).
La tabla incluye marca (Brand) y precio (Price) de las maletas.
14.2 Mtodo de mnimos cuadrados 573
Salary
Executive Title Company Age ($1 000s)
Charles Prince Chmn/CEO Citigroup 56 1 000
Harold McGraw III Chmn/Pres/CEO McGraw-Hill Cos. 57 1 172
James Dimon Pres/CEO JP Morgan Chase & Co. 50 1 000
K. Rupert Murdoch Chmn/CEO News Corp. 75 4 509
Kenneth D. Lewis Chmn/Pres/CEO Bank of America 58 1 500
WEB archivo Kenneth I. Chenault Chmn/CEO American Express Co. 54 1 092
Louis C. Camilleri Chmn/CEO Altria Group 51 1 663
ExecSalary Mark V. Hurd Chmn/Pres/CEO Hewlett-Packard Co. 49 817
Martin S. Sorrell CEO WPP Group 61 1 562
Robert L. Nardelli Chmn/Pres/CEO Home Depot 57 2 164
Samuel J. Palmisano Chmn/Pres/CEO IBM Corp. 55 1 680
David C. Novak Chmn/Pres/CEO Yum Brands 53 1 173
Henry R. Silverman Chmn/CEO Cendant Corp. 65 3 300
Robert C. Wright Chmn/CEO NBC Universal 62 2 500
Sumner Redstone Exec Chmn/Founder Viacom 82 5 807
a) Trace un diagrama de dispersin con estos datos utilizando la edad del ejecutivo como la
variable independiente.
b) Qu indica el diagrama de dispersin del inciso a) acerca de la relacin entre las dos
variables?
c) Use el mtodo de mnimos cuadrados para obtener la ecuacin de regresin estimada.
d) Suponga que Bill Gustin, de 72 aos, es el presidente y CEO de una de las principales em-
presas de electrnica. Prediga su sueldo anual.
574 Captulo 14 Regresin lineal simple
11. Los automviles deportivos estn diseados para proporcionar mejor conduccin, mayor ace-
leracin y experiencia de manejo ms agradable que un sedn tpico. Sin embargo, incluso
dentro de este exclusivo grupo de vehculos, tanto el desempeo como el precio pueden variar.
Consumer Reports proporciona informacin de puntuaciones en pruebas de manejo (Road-Test
Score) y precios (Price) de los siguientes 12 automviles (Car) deportivos (sitio web de Con-
sumer Reports, octubre de 2008). Los precios estn en miles de dlares y las puntuaciones en
pruebas de manejo se basan en una escala de 0 a 100, donde los valores ms altos indican un
mejor desempeo.
e) La Honda Aqua Trax F-12 pesa 750 libras y su precio es de $9 500. El precio pronosticado
en el inciso d) para una moto acutica con peso de 750 libras no debera ser tambin de
$9 500?
f) La Kawasaki SX-R 800 Jetski tiene capacidad slo para una persona y pesa 350 libras. Cree
usted que la ecuacin de regresin estimada obtenida en el inciso c) deba emplearse para
pronosticar su precio?
13. Para el Internal Revenue Service (Servicio de Administracin Tributaria de Estados Unidos),
el carcter razonable de las deducciones declaradas por un contribuyente depende de su ingre-
so bruto ajustado. Deducciones grandes que comprenden donaciones de caridad o por atencin
mdica son ms apropiadas para contribuyentes que tengan un ingreso bruto ajustado gran-
de. Si las deducciones de una persona son mayores que las deducciones declaradas promedio
correspondientes a un determinado nivel de ingresos, aumentan las posibilidades de que se le
realice una auditora. Los datos (en miles de dlares) sobre ingreso bruto ajustado y el monto
promedio o razonable de deducciones declaradas se listan a continuacin.
a) Trace un diagrama de dispersin con estos datos empleando como variable independiente
el ingreso bruto ajustado.
b) Use el mtodo de mnimos cuadrados para desarrollar la ecuacin de regresin estimada.
c) Calcule el monto razonable de deducciones declaradas de un contribuyente cuyo ingreso
bruto ajustado es de $52 500. Si ste tiene deducciones declaradas por $20 400, estar
justificada una auditoria? Explique.
14. PCWorld valor cuatro componentes de 10 computadoras laptop ultraporttiles: caractersti-
cas, desempeo, diseo y precio. Cada elemento fue valorado utilizando una escala de pun-
tos de 0 a 100. Luego se desarroll un ndice general, llamado PCW World Rating, para cada
laptop. La siguiente tabla muestra el ndice de caractersticas (Features Rating) y el ndice
PCW World para 10 modelos (Model) de computadoras (sitio web de PC World, 5 de febrero
de 2009).
SCE ! !( yi # yi )2 (14.8)
El valor de la SCE es una medida del error al utilizar la ecuacin de regresin estimada para
calcular los valores de la variable dependiente de la muestra.
En la tabla 14.3 se indican los procedimientos que se requieren para calcular la suma de
cuadrados debido al error en el caso de Armands Pizza Parlors. Por ejemplo, los valores de las
variables independiente y dependiente del restaurante 1 son x1 ! 2 y y1 ! 58. El valor estima-
do para sus ventas trimestrales obtenido con la ecuacin de regresin estimada es y1 ! 60 "
5(2) ! 70. Por consiguiente, para el restaurante 1 el error al usar y1 para estimar y1 es y1 #
y1 ! 58 # 70 ! #12. El error al cuadrado, (#12)2 ! 144, aparece en la ltima columna de
la tabla 14.3. Despus de calcular y elevar al cuadrado los residuales de cada uno de los res-
taurantes de la muestra, se suman y obtenemos que SCE ! 1 530. Por tanto, esta suma mide
el error que existe al utilizar la ecuacin de regresin estimada y ! 60 " 5x para predecir las
ventas.
Ahora suponga que se pide una estimacin de las ventas trimestrales sin conocer el tamao
de la poblacin de estudiantes. Sin tener conocimiento de ninguna otra variable relacionada, se
empleara la media muestral como una estimacin de las ventas trimestrales de cualquiera de
TABLA 14.4 Clculo de la suma total de cuadrados en el ejemplo Armands Pizza Parlors
los restaurantes. En la tabla 14.2 se mostr que con base en los datos de las ventas, !yi ! 1300.
As, el valor medio de las ventas trimestrales en la muestra de los 10 restaurantes Armands
es y ! !yi /n ! 1300/10 ! 130. En la tabla 14.4 se presenta la suma de las desviaciones al
cuadrado que se obtiene cuando se usa la media muestral y ! 130 para estimar el valor de las
ventas trimestrales de cada uno de los restaurantes. Para el restaurante isimo de la muestra, la
diferencia yi # y proporciona una medida del error que implica usar y para estimar las ventas.
La correspondiente suma de cuadrados, llamada suma total de cuadrados, se denota STC.
STC ! !( yi # y )2 (14.9)
SCR ! !( yi # y )2 (14.10)
578 Captulo 14 Regresin lineal simple
220
200 y10 # y 10
180
Ventas trimestrales (miles de $)
y10 # y
160 5x y 10 # y
60
"
140 y !
120 y ! y ! 130
100
80
60
40
20
x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
Por lo antes dicho, se esperara que hubiera alguna relacin entre STC, SCR y SCE. En efecto,
la relacin entre estas tres sumas de cuadrados constituye uno de los resultados ms importantes
de la estadstica.
La ecuacin (14.11) indica que la suma total de cuadrados puede ser dividida en dos com-
ponentes: la suma de cuadrados debido a la regresin y la suma de cuadrados debido al error.
Por consiguiente, si se conocen los valores de dos de estas sumas, es fcil calcular la tercera
suma de cuadrados. Por ejemplo, en el caso de Armands Pizza Parlors se conocen SCE ! 1 530
y STC ! 15 730; por tanto, al despejar SCR en la ecuacin (14.11), se encuentra que la suma de
cuadrados debido a la regresin es
Ahora se ver como se usan estas tres sumas de cuadrados, STC, SCR y SCE, para obtener
una medida de la bondad de ajuste de la ecuacin de regresin estimada. Esta ecuacin se
ajustara perfectamente a los datos si cada uno de los valores de la variable dependiente yi se en-
contrara sobre la recta de regresin. En este caso, para todas las observaciones se tendra que
yi ! yi sera igual a 0, con lo que SCE " 0. Como STC " SCR # SCE, vemos que para que haya
un ajuste perfecto, SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a 1. Cuando
los ajustes son malos, se tendrn valores altos para SCE. Si en la ecuacin (14.11) despejamos
sta, tenemos que SCE " STC ! SCR. Por consiguiente, el valor ms grande de SCE (y por tanto
el ajuste ms pobre) se presenta cuando SCR " 0 y SCE " STC.
El cociente SCR/STC, que puede tomar valores entre 0 y 1, se usa para evaluar la bondad de
ajuste de la ecuacin de regresin estimada. A este cociente se le llama coeficiente de determi-
nacin y se denota como r 2.
COEFICIENTE DE DETERMINACIN
SCR
r2 " (14.12)
STC
SCR 14 200
r2 " " " 0.9027
STC 15 730
Coeficiente de correlacin
En el captulo 3 se present el coeficiente de correlacin como una medida descriptiva de la
intensidad de la relacin lineal entre dos variables x y y. Los valores del coeficiente de corre-
lacin siempre estarn entre !1 y #1. Un valor de #1 indica que las dos variables x y y estn
perfectamente relacionadas en un sentido lineal positivo. Es decir, todos los puntos de los datos
se encuentran en una lnea recta que tiene pendiente positiva. Un valor de !1 indica que x y
y estn perfectamente relacionadas en un sentido lineal negativo con todos los puntos de los
datos en una recta con pendiente negativa. Los valores del coeficiente de correlacin cercanos a
0 indican que x y y no estn relacionadas linealmente.
En la seccin 3.5 se present la ecuacin para calcular el coeficiente de correlacin mues-
tral. Cuando se ha realizado un anlisis de regresin y calculado el coeficiente de determina-
cin r 2, el coeficiente de correlacin muestral se puede obtener como se indica a continuacin.
donde:
b1 " pendiente de la ecuacin de regresin estimada y " b0 # b1x
NOTAS Y COMENTARIOS
Ejercicios
Mtodos
15. Los siguientes datos provienen del ejercicio 1.
AUTO evaluacin
xi 1 2 3 4 5
yi 3 7 5 11 14
16. Los datos que se presentan a continuacin son retomados del ejercicio 2.
xi 3 12 6 20 14
yi 55 40 55 10 15
xi 2 6 9 13 20
yi 7 18 9 26 23
La ecuacin de regresin estimada para estos datos es y " 7.6 # 0.9x. Qu porcentaje de la
suma total de cuadrados puede explicarse mediante esta ecuacin? Cul es el valor del coe-
ficiente de correlacin muestral?
Aplicaciones
18. En los datos siguientes, y corresponde a los sueldos mensuales y x es el promedio obtenido
AUTO evaluacin por los estudiantes que terminaron su grado en administracin con especialidad en sistemas de
informacin. La ecuacin de regresin estimada con estos datos es y " 1 790.5 # 581.1x.
Annual
Years of Sales
Salesperson Experience ($1 000s)
1 1 80
2 3 97
WEB archivo 3 4 92
4 4 102
Sales 5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
582 Captulo 14 Regresin lineal simple
a) Utilice estos datos para desarrollar una ecuacin de regresin estimada que pueda em-
plearse para determinar la puntuacin general de un televisor de plasma de 42 pulgadas
dado el precio.
b) Calcule r 2. Proporcion un buen ajuste la ecuacin de regresin estimada?
c) Estime la puntuacin general de un televisor cuyo precio es de $3 200.
21. Una aplicacin importante del anlisis de regresin en la contadura es la estimacin de costos.
Partiendo de datos sobre volumen de produccin y costos, y empleando el mtodo de mnimos
cuadrados para desarrollar una ecuacin de regresin estimada que relacione ambos datos, un
contador puede calcular los costos correspondientes a un determinado volumen de produccin.
Considere la siguiente muestra de datos sobre volumen de produccin y costo total de una
operacin de manufactura.
a) Utilice estos datos para desarrollar la ecuacin de regresin estimada til a efecto de pro-
nosticar los costos totales dado un volumen de produccin determinado.
b) Cul es el costo variable por unidad producida?
c) Calcule el coeficiente de determinacin. Qu porcentaje de la variacin en los costos
totales puede ser explicada por el volumen de produccin?
d) Con base en el programa de produccin de la empresa, el mes prximo se debern producir
500 unidades. Cul es el costo total estimado para esta operacin?
22. Remtase al ejercicio 5 donde se utilizaron los siguientes datos para investigar si, por lo general,
los precios altos estn o no asociados con las altas calificaciones de las ejercitadoras elpticas
(Consumer Reports, febrero de 2008). La siguiente tabla presenta los datos de marca y modelo
(Brand and Model), precio (Price) y calificacin (Rating).
14.4 Supuestos del modelo 583
Con x " precio ($) y y " calificacin, la ecuacin de regresin estimada es y " 58.158 #
0.008449x. Para esos datos, SCE " 173.88.
a) Calcule el coeficiente de determinacin r 2.
b) La ecuacin de regresin estimada proporciona un buen ajuste? Explique su respuesta.
c) Cul es el valor del coeficiente de correlacin muestral? Cmo es la relacin que refleja
entre precio y calificacin: fuerte o dbil?
y " 0 # 1x # &
Despus, empleando el mtodo de mnimos cuadrados, se obtienen los valores de b0 y b1, que
son las estimaciones de los parmetros del modelo 0 y 1, respectivamente. As se llega a la
ecuacin de regresin estimada
y " b0 # b1x
y " 0 # 1x # &
1. El trmino del error & es una variable aleatoria cuya media, o valor esperado, es
cero; es decir, E(&) " 0.
Implicacin. 0 y 1 son constantes, por tanto, E( 0) " 0 y E( 1) " 1; as,
para un valor dado de x, el valor esperado de y es
E( y) " 0 # 1x (14.14)
(Contina)
584 Captulo 14 Regresin lineal simple
En la figura 14.6 se ilustran los supuestos del modelo y sus implicaciones; observe que en
esta interpretacin grfica el valor de E(y) cambia con base en el valor especfico de x que se
considere. Sin embargo, sea cual fuere el valor de x, la distribucin de probabilidad de & y, por
tanto, la distribucin de probabilidad de y, son distribuciones normales que tienen todas la mis-
ma varianza. El valor especfico del error & en cualquier punto depende de si el valor real de y
es mayor o menor que E(y).
En este punto hay que tener presente que tambin se hace un supuesto o se tiene una hip-
tesis acerca de la forma de la relacin entre x y y. Es decir, se supone que la base de la relacin
Distribucin de
Distribucin de y en x ! 30
y en x ! 20
y
Distribucin de
y en x ! 10
E(y) cuando
x ! 10
E(y) cuando
x!0
0
x!0
x ! 10
x ! 20 E( y) cuando E( y) ! 0 " 1x
x ! 30
x ! 30 E(y) cuando
x ! 20
entre las variables es una recta representada por 0 ! 1x. No se debe perder de vista el he-
cho de que puede haber algn otro modelo, por ejemplo y " 0 ! 1x 2 ! #, que resulte ser
mejor para la relacin subyacente.
Estimacin de 2
Con base en el modelo de regresin y sus supuestos, podemos concluir que 2, la varianza de
#, representa tambin la varianza de los valores de y respecto de la recta de regresin. Recuer-
de que a las desviaciones de los valores de y respecto de la recta de regresin estimada se les
conoce como residuales. Por tanto, SCE, la suma de los cuadrados de los residuales, es una me-
dida de la variabilidad de las observaciones reales respecto de la lnea de regresin estimada.
El error cuadrado medio (ECM) proporciona una estimacin de 2; esta estimacin es de SCE
dividida entre sus grados de libertad.
Como yi " b0 ! b1xi , SCE se puede expresar como
Cada suma de cuadrados est asociada con un nmero llamado grados de libertad. Los exper-
tos en estadstica han demostrado que la SCE tiene n $ 2 grados de libertad, porque para calcu-
larla es necesario estimar dos parmetros (0 y 1). El error cuadrado medio se calcula al dividir
SCE entre n $ 2. El ECM proporciona un estimador insesgado de 2. Como el valor del ECM
provee un estimado de 2, se emplea tambin la notacin s 2.
SCE
s 2 " ECM " (14.15)
n$2
En la seccin 14.3 se encontr que en el ejemplo de Armands Pizza Parlors, SCE " 1 530;
por tanto,
1 530
s 2 " ECM " " 191.25
8
proporciona un estimador insesgado de 2.
Para estimar se calcula la raz cuadrada de s 2. Al valor que se obtiene, s, se le conoce
como error estndar de estimacin.
SCE
s " "ECM " (14.16)
n$2
586 Captulo 14 Regresin lineal simple
En el ejemplo de Armands Pizza Parlors, s " "ECM " "191.25 " 13.829. El error estn-
dar de estimacin se emplea en el siguiente anlisis acerca de las pruebas de significancia de la
relacin entre x y y.
Prueba t
El modelo de regresin lineal simple es y " 0 ! 1x ! #. Si x y y estn relacionadas li-
nealmente, entonces 1 % 0. El objetivo de la prueba t es determinar si se puede concluir que
1 % 0. Para probar la hiptesis siguiente acerca del parmetro 1 se emplearn los siguientes
datos muestrales.
H0: 1 " 0
Ha: 1 % 0
Si H0 es rechazada, se concluir que 1 % 0 y que entre las dos variables existe una relacin
estadsticamente significativa. Si H0 no es rechazada, habr evidencia insuficiente para concluir
que esta relacin significativa existe. La base para esta prueba de hiptesis la proporcionan las
propiedades de la distribucin de muestreo de bl, el estimador de 1 obtenido mediante el m-
todo de mnimos cuadrados.
Primero, considere qu ocurrira si para el mismo estudio de regresin se usara una mues-
tra aleatoria diferente. Suponga, por ejemplo, que Armands Pizza Parlors usa los registros de
ventas de una muestra diferente de 10 restaurantes. El anlisis de regresin de esta otra muestra
dar como resultado una ecuacin de regresin parecida a la ecuacin de regresin anterior
y " 60 ! 5x. Sin embargo, no puede esperarse que se obtenga exactamente la misma ecuacin
(una ecuacin en la que exactamente la interseccin con el eje y sea 60 y la pendiente sea 5). Los
estimadores b0 y b1, obtenidos por el mtodo de mnimos cuadrados, son estadsticos muestrales
que tienen su propia distribucin de muestreo. A continuacin se presentan las propiedades de
la distribucin de muestreo de b1.
DISTRIBUCIN DE MUESTREO DE b1
Valor esperado
E(b1) " 1
Desviacin estndar
b1 " (14.17)
"!(xi $ x)2
Forma de distribucin: normal
En el ejemplo de Armands Pizza Parlors, s " 13.829. Por tanto, dado que !(xi $ x)2 "
568, como se aprecia en la tabla 14.2, tenemos
13.829
sb1 " " 0.5803
"568
que es la desviacin estndar estimada de b1.
La prueba t para determinar si la relacin es significativa se basa en el hecho de que el
estadstico de prueba
b1 $ 1
s b1
sigue una distribucin t con n $ 2 grados de libertad. Si la hiptesis nula es verdadera, entonces
1 " 0 y t " b1/sb1.
Ahora se realizar esta prueba de significancia con los datos de Armands Pizza Parlors em-
pleando como nivel de significancia " 0.01. El estadstico de prueba es
b1 5
t" " " 8.62
sb1 0.5803
En los apndices 14.3 y En las tablas de la distribucin t encontramos que para n $ 2 " 10 $ 2 " 8 grados de libertad,
14.4 se describe el uso de t " 3.355 proporciona un rea de 0.005 en la cola superior. Por tanto, el rea en la cola superior
Minitab y de Excel para
de la distribucin t correspondiente al estadstico de prueba t " 8.62 debe ser menor de 0.005.
calcular el valor-p.
Como sta es una prueba de dos colas, este valor se duplica y concluimos que el valor-p asocia-
do con t " 8.62 debe ser menor a 2(0.005) " 0.01. Empleando Excel o Minitab se encuentra
el valor-p " 0.000. Dado que el valor-p es menor que " 0.01, H0 es rechazada y concluimos
que 1 no es igual a cero. Esto es suficiente evidencia para asegurar que existe una relacin sig-
nificativa entre la poblacin de estudiantes y las ventas trimestrales. A continuacin se presenta
un resumen de la prueba t de significancia para la regresin lineal simple.
H0: 1 " 0
Ha: 1 % 0
ESTADSTICO DE PRUEBA t
b1
t" (14.19)
sb1
REGLA DE RECHAZO
b1 ( t/2 sb1
588 Captulo 14 Regresin lineal simple
El estimador puntual es b1 y el margen de error t/2 sb1. El coeficiente de confianza para este
intervalo es 1 $ , y t/2 es el valor t que proporciona un rea /2 en la cola superior de la
distribucin t con n $ 2 grados de libertad. Suponga, por ejemplo, que en el caso de Armands
Pizza Parlors se desea obtener una estimacin de 1 mediante un intervalo de 99% de con-
fianza. En la tabla 2 del apndice B encontramos que el valor t correspondiente a " 0.01 y
n $ 2 " 10 $ 2 " 8 grados de libertad es t0.005 " 3.355. Por tanto, la estimacin mediante
un intervalo de 99% de confianza de 1 es
H0: 1 " 0
Ha: 1 % 0
Utilizando " 0.01 como nivel de significancia, se puede usar el intervalo de 99% de con-
fianza como alternativa para llegar a la conclusin de la prueba de hiptesis que se obtiene
con los datos de Armands. Como 0, que es el valor hipottico de 1, no est comprendido en el
intervalo de confianza (3.05 a 6.95), H0 puede ser rechazada y concluimos que entre el tamao
de la poblacin de estudiantes y las ventas trimestrales s existe una relacin estadsticamente
significativa. En general, se puede usar un intervalo de confianza para probar cualquier hip-
tesis de dos colas acerca de 1. Si el valor hipottico de 1 est contenido en el intervalo de
confianza, H0 no es rechazada. De lo contrario, es rechazada.
Prueba F
Una prueba F basada en la distribucin de probabilidad F tambin puede emplearse para probar
la significancia en la regresin. Cuando slo se tiene una variable independiente, la prueba F
lleva a la misma conclusin que la prueba t; es decir, si esta t indica que 1 % 0 y por tanto exis-
te una relacin significativa, la prueba F tambin indicar que existe esta relacin. Pero cuando
hay ms de una variable independiente, slo la prueba F puede usarse para probar que existe
una relacin significativa general.
La lgica detrs del uso de la prueba F para determinar si la relacin de regresin es esta-
dsticamente significativa se basa en el desarrollo de dos estimaciones independientes de 2. Se
explic cmo ECM proporciona una estimacin de 2. Si la hiptesis nula H0: 1 " 0 es ver-
dadera, la suma de cuadrados debido a la regresin, SCR, dividida entre sus grados de libertad
proporciona otra estimacin independiente de 2. A esta estimacin se le llama cuadrado medio
debido a la regresin o simplemente cuadrado medio de la regresin, y se denota como CMR.
En general
SCR
CMR "
grados de libertad de la regresin
En los modelos que se consideran en este libro, el nmero de grados de libertad de la regresin
es siempre igual al nmero de variables independientes en el modelo:
SCR
CMR " (14.20)
nmero de variables independientes
Como en este captulo slo se consideran modelos de regresin con una sola variable inde-
pendiente, tenemos CMR " SCR/1 " SCR. Por tanto, en el ejemplo de Armands Pizza Parlors,
CMR " SCR " 14 200.
Si la hiptesis nula (H0: 1 " 0) es verdadera, CMR y ECM son dos estimaciones indepen-
dientes de 2 y la distribucin de muestreo de CMR/ECM sigue una distribucin F en la que el
14.5 Prueba de significancia 589
CMR 14 200
F" " " 74.25
ECM 191.25
En la regresin lineal
simple, la prueba F y la
prueba t proporcionan En la tabla de la distribucin F (tabla 4 del apndice B) se observa que con un grado de liber-
resultados idnticos. tad en el numerador y n $ 2 " 10 $ 2 " 8 grados de libertad en el denominador, F " 11.26
proporciona un rea de 0.01 en la cola superior. Por tanto, el rea en la cola superior de la
distribucin F que corresponde al estadstico de prueba F " 74.25 debe de ser menor de 0.01.
Por tanto, concluimos que el valor-p debe de ser menor a 0.01. Empleando Excel o Minitab se
encuentra que el valor-p " 0.000. Como el valor-p es menor que " 0.01, H0 es rechazada y
concluimos que entre el tamao de la poblacin de estudiantes y las ventas trimestrales existe
una relacin significativa. A continuacin se presenta un resumen de la prueba F de significan-
cia para la regresin lineal simple
TABLA 14.5 Forma general de la tabla de ANOVA para la regresin lineal simple
En toda tabla para el
anlisis de varianza, la
suma total de cuadrados Fuente Suma de Grados Cuadrado
es la suma de la suma de de variacin cuadrados de libertad medio F valor-p
cuadrados de la regresin SCR CMR
ms la suma de cuadrados Regresin SCR 1 CMR " F"
1 ECM
del error; adems, el
total de los grados de SCE
Error SCE n$2 ECM "
libertad es la suma n$2
de los grados de libertad de
Total STC n$1
la regresin ms los grados
de libertad del error.
Total 15 730 9
14.5 Prueba de significancia 591
FIGURA 14.7 Ejemplo de una aproximacin lineal para una relacin no lineal
Relacin real
y ! b0 " b1x
lineal proporcionada por y " b0 ! b1x es buena en el rango de los valores de x observados en
la muestra, se vuelve deficiente para valores de x fuera de ese rango.
Dada una relacin significativa, la ecuacin de regresin estimada se puede usar con con-
fianza para predicciones correspondientes a valores de x dentro del rango de los valores de x
observados en la muestra. En el ejemplo de Armands Pizza Parlors, este rango corresponde a
los valores de x entre 2 y 26. A menos que haya otras razones que indiquen que el modelo es v-
lido ms all de este rango, las predicciones fuera del rango de la variable independiente deben
realizarse con cuidado. En el ejemplo de Armands Pizza Parlors, como se ha encontrado que
la relacin de regresin es significativa al nivel de significancia de 0.01, se puede tener con-
fianza de usarla para predecir las ventas de restaurantes en los que la poblacin de estudiantes
correspondiente est en el intervalo de 2 000 a 26 000.
NOTAS Y COMENTARIOS
1. Los supuestos acerca del trmino del error (sec- para denotar el coeficiente de correlacin pobla-
cin 14.4) permiten las pruebas de significancia cional, las hiptesis son las siguientes.
estadstica de esta seccin. Las propiedades de la
distribucin de muestreo de b1 y las subsiguien- H 0: rx y " 0
tes pruebas t y F se derivan directamente de estos H a: rx y % 0
supuestos.
2. No se debe confundir la significancia estadsti- Si H0 es rechazada, podemos concluir que existe
ca con la significancia prctica. Con tamaos de una relacin significativa. En el apndice 14.2 se
muestra muy grandes se pueden obtener resulta- proporcionan los detalles de esta prueba. Sin em-
dos estadsticamente significativos para valores bargo, las pruebas t y F presentadas en esta sec-
pequeos de b1; en tales casos hay que tener cui- cin aportan el mismo resultado que la prueba de
dado al concluir que la relacin tiene significan- significancia usando el coeficiente de correlacin.
cia prctica. Por consiguiente, si ya se ha realizado una prueba
3. Una prueba de significancia para la relacin li- t o una prueba F, no es necesario realizar la de
neal entre x y y tambin se puede realizar usando significancia usando el coeficiente de correlacin.
el coeficiente de correlacin muestral rxy . Con rx y
592 Captulo 14 Regresin lineal simple
Ejercicios
Mtodos
23. A continuacin se presentan los datos del ejercicio 1.
AUTO evaluacin
xi 1 2 3 4 5
yi 3 7 5 11 14
H 0: 1 ! 0
H a: 1 " 0
e) Use la prueba F para probar las hiptesis del inciso d) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla del anlisis de varianza.
24. A continuacin se presentan los datos del ejercicio 2.
xi 3 12 6 20 14
yi 55 40 55 10 15
H 0: 1 ! 0
H a: 1 " 0
e) Aplique la prueba F para probar las hiptesis del inciso d) empleando 0.05 como nivel de
significancia. Presente los resultados en el formato de tabla de anlisis de varianza.
25. A continuacin se presentan los datos del ejercicio 3.
xi 2 6 9 13 20
yi 7 18 9 26 23
Aplicaciones
26. En el ejercicio 18, los datos sobre el promedio obtenido en la licenciatura y los sueldos men-
AUTO evaluacin suales fueron los siguientes.
a) La prueba t indica que hay una relacin significativa entre el promedio y el sueldo men-
sual? Cul es su conclusin? Use ! 0.05.
b) Determine si la relacin es significativa usando la prueba F. Cul es su conclusin? Uti-
lice ! 0.05.
c) Muestre la tabla de ANOVA.
27. La revista Outside Magazine prob 10 modelos de mochilas y botas para excursionismo. En
la tabla siguiente se presentan los datos de soporte superior (Upper Support) y precio (Price)
de cada fabricante y modelo (Manufacturer and Model). El soporte superior se midi con una
escala del 1 al 5, en la que 1 significa aceptable y 5 denota excelente soporte superior (Outside
Magazine Buyers Guide 2001).
a) Use estos datos para desarrollar la ecuacin de regresin estimada a efecto de estimar el
precio de las mochilas y las botas para excursionismo con base en el soporte superior.
b) Empleando un nivel de significancia de 0.05, determine si hay relacin entre soporte su-
perior y precio.
c) Confiara en usar la ecuacin de regresin estimada desarrollada en el inciso a) para
estimar el precio de las mochilas y las botas con base en la evaluacin del soporte su-
perior?
d) Estime el precio de una mochila que tiene 4 como evaluacin del soporte superior.
28. En el ejercicio 8, con los datos x ! rango de temperatura (F) y y ! precio ($) de 11 sleeping
WEB archivo bags fabricados por Bergans of Norway se obtuvo la ecuacin de regresin estimada y !
SleepingBags 359.2668 # 5.2772x. Empleando 0.05 como nivel de significancia, determine si el rango de
temperatura y el precio estn relacionados. Muestre la tabla de ANOVA. Cul es su conclusin?
29. Remtase al ejercicio 21, en el que se usaron los datos sobre volumen de produccin y costos
para desarrollar una ecuacin de regresin estimada que relacionaba el volumen de produc-
cin y los costos de una determinada operacin de produccin. Use ! 0.05 para probar si el
volumen de produccin est relacionado de manera significativa con los costos totales. Mues-
tre la tabla de ANOVA. Cul es su conclusin?
30. Remtase al ejercicio 5 donde se utilizaron los siguientes datos para investigar si, por lo general,
los altos precios (Price) estn o no asociados con las altas calificaciones (Rating) de las ejer-
citadoras elpticas de acuerdo con la marca y modelo (Brand and Model) (Consumer Reports,
febrero de 2008).
Estimacin puntual
En el ejemplo de Armands Pizza Parlors, la ecuacin de regresin estimada y ! 60 $ 5x pro-
porciona una estimacin de la relacin entre el tamao de la poblacin de estudiantes x y las
ventas trimestrales y. Con la ecuacin de regresin estimada se puede obtener una estimacin
puntual del valor medio de y correspondiente a un determinado valor de x, o se puede prede-
cir el valor individual de y que corresponde a un valor determinado de x. Por ejemplo, suponga
que los gerentes de Armands desean una estimacin puntual de la media de las ventas trimes-
trales de todos los restaurantes que se encuentren cerca de campus universitarios con 10 000
estudiantes. Usando la ecuacin de regresin estimada y ! 60 $ 5x, con x ! 10 (o 10 000 es-
tudiantes) obtenemos y ! 60 $ 5(10) ! 110. Por tanto, una estimacin puntual de la media
de las ventas trimestrales de todos los restaurantes de este ejemplo con 10 000 estudiantes es
$110 000.
Ahora suponga que los gerentes de Armands desean predecir las ventas de un determinado
restaurante ubicado cerca de Talbot College, una escuela con 10 000 alumnos. En este caso lo
que interesa no es la media correspondiente a todos los restaurantes que estn cerca de campus
con 10 000 estudiantes, sino nicamente predecir las ventas trimestrales de uno en especfico.
En realidad, la estimacin puntual de un solo valor de y es igual a la estimacin puntual de la
media de los valores de y. As, la prediccin de las ventas trimestrales de este restaurante en
particular ser y ! 60 $ 5(10) ! 110 o $110 000.
Empleando esta notacin para estimar la media de las ventas de todos los restaurantes de
Armands que se encuentran cerca de un campus con 10 000 estudiantes, tenemos que x p ! 10,
y E( yp ) denota el valor medio desconocido de las ventas de todos los restaurantes para los que
x p ! 10. La estimacin puntual de E(yp ) est dada por yp ! 60 $ 5(10) ! 110.
En general, no se puede esperar que yp sea exactamente igual a E(yp ). Para hacer una infe-
rencia acerca de qu tan cerca est yp de la media verdadera E( yp ), es necesario estimar la va-
rianza de yp. La frmula para estimar la varianza de yp para un xp dado, se denota como s 2yp, y es
2
1 (x p # x)
s 2yp ! s 2 $ (14.22)
n !(xi # x)2
En los resultados calculados en la seccin 14.5 para el ejemplo de Armands Pizza Parlors se
tiene s ! 13.829. Como xp ! 10, x ! 14 y !(xi # x)2 ! 568, usando la ecuacin (14.23)
se obtiene
1 (10 # 14)2
s yp ! 13.829 $
10 568
Para obtener, con la frmula (14.24), un intervalo de 95% de confianza para la media de
las ventas trimestrales de todos los restaurantes Armands ubicados cerca de campus con 10 000
estudiantes, se necesita el valor de t para /2 ! 0.025 y n # 2 ! 10 # 2 ! 8 grados de libertad.
En la tabla 2 del apndice B se encuentra t 0.025 ! 2.306. Por tanto, como yp ! 110 y el margen
de error de t/2sy ! 2.306(4.95) ! 11.415, la estimacin del intervalo de 95% de confianza es
p
110 % 11.415
596 Captulo 14 Regresin lineal simple
FIGURA 14.8 Intervalos de confianza para la media de las ventas y correspondientes a valores dados
de la poblacin de estudiantes x
200
"5
x
0
180 y !6
Ventas trimestrales (miles de $)
140
Los lmites
120 de los
intervalos de
100 confianza
dependen de xp
En xp ! x se
80 tiene la menor
amplitud del
60 intervalo
de confianza
40
20 x ! 14
0 x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
Poblacin de estudiantes (miles)
En dlares, el intervalo de 95% de confianza para la media de las ventas trimestrales de todos
los restaurantes que se encuentran cerca de un campus con 10 000 estudiantes es $110 000 %
$11 415. As, el intervalo de confianza de 95% para la media de las ventas trimestrales cuando
el tamao de la poblacin es 10 000 es de $98 585 a $121 415.
Observe que la desviacin estndar estimada de yp dada por la ecuacin (14.23) es menor
cuando x p ! x y la cantidad x p # x ! 0. En este caso, la desviacin estndar estimada de yp
se convierte en
1 (x # x)2 1
s yp ! s $ !s
n !(xi # x)2 n
Este resultado implica que se obtiene la mejor o ms precisa estimacin del valor medio de y
cuando x p ! x. De hecho, entre ms alejado est x p de x, mayor ser x p # x. Como resultado,
los intervalos de confianza para el valor medio de y son ms amplios a medida que x p se aleja
de x. En la figura 14.8 se muestra grficamente este patrn.
La frmula para estimar la varianza de un valor individual de y p, que se denota como s 2ind, es
Por tanto, una estimacin de la desviacin estndar de un solo valor de yp est dada por
1 (x p # x)2
s ind ! s 1" " (14.26)
n !(xi # x)2
1 (10 # 14)2
sind ! 13.829 1" "
10 568
! 13.829 "1.1282
! 14.69
El intervalo de prediccin de 95% de las ventas trimestrales del restaurante de Talbot Co-
llege se encuentra usando t0.025 ! 2.306 y sind ! 14.69. Por tanto, con yp ! 110 y un margen de
error de t/2 sind ! 2.306(14.69) ! 33.875, el intervalo de prediccin de 95% es
110 $ 33.875
598 Captulo 14 Regresin lineal simple
FIGURA 14.9 Intervalos de confianza y de prediccin para las ventas y que corresponden a valores dados
de la poblacin de estudiantes x
240
220
Lmites del
200
intervalo de
"5
x
60 confianza
180 y !
Ventas trimestrales (miles de $)
120
Lmites del
100 intervalo de
prediccin
80
Los dos intervalos
60 tienen la menor
amplitud en
40 xp ! x
x ! 14
20
0 x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
Poblacin de estudiantes (miles)
En dlares, este intervalo de prediccin es de $110 000 $ $33 875 o de $76 125 a $143 875.
Observe que el intervalo de prediccin para un solo restaurante que se encuentre cerca de un
campus con 10 000 estudiantes es ms amplio que el intervalo de confianza para la media de
las ventas de todos los restaurantes ubicados cerca de campus con 10 000 estudiantes. Esta di-
ferencia refleja el hecho de que se puede estimar con ms precisin la media de y que un solo
valor de y.
En general, tanto las lneas Tanto las estimaciones mediante un intervalo de confianza como mediante un intervalo de
de los lmites para los prediccin son ms precisas cuando el valor de la variable independiente es x p ! x. En la figura
intervalos de confianza
14.9 se muestra la forma general de los intervalos de confianza y de prediccin que son ms
como las de los lmites para
los intervalos de prediccin anchos.
presentan cierta curvatura.
Ejercicios
Mtodos
32. Los datos siguientes provienen del ejercicio 1.
AUTO evaluacin
xi 1 2 3 4 5
yi 3 7 5 11 14
Obtenga los intervalos de confianza y de prediccin de 95% cuando x ! 12. Explique por qu
son diferentes estos dos intervalos.
Aplicaciones
35. En el ejercicio 18, con los datos sobre los promedios de calificaciones x y los sueldos mensua-
AUTO evaluacin les y se obtuvo la ecuacin de regresin estimada y ! 1 790.5 " 581.1x.
a) Proporcione un intervalo de 95% de confianza para el sueldo medio inicial de todos los
estudiantes cuyo promedio fue 3.0.
b) Desarrolle un intervalo de 95% de prediccin para el sueldo medio inicial de Joe Heller,
un estudiante cuyo promedio fue 3.0.
36. En el ejercicio 8, con los datos x ! rango de temperatura (F) y y ! precio ($) de 11 sleeping
WEB archivo bags fabricados por Bergans of Noway, se obtuvo la ecuacin de regresin y ! 359.2668 #
5.2772x. Para estos datos s ! 37.9372.
SleepingBags a) Obtenga una estimacin puntual del precio de un sleeping bag cuyo rango de temperatura
sea 30.
b) Desarrolle un intervalo de 95% de confianza para la temperatura global media de todos los
sleeping bags cuyo rango de temperatura sea 30.
c) Suponga que Bergans crea un nuevo modelo cuyo rango de temperatura es 30. Obtenga
un intervalo de prediccin de 95% para el precio de este nuevo modelo.
d) Explique la diferencia entre sus respuestas a los incisos b) y c).
37. En el ejercicio 13 se proporcionaron datos sobre el ingreso bruto ajustado x y el monto de las
deducciones declaradas por los contribuyentes. Los datos se reportaron en miles de dlares.
Como la ecuacin de regresin estimada es y ! 4.68 " 0.16x, el punto estimado de un nivel
razonable del total de las deducciones declaradas para un contribuyente cuyo ingreso bruto
ajustado sea $52 500 es $13 080.
a) Obtenga un intervalo de 95% de confianza para el monto medio del total de las deduccio-
nes declaradas de todos los contribuyentes cuyo ingreso bruto ajustado sea $52 500.
b) Obtenga un intervalo de prediccin de 95% para el monto del total de las deducciones
declaradas de un contribuyente en particular cuyo ingreso bruto ajustado sea $52 500.
c) Si el contribuyente del inciso b) solicita un total de $20 400 por deducciones declaradas,
se justificara que un agente fiscal lo requiriera para aplicarle una auditora?
d) Retome su respuesta al inciso b) para dar al agente fiscal una gua acerca del monto del
total de las deducciones declaradas que puede solicitar un contribuyente cuyo ingreso
bruto ajustado sea $52 500 antes de que sea recomendable una auditora.
38. Remtase al ejercicio 21, donde se utilizaron los datos de volumen de produccin x y costos
totales y de una determinada operacin de manufactura para obtener la ecuacin de regresin
estimada y ! 1 246.67 " 7.6x.
a) El plan de produccin de la empresa muestra que el prximo mes debern fabricarse 500
unidades. Cul es la estimacin puntual de los costos totales para ese mes?
600 Captulo 14 Regresin lineal simple
b) Obtenga un intervalo de prediccin de 99% para el costo total de produccin del siguiente
mes.
c) Si al final del prximo mes el informe de costos de un contador indica que en ese lapso
los costos reales de produccin fueron de $6 000, deberan preocuparse los gerentes por
haber incurrido en costos totales tan altos en ese mes? Analice.
39. En Estados Unidos, casi todo el sistema de tranvas usa vagones elctricos que corren sobre
vas a nivel de la calle. La Federal Transit Administration afirma que el tranva es uno de
los medios de transporte ms seguros, ya que arroja una tasa de 0.99 accidentes por milln
de millas-pasajero en comparacin con 2.29 en los autobuses. En los datos siguientes se pro-
porcionan las millas de va y la cantidad de pasajeros transportados en los das laborables, en
miles, de seis sistemas de tranvas (USA Today, 7 de enero de 2003).
a) Use estos datos para obtener la ecuacin de regresin estimada que podra emplearse para
predecir la cantidad de pasajeros, dadas las millas de va.
b) La ecuacin de regresin estimada proporciona un buen ajuste? Explique.
c) Obtenga un intervalo de 95% de confianza para la media de la cantidad de pasajeros trans-
portados en los das laborables en los sistemas de tranvas con 30 millas de va.
d) Suponga que Charlotte est considerando la construccin de un sistema de tranva de 30
millas de va. Obtenga un intervalo de prediccin de 95% para la cantidad de pasajeros
transportada en un da laborable con el sistema de Charlotte. Considera usted que el in-
tervalo de prediccin que desarroll pueda ser til para los encargados de la planeacin
en Chalotte a fin de anticipar la cantidad de pasajeros en un da laborable en su sistema de
tranvas? Explique.
1. Minitab muestra la ecuacin de regresin estimada como Sales ! 60.0 " 5.00 Pop.
2. Presenta tambin una tabla en la que indica el valor de los coeficientes b0 y b1, la des-
viacin estndar de cada coeficiente, el valor t obtenido al dividir cada coeficiente entre
su desviacin estndar y el valor-p correspondiente a la prueba t. Como el valor-p es
cero (a tres posiciones decimales), los resultados muestrales indican que debe rechazar-
se la hiptesis nula (H0: 1 ! 0). O bien, se puede comparar 8.62 (que aparece en la co-
lumna t) con el valor crtico apropiado. Este procedimiento para la prueba t se describi
en la seccin 14.5.
2
En el apndice 14.3 se explican los pasos a seguir con Minitab para obtener estos resultados.
14.7 Solucin por computadora 601
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 14200 14200 74.25 0.000
Tabla de ANOVA
Residual Error 8 1530 191
Total 9 15730
New
Obs Fit SE Fit 95% C.I. 95% P.I. Estimaciones de intervalo
1 110.00 4.95 (98.58, 121.42) (76.13, 143.87)
Ejercicios
Aplicaciones
40. La divisin comercial de una firma inmobiliaria realiza un anlisis de regresin sobre la re-
AUTO evaluacin lacin entre x, rentas brutas anuales (en miles de dlares) y y, precio de venta (en miles de
dlares) de edificios de departamentos. Se recabaron datos sobre varias propiedades vendidas
ltimamente, y con la computadora se obtuvieron los resultados que se muestran enseguida.
a) Cuntos edificios de departamentos haba en la muestra?
602 Captulo 14 Regresin lineal simple
Analysis of Variance
SOURCE DF SS
Regression 1 41587.3
Residual Error 7
Total 8 51984.1
Analysis of Variance
SOURCE DF SS MS
Regression 1 1575.76 1575.76
Residual Error 8 349.14 43.64
Total 9 1924.90
b) Utilice una prueba t para determinar si los gastos mensuales de mantenimiento estn rela-
cionados con el uso; maneje 0.05 como nivel de significancia.
c) Utilice la ecuacin de regresin estimada para predecir los gastos mensuales de manteni-
miento de una terminal que se usa 25 horas por semana.
42. Un modelo de regresin que relaciona x, el nmero de vendedores en una sucursal, con y, las
ventas anuales en esa sucursal (en miles de dlares), proporcion el resultado de computadora,
que se muestra a continuacin, empleando anlisis de regresin de los datos.
a) Escriba la ecuacin de regresin estimada.
14.7 Solucin por computadora 603
Analysis of Variance
SOURCE DF SS MS
Regression 1 6828.6 6828.6
Residual Error 28 2298.8 82.1
Total 29 9127.4
Weight Price
Model (oz) ($)
Fastdraw 3 10
Fastdraw Plus 4 12
Fitness 5 12
Access 7 20
WEB archivo Access Plus 8 25
Solo 9 25
Hydration1 Serenade 9 35
Solitaire 11 35
Gemini 21 45
Shadow 15 40
SipStream 18 60
Express 9 30
Lightning 12 40
Elite 14 60
Extender 16 65
Stinger 16 65
GelFlask Belt 3 20
GelDraw 1 7
GelFlask Clip-on Holster 2 10
GelFlask Holster SS 1 10
Strider (W) 8 30
604 Captulo 14 Regresin lineal simple
Weight Price
Model (oz) ($)
Walkabout (W) 14 40
Solitude I.C.E. 9 35
Getaway I.C.E. 19 55
Profile I.C.E. 14 50
Traverse I.C.E. 13 60
a) Con estos datos obtenga una ecuacin de regresin estimada que pueda ser utilizada para
predecir el precio de un sistema de hidratacin en funcin de su peso.
b) Pruebe la significancia de la relacin empleando 0.05 como nivel de significancia.
c) Proporciona un buen ajuste la ecuacin de regresin estimada? Explique su respuesta.
d) Suponga que la ecuacin de regresin estimada obtenida en el inciso a) tambin puede
aplicarse a sistemas de hidratacin fabricados por otras empresas. Obtenga un intervalo de
confianza de 95% para estimar el precio de todos los sistemas de hidratacin que pesan 10
onzas.
e) Suponga que la ecuacin de regresin estimada obtenida en el inciso a) tambin puede
usarse para sistemas de hidratacin producidos por otras empresas. Obtenga un intervalo
de prediccin de 95% para estimar el precio del sistema Back Draft creado por Eastern
Mountain Sports y que pesa 10 onzas.
44. Las carreras de autos, las escuelas de manejo de alto desempeo y los programas de educacin
para conducir realizados por clubes de automovilistas siguen creciendo en popularidad. Todas
esas actividades requieren que el participante utilice un casco certificado por la Snell Memorial
Foundation, una organizacin sin fines de lucro dedicada a la investigacin, educacin, prueba
y desarrollo de estndares de seguridad de los cascos. Snell SA (Sports Application) evalu
que los cascos profesionales estn diseados para carreras de autos y proporcionen resistencia
a impactos extremos y una alta proteccin contra el fuego. Uno de los factores clave en la se-
leccin de un casco es el peso, ya que los ms ligeros generan menos tensin en el cuello. Los
datos siguientes muestran peso (Weight) y precio (Price) de 18 cascos (Helmet) SA (sitio web
de SoloRacer, 20 de abril de 2008).
c) Obtenga la ecuacin de regresin estimada que pueda utilizarse para predecir el precio de
acuerdo con el peso.
d) Pruebe la significancia de la relacin en un nivel de significancia de 0.05.
e) La ecuacin de regresin estimada proporciona un buen ajuste? Explique.
RESIDUAL DE LA OBSERVACIN i
yi # yi (14.28)
donde:
En otras palabras, el residual isimo es el error que resulta de usar la ecuacin de regre-
sin estimada para predecir el valor de la variable dependiente. En la tabla 14.7 se calculan los
residuales correspondientes a los datos del ejemplo de Armands Pizza Parlors. En la segunda
columna de la tabla se presentan los valores observados de la variable dependiente, y en la
tercera los valores estimados de la variable dependiente obtenidos con la ecuacin de regresin
estimada y ! 60 " 5x. Un anlisis de los residuales correspondientes, en la cuarta columna
de la tabla, ayuda a determinar si los supuestos acerca del modelo de regresin son adecuados.
A continuacin se revisan los supuestos de regresin en el ejemplo de Armands Pizza Par-
lors. Se supuso un modelo de regresin lineal simple.
Este modelo indica que se supone que las ventas trimestrales ( y) son la funcin lineal del tama-
o de la poblacin de estudiantes (x) ms un trmino del error $. En la seccin 14.4 se plantea-
ron los siguientes supuestos para el trmino del error $.
1. E($) ! 0.
2. La varianza de $, que se denota 2, es la misma para todos los valores de x.
3. Los valores de $ son independientes.
4. El trmino del error $ tiene una distribucin normal.
Estos supuestos constituyen la base terica para las pruebas t y F que se usan para determinar
si la relacin entre x y y es significativa, y para las estimaciones de los intervalos de confianza
y de prediccin presentadas en la seccin 14.6. Si los supuestos sobre el trmino del error $ son
dudosos, quiz las pruebas de hiptesis acerca de la significancia de la relacin de regresin
y los resultados de la estimacin por intervalo no sean vlidos.
Los residuales proporcionan la mejor informacin de $; por tanto, su anlisis es muy im-
portante para determinar si los supuestos planteados acerca de $ son apropiados. Gran parte
del anlisis residual se basa en examinar grficas. En esta seccin se estudiarn las siguientes
grficas de residuales.
y ! y
"20
Residuales "10
!10
!20
x
0 2 4 6 8 10 12 14 16 18 20 22 24 26
Residuales estandarizados
Muchas grficas de residuales que se obtienen con software de computadora utilizan una ver-
sin estandarizada de los residuales. Como se demostr en el captulo anterior, una variable
aleatoria se estandariza al sustraerle su media y dividir el resultado entre su desviacin estndar.
Cuando se emplea el mtodo de mnimos cuadrados, la media de los residuales es cero. Por
608 Captulo 14 Regresin lineal simple
y ! y
Grfica A
Residuales
0
Patrn adecuado
y ! y
Grfica B
Residuales
Varianza no constante
0
x
y ! y
Grfica C
Residuales
0
Modelo de forma no adecuada
x
14.8 Anlisis de residuales: confirmacin de los supuestos del modelo 609
FIGURA 14.13 Grfica de residuales contra los valores pronosticados de y para Armands
Pizza Parlors
y ! y
"20
Residuales "10
!10
!20
y
60 80 100 120 140 160 180
consiguiente, para obtener el residual estandarizado slo es necesario dividir cada residual
entre su desviacin estndar.
Se puede demostrar que la desviacin estndar del residual i depende del error estndar de
la estimacin s y del valor correspondiente de la variable independiente xi.
donde:
Observe que la ecuacin (14.30) indica que la desviacin estndar del residual isimo
depende de xi debido a la presencia de hi en la frmula.4 Una vez determinada la desviacin es-
tndar de cada uno de los residuales, se pueden calcular los residuales estandarizados al dividir
cada residual entre sus desviaciones estndar correspondientes.
3
En realidad, esta ecuacin proporciona una estimacin de la desviacin estndar del residual isimo, ya que se usa s en
lugar de .
4
A hi se le conoce como el valor de influencia de la observacin i. El valor de influencia se abordar en la seccin 14.9,
cuando se consideren las observaciones influyentes.
610 Captulo 14 Regresin lineal simple
TABLA 14.8 Clculo de los residuales estandarizados del ejemplo de Armands Pizza Parlors
yi ! yi
(14.32)
syi ! yi
En la tabla 14.8 se presentan los clculos de los residuales estandarizados con el ejemplo
de Armands Pizza Parlors. Recuerde que ya en clculos previos se obtuvo s " 13.829. La
figura 14.14 es la grfica de los residuales estandarizados contra la variable independiente x.
Pequeas desviaciones Esta grfica permite ver si es correcto el supuesto de que el trmino del error $ tiene distri-
de la normalidad no tienen bucin normal. Si este supuesto se satisface, debe parecer que la distribucin de los residuales
un gran efecto sobre
estandarizados proviene de una distribucin de probabilidad normal estndar.5 Por tanto, al
las pruebas estadsticas
utilizadas en el anlisis observar la grfica de los residuales estandarizados se espera encontrar que aproximadamente
de regresin. 95% de ellos est entre !2 y #2. En la figura 14.14 vemos que en el ejemplo de Armands to-
dos los residuales estandarizados se encuentran entre !2 y #2. As, con base en los residuales
estandarizados, esta grfica no da razones para dudar del supuesto de que $ tiene una distribu-
cin normal.
Debido al esfuerzo que significa calcular los valores estimados de y, los residuales y los
residuales estandarizados, la mayora de los paquetes para estadstica proporcionan, de mane-
ra opcional, estos datos como parte de los resultados de la regresin. Por tanto, las grficas
de residuales se pueden obtener con facilidad. Tratndose de problemas grandes, el software de
computadora es la nica opcin prctica para obtener las grficas de residuales analizadas en
esta seccin.
5
Como en la frmula (14.30) se usa s en lugar de , la distribucin de probabilidad de los residuales estandarizados no
es tcnicamente normal. Sin embargo, en la mayora de los estudios de regresin el tamao de la muestra es suficiente-
mente grande para que una aproximacin normal sea muy buena.
14.8 Anlisis de residuales: confirmacin de los supuestos del modelo 611
"2
Residuales estandarizados
"1
!1
!2
TABLA 14.9
x
Punto normal para 0 2 4 6 8 10 12 14 16 18 20 22 24 26
n " 10
Estadstico Punto
de orden normal
1 !1.55
2 !1.00 considere nicamente el valor menor de cada muestra. A la variable aleatoria que representa el
3 !0.65 valor menor de estos diversos muestreos se le conoce como estadstico de primer orden.
4 !0.37
5 !0.12
Los expertos en estadstica han demostrado que, en muestras de tamao 10 tomadas de una
6 0.12 distribucin de probabilidad normal estndar, el valor esperado del estadstico de primer orden
7 0.37 es !1.55. A este valor esperado se le conoce como punto normal. En el caso de una muestra
8 0.65
9 1.00
de tamao n " 10, hay 10 estadsticos de orden y 10 puntos normales (vea la tabla 14.9). En
10 1.55 general, un conjunto de datos que conste de n observaciones tendr n estadsticos de orden y
por tanto n puntos normales.
A continuacin vemos el uso de estos 10 puntos normales para determinar si los residua-
TABLA 14.10 les estandarizados de Armands Pizza Parlors aparentemente provienen de una distribucin de
Puntos normales probabilidad normal estndar. Para empezar, se ordenan los 10 residuales estandarizados de la
y residuales tabla 14.8. En la tabla 14.10 se presentan juntos los 10 puntos normales y los residuales estan-
estandarizados darizados ordenados. Si se satisface el supuesto de normalidad, el menor residual estandariza-
ordenados de do deber tener un valor parecido al del menor punto normal, el siguiente residual deber tener
Armands Pizza un valor similar al del siguiente punto normal, y as sucesivamente. En el caso en que los resi-
Parlors duales estandarizados se encuentren distribuidos de una manera aproximadamente normal, en
Puntos Residuales una grfica en la que los puntos normales correspondan al eje horizontal y los residuales estan-
normales estandarizados darizados al eje vertical, los puntos estarn situados cerca de una lnea recta de 45 grados que
ordenados
pase por el origen. A esta grfica se le conoce como grfica de probabilidad normal.
!1.55 !1.7114
!1.00 !1.0792 La figura 14.15 ilustra la grfica de probabilidad normal del ejemplo de Armands Pizza
!0.65 !0.9487 Parlors. Para determinar si el patrn observado se desva lo suficiente de la recta como para
!0.37 !0.2372 concluir que los residuales estandarizados no provienen de una distribucin de probabilidad
!0.12 !0.2296
0.12 !0.2296 normal, habr que emplear el propio criterio. En la figura, todos los puntos se agrupan cerca
0.37 0.7115 de esta recta. Se concluye, por tanto, que el supuesto de que los trminos del error tienen una
0.65 1.0792 distribucin de probabilidad normal es razonable. En general, entre ms cerca de la recta a
1.00 1.2224
1.55 1.4230 45 se agrupen los puntos, ms fuerte es la evidencia a favor del supuesto de normalidad. Cual-
quier curvatura sustancial en la grfica es evidencia de que los residuales no provienen de una
distribucin normal. Tanto los puntos normales como la correspondiente grfica de probabi-
lidad normal pueden obtenerse fcilmente empleando software como Minitab.
612 Captulo 14 Regresin lineal simple
FIGURA 14.15 Grfica de probabilidad normal obtenida con los datos de Armands Pizza Parlors
2
recta a 45
Residuales estandarizados
0
!1
!2
!2 !1 0 "1 "2
Puntos normales
NOTAS Y COMENTARIOS
1. Las grficas de residuales y de probabilidad nor- delo de regresin sean vlidos. Aun cuando no se
mal se usan para confirmar los supuestos de un encuentre ninguna violacin, esto no necesaria-
modelo de regresin. Si en esta revisin se encuen- mente implica que el modelo vaya a proporcionar
tra que uno o ms supuestos son dudosos, habr buenas predicciones. Pero si adems existen otras
que considerar un modelo de regresin diferente o pruebas estadsticas que favorezcan la conclu-
una transformacin de los datos. Cuando se violan sin de significancia y el coeficiente de determina-
los supuestos, las medidas a tomar deben basarse cin es grande, deber ser posible obtener buenas
en un criterio adecuado; las recomendaciones de estimaciones y predicciones empleando la ecua-
un experto en estadstica pueden ser tiles. cin de regresin estimada.
2. El anlisis de residuales es el principal mtodo es-
tadstico para verificar que los supuestos del mo-
Ejercicios
Mtodos
45. Dados los datos de las dos variables x y y.
AUTO evaluacin
xi 6 11 15 18 20
yi 6 8 12 20 30
c) Trace una grfica de residuales contra la variable independiente x. Los supuestos acerca
de los trminos del error parecen satisfacerse?
d) Calcule los residuales estandarizados.
e) Elabore una grfica de residuales estandarizados contra y. Qu conclusiones puede for-
mular de esta grfica?
46. En un estudio de regresin se emplearon los datos siguientes.
Observacin xi yi Observacin xi yi
1 2 4 6 7 6
2 3 5 7 7 9
3 4 4 8 8 5
4 5 6 9 9 11
5 7 4
Aplicaciones
47. A continuacin se presentan datos sobre los gastos en publicidad y los ingresos (en miles de
AUTO evaluacin dlares) del restaurante Four Seasons.
a) Sea x igual a gastos en publicidad y y igual a ingresos. Utilice el mtodo de mnimos cua-
drados para obtener una recta que aproxime la relacin entre las dos variables.
b) Empleando como nivel de significancia 0.05, pruebe si los ingresos y los gastos en publi-
cidad estn relacionados.
c) Elabore una grfica de residuales de y ! y contra y. Use el resultado del inciso a) para
obtener los valores de y.
d) Qu conclusiones se pueden formular del anlisis de residuales? Se puede aplicar este
modelo o se debe buscar uno mejor?
48. Remtase al ejercicio 7, donde se obtuvo una ecuacin de regresin estimada que relaciona los
aos de experiencia con las ventas anuales.
a) Calcule los residuales y trace una grfica de residuales para este problema.
b) A la luz de la grfica, Los supuestos acerca de los trminos del error parecen razonables?
49. Las ventas recientes de casas familiares en San Antonio proporcionan los datos que se listan a
continuacin acerca de la extensin en pies cuadrados (Square Footage) y precio (Price) de los
inmuebles (sitio web de San Antonio Realty Watch, noviembre de 2008).
614 Captulo 14 Regresin lineal simple
a) Obtenga una ecuacin de regresin estimada que pueda utilizarse para pronosticar los
precios de venta dada la extensin en pies cuadrados.
b) Construya una grfica de residuales estandarizados contra la variable independiente.
c) A la luz de la grfica, los supuestos acerca de los trminos del error y de la forma del
modelo parecen razonables?
Observacin atpica
TABLA 14.11 Mucho del software identifica de manera automtica las observaciones cuyos residuales tienen
Conjunto de datos un valor absoluto grande. En la figura 14.18 se presentan los resultados de Minitab para el an-
para ilustrar el efecto lisis de regresin de los datos de la tabla 14.11. En la penltima fila se lee que el residual estan-
de una observacin darizado de la observacin 4 es 2.67. Minitab proporciona una lista de todas las observaciones
atpica cuyo residual estandarizado sea menor a !2 o mayor a #2 en la seccin Unusual Observations
xi yi de la pantalla; en tales casos la observacin aparece en una fila aparte con una R al lado del
1 45 residual estandarizado, como se observa en la figura 14.18. Si los errores estn distribuidos
1 55 normalmente, slo 5% de los residuales estandarizados se encontrar fuera de estos lmites.
2 50
3 75
Para decidir qu hacer con una observacin atpica, primero hay que verificar si es correc-
3 40 ta. Puede ser que se trate de un error incurrido al anotar los datos o al ingresarlos a la compu-
3 45 tadora. Suponga, por ejemplo, que al verificar la observacin atpica de la figura 14.17, se
4 30
4 35
encuentra que hubo un error; el valor correcto de la observacin 4 es x4 " 3, y4 " 30. En la fi-
5 25 gura 14.19 se presenta el resultado que proporciona Minitab una vez corregido el valor de y4.
6 15
80
60
40
20
x
0 1 2 3 4 5 6
616 Captulo 14 Regresin lineal simple
FIGURA 14.18 Resultado de Minitab para el anlisis de regresin de un conjunto de datos con
una observacin atpica
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 1268.2 1268.2 7.90 0.023
Residual Error 8 1284.3 160.5
Total 9 2552.5
Unusual Observations
Obs x y Fit SE Fit Residual St Resid
4 3.00 75.00 42.97 4.04 32.03 2.67R
FIGURA 14.19 Resultados de Minitab para un conjunto de datos con una observacin atpica ya
corregida
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 1139.7 1139.7 41.38 0.000
Residual Error 8 220.3 27.5
Total 9 1360.0
Se observa que el dato incorrecto afecta de forma significativa la bondad de ajuste. Con el dato
correcto, el valor de R-sq aumenta de 49.7% a 83.8%, y el de b0 disminuye de 64.958 a 59.237.
La pendiente de la recta cambia de !7.331 a !6.949. La identificacin de los datos atpicos
permite corregir errores y mejora los resultados de la regresin.
Observacin
influyente
yente se elimina del conjunto de datos, la pendiente cambia a positiva y la interseccin con el
eje y es menor. Es claro que esta sola observacin tiene mucha ms influencia sobre la recta de
regresin estimada que cualquiera otra; el efecto de la eliminacin de cualquiera de las otras
observaciones sobre la ecuacin de regresin estimada es muy pequeo.
Cuando slo se tiene una variable independiente, las observaciones influyentes pueden
identificarse mediante un diagrama de dispersin. Una observacin de este tipo puede ser atpi-
ca (cuyo valor de y se desva sustancialmente de la tendencia general), puede ser un valor de x
muy alejado de la media (por ejemplo, vea la figura 14.20) o tratarse de la combinacin de estos
dos factores (un valor de y algo fuera de la tendencia y un valor de x un poco extremo).
Las observaciones influyentes deben examinarse con cuidado, dado el gran efecto que tie-
nen sobre la ecuacin de regresin estimada. Lo primero que hay que hacer es verificar que no
se haya cometido algn error al recolectar los datos. Si se cometi, se corrige y se obtiene una
nueva ecuacin de regresin estimada. Si la observacin es vlida, podemos considerarnos afor-
tunados. Tal dato, cuando es correcto, contribuye a una mejor comprensin del modelo adecua-
do y conduce a una mejor ecuacin de regresin estimada. En la figura 14.20, la presencia de la
observacin influyente, si es correcta, llevar a tratar de obtener datos con valores x intermedios
que permitan comprender mejor la relacin entre x y y.
Las observaciones en las que la variable independiente toma valores extremos se denomi-
nan puntos (datos, observaciones) de gran influencia. La observacin influyente de la figura
14.20 es un punto de gran influencia. La influencia de una observacin depende de qu tan lejos
est el valor de la variable independiente de su media. En el caso de una sola variable inde-
pendiente, la influencia de la observacin i, que se denota hi, se calcula mediante la ecuacin
(14.33).
FIGURA 14.21 Diagrama de dispersin del conjunto de datos con un punto de gran influencia
130.00
120.00
110.00 Observacin de
gran influencia
100.00
x
10.00 25.00 40.00 55.00 70.00 85.00
Al revisar la figura 14.21, que es el diagrama de dispersin del conjunto de datos presen-
tado en la tabla 14.12, vemos que la observacin 7 (x " 70, y " 100) tiene un valor extremo
de x. Por tanto, es de esperarse que sea identificado como un punto de gran influencia. La in-
fluencia de esta observacin se calcula usando la ecuacin (14.33) como sigue.
En el caso de la regresin lineal simple, Minitab identifica como observaciones de gran in-
fluencia aquellas para las que hi $ 6/n o 0.99, lo que sea menor. En el conjunto de datos de la
tabla 14.12, 6/n " 6/7 " 0.86. Como h7 " 0.94 $ 0.86. Minitab identificar la observacin 7
El software es esencial
como una observacin cuyo valor de x tiene una gran influencia. En la figura 14.22 se presenta
para efectuar los clculos
que permiten identificar las el resultado que proporciona Minitab para el anlisis de regresin de este conjunto de datos. A
observaciones influyentes. la 7 (x " 70, y " 100) la identifica como una observacin de gran influencia y la presenta en
Aqu se analiza la regla una fila especial en la parte inferior de los resultados con una X en el margen derecho.
de seleccin que emplea Las observaciones influyentes debido a la interaccin de una observacin de gran influencia
Minitab.
y de residuales grandes suelen ser difciles de detectar. Existen procedimientos de diagnstico
que toman en cuenta ambos aspectos para determinar si una observacin es influyente. En el
captulo 15 se estudiar uno de estos procedimientos, el estadstico D de Cook.
NOTAS Y COMENTARIOS
Una vez identificada una observacin como poten- liarizado con el material ms avanzado, un procedi-
cialmente influyente debido a que tiene un residual miento sencillo es realizar el anlisis de regresin con
grande o por ser de gran influencia, su impacto sobre y sin esa observacin. Este mtodo permite apreciar
la ecuacin de regresin estimada debe ser evaluado. el impacto que tiene la observacin potencialmente
En libros ms avanzados se presentan los mtodos de influyente sobre el resultado.
diagnstico apropiados. Pero cuando no se est fami-
14.9 Anlisis de residuales: observaciones atpicas y observaciones influyentes 619
FIGURA 14.22 Resultado de Minitab para el conjunto de datos con una observacin de gran
influencia
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 473.65 473.65 19.87 0.007
Residual Error 5 119.21 23.84
Total 6 592.86
Unusual Observations
Obs x y Fit SE Fit Residual St Resid
7 70.0 100.00 97.71 4.73 2.29 1.91 X
Ejercicios
Mtodos
50. Considere los datos siguientes para las variables x y y.
AUTO evaluacin
xi 135 110 130 145 175 160 120
yi 145 100 120 120 130 130 110
a) Calcule los residuales estandarizados de estos datos. stos incluyen alguna observacin
atpica? Explique.
b) Trace una grfica de residuales estandarizados contra y. Se observa en esta grfica alguna
observacin atpica?
c) Con estos datos elabore un diagrama de dispersin. Se aprecia en este diagrama alguna
observacin atpica? En general, qu consecuencias tienen estos hallazgos para la regre-
sin lineal simple?
51. Considere los datos siguientes para las variables x y y.
xi 4 5 7 8 10 12 12 22
yi 12 14 16 15 18 20 24 19
a) Calcule los residuales estandarizados de estos datos. Identifica alguna observacin at-
pica? Explique.
b) Calcule los valores de influencia para estos datos. Parece haber alguna observacin in-
fluyente? Explique.
c) Elabore un diagrama de dispersin con estos datos. Se advierte alguna observacin at-
pica? Explique.
620 Captulo 14 Regresin lineal simple
Aplicaciones
52. Los datos siguientes muestran los gastos en medios (Media Expenditures) en millones de $ y los
AUTO evaluacin embarques (Shipments) en millones de barriles de 10 importantes marcas (Brand) de cerveza.
Media Expenditures
Brand ($ millions) Shipments
Budweiser 120.0 36.3
Bud Light 68.7 20.7
WEB archivo Miller Lite 100.1 15.9
Coors Light 76.6 13.2
Beer Busch 8.7 8.1
Natural Light 0.1 7.1
Miller Genuine Draft 21.5 5.6
Miller High Life 1.4 4.4
Busch Light 5.3 4.3
Milwaukees Best 1.7 4.3
Volume Price
Model (fl oz) ($)
Fastdraw 20 10
Fastdraw Plus 20 12
Fitness 20 12
Access 20 20
WEB archivo Access Plus 24 25
Solo 20 25
Hydration2 Serenade 20 35
Solitaire 20 35
Gemini 40 45
Shadow 64 40
SipStream 96 60
Express 20 30
Lightning 28 40
Elite 40 60
Extender 40 65
Stinger 32 65
GelFlask Belt 4 20
GelDraw 4 7
GelFlask Clip-on Holster 4 10
GelFlask Holster SS 4 10
Strider (W) 20 30
Walkabout (W) 230 40
Solitude I.C.E. 20 35
Getaway I.C.E. 40 55
Profile I.C.E. 64 50
Traverse I.C.E. 64 60
Resumen 621
Resumen
En este captulo se estudi el anlisis de regresin para determinar cmo es la relacin entre una
variable dependiente y y una variable independiente x. En la regresin lineal simple, el mode-
lo de regresin es y " 0 # 1x # %. La ecuacin de regresin lineal simple E( y) " 0 # 1x
describe la relacin de la media o valor esperado de y con x. Para obtener la ecuacin de regre-
sin estimada y " b0 # b1x se emplearon datos muestrales y el mtodo de mnimos cuadrados.
622 Captulo 14 Regresin lineal simple
En efecto, b0 y b1 son estadsticos muestrales tiles para estimar los parmetros desconocidos
del modelo, 0 y 1.
El coeficiente de determinacin se present como una medida de la bondad de ajuste para
la ecuacin de regresin estimada, y se puede interpretar como la proporcin de la variacin
en la variable dependiente y que puede ser explicada por la ecuacin de regresin estimada.
Asimismo, se revis la correlacin como una medida descriptiva de la intensidad de la relacin
lineal entre dos variables.
Se analizaron los supuestos acerca del modelo de regresin y su correspondiente trmi-
no del error, y se presentaron las pruebas t y F, basadas en esos supuestos, como un medio para
determinar si la relacin entre dos variables es estadsticamente significativa. Se mostr cmo
usar la ecuacin de regresin estimada para obtener estimaciones de intervalos de confianza
para el valor medio de y y estimaciones por medio de intervalos de prediccin para valores
individuales de y.
El captulo concluy con una seccin sobre soluciones por computadora de los problemas
de regresin y dos secciones sobre el uso del anlisis residual para validar los supuestos del
modelo e identificar las observaciones atpicas e influyentes.
Glosario
Anlisis residual Anlisis de los residuales que se usa para determinar si parecen ser vlidos
los supuestos planteados acerca del modelo de regresin. Tambin se utiliza para identificar
observaciones atpicas y observaciones influyentes.
Coeficiente de correlacin Medida de la intensidad de la relacin lineal entre dos variables
(ya estudiado en el captulo 3).
Coeficiente de determinacin Medida de la bondad de ajuste de la ecuacin de regresin
estimada. Se interpreta como la proporcin de la variabilidad de la variable dependiente y que
es explicada por la ecuacin de regresin estimada.
Diagrama de dispersin Grfica de datos bivariados en la que la variable independiente se
ubica en el eje horizontal y la variable dependiente en el eje vertical.
Ecuacin de regresin Ecuacin que describe cmo est relacionada la media o valor es-
perado de la variable dependiente con la variable independiente; en la regresin lineal simple,
E( y) " 0 # 1x.
Ecuacin de regresin estimada Estimacin de la ecuacin de regresin obtenida a partir de
datos muestrales empleando el mtodo de mnimos cuadrados. En la regresin lineal simple, la
ecuacin de regresin estimada es y " b0 # b1x.
Error cuadrado medio Estimacin insesgada de la varianza del trmino del error 2. Se
denota como ECM o s 2.
Error estndar de estimacin Raz cuadrada del error cuadrado medio; se denota como s. Es
una estimacin de , la desviacin estndar del trmino del error %.
Grfica de probabilidad normal Grfica en la que los residuales estandarizados se grafican
contra los puntos normales. Ayuda a determinar si parece ser vlido el supuesto de que los tr-
minos del error tienen una distribucin de probabilidad normal.
Grfica de residuales Representacin grfica de los residuales. Se usa para determinar si
parecen ser vlidos los supuestos planteados acerca del modelo de regresin.
Intervalo de confianza Estimacin por intervalo del valor medio de y para un valor dado de x.
Intervalo de prediccin Estimacin por intervalo de un solo valor de y para un valor dado
de x.
Mtodo de mnimos cuadrados Procedimiento para obtener la ecuacin de regresin estima-
da. El objetivo es minimizar !( yi ! yi )2.
Modelo de regresin Ecuacin que describe cmo estn relacionadas y y x, ms un trmino
del error. En la regresin lineal simple, el modelo de regresin es y " 0 # 1x # %.
Observacin atpica Dato u observacin que no sigue la tendencia del resto de los datos.
Observacin influyente Observacin que tiene una fuerte influencia o efecto en los resulta-
dos de regresin.
Frmulas clave 623
Puntos de gran influencia Observaciones en las que la variable independiente presenta va-
lores extremos.
Regresin lineal simple Anlisis de regresin en el que participan una variable independien-
te y una variable dependiente, y la relacin entre estas variables se aproxima mediante una lnea
recta.
Residual estandarizado Valor obtenido al dividir un residual entre su desviacin estndar.
Residual isimo Diferencia que existe entre el valor observado de la variable dependiente y
el valor pronosticado empleando la ecuacin de regresin estimada; para la observacin isima,
el residual isimo es yi ! yi .
Tabla de ANOVA En el anlisis de varianza, tabla que se usa para resumir los clculos asocia-
dos con la prueba F de significancia.
Variable dependiente Variable que se predice o explica. Se denota por y.
Variable independiente Variable que predice o explica. Se denota por x.
Frmulas clave
Modelo de regresin lineal simple
y " 0 # 1x # % (14.1)
min !( yi ! yi )2 (14.5)
Coeficiente de determinacin
SCR
r2 " (14.12)
STC
624 Captulo 14 Regresin lineal simple
SCE
s 2 " ECM " (14.15)
n!2
SCE
s " "ECM " (14.16)
n!2
Desviacin estndar de b1
b1 " (14.17)
"!(xi ! x)2
Desviacin estndar estimada de b1
s
sb 1 " (14.18)
"!(xi ! x)2
Estadstico de prueba t
b1
t" (14.19)
sb1
SCR
CMR " (14.20)
nmero de variables independientes
Estadstico de prueba F
CMR
F" (14.21)
ECM
2
1 (x p ! x)
s yp " s # (14.23)
n !(xi ! x)2
1 (x p ! x)2
s ind " s 1# # (14.26)
n !(xi ! x)2
Residual de la observacin i
yi ! yi (14.28)
yi ! yi
(14.32)
syi ! yi
Influencia de la observacin i
1 (xi ! x)2
hi " # (14.33)
n !(xi ! x)2
Ejercicios complementarios
55. Un valor alto de r 2 implica que entre las dos variables hay una relacin de causa y efecto?
Explique.
56. Describe la diferencia entre estimacin por intervalo del valor medio de las y para un valor
dado de x y estimacin por intervalo de un valor de y para una x dada.
57. Qu objeto tiene probar si 1 " 0? Si se rechaza que 1 " 0, eso significa un buen ajuste?
58. En la tabla siguiente se proporciona el nmero de acciones en venta (Shares Selling) en millo-
nes y el precio esperado (Expected Price), es decir, el promedio del precio mnimo y del precio
mximo proyectado, de 10 acciones de oferta pblica inicial (IPO, por sus siglas en ingls).
Shares Expected
Company Selling (millions) Price ($)
American Physician 5.0 15
Apex Silver Mines 9.0 14
WEB archivo Dan River 6.7 15
Franchise Mortgage 8.75 17
IPO Gene Logic 3.0 11
International Home Foods 13.6 19
PRT Group 4.6 13
Rayovac 6.7 14
RealNetworks 3.0 10
Software AG Systems 7.7 13
a) Obtenga una ecuacin de regresin estimada para calcular el precio por accin dado el
valor justo.
b) Empleando 0.05 como nivel de significancia, existe una relacin significativa entre las
dos variables?
c) Utilice la ecuacin de regresin estimada para calcular el precio por accin de una empre-
sa que tiene un valor justo de $50.
d) Cree que la ecuacin de regresin estimada proporcione una buena prediccin del precio
por accin? Emplee r2 para justificar su respuesta.
60. Uno de los ms grandes cambios en educacin superior de los aos recientes ha sido el cre-
cimiento de las universidades en lnea. La Online Education Database es una organizacin
independiente cuya misin es construir una lista amplia de las universidades en lnea ms acre-
ditadas. La tabla siguiente muestra los porcentajes (%) de la tasa de retencin (Retention Rate)
y la tasa de graduacin (Graduation Rate) de 29 universidades (College) en lnea (sitio web de
Online Education Database, enero de 2009).
Retention Graduation
College Rate (%) Rate (%)
Western International University 7 25
South University 51 25
University of Phoenix 4 28
American InterContinental University 29 32
Franklin University 33 33
Devry University 47 33
Ejercicios complementarios 627
Retention Graduation
College Rate (%) Rate (%)
Tiffin University 63 34
Post University 45 36
Peirce College 60 36
Everest University 62 36
Upper Iowa University 67 36
Dickinson State University 65 37
WEB archivo Western Governors University 78 37
Kaplan University 75 38
OnlineEdu Salem International University 54 39
Ashford University 45 41
ITT Technical Institute 38 44
Berkeley College 51 45
Grand Canyon University 69 46
Nova Southeastern University 60 47
Westwood College 37 48
Everglades University 63 50
Liberty University 73 51
LeTourneau University 78 52
Rasmussen College 48 53
Keiser University 95 55
Herzing College 68 56
National University 100 57
Florida National College 100 61
Nmero de partes
Velocidad de la lnea defectuosas encontradas
20 21
20 19
40 15
30 16
60 14
40 17
a) Elabore un diagrama de dispersin con estos datos. Aparenta ser razonable una relacin
lineal? Explique.
b) Obtenga la ecuacin de regresin estimada por mnimos cuadrados.
c) Existe una relacin significativa entre las dos variables? Use " 0.05.
d) La ecuacin de regresin estimada proporciona un buen ajuste? Explique.
e) Utilice la ecuacin de regresin estimada obtenida en el inciso b) para calcular un inter-
valo de confianza de 95% para el nmero esperado de das de ausencia de los empleados
que viven a 5 millas de la empresa.
Ejercicios complementarios 629
64. La autoridad de trnsito local de una zona metropolitana importante desea determinar si hay
relacin entre la antigedad de un autobs (Age of Bus/years) y los gastos anuales derivados de
su mantenimiento (Maintenance Cost). En una muestra de 10 autobuses se obtuvieron los datos
siguientes.
Hours Total
Spent Studying Points Earned
45 40
30 35
WEB archivo 90 75
60 65
HoursPts 105 90
65 50
90 90
80 80
55 45
75 65
una medida del riesgo asociado con la accin burstil. Si la beta del mercado es mayor de 1, la
volatilidad de la accin es mayor al promedio en el mercado; si es menor de 1, la volatilidad de
la accin es menor al promedio en el mercado. Suponga que las cifras siguientes son diferen-
cias entre rentabilidad porcentual y rentabilidad libre de riesgo a lo largo de 10 trimestres para
S&P 500 y Horizon Technology.
a) Obtenga la ecuacin de regresin estimada que sirve para determinar la beta del mercado
de Horizon Technology. Cul es la beta del mercado de esta empresa?
b) Empleando 0.05 como nivel de significancia, pruebe la significancia de la relacin.
c) La ecuacin de regresin estimada proporciona un buen ajuste? Explique.
d) Utilice las betas del mercado de Xerox y de Horizon Techology para comparar los riesgos
asociados con estas dos acciones.
67. La Transactional Records Access Clearinghouse de la Universidad de Syracuse publica datos
que muestran las probabilidades de una auditora del Departamento del Tesoro de Estados Uni-
dos. En la tabla siguiente se muestra la media del ingreso bruto ajustado (Adjusted Gross In-
come) y el porcentaje de declaraciones que fueron auditadas (Percent Audited) en 20 distritos.
Adjusted Percent
District Gross Income ($) Audited
Los Angeles 36 664 1.3
Sacramento 38 845 1.1
Atlanta 34 886 1.1
WEB archivo Boise 32 512 1.1
Dallas 34 531 1.0
IRSAudit
Providence 35 995 1.0
San Jose 37 799 0.9
Cheyenne 33 876 0.9
Fargo 30 513 0.9
New Orleans 30 174 0.9
Oklahoma City 30 060 0.8
Houston 37 153 0.8
Portland 34 918 0.7
Phoenix 33 291 0.7
Augusta 31 504 0.7
Albuquerque 29 199 0.6
Greensboro 33 072 0.6
Columbia 30 859 0.5
Nashville 32 566 0.5
Buffalo 34 296 0.5
d) Con la ecuacin de regresin estimada del inciso a) calcule un intervalo de 95% de con-
fianza para el porcentaje esperado de auditoras en un distrito donde el promedio del
ingreso bruto ajustado es $35 000.
68. El State of the Service Report 2002-2003, de la Comisin de Servicio Pblico de Australia,
report evaluaciones sobre la satisfaccin laboral. Una parte la encuesta consista en elegir (de
una lista) los cinco factores principales que contribuyen a la satisfaccin laboral. Despus se
solicitaba a los encuestados que indicaran su nivel de satisfaccin con cada uno de esos cinco
factores. En la tabla siguiente se presentan los porcentajes de personas para los que el factor
indicado fue uno de los cinco principales, junto con una evaluacin obtenida utilizando el por-
centaje de empleados que consider el factor como uno de los cinco principales y que estaban
muy satisfechos o satisfechos con ste en su actual lugar de trabajo (www.apsc.gov.au/
stateoftheservice). Workplace Factor indica el factor de satisfaccin laboral, Top Five lista los
cinco valores principales y Satisfaction Rating indica la evaluacin de la satisfaccin.
Satisfaction
Workplace Factor Top Five (%) Rating (%)
Carga de trabajo apropiada 30 49
Oportunidad de ser creativo/innovador 38 64
Oportunidad para hacer contribuciones ltiles a la sociedad 40 67
WEB archivo Derechos/expectativas claras 40 69
Sistemas de trabajo flexibles 55 86
JobSat
Buenas relaciones de trabajo 60 85
Trabajo interesante constante 48 74
Oportunidad para desarrollarme en mi carrera 33 43
Oportunidad para desarrollar mis habilidades 46 66
Condiciones para utilizar mis capacidades 50 70
Retroalimentacin regular/reconocimiento al esfuerzo 42 53
Salario 47 62
Ver los resultados tangibles de mi trabajo 42 69
a) Elabore un diagrama de dispersin colocando en el eje horizontal los cinco factores prin-
cipales (%) y en el eje vertical el nivel de satisfaccin (%).
b) Qu indica el diagrama elaborado en el inciso a) respecto de la relacin entre las dos
variables?
c) Obtenga la ecuacin de regresin estimada que sirva para pronosticar el nivel de satisfac-
cin (%) dados los cinco factores principales (%).
d) Empleando como nivel de significancia 0.05, realice una prueba para determinar la sig-
nificancia de la relacin.
e) La ecuacin de regresin estimada proporciona un buen ajuste? Explique.
f) Cul es el valor del coeficiente de correlacin muestral?
* Distintas fuentes emplean diferentes mtodos para calcular las betas. Por ejemplo, algunas fuentes, antes de calcular la
ecuacin de regresin estimada, restan de las variables tanto dependiente como independiente la rentabilidad que po-
dra haberse obtenido con una inversin libre de riesgo (por ejemplo, letras del Tesoro o T-bills). Otras emplean diversos
ndices para la rentabilidad total del mercado de valores; por ejemplo, Value Line calcula las betas utilizando el ndice
compuesto de la bolsa de Nueva York.
632 Captulo 14 Regresin lineal simple
500 como medida de la rentabilidad total del mercado de valores y se obtendr una ecuacin de
WEB archivo regresin estimada usando datos mensuales. La beta de una accin es la pendiente en la ecua-
Beta cin de regresin estimada (b1). Los datos en el archivo Beta proporcionan la rentabilidad total
(revalorizacin del capital ms dividendos) de ocho acciones comunes muy conocidas y la del
S&P 500 a lo largo de 36 meses.
El valor beta del mercado de valores siempre ser 1; por tanto, una accin que tienda a
aumentar o a disminuir con el mercado de valores tendr tambin una beta cercana a 1. Betas
mayores a 1 corresponden a acciones ms voltiles que el mercado y betas menores a 1 corres-
ponden a acciones menos voltiles que el mercado. Por ejemplo, si la beta de una accin es 1.4,
esta accin es 40% ms voltil que el mercado, y si es 0.4, la accin es 60% menos voltil que
el mercado.
Informe gerencial
Se le ha encomendado la tarea de analizar las caractersticas del riesgo de estas acciones. Ela-
bore un informe que comprenda los puntos siguientes, sin limitarse slo a ellos.
a) Calcular los estadsticos descriptivos de cada una de las acciones y del S&P 500. Co-
mente los resultados. Qu accin es la ms voltil?
b) Calcular la beta de cada accin. Cul de estas acciones se esperara que se comportara
mejor en un mercado de alta calidad? Cul conservara mejor su valor en un mercado
para el sector popular?
c) Comente qu tanto de la rentabilidad de cada una de las acciones es explicada por el
mercado.
Informe gerencial
1. Presente resmenes numricos y grficos de los datos.
2. Emplee el anlisis de regresin para investigar la relacin entre el nmero de accidentes
fatales y el porcentaje de conductores menores de 21 aos. Analice sus hallazgos.
3. Qu conclusin y qu recomendaciones puede deducir de su anlisis?
Informe gerencial
1. Presente resmenes numricos y grficos de los datos.
2. Emplee el anlisis de regresin para obtener una ecuacin de regresin estimada que
sirva para pronosticar el porcentaje de exalumnos que hace donaciones, dado el porcen-
taje de grupos con menos de 20 estudiantes.
3. Use el anlisis de regresin para obtener una ecuacin de regresin estimada que sirva
para pronosticar el porcentaje de exalumnos donantes dada la proporcin de estudian-
tes por facultad.
4. Cul de las dos ecuaciones de regresin estimada muestra un mejor ajuste? Con esa
ecuacin de regresin estimada realice un anlisis de residuales y discuta sus hallazgos
y conclusiones.
5. Qu conclusiones y recomendaciones puede derivar de este anlisis?
Tour (sitio web del PGA Tour, 2009) se encuentran los datos del desempeo al final del ao de
125 jugadores con las ganancias totales ms altas en los eventos del PGA Tour de 2008. Cada
fila del conjunto de datos corresponde a un jugador y los datos se han ordenado con base en el
total de ganancias. Las descripciones de los datos son las siguientes.
Money (dinero). Ganancias totales en eventos del PGA Tour.
Scoring Average (puntuacin promedio). Nmero promedio de golpes por ronda completa.
DrDist (distancia del tiro). Nmero promedio de yardas por tiro medido. En el PGA Tour,
la distancia de tiro se mide en dos hoyos por ronda. Se tiene cuidado en seleccionar dos
hoyos orientados en direcciones opuestas para contrarrestar el efecto del viento. Los golpes
se miden hasta el punto donde se detiene sin importar que est o no dentro del recorrido.
DrAccu (precisin del tiro). Porcentaje de veces en que un tiro de salida se detiene dentro
del recorrido (sin importar el club). La precisin del tiro se mide en cada hoyo, excluyendo
los que sean par 3.
GIR (greens en regulacin). Porcentaje de veces que un jugador logra alcanzar el green en
regulacin. Se considera un green alcanzado en regulacin si cualquier parte de la pelota
toca la superficie de putting luego de que se tom el golpe GIR, el cual se determina al res-
tar 2 del par (primer golpe en un par 3, segundo en un par 4, tercero en un par 5). En otras
palabras, se considera un green alcanzado en regulacin si el jugador lleg a la superficie
de putting en par menos dos golpes.
Informe gerencial
1. Presente resmenes numricos y grficos de los datos.
2. Utilice el anlisis de regresin para investigar la relacin entre puntuacin promedio y
distancia del tiro. En apariencia, los jugadores que lanzan la pelota ms lejos tienen
puntuaciones promedio ms bajas?
3. Con base en el anlisis de regresin investigue la relacin entre puntuacin promedio
y precisin del tiro. En apariencia, los jugadores ms precisos en golpear dentro del
recorrido tienen puntuaciones promedio ms bajas?
4. Utilice el anlisis de regresin para investigar la relacin entre puntuacin promedio y
greens en regulacin. En apariencia los jugadores ms precisos en alcanzar el green en
regulacin tienen puntuaciones promedio ms bajas?
5. Cul de las tres variables (DrDist, DrAccu y GIR) aparenta ser el factor ms significa-
tivo en trminos de la puntuacin promedio de un jugador?
6. Tomando DrDist como la variable independiente y DrAccu como la variable dependien-
te, investigue la relacin entre distancia y precisin del tiro.
!( yi ! yi )2
!( yi ! b0 ! b1x i )2 (14.34)
Para minimizar la frmula (14.34), se obtienen las derivadas parciales respecto de b0 y b1, se
igualan a cero y se despeja. Haciendo esto obtenemos
'!( yi ! b0 ! b1x i )2
" !2!( yi ! b0 ! b1x i ) " 0 (14.35)
'b0
'!( yi ! b0 ! b1x i )2
" !2! xi ( yi ! b0 ! b1x i ) " 0 (14.36)
'b1
Al dividir la ecuacin (14.35) entre dos y hacer las sumas por separado, obtenemos
Al llevar !yi al otro lado del signo igual y observar que !b0 " nb0, conseguimos
A las expresiones (14.37) y (14.38) se les conoce como ecuaciones normales. Al despejar b0 en
la (14.37) obtenemos
!yi !x
b0 " ! b1 i (14.39)
n n
Como y " !yi $n y x " !x i $n, la frmula (14.39) se puede reescribir como
Las ecuaciones (14.41) y (14.42) son las frmulas (14.6) y (14.7) usadas en este captulo para
calcular los coeficientes de la ecuacin de regresin estimada.
ESTADSTICO DE PRUEBA
n!2
t " rxy (14.43)
1 ! r 2xy
REGLA DE RECHAZO
En la seccin 14.3 se encontr que con una muestra de n " 10 el coeficiente de correla-
cin muestral para la poblacin de estudiantes y las ventas trimestrales era rxy " 0.9501. El
estadstico de prueba es
n!2 10 ! 2
t " rxy " 0.9501 " 8.61
1 ! r 2xy 1 ! (0.9501)2
de las columnas Cl y C2. Los pasos siguientes describen cmo usar Minitab para obtener los
resultados del anlisis de regresin que se muestran en la figura 14.10.
Paso 1. Seleccione el men Stat.
Paso 2. Seleccione el men Regression.
Paso 3. Elija Regression.
Paso 4. Cuando el cuadro de dilogo Regression aparezca:
Ingrese Sales en el cuadro Response.
Ingrese Pop en el cuadro Predictors.
Haga clic en el botn Options.
Cuando el cuadro de dilogo Regression-Options aparezca:
Ingrese 10 en el cuadro Prediction intervals for new observations.
Haga clic en OK.
Cuando el cuadro de dilogo Regression aparezca:
Haga clic en OK.
El cuadro de dilogo Regression tiene otras posibilidades ms que se pueden aprovechar se-
leccionando las opciones deseadas. Por ejemplo, para obtener una grfica de residuales en la
que los valores pronosticados de la variable dependiente y aparezcan en el eje horizontal y los
valores de los residuales estandarizados en el eje vertical, el paso 4 deber ser el siguiente:
Paso 4 Cuando el cuadro de dilogo Regression aparezca:
Ingrese Sales en el cuadro Response.
Ingrese Pop en el cuadro Predictors.
Haga clic en el botn Graphs.
Cuando el cuadro de dilogo Regression-Graphs aparezca:
Seleccione Standardized en Residuals for Plots.
Elija Residuals versus fits en Residual Plots.
Haga clic en OK.
Cuando el cuadro de dilogo Regression aparezca:
Haga clic en OK.
FIGURA 14.23 Solucin con Excel del problema de Armands Pizza Parlors
A B C D E F G H I J
1 Restaurant Population Sales
2 1 2 58
3 2 6 105
4 3 8 88
5 4 8 118
6 5 12 117
7 6 16 137
8 7 20 157
9 8 20 169
10 9 22 149
11 10 26 202
12
13 SUMMARY OUTPUT
14
15 Regression Statistics
16 Multiple R 0.9501
17 R Square 0.9027
18 Adjusted R Square 0.8906
19 Standard Error 13.8293
20 Observations 10
21
22 ANOVA
23 df SS MS F Significance F
24 Regression 1 14 200 14 200 74.2484 2.55E-05
25 Residual 8 1 530 191.25
26 Total 9 15 730
27
28 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 99.0% Upper 99.0%
29 Intercept 60 9.2260 6.5033 0.0002 38.7247 81.2753 29.0431 90.9569
30 Population 2 0.5803 8.6167 2.55E-05 3.6619 6.3381 3.0530 6.9470
31
32
33
34
La primera seccin del resultado, titulada Regression Statistics, contiene resmenes estads-
ticos como el coeficiente de determinacin (R Square). La segunda seccin titulada ANOVA,
contiene la tabla del anlisis de varianza. La ltima seccin, que no tiene ningn ttulo, incluye
los coeficientes de regresin estimados e informacin relacionada con ellos. A continuacin se
proporciona la interpretacin de los resultados de la regresin empezando con la informacin
contenida en las celdas A28:I30.
ESTADSTICA en LA PRCTICA
dunnhumby*
LONDRES, INGLATERRA
dunnhumby, fundada en 1989 por el equipo de esposos
Clive Humby (matemtico) y Edwina Dunn (experto en
marketing), combina probadas habilidades naturales con
grandes ideas para encontrar claves y patrones de lo que
los consumidores compran y por qu. La empresa convier-
te esas seales en estrategias viables que generan notorio
crecimiento y lealtad sostenible y mejoran, en ltima ins-
tancia, el valor de la marca y la experiencia del cliente.
Con una nmina de ms de 950 personas en Europa,
Asia y Amrica, dunnhumby proporciona servicio a una
lista de prestigiosas empresas, que incluye Kroger, Tesco,
Coca-Cola, General Mills, Kimberly-Clark, PepsiCo, Proc-
ter & Gamble y Home Depot. dunnhumbyUSA es una em-
dunnhumby utiliza la regresin logstica para predecir
presa conjunta (joint venture) entre Kroger y dunnhumby, el comportamiento de compra del consumidor.
con oficinas en Nueva York, Chicago, Atlanta, Minneapo- Ariel Skelley/Blend Images/Jupiter Images
lis, Cincinnati y Portland.
Los estudios de dunnhumby inician con la obtencin
de datos de los consumidores de la empresa que la contrata.
Los datos se toman de registros de compras con tarjetas de consumidores. Las variables independientes x1, x2, x3,
de descuento o recompensas para el cliente, operaciones en . . . , xp son medidas del comportamiento de compra real del
los puntos de venta electrnicos e investigacin de merca- consumidor y pueden incluir el artculo especfico adqui-
dos tradicional. El anlisis de los datos con frecuencia se rido, la cantidad adquirida, monto de la compra, da de la
traduce de miles de millones de puntos de datos en ideas semana, hora del da, y as sucesivamente. El anlisis ayu-
detalladas acerca del comportamiento, preferencias y esti- da a identificar las variables independientes que son ms
los de vida de los clientes. Tales ideas conducen a poner relevantes para predecir el grupo del consumidor y pro-
en accin efectivos programas de comercializacin, que in- porciona una mejor comprensin de la poblacin de clien-
cluyen recomendaciones estratgicas acerca de fijacin de tes, posibilitando anlisis posteriores con una confiabilidad
precios, promocin, publicidad y decisiones sobre surtido mucho mayor. El enfoque del anlisis se dirige a la com-
de productos. prensin del cliente hasta el punto de desarrollar programas
Los investigadores utilizan una tcnica de regresin de comercializacin, marketing y marketing directo que ma-
mltiple llamada regresin logstica como ayuda en sus ximicen la pertinencia y el servicio al grupo de consumi-
anlisis de datos basados en el cliente. Al utilizar la regre- dores.
sin logstica se desarrolla una ecuacin de regresin ml- En este captulo se analizar la regresin mltiple y
tiple estimada de la siguiente forma. cmo los conceptos de la regresin lineal simple estudiados
en el captulo 14 pueden aplicarse al caso de la regresin
y " b0 # b1x1 # b2 x 2 # b3 x3 # . . . # bp xp mltiple. Adems, se mostrar el uso del software respec-
tivo. En la ltima seccin del captulo se presenta la regre-
La variable dependiente y es una estimacin de la proba- sin logstica con un ejemplo que ilustra cmo utilizar esta
bilidad de que un cliente pertenezca a un grupo especfico tcnica en una aplicacin de investigacin de mercados.
Modelo de
regresin mltiple
En la regresin lineal
simple, b0 y b1 son los y ! 0 " 1x1 " 2 x2 " . . . " p xp " # Datos muestrales:
x1 x2 xp y
estadsticos muestrales Ecuacin de regresin mltiple
utilizados para estimar
E( y) ! 0 " 1x1 " 2 x2 " . . . " p xp
los parmetros 0 y 1.
En la regresin mltiple, 0, 1, 2, . . . p son
en el proceso de inferencia
estadstica anlogo, parmetros desconocidos
b0 , b1, b2 , . . . , bp denotan
los estadsticos muestrales
utilizados para estimar
los parmetros
0 , 1 , 2 , . . . p .
Clculo de la ecuacin
b0, b1, b2, . . . , b p de regresin mltiple
estimada
proporcionan las estimaciones de y ! b0 " b1x1 " b2 x2 " . . . " bp xp
0, 1, 2, . . . , p b0, b1, b2, . . . bp son
estadsticos muestrales
muestra aleatoria simple. Con los estadsticos muestrales se obtiene la siguiente ecuacin de
regresin mltiple estimada.
donde:
b0, b1, b2, . . . , bp son las estimaciones de 0, 1, 2 , . . . , p
y " valor estimado de la variable dependiente
donde:
yi ! valor observado de la variable dependiente para la observacin isima
yi ! valor estimado de la variable dependiente para la observacin isima
Como indica la expresin (15.4), el mtodo de mnimos cuadrados usa datos muestrales para
obtener los valores de b0, b1, b2, . . . , bp que hacen que la suma de los cuadrados de los residua-
les [las desviaciones entre los valores observados de la variable dependiente ( yi ) y los valores
estimados de la variable dependiente ( yi)] sea un mnimo.
En el captulo 14 se proporcionaron las frmulas para calcular los estimadores b0 y b1 para
la ecuacin de regresin lineal simple estimada y ! b0 " b1x empleando el mtodo de mnimos
cuadrados. Con conjuntos de datos relativamente pequeos fue posible usar esas frmulas para
obtener b0 y b1 mediante clculos manuales. En la regresin mltiple, en cambio, las frmulas
para los coeficientes de regresin b0, b1, b2, . . . , bp utilizan lgebra matricial y quedan fuera del
alcance de este libro. Por esta razn, el estudio de la regresin mltiple centrar la atencin en
el uso de software para obtener la ecuacin de regresin estimada y alguna otra informacin. Se
har nfasis en la interpretacin de los resultados que proporciona este software y no en cmo
efectuar los clculos para la regresin mltiple.
FIGURA 15.2 Diagrama de dispersin de los datos preliminares del ejemplo de Butler Trucking
10
x1
50 60 70 80 90 100
Millas recorridas
y ! 0 " 1x1 " #. Para estimar los parmetros 0 y 1 se emple el mtodo de mnimos cua-
drados y se obtuvo la ecuacin de regresin estimada.
y ! b0 " b1 x1 (15.5)
En la figura 15.3 se presentan los resultados obtenidos con Minitab aplicando la regresin lineal
simple a los datos de la tabla 15.1. La ecuacin de regresin estimada es
Con 0.05 como nivel de significancia, el valor F de 15.81 y su correspondiente valor-p de 0.004
indican que la relacin es significativa; es decir, que H0: 1 ! 0 puede ser rechazada debido a
que el valor-p es menor que ! 0.05. Observe que utilizando el valor t de 3.98, y su valor-p
asociado de 0.004, se llega a la misma conclusin. Por tanto, podemos concluir que la relacin
entre el tiempo total de recorrido y el nmero de millas recorridas es significativa; trayectos de
ms duracin corresponden a cantidades mayores de millas recorridas. Como el coeficiente
de determinacin (expresado como porcentaje) es R-sq ! 66.4%, vemos que 66.4% de la varia-
bilidad en el tiempo de recorrido podemos explicarla por el efecto lineal del nmero de millas
recorridas. Este descubrimiento es bastante satisfactorio; sin embargo, los gerentes deseaban
considerar otra variable independiente ms para explicar parte de la variabilidad restante de la
variable dependiente.
Al tratar de identificar otra variable independiente, los gerentes encontraron que el nmero
de entregas poda contribuir tambin a la duracin total del recorrido. En la tabla 15.2 se presen-
tan los datos de Butler Trucking despus de agregar el nmero de entregas. En la figura 15.4 se
expone el resultado que provee Minitab al considerar variables independientes, tanto el nmero
de millas recorridas (xi) como el nmero de entregas (x2) realizadas. La ecuacin de regresin
estimada es
y ! 0.869 " 0.0611x1 " 0.923x2 (15.6)
648 Captulo 15 Regresin mltiple
FIGURA 15.3 Resultados de Minitab para el problema de Butler Trucking con una
variable independiente
En la siguiente seccin se analizar el uso del coeficiente de determinacin mltiple para me-
dir qu tan buen ajuste proporciona la ecuacin de regresin estimada. Antes se examinarn con
ms cuidado los valores de b1 ! 0.0611 y b2 ! 0.923 en la ecuacin (15.6).
TABLA 15.2 Datos de Butler Trucking con millas recorridas (x1) y cantidad de entregas (x2)
como variables independientes
FIGURA 15.4 Resultados de Minitab para el problema de Butler Trucking con dos
variables independientes
SOURCE DF SS MS F p
Regression 2 21.601 10.800 32.88 0.000
Residual Error 7 2.299 0.328
Total 9 23.900
Ejercicios
Nota al lector. Los ejercicios de esta seccin y las siguientes en los que se proporcionan datos
estn diseados para ser resueltos mediante software.
Mtodos
1. A continuacin se proporciona la ecuacin de regresin estimada obtenida a partir de 10 ob-
servaciones para un modelo con dos variables independientes.
x1 x2 y
30 12 94
47 10 108
WEB archivo 25 17 112
51 16 178
Exer2
40 5 94
51 19 175
74 7 170
(Contina)
650 Captulo 15 Regresin mltiple
x1 x2 y
36 12 117
59 13 142
76 16 211
a) Obtenga una ecuacin de regresin estimada que relacione y con x1. Estime y si x1 ! 45.
b) Desarrolle una ecuacin de regresin estimada que relacione y con x2. Estime y si x2 ! 15.
c) Obtenga una ecuacin de regresin estimada que relacione y con x1 y x2. Calcule y si x1 !
45 y x 2 ! 15.
3. En un anlisis de regresin se emplean 30 observaciones y se obtiene la siguiente ecuacin de
regresin estimada.
Aplicaciones
4. Una zapatera obtuvo la siguiente ecuacin de regresin estimada en la que se relacionan las
ventas contra la inversin en inventario y los gastos en publicidad.
donde
x1 ! inversin en inventario (en miles de $)
x2 ! gasto en publicidad (en miles de $)
y ! ventas (en miles de $)
a) Obtenga una ecuacin de regresin estimada en la que el monto gastado en publicidad por
televisin sea la variable independiente.
b) Desarrolle una ecuacin de regresin estimada en la que los montos gastados en publici-
dad por televisin y peridicos sean las variables independientes.
c) Es el coeficiente correspondiente a los gastos de publicidad en televisin de la ecua-
cin de regresin estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en
cada caso.
15.2 Mtodo de mnimos cuadrados 651
d) Cul es la estimacin del ingreso semanal bruto en una semana en la que se gastan $3 500
en publicidad en televisin y $1 800 en publicidad en peridicos?
6. En el beisbol, el xito de un equipo suele valorarse en funcin del desempeo en bateo y en
lanzamiento. Una medida del desempeo en el bateo es la cantidad de jonrones que anota el
equipo mientras que en lanzamiento es el promedio de carreras permitidas por el equipo que
lanza. En general, se cree que los equipos que anotan ms jonrones y tienen un promedio menor
de carreras permitidas ganan un mayor porcentaje de juegos. Los datos siguientes muestran la
proporcin de juegos ganados (Proportion Won), la cantidad de jonrones (HR, home runs) del
equipo (Team) y el promedio de carreras permitidas (ERA, earned run average) de 16 equipos
de la Liga Nacional que participaron en la temporada de las Grandes Ligas de Beisbol de 2003
(sitio web de USA Today, 7 de enero de 2004).
Proportion Proportion
Team Won HR ERA Team Won HR ERA
Arizona 0.519 152 3.857 Milwaukee 0.420 196 5.058
Atlanta 0.623 235 4.106 Montreal 0.512 144 4.027
WEB archivo Chicago 0.543 172 3.842 New York 0.410 124 4.517
Cincinnati 0.426 182 5.127 Philadelphia 0.531 166 4.072
MLB Colorado 0.457 198 5.269 Pittsburgh 0.463 163 4.664
Florida 0.562 157 4.059 San Diego 0.395 128 4.904
Houston 0.537 191 3.880 San Francisco 0.621 180 3.734
Los ngeles 0.525 124 3.162 St. Louis 0.525 196 4.642
a) Determine la ecuacin de regresin estimada para predecir el ndice PCW World, utili-
zando el ndice de desempeo como variable independiente.
b) Obtenga la ecuacin de regresin estimada para predecir el ndice PCW World, utilizando
tanto el ndice de desempeo como el de caractersticas.
c) Prediga cul ser el ndice PCW World de una computadora laptop con un ndice de de-
sempeo de 80 y un ndice de caractersticas de 70.
8. Se esperara mayor confiabilidad y desempeo en autos que cuestan ms? Consu-mer Reports
dio a conocer ndices de confiabilidad (Reliability), calificaciones generales en pruebas de
carretera (Road-Test Score) y precios (Price) de automviles sedn familiares econmicos,
de precio medio y precio alto, incluyendo fabricante y modelo (Make and Model) (Consumer
Reports, febrero de 2008). A continuacin se proporciona una parte de los datos. La confiabili-
dad se valor en una escala de 5 puntos, desde deficiente (1) hasta excelente (5). La calificacin
en pruebas de carretera se valor en una escala de 100 puntos, donde los valores ms altos
indican un mejor desempeo. Los datos completos se encuentran en el archivo Sedans.
a) Obtenga la ecuacin de regresin estimada para predecir el precio del automvil, dado el
ndice de confiabilidad. Pruebe la significancia con ! 0.05.
b) Considere la incorporacin de la calificacin general en pruebas de carretera como va-
riable independiente. Obtenga la ecuacin de regresin estimada para predecir el precio
del automvil, dados la calificacin en pruebas de carretera y el ndice de confiabilidad.
c) Estime el precio de un automvil con una calificacin en pruebas de carretera de 80 y un
ndice de confiabilidad de 4.
9. El waterskiing y el wakeboarding son dos populares deportes acuticos. Ya se trate de uno o
de otro, o de simple navegacin, hallar el equipo que mejor se ajuste a las necesidades puede
resultar una ardua tarea. La revista WaterSki realiz amplias pruebas en 88 botes y proporcion
una amplia variedad de informacin como ayuda para los consumidores. A continuacin se
presenta una parte de los datos que public sobre 20 lanchas, incluyendo fabricante y modelo
(Make and Model), de entre 20 y 22 pies de longitud (WaterSki, enero/febrero de 2006). La
manga (Beam) es el ancho mximo del bote en pulgadas, la potencia del motor se mide en
caballos de fuerza (HP) y la velocidad mxima (TopSpeed) es la que puede alcanzar el bote
en millas por hora (mph).
a) Con estos datos, obtenga la ecuacin de regresin estimada que relaciona la velocidad
mxima con la manga y los caballos de fuerza del bote.
b) El Svfara SV609 tiene una manga de 85 pulgadas y motor de 330 HP. Utilice la ecuacin
de regresin estimada del inciso a) para estimar la velocidad mxima de este modelo.
10. La Asociacin Nacional de Basquetbol (NBA, por sus siglas en ingls) registra diversos da-
tos estadsticos de cada equipo. Cuatro de estos datos indican la proporcin de juegos ganados
(PCT), el porcentaje de anotaciones de campo (FG%), la proporcin de tiros de tres puntos lo-
grados por el equipo contrario (Opp 3 Pt%) y la cantidad de prdidas de baln del equipo ad-
versario (Opp TO). La siguiente tabla muestra los valores de estos datos estadsticos para los
29 equipos (Team) de la NBA en parte de la temporada 2004 (sitio web de la NBA, 3 de enero
de 2004).
a) Desarrolle una ecuacin de regresin estimada para predecir la proporcin de juegos ga-
nados, dada la proporcin de anotaciones de campo del equipo.
b) Interprete la pendiente de la ecuacin de regresin estimada obtenida con el inciso a).
c) Obtenga una ecuacin de regresin estimada para predecir la proporcin de juegos gana-
dos dada la proporcin de anotaciones de campo del equipo, el porcentaje de tiros de tres
puntos del equipo contrario y el nmero de prdidas de baln del equipo adversario.
d) Analice las implicaciones prcticas de la ecuacin obtenida en el inciso c).
e) Estime la proporcin de juegos ganados por un equipo para el que los valores de las tres
variables independientes son: FG% ! 0.45; Opp 3 Pt% ! 0.34, y Opp TO ! 17.
654 Captulo 15 Regresin mltiple
donde
Dado lo complejo de los clculos de estas tres sumas de cuadrados, es necesario emplear
un software para realizarlos. En los resultados de Minitab de la figura 15.4, en la parte del an-
lisis de varianza, se presentan estos tres valores para el problema de Butler Trucking con dos
variables independientes: STC ! 23.900, SCR ! 21.601 y SCE ! 2.299. Cuando se emplea una
sola variable independiente (nmero de millas recorridas) en los resultados de Minitab de la
figura 15.3 observamos que STC ! 23.900, SCR ! 15.871 y SCE ! 8.029. El valor de la STC es
el mismo en ambos casos debido a que no depende de y, pero al agregar otra variable (el nmero
de entregas), SCR aumenta y SCE disminuye. Esto tiene como consecuencia que la ecuacin de
regresin estimada tenga un mejor ajuste para los datos observados.
En el captulo 14 se emple el coeficiente de determinacin, r 2 ! SCR/STC, para medir la
bondad de ajuste de la ecuacin de regresin estimada. El mismo concepto es vlido en la re-
gresin mltiple. El trmino coeficiente de determinacin mltiple indica que se mide la
bondad de ajuste de la ecuacin de regresin mltiple estimada. El coeficiente de determinacin
mltiple, que se denota R 2, se calcula como sigue.
SCR
R2 ! (15.8)
STC
21.601
R2 ! ! 0.904
23.900
Por tanto, 90.4% de la variabilidad en el tiempo de recorrido y se explica por la ecuacin de re-
gresin estimada en la que las variables independientes son las millas recorridas y el nmero de
entregas. En la figura 15.4 observamos que en el resultado proporcionado por Minitab aparece
tambin el coeficiente de determinacin mltiple, que se denota R-sq ! 90.4%.
15.3 Coeficiente de determinacin mltiple 655
Al aumentar el nmero de En la figura 15.3 el valor de R-sq para la ecuacin de regresin estimada con una sola va-
variables independientes riable, nmero de millas recorridas (x1), es 66.4%. Por tanto, al agregar el nmero de entregas
los errores de prediccin
como una variable independiente ms, el porcentaje de variabilidad en el tiempo de recorrido
se hacen ms pequeos, con
lo que se reduce la suma explicado por la ecuacin de regresin estimada aumenta de 66.4 a 90.4%. En general, siempre
de cuadrados debido al que se aade una variable independiente al modelo, R 2 aumenta.
error, SCE. Como SCR ! Muchos analistas prefieren ajustar R 2 al nmero de variables independientes para evitar so-
STC $ SCE, cuando SCE breestimar el efecto que tiene agregar una variable independiente sobre la cantidad de la varia-
disminuye, SCR aumenta,
bilidad explicada por la ecuacin de regresin estimada. Siendo n el nmero de observaciones
lo cual ocasiona que
R 2 ! SCR/STC aumente. y p el nmero de variables independientes, el coeficiente de determinacin mltiple ajustado
se calcula como sigue.
Por tanto, una vez que el coeficiente de determinacin mltiple se ha ajustado a dos variables
independientes, su valor es de 0.88. En los resultados de Minitab de la figura 15.4 este valor
(expresado como porcentaje) se presenta como R-sq(adj) ! 87.6%; el valor obtenido arriba di-
fiere porque en los clculos se emple un valor redondeado de R 2.
NOTAS Y COMENTARIOS
Si el valor de R 2 es pequeo y el nmero de variables gativo; en tales casos, Minitab establece el cero como
independientes en el modelo es grande, el coeficiente coeficiente de determinacin ajustado.
de determinacin ajustado puede tomar un valor ne-
Ejercicios
Mtodos
11. En el ejercicio 1 se present la siguiente ecuacin de regresin estimada basada en 10 obser-
vaciones.
Aplicaciones
14. En el ejercicio 4 se proporcion la siguiente ecuacin de regresin estimada que relaciona las
ventas contra la inversin en inventario y los gastos de publicidad.
Los datos para desarrollar este modelo provienen de 10 tiendas; con esta informacin, la
STC ! 16 000 y la SCR ! 12 000.
a) Calcule R 2 para la ecuacin de regresin estimada.
b) Calcule R a2 .
c) Este modelo parece explicar gran parte de la variabilidad de los datos? Explique.
15. En el ejercicio 5 el propietario de Showtime Movie Theaters Inc. emple el anlisis de regre-
AUTO evaluacin sin mltiple para predecir el ingreso bruto ( y) en funcin de la publicidad en televisin (x1) y
la publicidad en los peridicos (x2 ). La ecuacin de regresin estimada es
WEB archivo La solucin obtenida con software proporciona STC ! 25.2 y SCR ! 23.435.
Showtime a) Calcule e interprete R2 y R a2 .
b) Cuando la publicidad en televisin es la variable independiente, R 2 ! 0.653 y R a2 ! 0.595.
Prefiere los resultados de la regresin mltiple? Explique.
16. En el ejercicio 6 se presentaron los datos sobre la proporcin de juegos ganados, la cantidad
WEB archivo de jonrones del equipo y el promedio de carreras permitidas por el equipo lanzador para los 16
MLB
equipos de la Liga Nacional que participaron en la temporada de las Grandes Ligas de Beisbol
de 2003 (sitio web de USA Today, 7 de enero de 2004).
a) La ecuacin de regresin estimada aporta un buen ajuste para predecir la proporcin de
juegos ganados si tiene como nica variable independiente la cantidad de jonrones? Ex-
plique.
b) Analice la ventaja de usar tanto la cantidad de jonrones como el promedio de carreras
ganadas para predecir la proporcin de juegos ganados.
17. En el ejercicio 9 se obtuvo una ecuacin de regresin estimada que relaciona la velocidad
WEB archivo mxima de un bote con la manga y los caballos de fuerza del motor.
Boats
a) Calcule e interprete R 2 y R a2 .
b) Esta ecuacin de regresin estimada proporciona un buen ajuste? Explique.
18. Remtase al ejercicio 10, en el que se presentaron varios datos estadsticos de 29 equipos de la
WEB archivo NBA en parte de la temporada 2004 (sitio web de la NBA, 3 de enero de 2004).
NBA
a) En el inciso c) del ejercicio 10 se obtuvo una ecuacin de regresin estimada que arroj la
proporcin de juegos ganados dado el porcentaje de anotaciones de campo del equipo,
la proporcin de tiros de tres puntos del conjunto contrario y la cantidad de recuperaciones
de baln del equipo adversario. Cules son los valores de R 2 y R a2 ?
b) Esta ecuacin de regresin estimada proporciona un buen ajuste a los datos? Explique.
15.4 Supuestos del modelo 657
Los supuestos acerca del trmino del error # en el modelo de regresin mltiple son anlo-
gos a los supuestos en el modelo de regresin lineal simple.
1. El trmino del error # es una variable aleatoria cuya media o valor esperado es
cero, es decir, E(#) ! 0
Consecuencia. Para los valores dados de x1, x2, . . . , xp, el valor esperado o va-
lor promedio de y est dado por
Para entender mejor la forma de la relacin dada por la ecuacin (15.11), considere la si-
guiente ecuacin de regresin mltiple con dos variables independientes.
y Valor de y cuando
x1 ! x*1 y x 2 ! x *2
E( y) cuando
Plano que corresponde # x1 ! x*1 y x 2 ! x*2
a E( y) ! 0 " 1 x1 " 2 x2
x*2
x*1
x2 (x*1, x*2)
x1
Punto que corresponde a
x1 ! x1* y x 2 ! x*2
Prueba F
El modelo de regresin mltiple que se defini en la seccin 15.4 es
H0: 1 ! 2 ! . . . ! p ! 0
Ha: uno o ms de los parmetros es distinto de cero
15.5 Prueba de significancia 659
SCR
CMR " (15.12)
p
SCE
CME " (15.13)
n!p!1
Como se vio en el captulo 14, CME proporciona una estimacin insesgada de 2, la varianza
del trmino del error #. Si H0: 1 " 2 " . . . " p " 0 es verdadera, CMR tambin provee un
estimador insesgado de 2, y el valor de CMR/CME ser cercano a 1. Pero si H0 es falsa, el CMR
sobreestima 2 y el valor de CMR/CME ser mayor. Para determinar qu tan grande debe ser este
valor para que H0 sea rechazada, se retoma el hecho de que si H0 es verdadera y los supuestos
acerca del modelo de regresin mltiple son vlidos, la distribucin muestral de CMR/CME es
una distribucin F con p grados de libertad en el numerador y n ! p ! 1 en el denominador. A
continuacin se presenta un resumen de la prueba F de significancia para la regresin mltiple.
ESTADSTICO DE PRUEBA
CMR
F" (15.14)
CME
REGLA DE RECHAZO
FIGURA 15.6 Resultado de Minitab para el ejemplo de Butler Trucking con dos variables
independientes, millas recorridas (x1) y nmero de entregas (x2)
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 21.601 10.800 32.88 0.000
Residual Error 7 2.299 0.328
Total 9 23.900
En la figura 15.6 se presentan los resultados de Minitab para el modelo de regresin mltiple
con dos variables independientes: millas recorridas (x1) y nmero de entregas (x2). En la parte
que corresponde al anlisis de varianza, vemos que CMR " 10.8 y CME " 0.328. Con la ecua-
cin (15.14) obtenemos el valor del estadstico de prueba.
10.8
F" " 32.9
0.328
Observe que el valor de F en los resultados de Minitab es F " 32.88; este valor difiere del es-
timado aqu debido a que en los clculos se emplearon los valores redondeados de CMR y CME.
Con " 0.01, el valor-p " 0.000 que aparece en la ltima columna de la tabla del anlisis de
varianza (figura 15.6) indica que H0: 1 " 2 " 0 puede ser rechazada debido a que el valor-p
es menor que " 0.01. De manera alterna, en la tabla 4 del apndice B observamos que con
2 grados de libertad en el numerador y 7 en el denominador, F0.01 " 9.55. Como 32.9 & 9.55,
H0: 1 " 2 " 0 es rechazada, y se concluye que existe una relacin significativa entre el tiem-
po de recorrido y y las dos variables independientes, millas recorridas y nmero de entregas.
Como ya se indic, el error cuadrado medio proporciona un estimador insesgado de 2, la
varianza del trmino del error #. En la figura 15.6 vemos que la estimacin de 2 es CME "
0.328. La raz cuadrada del CME es la estimacin de la desviacin del trmino del error. Como
se defini en la seccin 14.5, esta desviacin es el error estndar de estimacin que se denota s.
Por tanto, tenemos que s " "CME " "0.328 " 0.573. Observe que este valor del error estndar
de estimacin aparece en los resultados de Minitab de la figura 15.6.
La tabla 15.3 es la tabla general para el anlisis de varianza (ANOVA) que proporciona los
resultados de la prueba F para un modelo de regresin mltiple. El valor del estadstico de
prueba F aparece en la ltima columna y debe compararse con F con p grados de libertad en
el numerador y n ! p ! 1 grados de libertad en el denominador para obtener la conclusin de
la prueba de hiptesis. Revisando los resultados de Minitab para el ejemplo de Butler Trucker
Company de la figura 15.6, vemos que la tabla del anlisis de varianza contiene esta informa-
cin. Adems, Minitab tambin proporciona el respectivo valor-p al estadstico de prueba F.
15.5 Prueba de significancia 661
TABLA 15.3 Tabla ANOVA para el modelo de regresin mltiple con p variables independientes
Suma de Grados de
Fuente cuadrados libertad Cuadrado medio F
SCR CMR
Regresin SCR p CMR " F"
p CME
SCE
Error SCE n!p!1 CME "
n!p!1
Total STC n!1
Prueba t
Si la prueba F indica que la relacin de regresin mltiple es significativa, entonces podemos
realizar una prueba t para determinar la significancia de cada uno de los parmetros. A continua-
cin se presenta la prueba t de significancia para el efecto.
H0: i " 0
Ha: i ' 0
ESTADSTICO DE PRUEBA
bi
t" (15.15)
sbi
REGLA DE RECHAZO
Con la ecuacin (15.15) obtenemos el estadstico de prueba para las hiptesis en que intervie-
nen 1 y 2 .
Observe que los valores de estas dos razones-t y sus correspondientes valores-p aparecen en
la figura 15.6. Usando " 0.01, los valores-p 0.000 y 0.004 en los resultados de Minitab
indican que H0: 1 " 0 y H0: 2 " 0 pueden ser rechazadas. As, ambos parmetros son es-
tadsticamente significativos. Tambin en la tabla 2 del apndice B se encuentra que con n !
p ! 1 " 10 ! 2 ! 1 " 7 grados de libertad, t0.005 " 3.499. Como 6.18 & 3.499, H0: 1 " 0
es rechazada. De manera similar, como 4.18 & 3.499, H0: 2 " 0 es rechazada.
Multicolinealidad
En el anlisis de regresin se recurre al trmino variable independiente para referirse a cualquier
variable utilizada para predecir o explicar el valor de la variable dependiente. Sin embargo, este
trmino no significa que tales variables sean independientes entre ellas en sentido estadstico.
Al contrario, en un problema de regresin mltiple la mayora de las variables independientes
estn, en cierto grado, correlacionadas unas con otras. En el ejemplo de Butler Trucking con dos
variables independientes x1 (millas recorridas) y x2 (nmero de entregas), las millas recorridas
pueden tratarse como la variable dependiente y el nmero de entregas como la variable inde-
pendiente para determinar si ambas estn relacionadas entre s. Despus se calcula el coeficiente
de correlacin muestral rx1x2 para determinar la magnitud de tal relacin. Con esto obtenemos
rx1x2 " 0.16. Por tanto, se encuentra que existe cierto grado de relacin lineal entre estas dos va-
riables independientes. En el anlisis de regresin mltiple, la multicolinealidad expresa la
correlacin entre las variables independientes.
Para tener una mejor perspectiva de los problemas potenciales de la multicolinealidad, se
considerar una modificacin al ejemplo de Butler Trucking. En lugar de que x2 sea el nmero
de entregas, denotar el nmero de galones de gasolina consumidos. Es claro que x1 (las mi-
llas recorridas) y x2 estn relacionadas, es decir, se sabe que el nmero de galones de gasolina
consumidos depende del nmero de millas recorridas. Por tanto, se concluir que x1 y x2 son
variables independientes fuertemente correlacionadas.
Suponga que se obtiene la ecuacin y " b0 ( b1x1 ( b2 x 2 y que la prueba F indica que
esta relacin es significativa. Despus suponga que se realiza la prueba t para 1 a efecto
de determinar si 1 ' 0 y H0: 1 " 0 no puede ser rechazada. Esto significa que el tiempo de
recorrido no est relacionado con las millas recorridas? No necesariamente. Lo que probable-
mente significa es que estando x2 en el modelo, x1 no tiene una contribucin significativa en
la determinacin del valor de y. En el presente ejemplo esta interpretacin parece razonable;
conociendo la cantidad de gasolina consumida, no se gana ms informacin para la predic-
cin de y conociendo el nmero de millas recorridas. De manera similar, una prueba t puede
llevar a la conclusin de que 2 " 0 con base en que, cuando x1 est en el modelo, no se gana
mucho al conocer la cantidad de gasolina consumida.
Valores del coeficiente
de correlacin muestral
En resumen, en las pruebas t para la significancia de cada uno de los parmetros, la difi-
mayores que (0.7 cultad ocasionada por la multicolinealidad lleva a concluir que ninguno de los parmetros es
o menores que !0.7 significativamente distinto de cero cuando la prueba F sobre la ecuacin de regresin mltiple
para dos variables general indica que hay una relacin significante. Este problema se evita cuando existe poca
independientes, es un regla
correlacin entre las variables independientes.
general que alerta sobre
problemas potenciales de Se han desarrollado diversas pruebas a efecto de determinar si la multicolinealidad es lo
multicolinealidad. suficientemente alta para ocasionar problemas. Con base en una regla prctica, la multicolinea-
lidad es un problema potencial si el valor absoluto del coeficiente de correlacin muestral es
Cuando las variables
independientes mayor de 0.7 para cualquier par de variables independientes. Otros tipos de pruebas son ms
estn fuertemente avanzados y quedan fuera del alcance de este libro.
correlacionadas, es Siempre que sea posible, debe evitarse incluir variables independientes fuertemente co-
imposible determinar rrelacionadas. Sin embargo, en la prctica, la estricta adherencia a esta conducta raramente es
por separado el efecto de
cada una de las variables
posible. Cuando las personas que toman las decisiones tienen razones para creer que existe una
independientes sobre la multicolinealidad importante, se darn cuenta de que es difcil separar los efectos de cada
variable dependiente. una de las variables independientes sobre la variable dependiente.
15.5 Prueba de significancia 663
NOTAS Y COMENTARIOS
Por lo general, la multicolinealidad no afecta la ma- errneo. Esto es, en estudios simulados en los que los
nera en que se realiza el anlisis de regresin o en que investigadores crearon el modelo de regresin sub-
se interpretan los resultados de un estudio. Pero si es yacente y despus aplicaron el mtodo de mnimos
severa esto es, cuando dos o ms variables inde- cuadrados para obtener estimaciones de 0, 1, 2,
pendientes estn altamente correlacionados una con etc., se ha demostrado que en condiciones de fuerte
otra, podemos tener dificultades al interpretar los multicolinealidad, las estimaciones obtenidas por m-
resultados de las pruebas t acerca de cada uno de nimos cuadrados pueden tener signo opuesto al del
los parmetros. Adems del tipo de problemas ilus- parmetro que se estima. Por ejemplo, b2 puede ser
trados en esta seccin, se ha demostrado que los en realidad (10 y 2 , su estimacin, resulta ser !2.
casos severos de multicolinealidad dan como resul- Por tanto, si existe una fuerte multicolinealidad, podr
tado estimacio-nes por mnimos cuadrados con signo tenerse poca confianza en los coeficientes.
Ejercicios
Mtodos
19. En el ejercicio 1 se present la siguiente ecuacin de regresin estimada basada en 10 obser-
AUTO evaluacin vaciones.
donde STC " 6 724.125, SCR " 6 216.375, sb1 " 0.0813 y sb2 " 0.0567.
a) Calcule CMR y CME.
b) Determine F y realice la prueba F adecuada. Use " 0.05.
c) Realice una prueba t para la significancia de 1. Utilice " 0.05.
d) Efecte una prueba t para la significancia de 2. Utilice " 0.05.
20. Remtase a los datos presentados en el ejercicio 2. La ecuacin de regresin estimada de estos
datos es
Donde STC " 15 182.9, SCR " 14 052.2, sb1 " 0.2471 y sb2 " 0.9484.
a) Realice una prueba para determinar si hay una relacin significativa entre x1, x2 y y. Use
" 0.05.
b) Es significativo 1? Considere " 0.05.
c) Es significativo 2? Use " 0.05.
21. Se obtuvo la siguiente ecuacin de regresin estimada para un modelo con dos variables inde-
pendientes.
Despus de eliminar x2 del modelo, se emple el mtodo de mnimos cuadrados para obtener
una ecuacin de regresin estimada con una sola variable independiente, x1.
Aplicaciones
22. En el ejercicio 4 se proporcion la siguiente ecuacin de regresin estimada que relaciona las
ventas contra la inversin en inventario y los gastos de publicidad.
y " 25 ( 10x 1 ( 8x 2
Los datos utilizados para obtener el modelo provinieron de un estudio realizado a 10 tiendas;
para estos datos, STC " 16 000 y SCR " 12 000.
a) Calcule SCE, CME y CMR.
b) Use la prueba F y 0.05 como nivel de significancia para determinar si existe una relacin
entre las variables.
23. Remtase al ejercicio 5.
AUTO evaluacin a) Use " 0.01 para probar las hiptesis
H 0: 1 " 2 " 0
H a: 1 y/o 2 no son iguales a cero
b) Tome " 0.05 para probar la significancia de 1 ; debe ser eliminada x1 del modelo?
c) Use " 0.05 para probar la significancia de 2 ; debe ser eliminada x2 del modelo?
24. The Wall Street Journal realiz un estudio acerca de los gastos que realizan las mejores univer-
sidades en el basquetbol. Una parte de los datos se lista a continuacin e incluye algunas escue-
las (School), los ingresos (Revenue) en millones de $, el porcentaje de victorias (% Wins) y el
sueldo del entrenador (Salary) en millones de $ de 39 de los mejores programas de basquetbol
de Estados Unidos (The Wall Street Journal, 11-12 de marzo de 2006).
a) Desarrolle la ecuacin de regresin estimada para predecir el sueldo del entrenador dados
los ingresos generados por el programa y el porcentaje de victorias.
b) Use la prueba F para determinar la significancia global de la relacin. Cul es su conclu-
sin empleando 0.05 como nivel de significancia?
c) Utilice la prueba t para determinar la significancia de cada una de las variables indepen-
dientes. Cul es su conclusin con un nivel de significancia de 0.05?
25. Barrons realiza revisiones anuales de los corredores de bolsa en lnea, en las que se incluyen
tanto aquellos a los que se puede contactar va un navegador de Internet, como corredores que
tienen acceso directo y colocan al cliente en contacto directo con el servidor de una red de
agentes burstiles. La oferta y el desempeo de cada corredor se evalan en seis reas, con una
escala de 0 a 5 para cada categora. Los resultados se ponderan para obtener una evaluacin
15.6 Uso de la ecuacin de regresin estimada para estimaciones y predicciones 665
general, y a cada agente se le asigna una clasificacin final que va de cero a cinco estrellas. Tres
de las reas evaluadas son ejecucin de la operacin, facilidad de uso y gama de ofertas. Un
valor de 5 en la primera significa que la llegada del pedido y el proceso de ejecucin fluyeron
con facilidad de un paso al siguiente. En la segunda rea, un valor de 5 significa que el sitio es
de manejo accesible y que podemos ajustar para identificar lo que le interesa ver al usuario. Por
ltimo, un valor de 5 en gama de ofertas indica que todas las transacciones pueden realizarse
en lnea. En los datos siguientes se presentan las puntuaciones obtenidas en la ejecucin de la
operacin (Trade Execution), facilidad de uso (Use), rango de ofertas (Range) y clasificacin
por estrellas (Rating) obtenidas por los integrantes de una muestra de 10 corredores de bolsa
(Broker) (Barrons, 10 de marzo de 2003).
Trade
Broker Execution Use Range Rating
WEB archivo Wall St. Access 3.7 4.5 4.8 4.0
E*TRADE (Power) 3.4 3.0 4.2 3.5
Brokers
E*TRADE (Standard) 2.5 4.0 4.0 3.5
Preferred Trade 4.8 3.7 3.4 3.5
my Track 4.0 3.5 3.2 3.5
TD Waterhouse 3.0 3.0 4.6 3.5
Brown & Co. 2.7 2.5 3.3 3.0
Brokerage America 1.7 3.5 3.1 3.0
Merrill Lynch Direct 2.2 2.7 3.0 2.5
Strong Funds 1.4 3.6 2.5 2.0
a) Defina una ecuacin de regresin estimada para predecir la clasificacin por estrellas da-
dos los valores de ejecucin, facilidad de uso y rango de ofertas.
b) Use la prueba F para determinar la significancia global de la relacin. Cul es su conclu-
sin empleando 0.05 como nivel de significancia?
c) Utilice la prueba t para determinar la significancia de cada variable independiente. Cul
es su conclusin utilizando 0.05 como nivel de significancia?
d) Elimine cualquiera de las variables independientes que no sea significativa para la ecua-
cin de regresin estimada. Cul ecuacin de regresin estimada recomienda? Compare
R 2 con el valor de R 2 del inciso a). Analice las diferencias.
26. En el ejercicio 10 se obtuvo una ecuacin de regresin estimada relacionada con la proporcin
WEB archivo de juegos ganados cuando se conoca la proporcin de anotaciones de campo del equipo, la
NBA
proporcin de tiros de tres puntos del conjunto contrario y la cantidad de prdidas de baln del
equipo adversario.
a) Use la prueba F para determinar la significancia global de la relacin. Cul es su conclu-
sin utilizando 0.05 como nivel de significancia?
b) Considere la prueba t para determinar la significancia de cada una de las variables inde-
pendientes. Cul es su conclusin utilizando 0.05 como nivel de significancia?
TABLA 15.4 Intervalos de 95% de confianza y de prediccin para el ejemplo de Butler Trucking
ecuacin de regresin estimada con x1 (millas recorridas) y x2 (nmero de entregas) para obtener
dos estimaciones por intervalo:
1. Un intervalo de confianza para la media del tiempo de recorrido de todos los camiones
que recorren 100 millas y efectan dos entregas.
2. Un intervalo de prediccin para el tiempo de recorrido de un determinado camin que
recorre 100 millas y efecta dos entregas.
Utilizando la ecuacin de regresin estimada y " !0.869 ( 0.0611x1 ( 0.923x2 con x1 " 100
y x2 " 2, obtenemos el siguiente valor de y .
Por tanto, en ambos casos la estimacin puntual del tiempo de recorrido es aproximadamente
de 7 horas.
Para obtener las estimaciones por intervalo del valor medio de y y un solo valor de y se uti-
lizan procedimientos similares a los aplicados en el anlisis de regresin con una sola variable
independiente. Las frmulas que se necesitan quedan fuera del alcance de este libro, sin embar-
go, el software para el anlisis de regresin mltiple suele proporcionar intervalos de confianza
una vez que el usuario especifica los valores de x1, x2, . . . , xp. En la tabla 15.4 se presentan
los intervalos de 95% de confianza y de prediccin para algunos valores de x1 y x2 selecciona-
dos del ejemplo de Butler Trucking. Estos valores se obtuvieron usando Minitab. Observe que
las estimaciones por intervalo para un solo valor de y proporcionan valores ms amplios que las
estimaciones por intervalo para el valor esperado de y. Esta diferencia refleja simplemente que,
dados los valores x1 y x2, podemos estimar con mayor precisin el tiempo medio de recorrido de
todos los camiones, que predecir el de un determinado camin.
Ejercicios
Mtodos
27. En el ejercicio 1 se present la siguiente ecuacin de regresin estimada basada en 10 obser-
vaciones.
a) Desarrolle una estimacin puntual del valor medio de y para x1 " 180 y x2 " 310.
b) Obtenga una estimacin puntual para un solo valor de y cuando x1 " 180 y x2 " 310.
28. Remtase al ejercicio 2. La ecuacin de regresin estimada de los datos es
AUTO evaluacin
y " !18.4 ( 2.01x 1 ( 4.74x 2
15.6 Uso de la ecuacin de regresin estimada para estimaciones y predicciones 667
Aplicaciones
29. En el ejercicio 5, el propietario de Showtime Movie Theater, Inc. emple el anlisis de regre-
AUTO evaluacin sin mltiple para predecir el ingreso bruto ( y) en funcin de la publicidad en televisin (x1) y
de la publicidad en peridicos (x2). La ecuacin de regresin estimada fue
a) Cul ser el ingreso bruto esperado en una semana en la que se gastan $3 500 en publici-
dad en televisin (x1 " 3.5) y $1 800 en publicidad en peridicos (x2 " 1.8)?
b) Proporcione un intervalo de 95% de confianza para el ingreso medio de todas las semanas
en las que los gastos son los indicados en el inciso a).
c) Determine un intervalo de 95% de prediccin para la media del ingreso de una semana
asumiendo que los gastos son los indicados en el inciso a).
30. En el ejercicio 9 se obtuvo una ecuacin de regresin estimada que relacionaba la velocidad
WEB archivo mxima de un bote con su manga y sus caballos de fuerza.
Boats
a) Proporcione un intervalo de 95% de confianza para la media de la velocidad mxima de un
bote cuya manga es de 85 pulgadas y cuyo motor tiene 330 caballos de fuerza.
b) La Svfara SV609 tiene una manga de 85 pulgadas y un motor de 330 caballos de fuerza.
Desarrolle un intervalo de 95% de confianza para la media de la velocidad mxima de la
Svfara SV609.
31. La seccin Gua para el usuario del sitio web de la revista Car and Driver proporciona infor-
macin sobre pruebas de carretera de automviles, camiones, SUV y vans. Las puntuaciones
incluyen calidad general (Overall), estilo de vehculo, frenado, manejo (Handling), economa
de combustible, confort interior, aceleracin, confiabilidad (Dependability), ajuste y acabado
(Fit and Finish), y transmisin atribuidos a diversos vehculos con una escala de 1 (lo peor) a
10 (lo mejor). Aqu se presenta una parte de los datos de 14 automviles deportivos/GT (sitio
web de Car and Driver, 7 de enero de 2004).
d) Desarrolle un intervalo de prediccin de 95% para la calidad general del Honda Accord
descrito en el inciso b).
e) La evaluacin general de Car and Driver para el Honda Accord fue 8.65. Compare esta
calificacin con las estimaciones obtenidas en los incisos b) y d).
y " 0 ( 1x1 ( #
Usando Minitab para obtener la ecuacin de regresin estimada se tienen los resultados de la
figura 15.7. La ecuacin de regresin estimada es
Con 0.05 como nivel de significancia, el valor-p de 0.016 para la prueba t (o F) indica que
el nmero de meses transcurridos desde el ltimo servicio est relacionado significativamente
con el tiempo que se requiere para la reparacin. R-sq " 53.4% indica que x1 explica slo
53.4% de la variabilidad en el tiempo necesario para una reparacin.
FIGURA 15.7 Resultado de Minitab para el problema de Johnson Filtration con (x1),
nmero de meses desde el ltimo servicio, como variable independiente
SOURCE DF SS MS F p
Regression 1 5.5960 5.5960 9.17 0.016
Residual Error 8 4.8800 0.6100
Total 9 10.4760
y " 0 ( 1x1 ( 2 x 2 ( #
En la tabla 15.6 se presentan los datos de la tabla 15.5, ms los valores de la variable ficticia.
Customer indica cliente; Months Since Last Service, meses desde el ltimo servicio; Type of
Repair, tipo de reparacin, y Repair Time in Hours, tiempo de reparacin en horas. Con Minitab
y los datos de la tabla 15.6 se obtienen estimaciones para los parmetros del modelo. En el resul-
tado de Minitab de la figura 15.8 se puede ver que la ecuacin de regresin mltiple estimada es
TABLA 15.6 Datos para el ejemplo de Johnson Filtration con el tipo de reparacin indicado
por una variable ficticia (x2 " 0 si es mecnica; x2 " 1 si es elctrica)
FIGURA 15.8 Resultado de Minitab para el ejemplo de Johnson Filtration con (x1),
meses desde el ltimo servicio, y (x2), tipo de reparacin, como variables
independientes
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 9.0009 4.5005 21.36 0.001
Residual Error 7 1.4751 0.2107
Total 9 10.4760
Para entender cmo interpretar los parmetros 0, 1 y 2 cuando hay una variable cualitativa,
considrese el caso en que x 2 " 0 (reparacin mecnica). Usando E(y | mecnica) para denotar
la media o valor esperado del tiempo necesario para una reparacin dado que sta es mecnica,
tenemos
Al comparar las ecuaciones (15.19) y (15.20) vemos que la media del tiempo requerido para
efectuar una reparacin es funcin lineal de x1, tanto cuando es de tipo mecnico como elctri-
co. La pendiente en ambas ecuaciones es 1, pero la interseccin con el eje y vara. En la ecua-
cin (15.19) para las reparaciones mecnicas, la interseccin con el eje y es 0, y en la ecuacin
(15.20) para las reparaciones elctricas, la interseccin es ( 0 ( 2). La interpretacin de 2
indica la diferencia entre las medias del tiempo requerido para una reparacin elctrica y una
reparacin mecnica.
15.7 Variables independientes cualitativas 671
Si 2 es positiva, la media del tiempo necesario para una reparacin elctrica ser mayor
que para una mecnica; si 2 es negativa, la media del tiempo requerido para una reparacin
elctrica ser menor que para la mecnica. Por ltimo, si 2 " 0, no hay diferencia entre las me-
dias del tiempo que se necesita para ambos trabajos, y el tipo de reparacin no est relacionado
con el tiempo necesario para efectuarla.
Utilizando la ecuacin de regresin mltiple estimada y " 0.93 ( 0.388x 1 ( 1.26x 2,
vemos que 0.93 es la estimacin de 0 y la estimacin de 2 es 1.26. Por tanto, cuando x2 " 0
(reparacin mecnica)
De esta manera, el uso de una variable ficticia para el tipo de reparacin proporciona dos ecua-
ciones para predecir el tiempo requerido para efectuarla: una ecuacin corresponde a las re-
paraciones mecnicas y la otra a las elctricas. Adems, como b2 " 1.26, sabemos que, en
promedio, en las reparaciones elctricas se necesitan 1.26 horas ms que en las mecnicas.
En la figura 15.9 se presenta una grfica con los datos de la tabla 15.6. El tiempo de re-
paracin en horas (y) se representa en el eje vertical y los meses transcurridos desde el ltimo
servicio (x 1) en el eje horizontal. Los puntos que corresponden a una reparacin mecnica se
indican con una M y los que corresponden a una reparacin elctrica con una E. En esta grfi-
ca se representan tambin las ecuaciones (15.21) y (15.22) con objeto de mostrar las dos ecua-
ciones que sirven para predecir el tiempo que se requerir para una y otra reparacin.
FIGURA 15.9 Diagrama de dispersin para los datos de reparacin de Johnson Filtration de la
tabla 15.6
y
E
5 E, M
E E
4 a) M
ric
ct
Tiempo de reparacin (horas)
(el
88x 1
0.3
9"
3 2.1
y ! ) M
E, E ica
ecn
(m
88x 1
2 0.3
3"
0.9
y ! M
1 M ! reparacin mecnica
E ! reparacin elctrica
x1
0 1 2 3 4 5 6 7 8 9 10
Meses desde el ltimo servicio
672 Captulo 15 Regresin mltiple
1 si la regin de ventas es B
x1 "
0 si no es el caso
1 si la regin de ventas es C
x2 "
0 si no es el caso
Regin x1 x2
A 0 0
B 1 0
C 0 1
Para interpretar los parmetros 0, 1 y 2 , considere las siguientes tres variaciones de la ecua-
cin de regresin.
Por tanto, 0 es la media o valor esperado de las ventas en la regin A; 1 es la diferencia entre
las medias del nmero de unidades vendidas entre la regin B y la regin A, y 2 es la diferencia
entre las medias del nmero de unidades vendidas en la regin C y la regin A.
Se necesitaron dos variables ficticias debido a que la regin de ventas es una variable cua-
litativa con tres niveles. Sin embargo, la asignacin de x1 " 0, x 2 " 0 para identificar la regin
A; x1 " 1, x 2 " 0 para identificar la regin B, y x1 " 0, x 2 " 1 para la regin C fue arbitraria.
15.7 Variables independientes cualitativas 673
De igual manera se podra haber elegido, por ejemplo, x1 = 1, x2 " 0 para identificar la regin A,
x1 " 0, x 2 " 0 para la B y x1 " 0, x 2 " 1 para la C. En ese caso, 1 se habra interpretado como
la media de la diferencia entre las regiones A y B, y 2 como la media de la diferencia entre
C y B.
Es importante recordar que en el anlisis de regresin mltiple, cuando una variable cua-
litativa tiene k niveles, se requieren k ! 1 variables ficticias. Entonces, si en nuestro ejemplo
hubiera una cuarta regin, D, se necesitaran tres variables ficticias, las cuales se pueden codi-
ficar como sigue.
Ejercicios
Mtodos
32. Considere un estudio de regresin en el que intervienen una variable dependiente y, una varia-
AUTO evaluacin ble independiente cualitativa x1 y una variable cualitativa de dos niveles (nivel 1 y nivel 2).
a) Escriba la ecuacin de regresin mltiple que relacione x1 con la variable cualitativa y.
b) Cul es el valor esperado de y que corresponde al nivel 1 de la variable cualitativa?
c) Cul es el valor esperado de y que corresponde al nivel 2?
d) Interprete los parmetros de la ecuacin de regresin.
33. Considere un estudio de regresin en el que intervienen una variable dependiente y, una varia-
ble independiente cuantitativa x1 y una variable cualitativa de tres niveles (nivel 1, nivel 2 y
nivel 3).
a) Cuntas variables ficticias se requieren para representar la variable cualitativa?
b) Proporcione una ecuacin de regresin mltiple que relacione x1 con la variable cualita-
tiva y.
c) Interprete los parmetros de la ecuacin de regresin.
Aplicaciones
34. La gerencia propuso el siguiente modelo de regresin para predecir las ventas en un punto de
AUTO evaluacin venta de comida rpida.
y " 0 # 1x 1 # 2 x2 # 3 x3 # $
donde
Se obtuvo la siguiente ecuacin de regresin estimada con los datos de 20 puntos de venta.
35. Remtase al problema de Johnson Filtration presentado en esta seccin. Suponga que adems
de la informacin sobre los meses transcurridos desde el ltimo servicio (Months Since Last
Service), del tipo de reparacin (Type of Repair), mecnica (Mechanical) o elctrica (Electri-
cal), los gerentes presentan una lista con los tcnicos (Repairperson) que realizaron el servicio.
A continuacin se exponen los nuevos datos.
a) Por ahora ignore los meses transcurridos desde el ltimo servicio (x1) y el tcnico asignado.
Obtenga la ecuacin de regresin lineal simple estimada para predecir el tiempo que se
requiere para la reparacin ( y) dado el tipo de reparacin (x2). Recuerde que x2 " 0 si sta
es mecnica y x2 " 1 si es elctrica.
b) La ecuacin obtenida en el inciso a) proporciona un buen ajuste a los datos observados?
Explique.
c) Por ahora ignore los meses transcurridos desde el ltimo servicio y el tipo de reparacin.
Obtenga la ecuacin de regresin lineal simple estimada para predecir el tiempo necesa-
rio para la reparacin dado el tcnico que realiz el servicio. Sea x3 " 0 si ste fue reali-
zado por Bob Jones, y x3 " 1 si lo realiz Dave Newton.
d) La ecuacin obtenida en el inciso c) proporciona un buen ajuste a los datos observados?
Explique.
36. Este problema es una extensin de la situacin descrita en el ejercicio 35.
a) Obtenga la ecuacin de regresin estimada para predecir el tiempo que requiere una re-
paracin dados los meses transcurridos desde la ltima efectuada, el tipo de reparacin y
el tcnico que realiz el servicio.
b) Con un nivel de significancia de 0.05, realice una prueba para ver si la ecuacin de re-
gresin estimada obtenida en el inciso a) representa una relacin significativa entre las
variables independientes y la variable dependiente.
c) Es estadsticamente significativo agregar la variable x3, el tcnico que realiz el servi-
cio? Use " 0.05. Qu explicacin puede dar para los resultados observados?
37. El estudio de satisfaccin del cliente sobre restaurantes de Consumer Reports se basa en ms
de 148 599 visitas a diferentes cadenas de restaurantes de servicio completo (sitio web de
Consumer Reports, 11 de febrero de 2009). Suponga que los siguientes datos son representati-
vos de los resultados reportados. La variable tipo (Type), indica si el restaurante es de comida
italiana (Italian), o de mariscos/carnes (Seafood/Steakhouse). Precio (Price) indica la canti-
dad promedio que paga una persona por la comida y la bebida, menos la propina. Puntuacin
(Score) refleja la satisfaccin general de los comensales, con los valores ms altos indicando
mayor satisfaccin general. Podemos interpretar como muy satisfecho una puntuacin de 80.
a) Obtenga una ecuacin de regresin estimada que muestre cmo se relaciona la satisfaccin
general del cliente con la variable independiente precio promedio de la comida.
b) Utilizando como nivel de significancia 0.05, pruebe si la ecuacin de regresin estimada
obtenida en el inciso a) indica una relacin significativa entre la satisfaccin general del
cliente y el precio promedio de la comida.
c) Proporcione una variable ficticia para el tipo de restaurante (italiano o de mariscos/carnes).
d) Obtenga una ecuacin de regresin estimada que muestre cmo se relaciona la satisfaccin
general del cliente con el precio promedio de los alimentos y el tipo de restaurante.
e) Es el tipo de restaurante un factor significativo en la satisfaccin general del cliente?
f) Estime la puntuacin de satisfaccin del cliente de Consumer Reports para un restau-
rante de mariscos/carnes con un precio promedio de $20 por comida. Cunto cambiara
la puntuacin estimada para un restaurante italiano?
38. Un estudio realizado durante 10 aos por la Asociacin Estadounidense de Cardiologa pro-
porcion datos sobre la relacin que guardan la edad (Age), la presin sangunea (Pressure) y
el hbito de fumar sobre el riesgo de sufrir un infarto. Los datos que se listan a continuacin
se obtuvieron como parte de este estudio. El riesgo (Risk) se interpreta como la probabilidad
(multiplicada por 100) de que el paciente sufra un infarto en los prximos 10 aos. Para la va-
riable fumador (Smoker), defina una variable ficticia que tome los valores 1 si el individuo es
fumador y 0 si no lo es.
a) Obtenga la ecuacin de regresin estimada que relacione el riesgo de infarto con la edad,
la presin sangunea y si la persona fuma o no.
b) Fumar es un factor significativo para el riesgo de infarto? Explique. Use " 0.05.
c) Cul es la probabilidad de que Art Speen sufra un infarto en la prxima dcada si tie-
ne 68 aos, fuma y su presin sangunea es de 175? Qu recomendar el mdico a este
paciente?
yi ! yi
(15.23)
syi ! y i
donde
La frmula general para obtener la desviacin estndar del residual i est definida como se
indica a continuacin.
donde
es muy complicado como para efectuarlo a mano. Sin embargo, los residuales estandarizados
se obtienen fcilmente con el software para estadstica. En la tabla 15.7 se listan valores pro-
nosticados, residuales y residuales estandarizados con los datos del ejemplo de Butler Trucking
presentado previamente en este captulo; estos valores se obtuvieron mediante Minitab. Los
valores pronosticados de la tabla estn basados en la ecuacin de regresin estimada y "
!0.869 # 0.0611x 1 # 0.923x 2.
Los residuales estandarizados y los valores pronosticados de y de la tabla 15.7 se utiliza-
ron en la figura 15.10, la grfica de residuales estandarizados para el ejemplo de regresin ml-
tiple de Butler Trucking. En esta grfica no se observa ninguna anormalidad. Adems, todos
los residuales estandarizados se encuentran entre !2 y #2; por tanto, no hay ninguna razn
para cuestionar el supuesto de que el trmino del error $ est distribuido normalmente. As, se
concluye que los supuestos del modelo son razonables.
"2
Residuales estandarizados
"1
!1
!2
y
4 5 6 7 8 9
678 Captulo 15 Regresin mltiple
Para determinar si la distribucin de " parece ser normal, tambin se usa una grfica de pro-
babilidad normal. En la seccin 14.8 se discuti el procedimiento y la interpretacin de ese
tipo de grfica. Ese mismo procedimiento es adecuado para la regresin mltiple. La grfica de
probabilidad normal se puede obtener con un software para estadstica que realice los clculos.
Observaciones influyentes
En la seccin 14.9 se estudi cmo utilizar la influencia de una observacin para identificar
observaciones cuyo valor de la variable independiente puede tener una fuerte influencia en los
resultados de la regresin. Como se indic respecto de los residuales estandarizados, la influen-
cia de una observacin, que se denota hi , mide qu tan lejos de sus medias se encuentran los
valores de las variables independientes. Los valores de influencia se obtienen como parte de
los resultados que proporciona el software para estadstica. Minitab calcula estos valores, y
para detectar observaciones influyentes emplea la regla hi % 3(p # 1)/n. En el ejemplo de
Butler Trucking, como hay p $ 2 variables independientes y n $ 10 observaciones, el valor
crtico para la influencia es 3(2 # 1)/10 $ 0.9. En la tabla 15.9 se presentan los valores de
influencia correspondientes al ejemplo de Butler Trucking obtenidos con Minitab. Como nin-
TABLA 15.10 guno de los valores hi es mayor que 0.9, en este conjunto de datos no se detectan observacio-
Conjunto de datos nes influyentes.
que ilustran problemas
potenciales usando el Uso de la medida de la distancia de Cook
criterio de influencia para identificar observaciones influyentes
Influencia Un problema potencial al usar la influencia para identificar observaciones influyentes es la po-
xi yi hi
sibilidad de identificar una observacin como fuertemente influyente sin que necesariamente lo
1 18 0.204170
1 21 0.204170 sea en trminos de la ecuacin de regresin estimada que se obtiene. Por ejemplo, en la tabla
2 22 0.164205 15.10 se presenta un conjunto de datos que consta de ocho observaciones y sus correspondien-
3 21 0.138141 tes valores de influencia (obtenidos con Minitab). Como la influencia de la ltima observacin
4 23 0.125977
4 24 0.125977 es 0.91 % 0.75 (el valor de influencia crtico), se le identificar como observacin influyente.
5 26 0.127715 Sin embargo, antes de aceptar una conclusin final, considere la situacin desde una perspec-
15 39 0.909644 tiva diferente.
680 Captulo 15 Regresin mltiple
FIGURA 15.11 Diagrama de dispersin obtenido con el conjunto de datos de la tabla 15.10
40
30
20
15
x
0 5 10 15
y $ 18.2 # 1.39x
La lnea recta que se observa en la figura 15.11 es la grfica de esta ecuacin. Ahora, si de este
conjunto de datos se elimina la observacin x $ 15, y $ 39, con las siete observaciones restan-
tes se obtiene una nueva ecuacin de regresin estimada:
y $ 18.1 # 1.42x
En la nueva ecuacin se observa que la interseccin con el eje y y la pendiente no tienen valo-
res significativamente diferentes a los de la ecuacin en la que se usan todos los datos. A pesar
de que con el criterio de influencia se identific la octava observacin como influyente, es claro
que tiene poca influencia en los resultados obtenidos. Por tanto, hay casos en los que emplear
nicamente la influencia para identificar las observaciones influyentes puede llevar a conclu-
siones errneas.
La medida de la distancia de Cook utiliza tanto la influencia de la observacin i, hi , como
el residual de la observacin i, (yi ! yi), para determinar si una observacin es influyente.
15.8 Anlisis residual 681
( yi # yi )2 hi
Di " (15.25)
( p $ 1)s 2 (1 # hi )2
donde
NOTAS Y COMENTARIOS
1. Los procedimientos para detectar observaciones 2. Para determinar si el valor de una medida de la
atpicas e influyentes permiten estar alerta acerca distancia de Cook Di es lo suficientemente grande
de los efectos potenciales de algunas observacio- como para concluir que la observacin isima es
nes en los resultados de la regresin. Cada obser- influyente, tambin puede compararse el valor de
vacin atpica o influyente justifica un examen Di con el percentil 50 de una distribucin F (deno-
cuidadoso. Si se encuentran errores en los datos, tado F0.50) con p $ 1 grados de libertad en el nu-
podemos corregirlos y repetir el anlisis de regre- merador y n # p # 1 grados de libertad en el
sin. En general, las observaciones atpicas y las denominador. Para esta prueba se necesita contar
influyentes no deben ser eliminadas del conjunto con tablas F a un nivel de significancia de 0.50.
de datos a menos que haya una evidencia clara La regla prctica proporcionada antes (Di ! 1) se
que indique que no provienen de elementos de la basa en el hecho de que en muchos casos los va-
poblacin en estudio y que no tenan que ser in- lores en la tabla son cercanos a 1.
cluidos en el conjunto de datos original.
Ejercicios
Mtodos
39. A continuacin se proporcionan datos para las variables x y y.
AUTO evaluacin
xi 1 2 3 4 5
yi 3 7 5 11 14
Aplicaciones
41. En el ejercicio 5 se presentaron los datos siguientes sobre el ingreso bruto semanal (Weekly
AUTO evaluacin Gross Revenue) y la publicidad tanto en televisin (Television Advertising) como en peridi-
cos (Newspaper Advertising) de Showtime Movie Theaters.
a) Proporcione una ecuacin de regresin estimada que relacione el ingreso bruto semanal
con los gastos en publicidad en televisin y peridicos.
b) Grafique los residuales estandarizados contra y. La grfica respalda los supuestos acer-
ca de %? Explique.
c) Revise que no haya observaciones atpicas en estos datos. A qu conclusin llega?
d) Hay alguna observacin influyente? Explique.
42. En los datos siguientes se presenta peso en vaco (Curb Weight), caballos de fuerza (Horse-
power) y velocidad en 4 de milla (Speed at 4 Mile) de 16 populares automviles deportivos
y de gran turismo (Sports & GT Car). Suponga que se tiene tambin el precio (Price) de cada
uno de estos vehculos. Todo el conjunto de datos es el siguiente.
Curb Speed at
Price Weight 1
4 Mile
Sports & GT Car ($1 000s) (lb) Horsepower (mph)
Acura Integra Type R 25.035 2577 195 90.7
WEB archivo Acura NSX-T 93.758 3066 290 108.0
BMW Z3 2.8 40.900 2844 189 93.2
Auto2 Chevrolet Camaro Z28 24.865 3439 305 103.2
Chevrolet Corvette Convertible 50.144 3246 345 102.1
Dodge Viper RT/10 69.742 3319 450 116.2
Ford Mustang GT 23.200 3227 225 91.7
Honda Prelude Type SH 26.382 3042 195 89.7
Mercedes-Benz CLK320 44.988 3240 215 93.0
Mercedes-Benz SLK230 42.762 3025 185 92.3
Mitsubishi 3000GT VR-4 47.518 3737 320 99.0
15.9 Regresin logstica 683
Curb Speed at
Price Weight 1
4 Mile
Sports & GT Car ($1 000s) (lb) Horsepower (mph)
Nissan 240SX SE 25.066 2862 155 84.6
Pontiac Firebird Trans Am 27.770 3455 305 103.2
Porsche Boxster 45.560 2822 201 93.2
Toyota Supra Turbo 40.989 3505 320 105.0
Volvo C70 41.120 3285 236 97.0
catlogos a cada uno de estos 100 clientes elegidos. Al final del periodo de prueba, Simmons
anota si los clientes han usado o no el cupn. En la tabla 15.11 se presentan los datos muestrales
de las 10 primeras personas (Customer) que recibieron el catlogo, y se incluye la siguiente in-
formacin: cantidad en miles de dlares gastada por el cliente en las tiendas Simmons durante
el ao anterior (Annual Spending), y la tarjeta de crdito de Simmons (Simmons Card) codifica-
da como 1 si el cliente la tiene y como 0 si no la tiene. En la columna correspondiente al cupn
(Coupon), 1 significa que el cliente us el cupn y 0 indica que no lo us.
Para ayudar a Simmons a predecir si las personas que reciban el catlogo usarn o no el
cupn, se podra pensar en construir un modelo de regresin mltiple con los datos de la tabla
15.11. Las variables independientes seran cantidad gastada anualmente en Simmons Stores y
tarjeta de crdito, en tanto que el cupn sera la variable dependiente. Sin embargo, el modelo
comn de regresin mltiple no es aplicable porque la variable dependiente slo puede tomar
los valores 0 y 1. Con este ejemplo se ilustra el tipo de situacin para la cual fue creada la
regresin logstica. A continuacin se ver cmo utilizarla para ayudar a Simmons Stores a
pronosticar qu tipo de clientes es ms probable que aproveche su promocin.
En la regresin logstica, tanto la teora como la prctica estadstica han demostrado que la
relacin existente entre E( y) y x1, x2, . . . , xp , queda mejor descrita por medio de la siguiente
ecuacin no lineal.
...
e 0$1x1$2 x 2$ $p xp
E(y) " ... (15.27)
1 $ e 0$1x1$2 x 2$ $p xp
Como los dos valores de la variable dependiente y son codificados como 0 y 1, el valor de
E( y) en la ecuacin (15.27) proporcionar la probabilidad de que y " 1 para un conjunto dado
Annual Spending
Customer ($1 000) Simmons Card Coupon
1 2.291 1 0
2 3.215 1 0
WEB archivo 3 2.135 1 0
4 3.924 0 0
Simmons 5 2.528 1 0
6 2.473 0 1
7 2.384 0 0
8 7.076 0 0
9 1.182 1 1
10 3.345 0 0
15.9 Regresin logstica 685
Para entender mejor las caractersticas de la ecuacin de regresin logstica, suponga que
el modelo slo involucra una variable independiente x y que los valores de los parmetros del
modelo son 0 " #7 y 1 " 3. La ecuacin de regresin logstica correspondiente a estos va-
lores de los parmetros es
e 0$1x e#7$3x
E( y) " P( y " 1%x) " 0$1x
" (15.29)
1$e 1 $ e#7$3x
En la figura 15.12 se muestra la grfica de la ecuacin (15.29). Observe que tiene forma de S. El
valor de E( y) va desde 0 hasta 1, aproximndose gradualmente a medida que el valor de x au-
menta, y a 0 a medida que el valor de x disminuye. Observe tambin que el valor de E( y), que
representa la probabilidad, se incrementa rpidamente al aumentar x de 2 a 3. El hecho de
que los valores de E( y) vayan de 0 a 1 y que la curva tenga forma de S hacen la ecuacin (15.29)
ideal para modelar la probabilidad de que la variable dependiente sea igual a 1.
1.0
0.8
0.6
E( y)
0.4
0.2
0.0
0 1 2 3 4 5
0 si el cliente no us el cupn
y"
1 si el cliente us el cupn
x1 " cantidad anual gastada en Simmons Stores (en miles de $)
0 si el cliente no tiene tarjeta de crdito de Simmons
x2 "
1 si el cliente tiene tarjeta de crdito de Simmons
Por tanto, se elige una ecuacin de regresin logstica con dos variables independientes.
e 0$1x1$2 x 2
E( y) " (15.31)
1 $ e 0$1x1$2 x 2
En el apndice 15.3 se Para calcular las estimaciones de los parmetros 0 , 1 y 2 del modelo se aplic el procedi-
explica cmo usar Minitab miento de regresin logstica binaria de Minitab a los datos muestrales de la tabla 15.11. En
para generar el resultado
la figura 15.13 se muestra parte de los resultados obtenidos. Como vemos, b0 " #2.14637,
de la figura 15.13.
b1 " 0.341643 y b2 " 1.09873. As, la ecuacin de regresin logstica estimada es
Ahora, con la ecuacin (15.32) se estima la probabilidad de que un determinado tipo de clien-
tes use el cupn. Por ejemplo, para estimar la probabilidad de que aquellos que tienen un gas-
to anual de $2 000 en Simmons Stores y que no tienen tarjeta de crdito de la tienda usen el
cupn, en la ecuacin (15.32) se sustituyen x1 " 2 y x2 " 0.
FIGURA 15.13 Resultado parcial de la regresin logstica para el ejemplo de las tiendas
Simmons
Log-Likelihood = -60.487
Test that all slopes are zero: G = 13.628, DF = 2, P-Value = 0.001
15.9 Regresin logstica 687
Por tanto, la probabilidad estimada de que este tipo de clientes use el cupn es de 0.19. De
manera similar, la probabilidad de que lo usen aquellos que tienen un gasto anual de $2 000 en
Simmons Stores y tarjeta de crdito de la tienda se estima sustituyendo x1 " 2 y x2 " 1 en la
ecuacin (15.32).
Como se ve, la probabilidad de que los clientes de este grupo usen el cupn es aproximada-
mente de 0.41. Parece ser que quienes manejan tarjeta de crdito de Simmons tienen mayor
probabilidad de usar el cupn. Pero antes de llegar a una conclusin, es necesario evaluar la
significancia estadstica de este modelo.
Prueba de significancia
La prueba de significancia en la regresin logstica es similar a la que se aplica en la regresin
mltiple. Primero se prueba la significancia global. En el ejemplo de Simmons Stores, las hip-
tesis para probar la significancia global son las siguientes.
La prueba de significancia global del modelo se basa en el valor del estadstico de prueba G.
Si la hiptesis nula es verdadera, la distribucin muestral de G es una distribucin ji-cuadrada
con grados de libertad igual al nmero de variables independientes en el modelo. El clculo de
G queda fuera del alcance de este libro, pero este valor y su correspondiente valor-p se obtie-
nen como parte del resultado de regresin logstica binaria que proporciona Minitab. En la lti-
ma lnea de la figura 15.13 se encuentra que el valor de G es 13.628, sus grados de libertad son
2 y su correspondiente valor-p es 0.001. Por tanto, cualquier nivel de significancia & 0.001,
nos llevar a rechazar la hiptesis nula y a concluir que el modelo global es significativo.
Una vez que la prueba G ha indicado que s existe una significancia global, suele realizarse
una prueba z para determinar si la contribucin de cada una de las variables independientes al
modelo es significativa. Para cada una de las variables independientes xi las hiptesis son:
H0: i " 0
H a : i ' 0
Si la hiptesis nula es verdadera, el valor del coeficiente estimado dividido entre su error es-
tndar seguir una distribucin de probabilidad normal estndar. En el resultado de Minitab, en
la columna titulada Z, se presentan los valores de zi " bi /sb1 para cada uno de los coeficientes
estimados, y en la columna denominada p se encuentran sus valores-p correspondientes. Su-
ponga que en el modelo de Simmons se emplea " 0.05 para probar la significancia de las
variables independientes. Para x1 el valor z es 2.66 y su correspondiente valor-p es 0.008. Por
tanto, para el nivel de significancia 0.05 podemos rechazar H0: 1 " 0. De la misma manera
se rechaza H0: 2 " 0, dado que el valor-p correspondiente a z " 2.47 es 0.013. Como se
ve, empleando como nivel de significancia 0.05, ambas variables son estadsticamente signifi-
cativas.
688 Captulo 15 Regresin mltiple
Uso en la administracin
Ya se describi cmo obtener la ecuacin de regresin logstica estimada y cmo probar su sig-
nificancia. Ahora se podr hacer una recomendacin para la decisin que se tomar en Simmons
Stores sobre la promocin de su catlogo. Ya se calcularon P( y " 1% x1 " 2, x2 " 1) " 0.4099
y P( y " 1% x1 " 2, x2 " 0) " 0.1880. Con base en estas probabilidades, vemos que entre
aquellos clientes cuyo gasto anual en Simmons Stores es de $2 000, los que cuentan con una
tarjeta de crdito de la tienda tienen mayor probabilidad de utilizar el cupn. En la tabla 15.12
se presentan las probabilidades estimadas correspondientes a clientes tanto con tarjeta de cr-
dito como sin ella cuyos desembolsos anuales en Simmons Stores van de $1 000 hasta $7 000.
Cmo puede utilizar Simmons esta informacin para elegir a los clientes a los que dirigir la
nueva promocin? Suponga que desea enviar este catlogo nicamente a clientes cuya proba-
bilidad de utilizar el cupn sea 0.40 o mayor. Con base en las probabilidades estimadas que
aparecen en la tabla 15.12, la estrategia en esta promocin de Simmons sera la siguiente.
Clientes con tarjeta de crdito de Simmons. Enviar el catlogo a todos aquellos que
durante el pasado ao gastaron $2 000 o ms.
Clientes sin tarjeta de crdito de Simmons. Enviar el catlogo a todos aquellos que du-
rante el pasado ao gastaron $6 000 o ms.
Sin embargo, al observar con ms detalle las probabilidades estimadas, vemos que la proba-
bilidad de que usen el cupn aquellos clientes sin tarjeta de crdito de Simmons que gastaron
$5 000 en un ao es de 0.3922. Por tanto, ser conveniente que la tienda reconsidere su estrate-
gia e incluya a clientes que no tienen tarjeta de crdito pero que gastaron en Simmons $5000 o
ms el ao pasado.
El cociente de posibilidades mide el efecto que tiene sobre estas posibilidades el aumento
en una unidad en una sola de las variables independientes. Es, por ende, la probabilidad de que
y " 1 cuando una de las variables independientes es incrementada en una unidad (odds1)
Gasto anual
$1 000 $2 000 $3 000 $4 000 $5 000 $6 000 $7 000
dividida entre las posibilidades de que y " 1 dado que no ha habido cambio en los valores de
las variables independientes (odds0 ).
COCIENTE DE POSIBILIDADES
odds1
Cociente de posibilidades " (15.34)
odds0
Por ejemplo, suponga que se desea comparar las posibilidades de que use el cupn un
cliente que gasta $2 000 anuales y tiene tarjeta de crdito de Simmons (x1 " 2 y x2 " 1) con
las posibilidades de que lo use otro que gasta $2 000 anuales y no tiene tarjeta de crdito de
Simmons (x1 " 2 y x2 " 0). Lo que interesa es interpretar el efecto que tiene un incremento
de una unidad en la variable independiente x2. En este caso,
0.4099
estimacin de odds1 " " 0.6946
1 # 0.4099
y
0.1880
estimacin de odds0 " " 0.2315
1 # 0.1880
La estimacin resultante es
0.6946
Estimacin del cociente de posibilidades " " 3.00
0.2315
Por consiguiente, podemos concluir que las posibilidades estimadas de que usen el cupn los
clientes que gastaron $2 000 el ao pasado y tienen tarjeta de crdito de Simmons son tres ve-
ces mayores que las de quienes gastaron $2 000 el ao pasado y no tienen tarjeta de crdito de
Simmons.
El cociente de posibilidades de cada una de las variables independientes se calcula al man-
tener constantes todas las dems variables independientes. Sin embargo, no tiene importancia
qu valores constantes se usen para todas las dems variables. Por ejemplo, si se calcula el
cociente de posibilidades para la variable tarjeta de crdito de Simmons (x2 ) utilizando $3 000
en lugar de $2 000 como valor de la variable cantidad de gasto anual (x1), el valor obtenido para
el cociente de posibilidad estimado ser el mismo (3.00). Por tanto, se concluye que las posi-
bilidades estimadas de que use el cupn un cliente con tarjeta de crdito de Simmons son tres
veces mayores que las posibilidades estimadas de que lo use un cliente sin la tarjeta de crdito.
El cociente de posibilidades es un resultado estndar para la regresin logstica en los pro-
gramas de software. Remtase a los resultados de Minitab de la figura 15.13. En la columna
titulada Odds Ratio aparecen los cocientes de posibilidad estimados correspondientes a cada
una de las variables independientes. Para x1 es 1.41 y para x2 es 3.00. Ya se indic antes cmo
690 Captulo 15 Regresin mltiple
Para ilustrar esta relacin con el ejemplo de Simmons Stores, considere la variable indepen-
diente x1. El cociente de posibilidades estimado para x1 es
Esta relacin entre el cociente de posibilidades y los coeficientes de las variables independientes
facilitan el clculo del primero una vez obtenidas las estimaciones de los parmetros del mo-
delo. Adems, tambin permite investigar cambios en el cociente de posibilidades cuando se
presentan variaciones mayores o menores a una unidad en una de las variables independientes
continuas.
El cociente de posibilidades de una variable independiente representa la variacin en las po-
sibilidades de un cambio de una unidad en ella, permaneciendo constantes todas las dems va-
riables independientes. Suponga que se desea conocer el efecto de una variacin de ms de una
unidad, por ejemplo de c unidades. Digamos que, en el ejemplo de Simmons, queremos com-
parar las posibilidades de que use el cupn un cliente que gasta $5 000 anuales (x1 " 5) con las
posibilidades de que lo use un cliente que gasta $2 000 anuales (x1 " 2). En este caso c " 5 #
2 " 3, y el correspondiente cociente de posibilidades es
Esto indica que las posibilidades estimadas de que usen el cupn los clientes cuyo gasto anual
es de $5 000 son 2.79 veces mayores que las de quienes gastan $2 000. En otras palabras, el
cociente de posibilidades estimado para un aumento de $3 000 en los gastos anuales es 2.79.
En general, el cociente de posibilidades permite comparar las posibilidades de dos eventos
diferentes. Si el valor de este cociente es 1, los dos eventos tienen las mismas posibilidades.
Por tanto, si la variable independiente que se considera (como el estatus respecto de la tarjeta
de crdito de Simmons) tiene efecto positivo sobre la probabilidad de que el evento ocurra, el
cociente de posibilidades correspondiente ser mayor que 1. La mayora del software para es-
tadstica tambin proporciona un intervalo de confianza para el cociente de posibilidades. En la
15.9 Regresin logstica 691
figura 15.13 los resultados de Minitab indican un intervalo de 95% de confianza para cada uno
de los cocientes. Por ejemplo, la estimacin puntual del cociente de posibilidad de x1 es 1.41 y
el intervalo de 95% de confianza va de 1.09 a 1.81. Como este intervalo no contiene el valor 1,
se concluye que x1 tiene un efecto significativo sobre el cociente de posibilidades estimado.
De manera similar, el intervalo de 95% de confianza para el cociente de posibilidades de x2 va
de 1.25 a 7.17, y como tampoco contiene el valor 1, tambin concluimos que x2 tiene un efecto
significativo sobre el cociente de posibilidades.
Transformacin logit
Entre las posibilidades a favor de y " 1 y el exponente de e en la ecuacin de regresin logs-
tica, observamos una interesante relacin. Podemos demostrar que
Esta ecuacin indica que el logaritmo natural de las posibilidades a favor de y " 1 es una fun-
cin lineal de las variables independientes. A esta funcin lineal se le llama logit. Para denotar
el logit usamos la notacin g(x 1, x 2, . . . , xp ).
LOGIT
Una vez estimados los parmetros de la ecuacin de regresin logstica, calculamos una esti-
macin del logit. Con g(x1, x 2 , . . . , x p ) para denotar el logit estimado tenemos
LOGIT ESTIMADO
Por tanto, debido a la relacin nica que existe entre el logit estimado y la ecuacin de regre-
sin logstica estimada, podemos calcular las probabilidades estimadas para Simmons Stores
dividiendo e g(x1, x2) entre 1 $ e g(x1, x2).
692 Captulo 15 Regresin mltiple
NOTAS Y COMENTARIOS
1. Debido a la relacin nica que existe entre los significancia para los correspondientes cocientes
coeficientes estimados del modelo y los corres- de posibilidades.
pondientes cocientes de posibilidades, la prueba ge- 2. En las regresiones simple y mltiple se usa el coe-
neral de significancia basada en el estadstico G es ficiente de determinacin para medir la bondad de
tambin una prueba general de significancia para ajuste. En la regresin logstica no hay una sola
los cocientes de posibilidades. Adems, la prueba z medida que tenga una interpretacin similar. El
para la significancia de cada uno de los parmetros estudio de la bondad de ajuste queda fuera del al-
del modelo tambin es una prueba estadstica de cance de esta introduccin a la regresin logstica.
Ejercicios
Aplicaciones
44. Remtase al ejemplo de Simmons Stores presentado en esta seccin. La variable dependiente es
WEB archivo y " 1 si el cliente us el cupn y y " 0 si no lo us. Suponga que la nica informacin de que
Simmons
se dispone para predecir si un cliente usar o no el cupn es su estatus respecto de la posesin
de una tarjeta de crdito de la empresa, que es x " 1 si el cliente cuenta con ella y x " 0 si no
es as.
a) Proporcione la ecuacin de regresin logstica que relaciona x y y.
b) Cul es la interpretacin de E( y) cuando x " 0?
c) Con los datos de Simmons presentados en la tabla 15.11, use Minitab para calcular el logit
estimado.
d) Con el logit estimado del inciso c) obtenga una estimacin de la probabilidad de que usen
el cupn los clientes que no tienen tarjeta de crdito de Simmons y una estimacin de la
probabilidad de que lo usen quienes tienen la tarjeta.
e) Proporcione la estimacin del cociente de posibilidades. Cul es su interpretacin?
45. En la tabla 15.12 se presentaron estimaciones de las probabilidades de uso del cupn en la
promocin por catlogo de Simmons Stores. Para cada combinacin de valores de las variables
independientes se obtuvo un valor diferente.
a) Calcule las posibilidades de que use el cupn un cliente cuyo gasto anual en Simmons es
de $4 000 y que no tiene tarjeta de crdito de la tienda (x1 " 4, x2 " 0).
b) Use la informacin de la tabla 15.12 y el inciso a) para calcular el cociente de posibilidades
para la variable tarjeta de crdito de Simmons x2 " 0, manteniendo constantes los gastos
anuales en x1 " 4.
c) En el libro, el cociente de posibilidades para la variable tarjeta de crdito se calcul con la
informacin presentada en la columna $2 000 de la tabla 15.12. Obtuvo la misma infor-
macin para el valor del cociente de posibilidades en el inciso b)?
46. El Community Bank desea aumentar la cantidad de clientes a los que se les deposita directa-
mente su sueldo. La gerencia est considerando una campaa que requerir que cada gerente
de sucursal llame a cada cliente que no reciba su sueldo por depsito. Como incentivo para que
acepten esta propuesta, se les ofrecer consultas de saldo gratis durante dos aos. Debido al
tiempo y a los costos de esta campaa, la gerencia desea que se dirija a clientes que tengan la
mayor probabilidad de aceptar recibir su sueldo por depsito. La gerencia piensa que el saldo
promedio mensual en la cuenta de cheques del cliente puede ser un predictor til para determi-
nar si aceptar o no recibir su sueldo por depsito. Para investigar la relacin entre estas dos
variables, Community Bank prueba la nueva campaa con una muestra de cuentas de cheques
de 50 clientes que actualmente no reciben directamente su sueldo por depsito. En los datos
muestrales se presenta el saldo mensual (Monthly Balance) promedio en la cuenta de che-
ques (en miles de dlares) y si el cliente (Customer) acept recibir su sueldo por depsito di-
recto (Direct Deposit) 1 significa que acept y 0 que no acept. Esta informacin se encuentra
en el conjunto de datos nombrado Bank; a continuacin se presenta una parte.
15.9 Regresin logstica 693
Suponga que desea determinar si los productos ms caros tienen la calificacin ms alta en
calidad. Para los propsitos de este ejercicio, use la siguiente variable binaria dependiente.
y " 1 si la evaluacin de la calidad fue excelente o muy buena, y 0 si fue buena o regular.
a) Escriba la ecuacin de regresin logstica que relaciona x " precio por porcin con y.
b) Use Minitab para calcular el logit estimado.
c) Con base en el logit estimado, desarrolle una estimacin de la probabilidad de que la eva-
luacin de un chocolate cuyo precio por porcin es de $4.00 sea muy bueno o excelente.
d) Cul la estimacin del cociente de posibilidades? Cul es su interpretacin?
Resumen
En este captulo se present la regresin mltiple como extensin del anlisis de regresin li-
neal simple expuesto en el captulo 14. El anlisis de regresin mltiple permite entender cmo
est relacionada una variable dependiente con dos o ms variables independientes. La ecuacin
Glosario 695
Glosario
Anlisis de regresin mltiple Anlisis de regresin que involucra dos o ms variables in-
dependientes.
Cociente de posibilidades Cociente que se obtiene al dividir la posibilidad de que y " 1 dado
que una de las variables independientes aument en una unidad (odds1), entre la posibilidad
de que y " 1 dado que no hay alguna variacin en los valores de las variables independientes
(odds0); es decir, cociente de posibilidades (odds ratio) " odds1$odds0.
Coeficiente de determinacin mltiple Medida de la bondad de ajuste de la ecuacin de
regresin mltiple estimada. Se puede interpretar como la proporcin en la variabilidad de la
variable dependiente que es explicada por la ecuacin de regresin estimada.
Coeficiente de determinacin mltiple ajustado Medida de la bondad de ajuste de la ecua-
cin de regresin mltiple estimada que se modifica con base en el nmero de variables in-
dependientes en el modelo, y por tanto evita sobreestimar el efecto de agregar ms variables
independientes.
Ecuacin de regresin logstica Ecuacin matemtica que relaciona E( y), la probabilidad
de que y " 1, con los valores de las variables independientes; es decir E( y) " P( y " 1%x1,
...
e 0$1x1$2 x 2$ $p xp
x 2, . . . , x p ) " ... .
1 $ e 0$1x1$2 x 2$ $p xp
Ecuacin de regresin logstica estimada Estimacin de la ecuacin de regresin logsti-
ca que se basa en datos muestrales; es decir y " estimacin de P( y " 1%x1, x 2, . . . , x p ) "
...
e b0$ b1x1$ b2 x 2$ $ bp xp
... .
1 $ e b0$ b1x1$ b2 x 2$ $ bp xp
Ecuacin de regresin mltiple Ecuacin matemtica que relaciona el valor esperado o va-
lor medio de la variable dependiente con los valores de las variables independientes; es decir,
E( y) " 0 $ 1x1 $ 2 x 2 $ . . . $ p xp.
696 Captulo 15 Regresin mltiple
Frmulas clave
SCR
R2 " (15.8)
STC
n#1
R 2a " 1 # (1 # R 2) " (15.9)
n#p#1
SCR
CMR " (15.12)
p
SCE
CME " (15.13)
n#p#1
Estadstico de prueba F
CMR
F" (15.14)
CME
Estadstico de prueba t
bi
t" (15.15)
sbi
yi # yi
(15.23)
syi # y i
( yi # yi )2 hi
Di " (15.25)
( p $ 1)s 2 (1 # hi )2
...
e 0$1x1$2 x 2$ $p xp
E( y) " ... (15.27)
1 $ e 0$1x1$2 x 2$ $p xp
...
e b0$ b1x1$ b2 x 2$ $ bp xp
y " estimacin de P( y " 1%x1, x 2, . . . , x p ) " ... (15.30)
1 $ e b0$ b1x1$ b2 x 2$ $ bp xp
698 Captulo 15 Regresin mltiple
odds1
Cociente de posibilidades " (15.34)
odds0
Logit
Logit estimado
Ejercicios complementarios
49. El departamento de admisin de Clearwater College obtuvo la siguiente ecuacin de regre-
sin estimada que relaciona el promedio final obtenido en la universidad (GPA) con la pun-
tuacin del estudiante en el rea de matemticas del examen de admisin a la universidad (SAT)
y con su promedio final (GPA) en bachillerato.
donde
donde
51. A continuacin se presenta una parte del resultado obtenido con software para el anlisis de
regresin.
Analysis of Variance
SOURCE DF SS MS F
Regression ______ 1612 ______ _____
Residual Error 12 ______ ______
Total ______ ______
donde
Analysis of Variance
SOURCE DF SS MS F
Regression _____ 1.76209 _____ _____
Residual Error _____ _______ _____
Total 9 1.88000
700 Captulo 15 Regresin mltiple
donde
Analysis of Variance
SOURCE DF SS MS F
Regression 2 ______ _____ _____
Residual Error _____ 71.17 _____
Total 7 720.0
a) Proporcione una ecuacin de regresin estimada para predecir la calificacin de Buy Again
con base en la puntuacin de Steering. Con un nivel de significancia de 0.05, pruebe si la
relacin es significativa.
b) La ecuacin obtenida en el inciso a) proporciona un buen ajuste a los datos? Explique.
c) Proporcione una ecuacin de regresin estimada para predecir la puntuacin de Buy Again
con base en la puntuacin de Steering y de Trade Wear.
d) Es significativa la incorporacin de la variable independiente Trade Wear? Use " 0.05.
55. Consumer Reports examin y present las evaluaciones de 24 caminadoras. A cada equipo se
le dio una calificacin general basada principalmente en su facilidad de uso, ergonoma, gama
de ejercicio y calidad. En general, una mejor calificacin corresponde a un mejor desempeo.
En la informacin siguiente se presenta el precio (Price), la evaluacin de la calidad (Quality)
y la puntuacin general (Score) de las 24 caminadoras, incluyendo marca y modelo (Brand and
Model) (Consumer Reports, febrero de 2006). Los niveles de calidad son Excellent (excelente)
y Very Good (muy bueno).
a) Con estos datos obtenga una ecuacin de regresin estimada para calcular la calificacin
general cuando se conoce el precio.
b) Use " 0.05 para probar la significancia general.
c) Para incorporar el efecto de la calidad, una variable cualitativa de tres niveles, se emplea-
ron dos variables ficticias: calidad-E y calidad-MB. Cada variable toma los valores 0 y 1
como sigue.
Obtenga una ecuacin de regresin estimada para determinar la puntuacin general cuan-
do se conoce el precio y la evaluacin de la calidad.
d) Pruebe la significancia general de la ecuacin de regresin estimada obtenida en el inci-
so c) utilizando " 0.10.
e) Con la prueba t determine la significancia de cada una de las variables independientes de
la ecuacin de regresin estimada obtenida en el inciso c). Use " 0.10.
f) Proporcione la grfica de los residuales estandarizados. La forma de la grfica parece
razonable?
g) Hay en estos datos alguna observacin atpica o alguna observacin influyente?
h) Estime la calificacin general para una caminadora cuyo precio es de $2 000 y que obtuvo
una evaluacin de calidad buena. Cunto vara esta estimacin si la evaluacin de la ca-
lidad es muy buena? Explique.
56. A continuacin se presenta un conjunto de datos con informacin de 2008 acerca de 45 fon-
dos de inversin que forman parte del Morningstar Funds 500. El conjunto de datos completo
est disponible en el archivo MutualFunds e incluye las siguientes cinco variables.
Fund Type (tipo de fondo). Se etiquetan como DE (capital nacional), IE (capital internacio-
nal) y FI (de renta fija).
Net Asset Value (valor neto del activo). Precio de cierre por accin al 31 de diciembre de
2007.
5-Year Average Return (rendimiento promedio de 5 aos). Rendimiento anual promedio del
fondo despus de 5 aos.
Expense Ratio (tasa de gastos). Porcentaje que se deduce de los activos cada ao fiscal para
fondo de gastos.
Morningstar Rank (calificacin Morningstar). Puntuacin con estrellas del riesgo ajustado de
cada fondo. La calificacin Morningstar va desde baja de 1 estrella hasta alta de 5 estrellas.
Net 5-Year
Asset Average Expense
Fund Value Return Ratio Morningstar
Fund Name Type ($) (%) (%) Rank
WEB archivo Amer Cent Inc & Growth Inv DE 28.88 12.39 0.67 2-Star
MutualFunds American Century Intl. Disc IE 14.37 30.53 1.41 3-Star
American Century Tax-Free Bond FI 10.73 3.34 0.49 4-Star
Ejercicios complementarios 703
Net 5-Year
Asset Average Expense
Fund Value Return Ratio Morningstar
Fund Name Type ($) (%) (%) Rank
American Century Ultra DE 24.94 10.88 0.99 3-Star
Ariel DE 46.39 11.32 1.03 2-Star
Artisan Intl Val IE 25.52 24.95 1.23 3-Star
Artisan Small Cap DE 16.92 15.67 1.18 3-Star
Baron Asset DE 50.67 16.77 1.31 5-Star
Brandywine DE 36.58 18.14 1.08 4-Star
. . . . . .
. . . . . .
. . . . . .
Informe gerencial
1. Utilice los mtodos de la estadstica descriptiva para resumir estos datos. Comente sus
hallazgos.
2. Obtenga ecuaciones de regresin estimada usando como variables independientes pri-
mero el ingreso anual y despus el tamao de la familia. Cul de estas variables es
mejor predictor de los cargos anuales a las tarjetas de crdito? Analice sus hallazgos.
3. Obtenga una ecuacin de regresin estimada en la que ingreso anual y tamao de la
familia sean las variables independientes. Analice sus hallazgos.
4. Cul es el monto del cargo anual en tarjetas de crdito que podemos predecir para un
hogar de tres personas con ingreso anual de $40 000?
5. Analice la necesidad de agregar otras variables independientes al modelo. Cules se-
ran tiles?
Informe gerencial
1. Resuma estos datos con los mtodos de la estadstica descriptiva.
2. Obtenga una ecuacin de regresin estimada para predecir la tasa de donativos de los
exalumnos, dada la cantidad de estudiantes que se titula. Analice sus hallazgos.
3. Obtenga una ecuacin de regresin estimada para predecir la tasa de donativos de los
exalumnos utilizando los datos proporcionados.
4. Qu conclusiones y recomendaciones puede obtener de su anlisis?
% of Student- Alumni
Graduation Classes Faculty Giving
State Rate Under 20 Ratio Rate
Boston College MA 85 39 13 25
Brandeis University MA 79 68 8 33
Brown University RI 93 60 8 40
California Institute of Technology CA 85 65 3 46
Carnegie Mellon University PA 75 67 10 28
WEB archivo Case Western Reserve University OH 72 52 8 31
Alumni College of William and Mary VA 89 45 12 27
Columbia University NY 90 69 7 31
Cornell University NY 91 72 13 35
Dartmouth College NH 94 61 10 53
Duke University NC 92 68 8 45
Emory University GA 84 65 7 37
Georgetown University DC 91 54 10 29
Harvard University MA 97 73 8 46
Johns Hopkins University MD 89 64 9 27
Lehigh University PA 81 55 11 40
Massachusetts Inst. of Technology MA 92 65 6 44
New York University NY 72 63 13 13
Northwestern University IL 90 66 8 30
Pennsylvania State University PA 80 32 19 21
Princeton University NJ 95 68 5 67
Rice University TX 92 62 8 40
Stanford University CA 92 69 7 34
Tufts University MA 87 67 9 29
Tulane University LA 72 56 12 17
U. of CaliforniaBerkeley CA 83 58 17 18
U. of CaliforniaDavis CA 74 32 19 7
U. of CaliforniaIrvine CA 74 42 20 9
U. of CaliforniaLos Angeles CA 78 41 18 13
U. of CaliforniaSan Diego CA 80 48 19 8
U. of CaliforniaSanta Barbara CA 70 45 20 12
U. of Chicago IL 84 65 4 36
U. of Florida FL 67 31 23 19
U. of IllinoisUrbana Champaign IL 77 29 15 23
U. of MichiganAnn Arbor MI 83 51 15 13
U. of North CarolinaChapel Hill NC 82 40 16 26
U. of Notre Dame IN 94 53 13 49
U. of Pennsylvania PA 90 65 7 41
U. of Rochester NY 76 63 10 23
U. of Southern California CA 70 53 13 22
U. of TexasAustin TX 66 39 21 13
U. of Virginia VA 92 44 13 28
U. of Washington WA 70 37 12 12
U. of WisconsinMadison WI 73 37 13 13
Vanderbilt University TN 82 68 9 31
Wake Forest University NC 82 59 11 38
Washington UniversitySt. Louis MO 86 73 7 33
Yale University CT 94 77 7 50
Caso a resolver 3 Estadsticas del PGA Tour 707
Tour, 2009) se encuentran los datos sobre desempeo al final del ao de 125 jugadores con las
WEB archivo ganancias totales ms altas en los eventos del PGA Tour de 2008. Cada fila del conjunto de datos
PGATour corresponde a un jugador y estn ordenados con base en el total de ganancias. Las descripciones
de los datos son las siguientes.
Money (dinero). Ganancias totales en eventos del PGA Tour.
Scoring Average (puntuacin promedio). Nmero promedio de golpes por ronda completa.
DrDist (distancia del tiro). Nmero promedio de yardas por tiro medido. En el PGA Tour, la
distancia de tiro se mide en dos hoyos por ronda. Se tiene cuidado en seleccionar dos hoyos
orientados en direcciones opuestas para contrarrestar el efecto del viento. Los golpes se miden
hasta el punto donde se detiene la pelota sin importar que est dentro del recorrido o no.
DrAccu (precisin del tiro). Porcentaje de veces en que un tiro de salida se detiene dentro del
recorrido (sin importar el club). La precisin del tiro se mide en cada hoyo, excluidos los que
sean par 3.
GIR (greens en regulacin). Porcentaje de veces que un jugador logr alcanzar el green en
regulacin. Se considera un green alcanzado en regulacin si cualquier parte de la pelota toca
la superficie de putting luego de que se tom el golpe GIR. ste se determina al restar 2 del
par (primer golpe en un par 3, segundo en un par 4, tercero en un par 5). En otras palabras, se
considera un green alcanzado en regulacin si el jugador lleg a la superficie de putting en par
menos dos golpes.
Sand Saves (salidas de bnker). Porcentaje de veces que un jugador est en posibilidad de
tener un up and down en un bnker de arena al lado del green (sin importar el marcador). Up
and down indica que le tom al jugador 2 tiros o menos introducir la bola en el hoyo desde un
bnker de arena al lado del green.
PPR (tiros cortos por ronda). Nmero promedio de tiros cortos por ronda.
Scrambling. Porcentaje de veces que un jugador falla en el green en regulacin, pero an
logra par o mejor que par.
Informe gerencial
1. Para predecir Scoring Average, obtenga una ecuacin de regresin estimada usando
como variable independiente primero DrDist y despus DrAccu. Cul de estas varia-
bles es mejor predictor de Scoring Average? Analice sus hallazgos.
2. Obtenga una ecuacin de regresin estimada en la que GIR sea la variable independien-
te. Compare sus hallazgos con los resultados obtenidos utilizando DrDist y DrAccu.
3. Desarrolle una ecuacin de regresin estimada en la que GIR y Sand Saves sean las
variables independientes. Analice sus hallazgos.
4. Obtenga una ecuacin de regresin estimada en la que GIR y PPR sean las variables
independientes. Analice sus hallazgos.
5. Desarrolle una ecuacin de regresin estimada con GIR y Scrambling como variables
independientes. Analice sus hallazgos.
6. Compare los resultados que se obtuvieron con las ecuaciones de regresin estimada
donde se utilizaron como variables independientes GIR y Sand Saves, GIR y PPR, y GIR y
Scrambling. Si tuviera que elegir una de esas ecuaciones para predecir Scoring Average,
cul utilizara? Explique.
7. Obtenga una ecuacin de regresin estimada para predecir Scoring Average en la que
GIR, Sand Saves y PPR sean las variables independientes. Compare los resultados con
una ecuacin de regresin estimada en la que GIR, PPR y Scrambling sean las variables
independientes.
8. Desarrolle una ecuacin de regresin estimada que use GIR, Sand Saves, PPR y Scram-
bling para predecir Scoring Average. Analice sus hallazgos.
708 Captulo 15 Regresin mltiple
Informe gerencial
1. Resuma los datos con los mtodos de la estadstica descriptiva. Comente sus hallazgos.
2. Obtenga una ecuacin de regresin estimada para predecir WinPCT usando DefYds/G,
RushYds/G, PassYds/G y FGPct. Analice sus hallazgos.
3. En la ecuacin de regresin estimada obtenida en el inciso 2), elimine todas las varia-
bles independientes que no sean significativas y obtenga una nueva ecuacin de regre-
sin estimada para predecir WinPct. Use " 0.05.
4. Algunos analistas de futbol americano consideran que las prdidas de baln son uno de
los factores ms importantes para determinar el xito de un equipo. Si Takeaways "
Takelnt $ TakeFum, y Giveayaws " Givelnt $ GiveFum, sea NetDiff " Takeaways #
Giveaways. Obtenga una ecuacin de regresin estimada para predecir WinPct empleando
NetDiff. Compare estos resultados con la ecuacin de regresin estimada obtenida en
el inciso 3).
5. Desarrolle una ecuacin de regresin estimada para predecir WinPct usando todos los
datos proporcionados.
FIGURA 15.14 Resultados de Excel al problema de Butler Trucking con dos variables independientes
A B C D E F G H I J
1 Assignment Miles Deliveries Time
2 1 100 4 9.3
3 2 50 3 4.8
4 3 100 4 8.9
5 4 100 2 6.5
6 5 50 2 4.2
7 6 80 2 6.2
8 7 75 3 7.4
9 8 65 4 6
10 9 90 3 7.6
11 10 90 2 6.1
12
13 SUMMARY OUTPUT
14
15 Regression Statistics
16 Multiple R 0.9507
17 R Square 0.9038
18 Adjusted R Square 0.8763
19 Standard Error 0.5731
20 Observations 10
21
22 ANOVA
23 df SS MS F Significance F
24 Regression 2 21.6006 10.8003 32.8784 0.0003
25 Residual 7 2.2994 0.3285
26 Total 9 23.9
27
28 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 99.0% Upper 99.0%
29 Intercept #0.8687 0.9515 0.9129 0.3916 #3.1188 1.3813 #4.1986 2.4612
30 Miles 0.0611 0.0099 6.1824 0.0005 0.0378 0.0845 0.0265 0.0957
31 Deliveries 0.9234 0.2211 4.1763 0.0042 0.4006 1.4463 0.1496 1.6972
32
710 Captulo 15 Regresin mltiple
Los pasos siguientes describen cmo emplear la herramienta de regresin para el anlisis
de regresin mltiple.
En los resultados de Excel que se presentan en la figura 15.14, el rtulo para la variable inde-
pendiente x1 es Miles (vea la celda A30) y para la variable independiente x2 es Deliveries (vea
la celda A31). La ecuacin de regresin estimada es
Observe que el uso de la herramienta de regresin de Excel para la regresin mltiple es casi
igual que para la regresin lineal simple. La principal diferencia estriba en que en el caso de la
regresin mltiple se requiere un rango mayor de celdas para identificar las variables indepen-
dientes.
ESTADSTICA en LA PRCTICA
MONSANTO COMPANY*
SAN LUIS MISSOURI
Monsanto Company funda sus races en una inversin de
$500 de un empresario y un almacn polvoriento en la ori-
lla del ro Mississippi, donde en 1901 John F. Queency co-
menz la produccin de sacarina. En la actualidad es una de
las empresas qumicas ms grandes del pas y produce ms
de mil productos, que incluyen qumicos industriales para
fabricar las superficies sintticas de las canchas deportivas
que se usan en los estadios modernos. Monsanto es una em-
presa multinacional que cuenta con fbricas, laboratorios
y centros tcnicos, y realiza operaciones de marketing en
65 pases.
La Divisin Qumica de Nutricin de Monsanto pro-
duce y comercializa un suplemento de metionina que se uti-
liza en productos alimenticios para aves de corral, cerdos y
ganado. Debido a que los avicultores trabajan con altos vo- Los investigadores de Monsanto utilizaron el anlisis de
lmenes y bajos mrgenes de utilidad, necesitan productos regresin a efecto de obtener un alimento de composicin
alimenticios rentables para aves de corral con el mayor va- ptima para los criadores de aves de corral. Kent Knudson/
lor nutricional posible. El alimento con una composicin PhotoLink/Getty Images/PhotoDisc.
ptima se traducir en un crecimiento rpido y un alto peso
corporal final para un nivel determinado de consumo del Una investigacin complementaria llevada a cabo por
alimento. La industria qumica trabaja en estrecha colabo- Monsanto mostr que, aunque pequeas cantidades de me-
racin con los criadores de aves de corral para optimizar tionina tendan a aumentar el peso corporal, en algn punto
los productos alimenticios. En ltima instancia, el xito ste se estabilizaba y las cantidades adicionales del amino-
depende de mantener bajo el costo de las aves en compara- cido fueron de poco o ningn beneficio. De hecho, cuando
cin con el costo de la carne y de otros productos crnicos. la cantidad de metionina aumentaba ms all de los reque-
Monsanto utiliz el anlisis de regresin para modelar rimientos nutricionales, el peso corporal tenda a dismi-
la relacin entre el peso corporal y y la cantidad de me- nuir. La siguiente ecuacin estimada de regresin mltiple
tionina x adicionada al alimento para aves de corral. Ini- fue utilizada para modelar la relacin curvilnea entre el
cialmente se desarroll la siguiente ecuacin estimada de peso corporal y la metionina.
regresin lineal.
y " 0.21 $ 42 x y " #1.89 $ 1.32 x # 0.506x 2
Esta ecuacin estimada de regresin result estadstica- Los resultados de la regresin le permitieron a Monsanto
mente significativa; sin embargo, el anlisis de residuales determinar el nivel ptimo de metionina a ser utilizado en
indicaba que una relacin curvilnea sera un mejor modelo los productos alimenticios para aves de corral.
para la relacin entre el peso corporal y la metionina. En este captulo se ampliar el estudio sobre el anlisis
de regresin mostrando de qu forma se pueden desarrollar
los modelos curvilneos como el utilizado por Monsanto.
* Los autores agradecen a James R. Ryland y Robert M. Schisla, especia- Adems, se describir una variedad de herramientas que
listas de la Divisin Qumica de Nutricin de Monsanto, por proporcio- servir para determinar cul es la variable independiente
nar este artculo para Estadstica en la prctica. que lleva a la mejor ecuacin de regresin estimada.
donde
400
300
Bsculas vendidas
200
100
0 20 40 60 80 100 120
Antigedad en meses
La figura 16.3 es la grfica correspondiente a los residuales estandarizados. Aunque los resul-
tados de la computadora muestran que la relacin es significativa (el valor-p " 0.000) y que
una relacin lineal explica el alto porcentaje de variabilidad en las ventas (R-sq " 78.1%), la
grfica de residuales estandarizados sugiere que se necesita una relacin curvilnea.
Para dar cuenta de la relacin curvilnea, en la ecuacin (16.1) se establece que z1 " x1 y
z 2 " x 21 para obtener el siguiente modelo
A ste se le llama modelo de segundo orden con una variable predictora. Para desarrollar la
ecuacin de regresin estimada correspondiente a este modelo, el software de estadstica uti-
lizado necesita los datos originales de la tabla 16.1, as como los datos correspondientes para
FIGURA 16.2 Resultados de Minitab para el ejemplo de Reynolds: modelo de primer orden
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 113783 113783 46.41 0.000
Residual Error 13 31874 2452
Total 14 145657
716 Captulo 16 Anlisis de regresin: construccin de modelos
FIGURA 16.3 Grfica de residuales estandarizados para el ejemplo de Reynolds: modelo de primer orden
1.2
Residuales estandarizados
0.0
#1.2
y
150 200 250 300 350
agregar una segunda variable independiente que es el cuadrado del nmero de meses que el
trabajador ha estado con la empresa. En la figura 16.4 se muestran los resultados de Minitab
correspondientes al modelo de segundo orden; la ecuacin de regresin estimada es
FIGURA 16.4 Resultados de Minitab para el ejemplo de Reynolds: modelo de segundo orden
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 131413 65707 55.36 0.000
Residual Error 12 14244 1187
Total 14 145657
FIGURA 16.5 Grfica de residuales estandarizados para el ejemplo de Reynolds: modelo de segundo orden
1.2
Residuales estandarizados
0.0
!1.2
y
100 150 200 250 300 350
718 Captulo 16 Anlisis de regresin: construccin de modelos
Interaccin
Si el conjunto de datos originales consta de las observaciones para y y las dos variables inde-
pendientes x1 y x2, se puede desarrollar un modelo de segundo orden con dos variables predic-
toras colocando z1 ! x1, z2 ! x2, z3 ! x 21 , z4 ! x 22 y z 5 ! x1 x2 en el modelo lineal general
de la ecuacin (16.1). El modelo que se obtiene es el siguiente.
En este modelo de segundo orden la variable z5 ! x1 x2 se agrega para tomar en cuenta los
efectos potenciales de las dos variables en una accin conjunta. A este tipo de efecto se le llama
interaccin.
Para proporcionar un ejemplo de interaccin y lo que sta significa, se revisar el estudio
de regresin realizado por Tyler Personal Care para un nuevo shampoo. Los dos factores que se
cree que tienen mayor influencia sobre las ventas son el precio de venta por unidad y el gasto
de publicidad. Para investigar los efectos de estas dos variables sobre las ventas se parearon
los precios de $2.00, $2.50 y $3.00 con los gastos de publicidad de $50 000 y $100 000 en 24
mercados de prueba. Las unidades vendidas (en miles) que se observaron se presentan en la
tabla 16.2.
La tabla 16.3 es un resumen de estos datos. Observe que las ventas (Sales) medias mues-
trales correspondientes al precio (Price) de $2.00 y un gasto en publicidad (Advertising Expen-
diture) de $50 000 son de 461 000, y las ventas medias muestrales correspondientes a un precio
de $2.00 y un gasto en publicidad de $100 000 son de 808 000. Por tanto, cuando el precio se
mantiene constante en $2.00, la diferencia en las ventas medias entre gastos de publicidad de
$50 000 y $100 000 es de 808 000 $ 461 000 ! 347 000 unidades. Cuando el precio del produc-
to es de $2.50, la diferencia es de 646 000 $ 364 000 ! 282 000 unidades. Por ltimo, cuando
el precio es de $3.00, la diferencia es 375 000 $ 332 000 ! 43 000 unidades. Claramente, la
diferencia en las ventas medias entre los gastos de publicidad de $50 000 y $100 000 depende
del precio del producto. En otras palabras, a precios de venta ms altos, el efecto del aumento
en los gastos de publicidad disminuye. Estas observaciones proporcionan la evidencia de la
interaccin entre las variables precio y gastos de publicidad.
Para ofrecer otro punto de vista de la interaccin, la figura 16.6 presenta las ventas me-
dias muestrales de las seis combinaciones precio-gastos de publicidad. Esta grfica indica tam-
bin que el efecto en los gastos de publicidad sobre las ventas medias depende del precio del
Advertising Advertising
Expenditure Sales Expenditure Sales
Price ($1 000s) (1 000s) Price ($1 000s) (1 000s)
$2.00 50 478 $2.00 100 810
$2.50 50 373 $2.50 100 653
WEB archivo $3.00 50 335 $3.00 100 345
$2.00 50 473 $2.00 100 832
Tyler
$2.50 50 358 $2.50 100 641
$3.00 50 329 $3.00 100 372
$2.00 50 456 $2.00 100 800
$2.50 50 360 $2.50 100 620
$3.00 50 322 $3.00 100 390
$2.00 50 437 $2.00 100 790
$2.50 50 365 $2.50 100 670
$3.00 50 342 $3.00 100 393
16.1 Modelo lineal general 719
TABLA 16.3 Ventas unitarias medias (miles) para el ejemplo de Tyler Personal Care
Precio
$2.00 $2.50 $3.00
Gasto en $50 000 461 364 332
publicidad $100 000 808 646 375
FIGURA 16.6 Ventas unitarias medias (miles) como una funcin de precio de venta y gasto
de publicidad
900
$100 000
800
700
Ventas unitarias medias (miles)
Diferencia
de
646 ! 364
500
" 282
$50 000
producto. Observe de nuevo el efecto de la interaccin. Cuando existe interaccin entre dos va-
riables no se puede estudiar el efecto de una variable sobre la respuesta y en forma independien-
te de la otra variable. En otras palabras, las conclusiones significativas slo pueden desarrollarse
si se considera el efecto conjunto que ambas variables tienen sobre la respuesta.
Para tomar en cuenta el efecto de interaccin se utilizar el siguiente modelo de regresin.
donde,
y ! ventas unitarias (miles)
x1 ! precio ($)
x2 ! gasto de publicidad (miles $)
Observe que la ecuacin (16.5) refleja la creencia de Tyler de que el nmero de unidades vendi-
das depende linealmente del precio de venta y de los gastos de publicidad (cuenta para los tr-
minos 1x1 y 2 x 2) y de que existe una interaccin entre las dos variables (cuenta para el trmino
3 x1x 2).
Para desarrollar una ecuacin de regresin estimada se utiliz un modelo lineal general
con tres variables independientes (z1, z2, z3).
donde
z 1 ! x1
z2 ! x 2
z 3 ! x1x 2
Sales ! $276 " 175 Price " 19.7 AdvExp $ 6.08 PriceAdv
donde
Los datos para la variable
independiente PriceAdv Sales (ventas) ! ventas unitarias (miles)
se obtienen multiplicando
Price (precio) ! precio del producto ($)
cada valor del Precio por
el valor correspondiente AdvExp (gastoPubl) ! gasto en publicidad ($ miles)
de AdvExp.
PriceAdv (precioPubl) ! trmino de interaccin (precio por AdvExp)
Como el modelo es significativo (el valor-p para la prueba F es 0.000) y el valor-p correspon-
diente a la prueba t para PriceAdv es 0.000, se concluye que la interaccin es significativa dado
el efecto lineal del precio del producto y los gastos en publicidad. As, los resultados de la re-
gresin muestran que el efecto de los gastos en publicidad sobre las ventas depende del precio.
Analysis of Variance
SOURCE DF SS MS F p
Regression 3 709316 236439 297.87 0.000
Residual Error 20 15875 794
Total 23 725191
TABLA 16.4 A menudo vale la pena tener en cuenta las transformaciones que implican a la variable depen-
Rendimiento en millas diente y. Como ejemplo de cuando se desea transformar esta variable, considere los datos de la
por galn y el peso tabla 16.4 en la que se presentan el nmero de millas por galn y el peso de 12 automviles. El
de 12 automviles diagrama de dispersin de la figura 16.8 indica una relacin lineal negativa entre estas dos va-
Millas por
riables. Por tanto, se utilizar un modelo simple de primer orden para relacionarlas. El resultado
Peso galln de Minitab se muestra en la figura 16.9. La ecuacin de regresin estimada es:
2 289 28.7
2 113 29.2
2 180 34.2 MPG ! 56.1 $ 0.0116 Weight
2 448 27.9
2 026 33.3
2 702 26.4
donde
2 657 23.9
2 106 30.5 MPG (millas por galn) ! rendimiento de millas por galn
3 226 18.1
3 213 19.5 Weight (peso) ! peso del automvil en libras
3 607 14.3
2 888 20.9
El modelo es significativo (el valor-p de la prueba F es 0.000) y el ajuste es muy bueno (R-sq !
93.5%). Sin embargo, se aprecia en la figura 16.9 que la observacin 3 destaca por tener un
residual estandarizado mayor.
La figura 16.10 es la grfica de los residuales estandarizados correspondientes al modelo
de primer orden. La forma que se observa no parece ser la banda horizontal que se espera en-
WEB archivo contrar si los supuestos sobre el trmino del error son vlidos. En cambio, la variabilidad de
MPG los residuales parece aumentar a medida que se incrementa el valor de y. En otras palabras, se
observa que el patrn en forma de cua al que se refieren los captulos 14 y 15 es indicativo
de una varianza no constante. No se justifica llegar a cualquier conclusin acerca de la impor-
tancia estadstica del resultado para la ecuacin de regresin estimada si los supuestos para la
prueba de significancia parecen no estar satisfechos.
A menudo el problema de la varianza no constante se puede corregir transformando la va-
riable dependiente en una escala diferente. Por ejemplo, si se trabaja con el logaritmo de la
variable dependiente en lugar de con la variable original, el efecto ser comprimir sus valores
y por tanto disminuir los efectos de la varianza no constante. La mayora del software de esta-
dstica permite aplicar las transformaciones logartmicas utilizando ya sea la base 10 (logarit-
mo comn) o la base e ! 2.71828 . . . (logaritmo natural). Aqu se aplic la transformacin
722 Captulo 16 Anlisis de regresin: construccin de modelos
35.0
28.0
14.0
7.0
0
2 000 2200 2400 2600 2800 3000 3200 3 400 3600 3800
Peso (libras)
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 403.98 403.98 144.76 0.000
Residual Error 10 27.91 2.79
Total 11 431.88
Unusual Observations
Obs Weight MPG Fit SE Fit Residual St Resid
3 2180 34.200 30.713 0.644 3.487 2.26R
FIGURA 16.10 Grfica de residuales estandarizados para el ejemplo de millas por galn
1.5
Residuales estandarizados
0.0
!1.5
y
14.0 17.5 21.0 24.5 28.0 31.5
logartmica natural a los datos en millas por galn y se desarroll la ecuacin de regresin esti-
mada relacionando el peso con dicho logaritmo natural. Los resultados de regresin obtenidos
al utilizar el logaritmo natural de millas por galn como variable dependiente, etiquetada como
LogeMPG, se muestran en la figura 16.11; la figura 16.12 es la grfica correspondiente a los
residuales estandarizados.
Al observar la grfica en la figura 16.12 vemos que la forma de cua ha desaparecido.
Por otra parte, ninguna de las observaciones se identifica por tener residuales estandarizados
FIGURA 16.11 Resultado de Minitab para el ejemplo de millas por galn: transformacin
logartmica
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 0.74822 0.74822 181.22 0.000
Residual Error 10 0.04129 0.00413
Total 11 0.78950
724 Captulo 16 Anlisis de regresin: construccin de modelos
FIGURA 16.12 Grfica de residuales estandarizados para el ejemplo de millas por galn: transformacin
logartmica
1.2
Residuales estandarizados
0.0
!1.2
y
2.70 2.85 3.00 3.15 3.30 3.45
mayores. El modelo con el logaritmo de millas por galn como variable dependiente es esta-
dsticamente significativo y proporciona un excelente ajuste a los datos observados. Por tanto,
se recomienda utilizar la ecuacin de regresin estimada
Para estimar el rendimiento en millas por galn de un automvil que pesa 25 000 libras, en
primer lugar se desarrollar una estimacin del logaritmo para el rendimiento de millas por
galn.
La estimacin de las millas por galn se obtiene determinando el nmero cuyo logaritmo natu-
ral es 3.2675. Al utilizar una calculadora con una funcin exponencial, o elevar e a la potencia
3.2675, se obtienen 26.2 millas por galn.
Otro mtodo para los problemas de la varianza no constante es usar 1/ y como variable
dependiente en vez de y. A este tipo de transformacin se le llama transformacin recproca.
Por ejemplo, si la variable dependiente se mide en millas por galn, la transformacin rec-
proca dar como resultado una nueva variable dependiente cuyas unidades sern 1/(millas por
galn) o galones por milla. En general, no hay manera de determinar si una transformacin lo-
gartmica o una transformacin recproca funcionar mejor sin tener que tratar cada uno de los
trminos.
con la ecuacin (16.1), el modelo lineal general. El modelo exponencial implica la siguiente
ecuacin de regresin.
E( y) ! 0 1x (16.7)
E( y) ! 500(1.2) x
Ahora bien, si y# ! log E( y), #0 ! log 0 y #1 ! log 1, se puede expresar la ecuacin (16.8)
como
y# ! #0 " #1x
Es evidente que las frmulas de regresin lineal simple se pueden utilizar ahora para desarro-
llar estimaciones de #0 y #1 . Al denotar las estimaciones como b#0 y b#1 , llegamos a la siguiente
ecuacin de regresin estimada.
Para obtener las predicciones de la variable dependiente original y dado el valor de x, primero
se sustituye el valor de x en la ecuacin (16.9) y se calcula y#. El antilogaritmo de y# ser la
prediccin de y, o su valor esperado.
Muchos modelos no lineales pueden transformarse en un modelo lineal equivalente. Sin em-
bargo, estos modelos han tenido un uso limitado en sus aplicaciones en el comercio y la eco-
noma. Por lo dems, la base matemtica necesaria para su estudio est ms all del alcance de
este libro.
Ejercicios
Mtodos
1. Considere los siguientes datos para dos variables, x y y.
AUTO evaluacin
x 22 24 26 30 35 40
y 12 21 33 35 40 36
a) Desarrolle una ecuacin de regresin estimada para los datos en la forma y ! b0 " b1x.
b) Utilice los resultados del inciso a) para probar una relacin significativa entre x y y. Uti-
lice ! 0.05.
c) Desarrolle un diagrama de dispersin de estos datos. El diagrama sugiere una ecuacin de
regresin estimada de la forma y ! b0 " b1 x " b2 x 2? Explique.
726 Captulo 16 Anlisis de regresin: construccin de modelos
d) Desarrolle una ecuacin de regresin estimada con los datos de la forma y ! b0 " b1 x "
b2 x 2.
e) Remtase al inciso d). Es significativa la relacin entre x, x 2 y y? Utilice ! 0.05.
f) Pronostique el valor de y cuando x ! 25.
2. Considere los siguientes datos para dos variables, x y y.
x 9 32 18 15 26
y 10 20 21 16 22
a) Desarrolle una ecuacin de regresin estimada con los datos de la forma y ! b0 " b1x.
Comente sobre lo apropiado de esta ecuacin para predecir y.
b) Desarrolle una ecuacin de regresin estimada con los datos de la forma y ! b0 " b1 x "
b2 x 2. Comente sobre lo adecuado de esta ecuacin para predecir y.
e) Pronostique el valor de y cuando x ! 20.
3. Considere los siguientes datos para dos variables, x y y.
x 2 3 4 5 7 7 7 8 9
y 4 5 4 6 4 6 9 5 11
Aplicaciones
4. Un departamento de autopistas estudia la relacin entre el flujo del trfico y la velocidad. El
siguiente modelo ha sido admitido como hiptesis
y ! 0 " 1x " $
donde
Los siguientes datos fueron obtenidos durante las horas pico en las seis carreteras que salen de
la ciudad.
5. Trabajando con el problema del ejercicio 4, los expertos en estadstica sugirieron el uso de la
AUTO evaluacin siguiente ecuacin de regresin estimada curvilnea.
y ! b0 " b1 x " b2 x 2
a) Retome los datos del ejercicio 4 para estimar los parmetros de la ecuacin de regresin
estimada.
b) Utilice ! 0.01 para probar una relacin significativa.
c) Estime el flujo del trfico en vehculos por hora a una velocidad de 38 millas por hora.
6. En un estudio sobre la infraestructura del servicio de emergencia se investig la relacin en-
tre el nmero de instalaciones y la distancia promedio recorrida para proporcionar este tipo de
servicio. La siguiente tabla muestra los datos obtenidos.
a) Desarrolle un diagrama de dispersin con los datos del ingreso familiar promedio como
variable independiente y el porcentaje de la fuerza de trabajo en el campo creativo co-
mo variable dependiente. El modelo de regresin lineal simple parece apropiado?
b) Desarrolle un diagrama de dispersin para estos datos con el ndice del costo de vida como
variable independiente y el porcentaje de la fuerza de trabajo en el campo creativo co-
mo variable dependiente. El modelo lineal simple parece ser apropiado?
c) Utilice los datos proporcionados para desarrollar la ecuacin de regresin mltiple esti-
mada a efecto de calcular el porcentaje de la fuerza de trabajo en los campos creativos.
d) Tucson, Arizona, es un rea metropolitana con una poblacin de 946 362 habitantes, un
ingreso familiar promedio de $42 984, y un ndice en el costo de vida de 99. Desarrolle
una estimacin del porcentaje de la fuerza de trabajo en los mbitos creativos de Tucson.
Existen factores que se deben considerar antes de utilizar esta estimacin puntual?
En el captulo 15 se mostr que la suma de cuadrados debido al error con este modelo fue
SCE ! 8.029. Cuando se le agreg una segunda variable independiente x2, nmero de entregas,
se obtuvo la siguiente ecuacin de regresin estimada.
La suma de cuadrados debido al error para este modelo fue SCE ! 2.299. Claramente, agregar
x 2 dio como resultado una reduccin de SCE. La pregunta que se desea responder es: La adi-
cin de la variable x 2 lleva a una reduccin significativa de la SCE?
Utilice la notacin SCE(x 1) para denotar la suma de cuadrados debido al error cuando x1 es
la nica variable independiente en el modelo, SCE (x 1, x 2) para denotar la suma de cuadrados
debido al error cuando tanto x 1 como x 2 estn en el modelo, y as sucesivamente. Por tanto, la
reduccin de SCE que se obtuvo al adicionar x 2 al modelo que slo tena x 1 es:
SCE(x1, x 2) 2.299
CME ! ! ! 0.3284
n%p%1 7
SCE(x1) % SCE(x1, x 2)
1
F! (16.10)
SCE(x1, x 2)
n%p%1
El nmero de grados de libertad del numerador para esta prueba F es igual al nmero de va-
riables aadidas al modelo, y los grados de libertad en el denominador es igual a n % p % 1.
Para el problema de Butler Trucking obtenemos
5.730
1 5.730
F! ! ! 17.45
2.299 0.3284
7
Caso general
Considere el siguiente modelo de regresin mltiple con variables independientes q donde
q ' p.
Si a este modelo se le agregan las variables xq"1, xq"2, . . . , x p, se obtiene un modelo con va-
riables independientes p
El siguiente estadstico F proporciona la base para probar si la adicin de las variables indepen-
dientes es estadsticamente significativa.
Este valor F calculado se compara con F, el valor de la tabla con p % q grados de libertad en
el numerador y n % p % 1 grados de libertad en el denominador. Si F & F, entonces H0 es
rechazada y se concluye que el conjunto de variables independientes agregadas es estadsti-
camente significativo. Observe que para el caso especial donde q ! 1 y p ! 2, la ecuacin
(16.13) se reduce a la ecuacin (16.10).
Muchos software, como Muchos estudiantes encuentran la ecuacin (16.13) un tanto compleja. Para dar una des-
Minitab, proporcionan cripcin ms sencilla de este cociente F, se puede referir el modelo con el menor nmero de
sumas de cuadrados que
variables independientes como modelo reducido, y el modelo con el mayor nmero de variables
corresponden al orden
en que cada variable independientes como modelo completo. Si SCE(reducido) denota la suma de cuadrados debido
independiente entra al al error del modelo reducido, y SCE(completo) la suma de cuadrados debido al error del modelo
modelo; en estos casos se completo, se puede escribir el numerador de (16.13) como
simplifican los clculos de
la prueba F para determinar SCE(reducido) % SCE(completo)
si se agrega o elimina un (16.14)
conjunto de variables. nmero de trminos extra
Observe que el nmero de trminos extra denota la diferencia entre el nmero de varia-
bles independientes en el modelo completo y el nmero de variables independientes en el mo-
delo reducido. El denominador de la ecuacin (16.13) es la suma de cuadrados debido al error
en el modelo completo dividida entre los grados de libertad correspondientes; es decir, el de-
nominador es el cuadrado medio debido al error del modelo completo. Al denotar ste como
CME(completo), permite escribirlo como
SCE(reducido) % SCE(completo)
nmero de trminos extra
F! (16.15)
CME(completo)
Para ilustrar el uso de este estadstico F, suponga que se tiene un problema de regresin con 30
observaciones. Un modelo con las variables independientes x1, x2 y x3 tiene un error en la suma
de cuadrados de 150, y el segundo modelo con las variables independientes x1, x2, x3, x4 y x5
tiene un error en la suma de cuadrados de 100. La adicin de las dos variables independientes
x4 y x5 dio como resultado una reduccin significativa en la suma de cuadrados debido al error?
Observe primero que los grados de libertad para STC es 30 % 1 ! 29, y que los grados
de libertad para la suma de cuadrados debido a la regresin para el modelo completo es 5 (el
732 Captulo 16 Anlisis de regresin: construccin de modelos
nmero de variables independientes en el modelo completo). Por tanto, los grados de libertad
para la suma de cuadrados debido al error en el modelo completo es 29 % 5 ! 24 y, por tanto,
CME(completo) ! 100/24 ! 4.17. As que el estadstico F es
150 % 100
2
F! ! 6.00
4.17
Este valor F calculado se compara con el valor F que se encuentra en la tabla para 2 grados de
libertad en el numerador y 24 grados de libertad en el denominador. En el nivel 0.05 de signi-
ficancia, la tabla 4 del apndice B muestra que F0.05 ! 3.40. Debido a que F ! 6.00 es mayor
que 3.40, se concluye que la adicin de las variables x4 y x5 es estadsticamente significativa.
NOTAS Y COMENTARIOS
El clculo del estadstico F tambin se basa en la diferencia de la suma de cuadrados de la regresin. Para mos-
trar esta forma del estadstico F, primero se observa que
Ejercicios
Mtodos
10. En un anlisis de regresin con 27 observaciones, se obtuvo la siguiente ecuacin de regresin
estimada.
y ! 25.2 " 5.5x 1
AUTO evaluacin
11. En un anlisis de regresin con 30 observaciones se obtuvo la siguiente ecuacin de regresin
estimada.
Aplicaciones
12. La Ladies Professional Golfers Association (LPGA) mantiene estadsticas sobre el desempeo y
las ganancias de los miembros de la LPGA Tour. Las estadsticas de fin de ao sobre el desem-
peo de las 30 jugadoras que obtuvieron las mayores ganancias en los eventos de LPGA Tour
de 2005 aparecen en el archivo LPGA Tour (sitio web de LPGA Tour, 2006). Earnings ($1 000)
WEB archivo son los ingresos totales en miles de dlares; Scoring Avg. es la puntuacin promedio de una
LPGATour jugadora en todos los eventos; Green in Reg. es el porcentaje de las veces en que la jugadora
llega al green en regulacin; Putting Avg. es el promedio de putts realizados dentro del green
en regulacin, y Sand Saves es el porcentaje de veces que una jugadora es capaz de conseguir
subir y bajar cuando se encuentra en la trampa de arena al lado del green. Un green en regu-
lacin es considerado un golpe en cualquier parte de la bola que est en contacto con la superfi-
cie del putting, y la diferencia entre el valor del par de hoyos y el nmero de golpes en el green
es por lo menos de un par.
a) Desarrolle una ecuacin de regresin estimada para pronosticar la Scoring Avg. de todos
los eventos dado el nmero promedio de putts en los golpes dados en Green in Reg.
b) Desarrolle una ecuacin de regresin estimada para pronosticar la Scoring Avg. de todos
los eventos dado el tiempo promedio en que una jugadora es capaz de golpear el Green in
Reg, y el promedio de veces en que consigue subir y bajar una vez que se encuentra en
la trampa de arena.
c) Con un el nivel de significancia de 0.05, pruebe si las dos variables independientes agre-
gadas en el inciso b), el porcentaje de veces en que una jugadora consigue llegar al green
en regulacin y el promedio de veces en que es capaz de subir y bajar una vez que se
encuentra en la trampa de arena al lado del green, contribuyen significativamente el desa-
rrollo de la ecuacin de regresin en el inciso a). Explique.
13. Vaya al ejercicio 12.
WEB archivo a) Desarrolle una ecuacin de regresin estimada para predecir las ganancias en todos los
LPGATour eventos, dado el nmero de Putting Avg. en los green en regulacin.
734 Captulo 16 Anlisis de regresin: construccin de modelos
b) Desarrolle una ecuacin de regresin estimada para predecir el total de ganancias en to-
dos los eventos dado el porcentaje de veces en que una jugadora es capaz de llegar al green
en regulacin, la puntuacin Putting Avg. lograda en el green en regulacin y el porcentaje
de veces en que la jugadora es capaz de conseguir subir y bajar una vez que se encuentra
en la trampa de arena al lado del green.
c) Con un nivel de 0.05 de significancia, pruebe si las dos variables independientes agre-
gadas en el inciso b), el promedio de veces en que la jugadora es capaz de llegar el green
en regulacin y el porcentaje de veces en que consigue subir y bajar una vez que est en
la trampa de arena al lado del green, contribuyen significativamente al desarrollo de la
ecuacin de regresin estimada en el inciso a). Explique.
s) En general, las puntuaciones ms bajas llevan a ganancias ms grandes. Para investigar
esta opcin que permita predecir las ganancias totales, desarrolle una ecuacin de regre-
sin estimada para pronosticar las ganancias totales en todos los eventos dada la puntua-
cin promedio. Prefiere utilizar esta ecuacin o la ecuacin desarrollada en el inciso b).
Explique.
14. Un estudio realizado a lo largo de 10 aos por la American Heart Association proporciona
datos sobre cmo la edad (Age), la presin arterial (Blood Pressure) y el tabaquismo se rela-
cionan con el riesgo (Risk) de sufrir infartos. Los siguientes son los datos de una parte de este
estudio. El riesgo se interpreta como la probabilidad (multiplicada por 100) de que el paciente
sufra un infarto en los prximos 10 aos. Para la variable fumador (Smoker), 1 indica a un
fumador y el 0 a un no fumador.
a) Desarrolle una ecuacin de regresin estimada para predecir el riesgo de fumar dada la
edad y el nivel de presin sangunea.
b) Considere la adicin de dos variables independientes al modelo desarrollado en el inci-
so a): una para la interaccin entre la edad y el nivel de presin arterial y otra que indique
si la persona es fumadora. Desarrolle una ecuacin de regresin estimada utilizando estas
cuatro variables independientes.
c) Con un nivel de 0.05 de significancia, lleve a cabo una prueba para determinar si la adi-
cin del trmino interaccin y la variable fumador contribuyen significativamente a la
ecuacin de regresin estimada desarrollada en el inciso a).
16.3 Anlisis de un problema mayor 735
15. En el beisbol, una carrera limpia es cualquiera en la que el lanzador anota al equipo contra-
rio, con excepcin de las carreras anotadas como consecuencia de errores. El promedio de
carreras anotadas (ERA), la estadstica que con mayor frecuencia se utiliza para comparar la
efectividad de los lanzadores, se calcula de la siguiente manera.
carreras limpias
ERA ! 9
entradas lanzadas
Observe que el nmero promedio de carreras limpias por cada entrada se multiplica por 9, el
nmero de entradas en un juego reglamentario. Por tanto, ERA representa el nmero prome-
WEB archivo dio que el lanzador cede por nueve entradas. Por ejemplo, en 2008 Roy Halladay, un lanza-
MLBPitching
dor de los Azulejos de Toronto, lanz 246 entradas y cedi 76 carreras ganadas; su ERA fue
(76/246)9 ! 2.78. Para investigar la relacin entre el ERA y otras medidas de efectividad en
el lanzamiento, los datos de 50 lanzadores en la Major League Baseball durante la temporada
2008 aparecen en el conjunto de datos llamado MLBPitching (pgina web de la MLB, febrero
de 2009). Las descripciones de las variables aparecen en el siguiente conjunto de datos.
1
Para ms detalles, vase David W. Cravens, Robert B. Woodruff y Joe C. Stamper, An analytical approach for evalua-
ting sales territory performance, Journal of Marketing, 36 (enero de 1972), pp. 31-37. Copyright 1972 American
Marketing Association.
736 Captulo 16 Anlisis de regresin: construccin de modelos
Como paso previo, se considerarn los coeficientes de correlacin muestral entre cada par
de variables. La figura 16.13 es la matriz de correlacin obtenida con Minitab. Observe que el
coeficiente de correlacin muestral entre Sales y Time es 0.623, entre Sales y Poten es 0.598, y
as sucesivamente.
En cuanto a los coeficientes de correlacin entre las variables independientes, observar
que la correlacin entre Time y Accounts es de 0.758, por lo que, si Accounts se utiliza como
Variable Definicin
(Sales) ventas Total de ventas acreditadas al representante de ventas
(Time) antigedad Antigedad del empleado en meses
(Poten) potencial Mercado potencial; ventas industriales totales en unidades en el territorio de ventas*
(AdvExp) gastos en publicidad Gastos de publicidad en el territorio de ventas
(Share) participacin Participacin de mercado; promedio ponderado de los ltimos cuatro aos
(Change) cambio Cambio en la participacin de mercado durante los ltimos cuatro aos
(Accounts) cuentas Cuentas asignadas a los representantes de ventas*
(Work) trabajo Carga de trabajo; ndice ponderado basado en compras anuales y concentraciones
de cuentas
(Raiting) clasificacin Evaluacin general del representante de ventas en ocho dimensiones de desempeo;
evaluacin agregada sobre una escala de 1-7
FIGURA 16.14 Resultados de Minitab para el modelo con ocho variables independientes
Analysis of Variance
SOURCE DF SS MS F p
Regression 8 38153712 4769214 23.66 0.000
Residual Error 16 3225837 201615
Total 24 41379549
FIGURA 16.15 Resultados de Minitab para el modelo con las variables Poten, AdvExp y Share
Analysis of Variance
SOURCE DF SS MS F p
Regression 3 35130228 11710076 39.35 0.000
Residual Error 21 6249321 297587
Total 24 41379549
16.4 Procedimientos de seleccin de variables 739
H0: 2 ! 0
H a : 2 ( 0
SCE(x1) % SCE(x1, x 2)
1
F!
SCE(x1, x 2)
n%p%1
se puede utilizar como criterio para determinar si la presencia de x 2 en el modelo causa una
reduccin significativa en la suma de cuadrados debido al error. El valor-p correspondiente a
este estadstico F es el criterio utilizado para determinar si una variable independiente debe
agregarse o eliminarse del modelo de regresin. La regla de rechazo se aplica siempre: rechazar
H0 si el valor-p ) .
FIGURA 16.16 Resultados de Minitab mediante la regresin por pasos para los datos de Cravens
Step 1 2 3 4
Constant 709.32 50.29 -327.24 -1441.93
Share 190
T-Value 3.82
P-Value 0.001
Alpha to enter. Este procedimiento termin en cuatro pasos. La ecuacin de regresin estimada
obtenida con el procedimiento de regresin por pasos de Minitab es:
y ! %1 441.93 " 9.2 Accounts " 0.175 AdvExp " 0.0382 Poten " 190 Share
Debido a que el En la figura 16.16 observe tambin que s ! "CME se ha reducido de 881 en el mejor mode-
procedimiento por pasos no lo con una variable (utilizando Account) a 454. El valor de R-sq se increment de 56.85% a
considera cada subconjunto
90.04%, y el R-sq(adj) de la ecuacin de regresin estimada se recomienda que sea de 88.05%.
posible de un determinado
nmero de variables En resumen, en cada paso del procedimiento de regresin por pasos lo primero que se
independientes, ste no considera es si alguna de las variables independientes puede eliminarse del modelo actual. Si
necesariamente selecciona ninguna puede descartarse, el procedimiento verifica si cualquier otra que no est actualmente
la ecuacin de regresin en el modelo puede ser ingresada. Debido a la naturaleza del procedimiento de regresin por pa-
estimada con el mayor
sos, una variable independiente se ingresa en el modelo en un solo paso, es eliminada en un
valor R-sq.
paso subsiguiente, y despus se introduce al modelo en un paso posterior. El procedimiento
se detiene cuando ninguna variable independiente puede ser eliminada ni agregada al modelo.
adelante no permite que una variable sea eliminada del modelo una vez que se ha ingresado, y se
detiene cuando el valor-p de cada una de las variables independientes que no est en el modelo
es mayor que Alpha to enter.
La ecuacin de regresin estimada obtenida con Minitab mediante el procedimiento de
seleccin hacia adelante es
y ! %1441.93 " 9.2 Accounts " 0.175 AdvExp " 0.0382 Poten " 190 Share
Por tanto, para los datos de Cravens, el procedimiento de seleccin hacia adelante (con 0.05 de
Alpha to enter) lleva a la misma ecuacin de regresin estimada que el procedimiento por pasos.
y ! %1 312 " 3.8 Time " 0.0444 Poten " 0.152 AdvExp " 259 Share
FIGURA 16.17 Parte de los resultados de Minitab obtenidos mediante la regresin de los mejores
subconjuntos
A
c
A C c R
P d S h o a
T o v h a u W t
i t E a n n o I
m e x r g t r n
Vars R-sq R-sq(adj) s e n p e e s K g
de regresin estimada para cualquier nmero de predictores es el valor del coeficiente de deter-
minacin (R-sq). Por ejemplo, la mejor ecuacin de regresin estimada con una sola variable
independiente es Accounts con un R-sq ! 56.8%; AdvExp y Accounts, con R-sq ! 77.5%,
proporcionan la mejor ecuacin con dos variables independientes, y Poten, AdvExp y Shares,
con R-sq ! 84.9%, aportan la mejor ecuacin con tres variables independientes. Para los da-
tos de Cravens, el mayor coeficiente de determinacin ajustado (Adj. R-sq ! 89.4%) es el del
modelo con seis variables independientes: Time, Poten, AdvExp, Shares, Change y Accounts.
Sin embargo, el mejor modelo con cuatro variables (Poten, AdvExp, Shares y Accounts) tiene
un coeficiente de determinacin ajustado casi igual de alto (88.1%). Se prefiere, por lo general,
el modelo ms sencillo con el menor nmero de variables.
La eleccin final
El anlisis realizado hasta ahora sobre los datos de Cravens es una buena preparacin para la
eleccin de un modelo final, pero debe efectuarse un anlisis precio a la eleccin definitiva.
Como se seal en los captulos 14 y 15, se debe realizar un anlisis cuidadoso de los residuales.
Se desea que la grfica de residuales del modelo elegido parezca una banda horizontal. Suponga
que en los residuales no se encuentre problema alguno y que se desea usar los resultados del
procedimiento de los mejores subconjuntos que ayuden a elegir un modelo.
Este procedimiento muestra que el mejor modelo de cuatro variables es el que contiene las
variables independientes Poten, AdvExp, Share y Accounts. Este resulta ser tambin el modelo
con cuatro variables identificadas con el procedimiento de regresin por pasos. La tabla 16.7 es
til en la toma de la decisin final. sta muestra varios posibles modelos que contienen todas o
algunas de estas cuatro variables independientes.
16.4 Procedimientos de seleccin de variables 743
En la tabla 16.7 se observa que el modelo que slo tiene AdvExp y Accounts es bueno. Su
coeficiente de determinacin ajustado es 75.5%, mientras que el modelo con las cuatro variables
slo proporciona un aumento de 12.6 puntos porcentuales. El modelo ms sencillo de dos varia-
bles podra ser el que se prefiera si, por ejemplo, es difcil medir el potencial de mercado (Po-
ten). Sin embargo, si se cuenta fcilmente con los datos y se necesita una gran precisin en las
predicciones de ventas, es claro que se preferir el modelo constructor de las cuatro variables.
NOTAS Y COMENTARIOS
1. El procedimiento por pasos requiere que Alpha to interaccin, se utilizaran los datos de x 1 y x 2 con
remove sea mayor o igual que Alpha to enter. Este el fin de crear los datos para z ! x 1 x 2.
requisito impide que una misma variable sea eli- 3. Ninguno de los procedimientos que agregan o eli-
minada y luego introducida en un mismo paso. minan variables de una en una garantiza la iden-
2. Las funciones de las variables independientes se tificacin del mejor modelo de regresin, pero
pueden utilizar a efecto de crear nuevas variables estos mtodos son excelentes para encontrar bue-
independientes para usarse con cualquiera de los nos modelos, sobre todo cuando poca multicoli-
procedimientos de esta seccin. Por ejemplo, si se nealidad est presente.
desea tener x1x2 en el modelo para considerar la
Ejercicios
Mtodos
16. Un estudio proporcion datos de las variables que pueden estar relacionadas con el nmero de
semanas en que un trabajador de manufactura ha estado desempleado. La variable dependiente
del estudio (semanas) se define como el nmero de stas en que un trabajador ha estado sin em-
pleo debido a un despido. Las siguientes variables independientes se utilizaron en el anlisis.
Nmero medio
Mtodos de ensamble producido
A 62
B 66
C 52
Aunque B parece tener una tasa de produccin superior a la de los otros mtodos, la cues-
tin es determinar si las tres medias muestrales observadas son lo suficientemente distintas
como para concluir que las medias poblacionales correspondientes a los tres mtodos de en-
samble son diferentes.
Al aplicar el mtodo de regresin a este problema empezamos definiendo las variables fic-
ticias que se utilizan para indicar cul de los mtodos de ensamble fue utilizado. Debido a que
Mtodo
A B C
58 58 48
64 69 57
55 71 59
66 64 47
67 68 49
746 Captulo 16 Anlisis de regresin: construccin de modelos
A B
1 0 Observacin relacionada con el mtodo de ensamble A
0 1 Observacin relacionada con el mtodo de ensamble B
0 0 Observacin relacionada con el mtodo de ensamble C
en el caso de Chemitech existen tres mtodos o tratamientos, se necesitan dos variables ficticias.
En general, si el factor que se investigar implica distintos niveles o tratamientos k, es necesario
definir k % 1 variables ficticias. Para el experimento de Chemitech se determinan las variables
ficticias A y B como se muestran en la tabla 16.9.
Se pueden manejar las variables ficticias para relacionar el nmero de unidades y produci-
das por semana con el mtodo de ensamble utilizado por el empleado.
Por tanto, si nos interesa el valor esperado del nmero de unidades ensambladas a la sema-
na por un empleado que utiliza el mtodo C, el procedimiento de asignacin de valores num-
ricos a las variables ficticias se traducira en A ! B ! 0. La ecuacin de regresin mltiple se
reduce entonces a
Se interpreta 0 como el valor esperado del nmero de unidades ensambladas a la semana por
el empleado que utiliza el mtodo C. En otras palabras, 0 es la media del nmero de unidades
generadas por semana utilizando el mtodo C.
A continuacin se considera la forma de la ecuacin de regresin mltiple para cada uno
de estos mtodos. Mediante A, los valores de las variables ficticias son A ! 1 y B ! 0, y
E(y) ! 0 " 1(1) " 2(0) ! 0 " 1
Observamos que 0 " 1 representa la media del nmero de unidades ensambladas por sema-
na utilizando el mtodo A, y 0 " 2 representa la media del nmero de unidades ensambladas
por semana utilizando el mtodo B.
Ahora se desea obtener las estimaciones del coeficiente de 0, 1 y 2 para desarrollar una
estimacin del nmero medio de unidades generadas por semana con cada uno de los mtodos.
En la tabla 16.10 se presentan los datos muestrales, que consisten de 15 observaciones de A, B
y y. La figura 16.18 presenta los resultados correspondientes a la regresin mltiple de Minitab.
Se observa que las estimaciones de 0, 1 y 2 son b0 ! 52, b1 ! 10 y b2 ! 14. Por tanto, la
mejor estimacin de la media del nmero de unidades ensambladas por semana con cada uno
de los mtodos es la siguiente.
A B y
1 0 58
1 0 64
1 0 55
1 0 66
WEB archivo 1 0 67
Chemitech
0 1 58
0 1 69
0 1 71
0 1 64
0 1 68
0 0 48
0 0 57
0 0 59
0 0 47
0 0 49
Observe que las estimaciones de los nmeros medios de las unidades producidas con cada
uno de los tres mtodos de ensamble obtenidas mediante el anlisis de regresin son las mis-
mas que las medias muestrales presentadas previamente.
Note cmo ahora se pueden utilizar los resultados del anlisis de regresin mltiple para
realizar la prueba del ANOVA sobre la diferencia entre las medias de las tres plantas. En primer
lugar, observe que si las medias no difieren
Analysis of Variance
SOURCE DF SS MS F P
Regression 2 520.00 260.00 9.18 0.004
Residual Error 12 340.00 28.33
Total 14 860.00
748 Captulo 16 Anlisis de regresin: construccin de modelos
Debido a que 0 es igual a E(y) para el mtodo C, y 0 " 1 es igual a E(y) para el mto-
do A, la primera diferencia es igual a ( 0 " 1) % 0 ! 1. Por otra parte, como 0 " 2 es igual
a E(y) al emplear el mtodo B, la segunda diferencia es igual a (0 " 2) % 0 ! 2. Se con-
cluye que los tres mtodos no difieren si 1 ! 0 y 2 ! 0. Por tanto, la hiptesis nula para una
prueba sobre la diferencia entre las medias se puede establecer como
H0 : 1 ! 2 ! 0
Suponga que el nivel de significancia es ! 0.05. Recuerde que para probar este tipo de hi-
ptesis nula acerca de la significancia de la relacin de regresin se utiliza la prueba F de
significancia general. El resultado de Minitab en la figura 16.18 muestra que el valor-p co-
rrespondiente a F ! 9.18 es 0.004. Debido a que el valor-p ! 0.004 ' ! 0.05, se rechaza
H0 : 1 ! 2 ! 0, y se concluye que las medias de los tres mtodos de ensamble no son las
mismas. Ya que la prueba F muestra que la relacin de regresin mltiple es significativa, se
puede realizar una prueba t para determinar la significancia de cada uno de los parmetros 1
y 2. Con ! 0.05, el valor-p de 0.012 y 0.001 en los resultados de Minitab indica que H0 :
1 ! 0 y H0 : 2 ! 0 pueden ser rechazadas. Por tanto, ambos parmetros son estadsticamente
significativos. As que se puede concluir que tanto las medias de los parmetros A y C como las
medias de los parmetros B y C son diferentes.
Ejercicios
Mtodos
20. Considere un diseo completamente aleatorizado que involucre cuatro tratamientos: A, B, C
AUTO evaluacin y D. Escriba la ecuacin de regresin mltiple para analizar estos datos. Defina todas las va-
riables.
21. Escriba una ecuacin de regresin mltiple para analizar los datos de un bloque de diseo alea-
torizado que involucre tres tratamientos y dos bloques. Defina todas las variables.
22. Escriba una ecuacin de regresin mltiple para analizar los datos de un diseo bifactorial de
dos niveles para el factor A y tres niveles para el factor B. Defina todas las variables.
Aplicaciones
23. Jacobs Chemical Company desea estimar el tiempo promedio (en minutos) requerido para
AUTO evaluacin mezclar un lote de material en las mquinas de tres fabricantes. Para limitar los costos de las
pruebas, se mezclaron cuatro lotes del material en las mquinas de cada uno de los tres fabri-
cantes. El tiempo necesario para mezclar el material es el siguiente.
a) Use ! 0.05 para probar si existe alguna diferencia significativa en el tiempo promedio
de secado entre las pinturas.
b) Cul es la estimacin del tiempo promedio de secado de la pintura 2? Cmo se obtiene
el resultado por medio de software?
25. Un concesionario de vehculos lleva a cabo una prueba para determinar si el tiempo necesa-
rio para ajustar un motor pequeo depende de si se utiliza un analizador de motor compu-
tarizado o un analizador electrnico. Dado que el tiempo de ajuste vara entre los vehculos
de tamao compacto, mediano o grande, se utilizaron estos tres tipos de automviles como
bloques del experimento. Los datos que se obtuvieron (en minutos) son los siguientes.
Automvil
Pequeo Mediano Grande
Computarizado 50 55 63
Analizador
Electrnico 42 44 46
donde ! es un parmetro con un valor absoluto menor que 1, y zt es una variable aleatoria dis-
tribuida normal e independientemente con una media de 0 y una varianza de 2. En la ecuacin
(16.16) se observa que si ! # 0, los trminos del error no estn relacionados, y cada uno tiene
una media de 0 y una varianza de 2. En este caso no hay autocorrelacin y se satisfacen los
yt ! y t yt ! y t
0 0
t t
Tiempo Tiempo
Grupo A. Autocorrelacin positiva Grupo B. Autocorrelacin negativa
16.6 Autocorrelacin y la prueba de Durbin-Watson 751
supuestos de regresin. Si " ! 0, se tiene una autocorrelacin positiva; si " " 0, la autoco-
rrelacin es negativa. En cualquiera de estos casos, los supuestos de regresin sobre el trmino
del error son violados.
En la prueba de Durbin-Watson para la autocorrelacin se utilizan los residuales a efecto
de determinar si " # 0. Para simplificar la notacin del estadstico de Durbin-Watson, el resi-
dual isimo se denota como ei # yi $ yi . El estadstico de prueba de Durbin-Watson se calcula
de la siguiente manera.
a (et $ et$1)
n
2
t# 2
d# (16.17)
a
n
e t2
t# 1
Si los valores sucesivos de los residuales estn muy cercanos (autocorrelacin positiva), el
valor del estadstico de prueba de Durbin-Watson ser pequeo. Si los valores sucesivos de los
residuales estn muy separados (autocorrelacin negativa), el valor del estadstico de Durbin-
Watson ser grande.
Los rangos en el valor del estadstico de prueba Durbin-Watson son de 0 a 4, con un valor
de 2 indicando que no existe autocorrelacin. Durbin y Watson desarrollaron tablas para de-
terminar cundo su estadstico de prueba indica la presencia de una autocorrelacin. La tabla
16.11 muestra los lmites inferiores y superiores (d L y d U) para las pruebas de hiptesis con
# 0.05; n denota el nmero de observaciones. La hiptesis nula a probar siempre es que no
hay autocorrelacin.
H0: " # 0
Ha: " ! 0
Nota. Las entradas en la tabla son los valores crticos en una prueba de Durbing-Watson de una cola para
la autocorrelacin. En las pruebas de dos colas, el nivel de significancia se duplica.
Puntos de significancia de dL y dU: " 0.05
Nmero de variables independientes
1 2 3 4 5
n* dL dU dL dU dL dU dL dU dL dU
15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21
20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99
25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89
30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83
40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79
50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77
70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77
100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78
Autoco-
rrelacin
positiva
Poco No hay evidencia de autocorrelacin positiva
concluyente
0 dL dU 2
Autoco-
rrelacin
negativa
No hay evidencia de autocorrelacin negativa Poco
concluyente
dL dU 2 4 ! dU 4 ! dL 4
Autoco- Autoco-
rrelacin rrelacin
positiva No hay evidencia negativa
Poco Poco
de autocorrelacin
concluyente concluyente
0 dL dU 2 4 ! dU 4 ! dL 4
Tambin es posible una prueba de dos colas. En este caso la hiptesis alternativa es
H a: " % 0
La figura 16.20 muestra cmo se utilizan los valores de d L y d U de la tabla 16.11 para probar si
existe autocorrelacin. En el grfico A se presenta la prueba para una autocorrelacin positiva.
Si d " d L, se concluye que existe una autocorrelacin positiva. Si d L & d & d U , se dice que la
prueba no es concluyente. Si d ! d U , se concluye que no hay evidencia de una autocorrelacin
positiva.
En el grfico B se muestra la prueba de autocorrelacin negativa. Si d ! 4 $ d L, se con-
cluye que existe una autocorrelacin negativa. Si 4 $ d U & d & 4 $ d L, se dice que la prueba
no es concluyente. Si d " 4 $ d U , se concluye que no hay evidencia de una autocorrelacin
negativa.
16.6 Autocorrelacin y la prueba de Durbin-Watson 753
Ejercicios
Aplicaciones
27. Los datos siguientes muestran los precios (Price) diarios de cierre (en dlares por accin) de
IBM considerando las fechas (Date) del 3 de noviembre de 2005 hasta el 1 de diciembre 2005
(Compustat, 26 de febrero de 2006).
Accounts (cuentas), AdvExp (gastPubl), Poten (potencial) y Share (participacin) era de 88.1%.
Utilice 0.05 como nivel de significancia y aplique la prueba de Durbin-Watson para determinar
si existe autocorrelacin positiva.
Resumen
Glosario
Autocorrelacin Correlacin en los errores que se presenta cuando los trminos del error en
puntos sucesivos de tiempo estn relacionados.
Correlacin serial Es lo mismo que la autocorrelacin.
Interaccin El efecto de dos variables independientes cuando actan juntas.
Modelo lineal general Un modelo de la forma y % 0 & 1z 1 & 2 z 2 & . . . & p z q & ',
en el que cada una de las variables independientes zj ( j % 1, 2, . . . , p) es una funcin de x 1,
x 2 . . . , xk , las variables para las que se han reunido los datos.
Procedimientos de seleccin de variables Mtodos de seleccin de un subconjunto de va-
riables independientes para un modelo de regresin.
Prueba de Durbin-Watson Prueba para determinar si la autocorrelacin de primer orden
existe.
Frmulas clave
a (et # et#1)
n
2
t% 2
d% (16.17)
a et
n
2
t% 1
Ejercicios complementarios
29. Los precios ms bajos de las impresoras lser a color las convierten en una gran alternativa
frente a las impresoras de inyeccin de tinta. PC World revis y evalu la capacidad de 10
impresoras lser a color. Los siguientes datos muestran la velocidad de impresin en pginas
por minuto (Speed ppm) de grficos a color y la calificacin (Rating) general de PC World para
cada impresora examinada (PC World, diciembre de 2005). Se incluyen fabricantes y modelo
(Make and Model).
(Contina)
756 Captulo 16 Anlisis de regresin: construccin de modelos
Browsers). Por cada comprador en el estudio se obtuvo una medida para determinar qu tan
cmodo se senta en determinada tienda. Las puntaciones ms altas indican una mayor co-
modidad. Suponga que los siguientes datos provienen de este estudio. Utilice un nivel de sig-
nificancia de 0.05 para probar las diferencias en los niveles de comodidad entre los tres tipos
de compradores.
35. La revista Money public los precios y los datos correspondientes a los 418 automviles mode-
lo 2003 ms populares. Una de las variables fue el valor de reventa de los mismos, expresado
como un porcentaje del precio de reventa sugerido por el fabricante. Los datos se clasifica-
ron con base en el tamao y el tipo de vehculo. La siguiente tabla muestra el valor de reventa
de 10 automviles compactos (Small), 10 medianos (Midsize), 10 de lujo (Luxury) y 10 depor-
tivos (Sports) todos elegidos aleatoriamente (Money, marzo de 2003).
Utilice % 0.05 y determine si existe alguna diferencia significativa entre los valores medios
de reventa de los cuatro tipos de vehculos.
Informe gerencial
Suponga que un representante de la PGA Tour lo contrata a efecto de analizar los datos para
una presentacin que se llevar a cabo en la reunin anual de la asociacin. El representante
le pregunta si sera posible utilizar estos datos para determinar las medidas del desempeo que
sean el mejor predictor de la puntuacin promedio de un jugador. Utilice los mtodos presenta-
dos en ste y en los anteriores captulos para analizar los datos. Prepare un informe que resuma
su anlisis para el representante de la PGA Tour, en el que incluya los principales resultados
estadsticos, sus conclusiones y recomendaciones. Prepare todo el material tcnico adecuado
en un apndice.
Informe gerencial
Utilice los mtodos presentados en ste y los captulos anteriores para analizar el conjunto
de datos proporcionado. El objetivo del estudio es desarrollar sendas ecuaciones de regresin
estimada para estimar el consumo de combustible en la ciudad y el consumo de combustible
en carretera. Presente un resumen y anlisis en el que se incluyan los resultados estadsticos
ms importantes, conclusiones y recomendaciones dentro de un informe gerencial. Incorpore
cualquier material tcnico adecuado en el apndice (el resultado de la computadora, las grficas
de residuales, etctera).
En la seccin Parameters:
Seleccione Use p-Values.
Ingrese 0.05 en el cuadro p-Values to Enter.
Ingrese 0.05 en el cuadro p-Value to Leave.
En la seccin Advance Options, seleccione Include Detailed Step Information.
Haga clic en OK.
El resultado de la regresin por pasos para el problema de Cravens aparece en una hoja de clcu-
lo nueva.
El cuadro de dilogo Regression de StatTools contiene opciones ms avanzadas para el
desarrollo de estimaciones del intervalo de prediccin y la realizacin de grficas de residuales.
La opcin Help proporciona informacin sobre todas estas opciones. StatTools tambin pue-
de utilizarse para realizar los procedimientos de seleccin hacia adelante y eliminacin hacia
atrs. Los pasos necesarios son muy similares a los del procedimiento de seleccin hacia ade-
lante. La principal diferencia estriba en que en el paso 4 se debe seleccionar ya sea Forward o
Backward del cuadro de herramientas Regression Type. Si opta por Forward, tiene que escribir
un valor en el cuadro p-Value to Enter, y si elige Backward debe introducir el valor en la caja
de herramientas p-Value to Leave.
CAPTULO
Chapter 3 [(H2F)]
17 763
Nmeros ndice
CONTENIDO 17.5 DEFLACTACIN DE UNA
ESTADSTICA EN LA PRCTICA: SERIE MEDIANTE NDICES
OFICINA DE ESTADSTICAS DE PRECIOS
LABORALES, DEPARTAMENTO 17.6 NDICES DE PRECIOS:
DEL TRABAJO DE ESTADOS OTRAS CONSIDERACIONES
UNIDOS Seleccin de artculos
17.1 PRECIOS RELATIVOS Seleccin de un periodo base
Variaciones en la calidad
17.2 NDICES DE PRECIOS
AGREGADOS 17.7 NDICES DE CANTIDAD
ESTADSTICA en LA PRCTICA
OFICINA DE ESTADSTICAS LABORALES, DEPARTAMENTO
DEL TRABAJO DE ESTADOS UNIDOS
WASHINGTON, D.C.
El Departamento del Trabajo de Estados Unidos, a travs
de su Oficina de Estadsticas Laborales, recaba y distribu-
ye los ndices y estadsticas que son indicadores de la ac-
tividad comercial y econmica del pas. Por ejemplo, el
departamento elabora y publica el ndice de precios al con-
sumidor, el ndice de precios al productor y estadsticas so-
bre las horas y los ingresos promedio de diversos grupos de
trabajadores. Quizs el ndice ms ampliamente citado es el
ndice de precios al consumidor, elaborado por la Oficina
de Estadsticas Laborales. A menudo se utiliza como una
medida de la inflacin.
En marzo de 2009 la Oficina de Estadsticas Labora-
les inform que el ndice de precios al consumidor (IPC) Los precios de la gasolina son un componente del ndice de
haba aumentado 0.5% en febrero. El nivel de 212.2 en precios al consumidor. Jeff Chiu/AP Photo.
este mes fue 0.3% ms alto que el de febrero de 2008. So-
bre una base ajustada estacionalmente, el IPC aument 0.4%
en febrero despus de incrementarse 0.3% en enero. El au- de 1.9% en diciembre. El IPP mide los cambios en los pre-
mento de 8.3% en el ndice de precios de la gasolina parece cios de los mercados al mayoreo y al menudeo, y se le con-
que fue el causante principal, mientras que el ndice de ali- sidera el principal indicador en las variaciones del ndice
mentos disminuy 0.1%. Algunos economistas consideran de precios al consumidor. El ritmo mnimo en el aumento
favorable la noticia del incremento del IPC porque reduce la en febrero fue fuertemente influido, por la disminucin de
probabilidad de un periodo deflacionario. la tasa de incremento en los bienes de energa. Este ndice
Un da antes, la Oficina de Estadsticas Laborales ha- subi 1.3% en febrero despus de aumentar 3.7% en enero.
ba informado que el ndice de precios al productor (IPP) se En este captulo se ver como se calculan diversos n-
increment 0.1% en febrero con el ajuste estacional. Este dices, como el ndice de precios al consumidor y el ndice
aumento sigui al de 0.8% en enero, y a una disminucin de precios al productor, y cmo deben interpretarse.
Cada mes el gobierno de Estados Unidos publica una variedad de ndices diseados para ayu-
dar a las personas a entender las condiciones econmicas y de negocios actuales de este pas. El
ms conocido y citado es probablemente el ndice de precios al consumidor (IPC). Como su
nombre lo indica, el IPC es un indicador de lo que sucede con los precios que pagan los consu-
midores por los artculos que compran. En concreto, mide las variaciones de precios durante un
periodo. A partir de un punto determinado o periodo base y su ndice que corresponde a 100,
el IPC puede utilizarse para comparar los precios al consumidor del periodo actual con los del
periodo base. Por ejemplo, un IPC de 125 refleja la condicin de que los precios al consumidor
en su conjunto son alrededor de 25% ms altos que los precios del periodo base. Aunque re-
lativamente pocas personas comprenden exactamente lo que este nmero significa, se sabe lo
suficiente sobre el IPC para entender que su aumento se traduce en precios ms altos.
A pesar de que el IPC es tal vez el ndice ms conocido, existen otros ndices de los sectores
privado y gubernamental que ayudan a medir y comprender las condiciones econmicas de un
periodo en comparacin con las condiciones econmicas de otros periodos. El propsito de este
captulo es describir los tipos de ndices ms utilizados para empezar a construir algunos nme-
ros ndice sencillos y obtener una mejor comprensin de cmo se calculan.
17.2 ndices de precios agregados 765
Ejercicios
Mtodos
1. En la tabla siguiente se presentan los precios y cantidades utilizadas de dos productos corres-
AUTO evaluacin
pondientes a 2007 y 2009.
a) Calcule los precios relativos para cada artculo en 2009 usando 2007 como periodo base.
b) Estime un ndice de precios agregado no ponderado de los dos artculos en 2009 usando
2007 como periodo base.
c) Calcule un ndice de precios agregado ponderado para los dos artculos con el mtodo
Laspeyres.
d) Obtenga un ndice de precios agregado ponderado de los dos artculos mediante el mtodo
de Paasche.
2. Un artculo cuyo precio relativo es 132 cuesta $10.75 en 2009. El ao base es 1992.
a) En qu porcentaje aument o disminuy el costo del artculo en el periodo de 17 aos?
b) Cunto costaba el artculo en 1992?
Aplicaciones
3. Un fabricante compra un componente idntico de tres proveedores independientes que difie-
AUTO evaluacin ren en el precio unitario y la cantidad ofrecida. Los datos correspondientes a 2007 y 2009 son
los siguientes.
a) Calcule por separado los precios relativos de los componentes de cada uno de los pro-
veedores. Compare el incremento de precios de los proveedores durante el periodo de dos
aos.
b) Obtenga un ndice de precios agregado ponderado para el componente en 2009.
c) Calcule un ndice de precios agregado no ponderado de los componentes en 2009. Cul
es la interpretacin de este ndice para la empresa fabricante?
4. R&B Beverages, Inc. ofrece una lnea completa de cervezas, vino y bebidas refrescantes que
distribuye en puntos de venta minoristas en el centro de Illinois. Los datos de los precios unita-
rios para 2006 y 2009, y las cantidades vendidas (cajas) en 2006 son los siguientes.
Calcule el ndice agregado ponderado de las ventas de bebidas de R&B Beverage en 2009,
con 2006 como periodo base.
5. En el mtodo UEPS de valuacin de inventarios debe establecerse un ndice de precios para
el inventario con fines de impuestos. Los ponderadores de cantidades se basan en los niveles
de inventario de final de ao. Utilice el precio unitario de principios de ao como precio del
periodo base y desarrolle un ndice agregado ponderado del valor total del inventario al final
del ao. Qu tipo de ndice de precios agregado ponderado se debe desarrollar para la valua-
cin de inventarios UEPS?
a P (100)wi
unidades. Por ejemplo, si
los precios son por caja, la it P
cantidad debe ser el nmero i0
de cajas y no, por ejemplo, It % (17.6)
!wi
el nmero de unidades.
wi % Pi 0 Qi (17.7)
a P (100)(Pi0 Qi)
itP
i0
It % (17.8)
!Pi0 Qi
Como en el numerador se cancelan los trminos Pi0 , una expresin equivalente para el ndice
de precios relativo ponderado es
!Pit Qi
It % (100)
!Pi0 Qi
TABLA 17.6 ndice de gastos de operacin de un automvil (1990-2008) basado en los precios
relativos ponderados
ecuacin (17.3). Al utilizar las cantidades del periodo base (es decir, Qi % Qi0 ) en la ecuacin
(17.7) se obtiene el ndice de Laspeyres. Con el uso de cantidades del periodo actual (es decir,
Qi % Qit ) en la ecuacin (17.7) se obtiene un ndice de Paasche.
De vuelta a los datos de gastos por el uso del automvil, se pueden utilizar los precios re-
lativos de la tabla 17.5 y la ecuacin (17.6) para calcular el promedio ponderado de los precios
relativos. Los resultados obtenidos mediante las ponderaciones especificadas por la ecuacin
(17.7) se encuentran en la tabla 17.6. El nmero ndice 194 representa un aumento de 94% en
los gastos de operacin del automvil, que es el mismo identificado por el clculo del ndice
agregado ponderado en la seccin 17.2.
Ejercicios
Mtodos
6. Los precios relativos de tres artculos, as como sus precios y uso en el periodo base se mues-
AUTO evaluacin tran en la tabla siguiente. Calcule un ndice de precios agregado ponderado para el periodo
actual.
Periodo base
Artculo Precio relativo Precio Uso
A 150 22.00 20
B 90 5.00 50
C 120 14.00 40
Aplicaciones
7. Mitchell Chemical Company produce una sustancia qumica para la industria que es una mez-
AUTO evaluacin cla de tres componentes qumicos. El costo por libra a principios de ao, el costo por libra
al final del ao y la proporcin de la mezcla son los siguientes.
Construya una media ponderada de los precios relativos como un ndice del desempeo del
portafolio hasta la fecha. Interprete este ndice de precios.
9. Calcule los precios relativos de los productos de R&B Beverages del ejercicio 4. Utilice un
promedio ponderado de los precios relativos para demostrar que este mtodo proporciona el
mismo ndice que el mtodo agregado ponderado.
200
175
125
100
75
50
25
0
1960 1970 1980 1990 2000 2005
Ao
cada artculo en los mercados no minoristas. Todas las mercancas que se venden en las tran-
sacciones comerciales de estos mercados estn representadas. La encuesta abarca materias pri-
mas y productos manufacturados y procesados en cualquier nivel de elaboracin, incluyendo
la produccin de las industrias clasificadas como manufactura, agricultura, silvicultura, pesca,
minera, gas y electricidad, y servicios pblicos. Uno de los usos comunes de este ndice es
llevar un indicador principal de la tendencia futura en los precios al consumidor y en el costo
de vida. El aumento del IPP refleja que hay incrementos en los precios al productor que con el
tiempo pasarn a los consumidores mediante mayores precios al menudeo.
Las ponderaciones para los diferentes artculos en el IPP se basan en el valor de los em-
barques. El promedio ponderado de los precios relativos se calcula utilizando el mtodo de
Laspeyres. En febrero de 2009 el IPP fue calculado con un ndice base de 100 para 1982, y fue
de 171.3.
TABLA 17.7 Las 30 empresas incluidas en el ndice industrial Dow Jones (julio de 2009)
18.9
18.6
18.3
18.0
Salario por hora
17.7
17.4
17.1
16.8
16.5
16.2
15.9
15.6
2004 2005 2006 2007 2008
Ao
dividir el salario por hora de cada ao entre el valor correspondiente del IPC y multiplicarlo por
100. El ndice deflactado de los salarios por hora de los trabajadores de la industria se incluye
en la tabla 17.9; en la figura 17.3 se presenta una grfica que muestra los salarios deflactados o
reales.
Qu indica la serie deflactada acerca de los salarios reales o el poder de compra de los
trabajadores de la industria durante el periodo 2004-2008? En trminos de dinero del periodo
base (1982-1984 % 100), el salario por hora no aument durante ese lapso. Despus de eliminar
Los salarios reales son una el efecto inflacionario vemos que el poder de compra de los trabajadores slo aument $0.08
mejor medida del poder durante el periodo de cuatro aos. Este efecto se ve en la figura 17.3. Por tanto, la ventaja de
de compra de los salarios utilizar ndices de precios para deflactar una serie estriba en que se obtiene una imagen ms
actuales. De hecho, muchos clara de los cambios reales ocurridos en trminos monetarios.
contratos sindicales piden
que se ajusten con base
Este proceso de deflactar una serie de medidas en el tiempo tiene una aplicacin impor-
en los cambios en el costo tante en el clculo del producto interno bruto (PIB), que es el valor total de todos los bienes y
de vida. servicios producidos en un pas. Obviamente, el PIB mostrar, con el tiempo, las ganancias que
TABLA 17.8 Salarios por hora para los trabajadores de la industria e ndices de precios
al consumidor, 2004-2008.
Fuente. Oficina de Estadsticas Laborales. El IPC se calcula con un ndice base 100 de 1982-1984.
17.5 Deflactacin de una serie mediante ndices de precios 775
TABLA 17.9 Serie deflactada de salarios por hora de los trabajadores de la industria. 2004-2008
FIGURA 17.3 Salarios reales por hora de los trabajadores de la industria, 2004-2008
8.5
Salario real por hora
8.25
8.0
7.75
2004 2005 2006 2007 2008
Ao
se deben en parte a los aumentos de precios si el PIB no es deflactado por un ndice de precios.
Por tanto, para ajustar el valor total de los bienes y servicios de manera que reflejen los verda-
deros cambios en el volumen de bienes y servicios producidos y vendidos, el PIB debe calcu-
larse con un ndice de precios como deflactor. El proceso es similar al analizado para el clculo
de los salarios reales.
Ejercicios
Aplicaciones
10. El salario promedio por hora de los trabajadores de la industria en febrero de 1996 fue de
AUTO evaluacin $11.86, y en febrero de 2009 subi a $18.55. El IPC en febrero de 1996 fue de 154.9 y en fe-
brero de 2009 aument a 212.2.
a) Deflacte los salarios por hora de 1996 y de 2009 para determinar las tasas de los salarios
reales.
b) Cul es la variacin porcentual en los salarios por hora actuales de 1996 a 2009?
c) Cul es la variacin porcentual de los salarios reales en el mismo periodo?
776 Captulo 17 Nmeros ndice
11. Los salarios promedio por hora de los trabajadores de la industria de servicios en cuatro
aos, desde 2002 hasta 2005, se muestran enseguida. Utilice la informacin proporcionada
por el ndice de precios al consumidor para deflactar la serie de salarios. Calcule el aumento o
disminucin porcentual de los salarios reales desde 2003 hasta 2005.
12. La Oficina del Censo de Estados Unidos report las siguientes cantidades de pedidos de la
industria para los aos de 2005 a 2007.
Pedidos de la industria
Ao ($ miles de millones)
2005 4 742
2006 5 020
2007 5 081
a) El IPC para el periodo 2005-2007 fue proporcionado en la tabla 17.8. Utilice esta informa-
cin para deflactar la serie de pedidos de la industria y comente acerca de los patrones que
siguen estos pedidos en trminos de dlares constantes.
b) Los siguientes ndices de precios al productor (bienes de consumo terminados) correspon-
den al periodo 2005-2007, con 1982 como ao base. Utilice el IPP para deflactar la serie.
c) Cree usted que el IPC o el IPP es el ms apropiado para deflactor los pedidos de la in-
dustria?
13. El total de los volmenes de ventas al detalle de Dooley Retail Outlets para los aos seleccio-
nados desde 1982 se muestra en la tabla siguiente. Tambin se lista el IPC con el ndice base
de 1982 -1984. Deflacte las cifras de volumen de ventas sobre la base de dlares constantes de
1982 -1984, y comente sobre el volumen de las ventas de la empresa en trminos de dlares
deflactados.
Seleccin de artculos
El propsito principal de un ndice de precios es medir la variacin en el tiempo para un conjun-
to especfico de artculos, productos, y as sucesivamente. Cuando este conjunto es muy grande,
el ndice no puede basarse en todos los artculos que lo integran. Por el contrario, se debe utilizar
una muestra de artculos representativos. Mediante la recoleccin de informacin de precios y
cantidad de los elementos de la muestra se espera obtener una buena idea del comportamiento
de los precios de todos los artculos que el ndice representa. Por ejemplo, para el ndice de pre-
cios al consumidor, la cantidad de productos que podra considerarse en las poblaciones de los
artculos que normalmente compra un consumidores es de 2 000 o ms. Sin embargo, el ndice
slo se basa en las caractersticas de precio y cantidad de 400. La seleccin de los artculos es-
pecficos para el ndice no es una tarea trivial. Estudios de los patrones de compra del consu-
midor, as como el buen criterio se incluyen en el proceso de seleccin. Una muestra aleatoria
simple no se utiliza para elegir los 400 artculos.
Despus del proceso de seleccin inicial, el grupo de artculos considerado para calcular
el ndice debe ser revisado peridicamente y modificado cada vez que cambian los patrones de
compra. Por tanto, la decisin de cules artculos incluir en un ndice debe ser resuelto antes
de que ste pueda desarrollarse y otra vez antes de que sea revisado.
Variaciones en la calidad
El objetivo de un ndice de precios es medir los cambios en los precios en el tiempo. Lo ideal
es que estos datos sean recabados para el mismo conjunto de artculos en diferentes pocas, y
despus calcular el ndice. Un supuesto bsico es que el precio sea identificado para los mis-
mos artculos en cada periodo. Un problema se presenta cuando un producto vara en calidad de
un periodo a otro. Por ejemplo, un fabricante puede modificar la calidad usando materiales me-
nos costosos, o con menos funciones, y as sucesivamente, de un ao a otro. El precio aumenta
en los aos siguientes, pero es el precio de un producto de menor calidad. En consecuencia,
aumenta en realidad ms de lo que indica el precio de lista del artculo. Es difcil, si no es que
imposible, ajustar un ndice a la disminucin en la calidad de un artculo.
778 Captulo 17 Nmeros ndice
!Pit Qi
It % (100)
!Pi0 Qi
El numerador, !Pit Qi , representa el valor total de las cantidades fijas de los artculos del ndice
en el periodo t. El denominador !Pi0 Qi representa el valor total de las mismas cantidades fijas
de los artculos del ndice en el ao 0.
El clculo de un ndice de cantidad agregado ponderado es similar al de un ndice de pre-
cios agregado ponderado. Las cantidades de cada artculo se miden en el periodo base y en el
periodo t, con Qi0 y Qit, respectivamente, representando aquellas cantidades para el artculo i.
Las cantidades son despus ponderadas por un precio fijo, el valor agregado, o algn otro factor.
El valor agregado de un producto es el valor de venta menos el costo de los insumos adqui-
ridos. La frmula para calcular un ndice de cantidad agregado ponderado para el periodo t es
!Qitwi
It % (100) (17.9)
!Qi0wi
En algunos ndices de cantidad, la ponderacin para el artculo i se toma como el precio del
periodo base (Pi0 ), en cuyo caso el ndice de cantidad agregado ponderado es
!Qit Pi0
It % (100) (17.10)
!Qi0 Pi0
Los ndices de cantidad tambin se pueden calcular sobre la base de cantidades relativas pon-
deradas. Una frmula para esta versin de un ndice de cantidad es la siguiente.
a Q (Qi0 Pi)
Qit
i0
It % (100) (17.11)
!Qi0 Pi
17.7 ndices de cantidad 779
Esta frmula es la versin para las cantidades de la frmula de precios relativos ponderados de
la ecuacin (17.8) desarrollada en la seccin 17.3.
El ndice de produccin industrial, elaborado por el consejo de la Reserva Federal de
Estados Unidos, es probablemente el ndice de cantidad ms conocido. Se publica mensual-
mente sobre un periodo base de 2002. Est diseado para medir las variaciones en el volumen
de los niveles de produccin de una variedad de artculos clasificados, adems de la minera y
los servicios pblicos. En febrero de 2009 el ndice fue de 99.7.
Ejercicios
Mtodos
14. A continuacin se listan los datos de las cantidades de tres artculos vendidos en 1995 y 2009,
AUTO evaluacin junto con sus precios de venta en 1995. Calcule el ndice de cantidad agregado ponderado para
2009.
Cantidad vendida
Artculo 1995 2009 Precio unitario 1995 ($)
A 350 300 18.00
B 220 400 4.90
C 730 850 15.00
Aplicaciones
15. Una compaa de transporte traslada cuatro productos bsicos para un distribuidor en particu-
AUTO evaluacin lar. Los embarques totales de mercancas en 1994 y 2009, as como los precios de 1994, se
reportan en la tabla siguiente.
Embarques Precio/embarque
Mercanca 1994 2009 1994
A 120 95 $1 200
B 86 75 1 800
C 35 50 2 000
D 60 70 1 500
Desarrolle un ndice de cantidad agregado ponderado con 1994 como ao base. Opine sobre el
aumento o la disminucin de las cantidades durante el periodo 1994-2009.
16. Un concesionario de automviles present un informe de ventas de 1992 y 2009 para los tres
modelos listados en la tabla siguiente. Calcule las cantidades relativas y utilcelas para desarro-
llar un ndice de cantidad agregado ponderado para 2009 con los datos de los dos aos.
Resumen
Los ndices de precio y cantidad son medidas importantes de los cambios en los niveles de pre-
cio y cantidad en el entorno de negocios y econmico. Los precios relativos son simplemente
la razn entre el precio unitario actual de un artculo respecto de un precio unitario del periodo
base multiplicado por 100, con un valor de 100 que indica que no hay ninguna diferencia en
el precio actual y el precio del periodo base. Los ndices de precios agregados se crean como
una medida compuesta del cambio general en los precios de determinado grupo de artculos o
productos. Por lo general, los artculos en un ndice de precios agregado son ponderados por la
cantidad de uso. Un ndice de precios agregado ponderado tambin se puede calcular al ponde-
rar los precios relativos mediante las cantidades de uso de los artculos en el ndice.
El ndice de precios al consumidor y el ndice de precios al productor son ampliamente
citados y sus aos base son 1982-1984 y 1982, respectivamente. El promedio industrial Dow
Jones es otro ndice de precios ampliamente referenciado. Es una suma ponderada de los pre-
cios de 30 acciones comunes de las grandes empresas. A diferencia de muchos otros ndices, no
se establece como porcentaje de un valor del periodo base.
A menudo, los ndices de precios se utilizan para deflactar algunas series econmicas que
se miden en el tiempo. Se vio que el IPC puede ser utilizado para deflactar los salarios por hora
a efecto de obtener un ndice de salarios reales. La eleccin de los artculos que se incluyen
en el ndice, la seleccin de un periodo base y el ajuste por cambios en la calidad son impor-
tantes consideraciones adicionales en el desarrollo de un nmero ndice. El ndice de cantidad
se estudi brevemente, y el de produccin industrial se mencion como un ndice de canti-
dad importante.
Glosario
ndice de cantidad ndice diseado para medir las variaciones en las cantidades en el tiempo.
ndice de Laspeyres ndice de precios agregado ponderado en el cual la ponderacin de cada
artculo es su cantidad en el periodo base.
ndice de Paasche ndice de precios agregado ponderado en el que la ponderacin de cada
artculo es la cantidad en el periodo actual.
ndice de precios agregado ndice de precios compuesto basado en los precios de un grupo
de artculos.
ndice de precios agregado ponderado ndice de precios compuesto en el que los precios de
los artculos son ponderados por su importancia relativa.
ndice de precios al consumidor (IPC) ndice de precios mensual que utiliza las variaciones
del precio en la canasta de mercado de los bienes y servicios de consumo para medir los cam-
bios en los precios al consumidor en el tiempo.
ndice de precios al productor (IPP) ndice de precios mensual diseado para medir los
cambios en los precios de los bienes vendidos en los mercados primarios (es decir, la primera
compra de un producto en los mercados no minoristas).
ndice de produccin industrial ndice de cantidad diseado para medir las variaciones en el
volumen fsico o en los niveles de produccin de los bienes industriales en el tiempo.
Precio relativo ndice de precios para un determinado artculo que se calcula dividiendo un
precio unitario actual entre un precio unitario base y multiplicando el resultado por 100.
Promedios Down Jones ndice de precios agregado que permite conocer la tendencia de los
precios y los movimientos en la Bolsa de Valores.
Frmulas clave
!Pit
It % (100) (17.2)
!Pi0
!Pit Qi
It % (100) (17.3)
!Pi0 Qi
a P (100)wi
P
it
i0
It % (17.6)
!wi
wi % Pi 0 Qi (17.7)
!Qitwi
It % (100) (17.9)
!Qi0wi
Ejercicios complementarios
17. Los precios de venta promedio de viviendas unifamiliares nuevas para el periodo 2004-2007
son los siguientes (sitio web de Census Bureau, 19 de marzo de 2009).
Ao Precio ($ miles)
2004 221.0
2005 240.9
2006 246.5
2007 247.9
a) Utilice 2004 como ao base y desarrolle un ndice de precios para la vivienda nueva en
este periodo de cuatro aos.
b) Utilice 2005 como ao base y desarrolle un ndice de precios para la vivienda nueva
en este periodo de cuatro aos.
18. Nickerson Manufacturing Company reporta los siguientes datos de cantidades enviadas y cos-
tos unitarios para cada uno de cuatro productos.
Utilice el periodo base de 2007 para calcular el ndice Boran de enero y marzo de 2009. Opine
acerca de qu seala el ndice respecto de lo que est sucediendo en el mercado accionario.
21. Calcule los precios relativos de las cuatro acciones que componen el ndice Boran del ejerci-
cio 20. Utilice los agregados ponderados de los precios relativos para calcular los ndices Boran
de enero y marzo de 2009.
22. Considere la informacin siguiente de los precios relativos y cantidades de produccin de gra-
nos en Iowa (sitio web de Census Bureau, 19 de marzo de 2009).
Cul es el ndice de precios agregado ponderado de 2007 para los granos en Iowa?
23. La lista siguiente reporta los precios y datos de cantidad de la fruta fresca para los aos 1988
y 2007 (sitio web de Census Bureau, 19 de marzo de 2009). Los datos de cantidad reflejan el
consumo per cpita en libras y los precios se indican por libra.
24. Los salarios iniciales (base a nueve meses) de los profesores de administracin de empresas en
una de las principales universidades del medio oeste de Estados Unidos se presentan a conti-
nuacin. Utilice el IPC para deflactar los datos de los sueldos a dlares constantes. Opine acerca
de la tendencia de los sueldos en la educacin superior indicada por estos datos.
IPC
Ao Sueldo inicial ($) (1982-1984 base)
1970 14 000 38.8
1975 17 500 53.8
1980 23 000 82.4
1985 37 000 107.6
1990 53 000 130.7
1995 65 000 152.4
2000 80 000 172.2
2005 110 000 195.3
25. Los cinco precios histricos de una determinada accin y el ndice de precios al consumidor
con un periodo base de 1982-1984 son los siguientes.
Deflacte el precio de las acciones y comente sobre los aspectos de inversin de estas acciones.
26. Una importante empresa de manufactura present un informe de la cantidad y valor del produc-
to para 2005 y 2009 en la tabla siguiente. Calcule un ndice de cantidades agregado ponderado
con los datos. Opine acerca de lo que significa este ndice de cantidad.
Cantidades
Producto 2005 2009 Valores ($)
A 800 1200 30.00
B 600 500 20.00
C 200 500 25.00
CAPTULO 18
Anlisis de series de tiempo
y elaboracin de pronsticos
CONTENIDO Suavizamiento exponencial
ESTADSTICA EN LA PRCTICA: lineal de Holt
OCCUPATIONAL HEALTH CLINIC Regresin de tendencia no lineal
DE NEVADA 18.5 ESTACIONALIDAD
18.1 PATRONES DE UNA SERIE Y TENDENCIA
DE TIEMPO Estacionalidad sin tendencia
Patrn horizontal Estacionalidad y tendencia
Patrn de tendencia Modelos basados en datos
Patrn estacional mensuales
Patrones estacional 18.6 DESCOMPOSICIN
y de tendencia DE SERIES DE TIEMPO
Componente cclico Clculo de los ndices
Seleccin de un mtodo de estacionales
elaboracin de pronsticos Desestacionalizacin de una serie
18.2 EXACTITUD DEL de tiempo
PRONSTICO Uso de una serie de tiempo
desestacionalizada para
18.3 PROMEDIOS MVILES identificar tendencias
Y SUAVIZAMIENTO Ajustes estacionales
EXPONENCIAL Modelos basados en datos
Promedios mviles mensuales
Promedios mviles ponderados Patrn cclico
Suavizamiento exponencial
18.4 PROYECCIN
DE LA TENDENCIA
Regresin de tendencia lineal
Estadstica en la prctica 785
ESTADSTICA en LA PRCTICA
OCCUPATIONAL HEALTH CLINIC*
SPARKS, NEVADA
La Occupational Health Clinic de Nevada es un centro
mdico de propiedad privada que se encuentra en Sparks,
Nevada, y se especializa en medicina del trabajo. Ha ope-
rado en el mismo lugar por ms de 20 aos, y en el ltimo
bienio haba registrado una fase de rpido crecimiento. La
facturacin mensual creci de $57 000 a ms de $300 000
en 26 meses, cuando el edificio principal de la clnica se
incendi.
La pliza de seguro de la unidad mdica cubra la pro-
piedad fsica y el equipo, as como la prdida de ingresos
totales debido a la interrupcin de su funcionamiento nor-
mal. La reclamacin del seguro de propiedad fue un asun-
to relativamente sencillo, ya que consisti en determinar
el valor de la propiedad fsica y del equipo que se perdi
durante el incendio. Sin embargo, determinar el valor de la
prdida de ingresos durante los siete meses que se tard en
reconstruir el edificio era un tema complejo, que requiri
negociaciones entre los propietarios y la compaa de se-
guros. No hubo reglas prestablecidas que pudieran ayudar a
calcular lo que hubiera sucedido con la facturacin de la
clnica si el incendio no se hubiera producido.
Para estimar la prdida de ingresos, la clnica utiliz
un mtodo de elaboracin de pronsticos para proyectar el Una mdico de la Occupational Health Clinic de Nevada
crecimiento que habran registrado los ingresos durante checa la presin arterial de una paciente. Bob Pardue
el periodo de siete meses de prdida de negocio. La historia Medical Lifestyle/Alamy.
real de la facturacin antes del incendio sirvi como base
para un modelo de elaboracin de pronsticos de tenden-
cia lineal y patrones estacionales como los que se discu-
ten en el presente captulo. Este modelo de elaboracin
* Agradecemos a los autores Bard Betz, director de Operaciones, y a
Curtis Brauer, asistente ejecutivo administrativo, de Occupational Health
de pronsticos permiti a la clnica establecer una estima-
Clinic de Nevada, por proporcionar este artculo para Estadstica en la cin precisa de la prdida, que fue aceptada finalmente por
prctica. la compaa de seguros.
el futuro. En estos casos, los pronsticos se pueden obtener mediante un mtodo de series de
tiempo o un mtodo causal. Este captulo se centrar exclusivamente en los mtodos de elabo-
racin de pronsticos cuantitativos.
Si los datos histricos se limitan a los valores pasados de la variable que se pronostica, al
procedimiento de elaboracin de pronsticos se le llama mtodo de series de tiempo, y los datos
histricos se refieren como una serie de tiempo. El objetivo del anlisis de la serie de tiempo
es descubrir un patrn en los datos histricos o de series de tiempo para despus extrapolar el
modelo al futuro. El pronstico se basa nicamente en los valores pasados de la variable o en
los errores de pronstico del pasado.
Los mtodos de elaboracin de pronsticos causales se basan en el supuesto de que la
variable a pronosticar tiene una relacin de causa y efecto con una o ms variables. En el estu-
dio del anlisis de regresin de los captulos 14, 15 y 16 se mostr cmo una o ms variables
independientes podran ser utilizadas para pronosticar el valor de una sola variable dependiente.
En cuanto a los anlisis de regresin como una herramienta de elaboracin de pronsticos, se
puede observar el valor de la serie de tiempo que se desea pronosticar como la variable depen-
diente. Por tanto, si se identifica un buen conjunto de variables independientes relacionadas o
explicativas, podemos desarrollar una ecuacin de regresin y predecir la serie de tiempo. Por
ejemplo, las ventas de muchos productos estn influidas por los gastos de publicidad, por lo
que el anlisis de regresin sirve para desarrollar una ecuacin que muestre cmo las ventas y
la publicidad estn relacionadas. Una vez que se determina el presupuesto de publicidad para
el siguiente periodo, se podra sustituir este valor en la ecuacin y obtener una prediccin para el
volumen de ventas de ese periodo. Observe que si se utiliza un mtodo de series de tiempo para
obtener el pronstico, los gastos de publicidad no seran considerados, es decir, en este mtodo
el pronstico se basa nicamente en las ventas del pasado.
Al tratar el tiempo como variable independiente y la serie de tiempo como una variable
dependiente, el anlisis de regresin tambin puede utilizarse como un mtodo de series de
tiempo. Para diferenciar la aplicacin del anlisis de regresin en estos dos casos, se utilizan los
trminos regresin de corte transversal y regresin de series de tiempo. Por tanto, la regresin
de series de tiempo se refiere al uso del anlisis de regresin cuando la variable independiente
es el tiempo. Debido a que este captulo se enfoca en los mtodos de series de tiempo, se deja
la discusin acerca de la aplicacin del anlisis de regresin como un mtodo de elaboracin
de pronsticos causal a textos ms avanzados sobre la materia.
25
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Semana
WEB archivo bla 18.1. Estos datos muestran el nmero de galones de gasolina vendidos por un distribuidor
en Bennington, Vermont, en las ltimas 12 semanas. El valor medio o promedio para esta se-
GasolineRevised
rie de tiempo es 19.25 o 19 250 galones por semana. La figura 18.1 muestra una grfica de serie
de tiempo para estos datos. Observe cmo stos fluctan alrededor de una media muestral de
19 250 galones. Aunque la variabilidad aleatoria est presente, se dira que estos datos siguen
un patrn horizontal.
El concepto de series de tiempo estacionarias2 designa una serie de tiempo cuyas propie-
TABLA 18.2 dades estadsticas son independientes del tiempo. Esto significa, en particular, que
Serie de tiempo de
1. El proceso de generacin de los datos tiene una media constante.
las ventas de gasolina
2. La variabilidad de la serie de tiempo es constante en el tiempo.
despus de obtener el
contrato con la polica Una grfica para una serie de tiempo estacionaria exhibe siempre un patrn horizontal. Pero la
de Vermont sola observacin de un patrn horizontal no es evidencia suficiente para concluir que la serie de
Ventas (miles tiempo sea estacionaria. Los libros ms avanzados sobre elaboracin de pronsticos estudian
Semana de galones) los procedimientos para determinar si una serie de tiempo es estacionaria y proporcionan mto-
1 17 dos para transformarla de no estacionaria en estacionaria.
2 21
3 19 Los cambios en las condiciones de negocios a menudo pueden dar lugar a que una serie
4 23 de tiempo que tiene un patrn horizontal cambie a un nuevo nivel. Por ejemplo, suponga que
5 18 un distribuidor firma un contrato con el Departamento de Polica de Vermont para proveer de
6 16
7 20 gasolina a los automviles de la polica local ubicados al sur del estado. Con este nuevo con-
8 18 trato el distribuidor espera tener un gran incremento en las ventas semanales a partir de la se-
9 22 mana 13. La tabla 18.2 muestra el nmero de galones de gasolina que se venden para la serie
10 20
11 15 de tiempo original y para las 10 semanas despus de firmar el nuevo contrato. La figura 18.2
12 22 muestra la grfica correspondiente de la serie de tiempo. Observe el aumento en el nivel de la
13 31 serie de tiempo a partir de la semana 13. Este cambio hace ms difcil elegir un mtodo de ela-
14 34
15 31 boracin de pronsticos adecuado. La seleccin de un mtodo que se adapte bien a los cambios
16 33 en el nivel de una serie de tiempo es una consideracin importante en muchas aplicaciones
17 28 prcticas.
18 32
19 30
20 29 2
Para una definicin formal de series de tiempo estacionarias, remtase a G. E. P, Box, G. M. Jenkins y G. C. Reinsell, Time
21 34 series analysis: forecasting and control (Anlisis de series de tiempo: pronstico y control), 3a. ed., Englewood Cliffs, NJ,
22 33 Prentice Hall, 1994, p. 23.
788 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
FIGURA 18.2 Grfica de series de tiempo de las ventas de gasolina despus de obtener el contrato
con la polica de Vermont
40
35
25
20
15
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Semana
Patrn de tendencia
Aunque los datos de las series de tiempo presentan fluctuaciones aleatorias, estas series tam-
WEB archivo bin pueden mostrar cambios o movimientos graduales hacia valores relativamente mayores o
Bicycle menores durante un periodo. Si una grfica de series de tiempo muestra este tipo de comporta-
miento, se dice que existe un patrn de tendencia. La tendencia, por lo general, es el resultado
de factores a largo plazo, como el aumento o disminucin de la poblacin o la variacin de sus
caractersticas demogrficas, la tecnologa y/o preferencias de los consumidores, etctera.
Para ilustrar una serie de tiempo con un patrn de tendencia, considere las series de tiempo
de ventas de bicicletas de un fabricante en particular en los ltimos 10 aos, como se muestra
TABLA 18.3 en la tabla 18.3 y la figura 18.3. Observe que en el primer ao se vendieron 21 600 bicicle-
Serie de tiempo de las tas, en el segundo 22 900, y as sucesivamente. En el ao 10, el ltimo ao, se han vendido
ventas de bicicletas 31 400 bicicletas. La inspeccin visual de la grfica de las serires de tiempo permite apreciar al-
gunos movimientos ascendentes y descendentes en los ltimos 10 aos, pero la serie de tiempo
Ao Ventas (miles)
tambin parece tener una tendencia sistemtica de aumento o disminucin.
1 21.6
2 22.9 La tendencia en la serie de tiempo de las ventas de bicicletas parece ser lineal y creciente
3 25.5 con el tiempo, pero a veces una tendencia se puede describir mejor por otros tipos de patrones.
4 21.9 Por ejemplo, los datos en la tabla 18.4 y la grfica correspondiente a la serie de tiempo de la
5 23.9
6 27.5 figura 18.4 muestran las ventas de un medicamento contra el colesterol, dado que la empresa
7 31.5 obtuvo la aprobacin de la FDA hace 10 aos. La serie de tiempo se increment de una manera
8 29.7 no lineal, es decir, la tasa de variacin de los ingresos no aument en una cantidad constante de
9 28.6
10 31.4 un ao a otro. De hecho, los ingresos parecen estar creciendo de manera exponencial. Las rela-
ciones exponenciales de este tipo son apropiadas cuando la variacin porcentual de un periodo
a otro es relativamente constante.
Patrn estacional
La tendencia de una serie de tiempo se puede identificar con el anlisis de las variaciones mul-
tianuales en los datos histricos. Los patrones estacionales son reconocidos al identificarse los
mismos patrones de repeticin en periodos sucesivos. Por ejemplo, un fabricante de albercas
espera tener pocas ventas en los meses de otoo e invierno, y aumentarlas en los meses de
primavera y verano. Los fabricantes de equipos de remocin de nieve y de ropa de invierno,
18.1 Patrones de una serie de tiempo 789
34
32
30
Ventas (miles)
28
26
24
22
20
0 1 2 3 4 5 6 7 8 9 10 11 12
Ao
sin embargo, prevn exactamente lo contrario. Como era de esperar, el patrn de una grfica de
WEB archivo series de tiempo que tiene un comportamiento repetitivo en un periodo de un ao debido a la
Cholesterol influencia estacional se llama patrn estacional. Aunque por lo general se considera que las va-
riaciones estacionales son aquellas que se representan en un lapso de un ao, los datos de series
de tiempo tambin pueden presentar patrones estacionales de menos de un ao. Por ejemplo, el
volumen de trfico diario muestra en un da un comportamiento estacional, donde los valores
mximos se presentan en las horas pico, un flujo moderado el resto del da y al comienzo de la
TABLA 18.4 noche, y un flujo ligero desde la medianoche hasta la madrugada.
Serie de tiempo Como ejemplo de un patrn estacional, considere el nmero de sombrillas vendidas en una
de ingresos por tienda de ropa en los ltimos cinco aos. La tabla 18.5 muestra la serie de tiempo con los datos
medicamentos de ao (Year), trimestre (Quarter) y ventas (Sales), y la figura 18.5 ilustra la grfica correspon-
contra el colesterol diente. La grfica de una serie de tiempo no indica ninguna tendencia a largo plazo en las ventas.
($ millones) De hecho, a menos que observe cuidadosamente los datos, es posible concluir que stos siguen
un patrn horizontal. Pero una inspeccin ms cercana revela un patrn regular en los datos.
Ao Ingresos
Es decir, el primer y tercer trimestre presentan ventas moderadas, el segundo trimestre tiene
1 23.1
2 21.3 ventas ms altas, y el cuarto trimestre tiende a tener el menor volumen de ventas. Por tanto, se
3 27.4 concluye que existe un patrn estacional trimestral.
4 34.6
5 33.8
6 43.2 Patrones de tendencia y estacional
7 59.5
8 64.4 Algunas series de tiempo son una combinacin de un patrn de tendencia y estacional. Por
9 74.2 ejemplo, los datos de la tabla 18.6 y la grfica correspondiente de las series de tiempo en la
10 99.3
figura 18.6 muestran las ventas (Sales) de televisores por trimestre (Quarter ) y ao (Year) de un
fabricante en particular en los ltimos cuatro aos. Claramente se presenta una tendencia cre-
ciente. Sin embargo, la figura 18.6 indica tambin que las ventas son menores en el segundo
trimestre de cada ao y que aumentan a partir de los trimestres 3 y 4. Por tanto, se llega a la
conclusin de que un patrn estacional tambin est presente en las ventas de televisores. En
estos casos se utiliza un mtodo de elaboracin de pronsticos que tiene la capacidad para tratar
la tendencia y la estacionalidad.
Patrn cclico
El patrn cclico existe si la grfica de la serie de tiempo muestra una secuencia de puntos que
caen de manera alterna por arriba y debajo de la lnea de tendencia por ms de un ao. Muchas
790 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
FIGURA 18.4 Grfica de la serie de tiempo de las ventas de medicamentos contra el colesterol
($ millones)
120
100
80
Ingresos
60
40
20
0
0 1 2 3 4 5 6 7 8 9 10
Ao
series de tiempo econmicas suelen mostrar un comportamiento cclico con observaciones re-
gulares que caen por debajo y por encima de la lnea de tendencia. A menudo, el patrn cclico
se debe a ciclos multianuales de la economa. Por ejemplo, periodos de inflacin moderada se-
guidos por periodos de inflacin rpida pueden dar lugar a que la serie de tiempo alterne hacia
arriba y hacia abajo de la lnea general de tendencia creciente (por ejemplo, una serie de tiempo
sobre el costo de vivienda). Los ciclos econmicos son extremadamente difciles, si no es que
18.1 Patrones de una serie de tiempo 791
180
160
140
120
100
Ventas
80
60
40
20
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4 Ao 5
Ao/trimestre
imposibles de predecir. Como resultado, los efectos cclicos a menudo se combinan con efec-
tos de tendencia a largo plazo y se conocen como efecto de tendencia-cclico. Este captulo no
trata de los efectos cclicos que puedan presentarse en las series de tiempo.
FIGURA 18.6 Grfica de la serie de tiempo del conjunto de ventas trimestrales de televisores
9.0
7.0
6.0
5.0
4.0
3.0
2.0
1.0
0.0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4
Ao/trimestre
tonces se debe utilizar un mtodo de elaboracin de pronsticos con la capacidad para manejar
la tendencia con efectividad. Las siguientes dos secciones ilustran los mtodos que se pueden
utilizar en situaciones donde el patrn subyacente es horizontal, es decir, no estn presentes los
efectos de tendencia o estacionales. Despus se considerarn los mtodos apropiados cuando la
tendencia y/o la estacionalidad estn presentes en los datos.
TABLA 18.7 Clculos y medidas de exactitud de pronsticos utilizando el valor ms reciente como pronstico
para el prximo periodo
Por ejemplo, debido a que el distribuidor vendi en realidad 21 mil galones de gasolina en la
semana 2 y el pronstico al utilizar el volumen de ventas en la semana 1 fue de 17 mil galones,
el error de pronstico en la semana 2 es
El hecho de que el error de pronstico sea positivo, indica que en la semana 2 el mtodo de
elaboracin de pronsticos subestim el valor real de las ventas. A continuacin utilice 21, el
valor real de las ventas en la semana 2, como pronstico para la semana 3. Ya que el valor real
de las ventas en la semana 3 es 19, el error de pronstico para esta semana es 19 " 21 ! "2.
En este caso, el error negativo indica que en la semana 3 el pronstico sobrestim el valor real.
As, el error de pronstico puede ser positivo o negativo dependiendo de si es demasiado bajo
o demasiado alto. Un resumen completo de los errores de pronstico para este mtodo ingenuo
se muestra en la tabla 18.7, en la columna Error de pronstico.
En el anlisis de regresin, Una medida sencilla de exactitud de los pronsticos es la media o promedio de errores de
un residual se define como pronstico. La tabla 18.7 muestra que la suma de estos errores para la serie de tiempo de las
la diferencia entre el
ventas de gasolina es 5, por lo que la media o promedio del error de pronstico es 5/11 ! 0.45.
valor observado y el valor
estimado de la variable Observe que aunque la serie de tiempo de gasolina se compone de 12 valores, al calcular la
dependiente. Los errores de media del error se divide la suma de los errores entre 11, ya que existen solamente 11 errores
pronstico son anlogos a de pronstico. Debido a que la media del error de pronstico es positiva, el mtodo arroja pro-
los residuales en el anlisis nsticos bajos; es decir, los valores observados tienden a ser mayores que los pronosticados.
de regresin.
Debido a que los errores de pronstico positivos y negativos tienden a compensarse entre s,
es probable que la media del error sea pequea, as que sta no es una medida muy til para la
exactitud del pronstico.
El error absoluto medio, que se denota EAM, es una medida de exactitud del pronstico
que evita el problema de los errores positivos y negativos que se compensan entre s. Como es
de esperar, dado su nombre, EAM es el promedio de los valores absolutos de los errores de pro-
nstico. La tabla 18.7 muestra que la suma de los valores absolutos de los errores de pronstico
es 41; por tanto
41
EAM ! promedio del valor absoluto de los errores de pronstico ! ! 3.73
11
794 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
En el anlisis de regresin Otra medida que evita el problema de los errores de pronstico positivos y negativos que
el cuadrado medio debido se compensan entre s se obtiene al calcular el promedio de los errores de pronstico cuadra-
al error (CME ) o error
dos. Esta medida de exactitud en los pronsticos se llama cuadrado medio debido al error,
cuadrtico medio es la suma
de los residuales cuadrados denotado como CME, o error cuadrtico medio. En la tabla 18.7, la suma de los cuadrados de-
dividida entre sus grados de bido al error es 179: por tanto,
libertad. En el pronstico,
el CME es el promedio de 179
CME ! promedio de la suma de los errores de pronstico cuadrados ! 16.27
la suma de los errores 11
de pronstico cuadrados.
El tamao del EAM y del CME depende de la escala de los datos. Como resultado, es difcil ha-
cer comparaciones de los distintos intervalos de tiempo, como la de un mtodo de pronsticos
de ventas mensuales de gasolina con un mtodo de elaboracin de pronsticos de ventas sema-
nal, o hacer comparaciones de las distintas series de tiempo. Para hacer comparaciones como
stas se debe trabajar con las medidas relativas o porcentuales de los errores. El error por-
centual absoluto medio, denotado como EPAM, es una medida de este estilo. Para calcular el
EPAM, en primer lugar se debe determinar el error porcentual de cada pronstico. Por ejemplo,
el error porcentual que corresponde al pronstico de 17 en la semana 2 se calcula dividiendo el
error de pronstico en la semana 2 entre el valor real en la semana 2 y multiplicando el resultado
por 100. Para esta semana, el error porcentual se calcula de la siguiente manera.
4
Error porcentual para la semana 2 ! (100) ! 19.05%
21
Por tanto, el error de pronstico para la semana 2 es 19.05% del valor observado en tal semana.
Un resumen completo de los errores porcentuales se muestra en la tabla 18.7, en la columna
Error porcentual. En la siguiente columna se muestran los valores absolutos de este porcentaje.
La tabla 18.7 indica que la suma de los valores absolutos de los errores porcentuales es
211.69, por lo que
211.69
EPAM ! promedio del valor absoluto de los errores porcentuales de pronstico ! ! 19.24%
11
EAM ! 3.73
CME ! 16.27
EPAM ! 19.24%
Estas medidas de exactitud miden simplemente qu tan bien el mtodo de elaboracin de pro-
nsticos es capaz de predecir los valores histricos de las series de tiempo. Ahora, suponga que
se desea predecir las ventas para un periodo futuro, como la semana 13. En este caso, el prons-
tico es 22, el valor real de las series de tiempo en la semana 12. Es sta una estimacin exacta
de ventas para la semana 13? Desafortunadamente no hay manera de abordar el tema de la
exactitud relacionada con el pronstico para periodos futuros. Pero si se elige un mtodo de ela-
boracin de pronsticos que funcione bien para los datos histricos, y se piensa que el patrn
histrico continuar en el futuro, se deben obtener resultados que, en ltima instancia, proba-
ron ser buenos.
Antes de concluir esta seccin, se considerar otro mtodo de elaboracin de pronsticos
para las series de tiempo en las ventas de gasolina de la tabla 18.1 Suponga que se utiliza el
promedio de todos los datos histricos disponibles como pronstico para el prximo periodo.
Comience por elaborar un pronstico para la semana 2. Ya que existe slo un valor histrico
disponible antes de la semana 2, el pronstico para sta es slo el valor de la serie de tiempo
para la semana 1, por lo que el pronstico es de 17 mil galones de gasolina. Para calcular el
pronstico de la semana 3 se toma el promedio de los valores de ventas en las semanas 1 y 2.
Por tanto, el resultado que se obtiene es el que se indica a continuacin.
18.2 Exactitud del pronstico 795
TABLA 18.8 Clculo y medidas de exactitud del pronstico al utilizar el promedio de todos los datos histricos
como pronstico del prximo periodo
17 # 21
Pronstico para la semana 3 ! ! 19
2
17 # 21 # 19
Pronstico para la semana 4 ! ! 19
3
Los pronsticos obtenidos al utilizar este mtodo para las series de tiempo de las ventas de ga-
solina se muestran en la tabla 18.8, en la columna Pronstico. Con estos resultados se obtuvie-
ron los siguientes valores de EAM, CME y EPAM.
26.81
EAM ! ! 2.44
11
89.07
CME ! ! 8.10
11
141.34
EPAM ! ! 12.85%
11
Ahora se puede determinar la exactitud de los dos mtodos de elaboracin de pronsticos que
se han considerado en esta seccin mediante la comparacin de los valores de EAM, CME y
EPAM.
Para cada medida, el promedio de los valores pasados proporciona pronsticos ms preci-
sos que al utilizar la observacin ms reciente como pronstico para el prximo periodo. En ge-
neral, si la serie de tiempo subyacente es estacionaria, el promedio de todos los datos histricos
siempre proporcionar mejores resultados.
Pero suponga que la serie de tiempo subyacente no es estacionaria. En la seccin 18.1 se
menciona que las variaciones en las condiciones de negocios suelen dar lugar a una serie de
tiempo con un patrn horizontal que cambia a un nuevo nivel. Se estudi una situacin en la
que el distribuidor de gasolina firm un contrato con la polica del estado de Vermont para pro-
veer de combustible a las patrullas de policas del sur del estado. La tabla 18.2 muestra el nme-
ro de galones de gasolina que se vendieron para la serie de tiempo original y para las 10 semanas
despus de firmado el nuevo contrato, y la figura 18.2 presenta la grfica que corresponde a las
series de tiempo. Observe el cambio en el nivel de la semana 13 para la serie de tiempo resul-
tante. Cuando ocurre este cambio, le toma tiempo al mtodo de elaboracin de pronsticos que
utiliza el promedio de todos los datos histricos ajustarse a un nuevo nivel de series de tiempo.
Pero en este caso el mtodo ingenuo simple se ajusta muy rpidamente a los cambios en el ni-
vel, debido a que utiliza la observacin ms reciente como pronstico.
Las medidas de exactitud de los pronsticos son factores importantes en la comparacin de
distintos mtodos de elaboracin de pronsticos, pero se debe tener cuidado de no depender
demasiado de ellas. El buen criterio y el conocimiento sobre las condiciones de negocios que
puedan afectar el pronstico tambin deben tomarse en cuenta cuidadosamente en la eleccin de
un mtodo. La exactitud de los pronsticos histricos no es la nica consideracin, sobre todo
si es probable que la serie de tiempo cambie en el futuro.
En la siguiente seccin se presentarn mtodos ms sofisticados para el desarrollo de los
pronsticos de una serie de tiempo que muestren un patrn horizontal. Al utilizar las medidas
de exactitud de los pronsticos desarrolladas aqu, se lograr determinar si dichos mtodos pro-
porcionan ms exactitud a los pronsticos que la obtenida utilizando los enfoques sencillos que
se ilustran en esta seccin. Los mtodos que se presentarn tambin tienen la ventaja de adap-
tarse a situaciones donde las series de tiempo cambian a un nuevo nivel. La capacidad de un
mtodo de pronsticos para adaptarse rpidamente a estos cambios es una consideracin impor-
tante, especialmente en situaciones de elaboracin de pronsticos a corto plazo.
Ejercicios
Mtodos
1. Considere los datos de las siguientes series de tiempo.
AUTO evaluacin
Semana 1 2 3 4 5 6
Valor 18 13 16 11 17 14
Utilizando el mtodo ingenuo (el valor ms reciente) como pronstico para la semana prxi-
ma, calcule las siguientes medidas de exactitud de los pronsticos.
a) Error absoluto medio.
b) Cuadrado medio debido al error o error cuadrtico medio.
c) Error porcentual absoluto medio.
d) Cul es el pronstico para la semana 7?
2. Consulte los datos de las series de tiempo del ejercicio 1. Utilice el promedio de todos los da-
AUTO evaluacin tos histricos como pronstico para el prximo periodo y calcule las siguientes medidas de
exactitud de los pronsticos.
a) Error absoluto medio.
b) Cuadrado medio debido al error o error cuadrtico medio.
c) Error porcentual absoluto medio.
d) Cul es el pronstico para la semana 7?
18.3 Promedios mviles y suavizamiento exponencial 797
Mes 1 2 3 4 5 6 7
Valor 24 13 20 12 19 23 15
a) Calcule el valor del CME utilizando el valor ms reciente como pronstico para el periodo
prximo. Cul es el pronstico para el mes 8?
b) Calcule el valor del CME al utilizar el promedio de todos los datos disponibles como pro-
nstico para el siguiente periodo. Cul es el pronstico para el mes 8?
c) Qu mtodo parece proveer el mejor pronstico?
Promedios mviles
El mtodo de promedios mviles utiliza el promedio de los valores de los k datos ms recien-
tes de la serie de tiempo como pronstico para el prximo periodo. En trminos matemticos,
un pronstico de promedio mvil de orden k es el siguiente.
Ft#1 ! a
(los k valores ms recientes de los datos) Y # Yt"1 # . . . # Yt "k#1
! t (18.1)
k k
donde
El trmino mvil se utiliza porque cada vez que en la serie de tiempo hay una nueva ob-
servacin, sta sustituye a la observacin ms antigua de la ecuacin y se calcula un nuevo
promedio. Como resultado, el promedio se modifica, o se mueve, conforme se disponga de una
nueva observacin.
Para ilustrar el mtodo de los promedios mviles, regrese a los datos de las ventas de gaso-
lina de la tabla 18.1 y de la figura 18.1. La grfica de la figura 18.1 indica que la serie de tiempo
de las ventas de gasolina tiene un patrn horizontal. Por tanto, se pueden aplicar los mtodos de
suavizamiento de esta seccin.
798 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Para utilizar los promedios mviles a efecto de pronosticar las series de tiempo, primero se
debe seleccionar el orden, o el nmero de los valores de las series de tiempo que se incluirn
en el promedio mvil. Si slo los valores ms recientes se consideran relevantes, es preferible
utilizar un valor pequeo de k. Si existen valores ms antiguos que se consideren relevantes,
entonces es mejor un valor grande de k. Como se mencion antes, una serie de tiempo con un
patrn horizontal puede cambiar con el tiempo a un nuevo nivel. Un promedio mvil se adap-
tar al nuevo nivel y seguir brindando pronsticos adecuados despus de k periodos. As, un
valor menor de k har un seguimiento ms rpido en el cambio en una serie de tiempo, pero
los valores mayores sern ms eficaces para el suavizamiento de las fluctuaciones aleatorias en
el tiempo. As que el criterio de negocios basado en el entendimiento del comportamiento de
una serie de tiempo es de gran ayuda en la eleccin de un buen valor de k.
Para ilustrar cmo los promedios mviles pueden utilizarse para pronosticar las ventas de
gasolina, se utilizar un promedio mvil de tres semanas (k ! 3). Se comienza por calcular el
pronstico de ventas en la semana 4 con la media de los valores de la serie de tiempo en las
semanas 1 a 3.
17 # 21 # 19
F4 ! promedio de las semanas 1 a 3 ! ! 19
3
Por tanto, el pronstico del promedio mvil de ventas en la semana 4 es 19 o 19 mil galones de
gasolina. Debido a que el valor real observado en esta semana es 23, el error de pronstico en
la semana 4 es 23 " 19 ! 4.
A continuacin se calcula el pronstico de ventas en la semana 5 al promediar los valores
de la serie de tiempo de las semanas 2 a 4.
21 # 19 # 23
F5 ! promedio de las semanas 2 a 4 ! ! 21
3
Por tanto, el pronstico de las ventas en la semana 5 es 21 y el error relacionado con este indi-
cador es 18 " 21 ! " 3. Un resumen completo del pronstico del promedio mvil para las
series de tiempo en las tres semanas de ventas de gasolina se proporciona en la tabla 18.9. La
figura 18.7 muestra la grfica de la serie de tiempo original y el pronstico del promedio mvil
de tres semanas. Observe cmo la grfica de los pronsticos por promedio mvil ha tendido a
suavizar las fluctuaciones aleatorias en la serie de tiempo.
TABLA 18.9 Resumen de los clculos del promedio mvil para tres semanas
FIGURA 18.7 Grfica de series de tiempo de las ventas de gasolina y pronsticos del promedio
mvil a tres semanas
25
20
0
0 1 2 3 4 5 6 7 8 9 10 11 12
Semana
Para pronosticar las ventas en la semana 13, el siguiente periodo en el futuro, se calcula
simplemente el promedio de los valores de la serie de tiempo en las semanas 10, 11 y 12.
20 # 15 # 22
F13 ! promedio de las semanas 10 a 12 ! ! 19
3
Exactitud del pronstico En la seccin 18.2 se estudiaron tres medidas de exactitud del
pronstico: EAM, CME y EPAM. Al utilizar los clculos del promedio mvil de tres semanas de
la tabla 18.9, los valores para estas tres medidas de exactitud del pronstico son
24
EAM ! ! 2.67
9
92
CME ! ! 10.22
9
129.21
EPAM ! ! 14.36%
9
En situaciones donde es En la seccin 18.2 tambin se mostr que al utilizar las observaciones ms recientes como
necesario comparar los pronstico para la siguiente semana (un promedio mvil de orden k ! 1) dio como resultado
mtodos de elaboracin
los valores de EAM ! 3.73, CME ! 16.27 y EPAM ! 19.24%. As, en cada caso el mtodo de
de pronsticos para distintos
periodos, son preferibles promedio mvil para las tres semanas proporcion pronsticos ms exactos que el simple uso
las medidas relativas como de la observacin ms reciente como pronstico.
EPAM para comparar Para determinar si con un orden distinto de k se pueden obtener pronsticos ms precisos
un pronstico de ventas con el promedio mvil, se recomienda el uso del mtodo de prueba y error para determinar el
semanales con un pronstico
valor de k que minimiza el CME. Para la serie de tiempo de ventas de gasolina se puede mostrar
de ventas mensuales.
que el valor mnimo del CME corresponde a un promedio mvil de orden k ! 6 con CME !
6.79. Si se est dispuesto a asumir que el orden del promedio mvil que es mejor para los datos
800 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
histricos tambin ser mejor para los valores futuros de la serie de tiempo, el pronstico para el
promedio mvil ms preciso en las ventas de gasolina se puede obtener utilizando un promedio
mvil de orden k ! 6.
Pronstico para la semana 4 ! 1!6 (17) # 2!6 (21) # 3!6 (19) ! 19.33
Observe que en el mtodo del promedio mvil ponderado la suma de los pesos es igual a 1.
Exactitud del pronstico Para utilizar el mtodo de promedios mviles ponderados, pri-
mero debe seleccionar la cantidad de valores que se incluirn en el promedio mvil ponderado
y despus elegir los pesos para cada uno de los valores. En general, si se cree que el pasado re-
ciente es un mejor predictor del futuro que el pasado distante, habr que asignar pesos mayores
a las observaciones ms recientes. Sin embargo, si la serie de tiempo es muy variable, puede ser
mejor elegir pesos aproximadamente iguales para todos los datos. El nico requisito en la se-
leccin de los pesos es que su suma debe ser igual a 1. Para estimar si con una determinada
combinacin de cantidad de datos y de pesos se obtiene un pronstico ms preciso que con
otra combinacin, se recomienda utilizar el CME como medida de exactitud del pronstico. Es
decir, si se supone que la combinacin que es mejor para el pasado tambin ser mejor para el
futuro, se utilizar la combinacin del nmero de valores y pesos que minimice el CME de la
serie de tiempo histrica para pronosticar el siguiente valor en la serie de tiempo.
Suavizamiento exponencial
Existen varios El suavizamiento exponencial tambin utiliza un promedio ponderado de los valores pasa-
procedimientos de dos de la serie de tiempo como pronstico; es un caso especial del mtodo de promedio mvil
suavizamiento exponencial.
ponderado en el que se elige slo un peso, aquel para la observacin ms reciente. Los pesos
El mtodo que aqu se
presenta se refiere a de los valores para los dems datos se calculan automticamente y son ms pequeos conforme
menudo como suavizamiento las observaciones se vuelven ms antiguas. La ecuacin de suavizamiento exponencial es la
exponencial sencillo. En la siguiente.
siguiente seccin se muestra
cmo un suvizamiento
exponencial que utiliza dos
constantes de suavizamiento PRONSTICO DE SUAVIZAMIENTO EXPONENCIAL
puede ser utilizado para
pronosticar una serie de Ft#1 ! Yt # (1 " )Ft (18.2)
tiempo con tendencia lineal.
donde
F2 ! Y1 # (1 " )F1
! Y1 # (1 " )Y1
! Y1
Observe que el pronstico de suavizamiento exponencial para el periodo 2 es igual al valor real
de la serie de tiempo en el periodo 1.
El pronstico para el periodo 3 es
F4 ! Y3 # (1 " )F3
! Y3 # (1 " )[Y2 # (1 " )Y1]
! Y3 # (1 " )Y2 # (1 " )2Y1
El trmino suavizamiento Observe ahora que F4 es un promedio ponderado de los tres primeros valores de la serie de
exponencial proviene tiempo. La suma de los coeficientes o pesos de Y1, Y2 y Y3 es igual a 1. Con un argumento similar
del carcter exponencial del
se puede demostrar que, en general, cualquier pronstico Ft#1 es un promedio ponderado de
sistema de ponderacin
de los valores histricos. todos los valores anteriores de la serie de tiempo.
A pesar de que con el suavizamiento exponencial se obtiene un pronstico que es el prome-
dio ponderado de todas las observaciones anteriores, no deben conservarse todos los datos del
pasado para calcular el pronstico del periodo siguiente. De hecho, la ecuacin (18.2) muestra
que una vez que el valor de la constante de suavizamiento es elegida, slo se necesitan dos
informaciones para calcular el pronstico: Yt , el valor real de la serie de tiempo para el perio-
do t, y Ft , el pronstico para el periodo t.
Para ilustrar el mtodo de suavizamiento exponencial, considere de nuevo la serie de tiem-
po de los precios de la gasolina presentada en la tabla 18.1 y en la figura 18.1. Como ya se
explic, para iniciar los clculos se establece un pronstico de suavizamiento exponencial para
el periodo 2 igual al valor real de la serie de tiempo en el periodo 1. Por tanto, como Y1 ! 17,
para empezar con los clculos del suavizamiento exponencial se pone F2 ! 17. Referente a los
datos de la serie de tiempo en la tabla 18.1, se encuentra que el valor real de la serie de tiempo
en el periodo 2 es Y2 ! 21. Por tanto, el error de pronstico del periodo 2 es 21 " 17 ! 4.
Al continuar con los clculos del suavizamiento mediante una constante de suavizacin
! 0.2, se obtiene el siguiente pronstico para el periodo 3:
Una vez que se conoce el valor real de la serie de tiempo en el periodo 3, Y3 ! 19, se puede
generar un pronstico para el periodo 4 de la siguiente manera.
Al continuar con los clculos para el suavizamiento exponencial se determinan los valores de
los pronsticos semanales que se muestran en la tabla 18.10. Observe que no se ha mostrado
802 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
FIGURA 18.8 Series de tiempo real y pronosticada de las ventas de gasolina con constante
de suavizamiento ! 0.2
25
Serie de
tiempo real
20
Ventas (miles de galones)
15
Pronstico de la serie
de tiempo con ! 0.2
10
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Semana
NOTAS Y COMENTARIOS
1. Los paquetes de hoja de clculo son una ayuda serie de tiempo estacionaria. Estos mtodos tam-
eficaz en la eleccin de un valor adecuado para bin pueden utilizarse para pronosticar una serie de
en el suavizamiento exponencial. Con los datos tiempo no estacionaria que cambia de nivel pero no
de las series de tiempo y las frmulas de elabora- muestra una tendencia o estacionalidad. Los pro-
cin de pronsticos, en una hoja de clculo se pue- medios mviles con valores pequeos de k se pue-
den probar diferentes valores de y elegir el que den adaptar ms rpidamente que los promedios
proporciona el error de pronstico ms pequeo mviles con valores mayores de k. Los modelos de
utilizando una o ms medidas de exactitud de pro- suavizamiento exponencial con constantes de sua-
nstico (EAM, CME o EPAM). vizamiento ms cercanas a 1 se adaptan ms rpi-
2. Presentamos el promedio mvil y los mtodos de damente que los modelos con valores ms pequeos
suavizamiento exponencial en el contexto de una de la constante de suavizamiento.
Ejercicios
Mtodos
5. Considere los datos siguientes de serie de tiempo.
AUTO evaluacin
Semana 1 2 3 4 5 6
Valor 18 13 16 11 17 14
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Obtenga los pronsticos con un promedio mvil a tres semanas para esta serie de tiempo.
Calcule el CME y un pronstico para la semana 7.
c) Utilice " 0.2 para calcular los pronsticos de suavizamiento exponencial de la serie de
tiempo. Calcule el CME y d un pronstico para la semana 7.
18.3 Promedios mviles y suavizamiento exponencial 805
d) Compare el mtodo del promedio mvil a tres semanas con el mtodo de suavizamiento
exponencial utilizando " 0.2. Cul parece dar un pronstico ms preciso basado en el
CME? Explique.
e) Utilice una constante de suavizamiento de " 0.4 para calcular el pronstico de suavi-
zamiento exponencial. Una constante de suavizamiento de 0.2 o de 0.4 parece propor-
cionar pronsticos ms precisos basados en el CME? Explique.
6. Considere los datos siguientes de serie de tiempo.
Semana 1 2 3 4 5 6 7
Valor 24 13 20 12 19 23 15
Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
a) Desarrolle el pronstico de promedio mvil para tres semanas en esta serie de tiempo.
Calcule el CME y proporcione un pronstico para la semana 8.
b) Utilice " 0.2 para calcular los pronsticos de suavizamiento exponencial de la serie de
tiempo. Calcule el CME y proporcione un pronstico para la semana 8.
c) Compare el mtodo del promedio mvil a tres semanas con el mtodo de suavizamiento
exponencial utilizando " 0.2. Cul parece dar pronsticos ms precisos basados en el
CME?
d) Utilice una constante de suavizamiento de " 0.4 para calcular los pronsticos de sua-
vizamiento exponencial. Una constante de suavizamiento de 0.2 o de 0.4 parece ofrecer
pronsticos ms precisos basados en el CME? Explique.
7. Regrese a los datos de la serie de tiempo para las ventas de gasolina de la tabla 18.1.
WEB archivo a) Calcule los promedios mviles de la serie de tiempo a 4 y 5 semanas.
Gasoline
b) Calcule el CME de los pronsticos obtenidos con los promedios mviles de 4 y 5 semanas.
c) Cul parece ser de los datos pasados el mejor nmero de semanas a utilizar (3, 4 o 5)
para el clculo del promedio mvil? Recuerde que el CME para el promedio mvil de tres
semanas es 10.22.
8. Consulte de nuevo los datos de la serie de tiempo de las ventas de gasolina de la tabla 18.1.
WEB archivo a) Utilice 1/2 como el peso de la observacin ms reciente, 1/3 para la segunda observacin
Gasoline
ms reciente y 1/6 para la tercera observacin ms reciente. Calcule un promedio mvil
ponderado de las tres semanas para la serie de tiempo.
b) Determine el CME del promedio mvil ponderado del inciso a). Prefiere ste que el
promedio mvil no ponderado? Recuerde que el CME del promedio mvil ponderado es
10.22.
c) Suponga que se le permite elegir cualesquiera pesos, siempre y cuando su suma sea 1.
Siempre ser posible elegir un conjunto de pesos que hagan que el CME sea menor para
el promedio mvil ponderado que para un promedio mvil no ponderado? Por qu?
9. Con los datos de la serie de tiempo de las ventas de gasolina de la tabla 18.1, muestre el pro-
WEB archivo nstico de suavizamiento exponencial utilizando " 0.1.
Gasoline
a) Al aplicar la medida de exactitud del CME, preferira una constante de suavizamiento de
" 0.1 o " 0.2 para la serie de tiempo de las ventas de gasolina?
b) Los resultados son los mismos si se aplica EAM como medida de exactitud?
c) Cules son los resultados si se utiliza EPAM?
10. Con una constante de suavizamiento de " 0.2, la ecuacin (18.2) muestra que el pronstico
para la semana 13 de las ventas de gasolina listadas en la tabla 18.1 est dado por F13 " 0.2Y12
# 0.8F12. Sin embargo, el pronstico para la semana 12 est dado por F12 " 0.2Y11 # 0.8F11.
Por tanto, se podran combinar estos dos resultados para mostrar que el pronstico sobre la
semana 13 se puede escribir como
F13 " 0.2Y12 # 0.8(0.2Y11 # 0.8F11) " 0.2Y12 # 0.16Y11 # 0.64Y11 # 0.64F11
a) Aplique el hecho de que F11 " 0.2Y10 # 0.8F10 (y de manera similar para F10 y F9) y con-
tine expandiendo la expresin para F13 hasta que sta se escriba en trminos de los datos
de los valores pasados Y12, Y11, Y10, Y9 y Y8, y del pronstico para el periodo 8.
806 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
b) Remtase a los coeficientes o pesos de los valores del pasado Y12, Y11, Y10, Y9 y Y8. Qu
puede decir acerca de los pesos que el suavizamiento exponencial proporciona a los valo-
res pasados al obtener un nuevo pronstico? Compare estos pesos con los del mtodo del
promedio mvil.
Aplicaciones
11. Para Hawkins Company, los porcentajes de los embarques mensuales recibidos en los ltimos
12 meses son 80, 82, 84, 83, 83, 84, 85, 84, 82, 83, 84 y 83.
a) Construya una grfica para la serie de tiempo. Qu tipo de patrn existe en los datos?
b) Compare el pronstico obtenido mediante promedios mviles de tres meses con el pro-
nstico obtenido por el mtodo de suavizamiento exponencial con " 0.2. Con cul se
obtienen pronsticos ms precisos al utilizar el CME como medida de exactitud?
c) Cul es el pronstico para el prximo mes?
12. A continuacin se proporcionan las tasas de inters de bonos corporativos triple A de 12 meses
consecutivos.
9.5 9.3 9.4 9.6 9.8 9.7 9.8 10.5 9.9 9.7 9.6 9.6
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle promedios mviles de tres y cuatro meses para esta serie de tiempo. Con cul
de estos promedios mviles se obtiene un pronstico ms exacto basado en el CME? Ex-
plique.
c) Cul es el pronstico para el promedio mvil del prximo mes?
13. Los valores de los contratos de construccin en Alabama (en millones de dlares) para un pe-
AUTO evaluacin riodo de 12 meses son los siguientes.
240 350 230 260 280 320 220 310 240 310 240 230
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Compare el mtodo del promedio mvil a tres meses con el pronstico de suavizamiento
exponencial utilizando " 0.2. Con cul se obtienen pronsticos ms precisos basados
en el CME?
c) Cul es el pronstico para el prximo mes?
14. En la siguiente serie de tiempo se muestran las ventas de un producto en particular en los lti-
mos 12 meses.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice " 0.3 para calcular los pronsticos de suavizamiento exponencial de la serie de
tiempo.
c) Utilice una constante de suavizamiento de " 0.5 para calcular los pronsticos de sua-
vizamiento exponencial. Cul de las constantes de suavizamiento, 0.3 o 0.5, parece pro-
porcionar pronsticos ms precisos basados en el CME?
15. Los datos siguientes son los valores del Commodity Futures Index de 10 semanas: 7.35, 7.40,
7.55, 7.56, 7.60, 7.52, 7.52, 7.70, 7.62 y 7.55.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Calcule los pronsticos de suavizamiento exponencial para " 0.2.
c) Calcule los pronsticos de suavizamiento exponencial para " 0.3.
d) Cul de las constantes de suavizamiento exponencial proporciona pronsticos ms pre-
cisos basados en el CME? Elabore el pronstico para la semana 11.
18.4 Proyeccin de la tendencia 807
16. Las calificaciones (rating) Nielsen (porcentajes de audiencia televisiva de hogares en Estados
Unidos) del Torneo Masters Golf de 1997 a 2008 son las siguientes (Golf Magazine, enero de
2009).
Year Rating
1997 11.2
1998 8.6
1999 7.9
2000 7.6
WEB archivo 2001 10.7
2002 8.1
Masters
2003 6.9
2004 6.7
2005 8.0
2006 6.9
2007 7.6
2008 7.3
El rating de 11.2 puntos en 1997 indica que 11.2% de los hogares estadounidenses se sintoniz
para ver a Tiger Woods triunfar en su primer torneo de golf ms importante y convertirse en el
primer afroestadounidense en ganar el Masters. Tiger Woods lo gan en 2001 y 2005.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos? Opine
sobre algunos factores que pueden haber influido en el modelo mostrado en la grfica de
series de tiempo para este periodo.
b) Dado el patrn de la grfica de series de tiempo desarrollado en el inciso a), cree que los
mtodos de pronstico estudiados en esta seccin son adecuados para obtener los prons-
ticos para esta serie de tiempo? Explique.
c) Recomendara utilizar slo los ratings de Nielsen de 2002-2008 para pronosticar el rating
de 2009, o debera usarse toda la serie de tiempo desde 1997 hasta 2008? Explique.
34
33
32
31
Ventas (en miles) 30
29
28
27
26
25
24
23
22
21
20
0 1 2 3 4 5 6 7 8 9 10 11 12
Ao
FIGURA 18.10 Tendencia representada por una funcin lineal de la serie de tiempo de ventas
de bicicletas
34
33
32
31
30
Ventas (en miles)
29
28
27
26
25
24
23
22
21
20
0 1 2 3 4 5 6 7 8 9 10 11 12
Ao
En el captulo 14, la ecuacin de regresin estimada que describe una relacin lineal entre
una variable independiente x y una variable dependiente y se expres como:
y " b0 # b1 x
donde
a (t ! t )(Yt ! Y )
n
t"1
b1 " (18.5)
a (t ! t )
n
2
t"1
donde
Yt " valor de la serie de tiempo en el periodo t
n " nmero de periodos (nmero de observaciones)
Y " valor promedio de la serie de tiempo
t " valor promedio de t
*
Una frmula alternativa para b1 es
n n n
"t
t" 1
2
! "t
t" 1
#n
Esta forma de la ecuacin (18.5) se recomienda a menudo cuando se utiliza una calculadora para obtener b1.
A efecto de calcular la ecuacin de tendencia lineal para la serie de tiempo de las ventas de
bicicletas, se comienza por determinar t y Y utilizando la informacin de la tabla 18.12.
at
n
t" 1 55
t " " " 5.5
n 10
a Yt
n
t"1 264.5
Y" " " 26.45
n 10
810 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
TABLA 18.13 Resumen de los clculos de la tendencia lineal para la serie de tiempo de las ventas
de bicicletas
a (t ! t )(Yt ! Y )
n
t"1 90.75
b1 " " 1.1
a (t ! t )
n
"
2 82.5
t" 1
La pendiente de 1.1 indica que en los ltimos 10 aos la empresa experiment un promedio de
crecimiento en las ventas de cerca de 1 100 unidades por ao. Si se supone que la tendencia en
las ventas de la ltima dcada es un buen indicador del futuro, esta ecuacin de tendencia puede
utilizarse para obtener los pronsticos sobre periodos futuros. Por ejemplo, al sustituir en la
ecuacin t " 11 se obtiene la proyeccin de tendencia o el pronstico para el prximo ao T11.
Por tanto, al utilizar la proyeccin de tendencia se podr pronosticar un valor para las ventas de
32 500 bicicletas para el prximo ao.
Para calcular la exactitud del mtodo de elaboracin de pronsticos de la proyeccin de ten-
dencia se utilizar el CME. La tabla 18.14 muestra el clculo de la suma de los errores cuadrados
para la serie de tiempo de las ventas de bicicletas. As que para esta serie,
a (Yt ! Ft)
n
2
t" 1 30.7
CME " " " 3.07
n 10
TABLA 18.14 Resumen de los pronsticos de tendencia lineal y de errores de pronstico para
la serie de tiempo de ventas de bicicletas
Error de pronstico
Ao Ventas (en miles) Yt Pronstico Tt Error de pronstico cuadrado
1 21.6 21.5 0.1 0.01
2 22.9 22.6 0.3 0.09
3 25.5 23.7 1.8 3.24
4 21.9 24.8 !2.9 8.41
5 23.9 25.9 !2.0 4.00
6 27.5 27.0 0.5 0.25
7 31.5 28.1 3.4 11.56
8 29.7 29.2 0.5 0.25
9 28.6 30.3 !1.7 2.89
10 31.4 31.4 0.0 0.00
Total 30.70
Este valor del CME difiere del valor calculado antes porque la suma de los errores cuadrados se
divide entre 8 en vez de 10; por tanto, en el CME el resultado de regresin no es la media de los
errores de pronstico cuadrados. Sin embargo, la mayora de los paquetes de pronstico calcu-
lan el valor del CME tomando la media de los errores cuadrados. Por tanto, al utilizar los pa-
En los resultados de Minitab quetes de series de tiempo para desarrollar una ecuacin de tendencia, el resultado del valor del
del anlisis de tendencia
CME puede diferir ligeramente del que se obtendra con un mtodo de regresin general. Por
MSD es la desviacin
cuadrada media, es decir, ejemplo, en la figura 18.12 se muestra la parte grfica del resultado obtenido al utilizar el proce-
el promedio de los errores dimiento de anlisis de tendencia de series de tiempo de Minitab. Observe que MSD " 3.07 es
de pronstico cuadrados. el promedio de los errores de pronstico cuadrados.
FIGURA 18.11 Resultado de regresin en Minitab para la serie de tiempo de las ventas
de bicicletas
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 99.825 99.825 26.01 0.001
Residual Error 8 30.700 3.837
Total 9 130.525
812 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
FIGURA 18.12 Resultado del anlisis de tendencia lineal en Minitab de la serie de tiempo
de las ventas de bicicletas
MAD** 1.32000
MSD*** 3.07000
26
20
1 2 3 4 5 6 7 8 9 10
ndice
Los pronsticos por el mtodo de suavizamiento exponencial lineal de Holt se obtienen me-
diante dos constantes de suavizamiento y , y tres ecuaciones.
donde
Aplique el mtodo de Holt a la serie de tiempo de las ventas de bicicletas listadas en la tabla
18.12 y utilice ! 0.1 y ! 0.2. Para empezar con el mtodo se necesitan los valores de L1,
la estimacin del nivel de la serie de tiempo en el ao 1, y b1 la estimacin de la pendiente de la
serie de tiempo en el ao 1. El mtodo utilizado comnmente consiste en determinar L1 ! Y1 y
b1 ! Y2 " Y1. Al utilizar este procedimiento inicial obtenemos
L1 ! Y1 ! 21.6
b1 ! Y2 " Y1 ! 22.9 " 21.6 ! 1.3
Observe que 21.6 # 1.3 es el pronstico de ventas para el ao 2. Por tanto, la estimacin del
nivel de la serie de tiempo en este ao obtenida mediante la ecuacin (18.7) es simplemente un
promedio ponderado del valor observado en el ao 2 (con un peso de ! 0.1) y el pronstico
para el ao 2 (con un peso de 1 " ! 1 " 0.1 ! 0.9). En general, los valores mayores de
dan ms peso al valor observado (Yt ), mientras que valores menores dan ms peso al valor
pronosticado (Lt"1 # bt"1).
A continuacin utilice la ecuacin (18.8) y la constante de suavizamiento ! 0.2 para
calcular la pendiente de la serie de tiempo en el ao 2.
Se realizan otros clculos en forma similar, los cuales se muestran en la tabla 18.15. La suma de
los errores de pronstico cuadrados es 39.678; por ende, CME ! 39.678/9 ! 4.41.
Con valores diferentes para la constante de suavizamiento y se obtienen pronsticos
ms precisos? Para responder esta pregunta habra que probar diferentes combinaciones de
y para determinar si se puede encontrar una combinacin con la que se obtenga un valor
menor del CME de 4.41, el valor obtenido utilizando las constantes de suavizamiento ! 0.1 y
! 0.2. Se puede realizar la bsqueda de buenos valores y por ensayo y error o mediante
software de estadstica ms avanzado que tenga la opcin de seleccionar un conjunto ptimo de
constantes de suavizamiento.
814 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
TABLA 18.15 Resumen de los clculos de Holt para el suavizamiento exponencial lineal de la serie de tiempo
de las ventas de bicicletas utilizando ! 0.1 y ! 0.2
Observe que las estimaciones, ambas en el ao 10, del nivel de la serie de tiempo es L1 !
32.220 y de la pendiente es b1 ! 1.171. Si se asume que la tendencia de los ltimos 10 aos en
las ventas es un buen indicador del futuro, la ecuacin (18.9) puede utilizarse para desarrollar
pronsticos para periodos futuros. Por ejemplo, al sustituir t ! 11 en la ecuacin (18.9) se ob-
tiene la proyeccin de tendencia para el prximo ao o el pronstico, F11.
Por tanto, al utilizar el suavizamiento exponencial lineal de Holt se pronostica que el ao pr-
ximo las ventas sern de 33 391 bicicletas.
FIGURA 18.13 Grfica de la serie de tiempo de ventas del medicamento contra el colesterol
(millones de $)
120
100
80
Ingresos
60
40
20
0
0 1 2 3 4 5 6 7 8 9 10
Ao
donde
Year (ao) ! 1, 2, 3, . . . , 10
YearSq (ao cuadrado) ! 1, 4, 9, . . . , 100
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 5770.1 2885.1 182.52 0.000
Residual Error 7 110.6 15.8
Total 9 5880.8
816 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Al utilizar el procedimiento estndar de regresin mltiple se requiere calcular los valores para
el ao al cuadrado como segunda variable independiente. Se puede utilizar el anlisis de tenden-
cia para series de tiempo de Minitab alternativamente para obtener los mismos resultados. No
se requiere obtener valores para el ao al cuadrado y es ms fcil de usar. Se recomienda este
mtodo en la solucin de los ejercicios que involucren tendencias cuadrticas.
Ecuacin de tendencia exponencial Otra alternativa que podemos utilizar para modelar
el patrn no lineal mostrado por la serie de tiempo del colesterol es ajustar un modelo exponen-
cial a los datos. Por ejemplo, considere la siguiente ecuacin de tendencia exponencial.
Tt ! b0(b1) t (18.11)
Para entender mejor esta ecuacin, suponga que b0 ! 20 y b1 ! 1.2. Despus, para t ! 1, T1 !
20(1.2)1 ! 24; para t ! 2, T2 ! 20(1.2)2 ! 28.8; y para t ! 3, T3 ! 20(1.2)3 ! 34.56. Observe
que Tt no est aumentando por un monto constante como en el caso del modelo de tendencia
lineal, sino en un porcentaje constante; el incremento porcentual es de 20%.
En su mdulo de serie de tiempo, Minitab tiene la capacidad para calcular una ecuacin
de tendencia exponencial y puede utilizarse entonces para el pronstico. Desafortunadamente,
Excel no tiene esta capacidad. No obstante, en la seccin 16.1 se describe cmo, al tomar loga-
ritmos de los trminos de la ecuacin (18.11), la metodologa del modelo general lineal puede
utilizarse para calcular la ecuacin de tendencia exponencial.
El mdulo de la serie de tiempo de Minitab es muy fcil de utilizar para desarrollar una
ecuacin de tendencia exponencial. No hay necesidad de trabajar con los logaritmos y usar el
anlisis de regresin para calcularla. En la figura 18.15 se muestra la grfica obtenida de la com-
putadora con el procedimiento del anlisis de tendencia de la serie de tiempo de Minitab que se
adapta a una ecuacin de tendencia exponencial.
MSD 15.0496
60
50
40
30
20
1 2 3 4 5 6 7 8 9 10 11
ndice
18.4 Proyeccin de la tendencia 817
NOTAS Y COMENTARIOS
La regresin de tendencia lineal se basa en determi- exactitud del pronstico. Para la serie de tiempo de las
nar la ecuacin de regresin estimada que minimiza ventas de bicicletas, la regresin de tendencia lineal
la suma de los errores de pronstico cuadrados y, por resulta con un valor de EAM de 1.32 en comparacin
consiguiente, del CME. Por tanto, se esperara que la con un valor de 1.67 segn el mtodo lineal de Holt.
regresin de tendencia lineal sea mejor que el suavi- Sin embargo, al basarse en el EPAM, el suavizamiento
zamiento exponencial lineal de Holt en trminos del exponencial lineal de Holt (EPAM ! 5.07%) es me-
CME. Por ejemplo, para la serie de tiempo de las ventas jor que la regresin de tendencia lineal (6.42%). Por
de bicicletas, el valor del CME al utilizar la regresin tanto, para la serie de tiempo de ventas de bicicletas,
lineal es 3.07, comparado con el valor de 3.97 que decidir cules son los mtodos con los que se obtie-
utiliza el suavizamiento exponencial lineal de Holt. nen pronsticos ms exactos depende de qu medida
La regresin de tendencia lineal tambin proporcio- de la exactitud del pronstico se utilice.
na un pronstico ms exacto con la medida EAM de
Ejercicios
Mtodos
17. Considere los datos siguientes de serie de tiempo.
AUTO evaluacin
t 1 2 3 4 5
Yt 6 11 9 14 15
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle la ecuacin de tendencia lineal para esta serie de tiempo.
c) Cul es el pronstico para t ! 6?
18. Consulte la serie de tiempo del ejercicio 17. Utilice el mtodo de suavizamiento lineal expo-
nencial de Holt con ! 0.3 y ! 0.5 y obtenga un pronstico para t ! 6.
19. Considere la siguiente serie de tiempo.
t 1 2 3 4 5 6 7
Yt 120 110 100 96 94 92 88
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle la ecuacin de tendencia lineal para esta serie de tiempo.
c) Cul es el pronstico para t ! 8?
20. Considere la siguiente serie de tiempo.
t 1 2 3 4 5 6 7
Yt 82 60 44 35 30 29 35
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice Minitab o Excel para desarrollar la ecuacin de tendencia cuadrtica para la serie
de tiempo.
c) Cul es el pronstico para t ! 8?
Aplicaciones
21. Debido a los altos costos de inscripcin en las universidades estatales y privadas, las matrculas
AUTO evaluacin en los colegios de educacin profesional tcnica (community colleges) se han incrementado
drsticamente en los ltimos aos. Los siguientes datos muestran la inscripcin (en miles) en el
Jefferson Community College de 2001 a 2009.
818 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle la ecuacin de tendencia lineal para esta serie de tiempo.
c) Cul es el pronstico para 2010?
22. El Seneca Childrens Fund (SCF) es una organizacin de caridad local que dirige un campamen-
to de verano para nios desprotegidos. El consejo de administracin ha trabajado muy duro en
los ltimos aos para reducir la cantidad de gastos generales, un factor importante en la forma
en que las organizaciones de caridad son recomendadas por los organismos independientes.
Los siguientes datos muestran el porcentaje del total de dinero recaudado que SCF ha invertido
en gastos administrativos y en campaas de recaudacin de fondos para 2003-2009.
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle la ecuacin de tendencia lineal para esta serie de tiempo.
c) Pronostique el porcentaje de gastos administrativos para 2010.
d) Si SCF puede mantener su actual tendencia en la reduccin de gastos administrativos,
cunto tiempo le llevar alcanzar un nivel de 5% o menos?
23. El presidente de una pequea empresa de manufactura est preocupado por el continuo aumen-
to en los costos de fabricacin de los ltimos aos. Las cifras siguientes presentan una serie de
tiempo del costo por unidad del producto principal de la empresa en los ltimos ocho aos.
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle la ecuacin de tendencia lineal para esta serie de tiempo.
c) En qu porcentaje han aumentado los costos de la empresa cada ao?
d) Proporcione un clculo estimado del costo unitario para el prximo ao.
24. FRED (Datos econmicos de la Reserva Federal), una base de datos con ms de 3 000 series de
tiempo econmicas de Estados Unidos, contiene datos histricos sobre los tipos de cambio. Los
18.4 Proyeccin de la tendencia 819
datos siguientes muestran el tipo de cambio (Rate) por ao (Year) y mes (Month) para Estados
Unidos y China (pgina web del Banco de la Reserva Federal de St. Louis). Las unidades para
el tipo de cambio son el nmero de yuanes chinos por un dlar estadounidense.
Ao Ventas Ao Ventas
1 400 6 260
2 390 7 300
3 320 8 320
4 340 9 340
5 270 10 370
Year Revenue
1 8.53
2 10.84
3 12.98
WEB archivo 4 14.11
5 16.31
Pasta
6 17.21
7 18.37
8 18.45
9 18.40
10 18.43
820 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice Minitab o Excel y obtenga una ecuacin de tendencia cuadrtica para pronosti-
car el valor del equipo.
c) Al utilizar Minitab o Excel, obtenga la ecuacin de tendencia exponencial para pronos-
ticar el valor del equipo.
d) Con Minitab o Excel obtenga la ecuacin de tendencia lineal para pronosticar el valor del
equipo.
e) Qu ecuacin recomendara utilizar para estimar el valor del equipo en 2009?
f) Utilice el modelo del inciso e) para pronosticar el valor de los Colts en 2009.
como variable categrica. Recuerde que cuando esta variable tiene k niveles, se necesitan k " 1
variables ficticias. Por tanto, si hay cuatro estaciones, se requieren tres variables ficticias. Por
ejemplo, la serie de tiempo de la temporada de ventas de sombrillas es una variable cualitativa
con cuatro niveles: trimestre 1, trimestre 2, trimestre 3 y trimestre 4. Por tanto, para modelar los
efectos estacionales en la serie de tiempo de las sombrillas se necesitan 4 " 1 ! 3 variables
ficticias. stas pueden ser codificadas de la siguiente manera.
180
160
140
120
100
Ventas
80
60
40
20
0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4 Ao 5
Ao/trimestre
822 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Es interesante sealar que se habran podido obtener los pronsticos trimestrales para el
prximo ao simplemente calculando el nmero promedio de sombrillas que se venden cada
trimestre, como se muestra en la siguiente tabla.
cancia de los resultados. Y para los tipos ms complejos de situaciones problemticas, como
tratar con una serie de tiempo que tiene tanto los efectos de tendencia como estacionales, el
mtodo de un promedio simple no funcionar.
Estacionalidad y tendencia
Ahora ampliaremos el mtodo de regresin para incluir situaciones en las que la serie de tiempo
WEB archivo contiene tanto el efecto estacional como una tendencia lineal, y mostraremos cmo pronosticar
TVSales la serie de tiempo de las ventas trimestrales de televisores presentadas en la seccin 18.1. Los
datos respectivos se muestran en la tabla 18.19. La grfica de series de tiempo de la figura 18.18
TABLA 18.19 indica que las ventas son muy bajas en el segundo trimestre de cada ao y que aumentan en los
Serie de tiempo de las trimestres 3 y 4. Por tanto, se concluye que existe un patrn estacional para las ventas de tele-
ventas de televisores visores. Pero la serie de tiempo tiene tambin una tendencia lineal ascendente que tendr que
Ventas tomarse en cuenta para obtener pronsticos exactos de las ventas trimestrales. Es fcil manejar
Ao Trimestre (miles $) y combinar el mtodo de las variables ficticias por estacionalidad con el mtodo de regresin
1 1 4.8 de la serie de tiempo que se estudi en la seccin 18.3 para el manejo de la tendencia lineal.
2 4.1 La forma general de la ecuacin de regresin mltiple estimada para modelar tanto los
3 6.0
4 6.5 efectos estacionales trimestrales como la tendencia lineal en la serie de tiempo de los televiso-
2 1 5.8 res es la siguiente.
2 5.2
3 6.8
4 7.4 Yt ! b0 # b1 Qtr1 # b2 Qtr2 # b3 Qtr3 # b4 t
3 1 6.0
2 5.6 donde
3 7.5
4 7.8
4 1 6.3 Yt ! estimacin o pronstico de ventas en el periodo t
2 5.9
3 8.0
Qtr1 ! 1 si el periodo t corresponde al primer trimestre del ao; 0 en caso contrario
4 8.4 Qtr2 ! 1 si el periodo t corresponde al segundo trimestre del ao; 0 en caso contrario
Qtr3 ! 1 si el periodo t corresponde al tercer trimestre del ao; 0 en caso contrario
t ! periodo
9.0
Ventas trimestrales de televisores (en miles)
8.0
7.0
6.0
5.0
4.0
3.0
2.0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4
Ao/trimestre
824 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
TABLA 18.20 Serie de tiempo de las ventas de televisores con variables ficticias y periodo
La tabla 18.20 es la serie de tiempo revisada de las ventas de televisores que incluye los va-
lores codificados de las variables ficticias y el periodo t. Al utilizar los datos de la tabla 18.20 y
el procedimiento de regresin de Minitab se obtuvo el resultado de computadora que se muestra
en la figura 18.19. La ecuacin de regresin mltiple estimada es
Ventas ! 6.07 " 1.36 Qtr1 " 2.03 Qtr2 " 0.304 Qtr3 # 0.146t (18.12)
Ahora se puede utilizar la ecuacin (18.12) a efecto de pronosticar las ventas trimestrales para
el prximo ao, el cual es el ao 5 para la serie de tiempo de ventas de televisores; es decir, los
periodos 17, 18, 19 y 20.
Ventas ! 6.07 " 1.36(1) " 2.03(0) " 0.304(0) # 0.146(17) ! 7.19
Ventas ! 6.07 " 1.36(0) " 2.03(1) " 0.304(0) # 0.146(18) ! 6.67
Ventas ! 6.07 " 1.36(0) " 2.03(0) " 0.304(1) # 0.146(19) ! 8.54
Ventas ! 6.07 " 1.36(0) " 2.03(0) " 0.304(0) # 0.146(20) ! 8.99
Por tanto, tomando en cuenta los efectos tanto estacionales como de tendencia lineal en las
ventas de televisores, las estimaciones de las ventas trimestrales en el ao 5 son 7 190, 6 670,
8 540 y 8 990.
Las variables ficticias en la ecuacin de regresin mltiple estimada realmente ofrecen cua-
tro ecuaciones de regresin mltiple estimadas, una para cada trimestre. Por ejemplo, si el perio-
do t corresponde al trimestre 1, la ecuacin estimada para las ventas es
Trimestre 1. Ventas ! 6.07 " 1.36(1) " 2.03(0) " 0.304(0) # 0.146t ! 4.71 # 0.146t
Del mismo modo, si el periodo t corresponde a los trimestres 2, 3 y 4, las estimaciones para las
ventas trimestrales son:
Trimestre 2. Ventas ! 6.07 " 1.36(0) " 2.03(1) " 0.304(0) # 0.146t ! 4.04 # 0.146t
Trimestre 3. Ventas ! 6.07 " 1.36(0) " 2.03(0) " 0.304(1) # 0.146t ! 5.77 # 0.146t
Trimestre 4. Ventas ! 6.07 " 1.36(0) " 2.03(0) " 0.304(0) # 0.146t ! 6.07 # 0.146t
La pendiente de la tendencia lineal para cada ecuacin de pronstico trimestral es 0.146, lo que
indica un crecimiento en las ventas de alrededor de 146 televisores por trimestre. La nica dife-
rencia en las cuatro ecuaciones estriba en que tienen diferentes intersecciones. Por ejemplo, la
interseccin en la ecuacin del trimestre 1 es 4.71 y para el trimestre 4 es 6.07. Por tanto, las ven-
tas en el trimestre 1 son 4.71 " 6.07 ! "1.36 o 1 360 televisores menos que en el trimestre 4.
En otras palabras, el coeficiente estimada en la regresin para Qtr1 en la ecuacin (18.12) pro-
porciona una estimacin de la diferencia en las ventas entre los trimestres 1 y 4. Interpretaciones
similares pueden darse para "2.03, el coeficiente estimado para la variable ficticia Qtr2, y para
"0.304, el coeficiente estimado para la variable ficticia Qtr3.
1 si es enero
Mes 1 !
0 en otro caso
1 si es febrero
Mes 2 !
0 en otro caso
.
.
.
1 si es noviembre
Mes 11 !
0 en otro caso
826 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Ejercicios
Mtodos
28. Considere la siguiente serie de tiempo.
AUTO evaluacin
Trimestre Ao 1 Ao 2 Ao 3
1 71 68 62
2 49 41 51
3 58 60 53
4 78 81 72
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para desarrollar una ecuacin de regresin esti-
mada que tome en cuenta los efectos estacionales en los datos: Qtr1 ! 1 si es el trimestre
1, 0 en caso contrario; Qtr2 ! 1 si es el trimestre 2, 0 en caso contrario; Qtr 3 ! 1 si es el
trimestre 3, 0 en caso contrario.
c) Calcule los pronsticos trimestrales para el ao siguiente.
29. Considere los datos siguientes de series de tiempo.
Trimestre Ao 1 Ao 2 Ao 3
1 4 6 7
2 2 3 6
3 3 5 6
4 5 7 8
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para desarrollar una ecuacin de regresin esti-
mada que tome en cuenta cualquier efecto estacional y de tendencia lineal en los datos:
Qtr1 ! 1 si el trimestre es 1, 0 en caso contrario; Qtr 2 ! 1 si el trimestre es 2, 0 en caso
contrario; Qtr3 ! 1 si el trimestre es 3, 0 en caso contrario.
c) Calcule los pronsticos trimestrales para el prximo ao.
Aplicaciones
30. Los datos de las ventas trimestrales (nmero de ejemplares vendidos) para un libro de texto
universitario en los ltimos tres aos son los siguientes.
Trimestre Ao 1 Ao 2 Ao 3
1 1 690 1 800 1 850
2 940 900 1 100
3 2 625 2 900 2 930
4 2 500 2 360 2 615
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para desarrollar una ecuacin de regresin esti-
mada que tome en cuenta los efectos estacionales de los datos: Qrt ! 1 si el trimestre es
1, 0 en caso contrario; Qtr2 ! 1 si el trimestre es 2, 0 en caso contrario; Qtr3 ! 1 si el
trimestre es 3, 0 en caso contrario.
18.5 Estacionalidad y tendencia 827
15 de julio 25 28 35 50 60 60 40 35 30 25 25 20
WEB archivo 16 de julio 28 30 35 48 60 65 50 40 35 25 20 20
Pollution
17 de julio 35 42 45 70 72 75 60 45 40 25 25 25
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para obtener una ecuacin de regresin estimada
que tome en cuenta los efectos estacionales de los datos.
Hour1 ! 1 si la lectura se realiz entre las 6:00 a.m. y las 7:00 a.m.; 0 de otra forma
Hour2 ! 1 si la lectura se realiz entre las 7:00 a.m. y las 8:00 a.m.; 0 de otra forma
.
.
.
Hour11 = 1 si la lectura se realiz entre las 4:00 p.m. y las 5:00 p.m.; 0 de otra forma
Note que cuando los valores de las 11 variables ficticias son iguales a 0, la observacin corres-
ponde a la hora entre las 5:00 p.m. y las 6:00 p.m.
c) Utilizando la ecuacin de regresin estimada obtenida en el inciso a), calcule estimacio-
nes de los niveles de dixido de nitrgeno para el 18 de julio.
d) Suponga que t ! 1 se refiere a la observacin en la hora 1 del 15 de julio; t ! 2 a la obser-
vacin en la hora 2 del 15 de julio, . . . y t ! 36 a la observacin en la hora 12 del 17 de ju-
lio. Utilice las variables ficticias definidas en el inciso b) y t, para desarrollar una ecuacin
de regresin estimada que tome en cuenta los efectos estacionales y de tendencia lineal de
la serie de tiempo. Con base en los efectos estacionales de los datos y la tendencia lineal,
calcule las estimaciones de los niveles de dixido de nitrgeno para el 18 de julio.
32. South Shore Construction edifica muelles y diques permanentes a lo largo de la costa sur de
Long Island, en Nueva York. Aunque la empresa ha estado en el negocio slo cinco aos, sus
ingresos han aumentado de $308 000 en el primer ao de operacin hasta $1 084 000 en el ao
ms reciente. Los siguientes datos muestran los ingresos por trimestre (Quarter) en miles de
dlares para cada ao (Year).
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para desarrollar una ecuacin de regresin esti-
mada que tome en cuenta los efectos estacionales de los datos. Qtr1 ! 1 si es el trimes-
tre 1, 0 en caso contrario; Qtr2 ! 1 si es el trimestre 2, 0 en caso contrario; Qtr3 ! 1 si es
828 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
el trimestre 3, 0 en caso contrario. Con base slo en los efectos estacionales de los datos,
calcule las estimaciones de las ventas trimestrales para el ao 6.
c) Suponga que el periodo ! 1 se refiere a la observacin en el trimestre 1 del ao 1; pe-
riodo ! 2 a la observacin del trimestre 2 del ao 1; . . . y periodo ! 20 a la observacin
en el trimestre 4 del ao 5. Utilice las variables ficticias que se definen en el inciso b) y el
periodo para desarrollar una ecuacin de regresin estimada que tome en cuenta los efec-
tos estacionales y de cualquier tendencia lineal de la serie de tiempo. Con base en ambos
efectos, calcule las estimaciones de las ventas trimestrales para el ao 6.
33. El consumo de energa elctrica se mide en kilowatts-hora (kWh). La compaa de servicios
local ofrece un programa de interrupcin por el cual los clientes comerciales participantes
reciben tarifas favorables, pero debern reducir el consumo si la empresa se los pide. Timko
Products ha acordado reducir el consumo los jueves desde las 8:00 p.m. Para determinar los
ahorros respectivos, la empresa debe calcular el uso de energa normal de Timko durante este
periodo. Los datos de su gasto de energa elctrica para las 72 horas anteriores se muestran a
continuacin. Se incluyen los consumos de los das lunes (Monday), martes (Tuesday), mir-
coles (Wednesday) y jueves (Thursday) con su respectivo periodo (Time Period).
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice las siguientes variables ficticias para desarrollar una ecuacin de regresin esti-
mada que tome en cuenta los efectos estacionales.
c) Utilice la ecuacin de regresin estimada obtenida en el inciso b) para calcular el uso nor-
mal de Timko a lo largo del periodo en que el servicio ser interrumpido.
d) Suponga que el periodo ! 1 se refiere a la observacin del lunes en el periodo de 12 a
4 p.m.; el periodo ! 2 a la observacin del lunes del periodo de 4 a 8 p.m.; . . . y el periodo
! 18 a la observacin del jueves en el periodo 8 a 12 del medioda. Utilice las variables
ficticias definidas en el inciso b), as como el periodo para desarrollar una ecuacin de re-
gresin estimada que tome en cuenta los efectos estacionales y de cualquier tendencia
lineal de la serie de tiempo.
e) Utilice la ecuacin obtenida en el inciso d) para estimar el uso normal de Timko a lo lar-
go del periodo en que el servicio estar interrumpido.
34. Los gastos del mantenimiento del csped ($) por mes (Month) para un edificio de apartamentos
de seis unidades en el sur de la Florida durante tres aos (Year) son los siguientes.
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle una ecuacin de regresin estimada que tome en cuenta cualquier efecto de
estacionalidad o de tendencia lineal en los datos. Utilice las siguientes variables ficticias
que tomen en cuenta los efectos estacionales: Jan ! 1 si es enero, 0 en caso contrario;
Feb ! 1 si es febrero, 0 en caso contrario; Mar ! 1 si es marzo, 0 en caso contrario; . . .
Nov ! 1 si es noviembre, 0 en caso contrario. Observe que al utilizar este mtodo de co-
dificacin, cuando las 11 variables ficticias son 0, la observacin corresponde a un gasto
en diciembre.
c) Calcule los pronsticos mensuales para el siguiente ao con base en los efectos tanto de
tendencia como estacionales.
donde
Tendenciat ! valor de la tendencia en el periodo t
Estacionalt ! valor estacional en el periodo t
Irregulart ! valor irregular en el periodo t
El componente irregular En el modelo aditivo, los valores de los tres componentes simplemente se suman para obtener
corresponde al trmino de el valor real de las series de tiempo Yt. El componente irregular o de error toma en cuenta la
error en el modelo de
variabilidad de la serie de tiempo que no puede ser explicada por los componentes de tendencia
regresin lineal simple
estudiado en el captulo 14. y estacional.
Un modelo aditivo es apropiado en situaciones en las que las fluctuaciones estacionales no
dependen del nivel de la serie de tiempo. El modelo de regresin que incorpora efectos esta-
cionales y de tendencia en la seccin 18.5 es un modelo aditivo. ste es apropiado si las fluc-
tuaciones estacionales en el periodo anterior son casi del mismo tamao que las fluctuaciones
estacionales en periodos posteriores. Sin embargo, si las fluctuaciones estacionales cambian en
el tiempo y son cada vez mayores a medida que aumenta el volumen de ventas debido a una
tendencia lineal a largo plazo, entonces se debe utilizar el modelo multiplicativo. Muchas series
de tiempo para las empresas y para la economa siguen este patrn.
Un modelo de descomposicin multiplicativa toma la siguiente forma:
donde
Tendenciat ! valor de la tendencia en el periodo t
Estacionalt ! ndice estacional en el periodo t
Irregulart ! ndice irregular en el periodo t
La Oficina del Censo utiliza En este modelo los componentes de tendencia, estacional e irregular se multiplican para dar el
un modelo multiplicativo valor de la serie de tiempo. La tendencia se mide en las unidades de producto de la serie que se
en conjuncin con
pronostica. Sin embargo, los componentes estacional e irregular se miden en trminos relativos,
su metodologa para
desestacionalizar las con valores superiores a 1.00 indicando los efectos por arriba de la tendencia y con valores
series de tiempo. menores a 1.00 indicando los efectos por debajo de la tendencia.
Debido a que este es el mtodo ms utilizado en la prctica, nuestro anlisis de descom-
posicin de las series de tiempo se limitar a mostrar cmo se desarrollan las estimaciones de
los componentes de tendencia y estacional de un modelo multiplicativo. A modo de ejemplo,
se trabajar con la serie de tiempo de las ventas trimestrales de televisores presentada en la sec-
cin 18.5; los datos de las ventas trimestrales se muestran en la tabla 18.19 y la grfica corres-
pondiente de la serie de tiempo se presenta en la figura 18.18. Despus de demostrar cmo se
descompone una serie de tiempo con el modelo multiplicativo, se estudiar cmo los ndices es-
tacionales y el componente de tendencia pueden ser recombinados para elaborar un pronstico.
Observe que el clculo del promedio mvil de los primeros cuatro trimestres da el promedio
trimestral de las ventas durante el ao 1 de la serie de tiempo. Para continuar con este clculo se
agrega el valor 5.8 correspondiente al primer trimestre del ao 2 y se elimina el 4.8 del primer
trimestre del ao 1. Por tanto, el segundo promedio mvil es
De manera similar, el clculo del tercer promedio mvil es (6.0 # 6.5 # 5.8 # 5.2)/4 ! 5.875.
Antes de continuar con el clculo de los promedios mviles de toda la serie de tiempo,
regrese al primero que result en un valor de 5.35. ste es el promedio trimestral del volumen
de ventas para el ao 1. Al retroceder en su clculo, parece razonable asociar el valor 5.35 con
el central del grupo del promedio mvil. Sin embargo, observe que como en cada prome-
dio mvil intervienen cuatro trimestres, no hay trimestre central. El valor 5.35 corresponde en
realidad al periodo 2.5, la segunda mitad del trimestre 2 y la primera mitad del trimestre 3. De
manera similar, al pasar al valor del siguiente promedio mvil, que es 5.60, el trimestre central
corresponder al periodo 3.5, la ltima mitad del trimestre 3 y la primera mitad del 4.
Los dos valores del promedio mvil que se calculan no corresponden directamente a los
trimestres originales de la serie de tiempo. Esta dificultad se resuelve calculando el promedio
de los dos promedios mviles. Ya que el centro del primero es el periodo 2.5 (la mitad de un
periodo o trimestre ms temprano) y el centro del segundo es el periodo 3.5 (la mitad del perio-
do o trimestre ms tarde), el promedio de los dos promedios mviles se centra en el trimestre 3,
exactamente donde debe estar. Este promedio se conoce como promedio mvil centrado, y para
el periodo 3 es (5.35 # 5.60)/2 ! 5.475, mientras que para el periodo 4 es (5.60 # 5.875)/2 !
5.738. La tabla 18.21 muestra un resumen completo de los clculos del promedio mvil y del
promedio mvil centrado para los datos de las ventas de televisores.
Qu informacin se obtiene de los promedios mviles centrados de la tabla 18.21 de esta
serie de tiempo? La figura 18.20 muestra una grfica de los valores reales de la serie de tiempo
y de los valores de los promedios mviles centrados. Observe sobre todo cmo estos ltimos tien-
den a suavizar tanto las fluctuaciones estacionales como las irregulares de la serie de tiempo.
Los promedios mviles centrados representan la tendencia en los datos y cualquier variacin
aleatoria que no se ha eliminado con el uso de los promedios mviles para suavizar los datos.
Antes se demostr que el modelo de descomposicin multiplicativa es
Al dividir cada lado de esta ecuacin entre el componente de tendencia T1, se puede identificar
el efecto estacional irregular en la serie de tiempo.
TABLA 18.21 Clculos de los promedios mviles centrados de la serie de tiempo de las ventas
de televisores
1 2 4.1
5.350
1 3 6.0 5.475
5.600
1 4 6.5 5.738
5.875
2 1 5.8 5.975
6.075
2 2 5.2 6.188
6.300
2 3 6.8 6.325
6.350
2 4 7.4 6.400
6.450
3 1 6.0 6.538
6.625
3 2 5.6 6.675
6.725
3 3 7.5 6.763
6.800
3 4 7.8 6.838
6.875
4 1 6.3 6.938
7.000
4 2 5.9 7.075
7.150
4 3 8.0
4 4 8.4
Al nmero 1.09 se le conoce como ndice estacional para el tercer trimestre. La tabla 18.23
resume los clculos necesarios para obtener los ndices estacionales de la serie de tiempo de
las ventas de televisores. Los ndices estacionales de los cuatro trimestres son 0.93, 0.84, 1.09
y 1.14.
La interpretacin de los ndices estacionales en la tabla ofrece una idea sobre el componen-
te estacional de las ventas de televisores. El mejor trimestre de ventas es el cuarto, con ventas
promedio de 14% por encima de la tendencia estimada. El peor, o ms bajo, es el segundo tri-
mestre; su ndice estacional de 0.84 indica que el promedio de ventas est 16% por debajo de
la tendencia estimada. El componente estacional se corresponde claramente con la expectativa
intuitiva de que el inters por ver televisin y, por tanto, los patrones de compra de televisores
18.6 Descomposicin de series de tiempo 833
FIGURA 18.20 Serie de tiempo de las ventas trimestrales de televisores y su promedio mvil
centrado
9.0
7.0
6.0
5.0
Promedio mvil
4.0 centrado de la
serie de tiempo
3.0
2.0
1.0
0.0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4
Ao/trimestre
TABLA 18.22 Valores del componente estacional-irregular de la serie de tiempo de las ventas de
televisores
Algunas veces es necesario un ltimo ajuste para obtener los ndices estacionales. Debido
a que el modelo multiplicativo requiere que el ndice estacional promedio sea igual a 1.00, la
suma de los cuatro ndices de la tabla 18.23 debe ser igual a 4.00. En otras palabras, los efectos
estacionales incluso deben nivelarse a lo largo del ao. En el ejemplo visto aqu, el promedio
de los ndices estacionales es igual a 1.00, y por tanto no es necesario ningn tipo de ajuste.
En otros casos puede requerirse un ligero ajuste. Para realizarlo, se multiplica cada ndice es-
tacional por el nmero de estaciones, dividido entre la suma de los ndices estacionales sin
ajustar. Por ejemplo, cuando se tienen datos trimestrales se multiplica cada ndice estacional por
4/(suma de los ndices estacionales no ajustados). En algunos ejercicios se requerir hacer este
ajuste para obtener el ndice estacional adecuado.
8.0
7.0
Ventas desestacionalizadas (en miles)
6.0
5.0
4.0
3.0
2.0
1.0
0.0
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ao 1 Ao 2 Ao 3 Ao 4
En la seccin 18.4 se obtuvo la frmula para calcular los valores de b0 y b1. Para ajustar una rec-
ta de tendencia lineal a los datos desestacionalizados de la tabla 18.24, el nico cambio estriba
en que al calcular b0 y b1 se utilizan los valores de la serie de tiempo desestacionalizada en lugar
de los valores observados Yt .
La figura 18.22 muestra los resultados de computadora obtenidos con el procedimiento de
anlisis de regresin de Minitab para estimar la lnea de tendencia de la serie de tiempo deses-
tacionalizada de los televisores. La ecuacin de tendencia lineal estimada es
Analysis of Variance
Source DF SS MS F P
Regression 1 7.4068 7.4068 158.78 0.000
Residual Error 14 0.6531 0.0466
Total 15 8.0599
La pendiente de 0.148 indica que en los ltimos 16 trimestres la empresa promedi un cre-
cimiento desestacionaliza de las ventas de 148 televisores por trimestre. Si se supone que los
datos de ventas de los ltimos 16 trimestres es un indicador bastante bueno del futuro, esta ecua-
cin se puede utilizar para proyectar el patrn de tendencia de los prximos trimestres. Por
ejemplo, si en esta ecuacin se sustituye t ! 17, obtenemos la proyeccin de la tendencia des-
estacionalizada para el siguiente trimestre, T17.
Por tanto, al utilizar los datos desestacionalizados, el pronstico de tendencia lineal es 7 616 te-
levisores para el prximo trimestre (periodo 17). Del mismo modo, los pronsticos de tendencia
desestacionalizada para los prximos tres trimestres (periodos 18, 19 y 20) son 7 764, 7 912 y
8 060 televisores, respectivamente.
Ajustes estacionales
El ltimo paso para obtener un pronstico cuando existe tanto un patrn de tendencia como un
patrn estacional, es usar el ndice estacional a efecto de ajustar la proyeccin de tendencia de-
sestacionalizada. Volviendo al ejemplo de las ventas de televisores, tenemos una proyeccin de
la tendencia desestacionalizada para los prximos cuatro trimestres. Ahora es necesario ajustar
el pronstico para el efecto estacional. El ndice estacional para el primer trimestre del ao 5
(t ! 17) es 0.93, por lo que se obtiene el pronstico trimestral al multiplicar el pronstico de-
sestacionalizado basado en la tendencia (T17 ! 7 616) por el ndice estacional (0.93). Por tanto,
el pronstico para el siguiente trimestre es 7 616(0.93) ! 7 083. En la tabla 18.25 se presentan
los pronsticos para los trimestres 17 a 20. El cuarto trimestre, de alto volumen de ventas, tiene
un pronstico de 9 188 unidades, y el segundo trimestre, de volumen bajo de ventas, tiene como
pronstico 6 522 unidades.
Patrn cclico
En trminos matemticos, el modelo multiplicativo de la ecuacin (18.14) se puede ampliar
para incluir el componente cclico.
NOTAS Y COMENTARIOS
1. Existen varios mtodos para calcular los ndices plemente porque hay menos das en febrero. Para
estacionales. En esta seccin se calcul cada n- tener en cuenta este factor, primero se divide el
dice estacional promediando los valores estacio- valor de las ventas de cada mes entre el nmero
nal-irregular correspondientes. Otro mtodo, y el de das del mes para obtener un promedio diario.
nico utilizado por Minitab, es la mediana de los Dado que el nmero promedio de das en un mes
valores estacional-irregulares, como el ndice esta- es de aproximadamente 365/12 ! 30.4167, en-
cional. tonces se multiplican los promedios diarios por
2. A menudo se realizan ajustes en el calendario an- 30.4167 para obtener valores ajustados mensual-
tes de desestacionalizar una serie de tiempo. Por mente. Para los ejemplos y ejercicios de este ca-
ejemplo, si una serie se compone de valores de las ptulo se puede suponer que ya se ha realizado
ventas mensuales, el valor de las ventas de febrero cualquier ajuste necesario al calendario.
podr ser menor que el de cualquier otro mes, sim-
Ejercicios
Mtodos
35. Considere los datos de la siguiente serie de tiempo.
AUTO evaluacin
Trimestre Ao 1 Ao 2 Ao 3
1 4 6 7
2 2 3 6
3 3 5 6
4 5 7 8
838 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Proporcione los valores del promedio mvil de cuatro trimestres y los valores del promedio
mvil centrado para esta serie de tiempo.
c) Calcule los ndices estacionales y los ndices estacionales ajustados para los cuatro tri-
mestres.
36. Remtase al ejercicio 35.
a) Desestacionalice la serie de tiempo utilizando los ndices estacionales ajustados calcu-
lados en el inciso c) del ejercicio 35.
b) Calcule la ecuacin de regresin de tendencia lineal para los datos desestacionalizados
utilizando Minitab o Excel.
c) Calcule el pronstico de tendencia desestacionalizada para los trimestres del ao 4.
d) Utilice los ndices estacionales para ajustar los pronsticos de tendencia desestacionali-
zada calculados en el inciso c).
Aplicaciones
37. A continuacin se presentan los datos de las ventas por trimestre (Quarter) del nmero de ejem-
plares vendidos para un libro de texto universitario en los ltimos tres aos (Year 1, 2 y 3).
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Para esta serie de tiempo, proporcione los valores del promedio mvil de cuatro trimestres
y del promedio mvil centrado.
c) Calcule los ndices estacionales y los ndices estacionales ajustados de los cuatro tri-
mestres.
d) Cundo obtiene la editorial el mayor ndice estacional? Parece razonable este resultado?
Explique.
e) Desestacionalice la serie de tiempo.
f) Calcule la ecuacin de tendencia lineal para los datos desestacionalizados y pronostique
las ventas utilizando la ecuacin de tendencia lineal.
g) Modifique los pronsticos de tendencia lineal utilizando los ndices estacionales ajustados
calculados en el inciso c).
38. A continuacin se presentan los gastos ($) por mes (Month) del mantenimiento de csped a lo
largo de tres aos (Year 1, 2 y 3) para un edificio de seis departamentos en el sur de Florida.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Identifique los ndices estacionales mensuales para los tres aos de gastos de manteni-
miento del csped del edificio de apartamentos al sur de Florida. Utilice el clculo del pro-
medio mvil de 12 meses.
c) Desestacionalice la serie de tiempo.
d) Calcule la ecuacin de tendencia lineal para los datos desestacionalizados.
e) Calcule los pronsticos de tendencia desestacionalizada y despus ajuste los pronsti-
cos de tendencia usando los ndices estacionales para obtener un pronstico de los gastos
mensuales en el ao 4.
39. En el sur de California, los especialistas en el control de la contaminacin atmosfrica monito-
rean cada hora la cantidad de ozono, dixido de carbono y dixido de nitrgeno en el aire. Los
datos para esta serie de tiempo por hora presentan estacionalidad, por lo que los niveles de con-
taminacin muestran ciertos patrones segn la hora del da. Los siguientes niveles de dixido
de nitrgeno se observaron en el centro de la ciudad para 12 horas, de las 6:00 de la maana a
las 6:00 de la tarde, los das 15, 16 y 17 de julio.
Julio 15 25 28 35 50 60 60 40 35 30 25 25 20
WEB archivo Julio 16 28 30 35 48 60 65 50 40 35 25 20 20
Pollution Julio 17 35 42 45 70 72 75 60 45 40 25 25 25
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Identifique los ndices estacionales por hora para las 12 lecturas de cada da.
c) Desestacionalice la serie de tiempo.
d) Utilice Minitab o Excel para calcular la ecuacin de tendencia lineal de los datos desesta-
cionalizados.
e) Calcule los pronsticos de tendencia desestacionalizada de las 12 horas del 18 de julio y
despus ajuste el pronstico de tendencia con los ndices estacionales obtenidos en b).
40. El consumo de energa elctrica se mide en kilowatts-hora (kWh). La empresa local de ser-
vicios pblicos ofrece un programa de ahorro en el que los clientes comerciales participantes
pagan tarifas muy favorables con la condicin de que reduzcan su consumo de energa cuando
la entidad pblica se los solicite. La empresa Timko Products redujo su consumo a partir del
medioda del jueves. Para evaluar el ahorro de energa, la empresa proveedora de energa tiene
que estimar el consumo normal de energa de Timko. El periodo de reduccin abarc desde el
medioda hasta las 8:00 de la noche. Los datos sobre el consumo de energa elctrica de esta
empresa en las 72 horas anteriores son los siguientes, e incluyen los periodos (Time Period) del
lunes (Monday), martes (Tuesday), mircoles (Wednesday) y jueves (Thursday).
Resumen
En este captulo se present una introduccin a los mtodos bsicos del anlisis de series de
tiempo y pronstico. Primero se indic que el patrn subyacente en la serie de tiempo a menu-
do puede ser identificado construyendo una grfica de serie de tiempo. Se distinguen varios
tipos de patrn de datos, entre ellos un patrn horizontal, un patrn de tendencia y un patrn
840 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
estacional. Los mtodos de elaboracin de pronsticos estudiados se basan en que estos patro-
nes estn presentes en la serie de tiempo.
Se mostr cmo se utilizan los promedios mviles y el suavizamiento exponencial para
desarrollar un pronstico de una serie de tiempo con un patrn horizontal. El mtodo de prome-
dios mviles consiste en calcular el promedio de los valores de datos pasados, y despus usar
ese promedio como pronstico para el siguiente periodo. En el mtodo de suavizamiento expo-
nencial se usa un promedio ponderado de los valores pasados de la serie de tiempo para calcular
un pronstico. Estos mtodos tambin se adaptan bien cuando un patrn horizontal cambia a un
nivel diferente y se reanuda un patrn horizontal.
Un factor importante para determinar qu mtodo de elaboracin de pronsticos utilizar
involucra la exactitud del mtodo. Se estudiaron tres medidas de exactitud de los pronsticos:
el error absoluto medio (EAM), el cuadrado medio debido al error (CME), y el error porcentual
absoluto medio (EPAM). Cada una de estas medidas est diseada para determinar qu tan bien
un mtodo de elaboracin de pronsticos particular es capaz de reproducir los datos disponibles
de la serie de tiempo. Al seleccionar un mtodo que tiene la mejor exactitud de los datos ya
conocidos, se espera que aumente la probabilidad de obtener mejores pronsticos para periodos
futuros.
Para una serie de tiempo que slo tiene tendencia lineal a largo plazo, se demostr que pue-
de utilizarse la regresin simple de la serie de tiempo para hacer proyecciones de su tendencia.
Tambin se estudi cmo una extensin del suavizamiento exponencial simple, conocido como
suavizamiento exponencial lineal de Holt, se utiliza para pronosticar una serie de tiempo con
tendencia lineal a largo plazo. Para una serie de tiempo con una tendencia curvilnea o no lineal,
se demostr cmo la regresin mltiple permite ajustar los datos a una ecuacin de tendencia
cuadrtica o a una ecuacin de tendencia exponencial.
Para una serie de tiempo con un componente estacional, se demostr cmo utilizar las va-
riables ficticias en un modelo de regresin mltiple a efecto de desarrollar una ecuacin de re-
gresin estimada con efectos estacionales. Luego se ampli el mtodo de regresin para incluir
situaciones en las que la serie de tiempo contiene tanto el efecto estacional como el efecto de ten-
dencia lineal, y se mostr cmo combinar el mtodo de la variable ficticia para el manejo de la
estacionalidad con el mtodo de regresin de la serie de tiempo para el manejo de la tenden-
cia lineal.
En la ltima seccin del captulo se vio cmo la descomposicin de la serie de tiempo se
utiliza para separar o descomponer sta en sus componentes estacional y de tendencia, para
despus desestacionalizarla. Se mostr cmo calcular los ndices estacionales para un modelo
multiplicativo, cmo utilizar los ndices estacionales para desestacionalizar una serie de tiempo
y cmo utilizar el anlisis de regresin con los datos desestacionalizados para estimar el com-
ponente de tendencia. El ltimo paso en el desarrollo de un pronstico cuando existe tanto el
componente de tendencia como el estacional es utilizar los ndices estacionales para ajustar las
proyecciones de tendencia.
Glosario
Constante de suavizamiento Parmetro del modelo de suavizamiento exponencial que pro-
porciona el peso atribuido al valor ms reciente de la serie de tiempo en el clculo del valor
pronosticado.
Cuadrado medio debido al error (CME) o error cuadrtico medio Promedio de la suma de
los errores de pronstico cuadrados.
Descomposicin de una serie de tiempo Mtodo de series de tiempo que se utiliza para sepa-
rar o descomponer una serie de tiempo en componentes estacional y de tendencia.
Error absoluto medio (EAM) Promedio de los valores absolutos de los errores de pronstico.
Error de pronstico Diferencia entre el valor real de la serie de tiempo y su pronstico.
Error porcentual absoluto medio (EPAM) Promedio de los valores absolutos de los errores
de pronstico porcentuales.
Grfica de serie de tiempo Presentacin grfica de las relaciones entre el tiempo y la variable
de la serie de tiempo. El tiempo se muestra en el eje horizontal y los valores de una serie de
tiempo en el eje vertical.
Frmulas clave 841
Modelo aditivo En este modelo, el valor real de una serie de tiempo en el periodo t se obtiene
al sumar los valores de los componentes de tendencia, estacional e irregular.
Modelo multiplicativo En este modelo, el valor real de una serie de tiempo en el periodo t se
obtiene al multiplicar los valores de los componentes de tendencia, estacional y el componente
irregular.
Patrn cclico Este patrn se presenta si la grfica de una serie de tiempo muestra alternati-
vamente una secuencia de puntos por debajo y por arriba de una lnea de tendencia que tiene
una duracin de ms de un ao.
Patrn de tendencia Existe si la grfica de la serie de tiempo presenta cambios o movimien-
tos graduales hacia valores relativamente ms altos o ms bajos durante un largo periodo.
Patrn estacional Es aquel patrn que existe si la grfica de la serie de tiempo presenta un
patrn de repeticin en periodos sucesivos. stos se presentan a menudo en intervalos de un
ao, que es de donde proviene el nombre de patrn estacional.
Patrn horizontal Se obtiene cuando los datos fluctan alrededor de una media constante.
Promedios mviles Mtodo de elaboracin de pronsticos que utiliza el promedio de los
valores de los k datos ms recientes para pronosticar una serie de tiempo del periodo siguiente.
Promedios mviles ponderados Mtodo de elaboracin de pronsticos que consiste en se-
leccionar un peso diferente para los valores de los k datos ms recientes de la serie de tiempo y
luego calcular el promedio ponderado de los valores. La suma de los pesos debe ser 1.
Serie de tiempo Secuencia de observaciones sobre una variable medida en puntos sucesivos
en el tiempo o en periodos sucesivos.
Serie de tiempo desestacionalizada Serie de tiempo de la cual ha sido eliminado el efecto
estacional al dividir cada observacin de la serie de tiempo original entre el ndice estacional
correspondiente.
Serie de tiempo estacionaria Serie de tiempo cuyas propiedades estadsticas son indepen-
dientes del tiempo. Para una serie de tiempo estacionaria, el proceso de generacin de datos
tiene una media constante y la variabilidad de la serie de tiempo es constante en el tiempo.
Suavizamiento exponencial Mtodo de elaboracin de pronsticos que utiliza un promedio
ponderado de los valores pasados de la serie de tiempo como un pronstico; es un caso especial
del mtodo de promedios mviles ponderados en el que se selecciona un solo peso, el de la
observacin ms reciente.
Suavizamiento exponencial lineal Extensin del suavizamiento exponencial simple que uti-
liza dos constantes de suavizamiento para que los pronsticos puedan obtener una serie de
tiempo con una tendencia lineal.
Frmulas clave
Ft#1 ! a
(los k valores ms recientes de los datos) Y # Yt"1 # . . . # Yt "k #1
! t (18.1)
k k
Pronstico de suavizamiento exponencial
Tt ! b0 # b1t (18.4)
donde
t!1
b1 ! (18.5)
a (t " t )
n
2
t!1
Ft#k ! Lt # bt k (18.9)
Tt ! b0 # b1t # b2 t 2 (18.10)
Tt ! b0(b1) t (18.11)
Ejercicios complementarios
41. La demanda semanal (en algunos casos) de una determinada marca de detergente para lava-
vajillas automtica en una cadena de tiendas de abarrotes ubicada en Columbus, Ohio, es la
siguiente.
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice un promedio mvil de tres semanas y obtenga un pronstico para la semana 11.
c) Utilice el suavizamiento exponencial con una constante de suavizamiento de ! 0.2 para
desarrollar un pronstico sobre la semana 11.
d) Cul de los dos mtodos prefiere usted? Por qu?
42. En la tabla siguiente se presentan los porcentajes invertidos en acciones de un portafolio a lo
largo de nueve trimestres de 2007 a 2009.
Trimestre Acciones %
1o.2007 29.8
2o.2007 31.0
3o.2007 29.9
4o.2007 30.1
1o.2008 32.2
2o.2008 31.5
3o.2008 32.0
4o.2008 31.9
1o.2009 30.0
Ejercicios complementarios 843
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice el suavizamiento exponencial para pronosticar esta serie de tiempo. Considere las
constantes de suavizamiento de ! 0.2, 0.3 y 0.4. Con cul valor de la constante de
suavizamiento se obtienen los pronsticos ms exactos?
c) Cul es el pronstico del porcentaje de acciones en un portafolio tpico para el segundo
trimestre de 2009?
43. United Dairies, Inc. es el proveedor de leche de varias compaas de abarrotes en el condado de
Dade, Florida. Los directivos de la empresa desean contar con un pronstico que proporcione
la cantidad de litros de leche que se venden por semana. Los datos de ventas de las 12 semanas
anteriores son los siguientes.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice el mtodo de suavizamiento exponencial con ! 0.4 para obtener un pronstico
de la demanda en la semana 13.
44. Para evitar un cargo mensual por servicio en una cuenta corriente que devenga intereses, el
cliente debe mantener un saldo promedio diario mnimo. Se llev a cabo un estudio en 2008 de
249 bancos y casas de ahorro de las 25 principales reas metropolitanas de Estados Unidos, en
el que se mostr que es necesario mantener un saldo medio de $3 462 para evitar un cargo men-
sual por servicio. Con un cargo promedio mensual de $11.97 y una tasa de inters promedio
de slo 0.24%, los clientes con cuenta de cheques que devengan intereses no estn recibiendo
mucho valor por ofrecer al banco una lnea de crdito igual al saldo promedio mensual necesa-
rio para evitar el cargo mensual por servicio (pgina web de Bankrate, 27 de octubre de 2008).
La siguiente tabla muestra el saldo promedio mnimo de 2001 a 2008 requerido para evitar un
cargo mensual por servicio.
Ao Saldo ($)
2001 2 435
2002 2 593
2003 2 258
2004 2 087
2005 2 294
2006 2 660
2007 3 317
2008 3 462
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice Minitab o Excel para obtener una ecuacin de tendencia lineal de esta serie de
tiempo. Calcule una estimacin del saldo promedio requerido para evitar cargos mensuales
por servicio para 2009.
c) Utilizando Minitab o Excel, obtenga una ecuacin de tendencia cuadrtica de esta serie de
tiempo. Calcule un estimado del saldo promedio requerido para evitar cargos mensuales
por servicio para 2009.
d) Qu mtodo ofrece pronsticos ms precisos para los datos histricos con base en el CME?
e) Recomendara que con estos datos el pronstico para 2009 se obtuviera a partir de una
ecuacin de tendencia lineal o de una ecuacin de tendencia cuadrtica? Explique.
45. El Garden Avenue Seven vende los discos compactos (CD) de sus interpretaciones musicales.
La tabla siguiente presenta las ventas (Sales) en unidades por mes (Month) de los ltimos 18
meses. El gerente del grupo desea un mtodo preciso para pronosticar las ventas futuras.
844 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice el suavizamiento exponencial con ! 0.3, 0.4 y 0.5. Qu valor de proporciona
pronsticos ms exactos?
c) Utilice la proyeccin de tendencia para ofrecer un pronstico. Cul es el valor del CME?
d) Qu mtodo de elaboracin de pronsticos le recomendara al gerente? Por qu?
46. Mayfair Department Store se encuentra en Davenport, Iowa, y desea determinar la prdida de
ventas que registr durante los meses de julio y agosto, en los que tuvo que cerrar debido a los
daos causados por la inundacin del ro Mississippi. Los datos de ventas de enero a junio son
los siguientes.
a) Construya una grfica de serie de tiempo. Qu tipo de patrn existe en los datos?
b) Utilice el mtodo de suavizamiento exponencial lineal de Holt con ! 0.6 y ! 0.4
para pronosticar el efectivo requerido en cada uno de los prximos dos meses.
c) Utilice Minitab o Excel para obtener una ecuacin de tendencia lineal que pronostique el
efectivo requerido para cada uno de los prximos dos meses.
d) Recomendara el mtodo de suavizamiento exponencial lineal de Holt con ! 0.6 y
! 0.4, o la ecuacin de tendencia lineal a efecto de pronosticar el efectivo requerido para
cada uno de los prximos dos meses? Explique.
48. Costello Music Company ha estado en el negocio por cinco aos. Durante ese tiempo las ventas
aumentaron de 12 pianos en el primer ao a 76 en el ltimo ao. Fred Costello, propietario de la
empresa, desea obtener un pronstico de ventas de pianos para el prximo ao. Los siguientes
son los datos histricos.
Ao 1 2 3 4 5
Ventas 12 28 34 50 76
Ejercicios complementarios 845
a) Construya una grfica de series de tiempo. Qu tipo de patrn existe en los datos?
b) Desarrolle una ecuacin de tendencia lineal para la serie de tiempo. Cul es el crecimiento
promedio anual en ventas que la empresa ha registrado por ao?
c) Pronostique las ventas para los aos 6 y 7.
49. Considere el problema de Costello Music Company del ejercicio 48. Los siguientes son los
datos de las ventas por trimestre (Quarter 1, 2, 3 y 4) para 5 aos (Year), incluyendo el total de
ventas anuales (Total Yearly Sales).
Total Yearly
Year Quarter 1 Quarter 2 Quarter 3 Quarter 4 Sales
WEB archivo 1 4 2 1 5 12
PianoSales
2 6 4 4 14 28
3 10 3 5 16 34
4 12 9 7 22 50
5 18 10 13 35 76
a) Utilice las siguientes variables ficticias para obtener una ecuacin de regresin estimada
que considere los efectos estacionales y de tendencia lineal en los datos: Qtr1 ! 1 si el
trimestre es 1, 0 en caso contrario; Qtr2 ! 1 si el trimestre es 2, 0 en caso contrario, y
Qtr3 ! 1 si el trimestre es 3, 0 en caso contrario.
b) Calcule los pronsticos trimestrales para el prximo ao.
50. Consulte el problema de Costello Music Company del ejercicio 49.
a) Utilizando la descomposicin de series de tiempo, calcule los ndices estacionales para los
cuatro trimestres.
b) Cundo experimenta Costello Music el mayor efecto estacional? Parece razonable este
resultado? Explique.
51. Remtase a la serie de tiempo de la empresa Costello Music del ejercicio 49.
a) Desestacionalice los datos y utilice la serie de tiempo desestacionalizada para identificar
la tendencia.
b) Utilice los resultados del inciso a) a efecto de obtener un pronstico trimestral para el
prximo ao con base en la tendencia.
c) Utilice los ndices estacionales obtenidos en el ejercicio 50 para ajustar los pronsticos del
inciso b) con objeto de tomar en cuenta el efecto estacional.
52. Durante los ltimos siete aos, Hudson Marine ha sido un distribuidor autorizado de radios
nuticos C&D. La tabla siguiente presenta el nmero de radios que se venden por ao.
Ao 1 2 3 4 5 6 7
Cantidad vendida 35 50 75 90 105 110 130
Total Yearly
Year Quarter 1 Quarter 2 Quarter 3 Quarter 4 Sales
1 6 15 10 4 35
WEB archivo 2 10 18 15 7 50
HudsonMarine
3 14 26 23 12 75
4 19 28 25 18 90
5 22 34 28 21 105
6 24 36 30 20 110
7 28 40 35 27 130
846 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
a) Utilice las siguientes variables ficticias para obtener una ecuacin de regresin estimada
en la que se tome en cuenta cualquier estacin del ao y los efectos de tendencia lineal en
los datos: Qtr1 ! 1 si es el trimestre 1, 0 en caso contrario; Qtr2 ! 1 si es el trimestre 2,
0 en caso contrario; Qtr3 ! 1 si es el trimestre 3, 0 en caso contrario.
b) Calcule los pronsticos trimestrales para el prximo ao.
54. Consulte el problema de Hudson Marine del ejercicio 53.
a) Calcule los valores del promedio mvil centrado de esta serie de tiempo.
b) Trace una grfica de la serie de tiempo que presente tanto el promedio mvil centrado
como la serie de tiempo original. Exponga su opinin acerca de las diferencias entre la
grfica de la serie de tiempo original y la serie de tiempo con promedio mvil centrado.
c) Calcule los ndices estacionales para los cuatro trimestres.
d) Cundo experimenta Hudson Marine el mayor efecto estacional? Parece razonable este
resultado? Explique.
55. Contine con los datos de Hudson Marine del ejercicio 53.
a) Desestacionalice los datos y utilice la serie de tiempo desestacionalizada para identificar
la tendencia.
b) Utilice los resultados del inciso a) y obtenga un pronstico trimestral para el ao siguiente
con base en la tendencia.
c) Utilice los ndices estacionales obtenidos en el ejercicio 54 para ajustar los pronsticos
obtenidos en el inciso b) tomando en cuenta el efecto estacional.
Informe gerencial
Elabore un anlisis de los datos de las ventas de Vintage Restaurant. Prepare un informe para
Karen que resuma sus hallazgos, pronsticos y recomendaciones. Incluya lo siguiente.
1. Una grfica de serie de tiempo. Comente acerca del patrn principal en la serie de tiempo.
2. Un anlisis de la estacionalidad de los datos. Indique el ndice estacional para cada
mes y comente sobre las ventas mensuales en las estaciones bajas y altas. Los ndices
estacionales tienen sentido intuitivo? Comente.
3. Desestacionalice la serie de tiempo. Existe alguna tendencia en la serie de tiempo des-
estacionalizada?
4. Utilizando el mtodo de descomposicin de una serie de tiempo, pronostique las ventas
de enero a diciembre del cuarto ao.
5. Utilizando el mtodo de regresin con las variables ficticias, pronostique las ventas de
enero a diciembre del cuarto ao.
6. En el apndice de su informe proporcione tablas con el resumen de sus clculos y sus
grficas.
Suponga que en enero del cuarto ao las ventas resultan ser de $295 000. Cul fue su error de
pronstico? Si el error es grande, a Karen puede confundirle esta diferencia entre el pronstico
y el valor de las ventas reales. Qu puede hacer usted para resolver la incertidumbre del proce-
dimiento de elaboracin de pronsticos?
Caso a resolver 2 Pronstico de prdidas de ventas 847
extra relacionadas con el huracn. Si este caso se puede resolver, Carlson tiene derecho a una
indemnizacin por el exceso de ventas que hubiera ganado por encima de las ventas normales.
Informe gerencial
Redacte un informe para los directivos de Carlson Department Store que resuma sus hallazgos,
pronsticos y recomendaciones. Incluya lo siguiente:
1. Una estimacin de las ventas que la tienda habra registrado de no haberse producido el
huracn.
2. Una estimacin de las ventas que habra tenido el condado de no haberse producido
el huracn.
3. Una estimacin de la prdida de ventas de Carlson Department Store de septiembre a
diciembre.
Adems, utilice las ventas reales en las tiendas departamentales del condado desde septiembre
hasta diciembre y la estimacin del inciso 2) para argumentar a favor o en contra del exceso de
ventas relacionadas con el huracn.
Promedios mviles
Para mostrar cmo utilizar Minitab en la elaboracin de pronsticos con el mtodo de prome-
WEB archivo dios mviles, se calcular un pronstico para la serie de tiempo de la venta de gasolina de la ta-
Gasoline bla 18.1 y de la figura 18.1. Los datos de las ventas en las 12 semanas se ingresan en la columna
2 de la hoja de clculo. Los siguientes pasos se utilizan para obtener un pronstico de promedio
mvil de tres semanas para la semana 13.
Suavizamiento exponencial
Para mostrar cmo utilizar Minitab con objeto de obtener un pronstico de suavizamiento ex-
WEB archivo ponencial, se recurrir nuevamente a los datos presentados en la tabla 18.1 y en la figura 18.1
Gasoline a efecto de obtener un pronstico de las ventas para la semana 13 de la serie de tiempo de las
ventas de gasolina. Los datos de las ventas para las 12 semanas se introducen en la columna 2
de la hoja de clculo. Los siguientes pasos se utilizan para obtener un pronstico sobre la sema-
na 13 mediante una constante de suavizamiento de ! 0.2.
Proyeccin de tendencia
Para mostrar cmo Minitab permite obtener pronsticos mediante la proyeccin de tendencias,
WEB archivo se emplea un pronstico para la serie de tiempo de las ventas de bicicletas de la tabla 18.3 y de
Bicycle la figura 18.3. El nmero de aos se introduce en la columna 1 y los datos de las ventas en la
columna 2 de la hoja de clculo. Con los pasos siguientes se obtiene un pronstico para el ao
11 con la proyeccin de tendencia.
* El valor de MSD que proporciona Minitab no es el mismo que el valor del CME que aparece en la seccin 18.3. Minitab
utiliza 17 como pronstico para la semana 1, as que para calcular el MSD utiliza los datos de las 12 semanas. En la
seccin 18.3 se calcula el CME utilizando slo los datos para la semana 2 a 12 porque no se contaba con los valores del
pasado que permitiera obtener un pronstico para la semana 1.
850 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Promedios mviles
En la aplicacin de Excel para obtener pronsticos mediante el mtodo de promedios mviles
WEB archivo se utiliza un pronstico para la serie de tiempo de las ventas de gasolina de la tabla 18.1 y de la
Gasoline figura 18.1. Los datos de las ventas para las 12 semanas se ingresan en las filas de la 2 a la 13
de la columna B de la hoja de clculo. Los siguientes pasos pueden utilizarse para elaborar un
promedio mvil de tres semanas.
Paso 1. Haga clic en Data de la barra de herramientas.
Paso 2. En el grupo Analysis, hag clic en Data Analysis.
Paso 3. Elija Moving Average de la lista de Analysis Tools.
Haga clic en Ok.
Paso 4. Cuando el cuadro de dilogo Moving Average aparezca:
Introduzca B2:B13 en el cuadro Input Range.
Ingrese 3 en el cuadro Interval.
Introduzca C2 en el cuadro Output Range.
Haga clic en OK.
Los promedios mviles de tres semanas aparecern en la columna C de la hoja de clculo. El
pronstico para la semana 4 aparece al lado del valor de las ventas para la semana 3, y as suce-
sivamente. Los pronsticos para el periodo de otra longitud se calculan fcilmente introducien-
do un valor diferente en el cuadro Interval.
Suavizamiento exponencial
Para el uso de Excel en el suavizamiento exponencial, nuevamente se desarrolla un pronstico
WEB archivo para la serie de tiempo de las ventas de gasolina de la tabla 18.1 y de la figura 18.1. Los datos
Gasoline de las ventas de las 12 semanas se introducen en las filas 2 a la 13 de la hoja de clculo de la
columna B. Los siguientes pasos se utilizan para elaborar pronsticos con una constante de
suavizamiento de ! 0.2.
Paso 1. Haga clic en Data de la barra de herramientas.
Paso 2. En el grupo Analysis, haga clic en Data Analysis.
Paso 3. Elija Exponential Smoothing de la lista de Analysis Tools.
Haga clic en OK.
Paso 4. Cuando el cuadro de dilogo Exponential Smoothing aparezca:
Introduzca B2:B13 en el cuadro Input Range.
Introduzca 0.8 en el cuadro Damping factor.
Los resultados difieren ligeramente de los que se muestran en la tabla 18.12 debido a que Minitab calcula los ndices
estacionales con la mediana de los valores estacional-irregulares.
852 Captulo 18 Anlisis de series de tiempo y elaboracin de pronsticos
Proyeccin de tendencia
Para mostrar cmo se utiliza Excel para la proyeccin de tendencias, se utilizarn los prons-
WEB archivo ticos de la serie de tiempo de las ventas de bicicletas de la tabla 18.3 y de la figura 18.3. Los da-
Bicycle tos, con sus correspondientes etiquetas en la fila 1, se ingresan en las filas 1 a la 11 de la columna
A y B de la hoja de clculo. Los siguientes pasos pueden utilizarse para obtener un pronstico
para el ao 11 con la proyeccin de tendencias.
Paso 1. Seleccione una celda vaca en la hoja de clculo.
Paso 2. Seleccione la barra de herramientas Formulas.
Paso 3. En el grupo Function Library, haga clic en Insert Function.
Paso 4. Cuando el cuadro de dilogo Insert Function aparezca:
Elija Statistical en el cuadro Or select a category box.
Elija Forecast en el cuadro Select a function.
Haga clic en OK.
Paso 5. Cuando el cuadro de dilogo de Forecast Arguments aparezca:
Introduzca 11 en el cuadro x.
Introduzca B2:B11 en el cuadro Known ys.
Introduzca A2:A11 en el cuadro Known xs.
Haga clic en OK.
En este caso el pronstico para el ao 11 es 32.5 y aparecer en la celda elegida en el paso 1.
Promedios mviles
Para mostrar cmo StatTools se puede utilizar para obtener pronsticos mediante el mtodo de
WEB archivo promedios mviles se emplear un pronstico para la serie de tiempo de las ventas de gasolina
Gasoline de la tabla 18.1 y de la figura 18.1. Inicie usando el Data Set Manager para crear una base de da-
tos de StatTools para estos datos utilizando el procedimiento descrito en el apndice del captu-
lo 1. Con los pasos siguientes se obtendr el pronstico del promedio mvil de tres semanas
para la semana 13.
Paso 1. Haga clic en la barra de herramientas StatTools.
Paso 2. En Analysis Group, haga clic en Time Series and Forecasting.
Paso 3. Elija la opcin Forecast.
Paso 4. Cuando el cuadro de dilogo StatTools-Forecast aparezca:
En la seccin de Variables seleccione Sales.
Elija Forecast Settings.
En la seccin Method, seleccione Moving Average.
En la seccin Parameters, introduzca 3 en el cuadro Span.
Seleccione Time Scale.
Apndice 18.3 Elaboracin de pronsticos con StatTools 853
Suavizamiento exponencial
Para mostrar cmo se utiliza StatTools en la elaboracin de un pronstico de suavizamiento
WEB archivo exponencial, se emplear nuevamente un pronstico para las ventas de la semana 13 de la serie
Gasoline de tiempo de las ventas de gasolina mostrado en la tabla 18.1 y en la figura 18.1. Use el Data
Set Manager para crear una base de datos de StatTools mediante el procedimiento descrito en
el apndice del captulo 1. Para obtener un pronstico con una constante de suavizamiento de
! 0.2 se efectan los siguientes pasos.
Paso 1. Haga clic en la barra de herramientas StatTools.
Paso 2. En Analysis Group, haga clic en Time Series and Forecasting.
Paso 3. Elija la opcin Forecast.
Paso 4. Cuando el cuadro de dilogo de StatTools-Forecast aparezca:
Seleccione Sales en la seccin Variables.
Elija Forecast Settings.
Seleccione Exponential Smoothing (Simple) en la seccin Method.
Elimine la marca de verificacin del cuadro Optimize Parameters.
Introduzca 0.2 en el cuadro Level (a) en la seccin Parameters.
Seleccione la barra de Time Scale.
Elija None en la seccin Seasonal Period.
Seleccione Integer en la seccin Label Style.
Haga clic en OK.
El siguiente resultado aparecer en una nueva hoja de clculo: las tres medidas de exactitud de
los pronsticos, las grficas de series de tiempo de las ventas de bicicletas mostrando los datos
originales, los pronsticos y el error de pronstico, as como una tabla que muestre los prons-
ticos y los errores de pronstico. Observe que StatTools utiliza el trmino Mean Abs Err para
identificar el valor del EAM, Root Mean Sq Err para identificar la raz cuadrada del valor de
CME y Mean Abs Per% Err para el valor del EPAM.
El siguiente resultado se mostrar en una nueva hoja de clculo: las tres medidas de exactitud
de los pronsticos; las grficas de series de tiempo que muestran los datos originales, los pro-
nsticos y los errores de pronstico, y una tabla con los pronsticos y los errores de pronstico.
Observe que StatTools utiliza el trmino Mean Abs Err para denotar el valor del EAM, Root
Mean Sq Err para identificar la raz cuadrada del CME y Mean Abs Per% Err para identificar
el valor del EPAM. El resultado de StatTools difiere ligeramente de los resultados mostrados en
la seccin 18.4 debido a que este programa utiliza un mtodo diferente para calcular la estima-
cin de la pendiente en el periodo 1. Con bases de datos ms grandes, la eleccin de los valores
iniciales no es crtica.
CAPTULO 19
Mtodos no paramtricos
CONTENIDO 19.2 PRUEBA DE RANGOS
ESTADSTICA EN LA PRCTICA: CON SIGNO DE WILCOXON
WEST SHELL REALTORS 19.3 PRUEBA DE
19.1 LA PRUEBA DE SIGNOS MANN-WHITNEY-WILCOXON
Prueba de hiptesis acerca 19.4 PRUEBA DE
de una mediana poblacional KRUSKAL-WALLIS
Prueba de hiptesis con muestras 19.5 CORRELACIN DE RANGOS
pareadas
856 Captulo 19 Mtodos no paramtricos
ESTADSTICA en LA PRCTICA
WEST SHELL REALTORS*
CINCINNATI, OHIO
West Shell Realtors fue fundada en 1958 con una oficina
y un equipo de ventas de tres personas. En 1964 la em-
presa comenz un programa de expansin a largo plazo
durante el cual casi cada ao abri nuevas oficinas. Con
los aos, West Shell creci hasta convertirse en uno de los
mayores corredores de bienes races de Greater Cincinnati,
y ahora cuenta con oficinas en el sudeste de Ohio, el sudes-
te de Indiana y el norte de Kentucky.
A compaas de bienes races como West Shell el an-
lisis estadstico les sirve para monitorear el curso de las
ventas. Cada mes se presenta un informe de cada una de
las oficinas de West Shell, as como del total de la empre-
sa. Para mantener informados a los gerentes de las distin-
Para ser competitivo, WestShell utiliza el anlisis estadstico
tas oficinas y a los altos directivos acerca del progreso y los
en las ventas de casas. Cortesa de Coldwell Banker West
problemas de la organizacin, son esenciales el resumen
Shell.
estadstico sobre la cantidad total de ventas, el nmero de
unidades vendidas y el precio medio de venta por unidad.
Adems de los resmenes mensuales sobre el curso de
las operaciones, la empresa utiliza consideraciones estads- y Roselawn. Al comparar las dos zonas se consider una
ticas para guiar sus planes y estrategias corporativas. West variedad de factores, incluidos los precios de las casas.
Shell ha puesto en marcha una estrategia de expansin pla- Se tomaron muestras de 25 ventas en el rea de Clifton
nificada. Cada vez que, debido a este plan de expansin, se y 18 ventas en el rea de Roselawn, y fue elegida la suma de
quiere abrir una nueva oficina de ventas, la empresa debe rangos como una prueba estadstica adecuada para las dife-
abordar la cuestin de su ubicacin. Los precios de venta, rencias en el patrn de precios de venta. En el nivel de sig-
las tasas de facturacin total en dlares y los volmenes de nificancia de 0.05, la prueba de Mann-Whitney-Wilcoxon
ventas pronosticados son los tipos de datos utilizados para no permiti rechazar la hiptesis nula de que las dos pobla-
evaluar y comparar lugares alternos. ciones de precios de venta eran idnticas. Por tanto, West
En una ocasin West Shell identific dos suburbios Shell se enfoc en otros criterios diferentes de los precios
como primeros candidatos para una nueva oficina: Clifton de venta de las casas en el proceso de seleccin del lugar.
En este captulo se mostrar cmo aplicar las pruebas
estadsticas no paramtricas como la de Mann-Whitney-
* Los autores agradecen a Rodney Fightmaster, de West Shell Realtors, Wilcoxon. Tambin se discutir la interpretacin adecuada
por proporcionar este artculo para Estadstica en la prctica. de dichas pruebas.
A los mtodos estadsticos de inferencia presentados previamente en este libro se les conoce
como mtodos paramtricos. stos comienzan con un supuesto sobre la distribucin de pro-
babilidad de la poblacin, que a menudo establece que la poblacin tiene una distribucin nor-
mal. Con base en este supuesto, los expertos en estadstica son capaces de obtener la distribucin
de muestreo que permite hacer inferencias sobre uno o ms parmetros de la poblacin, como
la media poblacional o la desviacin estndar poblacional . Por ejemplo, en el captulo 9 se
present un mtodo para hacer inferencias sobre la media poblacional basado en el supuesto
de que la poblacin tena un distribucin de probabilidad normal con parmetros desconocidos
y . Al utilizar la desviacin estndar muestral s para estimar la desviacin estndar pobla-
19.1 La prueba de signos 857
cional , el estadstico de prueba para hacer una inferencia sobre la media poblacional ha de-
mostrado tener una distribucin t. Como resultado, la distribucin t se utiliz para calcular los
intervalos de confianza y realizar pruebas de hiptesis sobre una media poblacional normal-
mente distribuida.
En este captulo se presentan mtodos no paramtricos para realizar inferencias sobre
la poblacin sin necesidad de un supuesto sobre la forma especfica de la distribucin de pro-
babilidad poblacional. Por esta razn, estos mtodos no paramtricos se llaman mtodos de
distribucin libre.
La mayora de los mtodos estadsticos conocidos como mtodos paramtricos requieren
datos cuantitativos, mientras que los no paramtricos permiten inferencias basadas en cualquier
tipo de datos cualitativos o cuantitativos. Sin embargo, los clculos en los mtodos no param-
tricos se realizan generalmente con datos categricos. As, siempre que los datos sean cuanti-
tativos, se transformarn en categricos con el fin de realizar la prueba no paramtrica. En la
primera seccin del captulo se muestra cmo la distribucin binomial utiliza dos tipos de datos
para hacer una inferencia sobre la media poblacional. En las siguientes tres secciones se des-
cribe cmo los datos ordenados por rango se utilizan en pruebas no paramtricas acerca de dos
o ms poblaciones. En la seccin final se manejan datos ordenados por rango para calcular la
correlacin de rangos de dos variables.
Los datos de las ventas de una semana en 10 tiendas de Lawer seleccionadas al azar se presentan
en la tabla 19.1.
858 Captulo 19 Mtodos no paramtricos
TABLA 19.1 Ventas de una semana de papas fritas Cape May de 10 tiendas de Lawler Grocery
Nmero de tienda Ventas semanales ($) Nmero de tienda Ventas semanales ($)
56 485 63 474
19 562 39 662
36 415 84 380
128 860 102 515
12 426 44 721
Al realizar la prueba de signos se compara cada observacin muestral con el valor hipot-
tico de la mediana poblacional. Si la observacin es mayor que el valor hipottico, se anota un
signo #. Si la observacin es menor que el valor hipottico, se anota un signo ". Si una
Las observaciones igual al observacin es exactamente igual al valor de la hiptesis, se elimina de la muestra y se proce-
valor hipottico se descartan de a analizar la muestra de menor tamao utilizando slo las observaciones en las que se ha
y el anlisis procede con las
anotado el signo positivo o el signo negativo. Esta conversin de los datos muestrales en un
observaciones que tengan un
signo # o un signo ". signo positivo o un signo negativo es el que le da al mtodo no paramtrico su nombre: la prueba
de signos.
Considere los datos muestrales de la tabla 19.1. La primera observacin, 485, es mayor que
la mediana hipottica de 450; se registra un signo positivo. La segunda observacin, 562, es
mayor que la mediana hipottica de 450; se anota un signo ms. Al continuar con las 10 obser-
vaciones, la muestra de la tabla 19.2 presenta los signos correspondientes. Observe que hay 7
signos positivos y tres signos negativos.
La asignacin de los signos ha hecho de la situacin una aplicacin de distribucin bino-
mial. El tamao de la muestra n ! 10 es el nmero de eventos. Existen dos posibles resultados
por evento, un signo positivo o un signo negativo, y los eventos son independientes. Sea p la
probabilidad de un signo positivo. Si la mediana de la poblacin es 450, p sera igual a 0.50,
ya que debera haber 50% de signos positivos y 50% de signos negativos en la poblacin. Por
tanto, en trminos de probabilidad binomial p, las hiptesis de la prueba de signos sobre la
mediana de la poblacin
H0: p ! 0.50
Ha: p % 0.50
TABLA 19.2 Datos muestrales para la prueba de signos de las ventas de Lawler sobre la mediana
de la poblacin
TABLA 19.3 Si H0 no puede ser rechazada, no se concluir que p es diferente de 0.50 y, por tanto, no es
Probabilidades posible que la mediana de la poblacin sea diferente de 450. Sin embargo, si H0 es rechazada,
binomiales con se concluye que p no es igual a 0.50 y, por ende, la mediana de la poblacin no es igual a 450.
n ! 10 y p ! 0.50 Con n ! 10 tiendas o eventos y p ! 0.50, se utiliza la tabla 5 del apndice B para obtener
Nmero
las probabilidades binomiales del nmero de signos positivos bajo el supuesto de que H0 es ver-
de signos dadera. Estas probabilidades se presentan en la tabla 19.3 y en la figura 19.1, las cuales muestran
positivos Probabilidad una representacin grfica de esta distribucin binomial.
0 0.0010 Procederemos a demostrar que la distribucin binomial se utiliza para probar la hiptesis
1 0.0098
2 0.0439
acerca de la mediana poblacional. Se utilizar 0.10 como nivel de significancia para la prueba.
3 0.1172 Puesto que el nmero observado de signos positivos para los datos muestrales, 7, est en la parte
4 0.2051 superior de la distribucin binomial, comenzamos por calcular la probabilidad de obtener 7 o
5 0.2461
6 0.2051
ms signos positivos. sta es la probabilidad de obtener 7, 8, 9 o 10 signos positivos. La suma
7 0.1172 de estas probabilidades, que se muestra en la tabla 19.3, es 0.1172 # 0.0439 # 0.0098 #
8 0.0439 0.0010 ! 0.1719. Puesto que se est utilizando una prueba de hiptesis de dos colas, esta pro-
9 0.0098
10 0.0010
babilidad en la cola superior se duplica para obtener el valor-p ! 2(0.1719) ! 0.3438. Con un
valor-p & , H0 no puede ser rechazada. En trminos de la probabilidad binomial p, H0: p !
0.50 no es rechazada y, por tanto, tampoco la hiptesis de que la mediana de la poblacin es
En la tabla 5 del apndice
B se proporcionan $450.
probabilidades binomiales En este ejemplo, la prueba de hiptesis acerca de la mediana de la poblacin se formul
cuando el tamao de la como una prueba de dos colas. Sin embargo, las pruebas de signo de una cola acerca de la media-
muestra es menor o igual na de la poblacin tambin son posibles. Por ejemplo, podramos haber formulado la hiptesis
que 20. Se puede usar Excel
como una prueba de cola superior, de modo que las hiptesis nula y alternativa se escribiran
o Minitab para encontrar las
probabilidades binomiales de la siguiente manera:
para cualquier tamao de
muestra. H0: mediana ' 450
Ha: mediana & 450
FIGURA 19.1 Distribucin de muestreo binomial para el nmero de signos positivos cuando
n ! 10 y p ! 0.50
0.30
0.25
0.20
Probabilidad
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9 10
Nmero de signos positivos
860 Captulo 19 Mtodos no paramtricos
La aplicacin que se acaba de describir utiliza la distribucin binomial con p ! 0.50. Con
las probabilidades binomiales indicadas en la tabla 5 del apndice B se calcula el valor-p cuando
el tamao de la muestra es de 20 o menos. Si el tamao de la muestra es ms grande, se utiliza
la distribucin normal como aproximacin de la distribucin binomial para calcular el valor-p,
lo que hace que los clculos sean ms rpidos y fciles. Una aplicacin para una muestra grande
de la prueba de signos se ilustra en el siguiente ejemplo.
Hace un ao, el precio promedio de una casa nueva era de $236 000. Sin embargo, una cada
reciente en la economa oblig a las compaas de bienes races a utilizar datos muestrales de las
ventas recientes inmobiliarias para determinar si la mediana poblacional del precio de una casa
nueva es menor hoy que hace un ao. La prueba de hiptesis sobre la mediana poblacional del
precio de una casa nueva es la siguiente.
Se utilizar 0.05 como nivel de significancia para llevar a cabo esta prueba.
WEB archivo La muestra aleatoria de las ventas recientes de 61 casas revel que 22 fueron vendidas en
ms de $236 000, 38 en menos de $236 000, y slo una casa en $236 000. Despus de eliminar
HomeSales la casa que se vendi en el precio mediano hipottico de $236 000, la prueba de signos prosigue
con 22 signos positivos, 38 signos negativos y una muestra de 60 casas.
La hiptesis nula de que la mediana poblacional es mayor o igual que $236 000 se expresa
mediante la hiptesis de distribucin binomial H0: p ( 0.50. Si H0 fuera verdadera como igual-
dad, se esperara 0.50(60) ! 30 casas con signo positivos. El resultado muestral que presenta
22 signos positivos est en la cola inferior de la distribucin binomial. Por tanto, el valor-p es la
probabilidad de tener 22 o menos signos positivos cuando p ! 0.50. Si bien es posible calcular
las probabilidades binomiales exactas para 0, 1, 2, . . . al 22, as como la suma de estas probabi-
lidades, para hacer que este clculo sea ms fcil se utilizar la aproximacin a la distribucin
normal de la distribucin binomial. Para esta aproximacin, la media y la desviacin estndar
de la distribucin normal son las siguientes.
! 0.50n ! 0.50(60) ! 30
! $0.25n ! $0.25(60) ! 3.873
FIGURA 19.2 Aproximacin de la distribucin normal del valor-p para la prueba de signos
acerca de la mediana del precio de las casas nuevas
! 3.873
valor-p
x
22.5 30
22.5 # 30
Valor-p ! P(x " 22.5) ! P z " ! P(z " #1.94)
3.873
Utilizando las reas de la tabla para una distribucin de probabilidad normal, se observa que
con la probabilidad acumulada para z ! #1.94 obtenemos el valor-p ! 0.0262. Con 0.0262 $
0.05, rechazamos la hiptesis nula y se concluye que la mediana del precio de una casa nueva
es menor que la mediana del precio de $236 000 de hace un ao.
NOTAS Y COMENTARIOS
1. Los ejemplos que ilustran una prueba de hiptesis tribucin de muestreo binomial para la prueba de
acerca de una mediana poblacional involucran da- signos. Sin embargo, los clculos son bastante
tos de ventas semanales y de precios de casas. Las complejos y rara vez se hacen a mano. Paquetes
distribuciones de probabilidad para este tipo de estadsticos como Minitab se pueden utilizar para
variables no suelen ser simtricas, y a menudo la obtener un intervalo de confianza de la mediana
mayora est sesgada a la derecha. En dichos casos, poblacional. Este procedimiento de Minitab se
la mediana de la poblacin, ms que la media po- describe en el apndice 19.1. Para el ejemplo de
blacional, se convierte en una medida preferida de los precios de las casas manejado en esta seccin,
tendencia central. En general, cuando la poblacin con Minitab se obtiene el intervalo de confianza
no es simtrica, la prueba de signos no paramtrica de 95% para el precio mediano de una casa nueva,
para la mediana poblacional es con frecuencia la $183 000 a $231 000.
prueba estadstica ms apropiada.
2. Para calcular una estimacin del intervalo de con-
fianza de la mediana poblacional se utiliza la dis-
862 Captulo 19 Mtodos no paramtricos
H0: p ! 0.50
Ha: p % 0.50
Si H0 no puede ser rechazada, no podemos concluir que existe una diferencia en la preferencia
por las dos marcas. Sin embargo, si H0 es rechazada, concluimos que las preferencias del con-
sumidor difieren para las dos marcas. Se utilizar un nivel de significancia de 0.05 para esta
prueba de hiptesis.
Se efectuar la prueba de signos exactamente como se hizo antes en esta seccin. La dis-
tribucin de muestreo para el nmero de signos positivos es una distribucin binomial con p !
0.50 y n ! 12. En la tabla 5 del apndice B obtenemos las probabilidades binomiales para el
nmero de signos positivos, como se muestra en la tabla 19.5. Bajo el supuesto de que H0 es ver-
dadera, se esperara que 0.50n ! 0.50(12) ! 6 signos positivos. Los resultados estn en la cola
TABLA 19.5 inferior de la distribucin binomial con slo dos signos positivos en la muestra. Para calcular el
Probabilidades valor-p de esta prueba de dos colas, primero se determina la probabilidad de 2 o menos signos
binomiales con positivos y luego se duplica este valor. Usando las probabilidades binomiales de 0, 1 y 2 mos-
n ! 12 y p ! 0.50 tradas en la tabla 19.5, el valor-p es 2(0.0002 & 0.0029 & 0.0161) & 0.0384. Con 0.0384 $
Nmero de 0.05, H0 es rechazada. La prueba demuestra que las preferencias del consumidor difieren sig-
de signos nificativamente para las dos marcas de jugo de naranja. A Sun Coast Farms se le debe notificar
positivos Probabilidad este resultado y concluir que el producto competidor, Tropical Orange, es el ms preferido. Sun
0 0.0002 Coast Farms puede entonces formular una estrategia para solucionar este problema.
1 0.0029
2 0.0161
Al igual que en otros usos de la prueba de signos, las pruebas de una cola se pueden utili-
3 0.0537 zar dependiendo de la aplicacin. Adems, como el tamao de la muestra llega a ser grande, la
4 0.1208 aproximacin a la distribucin normal de la distribucin binomial facilitar los clculos, como
5 0.1934
6 0.2256
se mostr antes en esta seccin. Mientras que la prueba de signos de Sun Coast Farms para mues-
7 0.1934 tras pareadas utiliza datos de preferencia categrica, tambin se puede aplicar la prueba de
8 0.1208 signos para muestras pareadas con datos cuantitativos. Esto sera particularmente til si las di-
9 0.0537
10 0.0161
ferencias idnticas no se distribuyen normalmente y son sesgadas. En este caso, a la diferencia
11 0.0029 positiva se le asigna un signo positivo y a la diferencia negativa un signo negativo, mientras que
12 0.0002 la diferencia de cero es descartada de la muestra. Los clculos de la prueba de signos se realiza
como ya se ha explicado.
Ejercicios
Mtodos
AUTO evaluacin 1. Se realizar la siguiente prueba de hiptesis.
Aplicaciones
3. La mediana del nmero de trabajadores de medio tiempo en restaurantes de comida rpida
de una determinada ciudad fue 18 el ao pasado. Las autoridades municipales piensan que la
contratacin de empleados de medio tiempo puede estar en aumento. En una muestra de nueve
restaurantes de comida rpida se determin que en siete se emplea a ms de 18 trabajadores; en
otro exactamente a 18, y en un restaurante a menos de 18 trabajadores de medio tiempo. Se
puede concluir que la mediana de nmero de trabajadores contratados de medio tiempo se ha
incrementado? Realice la prueba con ! 0.05.
4. Los activos netos de los 50 fondos de inversin en acciones ms grandes muestran una mediana
de $15 000 millones (The Wall Street Journal, 2 de marzo de 2009). La siguiente es una mues-
tra de 10 de los 50 fondos de inversin de bonos ms grandes.
Utilizando la mediana, se puede concluir que los fondos de inversin en bonos son menores y
tienen menos activos netos que los fondos de inversin en acciones? Utilice ! 0.05.
a) Cules son las hiptesis para esta prueba?
b) Cul es el valor-p? Qu concluye?
5. El ingreso mediano anual de suscriptores de la revista Shutterbug es de $75 000 (sitio web de
Home Theater, 18 de agosto de 2008). Una muestra de 300 suscriptores de la revista Popular
Photography & Imaging determin que 165 de ellos tenan ingresos anuales de ms de $75 000,
mientras que 135 tenan ingresos menores de $75 000. Se puede concluir que el ingreso me-
diano anual de los suscriptores de Popular Photography & Imaging difiere del ingreso mediano
anual de los suscriptores de Shutterbug? Utilice ! 0.05.
6. El ingreso mediano anual de las familias que viven en Estados Unidos es de $56 200 (The New
WEB archivo York Times Almanac, 2008). Se presentan los ingresos anuales en miles de dlares para una
ChicagoIncome muestra de 50 familias que viven en Chicago, Illinois. Utilice los datos de la muestra para ver
si se puede concluir que las familias que viven en Chicago tienen un ingreso mediano anual de
ms de $56 200. Utilice ! 0.05. Cul es su conclusin?
7. Los splits o particin de acciones son benficos para los accionistas? SNL Financial estudi
durante un periodo de 18 meses el split de acciones en el sector bancario. En una muestra de 20
splits, 14 incrementaron el valor de la inversin, 4 lo disminuyeron y 2 no tuvieron cambios.
Lleve a cabo una prueba de signos para determinar si se puede concluir que el split es benfico
para los titulares de acciones de los bancos.
a) Cules son las hiptesis nula y alternativa?
b) Cul es su conclusin utilizando ! 0.05?
8. Una encuesta realizada por el Pew Research Center pregunt a los adultos si el lugar ideal
para vivir sera uno con un ritmo de vida ms acelerado o uno con un ritmo de vida ms lento
(USA Today, 13 de febrero de 2009). Una muestra preliminar de 16 encuestados mostr que
cuatro prefieren un ritmo de vida ms rpido, 11 prefieren un lugar con un ritmo de vida ms
lento y uno dijo que no le importaba.
a) Estos datos son suficientes para concluir que existe una diferencia entre las preferencias
por un ritmo de vida ms rpido o por un ritmo de vida ms lento? Utilice ! 0.05. Cul
es su conclusin?
b) Tomando en cuenta la muestra completa de los 16 encuestados, cul es el porcentaje de
las personas a las que les gustara tener un ritmo de vida ms rpido? Cul es el porcentaje
de los que les gustara un ritmo ms lento? Qu recomendacin tiene para el estudio?
9. En una encuesta realizada durante la recesin de 2008 se formul una serie de preguntas a
600 adultos sobre el estado de la economa y el futuro de sus hijos. Una pregunta fue: Espe-
ra que sus hijos tengan una vida mejor de la que usted ha tenido, una vida peor, o una vida igual
que la suya?. De los encuestados, 242 respondieron que una vida mejor, 310 una vida peor y
48 dijo que una vida igual a la suya. Utilice la prueba de signos y ! 0.05 para determinar si
existe una diferencia entre el nmero de adultos que siente que sus hijos tendrn una vida mejor
en comparacin con una vida peor. Cul es su conclusin?
19.2 Prueba de rangos con signo de Wilcoxon 865
10. Nielsen Media Research estableci que American Idol y Dancing with the Stars son los dos
programas de televisin con el nivel de audiencia mayor en el horario estelar (USA Today, 14
de abril de 2008). En un estudio local sobre el programa de televisin preferido, se le pidi a
750 personas que indicaran cul era su favorito en el horario de mayor audiencia: 330 eligieron
American Idol, 270 Dancing with the Stars y 150 otro programa. Utilice 0.05 como nivel de
significancia para probar la hiptesis de que no hay diferencia en la preferencia por American
Idol y Dancing with the Stars. Cul es su conclusin?
11. La competencia en el mercado de las computadoras personales es intensa. Una muestra seal
que de 450 compras de computadoras, 202 fueron de la marca A, 175 de la marca B y 73 de
otras marcas. Utilice 0.05 como nivel de significancia para probar si la hiptesis nula de la
marca A y de la marca B tienen la misma participacin en el mercado de las computadoras
personales. Cul es su conclusin?
Mtodo
Trabajador A B Diferencia
1 10.2 9.5 0.7
2 9.6 9.8 #0.2
3 9.2 8.8 0.4
4 10.6 10.1 0.5
5 9.9 10.3 #0.4
6 10.2 9.3 0.9
7 10.6 10.5 0.1
8 10.0 10.0 0.0
9 11.2 10.6 0.6
10 10.7 10.2 0.5
11 10.6 9.8 0.8
866 Captulo 19 Mtodos no paramtricos
tiempo que se requiere para realizar la tarea? Si se asume que las diferencias tienen una distri-
bucin simtrica, pero no necesariamente una distribucin normal, se aplica la prueba de rangos
con signo de Wilcoxon.
En particular, se utilizar la prueba de rangos con signo de Wilcoxon para la diferencia
Los ejemplos en esta seccin entre la mediana del tiempo de realizacin de la tarea para los dos mtodos de produccin. Las
parten del punto de vista hiptesis son las siguientes.
de que las dos poblaciones
tienen la misma forma, y
si difieren, es slo en el H0: mediana para el mtodo A # mediana para el mtodo B ! 0
lugar. Esto permite que las Ha: mediana para el mtodo A # mediana para el mtodo B % 0
hiptesis para la prueba
de rangos con signo de
Wilcoxon se expresen en Si H0 no es rechazada, no podremos concluir que las medianas de los tiempos de realizacin de
trminos de las medianas la tarea son diferentes. Sin embargo, si H0 es rechazada, concluiremos que las medianas de los
de la poblacin.
tiempos de realizacin de la tarea son diferentes. Se utilizar 0.05 como nivel de significancia
para la prueba.
El primer paso en la prueba de rangos con signo de Wilcoxon es descartar la diferencia de
cero para el trabajador 8 y luego calcular el valor absoluto de la diferencia para los 10 trabaja-
Las diferencias de 0 se
descartan y el anlisis dores restantes, como se muestra en la columna 3 de la tabla 19.7. A continuacin se clasificarn
contina con el tamao de esas diferencias absolutas de menor a mayor, como se observa en la columna 4. A la diferencia
muestra ms pequeo que absoluta ms pequea, que es de 0.1 para el trabajador 7, se le asigna el rango 1. A la segunda
involucra las diferencias menor diferencia absoluta de 0.2, obtenida para el trabajador 2, se le asigna el rango 2. Esta cla-
distintas de cero.
sificacin de las diferencias absolutas contina con la diferencia absoluta mayor de 0.9 para el
trabajador 6, al que se le asigna el rango 10. A las diferencias absolutas iguales de 0.4 para los tra-
bajadores 3 y 5 se les asigna el rango promedio de 3.5. Del mismo modo, a las diferencias abso-
La igualdad entre las
diferencias absolutas lutas iguales de 0.5 para los trabajadores 4 y 10 se les asigna el rango promedio de 5.5.
se asigna al promedio Una vez que los rangos de las diferencias absolutas se han determinado, a cada rango se le
de sus rangos. especifica el signo de la diferencia original de los trabajadores. Los rangos de signo negativo se
colocan en la columna 5 y los de signo positivo en la columna 6 (vea la tabla 19.7). Por ejemplo,
la diferencia para el trabajador 1 fue positiva de 0.7 (vea la columna 2) y el rango de la diferencia
absoluta fue 8 (vea la columna 4). As, el rango del trabajador 1 se muestra con signo positivo
en la columna 6. La diferencia para el trabajador 2 fue un negativo 0.2, que se muestra como
un rango de signo negativo #2 en la columna 5. Al continuar con este proceso se generan los
rangos de signos positivo y negativo como se muestran en la tabla 19.7.
TABLA 19.7 Rangos de las diferencias absolutas y rangos con signo para el tiempo necesario
para realizar una tarea de produccin
Sea T & la suma de los rangos con signo positivo, que es T & ! 49.5. Para efectuar la prueba
de rangos con signo de Wilcoxon se usar T & como el estadstico de prueba. Si las medianas de
las dos poblaciones son iguales y el nmero de pares es 10 o ms, la distribucin de muestreo
de T & se puede aproximar mediante una distribucin normal de la siguiente manera.
n(n & 1)
Media: T & ! (19.3)
4
n(n & 1)(2n & 1)
Desviacin estndar: T & ! (19.4)
24
FIGURA 19.3 Distribucin de muestreo de T & para el ejemplo de tiempo de realizacin de una
tarea de produccin
Distribucin de muestreo
de T &
T & ! 9.8107
T&
27.5
868 Captulo 19 Mtodos no paramtricos
aproxima por el intervalo de probabilidad normal, 49 a 50, y la probabilidad de que T & ' 49.5
se aproxima por:
49 # 27.5
P(T & ' 49.5) ! P z ' ! P(z ' 2.19)
9.8107
Utilizando la tabla de distribucin normal estndar y z ! 2.19, se observa que el valor-p de dos
colas ! 2(1 # 0.9857) ! 0.0286. Con el valor-p " 0.05, H0 es rechazada, y se concluye que
las medianas del tiempo de realizacin de la tarea para los dos mtodos de produccin no son
iguales. Con T & en la cola superior de la distribucin de muestreo, se observa que el mtodo A
toma mayor tiempo de realizacin. Es de esperar que la gerencia concluya que B es el mtodo
de produccin ms rpido o el ms apropiado.
Las pruebas de rangos con signo de Wilcoxon de una cola son posibles. Por ejemplo, si al
principio se hubiera buscado una evidencia estadstica para concluir que el mtodo A tomaba
un tiempo mediano mayor para la realizacin de la tarea y que el mtodo B tena el tiempo me-
diano menor, se habra formulado la siguiente prueba de hiptesis de cola superior.
NOTAS Y COMENTARIOS
1. La prueba de rangos con signo de Wilcoxon para 2. El procedimiento de rangos con signo de Wilco-
una mediana poblacional se basa en el supuesto de xon tambin permite calcular un intervalo de con-
que la poblacin es simtrica. Bajo esta primera fianza para la mediana de una poblacin simtrica.
hiptesis, la mediana poblacional es igual a la me- Sin embargo, los clculos son bastante complejos
dia poblacional. Por tanto, la prueba de rangos con y rara vez se efectan a mano. Se pueden utilizar
signo de Wilcoxon tambin puede utilizarse como paquetes estadsticos como el de Minitab para ob-
una prueba acerca de la media de una poblacin tener un intervalo de confianza.
simtrica.
19.2 Prueba de rangos con signo de Wilcoxon 869
Ejercicios
Aplicaciones
En los siguientes ejercicios que involucran diferencias pareadas, se considera razonable asumir que
las poblaciones que se comparan tienen aproximadamente la misma forma y que la distribucin
de las diferencias pareadas es aproximadamente simtrica.
12. Se prueban dos aditivos de gasolina para determinar su efecto sobre el rendimiento de la ga-
AUTO evaluacin solina en millas por galn en automviles de pasajeros. Los siguientes son los resultados de
la prueba para 12 automviles (Car) en cada uno se han probado los dos aditivos (Additive).
Utilice ! 0.05 y la prueba de rangos con signo de Wilcoxon para determinar si hay una di-
ferencia significativa entre las millas medianas por galn respecto de los aditivos.
Additive Additive
Car 1 2 Car 1 2
WEB archivo 1
2
20.12
23.56
18.05
21.77
7
8
16.16
18.55
17.20
14.98
Additive 3 22.03 22.57 9 21.87 20.03
4 19.15 17.06 10 24.23 21.15
5 21.23 21.22 11 23.21 22.78
6 24.77 23.80 12 25.02 23.70
13. En un estudio se utiliz una muestra de 10 hombres para probar los efectos de un relajante
AUTO evaluacin sobre el tiempo necesario para conciliar el sueo. Los datos siguientes corresponden al nmero
de minutos que requiere cada individuo (Subject) para quedar dormido con o sin el relajante
(Relaxant). Utilice 0.05 como nivel de significancia para determinar si el relajante reduce la
mediana del tiempo necesario para quedar dormido. Cul es su conclusin?
Relaxant Relaxant
Subject No Yes Subject No Yes
WEB archivo 1 15 10 6 7 5
Relaxant 2 12 10 7 8 10
3 22 12 8 10 7
4 8 11 9 14 11
5 10 9 10 9 6
14. Los porcentajes de llegadas puntuales (Percent on Time) de vuelos en 2006 y 2007 fueron reca-
bados aleatoriamente de 11 aeropuertos (Airport). Los datos se muestran en la parte superior
de la pgina siguiente (pgina web de Research and Innovative Technology Administration,
29 de agosto de 2008). Utilice ! 0.05 como nivel de significancia para probar la hiptesis
de que no hay diferencia entre las medianas del porcentaje de llegadas a tiempo para los dos
aos. Cul es su conclusin?
870 Captulo 19 Mtodos no paramtricos
Percent On Time
Airport 2006 2007
Boston Logan 71.78 69.69
Chicago OHare 68.23 65.88
WEB archivo Chicago Midway
Denver
77.98
78.71
78.40
75.78
OnTime Fort Lauderdale 77.59 73.45
Houston 77.67 78.68
Los Angeles 76.67 76.38
Miami 76.29 70.98
New York (JFK) 69.39 62.84
Orlando 79.91 76.49
Washington (Dulles) 75.55 72.42
15. Se realiz una prueba para dos servicios (Service) nocturnos de entrega de correo. Se crearon
dos muestras idnticas para que a los dos servicios se les notificara la necesidad de reparto
al mismo tiempo. Los tiempos necesarios para cada entrega (Delivery) se listan enseguida.
Los datos mostrados sugieren una diferencia en las medianas de los tiempos de entrega para
los dos servicios? Utilice 0.05 como nivel de significancia para la prueba.
Service
Delivery 1 2
1 24.5 28.0
2 26.0 25.5
3 28.0 32.0
WEB archivo 4 21.0 20.0
5 18.0 19.5
Overnight 6 36.0 28.0
7 25.0 29.0
8 21.0 22.0
9 24.0 23.5
10 26.0 29.5
11 31.0 30.0
16. El PGA Players Championship se llev a cabo en el Sedgefield Country Club en Greensboro,
California del Norte, del 11 al 17 de agosto de 2008. Aqu se muestran los resultados de la
primera (1st Round) y segunda (2nd Round) rondas de una muestra aleatoria de 11 golfistas
(Golfer). Utilice ! 0.05 para determinar si los promedios medianos de los golfistas para la
primera y segunda rondas en el Players Championship difirieron de forma significativa. Cul
es su conclusin?
17. La prueba de aptitud acadmica SAT se compone de tres partes: lectura crtica, matemticas y
escritura. Cada parte de la prueba se califica en una escala de 200 hasta 800 puntos, con una
mediana de aproximadamente 500 (The World Almanac, 2009). Se puede asumir que las pun-
tuaciones para cada parte de la prueba son simtricas. Utilice los siguientes datos para probar la
hiptesis de que la puntuacin mediana de la poblacin de estudiantes en la parte de escritura
es 500. Utilice ! 0.05. Cul es su conclusin?
1
Los datos ordinales son datos categricos que pueden tener un orden jerrquico. Esta escala de medicin se estudia con
ms detalle en la seccin 1.2 del captulo 1.
872 Captulo 19 Mtodos no paramtricos
La prueba de MWW inicia indicando la forma ms general de las hiptesis nula y alternativa
de la siguiente manera.
La hiptesis alternativa de que las dos poblaciones no son idnticas requiere una aclaracin. Si
H0 es rechazada, se est utilizando la prueba para concluir que las poblaciones no son idnticas
y que la poblacin 1 tiende a ofrecer un valor ms pequeo o ms grande que la poblacin 2. La
situacin donde la poblacin 1 tiende a ofrecer valores menores que la poblacin 2 se muestra
en la figura 19.4. Observe que no es necesario que todos los valores de la primera sean menores
que todos los valores de la segunda. Sin embargo, la figura muestra correctamente la conclusin
de que Ha es verdadera: las dos poblaciones no son idnticas y la 1 tiende a ofrecer valores ms
pequeos que la 2. En una prueba de dos colas se considera la hiptesis alternativa de que la
poblacin pueda ofrecer ya sea valores ms pequeos o ms grandes. Las versiones de la prueba
de una cola pueden ser formuladas con la hiptesis alternativa de que la poblacin 1 ofrece ya
sea valores menores o mayores en comparacin con la poblacin 2.
En primer lugar se ilustra la prueba MWW utilizando muestras pequeas con datos ordena-
dos por rango. Esto le ayudar a comprender cmo se calcula el estadstico de suma de rangos y
cmo se utiliza para determinar si la hiptesis nula de que las dos poblaciones son idnticas de-
be ser rechazada. Ms adelante en la seccin se introducir una aproximacin para muestras
grandes basada en la distribucin normal, que simplificar los clculos requeridos para la prue-
ba de MWW.
Consideremos las calificaciones del desempeo laboral de los empleados de 20 salas de
cine y teatro de Showtime Cinemas. Durante una revisin, en un informe anual el gerente del
teatro clasific a 35 empleados en una escala de los mejores (calificacin 1) a los peores (cali-
ficacin 35). Sabiendo que los trabajadores de tiempo parcial eran principalmente estudiantes
universitarios y de bachillerato, el gerente de distrito pregunt si haba pruebas de una diferen-
cia significativa en el desempeo de los universitarios comparado con los estudiantes de bachi-
llerato. En trminos de la poblacin de ambos grupos de estudiantes que podra ser considerada
para el empleo en el teatro, las hiptesis consignaron lo siguiente.
FIGURA 19.4 Las dos poblaciones no son idnticas. La poblacin 1 tiende a ofrecer los valores
ms pequeos
Poblacin 1 Poblacin 2
19.3 Prueba de Mann-Whitney-Wilcoxon 873
TABLA 19.8 Calificacin de desempeo de una muestra de estudiantes universitarios y una mues-
tra de estudiantes de bachillerato que trabajan en Showtime Cinemas
Los datos de este ejemplo El siguiente paso del procedimiento MWW es clasificar la combinacin de las muestras de
muestran cmo se puede menor a mayor. Puesto que hay un total de 9 sujetos, los datos de desempeo de la tabla 19.8
utilizar la prueba de
se clasifican de 1 a 9. El valor ms bajo de 3 para el estudiante universitario 2 recibe un rango
MWW con datos ordinales
(ordenados por rango). de 1, y el segundo valor ms bajo, de 8, para el estudiante universitario 4, recibe un rango de 2.
El ejercicio 17 ofrece otra El valor ms alto, 32, para el estudiante de bachillerato 3, recibe un rango de 9. La clasificacin
aplicacin que utiliza este de rangos de las muestras combinadas para los 9 estudiantes se ilustra en la tabla 19.9.
tipo de datos. A continuacin se suman los rangos de cada muestra como se presentan en la tabla 19.9.
El procedimiento de MWW puede utilizar la suma de los rangos de cualquiera de las muestras.
Sin embargo, en esta aplicacin de la prueba se continuar con la prctica comn de utilizar la
primera muestra, que es la de cuatro estudiantes universitarios. La suma de los rangos corres-
pondiente ser el estadstico de prueba W para la prueba de MWW. Esta suma, como se muestra
en la tabla 19.9, W ! 4 & 1 & 7 & 2 ! 14.
Se explicar ahora por qu la suma de los rangos servir para seleccionar entre las dos
hiptesis H0: las dos poblaciones son idnticas, y Ha: las dos poblaciones no son idnticas. Asu-
miendo que C denota a un estudiante universitario y H a un estudiante de bachillerato, suponga
que los rangos de los nueve estudiantes tienen el siguiente orden, con los cuatro estudiantes
universitarios obteniendo los cuatro rangos ms bajos.
Rango 1 2 3 4 5 6 7 8 9
Estudiantes C C C C H H H H H
Observe que esta permutacin u orden separa las dos muestras con todos los estudiantes uni-
versitarios que tienen un rango inferior al de los estudiantes de bachillerato. Esta es una fuerte
indicacin de que las dos poblaciones no son idnticas. La suma de rangos para los estudiantes
universitarios en este caso es W ! 1 & 2 & 3 & 4 ! 10.
TABLA 19.9 Rangos para las muestras combinadas de los nueve estudiantes de Showtime Cinemas
Calificacin Calificacin
Estudiantes de desempeo Estudiantes de desempeo
universitarios del gerente Rango de bachillerato del gerente Rango
1 15 4 1 18 5
2 3 1 2 20 6
3 23 7 3 32 9
4 8 2 4 9 3
5 25 8
Suma de rangos 14
Suma de rangos 31
874 Captulo 19 Mtodos no paramtricos
Ahora considere una clasificacin donde los cuatro estudiantes universitarios tienen los cuatro
rangos ms altos.
Rango 1 2 3 4 5 6 7 8 9
Estudiantes H H H H H C C C C
Observe que esta permutacin u orden separa de nuevo las dos muestras, pero esta vez todos
los estudiantes universitarios tienen un rango mayor que los de bachillerato. Esta es otra clara
indicacin de que las dos poblaciones no son idnticas. La suma de rangos para los estudiantes
universitarios en este caso es W ! 6 & 7 & 8 & 9 ! 30. As, se ve que la suma de los rangos
de este grupo debe estar entre 10 y 30. Los valores de W cerca de 10 implican que los estudian-
tes universitarios tienen rangos ms bajos que los estudiantes de bachillerato, mientras que los
valores de W cerca de 30 implican que los primeros tienen rangos ms altos que los segundos.
Cualquiera de estos dos extremos sera una seal de que las dos poblaciones no son idnticas.
Sin embargo, si lo fueran, se esperara una combinacin en el orden de C y H de modo que la
suma de los rangos de W est ms cerca del promedio de los dos extremos, o sea, ms cerca de
(10 & 30)/2 ! 20.
Asumiendo que las dos poblaciones son idnticas, se usa un programa de cmputo para cal-
cular todos los rdenes posibles para los nueve estudiantes. Para cada orden se calcula la suma
de los rangos de los estudiantes universitarios. Esto proporciona la distribucin de probabilidad
que muestra la distribucin de muestreo exacta de W en la figura 19.5. Las probabilidades
exactas relacionadas con el valor de W se resumen en la tabla 19.10. Si bien no se le pedir que
realice esta distribucin de muestreo exacta, sta se utilizar para probar la hiptesis de que las
dos poblaciones de estudiantes son idnticas.
Usemos la distribucin de muestreo de W de la figura 19.5 para calcular el valor-p para la
prueba como se ha realizado en otras distribuciones de muestreo. La tabla 19.9 indica que la su-
ma de rangos para los cuatro estudiantes universitarios es W ! 14. Debido a que este valor de W
est en la cola inferior de la distribucin de muestreo, empezamos por calcular la probabilidad
de la cola inferior P(W " 14). Por tanto, tenemos
P(W " 14) ! P(10) & P(11) & P(12) & P(13) & P(14)
! 0.0079 & 0.0079 & 0.0159 & 0.0238 & 0.0397 ! 0.0952
0.10
0.09
0.08
0.07
Probabilidad
0.06
0.05
0.04
0.03
0.02
0.01
0.00
10 15 20 25 30
Todas las sumas posibles de rangos para los estudiantes universitarios
19.3 Prueba de Mann-Whitney-Wilcoxon 875
W Probabilidad W Probabilidad
10 0.0079 20 0.0952
11 0.0079 21 0.0873
12 0.0159 22 0.0873
13 0.0238 23 0.0714
14 0.0397 24 0.0635
15 0.0476 25 0.0476
16 0.0635 26 0.0397
17 0.0714 27 0.0238
18 0.0873 28 0.0159
19 0.0873 29 0.0079
30 0.0079
El valor-p de dos colas ! 2(0.0952) ! 0.1904. Con ! 0.05 como nivel de significancia y
con el valor-p ( 0.05, la conclusin de la prueba de MWW es que no se rechaza la hiptesis nula
de que las poblaciones de los estudiantes universitarios y los estudiantes de bachillerato son
idnticas. Si bien las muestras de cuatro estudiantes universitarios y de los cinco de bachillerato
no ofrecen evidencia estadstica para concluir que hay una diferencia entre las dos poblaciones,
este es un momento ideal para sugerir una opinin. Se debe considerar la conveniencia de estu-
diar muestras ms grandes antes de formular una conclusin definitiva.
La mayora de las aplicaciones de la prueba de MWW implica tamaos de muestras mayores
al que se present en este primer ejemplo. Para tales aplicaciones se emplea una aproximacin
para muestras grandes de la distribucin de muestreo de W basada en la distribucin normal. De
hecho, observe que el que la distribucin de muestreo de W en la figura 19.5 indique una dis-
tribucin normal, es una aproximacin bastante buena para un tamao de muestra tan pequeo
como cuatro y cinco. Se utilizar el mismo procedimiento de rangos de las muestras combina-
das que se manej en el ejemplo anterior, pero con la aproximacin de la distribucin normal
en lugar de la distribucin de muestreo exacta de W para calcular el valor-p y llegar a una con-
clusin.
Se ilustrar el uso de la aproximacin a la distribucin normal para la prueba de MWW
considerando la situacin del Third National Bank. El gerente del banco supervisa los saldos
en cuenta corriente de dos sucursales bancarias y se pregunta si las poblaciones de los saldos de
cuenta en ambas sucursales son idnticas. Se toman dos muestras independientes de las cuen-
tas corrientes con un tamao muestral de n1 ! 12 en la sucursal 1 y n2 ! 10 en la sucursal 2.
Los datos se muestran en la tabla 19.11.
La clasificacin de las Como antes, el primer paso en la prueba de MWW es clasificar los datos combinados del me-
muestras combinadas toma nor al mayor valor. Utilizando las 22 observaciones combinadas de la tabla 19.11, se determina
algn tiempo. Las rutinas
que al valor ms pequeo de $750 (sucursal 2, cuenta 6) se le asigna un rango de 1. Al segundo
de computadora permiten
hacer esta clasificacin de valor ms pequeo de $800 (sucursal 2, cuenta 5), se le asigna un rango de 2. Al tercer valor
manera rpida y eficiente. ms pequeo de $805 (sucursal 1, cuenta 7), se le asigna un rango de 3, y as sucesivamente.
En la clasificacin de los datos combinados se puede determinar que dos o ms valores son los
mismos. En este caso, a los valores iguales se les asigna el rango promedio de sus posiciones en
el conjunto de datos combinados. Por ejemplo, el saldo de $950 se presenta tanto para la sucur-
sal 1, cuenta 6, como para la sucursal 2, cuenta 4. En el conjunto de datos combinados, los dos
valores de $950 estn en las posiciones 12 y 13 cuando los datos se ordenan de menor a mayor.
Como resultado, a estas dos cuentas se les asigna el rango promedio (12 & 13)/2 ! 12.5. La
tabla 19.12 presenta los rangos asignados a las muestras combinadas.
876 Captulo 19 Mtodos no paramtricos
TABLA 19.11 Saldos de cuenta para dos sucursales del Third National Bank
Sucursal 1 Sucursal 2
Cuenta Saldo ($) Cuenta Saldo ($)
1 1 095 1 885
2 955 2 850
3 1 200 3 915
4 1 195 4 950
5 925 5 800
6 950 6 750
7 805 7 865
8 945 8 1 000
9 875 9 1 050
10 1 055 10 935
11 1 025
12 975
TABLA 19.12 Rangos asignados para las muestras combinadas de saldos de cuentas
Retroceda ahora a las dos muestras independientes y obtenga los rangos de la tabla 19.12
para cada saldo de cuenta. Estos resultados figuran en la tabla 19.13. El siguiente paso es su-
mar los rangos para cada muestra: 169.5 para la muestra 1 y 83.5 para la muestra 2. Como se
19.3 Prueba de Mann-Whitney-Wilcoxon 877
TABLA 19.13 Rango combinado de los datos en las dos muestras del Third National Bank
Sucursal 1 Sucursal 2
Cuenta Saldo ($) Rango Cuenta Saldo ($) Rango
1 1 095 20 1 885 7
2 955 14 2 850 4
3 1 200 22 3 915 8
4 1 195 21 4 950 12.5
5 925 9 5 800 2
6 950 12.5 6 750 1
7 805 3 7 865 5
8 945 11 8 1 000 16
9 875 6 9 1 050 18
10 1 055 19 10 935 10
11 1 025 17 Suma de rangos 83.5
12 975 15
Suma de rangos 169.5
mencion antes, se continuar siempre con el procedimiento de utilizar la suma de los rangos
de la muestra 1 como el estadstico de prueba de W. Por tanto, tenemos que W ! 169.5. Cuan-
do los dos tamaos de muestra son 7 o ms, se puede utilizar una aproximacin normal de la
distribucin de muestreo de W. Bajo el supuesto de que la hiptesis nula es verdadera y las po-
blaciones son idnticas, la distribucin de muestreo del estadstico de prueba W es la siguiente.
Dado el tamao de las muestras n1 ! 12 y n2 ! 10, las ecuaciones (19.5) y (19.6) ofrecen
las siguientes media y desviacin estndar de la distribucin de muestreo.
FIGURA 19.6 Distribucin de muestreo de W para el ejemplo del Third National Bank
Distribucin de muestreo
de W si las poblaciones
son idnticas W ! 15.1658
W
138
169 # 138
P(W ' 169.5) ! P z ' ! P(z ' 2.04)
15.1658
NOTAS Y COMENTARIOS
El procedimiento de Minitab para la prueba MWW se zar el supuesto de la misma forma, los resultados
describe en el apndice 19.1. Minitab parte del supues- de Minitab siguen siendo aplicables. Sin embargo, es
to de que las dos poblaciones tienen la misma forma. necesario que usted los interprete como una prueba
En consecuencia, describe los resultados de la prueba de la hiptesis nula de que las dos poblaciones son
en trminos de una prueba acerca de las medianas de idnticas.
las dos poblaciones. Si no se siente cmodo al reali-
19.3 Prueba de Mann-Whitney-Wilcoxon 879
Ejercicios
Aplicaciones
18. Dos aditivos de combustible son evaluados para determinar su efecto en el millaje de la gaso-
AUTO evaluacin lina. Se aplicaron sendas pruebas a siete vehculos con el aditivo 1 y a nueve vehculos con el
aditivo 2. Los datos siguientes muestran las millas por galn obtenidas con los dos aditivos.
Utilice ! 0.05 y la prueba de MWW para ver si existe una diferencia significativa entre el
rendimiento de la gasolina con los dos aditivos.
Aditivo 1 Aditivo 2
17.3 18.7
18.4 17.8
19.1 21.3
16.7 21.0
18.2 22.1
18.6 18.7
17.5 19.8
20.7
20.2
19. Las siguientes son muestras de los sueldos iniciales anuales de personas que ingresan a las ca-
AUTO evaluacin rreras de contador pblico (Public Accountant) y de planificador financiero (Financial Planner).
Los sueldos anuales se presentan en miles de dlares.
a) Utilice 0.05 como nivel de significancia y la prueba de hiptesis de que no existe diferencia
entre el sueldo inicial anual de los contadores pblicos y los planificadores financieros.
Cul es su conclusin?
b) Cules son las medianas de los sueldos anuales de la muestra para las dos profesiones?
20. La brecha entre los ingresos de hombres y mujeres con el mismo nivel de educacin se est
reduciendo, pero no se ha cerrado. Los datos muestrales para siete hombres y siete mujeres con
grado de licenciatura se listan a continuacin. Los datos se presentan en miles de dlares.
880 Captulo 19 Mtodos no paramtricos
Hombres Mujeres
35.6 49.5
80.5 40.4
50.2 32.9
67.2 45.5
43.2 30.8
54.9 52.5
60.3 29.8
a) Cul es la mediana del sueldo para los hombres y cul para las mujeres?
b) Utilice ! 0.05 y efecte la prueba de hiptesis para distribuciones poblacionales idnti-
cas. Cul es su conclusin?
21. Unisys mantiene una base de datos que proporciona informacin sobre los huracanes en el
Atlntico/Caribe/Golfo de Mxico (Atlantic/Caribbean/Gulf of Mexico) y el Ocano Pacfico
oriental (Eastern Pacific Ocean). A continuacin se presentan las velocidades mximas del
viento (Max Wind Speed) en nudos para una muestra de los huracanes (Storm) de las ltimas
cuatro temporadas (sitio web del clima de Unisys, abril de 2009).
Utilice ! 0.05 y pruebe si la distribucin de las velocidades es del viento de los huracanes es
la misma para estas dos regiones. Cul es su conclusin?
22. BusinessWeek publica estadsticas anuales sobre las 1 000 empresas ms grandes del mundo.
La razn precio/utilidades (P/E) de una empresa (Company) es el precio actual de la accin di-
vidido entre las utilidades por accin en los ltimos 12 meses. En la tabla siguiente se muestra
la relacin P/E (P/E Ratio) para una muestra de 10 empresas japonesas (Japan) y 12 estadouni-
denses (United States). La diferencia entre las razones P/E de estos dos pases es significativa?
Utilice la prueba de MWW y ! 0.01 para apoyar su conclusin.
23. Los registros de la polica muestran los nmeros siguientes de delitos por da reportados
para una muestra de das durante los meses de invierno y verano. Utilice 0.05 como nivel de
significancia para determinar si existe una diferencia significativa entre los meses de invier-
no (Winter) y de verano (Summer) en trminos del nmero de delitos reportados. Cul es
su conclusin?
Winter Summer
18 28
20 18
15 24
WEB archivo 16 32
21 18
PoliceRecords 20 29
12 23
16 38
19 28
20 18
24. Los hornos de microondas de determinada marca se venden en 10 tiendas de Dallas y 13 tien-
das de San Antonio. Los datos se presentan a continuacin. Utilice 0.05 como nivel de signifi-
cancia y pruebe si los precios de los hornos son los mismos en las dos ciudades.
25. La National Football League (NFL) lleva a cabo su draft anual de los mejores jugadores de futbol
colegial del pas en abril de cada ao. Antes del draft, varios noticieros deportivos pronostican
cules jugadores sern seleccionados y el orden en que se les elegir. Los mejores jugadores
son seleccionados temprano en el draft. Para el draft 2009, se proyectaba que la mayora de
los jugadores seleccionados durante la primera ronda (sitio web SportProjection, 15 de marzo
de 2009) seran de las universidades de la Conferencia del Sureste y de la Conferencia de la
Costa del Atlntico. La universidad de los jugadores y el orden en que se proyectaba que seran
elegidos para el draft se presenta a continuacin para siete jugadores de cada conferencia.
Si H0 es rechazada, se concluir que hay una diferencia entre las poblaciones con una o ms
poblaciones que tienden a dar valores ms pequeos o ms grandes en comparacin con otras.
Se demostrar la prueba de Kruskal-Wallis con el ejemplo que se menciona enseguida.
19.4 Prueba de Kruskal-Wallis 883
Williams Manufacturing Company contrata empleados para su equipo gerencial que pro-
vienen de tres universidades. Recientemente, el director del departamento de personal de la em-
presa comenz a revisar el informe de desempeo anual en un intento por determinar si existen
diferencias en el desempeo de los empleados de acuerdo con la universidad de procedencia.
Se cuenta con los datos para muestras independientes de siete gerentes que se graduaron en la
universidad A, seis que provienen de la universidad B y siete que egresaron de la universidad
TABLA 19.14 C. Estos datos se resumen en la tabla 19.14. La calificacin del desempeo de cada gerente se
registra en una escala de 0 a 100, donde 100 es la calificacin ms alta. Suponga que se desea
Evaluacin del
probar si las tres poblaciones de gerentes son idnticas en trminos de calificacin del desem-
desempeo de
peo. Se utilizar un nivel de significancia de 0.05 para la prueba.
20 empleados
El primer paso en el procedimiento de Kruskal-Wallis es clasificar las muestras combinadas
de Williams
de los valores ms bajos a los ms altos. Utilizando las 20 observaciones de la tabla 19.14, el
Universidad nivel ms bajo de 15 para el 4 gerente en la muestra de la universidad B recibe un rango 1. La
A B C
ms alta calificacin de 95 para el 5 director la muestra de la universidad A recibe un rango
25 60 50
70 20 70 de 20. Los datos de desempeo y sus rangos asignados se muestran en la tabla 19.15. Observe
60 30 60 que se asignan rangos promedio para igualar las calificaciones de desempeo de 60, 70, 80 y
85 15 80 90. La tabla 19.15 tambin muestra la suma de los rangos para cada una de las tres muestras.
95 40 90
90 35 70 El estadstico de la prueba de Kruskal-Wallis utiliza la suma de los rangos de las tres mues-
80 75 tras y se calcula de la siguiente manera.
a n
k
12 Ri2
H! # 3(nT & 1) (19.7)
nT (nT & 1) i!1 i
donde
k ! nmero de poblaciones
i!1
Kruskal y Wallis fueron capaces de demostrar que, bajo el supuesto de la hiptesis nula de
que las poblaciones son idnticas, la distribucin de muestreo de H se puede aproximar median-
te una distribucin ji-cuadrada con (k # 1) grados de libertad. Esta aproximacin es aceptable
si el tamao de las muestras de cada una de las k poblaciones es mayor o igual a cinco. La hip-
tesis nula de poblaciones idnticas ser rechazada si el estadstico de prueba H es grande. Como
resultado, la prueba de Kruskal-Wallis se expresa siempre como una prueba de cola superior.
El clculo del estadstico de prueba para los datos muestrales de la tabla 19.15 es el siguiente.
Los tamaos de las muestras son
n1 ! 7 n2 ! 6 n3 ! 7
y
nT ! a nt ! 7 & 6 & 7 ! 20
3
i!1
Al utilizar la suma de rangos para cada muestra, el valor del estadstico de prueba de Kruskal-
Wallis es el siguiente.
a n
12 k
Ri2 12 (95)2 (27)2 (88)2
H! # 3(nT & 1) ! & & # 3(20 & 1) ! 8.92
nT (nT & 1) i!1 i 20(21) 7 6 7
Ahora se puede utilizar la tabla de distribucin ji-cuadrada (tabla 3 del apndice B) para deter-
minar el valor-p de la prueba. Al utilizar k # 1 ! 3 # 1 ! 2 grados de libertad, se determina
que 2 ! 7.378 tiene un rea de 0.025 en la cola superior de la distribucin ji-cuadrada y
2 ! 9.21 tiene un rea de 0.01 en la cola superior de la distribucin ji-cuadrada. Con H ! 8.92
entre 7.378 y 9.21, se concluye que el rea en dicha cola est entre 0.025 y 0.01. Debido a que
esta es una prueba de cola superior, se llega a la conclusin de que el valor-p est entre 0.025 y
0.01. Al utilizar Minitab o Excel se encuentra que el valor-p exacto para 2 ! 8.92 es 0.0116.
Ya que el valor-p " ! 0.05, H0 es rechazada y se concluye que las tres poblaciones no son
iguales. El desempeo de las tres poblaciones no es idntico y difiere de manera significativa
dependiendo de la universidad. Debido a que la suma de rangos es relativamente baja para la
muestra de los gerentes que provienen de la universidad B, sera razonable para la empresa ya
sea reducir su reclutamiento de esta institucin, o al menos evaluar a sus graduados ms a fondo
antes de decidir una contratacin.
Como comentario final, observamos que en algunas aplicaciones de la prueba de Kruskal-
Si se puede hacer el Wallis puede ser apropiado hacer el supuesto de que las poblaciones tienen formas idnticas y, si
supuesto de que las difieren, ser slo por un cambio en la ubicacin de una o ms de las poblaciones. Si se supone
poblaciones tienen la
que las poblaciones k tienen la misma forma, la prueba de hiptesis se puede afirmar en trmi-
misma forma, la prueba
de Kruskal-Wallis se nos de las medianas poblacionales. En este caso, las hiptesis para la prueba de Kruskal-Wallis
convierte en una prueba se escribiran de la siguiente manera.
acerca de las medianas
de las k poblaciones. H0: mediana1 ! mediana2 ! . . . ! medianak
Ha: no todas las medianas son iguales
NOTAS Y COMENTARIOS
1. El ejemplo de esta seccin utiliza datos cuanti- 20 empleados en trminos de desempeo. En este
tativos sobre las calificaciones de desempeo de caso, la prueba utilizara los datos ordinales direc-
los empleados para efectuar la prueba de Kruskal- tamente. No es necesario el paso de convertir los
Wallis. Este examen tambin se podra haber utili- datos cuantitativos en datos ordenados por rango.
zado si los datos fueran los valores ordinales de los En el ejercicio 30 se ilustra esta situacin.
19.4 Prueba de Kruskal-Wallis 885
Ejercicios
Aplicaciones
26. Una muestra de 15 consumidores ofrece las siguientes calificaciones para tres productos di-
AUTO evaluacin ferentes. A cinco de los consumidores se les asign aleatoriamente probar y calificar cada pro-
ducto. Utilice la prueba de Kruskal-Wallis y ! 0.05 para determinar si existe una diferencia
significativa entre las respectivas calificaciones.
Producto
A B C
50 80 60
62 95 45
75 98 30
48 87 58
65 90 57
27. Se evalan tres programas de preparacin para un examen de admisin. Las calificaciones ob-
WEB archivo tenidas por una muestra de 20 personas que utilizaron los programas de preparacin arrojaron
TestPrepare los siguientes datos. Utilice la prueba de Kruskal-Wallis para determinar si existe una diferencia
significativa entre los tres programas. Utilice ! 0.05.
Programa
A B C
540 450 600
400 540 630
490 400 580
530 410 490
490 480 590
610 370 620
550 570
28. El entrenamiento durante 40 minutos de una de las siguientes actividades durante tres das a la
AUTO evaluacin semana favorece la prdida de peso. Los siguientes datos muestrales de tres diferentes activi-
dades presentan el nmero de caloras quemadas durante 40 minutos de ejercicio. Estos datos
indican diferencias en la cantidad de caloras quemadas en las tres actividades? Utilice 0.05
como nivel de significancia. Cul es su conclusin?
886 Captulo 19 Mtodos no paramtricos
29. La revista Cond Nast Traveler realiza un estudio anual entre sus lectores con el fin de calificar
WEB archivo los 80 cruceros ms importantes del mundo (Cond Nast Traveler, febrero de 2008). Con 100
CruiseShips
como la calificacin (Rating) ms alta posible, se lista la siguiente puntuacin global para una
muestra de los barcos (Ship) de Holland America, Princess y Royal Caribbean. Utilice la prueba
de Kruskal-Wallis con ! 0.05 para determinar si en general las calificaciones entre las tres
lneas de cruceros difieren significativamente. Cul es su conclusin?
30. Una empresa grande enva a muchos de sus gerentes de primer nivel a un curso de capacitacin
sobre habilidades de supervisin. Cuatro distintos centros de desarrollo gerencial ofrecen este
curso. El director de recursos humanos desea saber si existe una diferencia entre la calidad de
la formacin impartida en los cuatro centros. Se eligi una muestra aleatoria independiente
de cinco empleados de cada centro de capacitacin. Los empleados se clasifican de 1 a 20 en
trminos de habilidades de supervisin. Un rango de 1 fue asignado al empleado con las mejores
habilidades. Los rangos se listan a continuacin. Utilice ! 0.05 y compruebe si existe una
diferencia significativa entre la calidad de la capacitacin impartida en los cuatro programas.
Curso
A B C D
3 2 19 20
14 7 16 4
10 1 9 15
12 5 18 6
13 11 17 8
31. Los dulces ms vendidos son a menudo los ms ricos en caloras. Suponga que los datos que se
presentan enseguida reflejan el contenido calrico de las muestras de M&Ms, Kit Kat y Milky
Way II. Pruebe si hay diferencias significativas entre el contenido calrico de estos tres dulces.
Con un nivel de significancia de 0.05, cul es su conclusin?
19.5 Correlacin de rangos 887
6 a di2
n
i!1
rs ! 1 # (19.8)
n(n2 & 1)
donde
Ilustremos el uso del coeficiente de correlacin por rangos de Spearman. Una empresa
desea determinar si las personas que prometan el ms alto potencial al momento de ser contra-
tadas resultaron tener el registro de mayores ventas. Para investigarlo, el director de recursos
humanos revis los registros originales de las entrevistas de trabajo, expediente acadmico y
cartas de recomendacin de 10 miembros de la fuerza de ventas. Despus de la revisin, el di-
rector clasific a las 10 personas con base en su potencial de xito en el momento de ser contra-
tadas y asign el rango 1 a la persona que tuvo el mayor potencial. A continuacin se recabaron
los datos de las ventas reales de cada vendedor durante sus primeros dos aos de empleo. Sobre
la base de los registros de ventas reales se obtuvo una segunda calificacin de los 10 sujetos con
base en el desempeo en las ventas. En la tabla 19.16 se presentan los rangos basados en el po-
tencial (Ranking of Potential) y en el desempeo real de cada vendedor (Salesperson). En la ter-
cera columna se listan las ventas de dos aos (Two-Year Sales) en unidades (units) y en la cuarta
columna el rango con base en las ventas de dos aos (Ranking According to Two-Year Sales).
Calculemos el coeficiente de correlacin por rangos de Spearman para los datos de la tabla
19.16, los cuales se resumen en la tabla 19.17. En primer lugar, se calcula la diferencia entre los
dos rangos de cada vendedor, di , como se muestra en la columna 4. La suma de di2 en la colum-
na 5 es 44. Este valor y el tamao de muestra n ! 10 se utilizan para calcular el coeficiente de
correlacin por rangos rs ! 0.733 mostrado en la tabla 19.17.
El coeficiente de correlacin por rangos de Spearman oscila entre #1.0 y &1.0, y su inter-
pretacin es igual al coeficiente de correlacin producto-momento de Pearson para datos cuan-
titativos. El coeficiente de correlacin por rangos cerca de &1.0 indica una relacin positiva
888 Captulo 19 Mtodos no paramtricos
TABLA 19.16 Ventas potenciales y datos de las ventas reales de dos aos
TABLA 19.17 Clculo del coeficiente de correlacin por rangos de Spearman para el potencial
y el desempeo de ventas
6 a d i2 6(44)
rs ! 1 # !1# ! 0.733
n(n2 & 1) 10(100 # 1)
entre los rangos de dos variables, mientras que el coeficiente cercano a #1.0 indica una fuerte
relacin negativa entre los rangos de las dos variables. Un coeficiente de 0 indica que no hay
asociacin entre los rangos de las dos variables. En el ejemplo, rs ! 0.733 indica una correla-
cin positiva entre los rangos basada en el potencial y los rangos en funcin del desempeo en
ventas. Las personas que mejor califican en el potencial al momento de ser contratadas tien-
den a tener un rango ms alto en el desempeo de las ventas a dos aos.
En este punto, es posible que se desee utilizar la correlacin muestral por rangos rs para
hacer una inferencia acerca del coeficiente de correlacin por rango de la poblacin !s. Para esto
ponemos a prueba las siguientes hiptesis.
H0: !s ! 0
Ha: !s % 0
19.5 Correlacin de rangos 889
Bajo el supuesto de que la hiptesis nula es verdadera y el coeficiente de correlacin por rangos
de la poblacin es 0, la siguiente distribucin de muestreo de rs puede utilizarse para realizar
la prueba.
DISTRIBUCIN DE MUESTREO DE rs
Media: rs ! 0 (19.9)
1
Desviacin estndar: rs ! (19.10)
n#1
Forma de distribucin: aproximadamente normal siempre que n ' 10
NOTAS Y COMENTARIOS
El coeficiente de correlacin por rangos de Spearman cmo pueden utilizarse las herramientas de correla-
proporciona el mismo valor que se obtiene mediante cin de Minitab y Excel para el coeficiente de co-
el procedimiento del coeficiente de correlacin pro- rrelacin producto-momento a efecto de calcular el
ducto-momento de Pearson con los datos ordenados coeficiente de correlacin por rangos de Spearman.
por rango. En los apndices 19.1 y 19.2 se muestra
Ejercicios
Mtodos
32. Considere el siguiente conjunto de clasificaciones o rangos para una muestra de 10 elementos.
AUTO evaluacin
Elemento x y Elemento x y
1 10 8 6 2 7
2 6 4 7 8 6
3 7 10 8 5 3
4 3 2 9 1 1
5 4 5 10 9 9
Observe que en el primer caso las clasificaciones o rangos son idnticos, y en el segundo son
exactamente lo contrario. Qu valor debe esperar para el coeficiente de correlacin por rangos
de Spearman en cada caso? Explique. Calcule el coeficiente de correlacin por rangos para
cada uno.
Aplicaciones
AUTO evaluacin
34. Los datos siguientes muestran clasificaciones o rangos de 11 estados para los gastos por alumno
(Expenditure per Student) (clasificando 1 como el ms alto hasta 11 como el ms bajo) y el co-
ciente estudiante-profesor (Student-Teacher Ratio) (con 1 como el ms bajo hasta 11 como el
ms alto).
a) Cul es la correlacin por rangos entre el gasto por estudiante y la relacin estudiante-
profesor? Comente.
b) Al nivel ! 0.05 parece haber una relacin entre el gasto por estudiante y la razn es-
tudiante-profesor?
35. Un estudio nacional de Harris Interactive, Inc. evalu las empresas de alta tecnologa y su
reputacin. La tabla siguiente muestra cmo se clasifica la reputacin de 10 empresas de alta
tecnologa y cmo se la clasifica en el porcentaje de encuestados que dijeron que compraran
acciones de la empresa. Se prev una correlacin por rangos positiva, ya que parece razonable
esperar que una empresa (Company) con una reputacin (Reputation) ms grande tenga las
acciones ms cotizadas o compras de acciones (Stock Purchase) ms altas.
37. En una universidad, una organizacin estudiantil entrevist tanto a los alumnos actuales como a
los recin egresados para obtener informacin sobre la calidad de la enseanza. Al analizar las
respuestas, se llega a la siguiente clasificacin sobre la habilidad de los profesores (Professor)
para la enseanza. Coincide la clasificacin de los estudiantes actuales (Current Students) con
la de los recin egresados (Recent Graduates)? Utilice ! 0.10 y pruebe la significancia de la
correlacin por rangos.
Resumen
Glosario
Prueba de rangos con signo de Wilcoxon Prueba no paramtrica de la diferencia entre las
medianas de dos poblaciones basada en muestras pareadas. El procedimiento utiliza datos cuan-
titativos y est basado en el supuesto de que la distribucin de las diferencias es simtrica. Los
datos de diferencias pareadas se utilizan para hacer una inferencia acerca de las medianas de
las dos poblaciones. Esta prueba tambin se utiliza para hacer inferencias acerca de la mediana
de una poblacin simtrica.
Prueba de signos Prueba de hiptesis no paramtrica acerca de una mediana de la poblacin
o que identifica las diferencias entre dos poblaciones basadas en muestras pareadas. Los datos
se resumen en dos categoras, la denotada por un signo positivo o por un signo negativo, y la
distribucin binomial con p ! 0.50 proporciona la distribucin de muestreo para el estadstico
de prueba.
Frmulas clave
a n
k
12 Ri2
H! # 3(nT & 1) (19.7)
nT (nT & 1) i!1 i
6 a di2
n
i!1
rs ! 1 # (19.8)
n(n2 & 1)
Ejercicios complementarios
38. En una encuesta se plante la siguiente pregunta: Est a favor o en contra de proporcionar
vales libres de impuestos o deducciones fiscales a los padres que envan a sus hijos a escuelas
privadas? De 2 010 personas entrevistadas, 905 se manifestaron a favor de la propuesta, 1 045
se opusieron y 60 no dieron ninguna opinin. Los datos indican una diferencia significativa en
las preferencias por el apoyo financiero a los padres que envan a sus hijos a escuelas privadas?
Utilice 0.05 como nivel de significancia.
39. Debido a una reciente disminucin en el mercado de la vivienda, la mediana del precio nacional
de venta de casas unifamiliares es $180 000 (Asociacin Nacional de Agentes Inmobiliarios,
enero de 2009). Suponga que los siguientes datos se obtuvieron de las muestras de ventas re-
cientes para viviendas unifamiliares en San Luis y Denver.
894 Captulo 19 Mtodos no paramtricos
rea metropolitana Menos de $180 000 Igual a $180 000 Ms de $180 000
San Luis 32 2 18
Denver 13 1 27
41. Un estudio fue diseado para evaluar el aumento de peso con un nuevo alimento para aves. Una
muestra de 12 pollos fue utilizada durante un periodo de seis semanas. El peso de cada pollo
se registr antes y despus del periodo de prueba. Las diferencias entre los pesos anteriores y
posteriores de los 12 pollos son las siguientes: 1.5, 1.2, #0.2, 0.0, 0.5, 0.7, 0.8, 1.0, 0.0, 0.6, 0.2
y #0.01. Una diferencia positiva indica un aumento de peso y una diferencia negativa expresa
una prdida de peso. Utilice 0.05 como nivel de significancia para determinar si el nuevo ali-
mento proporciona un aumento de peso significativo en las aves.
42. Los datos siguientes indican pesos de productos para los mismos artculos fabricados en dos
lneas de produccin distintas. Pruebe la diferencia entre los pesos del producto de las dos l-
neas (Line 1 y Line 2). Utilice ! 0.05.
Line 1 Line 2
13.6 13.7
13.8 14.1
14.0 14.2
13.9 14.0
WEB archivo 13.4 14.6
13.2 13.5
ProductWeights 13.3 14.4
13.6 14.8
12.9 14.5
14.4 14.3
15.0
14.9
Ejercicios complementarios 895
43. Un cliente desea determinar si existe una diferencia significativa en el tiempo requerido para
completar una evaluacin de programa con tres mtodos diferentes de uso comn. A continuacin
se presentan los tiempos (en horas) requeridos por cada uno de los 18 evaluadores para llevar a
cabo la evaluacin del programa.
Utilice ! 0.05 y realice una prueba para ver si existe una diferencia significativa en el
tiempo requerido para los tres mtodos (Method 1, 2 y 3).
44. Una muestra de 20 ingenieros que han estado empleados en una empresa durante tres aos ha
sido ordenada por rangos con base en su potencial gerencial. Algunos ingenieros han asistido
a cursos de desarrollo gerencial impartidos por la empresa (Company Program), otros asisten a
cursos impartidos por una universidad local (Off-Site Program) y el resto no tom ningn curso
(No Program). Utilice las clasificaciones siguientes y ! 0.025 para probar una diferencia
significativa en el potencial gerencial de los tres grupos.
Instructor
Black Jennings Swanson Wilson
88 87 88 80
WEB archivo 80
79
78
82
76
68
85
56
Evaluations 68 85 82 71
96 99 85 89
69 99 82 87
85 84
94 83
81
896 Captulo 19 Mtodos no paramtricos
46. Los 15 alumnos de una muestra recibieron los siguientes rangos (Rank) por su desempeo
en los exmenes de mitad de semestre (Midterm) y final de un curso de estadstica. Calcule el
coeficiente de correlacin por rangos de Spearman y pruebe si hay una correlacin significativa
con ! 0.10. Cul es el valor-p y cul es su conclusin?
47. Nielsen Research ofrece las clasificaciones semanales de programas de televisin de difusin
nacional. Las calificaciones de los 84 programas de horario estelar que se transmiten por las
cuatro cadenas de televisin (Network) ms importantes (ABC, CBS, FOX y NBC) para la semana
del 14 al 20 abril de 2008 se proporcionan en el archivo NielsenResearch. Los rangos de las
clasificaciones van de 1 a 103. A continuacin se muestran las clasificaciones (Rating) para 12
programas (Program) del archivo (con los das y horarios en que salieron al aire los programas
con mltiples episodios). Estos datos sugieren que la puntuacin de las cuatro televisoras di-
fiere de manera significativa? Utilice la prueba de Kruskal-Wallis con un nivel de significancia
de 0.10. Cul es el valor-p y cul es su conclusin?
Observe que el procedimiento de Minitab utiliza las diferencias de los datos pareados de la
columna C3. Aunque el archivo muestra los tiempos para cada mtodo de produccin en las
columnas C1 y C2, estos datos no se utilizan para obtener el resultado de Minitab.
El mismo procedimiento se utiliza para probar una hiptesis acerca de la mediana de una
poblacin simtrica. Ingrese los datos reales en cualquier columna de la hoja de clculo y siga
los pasos anteriores. Introduzca el valor hiptetico de la mediana poblacional en el cuadro Test
Median y seleccione la hiptesis alternativa deseada en el cuadro Alternative. Los resultados
se obtienen haciendo clic en OK. Para realizar esta prueba no es necesario ingresar la diferencia
de los datos. La rutina de Minitab har los clculos automticamente. Recuerde que esta prueba
es vlida slo para la mediana de una poblacin simtrica.
Prueba de Mann-Whitney-Wilcoxon
Los siguientes pasos permiten probar la hiptesis de que dos poblaciones son idnticas con
WEB archivo dos muestras independientes, una de cada poblacin. Se utilizar el ejemplo del Third National
ThirdNational Bank de la seccin 19.3 para ilustrar el procedimiento. El archivo de datos ThirdNational pro-
vee los 12 saldos de la cuenta de la sucursal 1 en la columna C1, y los 10 saldos de la cuenta de
la sucursal 2 en la columna C2. Los pasos siguientes aplicarn el procedimiento de Minitab para
probar H0: las dos poblaciones son idnticas, contra Ha: las dos poblaciones no son idnticas.
Minitab informar el valor del estadstico de prueba y el valor-p correspondiente. Puesto que
Minitab supone automticamente que las dos poblaciones tienen la misma forma, la salida des-
cribe el resultado en trminos de la diferencia entre las medianas de las dos poblaciones. Obser-
ve que el resultado tambin proporciona una estimacin puntual y una estimacin por intervalo
de confianza de la diferencia entre las medianas. La letra griega (eta) se utiliza con frecuencia
para denotar la mediana de una poblacin, por lo que los resultados de Minitab utilizan ETA1 y
ETA2 como abreviaturas para las dos medianas poblacionales.
Prueba de Kruskal-Wallis
Los pasos siguientes permiten probar una hiptesis acerca de que tres o ms poblaciones son
WEB archivo idnticas a partir de muestras independientes, una de cada poblacin. Se utilizarn como ejem-
Williams plo los datos de Williams Manufacturing Company de la seccin 19.4. El archivo de datos Wi-
lliams proporciona la universidad de la que proviene el empleado (A, B o C) en la columna C1
y la calificacin anual de desempeo en la columna C2. La terminologa de Minitab se referir
a la universidad como el factor y a la calificacin de desempeo como la respuesta. Los pasos
siguientes se aplicarn al procedimiento de Minitab para probar H0: todas las poblaciones son
idnticas, contra Ha: no todas las poblaciones son idnticas. Si es posible suponer que las po-
blaciones tienen la misma forma, la hiptesis se puede establecer en trminos de las medianas
de la poblacin.
Apndice 19.2 Mtodos no paramtricos con Excel 899
Prueba de signos
La prueba de signos utiliza una distribucin de muestreo binomial con p ! 0.50 para condu-
cir una prueba de hiptesis acerca de una mediana poblacional o una prueba de hiptesis con
muestras pareadas. La funcin BINOMDIST de Excel permite calcular probabilidades binomiales
exactas para estas pruebas. Puesto que las probabilidades de BINOMDIST son exactas, no hay
necesidad de calcular la aproximacin a la distribucin normal cuando se utiliza Excel para la
prueba de signos.
900 Captulo 19 Mtodos no paramtricos
Como es una prueba de hiptesis de dos colas, tenemos que el valor-p ! 2(0.1719) ! 0.3438.
En la seccin 19.1 se considera tambin la prueba de cola inferior acerca de la mediana
poblacional del precio de una casa nueva:
Despus de eliminar la casa que se vendi por exactamente $236 000, la muestra proporciona
22 signos positivo y 38 signos negativos para la muestra de 60 viviendas. Al tratarse de una
prueba de cola inferior, el valor-p est dado por la probabilidad de cola inferior P(x " 22), que
es la siguiente:
Al utilizar la funcin BINOMDIST tenemos la capacidad para calcular el valor-p exacto para
cualquier aplicacin de la prueba de signos.
El mismo procedimiento tambin se puede usar para probar una hiptesis sobre la mediana de
una poblacin simtrica. Introduzca los datos en cualquier columna de la hoja de clculo. A con-
tinuacin siga los pasos anteriores. Ingrese el valor hipottico de la mediana poblacional en el
cuadro de dilogo Null Hypothesis Value y seleccione las hiptesis alternativas deseadas en
el cuadro Alternative Hypothesis. Haga clic en OK para obtener los resultados. Para esta prue-
ba no tenemos que introducir los datos de las diferencias, porque la rutina de StatTools efectuar
los clculos automticamente. Pero recuerde, esta prueba es slo vlida para la mediana de una
poblacin simtrica.
Prueba de Man-Whitney-Wilcoxon
Los siguientes pasos pueden utilizarse para probar la hiptesis de que dos poblaciones son
WEB archivo idnticas con dos muestras independientes, una para cada poblacin. Se utilizar el ejemplo de
ThirdNational Third National Bank manejado en la seccin 19.3. El archivo de datos ThirdNational propor-
ciona los 12 saldos de cuentas de la sucursal 1 en la columna A y los 10 saldos de cuentas de la
sucursal 2 en la columna B. Comience con el Data Set Manager para crear una base de datos de
StatToools con el procedimiento descrito en el apndice del captulo 1. Los siguientes pasos se
902 Captulo 19 Mtodos no paramtricos
utilizan para probar la hiptesis H0: las dos poblaciones son idnticas y Ha: las dos poblaciones
no son idnticas.
Si desea realizar el supuesto de que las dos poblaciones tienen la misma forma, seleccione Me-
dian Version en el cuadro Analysis Type. Los resultados de las pruebas sern los mismos, pero
indicando las hiptesis acerca de las diferencia entre las dos medianas de la poblacin.
CAPTULO 20
Mtodos estadsticos
para el control de calidad
CONTENIDO Grfica R
ESTADSTICA EN LA PRCTICA: Grfica p
DOW CHEMICAL COMPANY Grfica np
Interpretacin de las grficas
20.1 FILOSOFAS Y MARCOS de control
DE REFERENCIA
Malcolm Baldrige 20.3 MUESTREO DE ACEPTACIN
National Quality Award KALI, Inc.: un ejemplo
ISO 9000 de muestreo de aceptacin
Six Sigma Clculo de la probabilidad
de aceptacin de un lote
20.2 CONTROL ESTADSTICO Seleccin de un plan
DE PROCESOS de muestreo de aceptacin
Grficas de control Planes de muestreo mltiple
Grfica x: media y desviacin
estndar del proceso conocidas
Grfica x: media y desviacin
estndar del proceso
desconocidas
904 Captulo 20 Mtodos estadsticos para el control de calidad
ESTADSTICA en LA PRCTICA
DOW CHEMICAL COMPANY*
FREEPORT, TEXAS
En 1940, Dow Chemical Company compr un terreno de
800 acres en Texas, en la costa del Golfo, para construir
una planta de produccin de magnesio. La planta original
ha crecido hasta cubrir ms de 5 000 acres y engloba uno de
los complejos petroqumicos ms grandes del mundo. En-
tre los productos de Dow Texas Operations se encuentran
el magnesio, estireno, plsticos, adhesivos, solventes, glicol
y cloro. Algunos productos se fabrican nicamente para ser
utilizados en otros procesos, pero muchos terminan como
ingredientes esenciales de productos farmacuticos, pastas
dentales, alimentos para perros, mangueras, refrigeradores,
envases de cartn para leche, bolsas para basura, shampoos
y muebles. El control estadstico de la calidad ha permitido a Dow
Dows Texas Operations produce ms de 30% del mag- Chemical mejorar sus mtodos de produccin y sus
nesio en el mundo, el cual es un metal extremadamente li- productos. PR Newswire Dow Chemical USA/AP Images,
gero que se emplea en diversos productos, como raquetas de
tenis y rines de magnesio. El Departamento de Magnesio desarrollado dentro de los lmites previstos. En un examen
fue el primer grupo de Texas Operations que capacit a su ms cuidadoso de las grficas de control y de la operacin
personal tcnico y a sus gerentes para utilizar el control es- misma, los analistas encontraron que las variaciones po-
tadstico de la calidad. Algunas de las primeras aplicaciones dan deberse a algn problema relacionado con el operador.
fueron en los procesos qumicos. Despus de capacitarlo nuevamente, las grficas x indicaron
En una aplicacin que implica el funcionamiento de una mejora significativa en la calidad del proceso.
un secador, se tomaban muestras del producto a intervalos En cualquier parte en que Dow aplica el control esta-
peridicos, se calculaba el valor promedio de cada muestra dstico de la calidad se logra una mejora. Se han consegui-
y se registraba en una grfica llamada grfica x. Estas grfi- do ahorros documentados de cientos de miles de dlares
cas permitan a los analistas de Dow monitorear las tenden- por ao, y continuamente se han descubierto nuevas apli-
cias en los productos que pudieran indicar que el proceso caciones.
no se estaba desarrollando correctamente. En una ocasin En este captulo se mostrar cmo elaborar una grfi-
los analistas empezaron a observar que las medias muestra- ca x como las empleadas por Dow. Estas grficas son parte
les presentaban valores que no correspondan a un proceso del control estadstico de la calidad conocido como con-
trol estadstico de procesos. Tambin se vern mtodos de
*Los autores agradecen a Clifford B. Wilson, director tcnico del De-
control de calidad que se utilizan en situaciones en que la
partamento de Magnesio de Dow Chemical Company, por aportar este decisin de aceptar o rechazar un conjunto de artculos se
artculo para Estadstica en la prctica. basa nicamente en una muestra.
Visin de ASQ: Al hacer La American Society for Quality (ASQ) define la calidad como la totalidad de rasgos y carac-
de la calidad una prioridad tersticas de un producto o un servicio relacionada con la capacidad de satisfacer determinada
mundial, un mtodo
necesidad. En otras palabras, la calidad mide si un producto o un servicio cumple con las ne-
fundamental y una tica
personal, la American cesidades del cliente. Las organizaciones reconocen que para ser competitivos en la economa
Society for Quality (ASQ) global actual deben esforzarse por lograr un alto nivel de calidad. Como resultado, ponen mayor
se convierte en una nfasis en los mtodos de monitoreo y mantenimiento de la calidad.
comunidad de todos que Hoy el enfoque orientado al cliente, que es fundamental para las organizaciones de alto
busca conceptos de calidad,
desempeo, ha transformado el mbito de aplicacin de las cuestiones de calidad, desde la
tecnologa y herramientas
para mejorarse a s misma simple eliminacin de los defectos en una lnea de produccin, hasta el desarrollo de estrategias
y su mundo. (Pgina web de calidad corporativa con base amplia. La ampliacin del alcance de la calidad, naturalmente,
ASQ). conduce al concepto de calidad total (TQ).
La calidad total (total quality, TQ) es un sistema de gestin enfocado en las personas que aspiran
a incrementar la satisfaccin del cliente a un costo real ms bajo. TQ es un sistema de enfoque
20.1 Filosofas y marcos de referencia 905
total (no de un rea separada o un programa de trabajo) y parte integral de una estrategia de alto
nivel; funciona horizontalmente por medio de funciones y departamentos; involucra a todos los
empleados, desde el ms alto hasta el ms bajo, y se extiende hacia atrs y hacia adelante, inclu-
yendo la cadena de proveedores y la cadena de clientes. TQ hace hincapi en el aprendizaje y la
adaptacin al cambio continuo como claves para el xito de una organizacin.1
1
J. R. Evans y W. M. Lindsay, The management and control of quality, 6a. ed., Cincinnati, OH., South-Western, 2005,
pp. 1819.
906 Captulo 20 Mtodos estadsticos para el control de calidad
certificacin. Los dos programas ms significativos son el Malcolm Baldrige National Award,
de Estados Unidos, y el proceso internacional de certificacin ISO 9000. En los ltimos aos
tambin se ha incrementado el uso de Six Sigma, una metodologa para mejorar el desempeo
de la organizacin que se basa en la recoleccin de datos y en el anlisis estadstico.
ISO 9000
Las normas del ISO 9000 El ISO 9000 es una serie de cinco normas internacionales publicadas en 1987 por la Organizacin
se revisan peridicamente Internacional de Estandarizacin (ISO) con sede en Ginebra, Suiza. Las empresas pueden utilizar
para mejorar el estndar
las normas a efecto de determinar qu se necesita para mantener un sistema de calidad con un
de calidad.
desempeo eficiente. Por ejemplo, las normas describen la necesidad de un sistema de calidad
eficaz que garantice que los equipos de medicin y prueba sean calibrados con regularidad, y
mantener un sistema de registro adecuado. El registro ISO 9000 establece si una empresa cum-
ple con su propio sistema de calidad. En general, esta certificacin abarca menos de 10% de los
criterios del Baldrige Award.
Six Sigma
A finales de la dcada de 1980 Motorola reconoci la necesidad de mejorar la calidad de sus
productos y servicios. Su objetivo era lograr un nivel de calidad tan bueno que por cada milln
de operaciones no se presentaran ms de 3.4 defectos. A este nivel de calidad se le conoce como
nivel de calidad six sigma, y a la metodologa de investigacin creada para este objetivo se le
denomina Six Sigma.
Una organizacin puede comprender dos tipos de proyectos Six Sigma:
DMAIC (definir, medir, analizar, mejorar y controlar) para ayudar a redisear los proce-
sos existentes.
DFSS (diseo para Six Sigma) para disear nuevos productos, procesos o servicios.
Para contribuir a redisear los procesos existentes, Six Sigma hace un fuerte nfasis en el an-
lisis estadstico y en la medicin cuidadosa. Hoy es una herramienta importante para ayudar
a las organizaciones a alcanzar niveles Baldrige de desempeo de negocios y de la calidad en
20.1 Filosofas y marcos de referencia 907
los procesos. Muchos examinadores Baldridge ven a Six Sigma como el mtodo ideal para la
aplicacin de programas de mejoramiento Baldridge.
FIGURA 20.1 Distribucin normal de los pesos de llenado de las cajas de cereal con una media
del proceso ! 16.05
! 0.10
Defecto Defecto
FIGURA 20.2 Distribucin normal de los pesos de llenado de las cajas de cereales con una media
del proceso ! 16.20
! 0.10
0.0000034 o
3.4 dpmo
! 16.20 16.65
Lmite superior
de calidad
Proceso de incrementos medio
de 1.5 desviaciones estndar
de 3.4 defectos por milln de oportunidades. Si los gerentes de KJE consideran que 15.4 hasta
16.65 onzas son lmites aceptables de calidad para el proceso de llenado, el de KJW sera con-
siderado un proceso Six Sigma. As, si la media del proceso medio se mantiene dentro de 1.5
desviaciones estndar de su valor objetivo ! 16.05 onzas, se puede esperar un mximo de slo
3.4 defectos por milln de cajas llenas.
Las organizaciones que desean alcanzar y mantener un nivel de de calidad Six Sigma de-
ben hacer hincapi en los mtodos de control y mantenimiento de la calidad. La garanta de ca-
lidad se refiere a todo el sistema de polticas, procedimientos y directrices establecido por una
organizacin para lograr y mantener este indicador. La garanta de calidad consiste en dos
funciones principales: ingeniera de calidad y control de calidad. El objeto de la ingeniera de
calidad debe incluir la calidad en el diseo de productos y procesos, y para identificar problemas
de calidad antes de la produccin. El control de calidad consiste en una serie de inspecciones
y acciones dirigidas a determinar si las normas de calidad se cumplen. Si no se cumplen, se apli-
can acciones correctivas o preventivas para lograr y mantener la conformidad. En las siguientes
dos secciones se presentarn dos mtodos estadsticos utilizados en el control de calidad. El
primero, el control estadstico de procesos, utiliza representaciones grficas conocidas como
grficas de control para monitorear un proceso; el objetivo es determinar si ste puede continuar
o si se deben aplicar acciones correctivas para lograr el nivel de calidad deseado. El segundo
mtodo, el muestreo de aceptacin, se utiliza en situaciones en que la decisin de aceptar o
rechazar un grupo de elementos debe basarse en la calidad encontrada en una muestra.
La mejora continua es A pesar de los altos estndares de calidad manejados en la operacin de fabricacin y pro-
uno de los conceptos ms duccin, las herramientas del equipo invariablemente se desgastan, las vibraciones desajustan
importantes del movimiento
las mquinas, los materiales de compra estn defectuosos y los operadores humanos cometen
de gestin de la calidad
total. El uso ms importante
errores. Cualquiera o todos estos factores pueden dar lugar a una produccin de mala calidad.
de una grfica de control Por fortuna, los procedimientos estn disponibles para dar seguimiento a la produccin, a efecto
se centra en la mejora del de que una pobre calidad sea detectada a tiempo y el proceso de produccin se pueda ajustar o
proceso. corregir.
Si la variacin en la calidad de produccin se debe a causas imputables, como el desgaste
de las herramientas, una configuracin incorrecta de mquinas, materias primas de baja calidad
o un error del operador, el proceso debe ajustarse o corregirse tan pronto como sea posible. Sin
embargo, si la variacin se debe a lo que se llama causas comunes, es decir, variaciones que se
presentan de forma aleatoria en los materiales, la temperatura, la humedad, etc., causas que no
pueda controlar el fabricante, no es necesario ajustar el proceso. El objetivo principal del con-
trol estadstico de procesos es determinar si las variaciones de la produccin se deben a causas
imputables o a causas comunes.
Cuando las causas imputables son detectadas, se concluye que el proceso est fuera de con-
trol. En este caso, se aplicarn acciones correctivas para hacer que el proceso regrese a un nivel
de calidad aceptable. Sin embargo, si la variacin en el resultado de un proceso de produccin
se debe nicamente a causas comunes, se concluye que el proceso est bajo control estadstico,
o simplemente bajo control, en cuyo caso no es necesario efectuar cambios o ajustes.
Los procedimientos de Los procedimientos estadsticos para el control de procesos se basan en la metodologa de
control de procesos estn pruebas de hiptesis presentadas en el captulo 9. La hiptesis nula H0 se formula en trminos
estrechamente relacionados
con los procedimientos
de un proceso de produccin que est bajo control. La hiptesis alternativa Ha se plantea en
de prueba de hiptesis trminos de un proceso de produccin que est fuera de control. En la tabla 20.1 se muestra
estudiados en este libro. cmo se toman las decisiones correctas para continuar un proceso bajo control, y el ajuste para
Las grficas de control un proceso fuera de control. Sin embargo, al igual que con otros procedimientos de prueba de
permiten realizar sobre la hiptesis, tambin es posible cometer errores tipo 1 (ajuste de un proceso bajo control) y errores
marcha pruebas de hiptesis de tipo II (que permiten continuar con un proceso fuera de control).
de que el proceso est bajo
control.
Grficas de control
Una grfica de control proporciona una base para decidir si las variaciones en el producto se
deben a causas comunes (bajo control) o a causas imputables (fuera de control). Siempre que
se detecten situaciones de este ltimo tipo, se realizarn los ajustes u otra accin correctiva
que hagan recobrar el control del proceso.
Las grficas de control Las grficas de control se clasifican por el tipo de datos que contienen. Una grfica x se
basadas en datos que se utiliza cuando la calidad del producto de un proceso se mide en trminos de una variable, como
pueden medir en una escala longitud, peso, temperatura, etc. En ese caso la decisin de continuar o de ajustar el proceso
continua se llaman grficas
de produccin se basar en el valor de la media encontrado en una muestra del producto. Para
de control de variables.
La grfica x es de este tipo.
introducir algunos de los conceptos ms comunes en todas las grficas de control, se considera-
rn algunas caractersticas de una grfica x.
En la figura 20.3 se presenta la estructura general de una grfica x. La lnea central de la
tabla corresponde a la media del proceso cuando est bajo control. La lnea vertical identifica
UCL
Media muestral
Lnea central Media del proceso
Cuando est bajo control
LCL
Tiempo
la escala de medicin para la variable de inters. Cada vez que se toma una muestra del proceso
de produccin, se calcula el valor de la media muestral x y se grafica el punto que indica el va-
lor de x en la grfica de control.
Las dos lneas etiquetadas como UCL y LCL son importantes para determinar si el proceso
est bajo control o fuera de control. Las lneas se denominan lmite de control superior y lmite
de control inferior, respectivamente. Estos lmites se eligen de modo que cuando el proceso est
bajo control, exista una probabilidad alta de que el valor de x est dentro de estos dos lmites.
Los valores que estn fuera proporcionan una fuerte evidencia estadstica de que el proceso est
fuera de control y se debern aplicar acciones correctivas.
Con el tiempo, ms y ms puntos de datos se agregarn a la grfica de control. El orden de
los puntos ser de izquierda a derecha como se realiza en la muestra del proceso. En esencia,
cada vez que un punto se posiciona en una grfica de control, se est llevando a cabo una prueba
de hiptesis para determinar si el proceso est bajo control.
Adems de la grfica x, se pueden utilizar otras grficas de control para monitorear el rango
de las mediciones en la muestra (grfica R), la proporcin de defectos en la muestra (grfica p),
y el nmero de artculos defectuosos en la muestra (grfica np). En cada caso, la grfica tiene
un LCL una lnea central y un ULC similar a la grfica x de la figura 20.3. La principal diferencia
entre las grficas radica en lo que el eje vertical mide; por ejemplo, en una grfica p la escala
de medicin indica la proporcin de artculos defectuosos en la muestra en lugar de la media
muestral. En el estudio siguiente se ilustrar la construccin y uso de las grficas x, R, p y np.
FIGURA 20.4 Distribucin normal del peso de llenado de las cajas de cereales
! 0.10
16.05
x !
n
E(x)
Adems, debido a que los pesos de llenado tienen una distribucin normal, la distribucin de
muestreo de x es normal para cualquier tamao de muestra. Por tanto, es una distribucin normal
con media y desviacin estndar x. Esta distribucin se muestra en la figura 20.5.
La distribucin de muestreo de x se utiliza para determinar qu valores de x son razonables
cuando el proceso est bajo control. La prctica general en el control de calidad es definir qu
tan razonable es cualquier valor de x que est dentro de las 3 desviaciones estndar o errores
estndar, arriba o abajo del valor de la media. Recuerde que al estudiar la distribucin de proba-
bilidad normal se vio que aproximadamente 99.7% de los valores de una variable aleatoria con
distribucin normal est dentro de "3 desviaciones estndar de su valor medio. Por tanto, si un
valor de x se encuentra dentro del intervalo de # 3x a $ 3 x , se admitir que el proceso
est bajo control. Los lmites de control para una grfica x se muestran a continuacin.
912 Captulo 20 Mtodos estadsticos para el control de calidad
16.20
UCL ! 16.17
16.15
Media muestral x
16.10
16.00
15.95
LCL ! 15.93
15.90 Proceso fuera de control
1 2 3 4 5 6 7 8 9 10
Nmero de muestra
estndar de la muestra se calculan para cada subgrupo o muestra. El promedio total de ambas se
utiliza para la elaboracin de grficas de control, tanto para la media como para la desviacin
estndar del proceso.
Es importante mantener En la prctica, es ms comn monitorear la variabilidad del proceso mediante el uso del
el control tanto de la media rango en lugar de la desviacin estndar, ya que el rango es ms fcil de calcular. ste puede
como de la variabilidad
servir para obtener una buena estimacin de la desviacin estndar del proceso, por lo que se
de un proceso.
utiliza para construir los lmites de control superior e inferior de la grfica x con poco esfuer-
zo computacional. Para ilustrar esto, se tomar como ejemplo el caso de Jensen Computer
Supplies, Inc.
Jensen Computer Supplies (JCS) fabrica discos para computadora de 3.5 pulgadas de di-
metro; acaba de terminar el ajuste del proceso de su produccin, de manera que ste opera bajo
control. Suponga que fueron seleccionadas de cinco discos muestras aleatorias durante la pri-
mera hora de operacin, cinco discos durante la segunda hora de operacin, y as sucesivamente,
hasta que se tienen 20 muestras. En la tabla 20.2 se presentan los dimetros de cada una de las
muestra del disco, as como la media xj y el rango Rj para cada una de las muestras (Sample
Mean y Sample Range, respectivamente). Tambin se listan el nmero de cada muestra (Sam-
ple Number) y las observaciones (Observations).
La estimacin de la media del proceso est dada por la media muestral general.
donde
xj ! media de la j-sima muestra j ! 1, 2, . . . , k
k ! nmero de muestras
Sample Sample
Sample Mean Range
Number Observations xj Rj
1 3.5056 3.5086 3.5144 3.5009 3.5030 3.5065 0.0135
2 3.4882 3.5085 3.4884 3.5250 3.5031 3.5026 0.0368
3 3.4897 3.4898 3.4995 3.5130 3.4969 3.4978 0.0233
WEB archivo 4 3.5153 3.5120 3.4989 3.4900 3.4837 3.5000 0.0316
Jensen 5 3.5059 3.5113 3.5011 3.4773 3.4801 3.4951 0.0340
6 3.4977 3.4961 3.5050 3.5014 3.5060 3.5012 0.0099
7 3.4910 3.4913 3.4976 3.4831 3.5044 3.4935 0.0213
8 3.4991 3.4853 3.4830 3.5083 3.5094 3.4970 0.0264
9 3.5099 3.5162 3.5228 3.4958 3.5004 3.5090 0.0270
10 3.4880 3.5015 3.5094 3.5102 3.5146 3.5047 0.0266
11 3.4881 3.4887 3.5141 3.5175 3.4863 3.4989 0.0312
12 3.5043 3.4867 3.4946 3.5018 3.4784 3.4932 0.0259
13 3.5043 3.4769 3.4944 3.5014 3.4904 3.4935 0.0274
14 3.5004 3.5030 3.5082 3.5045 3.5234 3.5079 0.0230
15 3.4846 3.4938 3.5065 3.5089 3.5011 3.4990 0.0243
16 3.5145 3.4832 3.5188 3.4935 3.4989 3.5018 0.0356
17 3.5004 3.5042 3.4954 3.5020 3.4889 3.4982 0.0153
18 3.4959 3.4823 3.4964 3.5082 3.4871 3.4940 0.0259
19 3.4878 3.4864 3.4960 3.5070 3.4984 3.4951 0.0206
20 3.4969 3.5144 3.5053 3.4985 3.4885 3.5007 0.0259
914 Captulo 20 Mtodos estadsticos para el control de calidad
La media muestral general de los datos de JCS presentados en la tabla 20.2 es x ! 3.4995.
Este valor ser el eje central de la grfica x. El rango de cada muestra, que se denota Rj, es sim-
plemente la diferencia entre el valor mayor y el valor menor de cada muestra. El rango promedio
de las k muestras se calcula de la siguiente manera.
RANGO PROMEDIO
donde
Rj ! rango de la j-sima muestra j ! 1, 2, . . . , k
k ! nmero de muestras
El rango promedio de los datos de JCS que se presenta en la tabla 20.2 es R ! 0.0253.
En la seccin anterior se explic que los lmites de control superior e inferior de la grfi-
ca x son
x$3 (20.6)
$n
Se utiliza la media muestral Por tanto, para obtener los lmites de control de la grfica x, es necesario estimar y la media
general x para estimar , y la desviacin estndar del proceso. La estimacin de est dada por x. Una estimacin de
y los rangos muestrales
se obtiene utilizando los datos de los rangos.
para desarrollar una
estimacin de . Se puede demostrar que un estimador del proceso de desviacin estndar es el prome-
dio de los rangos divididos entre d2, una constante que depende del tamao de la muestra n. Es
decir,
R
Estimador de ! (20.7)
d2
En el Manual on presentation of data and control chart analysis de la American Society for
Testing and Materials (ASTM) se obtienen los valores para d 2 mostrados en la tabla 20.3. Por
ejemplo, cuando n ! 5, d 2 ! 2.326, y la estimacin de es el rango promedio dividido entre
2.326. Si se sustituye R / d2 por en la frmula (20.6), se pueden expresar los lmites de control
para la grfica x como
R#d 2 3
x$3 !x$ R ! x $ A2R (20.8)
$n d 2 $n
Observe que A 2 ! 3/(d 2 $n) es una constante que slo depende del tamao de la muestra. Los
valores de A2 se obtienen de la tabla 20.3. Para n ! 5, A 2 ! 0.577, por lo que los lmites de la
grfica de control x son
Observaciones
en la muestra, n d2 A2 d3 D3 D4
2 1.128 1.880 0.853 0 3.267
3 1.693 1.023 0.888 0 2.574
4 2.059 0.729 0.880 0 2.282
5 2.326 0.577 0.864 0 2.114
Fuente. Adaptacin de la tabla 27 de ASTM STP 15D, ASTM Manual on presentation of data and control chart analysis. Copyright 1976,
American Society for Testing and Materials, Philadelphia, PA. Impreso con autorizacin.
Grfica R
Ahora se estudiarn las grficas de rango (grfica R) que se utilizan para controlar la variabilidad
de un proceso. Para desarrollar una grfica R se necesita considerar el rango de una muestra
como una variable aleatoria con su media y desviacin estndar propias. El rango promedio
R proporciona una estimacin de la media de esta variable aleatoria. Por otra parte, se puede
demostrar que una estimacin de la desviacin estndar del rango es
R
R ! d3 (20.9)
d2
916 Captulo 20 Mtodos estadsticos para el control de calidad
x ! 3.4995
3.495
5 10 15 20
Nmero de la muestra
donde d2 y d3 son constantes que dependen del tamao de la muestra. Los valores de d2 y d3 se
obtienen de la tabla 20.3. Por tanto, el UCL para la grfica R est dado por
d3
R " 3R ! R 1 " 3 (20.10)
d2
y el LCL es
d3
R # 3R ! R 1 # 3 (20.11)
d2
Si se deja
d3
D4 ! 1 " 3 (20.12)
d2
d3
D4 ! 1 # 3 (20.13)
d2
0.06
UCL ! 0.053
0.05
Rango muestral
0.04
0.03
R ! 0.0253
0.02
0.01
5 10 15 20
Nmero de la muestra
Grfica p
A las grficas de control Se considera el caso en que la calidad del producto se mide tanto por los artculos no defectuosos
basadas en datos que como por los defectuosos. La decisin de continuar o de ajustar el proceso de produccin se
indican la presencia de
basar en p, la proporcin de artculos defectuosos que se encuentra en una muestra. A la grfica
un defecto o un nmero
de defectos se les denomina de control utilizada para conocer la proporcin de los datos defectuosos se le llama grfica p.
grficas de control de Para ilustrar su elaboracin, considere el uso de mquinas automticas para la clasificacin
atributos. Una grfica p de las cartas que se utilizan en una oficina de correos. Estas mquinas escanean los cdigos
entra en esta clasificacin. postales de las cartas y asignan cada una a la ruta de entrega adecuada. Aun cuando una mquina
est funcionando correctamente, algunas misivas no son asignadas de forma adecuada. Suponga
que cuando una mquina est funcionando en forma apropiada, o bajo control, 3% de las cartas
no es asignado correctamente. As que p, la proporcin de cartas no asignadas correctamente
cuando el proceso est bajo control, es 0.03.
La distribucin de muestreo de p, como se presenta en el captulo 7, se utiliza para deter-
minar la variacin que puede esperarse en los valores p para un proceso que est bajo control.
Recuerde que el valor esperado de la media de p es p, la proporcin de unidades defectuosas
cuando el proceso est bajo control. Con muestras de tamao n, la frmula para la desviacin
estndar de p, llamado error estndar de la proporcin, es
p(1 " p)
p ! (20.16)
n
np # 5
n(1 " p) # 5
918 Captulo 20 Mtodos estadsticos para el control de calidad
p(1 " p)
p !
n
p
p
E(p)
UCL ! p $ 3p (20.17)
LCL ! p " 3p (20.18)
Con p ! 0.03 y la muestra de tamao n ! 200, la ecuacin (20.16) indica que el error
estndar es
Por tanto, los lmites de control son UCL ! 0.03 $ 3(0.0121) ! 0.0663, y LCL ! 0.03 "
3(0.0121) ! "0.0063. Siempre que la ecuacin (20.18) proporcione un valor negativo para LCL,
ste es igual a cero en la grfica de control.
La figura 20.10 ilustra la grfica de control para el proceso de clasificacin del correo.
Los puntos graficados indican la proporcin muestral defectuosa encontrada en la muestra de
cartas tomadas del proceso. Todos los puntos estn dentro de los lmites de control, lo que indica
que no existe evidencia alguna para concluir que el proceso de seleccin est fuera de control.
Si no se conoce la proporcin de artculos defectuosos de un proceso bajo control, ese
valor se puede estimar inicialmente utilizando datos de la muestra. Suponga, por ejemplo, que
se toman k muestras diferentes, cada una de tamao n, seleccionadas de un proceso que est
bajo control. Se determina la fraccin o proporcin de artculos defectuosos en cada muestra.
20.2 Control estadstico de procesos 919
FIGURA 20.10 Grfica p para la proporcin de defectos en el proceso de clasificacin de las cartas
0.07
UCL ! 0.0663
0.06
Proporcin muestral
0.05
0.04
Porcentaje defectuoso
0.03
cuando el proceso est
bajo control
0.02
0.01
0.00 LCL ! 0
5 10 15 20 25
Nmero de muestra
El tratamiento como una sola muestra grande de todos los datos obtenidos permite calcular la
proporcin de artculos defectuosos en todos los datos; ese valor puede utilizarse para estimar p,
la proporcin de artculos defectuosos observada cuando el proceso est bajo control. Note que
esta estimacin de p tambin permite calcular el error estndar de la proporcin y determinar
los lmites de control superior e inferior.
Grfica np
Una grfica np no es una grfica de control construida por el nmero de artculos defectuosos
en una muestra. En este caso, n es el tamao de la muestra y p es la probabilidad de observar un
artculo defectuoso, cuando el proceso est bajo control. Siempre que el tamao de la muestra
sea grande, es decir, cuando np # 5 y n(1 " p) # 5, la distribucin del nmero de artculos
defectuosos observados en una muestra de tamao n se puede aproximar por una distribucin
normal con media np y desviacin estndar $np(1 " p) . Por tanto, en el ejemplo de clasifica-
cin de correspondencia, con n ! 200 y p ! 0.03, el nmero de artculos defectuosos obser-
vados en una muestra de 200 cartas se puede aproximar mediante una distribucin normal con
una media de 200(0.03) ! 6 y una desviacin estndar de $200(0.03)(0.97) ! 2.4125
Los lmites de control para una grfica np se fijan en tres desviaciones estndar arriba y
abajo del nmero de artculos defectuosos esperado, cuando el proceso est bajo control. Por
consiguiente, se tiene que los lmites de control son los siguientes:
En el ejemplo del proceso de clasificacin de un correo, con p ! 0.03 y n ! 200, los lmites
de control son UCL ! 6 $ 3(2.4125) ! 13.2375 y LCL ! 6 " 3(2.4125) ! "1.2375. Cuando
LCL es negativo, LCL es igual a cero en la carta de control. Por tanto, si el nmero de cartas que
no se asigna a las rutas correctas es mayor de 13, se concluye que el proceso est fuera de control.
La informacin que proporciona una grfica np es equivalente a la proporcionada por la
grfica p, la nica diferencia radica en que la grfica np es la grfica del nmero de artculos
920 Captulo 20 Mtodos estadsticos para el control de calidad
NOTAS Y COMENTARIOS
1. Dado que los lmites de control para una grfica x tiempo. En el apndice 20.1 se describen los pasos
dependen del valor del rango promedio, estos l- para este procedimiento.
mites no tienen mucho significado, a menos que 2. La grfica np se utiliza para monitorear un pro-
la variabilidad del proceso est bajo control. En la ceso en trminos del nmero de defectos. El ni-
prctica, la grfica R se elabora por lo general antes vel de calidad Six Sigma de Motorola establece
que la carta x; si la primera indica que la variabi- como objetivo producir no ms de 3.4 defectos
lidad del proceso est bajo control, entonces se ela- por milln de operaciones. Este objetivo implica
bora la grfica x. Con la opcin de Minitab Xbar-R p ! 0.0000034.
se obtienen la grfica x y la grfica R al mismo
Ejercicios
Mtodos
1. En un proceso que est bajo control se tiene una media de ! 12.5 y una desviacin estndar
de ! 0.8.
a) Elabore una grfica de control x para este proceso si se utilizaran muestras de tamao 4.
b) Repita el inciso a) para muestras de tamao 8 y 16.
c) Qu sucede con los lmites de la grfica de control a medida que el tamao de la muestra
aumenta? Explique por qu es razonable.
2. Veinticinco muestras, cada una de tamao 5, fueron seleccionadas de un proceso que est bajo
control. La suma de todos los datos obtenidos fue de 677.5 libras.
a) Cul es la estimacin de la media del proceso (en trminos de libras por unidad) cuando
el proceso est bajo control?
b) Elabore una grfica de control x para este proceso si las muestras a utilizar son de tama-
o 5. Suponga que la desviacin estndar es 0.5 cuando el proceso est bajo control, y que
la media del proceso es la estimacin que se obtuvo en el inciso a).
20.2 Control estadstico de procesos 921
3. De 25 muestras de 100 artculos, cada uno inspeccionado cuando el proceso se considera que
funciona satisfactoriamente. En las 25 muestras se determin que un total de 135 artculos
estaba defectuoso.
a) Cul es la estimacin de la proporcin de defectos cuando el proceso est bajo control?
b) Cul sera el error estndar de la proporcin si muestras de tamao 100 se utilizaran para
el control estadstico de procesos?
c) Calcule los lmites de control superior e inferior de la grfica de control.
4. En un proceso del que se toman 20 muestras, cada una de tamao 8, resultan x ! 28.5 y R ! 1.6.
AUTO evaluacin Calcule los lmites de control superior e inferior para las grficas x y R de este proceso.
Aplicaciones
5. La temperatura se utiliza para medir el resultado de un proceso de produccin. Cuando ste
est bajo control, la media del proceso es ! 128.5 y la desviacin estndar es ! 0.4.
a) Elabore una grfica x para este proceso si las muestras que se utilizarn son de tamao 6.
b) El proceso est bajo control para una muestra de la que se obtienen los siguientes datos?
c) El proceso est bajo control para una muestra de la que se obtienen los siguientes datos?
6. En un proceso de control de calidad se supervisa el peso por paquete de un detergente para la-
vandera. Los lmites de control se establecen en UCL ! 20.12 onzas y LCL ! 19.90 onzas. Se
utilizan muestras de tamao 5 en el proceso de muestreo e inspeccin. Cules son la media del
proceso y el proceso de desviacin estndar para la operacin de manufactura?
7. Goodman Tire and Rubber Company realiza pruebas peridicas de desgaste (Tread Wear) de
los neumticos en la banda de rodamiento bajo condiciones de una carretera simulada. Para
estudiar y controlar el proceso de manufactura, 20 muestras (Sample), cada una con tres neu-
mticos radiales, fueron seleccionadas en diferentes turnos durante varios das de operacin,
con lo que se obtuvieron los siguientes resultados. Suponiendo que estos datos se recabaron
cuando el proceso de manufactura operaba bajo control, desarrolle las grficas de R y x.
*Centsimas de pulgada
922 Captulo 20 Mtodos estadsticos para el control de calidad
8. A lo largo de varias semanas de operacin normal, o bajo control, 20 muestras, cada una de
150 paquetes de cuerdas sintticas para raquetas de tenis, fueron analizadas para probar su
resistencia a la rotura. Como resultado, un total de 141 paquetes de 3 000 que se probaron no
se ajustan a las especificaciones del fabricante.
a) Cul es la estimacin de la proporcin de defectos durante el proceso cuando el sistema
est bajo control?
b) Calcule los lmites de control superior e inferior para una grfica p.
c) Con los resultados del inciso b), a qu conclusin se debe llegar acerca del proceso si en
las pruebas con una nueva muestra de 150 paquetes se encuentra que 12 estn defectuo-
sos? Parece haber causas imputables en esta situacin?
d) Calcule los lmites de control superior e inferior para una grfica np.
e) Responda el inciso c) utilizando los resultados del inciso d).
f ) Qu grfica de control sera preferible en esta situacin? Explique.
9. Un proveedor de la industria automotriz produce pistones para varios modelos de automvi-
les. Se analizaron 20 muestras, cada una compuesta de 200 pistones, con conocimiento de que
el proceso estaba funcionando correctamente. A continuacin se presentan los nmeros de
pistones defectuosos que se hallaron en la muestra.
8 10 6 4 5 7 8 12 8 15
14 10 10 7 5 8 6 10 4 8
a) Cul es la estimacin de la proporcin de unidades defectuosas cuando el proceso de
fabricacin del pistn est bajo control?
b) Elabore una grfica p para el proceso de fabricacin asumiendo que cada muestra tiene
200 pistones.
c) Con los resultados del inciso b), a qu conclusin se debe llegar si una muestra de 200
pistones tiene 20 defectuosos?
d) Calcule los lmites de control superior e inferior para una grfica np.
e) Responda el inciso c) con los resultados del inciso b).
Muestra seleccionada
Inspeccin de la calidad
de la muestra
de un lote de baja calidad. Sin embargo, como con los dems procedimientos de prueba de hi-
ptesis, hay que tener cuidado de no cometer un error tipo I (rechazar un lote de buena calidad)
o un error tipo II (aceptar un lote de baja calidad).
La probabilidad de cometer un error tipo I crea un riesgo para el productor del lote y se le
conoce como riesgo del productor. Por ejemplo, un riesgo del productor de 0.05 indica 5%
de probabilidad de que un lote de alta calidad sea errneamente rechazado. La probabilidad de
cometer un error tipo II, por el contrario, crea un riesgo para el consumidor del lote y se cono-
ce como riesgo del consumidor. Por ejemplo, un riesgo del consumidor de 0.10 significa que hay
10% de probabilidad de que un lote de baja calidad sea admitida por error y por tanto utilizado
en la produccin o entregado al cliente. Los valores especficos para los riesgos del productor
y del consumidor pueden ser controlados por la persona que disea el procedimiento de mues-
treo de aceptacin. Para ilustrar la forma de asignar valores de riesgo se considerar el proble-
ma de KALI, Inc.
n!
f (x) ! p x(1 " p)(n"x) (20.21)
x!(n " x)!
donde
n ! tamao de la muestra
p ! proporcin de artculos defectuosos en el lote
x ! nmero de artculos defectuosos en la muestra
f (x) ! probabilidad de x artculos defectuosos en la muestra
Para el plan de muestreo de aceptacin de KALI, n ! 15; por tanto, para un lote con 5% de
defectos (p ! 0.05) se tiene
15!
f (x) ! (0.05)x(1 " 0.05)(15"x) (20.22)
x!(15 " x)!
Al utilizar la ecuacin (20.22), f (0) proporcionar la probabilidad de que cero de los protectores
de sobrecarga estn defectuosos y que el lote sea aceptado. Respecto de la ecuacin (20.22),
recuerde que 0! ! 1. Por tanto, el clculo de probabilidad para f (0) es
15!
f (0) ! (0.05)0(1 " 0.05)(15"0)
0!(15 " 0)!
15!
! (0.05)0(0.95)15 ! (0.95)15 ! 0.4633
0!(15)!
Ahora ya se sabe que el plan de muestreo n ! 15, c ! 0 tiene una probabilidad de 0.4633 de
aceptacin de un lote con 5% de artculos defectuosos. Por tanto, debe existir una probabilidad
correspondiente de 1 " 0.4633 ! 0.5367 para rechazar un lote con 5% de artculos defectuosos.
La probabilidad binomial Las tablas de probabilidades binomiales (vea la tabla 5, anexo B) ayudan a reducir el es-
tambin puede calcularse fuerzo de clculo para determinar la probabilidad de aceptacin de lotes. Las probabilidades
utilizando Excel o Minitab.
binomiales seleccionadas para n ! 15 y n ! 20 figuran en la tabla 20.5. Usando esta tabla pode-
mos determinar que si el lote contiene 10% de artculos defectuosos, existe una 0.2059 probabili-
dad de que el plan de muestreo n ! 15, c ! 0 indicar que es aceptable. En la tabla 20.6 se
resume la probabilidad de que n ! 15, c ! 0 del plan de muestreo lleve a la aceptacin de un
lote con 1%, 2%, 3% . . . de artculos defectuosos.
Mediante el uso de las probabilidades de la tabla 20.6, se trazar una grfica de la proba-
bilidad de aceptar el lote con respecto al porcentaje de unidades defectuosas de un lote, como
se muestra en la figura 20.12. Esta grfica, o una curva, se llama la curva caracterstica de
operacin (OC) para el plan de muestreo de aceptacin n ! 15, c ! 0.
Tal vez deban considerarse otros planes de muestreo con diferentes tamaos n de muestra
o distintos criterios de aceptacin c. Considere primero el caso en que el tamao de la mues-
tra sigue siendo n ! 15, pero el criterio de aceptacin aumenta de c ! 0 a c ! 1. Es decir, ahora
se aceptar el lote si se encuentran en la muestra 0 o 1 componente defectuoso. Para un lote
con 5% de artculos defectuosos (p ! 0.05), la tabla 20.5 indica que con n ! 15 y p ! 0.05,
f (0) ! 0.4633 y f (1) ! 0.3658. Por tanto, existe una 0.4633 # 0.3658 ! 0.8291 probabilidad
de que el plan de muestreo n ! 15, c ! 1 conduzca a la aceptacin de un lote con 5% de ar-
tculos defectuosos.
926 Captulo 20 Mtodos estadsticos para el control de calidad
p
n x 0.01 0.02 0.03 0.04 0.05 0.10 0.15 0.20 0.25
15 0 0.8601 0.7386 0.6333 0.5421 0.4633 0.2059 0.0874 0.0352 0.0134
1 0.1303 0.2261 0.2938 0.3388 0.3658 0.3432 0.2312 0.1319 0.0668
2 0.0092 0.0323 0.0636 0.0988 0.1348 0.2669 0.2856 0.2309 0.1559
3 0.0004 0.0029 0.0085 0.0178 0.0307 0.1285 0.2184 0.2501 0.2252
4 0.0000 0.0002 0.0008 0.0022 0.0049 0.0428 0.1156 0.1876 0.2252
5 0.0000 0.0000 0.0001 0.0002 0.0006 0.0105 0.0449 0.1032 0.1651
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0019 0.0132 0.0430 0.0917
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0003 0.0030 0.0138 0.0393
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0035 0.0131
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0007 0.0034
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0007
20 0 0.8179 0.6676 0.5438 0.4420 0.3585 0.1216 0.0388 0.0115 0.0032
1 0.1652 0.2725 0.3364 0.3683 0.3774 0.2702 0.1368 0.0576 0.0211
2 0.0159 0.0528 0.0988 0.1458 0.1887 0.2852 0.2293 0.1369 0.0669
3 0.0010 0.0065 0.0183 0.0364 0.0596 0.1901 0.2428 0.2054 0.1339
4 0.0000 0.0006 0.0024 0.0065 0.0133 0.0898 0.1821 0.2182 0.1897
5 0.0000 0.0000 0.0002 0.0009 0.0022 0.0319 0.1028 0.1746 0.2023
6 0.0000 0.0000 0.0000 0.0001 0.0003 0.0089 0.0454 0.1091 0.1686
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0020 0.0160 0.0545 0.1124
8 0.0000 0.0000 0.0000 0.0000 0.0000 0.0004 0.0046 0.0222 0.0609
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0011 0.0074 0.0271
10 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0020 0.0099
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0005 0.0030
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0008
Al continuar con estos clculos se obtiene la figura 20.13, que presenta las curvas caracte-
rsticas de operacin de cuatro planes alternos de muestreo de aceptacin para el problema de
KALI. Se consideraron muestras de tamao 15 y 20. Observe que independientemente de la pro-
porcin de unidades defectuosas en el lote, el plan de muestreo n ! 15, c ! 1 proporciona la
mayor probabilidad de aceptarlo. El plan de muestreo n ! 20, c ! 0 ofrece la menor probabili-
dad de aceptar el lote; sin embargo, el plan tambin prev la ms alta probabilidad de rechazarlo.
1.00
0.90
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0 5 10 15 20 25
Porcentaje de defectos en el lote
FIGURA 20.13 Curvas caractersticas de operacin para cuatro planes de muestreo de aceptacin
1.00
0.90
Probabilidad de aceptacin del lote
0.80 n ! 15, c ! 1
0.70
0.60
0.50
0.40
n ! 20, c ! 1
0.30
n ! 20, c ! 0
0.20
0.10 n ! 15, c ! 0
0 5 10 15 20 25
Porcentaje de defectos en el lote
928 Captulo 20 Mtodos estadsticos para el control de calidad
Suponga que para el problema de KALI, los gerentes especifican que p0 ! 0.03 y p1 ! 0.15. De
la curva OC para n ! 15, c ! 0 en la figura 20.14, vemos que p0 ! 0.03 provee un riesgo del
productor de aproximadamente 1 " 0.63 ! 0.37, y p1 ! 0.15 proporciona un riesgo del consu-
midor de aproximadamente 0.09. Por tanto, si los gerentes estn dispuestos a tolerar tanto una
0.37 probabilidad de rechazar un lote con 3% de artculos defectuosos (riesgo del productor) co-
mo una 0.09 probabilidad de aceptar un lote con 15% de artculos defectuosos (riesgo del con-
sumidor), el plan de muestreo de aceptacin n ! 15, c ! 0 ser aceptable.
Suponga, sin embargo, que los gerentes desean que el riesgo del productor sea ! 0.10
y el riesgo del consumidor sea ! 0.20. Observamos que ahora el plan de muestreo n ! 15,
c ! 0 tiene un riesgo del consumidor mejor que el deseado, pero un riesgo del productor dema-
siado grande para aceptarlo. El hecho de que ! 0.37 indica que 37% de los lotes ser re-
chazado errneamente cuando slo 3% de los artculos que contienen son defectuosos. El riesgo
del productor es demasiado alto y se tendr que considerar un plan diferente de muestreo de
aceptacin.
FIGURA 20.14 Curva caracterstica de operacin para n ! 15, c ! 0 con p0 ! 0.03 y p1 ! 0.15
1.00
0.90
riesgo del productor
Probabilidad de aceptacin del lote
0.40
0.30
0.20
0.10
0 5 10 15 20 25
p0 p1
Porcentaje defectos en el lote
20.3 Muestreo de aceptacin 929
El ejercicio 13 al final En la figura 20.13 se observa que para p0 ! 0.03, ! 0.10, p1 ! 0.15 y ! 0.20, el plan
de esta seccin le pedir de muestreo de aceptacin con n ! 20 y c ! 1 est ms cerca de satisfacer los requerimien-
calcular los riesgos del
productor y el riesgo
tos de riesgo tanto del productor como del consumidor.
del consumidor para el Como se muestra en esta seccin, puede ser necesario considerar varios clculos y varias
plan de muestreo de curvas caractersticas de operacin para determinar un plan de muestreo con el riesgo deseado
n ! 20 y c ! 1. para el productor y el consumidor. Por fortuna, ya exiten tablas de los planes de muestreo pu-
blicadas. Por ejemplo, la American Military Standard Table, MIL-STD-05D, ofrece informacin
til para el diseo de planes de muestreo de aceptacin. Los libros ms avanzados sobre control
de calidad, como los que figuran en la bibliografa, describen el uso de dichas tablas. En estos
libros tambin se estudia la funcin de los costos de muestreo para determinar un plan ptimo.
Muestra de n 1
artculos
Encontrar x 1
artculos defectuosos
en esta muestra
Es S Aceptar
x 1 ! c1
el lote
?
No
S Es
Rechazar
x 1 " c2
el lote
?
No
Muestra de n 2
artculos adicionales
Buscar x 2
artculos defectuosos
en la muestra
No Es S
x1 # x 2 ! c3
?
930 Captulo 20 Mtodos estadsticos para el control de calidad
NOTAS Y COMENTARIOS
Ejercicios
Mtodos
10. Para un plan de muestreo de aceptacin con n $ 25 y c $ 0, determine la probabilidad de
AUTO evaluacin aceptar un lote que tiene un porcentaje de defectos de 2. Cul es la probabilidad de aceptarlo
si la tasa de defectos es de 6%?
11. Considere un plan de muestreo de aceptacin con n $ 20 y c $ 0. Calcule el riesgo del pro-
ductor para cada uno de los siguientes casos.
a) El porcentaje de defectos que tiene el lote es de 2%.
b) El porcentaje de defectos que tiene el lote es de 6%.
12. Repita el ejercicio 11 para el plan de muestreo de aceptacin con n $ 20 y c $ 1. Qu sucede
con el riesgo del productor cuando aumenta el nmero de aceptacin de c? Explique.
Glosario 931
Aplicaciones
13. Consulte el problema de KALI presentado en esta seccin. El gerente de control de calidad requi-
ri un riesgo del productor de 0.10 cuando p0 fue de 0.03 y un riesgo del consumidor de 0.20
cuando p1 fue de 0.15. Considere un plan de muestreo de aceptacin basado en una muestra de
tamao 20 y un nmero de aceptacin de 1. Conteste las siguientes preguntas.
a) Cul es el riesgo del productor si el plan de muestreo es n $ 20, c $ 1?
b) Cul es el riesgo del consumidor con el mismo que en a) plan de muestreo?
c) El plan de muestreo n $ 20, c $ 1 satisface el riesgo requerido por el gerente de control
de calidad? Comente.
14. Para inspeccionar un pedido de materia prima, el fabricante estudia muestras de tamaos 10,
15 y 20. Utilice las probabilidades binomiales de la tabla 5 del apndice B para seleccionar un
plan de muestreo que proporcione un riesgo del productor de $ 0.03 cuando p0 es 0.05, y
un riesgo del consumidor de $ 0.12 cuando p1 es 0.30.
15. Un fabricante nacional de relojes compra cristales de cuarzo a una empresa suiza. Los cristales
son enviados en lotes de 1 000. El procedimiento de muestreo de aceptacin utiliza 20 cris-
tales elegidos al azar.
a) Trace las curvas caractersticas de operacin para los nmeros de aceptacin de 0.1, y 2.
b) Si p0 es 0.01 y p1 $ 0.08, cules son los riesgos del productor y del consumidor con cada
uno de los planes de muestreo del inciso a)?
Resumen
En este captulo se estudi cmo utilizar el mtodo estadstico en el control de calidad. En pri-
mer lugar se presentaron las grficas de control de x, R, p y np como ayudas grficas para
monitorear el proceso de calidad. En cada una de estas grficas se establecen los lmites de con-
trol; se seleccionan muestras peridicamente, y se grafican los puntos de los datos en la grfica
de control. Los puntos de datos fuera de los lmites de control indican que el proceso est fue-
ra de control y que debe aplicarse la accin correctiva. Los patrones de puntos de datos que se
encuentran dentro de los lmites de control tambin indican posibles problemas en el control de
calidad y sugieren que se apliquen acciones correctivas.
Tambin se consider la tcnica conocida como muestreo de aceptacin. Con este proce-
dimiento se selecciona una muestra y se inspecciona. El nmero de artculos defectuosos en la
muestra proporciona la base para aceptar o rechazar el lote. El tamao de la muestra y el criterio
de aceptacin se pueden ajustar para controlar tanto el riesgo del productor (error tipo I) como
el riesgo del consumidor (error tipo II).
Glosario
Calidad total (TQ) Enfoque total del sistema para mejorar la satisfaccin del cliente y reducir
los costos reales por medio de una estrategia de mejora y aprendizaje continuos.
Causas comunes Variaciones normales o naturales en los resultados de un proceso que se
deben nicamente a la casualidad. Ninguna accin correctiva es necesaria cuando las variacio-
nes en los resultados de un proceso se deben a causas comunes.
Causas imputables Variaciones en los resultados de un proceso atribuibles a factores como
desgaste de la maquinaria, una configuracin incorrecta de la mquina, materia prima de baja
calidad, errores del operador, y as sucesivamente. La accin correctiva se debe aplicar cuando
se detectan las causas imputables en la variacin del resultado.
Control de calidad Serie de inspecciones y mediciones que determinan si se cumplen los
estndares de calidad.
Criterio de aceptacin Nmero mximo de artculos defectuosos que se pueden encontrar en
la muestra y que a pesar de ello indican que se acepte un lote.
Curva caracterstica de operacin (OC) Grfica en la que se muestra la probabilidad de acep-
tar un lote en funcin del porcentaje de artculos defectuosos que contiene. Esta curva se utiliza
para determinar si un plan de muestreo de aceptacin particular satisface los requerimientos de
riesgo tanto del productor como del consumidor.
932 Captulo 20 Mtodos estadsticos para el control de calidad
Grfica de control Herramienta grfica que se utiliza para ayudar a determinar si un proceso
est bajo control o fuera de control.
Grfica np Grfica de control que supervisa la calidad de los resultados de un proceso en
trminos del nmero de artculos defectuosos.
Grfica p Grfica de control que se utiliza para medir la calidad de los resultados de un pro-
ceso en trminos de la proporcin de unidades defectuosas.
Grfica R Grfica de control que mide la calidad del resultado de un proceso en trminos del
rango de una variable.
Grfica x Grfica de control que se utiliza cuando se mide la calidad de los resultados de un
proceso en trminos del valor medio de una variable, como longitud, peso, temperatura, etctera.
Lote Conjunto de artculos, como embarques recibidos de materia prima o piezas compradas,
as como bienes terminados para ensamblar un producto final.
Muestreo de aceptacin Mtodo estadstico en el que se utiliza el nmero de artculos defec-
tuosos en una muestra para determinar si un lote debe ser aceptado o rechazado.
Plan de muestreo mltiple Forma de muestreo de aceptacin en la que se utiliza ms de una
muestra o etapa. Con base en el nmero de artculos defectuosos que se encuentra en una mues-
tra, se decide si se acepta o rechaza el lote, o si se contina con el muestreo.
Riesgo del consumidor Riesgo de aceptar un lote de buena calidad; error tipo II.
Riesgo del productor Riesgo de rechazar un lote de buena calidad; error tipo I.
Six Sigma Metodologa que utiliza la medicin y el anlisis estadstico para lograr un nivel de
calidad tan bueno, que por cada milln de oportunidades no haya ms de 3.4 defectos.
Frmulas clave
Rango promedio
p(1 % p)
p $ (20.16)
n
n!
f (x) $ p x(1 % p)(n%x) (20.21)
x!(n % x)!
Ejercicios complementarios
16. Muestras de tamao 5 proporcionaron las siguientes 20 medias muestrales para un proceso de
produccin que se considera bajo control.
95.72 95.24 95.18
95.44 95.46 95.32
95.40 95.44 95.08
95.50 95.80 95.22
95.56 95.22 95.04
95.72 94.82 95.46
95.60 95.78
a) Con base en estos datos, cul es la estimacin de la media cuando el proceso est bajo
control?
b) Suponga que la desviacin estndar del proceso es $ 0.50. Desarrolle la grfica de con-
trol x para este proceso de produccin. Suponga que la media del proceso es la estimacin
desarrollada en el inciso a).
c) Algunas de las 20 medias muestrales indican que el proceso est fuera de control?
17. En un proceso, los pesos de llenado se distribuyen normalmente con una media de 350 gramos
y una desviacin estndar de 15 gramos.
a) Obtenga los lmites de control de la grfica x para muestras de tamao 10, 20 y 30.
b) Qu le sucede a los lmites de control a medida que aumenta el tamao de la muestra?
c) Qu ocurre cuando se comete un error tipo I?
d) Qu sucede si se comete un error tipo II?
e) Cul es la probabilidad de cometer un error tipo I con muestras de tamao 10, 20 y 30?
f ) Cul es la ventaja de aumentar el tamao de la muestra para los propsitos de una grfica
de control? Qu probabilidad de error se reduce conforme este tamao se incrementa?
18. Con 25 muestras de tamao 5 se obtuvieron x $ 5.42 y R $ 2.0. Calcule los lmites de control
de las grficas x y R, y estime la desviacin estndar del proceso.
19. Los datos de control de calidad que se presentan en la primera tabla de la pgina siguiente se
obtuvieron de un proceso de manufactura en Kensport Chemical Company. Los datos muestran
la temperatura en grados centgrados medida en cinco puntos durante un ciclo de manufactura.
La empresa est interesada en emplear grficas de control para monitorear la temperatura de su
proceso de manufactura. Construya las grficas x y R. A qu conclusin se puede llegar acerca
de la calidad del proceso?
934 Captulo 20 Mtodos estadsticos para el control de calidad
Muestra x R Muestra x R
1 95.72 1.0 11 95.80 0.6
2 95.24 .9 12 95.22 0.2
3 95.18 .8 13 95.56 1.3
4 95.44 .4 14 95.22 0.5
5 95.46 .5 15 95.04 0.8
6 95.32 1.1 16 95.72 1.1
7 95.40 .9 17 94.82 0.6
8 95.44 .3 18 95.46 0.5
9 95.08 .2 19 95.60 0.4
10 95.50 .6 20 95.74 0.6
20. Los siguientes datos se obtuvieron del proceso de produccin de Master Blend Cofee y repre-
sentan las cinco observaciones (Observations) de 10 muestras (Sample) de los pesos de llenado
de latas de caf de 3 libras. Utilice estos datos para construir las cartas x y R. A qu conclusin
se puede llegar sobre la calidad del proceso de produccin?
Observations
Sample 1 2 3 4 5
1 3.05 3.08 3.07 3.11 3.11
WEB archivo 2
3
3.13
3.06
3.07
3.04
3.05
3.12
3.10
3.11
3.10
3.10
Coffee 4 3.09 3.08 3.09 3.09 3.07
5 3.10 3.06 3.06 3.07 3.08
6 3.08 3.10 3.13 3.03 3.06
7 3.06 3.06 3.08 3.10 3.08
8 3.11 3.08 3.07 3.07 3.07
9 3.09 3.09 3.08 3.07 3.09
10 3.06 3.11 3.07 3.09 3.07
21. Considere las siguientes situaciones. Opine acerca de si la situacin podra ser motivo de preo-
cupacin debido a la calidad del proceso.
a) En una grfica p se tiene LCL $ 0 y UCL $ 0.068. Cuando el proceso est bajo control, la
proporcin de unidades defectuosas es 0.033. Represente grficamente los siguientes siete
resultados de la muestra: 0.035, 0.062, 0.055, 0.049, 0.058, 0.066 y 0.055. Comente.
b) En una grfica x se tiene LCL $ 22.2 y UCL $ 24.5. La media es $ 23.35 cuando el
proceso est bajo control. Represente grficamente los siguientes siete resultados de la
muestra: 22,4, 22.6, 22.65, 23.2, 23.4, 23.85 y 24.1. Comente.
22. Dos veces al mes los gerentes de 1 200 comercios minoristas distintos ordenan pedidos de
reposicin de existencias a la casa matriz. La experiencia pasada demuestra que 4% de los pedi-
dos result con uno o ms errores, como el envo de artculos equivocados, cantidad del envo
incorrecta y el artculo solicitado pero no enviado. Cada mes, muestras aleatorias de pedidos
200 son seleccionadas y se verifica su exactitud.
a) Construya una grfica de control para esta situacin.
b) Los datos de los ltimos seis meses muestran los siguientes nmeros de los pedidos con
uno o varios errores: 10, 15, 6, 13, 8 y 17. Disponga estos datos en una grfica de control.
Qu indica la grfica acerca de este proceso de pedido?
23. Se est considerando un plan de muestreo de aceptacin con n $ 10, c $ 2. Suponga que
p0 $ 0.05 y p1 $ 0.20.
a) Calcule los riesgos tanto del productor como del consumidor en este plan de muestreo de
aceptacin.
b) Estar inconforme el productor, el consumidor, o ambos, con el plan de muestreo pro-
puesto?
c) Recomendara algn cambio en su plan de muestreo?
Apndice 20.2 Cartas de control al utilizar StatTools 935
24. Un plan de muestreo de aceptacin fue diseado con n $ 15 y c $ 1, con un riesgo del pro-
ductor de 0.075.
a) Cul es el valor de p0 0.01, 0.02, 0.03, 0.04 o 0.05? Qu significa este valor?
b) Cul es el riesgo del consumidor asociado con este plan si p1 es 0.25?
25. Un fabricante elabora productos alimenticios enlatados. Sea p la proporcin de los lotes que no
cumplen con las especificaciones de calidad del producto. El plan de muestreo de aceptacin
utilizar n $ 25, c $ 0.
a) Calcule los puntos en la curva caractersticas de operacin cuando p $ 0.01, 0.03, 0.10 y
0.20.
b) Trace la curva caracterstica de operacin.
c) Cul es la probabilidad de que el plan de muestreo de aceptacin rechace un lote que
contenga 0.01 defectos?
1
Minitab proporciona pruebas adicionales para detectar causas especiales de variacin, as como las situaciones fuera de
control. El usuario puede seleccionar varios de estos anlisis de forma simultnea.
936 Captulo 20 Mtodos estadsticos para el control de calidad
conjunto de datos con StatTools mediante el procedimiento descrito en el apndice del cap-
tulo 1. Los pasos siguientes describen cmo utilizar StatTools para elaborar las grficas de
control.
Aparecer una grfica x similar a la de la figura 20.7. Luego seguir una grfica R similar a la
de la figura 20.8.
A B C D E F G
1 Sample Observation 1 Observation 2 Observation 3 Observation 4 Observation 5
2 1 3.5056 3.5086 3.5144 3.5009 3.5030
3 2 3.4882 3.5085 3.4884 3.5250 3.5031
4 3 3.4897 3.4898 3.4995 3.5130 3.4969
5 4 3.5153 3.5120 3.4989 3.4900 3.4837
6 5 3.5059 3.5113 3.5011 3.4773 3.4801
7 6 3.4977 3.4961 3.5050 3.5014 3.5060
8 7 3.4910 3.4913 3.4976 3.4831 3.5044
9 8 3.4991 3.4853 3.4830 3.5083 3.5094
10 9 3.5099 3.5162 3.5228 3.4958 3.5004
11 10 3.4880 3.5015 3.5094 3.5102 3.5146
12 11 3.4881 3.4887 3.5141 3.5175 3.4863
13 12 3.5043 3.4867 3.4946 3.5018 3.4784
14 13 3.5043 3.4769 3.4944 3.5014 3.4904
15 14 3.5004 3.5030 3.5082 3.5045 3.5234
16 15 3.4846 3.4938 3.5065 3.5089 3.5011
17 16 3.5145 3.4832 3.5188 3.4935 3.4989
18 17 3.5004 3.5042 3.4954 3.5020 3.4889
19 18 3.4959 3.4823 3.4964 3.5082 3.4871
20 19 3.4878 3.4864 3.4960 3.5070 3.4984
21 20 3.4969 3.5144 3.5053 3.4985 3.4885
22
CAPTULO 21
Anlisis de decisiones
CONTENIDO 21.3 ANLISIS DE DECISIONES
ESTADSTICA EN LA PRCTICA: CON INFORMACIN
OHIO EDISON COMPANY MUESTRAL
rbol de decisin
21.1 FORMULACIN Estrategia de decisin
DEL PROBLEMA Valor esperado de la informacin
Tablas de pagos muestral
rboles de decisin
21.4 CLCULO DE
21.2 TOMA DE DECISIONES PROBABILIDADES
CON PROBABILIDADES MEDIANTE EL TEOREMA
Mtodo del valor esperado DE BAYES
Valor esperado de la informacin
perfecta
938 Captulo 21 Anlisis de decisiones
ESTADSTICA en LA PRCTICA
OHIO EDISON COMPANY*
AKRON, OHIO
Ohio Edison Company es una empresa de FirstEnergy Cor-
poration. Ohio Edison y su subsidiaria, Pennsylvania Power
Company, suministran energa elctrica a ms de un mi-
lln de clientes en el centro y noreste de Ohio y en el oeste
de Pensilvania. La mayor parte de la electricidad es gene-
rada mediante plantas de combustin de carbn. Debido
a la evolucin de los requerimientos sobre el control de
la contaminacin, Ohio Edison participa en un programa
para remplazar el equipo de control de contaminacin en
la mayora de sus plantas generadoras.
Para cumplir con los nuevos lmites de emisin de
dixido de azufre en una de sus plantas de energa ms
grandes, la empresa decidi quemar carbn bajo en azufre
en cuatro de las unidades ms pequeas de la planta as
Las plantas de Ohio Edison suministran energa elctrica
como instalar filtros de tela para controlar las emisiones de a ms de un milln de usuarios Don Farrall Getty Images/
partculas. Dichos filtros usan miles de bolsas de tela para PhotoDisc.
filtrar partculas y funcionan de la misma forma que una
aspiradora casera.
Se consider probable, aunque no seguro, que en las de los nuevos equipos de control de la contaminacin. Un
tres unidades ms grandes de la planta se quemara car- anlisis del rbol de decisin condujo a las conclusiones
bn con medio a alto contenido de azufre. Estudios preli- siguientes.
minares redujeron la eleccin del equipo para partculas de
estas unidades ms grandes a filtros de tela y precipitadores El valor esperado de los ingresos anuales requeri-
dos para los precipitadores electrostticos repre-
electrostticos (que eliminan las partculas suspendidas en
sentaba aproximadamente $1 milln menos que
los gases de combustin pasndolas a travs de un campo
por los filtros de tela.
elctrico fuerte). Entre las incertidumbres que afectaran
la eleccin final estaban la forma en que podan interpre- Los filtros de tela tenan una mayor probabilidad de
requerir altos ingresos que los precipitadores elec-
tarse algunas leyes y normas de calidad del aire, los futuros
trostticos.
cambios potenciales en las leyes y normas de la calidad del
aire, y las fluctuaciones en los costos de construccin. Los precipitadores electrostticos tenan casi 0.8
de probabilidad de tener menores necesidades de
Dada la complejidad del problema, el alto grado de
ingresos anuales.
incertidumbre relacionado con factores que influyen en
la decisin y el impacto del costo para Ohio Edison, en el Estas conclusiones llevaron a Ohio Edison a elegir los pre-
proceso de eleccin se utiliz el anlisis de decisiones. Se cipitadores electrostticos para las unidades generadoras
desarroll una descripcin grfica del problema, llamado en cuestin. De no haberse llevado a cabo el anlisis de
rbol de decisin. La medida empleada para evaluar los decisiones, la toma de decisiones respecto de las partculas
resultados representados en el rbol de decisin consisti se habra basado principalmente en el costo de capital, una
en los requerimientos de los ingresos anuales para las tres medida de decisin que favoreca la opcin del equipo de
grandes unidades durante su vida restante. Las necesidades filtro de tela. Se consider que el anlisis de decisiones
de ingresos representaron las cantidades de dinero que ten- identific la opcin tanto para los menores ingresos espera-
dran que ser recaudadas de los clientes de servicios pbli- dos como para el menor riesgo.
cos para recuperar los costos generados por la instalacin En este captulo se presenta la metodologa del anlisis
de decisiones que utiliz Ohio Edison. La atencin se centra
* Agradecemos a los autores Thomas J. Madden y M. S. Hyrnick, de en mostrar cmo este anlisis permite identificar la mejor
Ohio Edison Company, por proporcionar este material para Estadstica alternativa de decisin dado un patrn de incertidumbre o
en la prctica. lleno de riesgo en los eventos futuros.
21.1 Formulacin del problema 939
El anlisis de decisiones puede utilizarse para desarrollar una estrategia ptima de decisin
cuando quien decide se enfrenta a varias alternativas y a un patrn lleno de incertidumbre o de
riesgo en torno de los eventos futuros. El estudio de este anlisis inicia considerando los pro-
blemas que implican razonablemente pocas alternativas de decisin y razonablemente pocos
eventos futuros. Se presentarn las tablas de pagos que proporcionan una estructura a los proble-
mas de decisin. Despus se presentarn rboles de decisin para mostrar el carcter secuencial
de los problemas. Estos rboles permiten analizar los problemas ms complejos e identificar
una secuencia ptima de decisiones, a la que se le conoce como estrategia ptima de decisin.
En la ltima seccin se muestra cmo utilizar el teorema de Bayes, presentado en el captulo 4,
En el sitio web de este
libro se proporcionan para calcular las probabilidades de los rboles de decisin. El apndice del captulo ofrece una
instrucciones para introduccin a PrecisionTree, un complemento de Excel que permite desarrollar y analizar los
descargar e instalar rboles de decisin.
PrecisionTree .
Los gerentes debern elegir, primero, una alternativa de decisin (tamao del complejo), a
la cual seguir un estado de la naturaleza (la demanda de los condominios), y finalmente se
tendr una consecuencia. En este caso, la consecuencia son las utilidades que obtendr PDC.
Tablas de pagos
Dadas las tres alternativas de decisin y los dos estados de la naturaleza, qu tamao del com-
plejo debe elegir PDC? Para responder esta pregunta, la empresa necesita conocer la consecuen-
cia relacionada con cada alternativa de decisin y cada estado. En el anlisis de decisiones, nos
referimos a la consecuencia resultante de la combinacin especfica de una alternativa de deci-
sin y un estado como un pago. La tabla que muestra los pagos para todas las combinaciones de
las alternativas de decisin y los estados de la naturaleza es una tabla de pagos.
Los pagos pueden Debido a que PDC desea elegir el tamao del complejo que le proporcione una mayor uti-
expresarse en trminos
de utilidad, costo, tiempo,
lidad, sta se usa como consecuencia. La tabla de pagos junto con las utilidades expresadas
distancia o cualquier otra en millones de dlares se muestra en la tabla 21.1. Observe, por ejemplo, que si se construye
medida apropiada para que un complejo mediano y la demanda resulta ser alta, se tendr una utilidad de $14 millones. Se
el problema de decisin sea utilizar la notacin Vij para denotar la utilidad relacionada con la alternativa de decisin i y el
analizado.
estado de la naturaleza j. Al utilizar la tabla 21.1, V31 $ 20 significa que se tendr un pago de
$20 millones si la decisin es construir un complejo grande (d3) y la demanda que presenta el
estado de la naturaleza es alta (s1). De manera similar, V32 $ %9 significa una prdida de 9 mi-
llones si la decisin es construir un complejo grande (d3) y se presenta un estado de la naturaleza
de baja demanda (s2) .
rboles de decisin
Un rbol de decisin muestra grficamente el carcter secuencial del proceso de toma de
decisiones. En la figura 21.1 se presenta un rbol de decisin para el problema de PDC, lo que de-
muestra el carcter o la progresin lgica que se presentar con el tiempo. En primer lugar,
PDC deber tomar una decisin con respecto al tamao del condominio (d1, d2, d3). Despus de
tomada sta, se presentar ya sea el estado de la naturaleza s1 o s2. El nmero que aparece en
cada punto extremo del rbol indica el pago relacionado con una secuencia en particular. Por
ejemplo, el pago 8 que se encuentra ms arriba indica que se espera una utilidad de $8 millo-
nes si PDC construye un complejo de condominios pequeo (d1) y la demanda resulta ser alta
(s1). El pago siguiente, 7, significa que se espera una utilidad de $7 millones si PDC construye
un complejo pequeo (d1) y la demanda resulta ser baja (s2). Por tanto, el rbol de decisin
muestra grficamente las secuencias de alternativas de decisin y los estados de la naturaleza
que proporcionan los seis posibles pagos.
El rbol de la figura 21.1 tiene cuatro nodos, numerados del 1 al 4, que representan las
decisiones y eventos aleatorios. Los cuadrados describen los nodos de decisin y los crculos
representan los nodos aleatorios. As, el nodo 1 es un nodo de decisin, y los nodos 2, 3 y 4 son
aleatorios. Las ramas que salen del nodo de decisin corresponden a las alternativas de deci-
sin. Las subramas que salen de cada nodo aleatorio corresponden a los estados de la naturaleza.
Los pagos se muestran al final de las ramas de los estados. Ahora se vuelve a la pregunta: La
TABLA 21.1 Tabla de pagos para el proyecto del condominio de PDC (pagos en millones
de dlares)
Estado de la naturaleza
Alternativa de decisin Demanda alta s1 Demanda baja s2
Complejo pequeo, d1 8 7
Complejo mediano, d2 14 5
Complejo grande, d3 20 %9
21.2 Toma de decisiones con probabilidades 941
FIGURA 21.1 rbol de decisin para el proyecto de condominio de PDC (pagos en millones
de dlares)
Alta (s1)
8
Pequeo (d1)
2
Baja (s2)
7
Alta (s1)
14
Mediano (d2)
1 3
Baja (s2)
5
Alta (s1)
20
Grande (d3)
4
Baja (s2)
9
persona que toma la decisin cmo puede utilizar la informacin de la tabla de pagos o del rbol
de decisin para elegir la mejor alternativa de decisin?
NOTAS Y COMENTARIOS
1. Los expertos estn de acuerdo en que el primer 2. Las personas suelen ver el mismo problema desde
paso en la solucin de un problema complejo es distintas perspectivas. Por tanto, la discusin en
descomponerlo en una serie de subproblemas me- torno al desarrollo de un rbol de decisin puede
nores. Los rboles de decisin proporcionan una proporcionar una idea adicional sobre el problema
manera til de demostrar cmo descomponer un en cuestin.
problema y el carcter secuencial del proceso de
decisin.
Debido a que uno y slo uno de los N estados de la naturaleza puede presentarse, las probabili-
dades deben satisfacer las dos condiciones siguientes.
Las probabilidades para P(sj) ' 0 por todos los estados de la naturaleza (21.1)
los estados de la naturaleza
VALOR ESPERADO
VE(di) $ a P(sj)Vij
N
(21.3)
j$1
donde
Es decir, el valor esperado de una alternativa de decisin es la suma de los pagos pondera-
dos para la alternativa de decisin. El peso de ponderacin para un pago es la probabilidad del
estado de la naturaleza relacionado y por tanto la probabilidad de que el pago se presente. Vuelva
al problema de PDC para ver cmo se puede aplicar el mtodo del valor esperado.
La constructora es optimista sobre el potencial para el complejo de condominios de lujo de
gran altura. Este optimismo la lleva a una evaluacin subjetiva de la probabilidad 0.8 inicial
de que la demanda ser alta (s1) y a la correspondiente probabilidad 0.2 de que la demanda ser
baja (s2). Por tanto, P(s1) $ 0.8 y P(s2) $ 0.2. Utilizando los valores de pago de la tabla 21.1 y
la ecuacin (21.3), se calcula el valor esperado para cada una de las tres alternativas de decisin
de la siguiente manera.
De esta manera, con el mtodo del valor esperado se encuentra que el complejo de condomi-
nios grande, con un valor esperado de $14.2 millones, es la decisin recomendada.
Los clculos necesarios para identificar la alternativa de decisin con el mejor valor espe-
rado pueden ser convenientemente efectuados con un rbol de decisin. En la figura 21.2 se
muestra el rbol de decisin para el problema de PDC con las probabilidades en las ramas de
los estados de la naturaleza. Al trabajar de atrs para adelante en el rbol, primero se calcula el
valor esperado en cada nodo; es decir, en cada nodo se pondera cada posible pago multiplicado
por la probabilidad de que ocurra. De este modo se obtiene el valor esperado para los nodos 2,
3 y 4 que se muestra en la figura 21.3.
Debido a que quien toma decisiones controla la rama que sale del nodo 1 de decisin y
se est tratando de maximizar la utilidad esperada, la mejor alternativa de decisin en el nodo
1 es d3. Por tanto, el anlisis del rbol de decisin lleva a la recomendacin de d3 con un valor
esperado de $14.2 millones. Observe que esta recomendacin tambin se obtiene con el mtodo
del valor esperado junto con la tabla de pagos.
Existe software para apoyar Otros problemas de decisin pueden ser bastante ms complejos que el de PDC, pero si un
la construccin de rboles nmero razonable de alternativas de decisin y de estados de la naturaleza est presente, se po-
de decisin ms complejos.
dr utilizar el mtodo del rbol de decisin que se describe aqu. En primer lugar, dibuje un
rbol que incluya nodos de decisin, nodos aleatorios y ramas que describan el carcter secuen-
cial del problema. Si se utiliza el mtodo del valor esperado, el siguiente paso es determinar las
21.2 Toma de decisiones con probabilidades 943
FIGURA 21.2 rbol de decisin del problema de PDC con las probabilidades de estado de la
naturaleza
Alta (s1)
8
Pequeo (d1) P(s1) $ 0.8
2
Baja (s2)
7
P(s2) $ 0.2
Alta (s1)
14
Mediano (d2 ) P(s1) $ 0.8
1 3
Baja (s2)
5
P(s2) $ 0.2
Alta (s1)
20
Grande (d3) P(s1) $ 0.8
4
Baja (s2)
%9
P(s2) $ 0.2
probabilidades de cada uno de los estados y calcular el valor esperado en cada nodo aleatorio.
Despus se elige la rama de decisin que lleva al nodo aleatorio con el mayor valor esperado.
La alternativa de decisin que corresponde a esta rama es la decisin recomendada.
FIGURA 21.3 Aplicacin del mtodo del valor esperado utilizando rboles de decisin
Pequeo (d 1)
2 VE(d 1) ! 0.8(8) " 0.2(7) ! $7.8
Mediano (d 2)
1 3 VE(d 2) ! 0.8(14) " 0.2(5) ! $12.2
Grande (d 3)
4 VE(d 3) ! 0.8(20) " 0.2(#9) ! $14.2
944 Captulo 21 Anlisis de decisiones
sobre los estados de la naturaleza; es decir, se asume que por el momento PDC podra determinar
con certeza, antes de tomar una decisin, qu estado ocurrir. Para hacer uso de la informacin
perfecta, se desarrollar una estrategia de decisin que PDC debe seguir una vez que sabe qu
estado de la naturaleza ocurrir. Una estrategia de decisin es simplemente una regla de decisin
que especifica la alternativa a elegir despus de disponer de la nueva informacin.
Para ayudar a determinar la estrategia de decisin que deber seguir PDC, se reproduce la
tabla de pagos 21.2 de PDC. Observe que si la inmobiliaria supiera con seguridad que se pre-
sentara el estado s1, la mejor alternativa de decisin sera d3, cuyo pago sera de $20 millones.
Del mismo modo, si supiera con seguridad que se presentara el estado s2, la mejor alternativa
de decisin sera d1, con un pago de $7 millones. Por consiguiente, se podra determinar la es-
trategia de decisin ptima si PDC contara con la informacin perfecta de la siguiente manera.
Cul es el valor esperado de esta estrategia de decisin? Para calcularlo con la informacin
perfecta, vuelva a las probabilidades originales de los estados de la naturaleza: P(s1) ! 0.8 y
P(s2) ! 0.2. Por tanto, existe una probabilidad de 0.8 de que la informacin perfecta indicar
el estado de la naturaleza s1, y la alternativa de decisin resultante, d3, dar una utilidad de $20
millones. Del mismo modo, con una probabilidad de 0.2 para el estado de la naturaleza s2, la
alternativa para una ptima decisin d1 proporcionar una utilidad de $7 millones. As que, al
utilizar la ecuacin (21.3) el valor esperado de la estrategia de decisin basada en la informacin
perfecta es
A este valor esperado de $17.4 millones se le conoce como valor esperado con la informacin
perfecta (VECIP).
Antes en esta seccin se demostr que la decisin recomendada al utilizar el mtodo del
valor esperado era la alternativa de decisin d3, con un valor esperado de $14.2 millones. De-
bido a que esta recomendacin y el clculo del valor esperado se efectuaron sin la ventaja de la
informacin perfecta, a los $14.2 millones se les conoce como valor esperado sin la informacin
Representar un valor perfecta (VESIP).
de $3.2 millones para
El valor esperado con la informacin perfecta es $17.4 millones y el valor esperado sin la
PDC conocer el nivel de
aceptacin en el mercado informacin perfecta es $14.2 millones; por tanto, el valor esperado de la informacin perfecta
antes de elegir una (VEIP) de $17.4 # $14.2 ! $3.2 millones. En otras palabras, $3.2 millones representan el valor
alternativa de decisin. esperado adicional que se puede obtener si se contara con la informacin de los estados de la
naturaleza. En trminos generales, una investigacin de mercados no proporcionar informa-
cin perfecta; sin embargo, si el estudio es bueno, la informacin recabada valdra una parte
considerable de los $3.2 millones. Dado que el VEIP es $3.2 millones, PDC puede considerar
seriamente un estudio de investigacin de mercados con objeto de obtener ms informacin
acerca de los estados de la naturaleza.
Estado
Alternativa de decisin Demanda alta s1 Demanda baja s2
Complejo pequeo, d1 8 7
Complejo mediano, d2 14 5
Complejo grande, d3 20 #9
21.2 Toma de decisiones con probabilidades 945
donde
VEIP ! valor esperado de la informacin perfecta
VEcIP ! valor esperado con la informacin perfecta acerca de los estados de la naturaleza
VEsIP ! valor esperado sin la informacin perfecta acerca de los estados de la naturaleza
Observe el papel del valor absoluto en la ecuacin (21.4). Para la minimizacin de los
problemas, la informacin ayuda a reducir o bajar los costos, por lo que el valor esperado con
la informacin perfecta es menor o igual que el valor esperado sin la informacin perfecta. En
este caso, VEIP es la magnitud de la diferencia entre VEcIP y VEsIP, o el valor absoluto de la
diferencia, como se muestra en la ecuacin (21.4).
Ejercicios
Mtodos
1. La siguiente tabla de pagos muestra las utilidades para el anlisis de decisiones de un problema
AUTO evaluacin con dos alternativas de decisin y tres estados de la naturaleza.
Estados de la naturaleza
Alternativa de decisin s1 s2 s3
d1 250 100 25
d2 100 100 75
Estados de la naturaleza
Alternativa de decisin s1 s2 s3 s4
d1 14 9 10 5
d2 11 10 8 7
d3 9 10 10 11
d4 8 10 11 13
La persona que toma la decisin obtiene la informacin que le permite realizar las evaluaciones
de las probabilidades siguientes: P(s1) ! 0.5; P(s2) ! 0.2; P(s3) ! 0.2, y P(s1) ! 0.1.
a) Utilice el mtodo del valor esperado para determinar la solucin ptima.
b) Ahora suponga que las entradas de la tabla de pagos son los costos. Utilice el mtodo del
valor esperado para determinar la decisin ptima.
946 Captulo 21 Anlisis de decisiones
Aplicaciones
3. Hudson Corporation est considerando tres opciones para el manejo de sus operaciones de pro-
AUTO evaluacin
cesamiento de datos: continuar con su personal, contratar a un proveedor externo para realizar
la gestin (lo que se conoce como un reclutador externo) o utilizar una combinacin de su
personal y un proveedor externo. El costo de la operacin depende de la demanda futura. El
costo anual de cada opcin (en miles de dlares) depende de la demanda de la siguiente forma.
Demanda
Opciones de personal Alta Media Baja
Personal propio 650 650 600
Empresa externa 900 600 300
Combinacin 800 650 500
a) Si las probabilidades para la demanda son 0.2, 0.5 y 0.3, respectivamente, qu alternativa
de decisin minimizar el costo esperado de operacin del procesamiento de datos? Cul
es el costo anual esperado de su recomendacin?
b) Cul es el valor esperado de una informacin perfecta?
4. Myrtle Air Express decidi ofrecer un servicio directo desde Cleveland a Myrtle Beach. La
gerencia debe decidir entre un servicio de primera a precio completo utilizando las nuevas flo-
tas de jet de la empresa, y un servicio de descuento utilizando aviones regionales de menor
capacidad. Es claro que la mejor eleccin depende de la reaccin del mercado al servicio que
ofrezca Myrtle Air. Los gerentes han desarrollado estimaciones de la aportacin a las utilidades
de cada tipo de servicio basado en los dos posibles niveles de demanda del servicio de Myrtle
Beach: alta o baja. La siguiente tabla muestra las utilidades trimestrales estimadas (en miles
de dlares).
ciudad ample la longitud de la pista, la comisin de planeacin de Potsdam considera que las
probabilidades de la siguiente tabla son aplicables.
Por ejemplo, la probabilidad de que Air Express estableciera un centro de distribucin y DRI
construyera una planta es de 0.30.
El ingreso anual estimado para la ciudad despus de haber deducido el costo de la amplia-
cin de la pista es el siguiente.
Qu efecto, si hay alguno, tendra este cambio en las probabilidades sobre la decisin reco-
mendada?
6. Seneca Hill Winery compr recientemente un terreno con el propsito de establecer un nue-
vo viedo. El director est considerando dos variedades de uvas blancas para su nueva plan-
tacin: Chardonnay y Riesling. Las uvas Chardonnay se usarn para producir un vino seco
Chardonnay, y las uvas Riesling para producir un vino Riesling semiseco. Esto toma aproxi-
madamente cuatro aos desde el momento en que se plantan las nuevas uvas hasta que puedan
ser cosechadas. Esta extensin del tiempo crea un gran problema de incertidumbre con respecto
a la futura demanda y hace que la decisin sobre el tipo de uvas a plantar sea difcil. Se estn
considerando tres posibilidades: slo las uvas Chardonnay, slo las uvas Riesling, o ambas. La
gerencia de Seneca ha decidido que para los propsitos de planeacin sera adecuado consi-
derar slo dos posibilidades de demanda para cada tipo de vino: la alta y la baja. Con las dos
948 Captulo 21 Anlisis de decisiones
posibilidades para cada tipo de vino fue necesario evaluar cuatro posibilidades. Apoyada en
algunos pronsticos de publicaciones industriales, la gerencia desarroll las siguientes evalua-
ciones de probabilidad.
Demanda de Riesling
Demanda de Chardonnay Baja Alta
Baja 0.05 0.50
Alta 0.25 0.20
Las proyecciones de ingresos muestran una contribucin anual de $20 000 si Seneca Hill s-
lo planta uva Chardonnay y la demanda para este vino es baja, y de $70 000 si slo planta dicha
variedad y la demanda es alta. Si planta slo uvas Riesling, la proyeccin anual de utilidades es
de $25 000 si la demanda es baja para estas uvas, y de $45 000 si la demanda es alta. Si Seneca
planta ambos tipos de uvas, las proyecciones anuales de utilidades se muestran en la siguiente
tabla.
Demanda de Riesling
Demanda de Chardonnay Baja Alta
Baja $22 000 $40 000
Alta $26 000 $60 000
Escenario de la demanda
El peor de Caso El mejor de
Tamao del centro los casos base los casos
Pequeo 400 500 660
Mediano #250 650 800
Grande #400 580 990
a) Qu decisin deber tomar Lake Placid con el mtodo del valor esperado?
b) Calcule el valor esperado de la informacin perfecta. Considera que ser til tratar de
obtener informacin adicional con respecto a qu escenario es probable que se presente?
c) Suponga que la probabilidad del escenario del peor de los casos aumentara a 0.2, la pro-
babilidad del escenario base disminuyera a 0.5, y la probabilidad del mejor escenario per-
maneciera en 0.3 Qu efecto, si hubiera alguno, tendran estos cambios sobre la decisin
recomendada?
d) El consultor sugiere que un gasto de $150 000 en una campaa promocional sobre el ho-
rizonte de planeacin efectivamente reducira a cero la probabilidad del peor de los ca-
sos. Si se espera que la campaa aumente la probabilidad del escenario del mejor de los
casos a 0.4, es sta una buena inversin?
rbol de decisin
En la figura 21.4 del rbol de decisin para el problema de PDC con informacin muestral se
observa la secuencia lgica para la toma de decisiones y los eventos aleatorios. Primero, la ge-
rencia de PDC debe decidir si el estudio de investigacin de mercados debe llevarse a cabo. Si
ste se realiza, debe estar preparada para tomar la decisin acerca del tamao del proyecto de
condominio si el informe de investigacin de mercados es favorable y, probablemente, una de-
cisin distinta acerca de dicho tamao si el informe es desfavorable.
FIGURA 21.4 rbol de decisin de PDC que incluye el estudio de investigacin de mercados
Alta (s1)
8
Pequeo (d1)
6
Baja (s2)
7
Alta (s1)
14
Informe Mediano (d2)
3 7
favorable Baja (s2)
5
Alta (s1)
20
Grande (d3)
8
Baja (s2)
!9
Estudio de
2
investigacin Alta (s1)
de mercados 8
Pequeo (d1)
9
Baja (s2)
7
Alta (s1)
14
Informe Mediano (d2)
1 4 10
desfavorable Baja (s2)
5
Alta (s1)
20
Grande (d3)
11
Baja (s2)
!9
Alta (s1)
8
Pequeo (d1)
12
Baja (s2)
7
Alta (s1)
14
Sin estudio de investigacin Mediano (d2)
5 13
de mercados Baja (s2)
5
Alta (s1)
20
Grande (d3)
14
Baja (s2)
!9
21.3 Anlisis de decisiones con informacin muestral 951
En la figura 21.4, los cuadrados son los nodos de decisin y los crculos son los nodos alea-
torios. En cada nodo de decisin, la rama del rbol que se tome depende de la decisin asumida.
En cada nodo aleatorio, la rama que se tome depende de la probabilidad. Por ejemplo, el no-
do de decisin 1 muestra que PDC debe primero determinar si lleva a cabo el estudio de inves-
tigacin de mercados. Si ste se emprende, el nodo de probabilidad 2 indica que las ramas del
informe tanto favorable como desfavorable no estn bajo control de PDC y estarn determinadas
por la casualidad. El nodo 3 es un nodo de decisin que indica que si el informe de investigacin
de mercados es favorable, PDC debe tomar la decisin de edificar un complejo pequeo, mediano
o grande. El 4 es un nodo de decisin que muestra que si el informe de investigacin de merca-
dos es desfavorable, PDC debe decidir si construye un complejo pequeo, mediano o grande. El
5 es un nodo de decisin que denota que PDC debe determinar si construye el complejo pequeo,
mediano o grande si el informe de investigacin de mercados no se lleva a cabo. Los nodos 6
al 14 son aleatorios, y marcan que las ramas de los estados para la alta o la baja demanda sern
determinadas por la casualidad.
En la seccin 21.4 se explica El anlisis del rbol de decisin y la oportunidad de una estrategia ptima requieren que se
cmo pueden desarrollarse conozcan las probabilidades correspondientes a todos los nodos aleatorios. PDC desarroll las
estas probabilidades.
siguientes probabilidades.
Si el estudio de investigacin de mercados se realiza,
Estrategia de decisin
Una estrategia de decisin es una secuencia de decisiones y resultados aleatorios en la que las
decisiones que se toman dependen de los resultados de los eventos aleatorios an por determinar.
El mtodo para determinar la estrategia de una decisin ptima est basado en recorrer el rbol
de decisin de atrs hacia adelante utilizando los siguientes pasos.
1. En los nodos aleatorios, calcule el valor esperado multiplicando el pago al final de cada
rama por la correspondiente probabilidad.
2. En los nodos de decisin, seleccione la rama de decisin que lleve al mejor valor espe-
rado. ste se convertir en el valor esperado en el nodo de decisin.
952 Captulo 21 Anlisis de decisiones
Alta (s1)
8
Pequeo (d1) 0.94
6
Baja (s2)
7
0.06
Alta (s1)
14
Informe Mediano (d2) 0.94
3 7
favorable Baja (s2)
0.77 5
0.06
Alta (s1)
20
Grande (d3) 0.94
8
Baja (s2)
!9
Estudio de 0.06
2
investigacin Alta (s1)
de mercados 8
Pequeo (d1) 0.35
9
Baja (s2)
7
0.65
Alta (s1)
14
Informe Mediano (d2) 0.35
1 4 10
desfavorable Baja (s2)
0.23 5
0.65
Alta (s1)
20
Grande (d3) 0.35
11
Baja (s2)
!9
0.65
Alta (s1)
8
Pequeo (d1) 0.80
12
Baja (s2)
7
0.20
Alta (s1)
14
Sin estudio de investigacin Mediano (d2) 0.80
5 13
de mercados Baja (s2)
5
0.20
Alta (s1)
20
Grande (d3) 0.80
14
Baja (s2)
!9
0.20
21.3 Anlisis de decisiones con informacin muestral 953
Inicie el recorrido de atrs hacia adelante con el clculo de los valores esperados de los
nudos de probabilidad 6 a 14 que proporciona los siguientes resultados.
La figura 21.6 muestra el rbol de decisin reducido luego de calcular los valores esperados de
estos nodos aleatorios.
Despus se contina con los nodos de decisin 3, 4 y 5. En cada uno, seleccione la rama de
la alternativa de decisin que conduzca al mejor valor esperado. Por ejemplo, en el nodo 3 se
puede elegir entre las ramas del complejo pequeo para la que el VE (nodo 6) ! 7.94; la rama
del complejo mediano para la que el VE (nodo 7) ! 13.46, y la rama del complejo grande para
la que el VE (nodo 8) ! 18.26. Por tanto, se selecciona la rama de alternativa de decisin del
complejo mayor y el valor esperado en el nodo 3 se convierten en VE (nodo 3) ! 18.26.
Para el nodo 4, seleccione el mejor valor esperado de los nodos 9, 10 y 11. La mejor alter-
nativa de decisin es la rama del complejo mediano, que proporciona el VE (nodo 4) ! 8.15.
En el nodo 5, seleccione el mejor valor esperado de los nodos 12, 13 y 14. La mejor alternativa
de decisin es la rama del complejo grande que proporciona el VE (nodo 5) ! 14.20. La figura
21.7 muestra el rbol de decisin reducido despus de elegir las mejores opciones en los nodos
3, 4 y 5.
Ahora el valor esperado en el nodo aleatorio 2 puede calcularse de la siguiente forma.
Este clculo reduce el rbol de decisin a slo dos ramas de decisin que salen del nodo 1 (vea
la figura 21.8).
Finalmente, la decisin puede tomarse en el nodo de decisin 1, al elegir el mejor valor
esperado desde los nodos 2 y 5. Esta accin lleva a la alternativa de decisin que conduce al
estudio de investigacin de mercados, el cual proporciona un valor esperado general de 15.93.
La decisin ptima para PDC es llevar a cabo el estudio de investigacin de mercados y
despus manejar la siguiente estrategia de decisin.
El anlisis del rbol de decisin de PDC ilustra los mtodos que pueden utilizarse para ana-
lizar los problemas ms complejos de decisin secuencial. Primero, dibuje un rbol de deci-
sin que consista de nodos de decisin, nodos aleatorios y las ramas que describan el carc-
ter secuencial del problema. Determine las probabilidades para todos los resultados aleatorios.
Despus, al trabajar de atrs hacia adelante a travs del rbol, calcule el valor esperado en todos
los nodos aleatorios y seleccione la rama de mejor decisin en todos los nodos de decisin. La
secuencia de las ramas de decisin ptima determina la estrategia de decisin ptima para el
problema.
954 Captulo 21 Anlisis de decisiones
FIGURA 21.6 rbol de decisin despus de calcular los valores esperados en los nodos aleatorios
6 al 14
Pequeo (d1)
6 VE ! 7.94
Grande (d3)
8 VE ! 18.26
Estudio de
2
investigacin de
mercados Pequeo (d1)
9 VE ! 7.35
Grande (d3)
11 VE ! 1.15
Pequeo (d1)
12 VE ! 7.80
Grande (d3)
14 VE ! 14.20
FIGURA 21.7 rbol de decisin de PDC despus de elegir la mejor decisin en los nodos
3, 4 y 5.
Informe
3 VE ! 18.26; d3
favorable
0.77
Estudio de
investigacin 2
de mercados
Informe
1 4 VE ! 8.15; d2
desfavorable
0.23
Ningn estudio de
5 VE ! 14.20; d3
investigacin de mercados
palabras, se concluye que la realizacin del estudio aade $1.73 millones al valor esperado de
PDC. En general, el valor esperado de la informacin muestral es la siguiente.
donde
Tome en cuenta el papel del valor absoluto en la ecuacin (21.5). Para los problemas
de minimizacin, el valor esperado con informacin muestral siempre es menor o igual que el
956 Captulo 21 Anlisis de decisiones
Estudio de investigacin
2 VE ! 15.93
de mercados
valor esperado sin informacin muestral. En este caso, VEIM es la magnitud de la diferencia
entre VEcIM y VEsIM; por tanto, al tomar el valor absoluto de la diferencia como se muestra en
la ecuacin (21.5), se pueden manejar tanto los casos de maximizacin como de minimizacin
con una sola ecuacin.
Ejercicios
Mtodos
8. Considere una variacin del rbol de decisin de PDC de la figura 21.5. La empresa debe primero
AUTO evaluacin decidir si lleva a cabo el estudio de investigacin de mercados. Si dicho estudio se realiza, los
resultados pueden ser favorables (F) o desfavorables (U). Suponga que existen slo dos alter-
nativas de decisin d1 y d2, y dos estados de la naturaleza s1 y s2. La tabla de pagos siguiente
muestra las utilidades.
Estado de la naturaleza
Alternativa de decisin s1 s2
d1 100 300
d2 400 200
Aplicaciones
9. Un inversionista de bienes races tiene la oportunidad de comprar un terreno que actualmente es
zona residencial. Si la junta del consejo del condado aprueba la solicitud de modificar el uso de
esta propiedad a zona comercial en el lapso de un ao, el inversionista podr rentar el terreno a
una tienda de descuento que desea abrir una nueva sucursal. Sin embargo, si el cambio de uso
de suelo no es aprobado, el inversionista tendr que vender la propiedad y resentir una prdida.
Las utilidades (en miles de dlares) se muestran en la siguiente tabla de pagos.
Estado de la naturaleza
Aprobacin al cambio No aprobacin al cambio
de uso de suelo de uso de suelo
Alternativa de decisin s1 s2
Comprar, d1 600 "200
No comprar, d2 0 0
a) Si la probabilidad de que sea aprobado el cambio de uso de suelo es 0.5, Cul decisin se
recomienda? Cul es la utilidad esperada?
b) El inversionista puede tener una opcin al comprar el terreno. Bajo la opcin, tiene el
derecho de comprarlo en cualquier momento durante los prximos tres meses mientras in-
vestiga la posible resistencia a la propuesta de cambio de uso de suelo del rea residencial.
No concursar
0
11. Hales TV Productions est considerando producir un programa piloto para una serie de come-
dia con la esperanza de venderla a una cadena de televisin. La cadena puede decidir rechazar
la serie, pero tambin comprar los derechos respectivos, ya sea por uno o dos aos. En este pun-
to, Hale tiene que producir el programa piloto y esperar la decisin de la cadena de televisin
o transferir los derechos para el piloto y la serie a un competidor por $100 000. Las alternativas
de decisin y las utilidades de Hale (en miles de dlares) son las siguientes.
Estado de la naturaleza
Alternativa de decisin Rechazo, s1 1 ao, s2 2 aos, s3
Producir un piloto, d1 "100 50 150
Vender al competidor, d2 100 100 100
Las probabilidades de los estados de la naturaleza son P(s1) ! 0.2, P(s2) ! 0.3 y P(s3) ! 0.5.
Por una tarifa de consultora de $5 000, una agencia revisar los planes para la serie de comedia
e indicar las posibilidades globales de una reaccin favorable de la cadena de televisin hacia
la serie. Suponga que la revisin de la agencia resultar en una opcin favorable (F) o desfavo-
rable (U) y que las siguientes probabilidades son relevantes.
Estado de la naturaleza
Alternativa de decisin Fuerte, s1 Moderada, s2 Ligera, s3
Aditamento, d1 3 500 1 000 "1 500
Quitanieve nuevo, d2 7 000 2 000 "9 000
Las probabilidades de los estados de la naturaleza son P(s1) ! 0.4, P(s2) ! 0.3 y P(s3) ! 0.3.
Suponga que Martin decide esperar hasta septiembre antes de tomar una decisin final. Las
valoraciones de las probabilidades relacionadas con un fro normal en septiembre (N) o un fro
inesperado (U) son las siguientes.
Estado de la naturaleza
Demanda alta Demanda mediana Demanda baja
Alternativa de decisin s1 s2 s3
Orden de 1 lote, d1 60 60 50
Orden de 2 lotes, d2 80 80 30
Orden de 3 lotes, d3 100 70 10
a) Si las probabilidades anteriores de los tres estados de la naturaleza son 0.3, 0.3 y 0.4, res-
pectivamente, cul es la cantidad de lotes que se recomienda ordenar?
b) En cada reunin de ventas de pretemporada, el vicepresidente de ventas expresa una opi-
nin personal respecto de la demanda potencial del producto. Debido al carcter entusiasta
y optimista del vicepresidente, los pronsticos de las condiciones del mercado siempre han
960 Captulo 21 Anlisis de decisin
sido excelentes (E) o muy buenas (M). Las probabilidades son las siguientes. Cul es
la estrategia de decisin ptima?
En el nodo aleatorio 2 se requiere conocer las probabilidades P(F) y P(U). En los nodos alea-
torios 6, 7 y 8 se necesita conocer las probabilidades P(s1 & F), la probabilidad del estado de la
naturaleza 1 dado un informe favorable de la investigacin de mercados, y P(s2 & F), la probabi-
lidad del estado de la naturaleza 2, dado un informe favorable de la investigacin de mercados.
P(s1 & F) y P(s2 & F) son referidos como probabilidades posteriores debido a que son probabili-
dades condicionales basadas en el resultado de la informacin muestral. En los nodos aleatorios
9, 10 y 11 se requiere conocer las probabilidades P(s1 & U) y P(s2 & U); observe que stas tambin
son probabilidades posteriores que denotan las probabilidades de los dos estados de la naturaleza
dado que el informe de investigacin de mercados es desfavorable. Finalmente, en los nodos
aleatorios 12, 13 y 14 se requieren las probabilidades para los estados de la naturaleza, P(s1) y
P(s2), si el estudio de investigacin de mercados no se lleva a cabo.
Al realizar los clculos de las probabilidades, es necesario conocer la evaluacin de PDC
para las probabilidades de los dos estados P(s1) y P(s2), la cual es previa, como se mencion an-
tes. Adems, se debe conocer la probabilidad condicional de los resultados de la investigacin
de mercados (la informacin muestral) dado cada estado. Por ejemplo, se requiere conocer la
probabilidad condicional de un informe favorable de la investigacin de mercados considerando
que existe una alta demanda para el proyecto de PDC; observe que esta probabilidad condicional
de F dado el estado de la naturaleza s1 se escribe P(F & s1). Para efectuar los clculos respectivos
se necesitarn las probabilidades condicionales para todos los resultados muestrales dados to-
dos los estados de la naturaleza, es decir, P(F & s1), P(F & s2), P(U & s1) y P(U & s2). En el problema
de PDC se supone que las estimaciones siguientes estn disponibles para estas probabilidades
condicionales.
Alta (s1)
8
Pequeo (d1) P(s1 ! F)
6
Baja (s2)
7
P(s2 ! F)
Alta (s1)
14
Informe Mediano (d2) P(s1 ! F)
3 7
favorable P(F) Baja (s2)
5
P(s2 ! F)
Alta (s1)
20
Grande (d3) P(s1 ! F)
8
Baja (s2)
!9
Estudio de P(s2 ! F)
2
investigacin Alta (s1)
de mercados 8
Pequeo (d1) P(s1 ! U)
9
Baja (s2)
7
P(s2 ! U)
Alta (s1)
14
Informe Mediano (d2) P(s1 ! U)
1 4 10
desfavorable P(U) Baja (s2)
5
P(s2 ! U)
Alta (s1)
20
Grande (d3) P(s1 ! U)
11
Baja (s2)
!9
P(s2 ! U)
Alta (s1)
8
Pequeo (d1) P(s1)
12
Baja (s2)
7
P(s2)
Alta (s1)
14
Sin estudio de investigacin Mediano (d2) P(s1)
de mercados 5 13
Baja (s2)
5
P(s2)
Alta (s1)
20
Grande (d3) P(s1)
14
Baja (s2)
!9
P(s2)
TABLA 21.3 Probabilidades del proyecto de condominio de PDC basadas en un informe favorable
de la investigacin de mercados
llevar a exagerar su verdadero inters por los condominios. La respuesta inicial favorable de un
comprador potencial puede cambiar rpidamente a un no gracias, cuando al final enfrente la
realidad de firmar un contrato de compra y realizar un pago inicial.
En el siguiente anlisis se presenta un planteamiento tabular como un mtodo conveniente
para calcular la probabilidad. Los clculos para el problema de PDC basados en un informe
favorable de la investigacin de mercados (F) se resumen en la tabla 21.3. Los pasos utilizados
para desarrollar esta tabla son los siguientes.
Si se obtiene un informe de esta ndole, la probabilidad posterior de que la demanda sea alta, s1,
es 0.35, y de que se presente una demanda baja en el mercado, s2, es 0.65. Las probabilidades de
las tablas 21.3 y 21.4 se ilustraron en el rbol de decisin de PDC de la figura 21.5.
En el ejercicio 14 se El estudio en esta seccin muestra una relacin subyacente entre las probabilidades en va-
le pide un clculo de rias ramas de un rbol de decisin. Sera inapropiado asumir las distintas probabilidades pre-
probabilidades posteriores.
vias, P(s1) y P(s2), sin determinar cmo estos cambios alteraran P(F) y P(U), al igual que
probabilidades posteriores P(s1 ! F), P(s2 ! F), P(s1 ! U) y P(s2 ! U).
Ejercicios
Mtodos
14. Suponga que se presenta una situacin de una decisin con tres posibles estados de la natura-
AUTO evaluacin leza: s1, s2 y s3. Las probabilidades previas son P(s1) ! 0.2, P(s2) ! 0.5 y P(s3) ! 0.3. Con la
informacin muestral I, P(I ! s1) ! 0.1, P(I ! s2) ! 0.05 y P(I ! s3) ! 0.2, calcule las probabili-
dades revisadas o posteriores: P(s1 ! I), P(s2 ! I) y P(s3 ! I).
15. En la siguiente tabla de pagos para un problema de decisin con dos estados de la naturale-
za y tres alternativas de decisin, las probabilidades previas para s1 y s2 son P(s1) ! 0.8 y
P(s2) ! 0.2.
Estado de la naturaleza
Alternativa de decisin s1 s2
d1 15 10
d2 10 12
d3 8 20
Aplicaciones
16. Para ahorrar gastos, Rona y Jerry acordaron ir juntos hacia y desde el trabajo. Rona prefiere usar
la avenida Queen City, un trayecto un poco ms largo, pero ms seguro. Aunque Jerry prefiere
la autopista por ser ms rpida, est de acuerdo con Rona en que deberan tomar la avenida
Queen City en caso de que la autopista est muy congestionada. La tabla de pagos siguiente
proporciona el tiempo estimado en minutos para este recorrido.
Estados de la naturaleza
Autopista Autopista
sin trfico congestionada
Alternativas de decisin s1 s2
Avenida Queen City, d1 30 30
Autopista, d2 25 45
964 Captulo 21 Anlisis de decisiones
Con base en su experiencia con los problemas de trfico, Rona y Jerry acordaron que la proba-
bilidad de que la autopista est congestionada es de 0.15.
Adems, estn de acuerdo en que el clima parece afectar las condiciones del trfico en la
autopista. Sea
C ! claro
O ! nublado
R ! lluvia
P(C " s1) ! 0.8 P(O " s1) ! 0.2 P(R " s1) ! 0.0
P(C " s2) ! 0.1 P(O " s2) ! 0.3 P(R " s2) ! 0.6
a) Utilice el teorema de Bayes para calcular la probabilidad revisada de cada condicin cli-
matolgica y la probabilidad condicional de que la autopista est despejada, s1, o conges-
tionada, s2, dadas cada una de las condiciones climatolgicas.
b) Muestre el rbol de decisin para este problema.
c) Cul es la estrategia de decisin ptima y cul es el tiempo de viaje esperado?
17. Gorman Manufacturing Company tiene que decidir si fabrica un componente en su planta de
Miln, Michigan, o si lo compra a un proveedor. La utilidad resultante depende de la demanda
del producto. La siguiente tabla de pagos muestra la utilidad proyectada (en miles de dlares).
Estado de la naturaleza
Demanda baja Demanda media Demanda alta
Alternativa de decisin s1 s2 s3
Fabricar, d1 "20 40 100
Comprar, d2 10 45 70
Las probabilidades de los estados de la naturaleza son: P(s1) ! 0.35, P(s2) ! 0.35 y P(s3) !
0.30.
a) Utilice un rbol de decisin para recomendar una alternativa de decisin.
b) Utilice el VEIP para determinar si Gorman debe intentar obtener una mejor estimacin de
la demanda.
c) Un estudio de mercado de la demanda potencial del producto se espera que resulte ya sea
en una condicin favorable (F) o en una condicin desfavorable (U). Las probabilidades
condicionales son las siguientes.
Resumen
cierta informacin sobre los eventos inciertos y las posibles consecuencias o pagos. A los even-
tos futuros inciertos se les conoce como eventos aleatorios y a los resultados de los eventos
aleatorios se les conoce como estados de la naturaleza.
En este captulo se mostr cmo las tablas de pagos y los rboles de decisin permiten es-
tructurar un problema de decisin y describir las relaciones entre las decisiones, los eventos alea-
torios y las consecuencias. Con las estimaciones de probabilidad que proporcionan los estados
de la naturaleza, se utiliz el mtodo del valor esperado para identificar la alternativa de decisin
o la estrategia de decisin recomendable.
En los casos en que la informacin muestral sobre los eventos aleatorios est disponible,
existe una secuencia de decisiones que se puede tomar. En primer lugar, decidir si se obtiene
o no la informacin muestral. Si la respuesta es afirmativa, deber desarrollarse una estrategia
de decisin ptima basada en informacin muestral especfica. En este caso pueden utilizarse
los rboles de decisin y el mtodo del valor esperado para determinar la estrategia de decisin
ptima.
El complemento de Excel PrecisionTree suele utilizarse para elaborar los rboles de deci-
sin y resolver los problemas respectivos presentados en este captulo. Las instrucciones para
descargar e instalar el software PrecisionTree en su equipo se proporcionan en el sitio web del
libro. En el apndice al final del captulo se incluye un ejemplo de cmo utilizar PrecisionTree
para el problema del PDC de la seccin 21.1.
Glosario
Frmulas clave
Valor esperado
VE(di) ! a P(sj)Vij
N
(21.3)
j!1
Ejercicios complementarios
18. Un inversionista desea elegir uno de siete fondos de inversin para el prximo ao. A conti-
nuacin se listan los datos que muestran el porcentaje de rendimiento anual para cada fondo
durante un periodo de cinco aos. El supuesto es que uno de estos periodos de cinco aos se
presentar nuevamente durante el prximo ao. Por tanto, los aos A, B, C, D y E son los es-
tados de la naturaleza para la decisin sobre los fondos de inversin.
Estado de la naturaleza
Fondo de inversin Ao A Ao B Ao C Ao D Ao E
Mayor capital social 35.3 20.0 28.3 10.4 "9.3
Capital social medio 32.3 23.2 "0.9 49.3 "22.8
Menor capital social 20.8 22.5 6.0 33.3 6.1
Sector de recursos energticos 25.3 33.9 "20.5 20.9 "2.5
Sector salud 49.1 5.5 29.7 77.7 "24.9
Sector de tecnologa 46.2 21.7 45.7 93.1 "20.1
Sector de bienes races 20.5 44.0 "21.1 2.6 5.1
a) Suponga que un analista financiero experimentado revisa los cinco estados de la natura-
leza y ofrece las siguientes probabilidades: 0.1, 0.3, 0.1, 0.1 y 0.4. Utilizando el mtodo
Ejercicios complementarios 967
Costo por
Distribuidor Costo mensual Millaje subsidiado milla adicional
Forno Automotive $299 36 000 $0.15
Midtown Motors $310 45 000 $0.20
Hopkins Automotive $325 54 000 $0.15
Warren decidi elegir la opcin de arrendamiento que minimice su costo total a 36 meses. La
dificultad estriba en que no est seguro de cuntas millas recorrer en los prximos tres aos.
Para efectos de tomar esta decisin, considera razonable suponer que conducir 12 000 millas,
15 000 millas o 18 000 millas por ao. Con este supuesto, Warren estima el costo de las tres
opciones de arrendamiento. Por ejemplo, supone que el contrato de arrendamiento de Forno
Automotive le costar $10 764 si maneja 12 000 millas, $ 12 114 si maneja 15 000 millas o
$ 13 464 si recorre 18 000 millas por ao.
a) Cul es la decisin y cul es el evento aleatorio?
b) Construya una tabla de pagos.
c) Suponga que las probabilidades de que Warren recorra 12 000, 15 000 y 18 000 millas por
ao son 0.5, 0.4 y 0.1 respectivamente. Qu distribuidor debe elegir?
d) Suponga que despus de mucho pensarlo, Warren llega a la conclusin de que las proba-
bilidades de que maneje 12 000, 15 000 o 18 000 son 0.3, 0.4 y 03, respectivamente. Qu
distribuidor debe elegir?
20. Hemingway, Inc. est considerando invertir $5 millones para investigacin y desarrollo (R&D)
en un proyecto. Las utilidades proyectadas parecen ser prometedoras, pero el presidente de
Hemingway est preocupado porque la probabilidad de que el proyecto de R&D sea exitoso
es slo de 0.50. En segundo lugar, el presidente sabe que incluso si el proyecto tiene xito, se
requerir que la empresa construya una nueva planta de produccin a un costo de $20 millones
para la fabricacin de los productos. Si la instalacin es construida, la incertidumbre acerca de
la demanda permanece y, por tanto, sobre la utilidad que se obtendr. Otra opcin indica que si
el proyecto de R&D tiene xito, la empresa podra vender los derechos del producto a un esti-
mado de $25 millones. Con esta opcin, la empresa no construir la planta de produccin de
$20 millones.
En la figura 21.1 se muestra el rbol de decisin. Las utilidades proyectadas para cada
resultado se presentan al final de las ramas. Por ejemplo, los ingresos proyectados para el
resultado de la demanda alta son de $59 millones. Sin embargo, el costo del proyecto de R&D
($5 millones) y el costo de la planta de produccin ($20 millones) muestran que la utilidad de
este resultado ser de $59 " $5 " $20 ! $34 millones. Tambin se presentan las probabilida-
des para los eventos aleatorios.
968 Captulo 21 Anlisis de decisiones
Utilidades ($ millones)
Demanda alta
34
0.5
Demanda baja
0.2 10
Exitoso
0.5 3
1 No exitoso !5
0.5
a) Construya un rbol de decisin suponiendo que la empresa deber tomar primero la de-
cisin de si debe enviar el manuscrito para revisin y despus asumir la decisin de acep-
tarlo o rechazarlo.
b) Analice el rbol de decisin y determine la estrategia de decisin ptima para la editorial.
Caso a resolver Estrategia de defensa en una demanda 969
Informe gerencial
Realice un anlisis del problema que enfrenta Allied Insurance y prepare un informe en el que
se resuman sus hallazgos y recomendaciones. Asegrese de incluir los siguientes elementos:
1. Un rbol de decisin.
2. Una recomendacin sobre si Allied debe aceptar la oferta inicial de John para resolver
la demanda por $ 750 000.
3. La estrategia de decisin que Allied debe seguir si opta por hacer una contraoferta a
John por $400 000.
4. Un perfil de riesgos para la estrategia recomendada.
970 Captulo 21 Anlisis de decisiones
Paso 1. Haga clic en el botn Start de la barra de tareas y despus seale All Programs.
Paso 2. Seleccione la carpeta titulada Palisade Decision Tools.
Paso 3. Haga clic en PrecisionTree for Excel.
Estos pasos abren Excel y agregan la ficha PrecisionTree junto a la barra de complementos en
la barra de opciones. Alternativamente, si ya est trabajando en Excel, con estos pasos Preci-
sionTree estar disponible.
Alta (s1)
8
Pequeo (d1) P(s1) " 0.8
2
Baja (s2)
7
P(s2) " 0.2
Alta (s1)
14
Mediano (d2) P(s1) " 0.8
1 3
Baja (s2)
5
P(s2) " 0.2
Alta (s1)
20
Grande (d3) P(s1) " 0.8
4
Baja (s2)
9
P(s2) " 0.2
Apndice Introduccin a PrecisionTree 971
A B
1 100.0%
PDC
2 0
3
Contine aplicando los mismos dos pasos para nombrar las otras dos ramas de decisin. Des-
pus de etiquetar las ramas, el rbol de decisin PDC con las tres ramas aparecer de la siguiente
forma.
A B C
1 TRUE 100.0%
Small
2 0 0
3 Decision
PDC
4 0
5 FALSE 0.0%
Medium
6 0 0
7 FALSE 0.0%
Large
8 0 0
9
972 Captulo 21 Anlisis de decisiones
A B C D
1 50.0% 50.0%
Branch #1
2 TRUE 0 0
Small 0
3 Chance
4 0
5 50.0% 50.0%
Branch #2
6 0 0
7 Decision
PDC
8 0
9 FALSE 0.0%
Medium
10 0 0
11 FALSE 0.0%
Large
12 0 0
13
Ahora podemos cambiar el nombre de las ramas del nodo aleatorio como Strong (alta) y
Weak (baja), utilizando el mismo procedimiento que se realiz para las ramas de decisin. Los
nodos aleatorios ahora se pueden insertar en el extremo de las otras dos ramas de decisin de
forma similar.* Realizar estos pasos lleva al rbol de decisin de PDC de la figura 21.13.
* PrecisionTree tambin tiene la capacidad de copiar los nodos que pueden utilizarse para crear los otros dos nodos alea-
torios. Slo haga clic en el primer nodo aleatorio creado y en Copy SubTree. Despus haga clic en el botn derecho en
uno de los otros nodos extremos, y luego en Past SubTree. Realice lo mismo para el otro nodo extremo.
Apndice Introduccin a PrecisionTree 973
A B C D
1 50.0% 50.0%
Strong
2 0 0
3 TRUE Chance
Small
4 0 0
5 50.0% 50.0%
Weak
6 0 0
7 Decision
PDC
8 0
9 50.0% 0.0%
Strong
10 0 0
11 FALSE Chance
Medium
12 0 0
13 50.0% 0.0%
Weak
14 0 0
15 50.0% 0.0%
Strong
16 0 0
17 FALSE Chance
Large
18 0 0
19 50.0% 0.0%
Weak
20 0 0
21
Otras opciones
Hemos usado PrecisionTree con un objetivo de maximizacin. Este es el valor predeterminado.
Si se tiene un rbol de decisin con un objetivo de minimizacin, siga los pasos que se indican
a continuacin:
Paso 1. Haga clic en el nombre del rbol de decisin (al principio del rbol).
Paso 2. Cuando el cuadro de dilogo PrecisionTree-Model Settings aparezca:
Haga clic en la ficha Calculation.
Seleccione Minimum Payoff en el cuadro Optimum Path.
Haga clic en OK.
974 Captulo 21 Anlisis de decisiones
A B C D
1 80.0% 0.0%
Strong
2 8 8
3 FALSE Chance
Small
4 0 7.8
5 20.0% 0.0%
Weak
6 7 7
7 Decision
PDC
8 14.2
9 80.0% 0.0%
Strong
10 14 14
11 FALSE Chance
Medium
12 0 12.2
13 20.0% 0.0%
Weak
14 5 5
15 80.0% 80.0%
Strong
16 20 20
17 TRUE Chance
Large
18 0 14.2
19 20.0% 20.0%
Weak
20 9 9
21
Apndices
APNDICE A
Referencias y bibliografa
APNDICE B
Tablas
APNDICE C
Notacin de suma
APNDICE D
Soluciones a las autoevaluaciones
y respuestas a los ejercicios de
nmeros pares
APNDICE E
Uso de las funciones de Excel
APNDICE F
Clculo de los valores-p
utilizando Minitab y Excel
Apndice A Referencias y bibliografa
Muestreo
Cochran, W. G., Sampling Techniques, 3a. ed., Wiley, 1977.
Hansen, M. H., W. N. Hurwitz, W. G. Madow y M. N. Hanson,
Sample Survey Methods and Theory, Wiley, 1993.
Apndice B Tablas
z 0
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
!3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
!2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
!2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
!2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
!2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
!2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
!2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
!2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
!2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
!2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
!2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
!1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
!1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
!1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
!1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
!1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
!1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
!1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
!1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
!1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
!1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
!0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
!0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
!0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
!0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
!0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
!0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 .03228 0.3192 0.3156 0.3121
!0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
!0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
!0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
!0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
Apndice B Tablas 979
Probabilidad
acumulada Las entradas en la tabla
proporcionan el rea bajo
la curva a la izquierda
del valor de z. Por ejemplo,
para z ! 1.25, la probabilidad
acumulada es 0.8944.
0 z
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
980 Apndice B Tablas
TABLA 2 Distribucin t
rea o
probabilidad Las entradas en la tabla proporcionan los
valores de t para un rea o probabilidad
en la cola superior de la distribucin t. Por
ejemplo, con 10 grados de libertad y un rea
0 t de 0.05 en la cola superior, t0.05 ! 1.812.
rea o
probabilidad
Las entradas en la tabla proporcionan los valores de 2 , donde es el rea o probabilidad en la cola superior de la distribu-
cin ji-cuadrada. Por ejemplo, con 10 grados de libertad y un rea de 0.01 en la cola superior, 20.01 ! 23.209.
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879
2 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597
3 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838
4 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860
5 0.412 0.554 0.831 1.145 1.610 9.236 11.070 12.832 15.086 16.750
6 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14.449 16.812 18.548
7 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278
8 1.344 1.647 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589
10 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188
11 2.603 3.053 3.816 4.575 5.578 17.275 19.675 21.920 24.725 26.757
12 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300
13 3.565 4.107 5.009 5.892 7.041 19.812 22.362 24.736 27.688 29.819
14 4.075 4.660 5.629 6.571 7.790 21.064 23.685 26.119 29.141 31.319
15 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801
16 5.142 5.812 6.908 7.962 9.312 23.542 26.296 28.845 32.000 34.267
17 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718
18 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156
19 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582
20 7.434 8.260 9.591 10.851 12.443 28.412 31.410 34.170 37.566 39.997
21 8.034 8.897 10.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401
22 8.643 9.542 10.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796
23 9.260 10.196 11.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181
24 9.886 10.856 12.401 13.848 15.659 33.196 36.415 39.364 42.980 45.558
25 10.520 11.524 13.120 14.611 16.473 34.382 37.652 40.646 44.314 46.928
26 11.160 12.198 13.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290
27 11.808 12.878 14.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645
28 12.461 13.565 15.308 16.928 18.939 37.916 41.337 44.461 48.278 50.994
29 13.121 14.256 16.047 17.708 19.768 39.087 42.557 45.722 49.588 52.335
984 Apndice B Tablas
30 13.787 14.953 16.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672
35 17.192 18.509 20.569 22.465 24.797 46.059 49.802 53.203 57.342 60.275
40 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766
45 24.311 25.901 28.366 30.612 33.350 57.505 61.656 65.410 69.957 73.166
50 27.991 29.707 32.357 34.764 37.689 63.167 67.505 71.420 76.154 79.490
55 31.735 33.571 36.398 38.958 42.060 68.796 73.311 77.380 82.292 85.749
60 35.534 37.485 40.482 43.188 46.459 74.397 79.082 83.298 88.379 91.952
65 39.383 41.444 44.603 47.450 50.883 79.973 84.821 89.177 94.422 98.105
70 43.275 45.442 48.758 51.739 55.329 85.527 90.531 95.023 100.425 104.215
75 47.206 49.475 52.942 56.054 59.795 91.061 96.217 100.839 106.393 110.285
80 51.172 53.540 57.153 60.391 64.278 96.578 101.879 106.629 112.329 116.321
85 55.170 57.634 61.389 64.749 68.777 102.079 107.522 112.393 118.236 122.324
90 59.196 61.754 65.647 69.126 73.291 107.565 113.145 118.136 124.116 128.299
95 63.250 65.898 69.925 73.520 77.818 113.038 118.752 123.858 129.973 134.247
100 67.328 70.065 74.222 77.929 82.358 118.498 124.342 129.561 135.807 140.170
TABLA 4 Distribucin F
rea o
probabilidad
Apndice B
0 F
Tablas
Las entradas en la tabla proporcionan los valores F, donde es el rea o probabilidad en la cola superior de la distribucin F. Por ejemplo, con 4 grados de libertad en el numerador,
8 grados de libertad en el denominador y un rea de 0.05 en la cola superior, F0.05 ! 3.84.
1 0.10 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 60.19 61.22 61.74 62.05 62.26 62.53 62.79 63.01 63.30
0.05 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 241.88 245.95 248.02 249.26 250.10 251.14 252.20 253.04 254.19
0.025 647.79 799.48 864.15 899.60 921.83 937.11 948.20 956.64 963.28 968.63 984.87 993.08 998.09 1 001.40 1 005.60 1 009.79 1 013.16 1 017.76
0.01 4 052.18 4 999.34 5 403.53 5 624.26 5 763.96 5 858.95 5 928.33 5 980.95 6 022.40 6 055.93 6 156.97 6 208.66 6 239.86 6 260.35 6 286.43 6 312.97 6 333.92 6 362.80
2 0.10 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 9.39 9.42 9.44 9.45 9.46 9.47 9.47 9.48 9.49
0.05 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 19.40 19.43 19.45 19.46 19.46 19.47 19.48 19.49 19.49
0.025 38.51 39.00 39.17 39.25 39.30 39.33 39.36 39.37 39.39 39.40 39.43 39.45 39.46 39.46 39.47 39.48 39.49 39.50
0.01 98.50 99.00 99.16 99.25 99.30 99.33 99.36 99.38 99.39 99.40 99.43 99.45 99.46 99.47 99.48 99.48 99.49 99.50
3 0.10 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5.25 5.24 5.23 5.20 5.18 5.17 5.17 5.16 5.15 5.14 5.13
0.05 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.70 8.66 8.63 8.62 8.59 8.57 8.55 8.53
0.025 17.44 16.04 15.44 15.10 14.88 14.73 14.62 14.54 14.47 14.42 14.25 14.17 14.12 14.08 14.04 13.99 13.96 13.91
0.01 34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.34 27.23 26.87 26.69 26.58 26.50 26.41 26.32 26.24 26.14
4 0.10 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 3.92 3.87 3.84 3.83 3.82 3.80 3.79 3.78 3.76
0.05 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
0.025 12.22 10.65 9.98 9.60 9.36 9.20 9.07 8.98 8.90 8.84 8.66 8.56 8.50 8.46 8.41 8.36 8.32 8.26
0.01 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.20 14.02 13.91 13.84 13.75 13.65 13.58 13.47
5 0.10 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 3.30 3.324 3.21 3.19 3.17 3.16 3.14 3.13 3.11
0.05 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.62 4.56 4.52 4.50 4.46 4.43 4.41 4.37
0.025 10.01 8.43 7.76 7.39 7.15 6.98 6.85 6.76 6.68 6.62 6.43 6.33 6.27 6.23 6.18 6.12 6.08 6.02
0.01 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.72 9.55 9.45 9.38 9.29 9.20 9.13 9.03
985
TABLA 4 Distribucin F (continuacin)
986
6 0.10 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 2.94 2.87 2.84 2.81 2.80 2.78 2.76 2.75 2.72
0.05 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 3.94 3.87 3.83 3.81 3.77 3.74 3.71 3.67
0.025 8.81 7.26 6.60 6.23 5.99 5.82 5.70 5.60 5.52 5.46 5.27 5.17 5.11 5.07 5.01 4.96 4.92 4.86
0.01 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.56 7.40 7.30 7.23 7.14 7.06 6.99 6.89
7 0.10 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 2.70 2.63 2.59 2.57 2.56 2.54 2.51 2.50 2.47
0.05 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.51 3.44 3.40 3.38 3.34 3.30 3.27 3.23
0.025 8.07 6.54 5.89 5.52 5.29 5.12 4.99 4.90 4.82 4.76 4.57 4.47 4.40 4.36 4.31 4.25 4.21 4.15
0.01 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.31 6.16 6.06 5.99 5.91 5.82 5.75 5.66
Apndice B
8 0.10 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 2.54 2.46 2.42 2.40 2.38 2.36 2.34 2.32 2.30
0.05 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.22 3.15 3.11 3.08 3.04 3.01 2.97 2.93
0.025 7.57 6.06 5.42 5.05 4.82 4.65 4.53 4.43 4.36 4.30 4.10 4.00 3.94 3.89 3.84 3.78 3.74 3.68
Tablas
0.01 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.52 5.36 5.26 5.20 5.12 5.03 4.96 4.87
9 0.10 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 2.42 2.34 2.30 2.27 2.25 2.23 2.21 2.19 2.16
0.05 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.01 2.94 2.89 2.86 2.83 2.79 2.76 2.71
0.025 7.21 5.71 5.08 4.72 4.48 4.32 4.20 4.10 4.03 3.96 3.77 3.67 3.60 3.56 3.51 3.45 3.40 3.34
0.01 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 4.96 4.81 4.71 4.65 4.57 4.48 4.41 4.32
10 0.10 3.29 2.92 2.73 2.61 2.52 2.46 2.41 2.38 2.35 2.32 2.24 2.20 2.17 2.16 2.13 2.11 2.09 2.06
0.05 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.85 2.77 2.73 2.70 2.66 2.62 2.59 2.54
0.025 6.94 5.46 4.83 4.47 4.24 4.07 3.95 3.85 3.78 3.72 3.52 3.42 3.35 3.31 3.26 3.20 3.15 3.09
0.01 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.56 4.41 4.31 4.25 4.17 4.08 4.01 3.92
11 0.10 3.23 2.86 2.66 2.54 2.45 2.39 2.34 2.30 2.27 2.25 2.17 2.12 2.10 2.08 2.05 2.03 2.01 1.98
0.05 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.72 2.65 2.60 2.57 2.53 2.49 2.46 2.41
0.025 6.72 5.26 4.63 4.28 4.04 3.88 3.76 3.66 3.59 3.53 3.33 3.23 3.16 3.12 3.06 3.00 2.96 2.89
0.01 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.25 4.10 4.01 3.94 3.86 3.78 3.71 3.61
12 0.10 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 2.21 2.19 2.10 2.06 2.03 2.01 1.99 1.96 1.94 1.91
0.05 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.62 2.54 2.50 2.47 2.43 2.38 2.35 2.30
0.025 6.55 5.10 4.47 4.12 3.89 3.73 3.61 3.51 3.44 3.37 3.18 3.07 3.01 2.96 2.91 2.85 2.80 2.73
0.01 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.01 3.86 3.76 3.70 3.62 3.54 3.47 3.37
13 0.10 3.14 2.76 2.56 2.43 2.35 2.28 2.23 2.20 2.16 2.14 2.05 2.01 1.98 1.96 1.93 1.90 1.88 1.85
0.05 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67 2.53 2.46 2.41 2.38 2.34 2.30 2.26 2.21
0.025 6.41 4.97 4.35 4.00 3.77 3.60 3.48 3.39 3.31 3.25 3.05 2.95 2.88 2.84 2.78 2.72 2.67 2.60
0.01 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10 3.82 3.66 3.57 3.51 3.43 3.34 3.27 3.18
14 0.10 3.10 2.73 2.52 2.39 2.31 2.24 2.19 2.15 2.12 2.10 2.01 1.96 1.93 1.99 1.89 1.86 1.83 1.80
0.05 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60 2.46 2.39 2.34 2.31 2.27 2.22 2.19 2.14
0.025 6.30 4.86 4.24 3.89 3.66 3.50 3.38 3.29 3.21 3.15 2.95 2.84 2.78 2.73 2.67 2.61 2.56 2.50
0.01 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.66 3.51 3.41 3.35 3.27 3.18 3.11 3.02
15 0.10 3.07 2.70 2.49 2.36 2.27 2.21 2.16 2.12 2.09 2.06 1.97 1.92 1.89 1.87 1.85 1.82 1.79 1.76
0.05 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.40 2.33 2.28 2.25 2.20 2.16 2.12 2.07
0.025 6.20 4.77 4.15 3.80 3.58 3.41 3.29 3.20 3.12 3.06 2.86 2.76 2.69 2.64 2.59 2.52 2.47 2.40
0.01 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.52 3.37 3.28 3.21 3.13 3.05 2.98 2.88
Grados de rea en Grados de libertad en el numerador
libertad en el la cola
denominador superior 1 2 3 4 5 6 7 8 9 10 15 20 25 30 40 60 100 1 000
16 0.10 3.05 2.67 2.46 2.33 2.24 2.18 2.13 2.09 2.06 2.03 1.94 1.89 1.86 1.84 1.81 1.78 1.76 1.72
0.05 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.35 2.28 2.23 2.19 2.15 2.11 2.07 2.02
0.025 6.12 4.69 4.08 3.73 3.50 3.34 3.22 3.12 3.05 2.99 2.79 2.68 2.61 2.57 2.51 2.45 2.40 2.32
0.01 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.41 3.26 3.16 3.10 3.02 2.93 2.86 2.76
Apndice B
17 0.10 3.03 2.64 2.44 2.31 2.22 2.15 2.10 2.06 2.03 2.00 1.91 1.86 1.83 1.81 1.78 1.75 1.73 1.69
0.05 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.31 2.23 2.18 2.15 2.10 2.06 2.02 1.97
0.025 6.04 4.62 4.01 3.66 3.44 3.28 3.16 3.06 2.98 2.92 2.72 2.62 2.55 2.50 2.44 2.38 2.33 2.26
Tablas
0.01 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59 3.31 3.16 3.07 3.00 2.92 2.83 2.76 2.66
18 0.10 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.89 1.84 1.80 1.78 1.75 1.72 1.70 1.66
0.05 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.27 2.19 2.14 2.11 2.06 2.02 1.98 1.92
0.025 5.98 4.56 3.95 3.61 3.38 3.22 3.10 3.01 2.93 2.87 2.67 2.56 2.49 2.44 2.38 2.32 2.27 2.20
0.01 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51 3.23 3.08 2.98 2.92 2.84 2.75 2.68 2.58
19 0.10 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.86 1.81 1.78 1.76 1.73 1.70 1.67 1.64
0.05 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.23 2.16 2.11 2.07 2.03 1.98 1.94 1.88
0.025 5.92 4.51 3.90 3.56 3.33 3.17 3.05 2.96 2.88 2.82 2.62 2.51 2.44 2.39 2.33 2.27 2.22 2.14
0.01 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43 3.15 3.00 2.91 2.84 2.76 2.67 2.60 2.50
20 0.10 2.97 2.59 2.38 2.25 2.16 2.09 2.04 2.00 1.96 1.94 1.84 1.79 1.76 1.74 1.71 1.68 1.65 1.61
0.05 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.20 2.12 2.07 2.04 1.99 1.95 1.91 1.85
0.025 5.87 4.46 3.86 3.51 3.29 3.13 3.01 2.91 2.84 2.77 2.57 2.46 2.40 2.35 2.29 2.22 2.17 2.09
0.01 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.09 2.94 2.84 2.78 2.69 2.61 2.54 2.43
21 0.10 2.96 2.57 2.36 2.23 2.14 2.08 2.02 1.98 1.95 1.92 1.83 1.78 1.74 1.72 1.69 1.66 1.63 1.59
0.05 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32 2.18 2.10 2.05 2.01 1.96 1.92 1.88 1.82
0.025 5.83 4.42 3.82 3.48 3.25 3.09 2.97 2.87 2.80 2.73 2.53 2.42 2.36 2.31 2.25 2.18 2.13 2.05
0.01 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31 3.03 2.88 2.79 2.72 2.64 2.55 2.48 2.37
22 0.10 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 1.90 1.81 1.76 1.73 1.70 1.67 1.64 1.61 1.57
0.05 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.15 2.07 2.02 1.98 1.94 1.89 1.85 1.79
0.025 5.79 4.38 3.78 3.44 3.22 3.05 2.93 2.84 2.76 2.70 2.50 2.39 2.32 2.27 2.21 2.14 2.09 2.01
0.01 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26 2.98 2.83 2.73 2.67 2.58 2.50 2.42 2.32
23 0.10 2.94 2.55 2.34 2.21 2.11 2.05 1.99 1.95 1.92 1.89 1.80 1.74 1.71 1.69 1.66 1.62 1.59 1.55
0.05 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27 2.13 2.05 2.00 1.96 1.91 1.86 1.82 1.76
0.025 5.75 4.35 3.75 3.41 3.18 3.02 2.90 2.81 2.73 2.67 2.47 2.36 2.29 2.24 2.18 2.11 2.06 1.98
0.01 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21 2.93 2.78 2.69 2.62 2.54 2.45 2.37 2.27
24 0.10 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.78 1.73 1.70 1.67 1.64 1.61 1.58 1.54
0.05 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25 2.11 2.03 1.97 1.94 1.89 1.84 1.80 1.74
0.025 5.72 4.32 3.72 3.38 3.15 2.99 2.87 2.78 2.70 2.64 2.44 2.33 2.26 2.21 2.15 2.08 2.02 1.94
987
0.01 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17 2.89 2.74 2.64 2.58 2.49 2.40 2.33 2.22
TABLA 4 Distribucin F (continuacin)
988
25 0.10 2.92 2.53 2.32 2.18 2.09 2.02 1.97 1.93 1.89 1.87 1.77 1.72 1.68 1.66 1.63 1.59 1.56 1.52
0.05 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24 2.09 2.01 1.96 1.92 1.87 1.82 1.78 1.72
0.025 5.69 4.29 3.69 3.35 3.13 2.97 2.85 2.75 2.68 2.61 2.41 2.30 2.23 2.18 2.12 2.05 2.00 1.91
0.01 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.22 3.13 2.85 2.70 2.60 2.54 2.45 2.36 2.29 2.18
26 0.10 2.91 2.52 2.31 2.17 2.08 2.01 1.96 1.92 1.88 1.86 1.76 1.71 1.67 1.65 1.61 1.58 1.55 1.51
0.05 4.23 3.37 2.98 2.74 2.59 2.47 2.39 2.32 2.27 2.22 2.07 1.99 1.94 1.90 1.85 1.80 1.76 1.70
0.025 5.66 4.27 3.67 3.33 3.10 2.94 2.82 2.73 2.65 2.59 2.39 2.28 2.21 2.16 2.09 2.03 1.97 1.89
0.01 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 2.81 2.66 2.57 2.50 2.42 2.33 2.25 2.14
Apndice B
27 0.10 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 1.85 1.75 1.70 1.66 1.64 1.60 1.57 1.54 1.50
0.05 4.21 3.35 2.96 2.73 2.57 2.46 2.37 2.31 2.25 2.20 2.06 1.97 1.92 1.88 1.84 1.79 1.74 1.68
0.025 5.63 4.24 3.65 3.31 3.08 2.92 2.80 2.71 2.63 2.57 2.36 2.25 2.18 2.13 2.07 2.00 1.94 1.86
Tablas
0.01 7.68 5.49 4.60 4.11 3.78 3.56 3.39 3.26 3.15 3.06 2.78 2.63 2.54 2.47 2.38 2.29 2.22 2.11
28 0.10 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.74 1.69 1.65 1.63 1.59 1.56 1.53 1.48
0.05 4.20 3.34 2.95 2.71 2.56 2.45 2.36 2.29 2.24 2.19 2.04 1.96 1.91 1.87 1.82 1.77 1.73 1.66
0.025 5.61 4.22 3.63 3.29 3.06 2.90 2.78 2.69 2.61 2.55 2.34 2.23 2.16 2.11 2.05 1.98 1.92 1.84
0.01 7.64 5.45 4.57 4.07 3.75 3.53 3.36 3.23 3.12 3.03 2.75 2.60 2.51 2.44 2.35 2.26 2.19 2.08
29 0.10 2.89 2.50 2.28 2.15 2.06 1.99 1.93 1.89 1.86 1.83 1.73 1.68 1.64 1.62 1.58 1.55 1.52 1.47
0.05 4.18 3.33 2.93 2.70 2.55 2.43 2.35 2.28 2.22 2.18 2.03 1.94 1.89 1.85 1.81 1.75 1.71 1.65
0.025 5.59 4.20 3.61 3.27 3.04 2.88 2.76 2.67 2.59 2.53 2.32 2.21 2.14 2.09 2.03 1.96 1.90 1.82
0.01 7.60 5.42 4.54 4.04 3.73 3.50 3.33 3.20 3.09 3.00 2.73 2.57 2.48 2.41 2.33 2.23 2.16 2.05
30 0.10 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 1.82 1.72 1.67 1.63 1.61 1.57 1.54 1.51 1.46
0.05 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.01 1.93 1.88 1.84 1.79 1.74 1.70 1.63
0.025 5.57 4.18 3.59 3.25 3.03 2.87 2.75 2.65 2.57 2.51 2.31 2.20 2.12 2.07 2.01 1.94 1.88 1.80
0.01 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.70 2.55 2.45 2.39 2.30 2.21 2.13 2.02
40 0.10 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 1.76 1.66 1.61 1.57 1.54 1.51 1.47 1.43 1.38
0.05 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 1.92 1.84 1.78 1.74 1.69 1.64 1.59 1.52
0.025 5.42 4.05 3.46 3.13 2.90 2.74 2.62 2.53 2.45 2.39 2.18 2.07 1.99 1.94 1.88 1.80 1.74 1.65
0.01 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.52 2.37 2.27 2.20 2.11 2.02 1.94 1.82
60 0.10 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 1.71 1.60 1.54 1.50 1.48 1.44 1.40 1.36 1.30
0.05 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.84 1.75 1.69 1.65 1.59 1.53 1.48 1.40
0.025 5.29 3.93 3.34 3.01 2.79 2.63 2.51 2.41 2.33 2.27 2.06 1.94 1.87 1.82 1.74 1.67 1.60 1.49
0.01 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.35 2.20 2.10 2.03 1.94 1.84 1.75 1.62
100 0.10 2.76 2.36 2.14 2.00 1.91 1.83 1.78 1.73 1.69 1.66 1.56 1.49 1.45 1.42 1.38 1.34 1.29 1.22
0.05 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.97 1.93 1.77 1.68 1.62 1.57 1.52 1.45 1.39 1.30
0.025 5.18 3.83 3.25 2.92 2.70 2.54 2.42 2.32 2.24 2.18 1.97 1.85 1.77 1.71 1.64 1.56 1.48 1.36
0.01 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.59 2.50 2.22 2.07 1.97 1.89 1.80 1.69 1.60 1.45
1 000 0.10 2.71 2.31 2.09 1.95 1.85 1.78 1.72 1.68 1.64 1.61 1.49 1.43 1.38 1.35 1.30 1.25 1.20 1.08
0.05 3.85 3.00 2.61 2.38 2.22 2.11 2.02 1.95 1.89 1.84 1.68 1.58 1.52 1.47 1.41 1.33 1.26 1.11
0.025 5.04 3.70 3.13 2.80 2.58 2.42 2.30 2.20 2.13 2.06 1.85 1.72 1.64 1.58 1.50 1.41 1.32 1.13
0.01 6.66 4.63 3.80 3.34 3.04 2.82 2.66 2.53 2.43 2.34 2.06 1.90 1.79 1.72 1.61 1.50 1.38 1.16
Apndice B Tablas 989
TABLA 6 Valores de e#
e! e! e!
x 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0 0.9048 0.8187 0.7408 0.6703 0.6065 0.5488 0.4966 0.4493 0.4066 0.3679
1 0.0905 0.1637 0.2222 0.2681 0.3033 0.3293 0.3476 0.3595 0.3659 0.3679
2 0.0045 0.0164 0.0333 0.0536 0.0758 0.0988 0.1217 0.1438 0.1647 0.1839
3 0.0002 0.0011 0.0033 0.0072 0.0126 0.0198 0.0284 0.0383 0.0494 0.0613
4 0.0000 0.0001 0.0002 0.0007 0.0016 0.0030 0.0050 0.0077 0.0111 0.0153
5 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004 0.0007 0.0012 0.0020 0.0031
6 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0003 0.0005
7 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
x 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0
0 0.3329 0.3012 0.2725 0.2466 0.2231 0.2019 0.1827 0.1653 0.1496 0.1353
1 0.3662 0.3614 0.3543 0.3452 0.3347 0.3230 0.3106 0.2975 0.2842 0.2707
2 0.2014 0.2169 0.2303 0.2417 0.2510 0.2584 0.2640 0.2678 0.2700 0.2707
3 0.0738 0.0867 0.0998 0.1128 0.1255 0.1378 0.1496 0.1607 0.1710 0.1804
4 0.0203 0.0260 0.0324 0.0395 0.0471 0.0551 0.0636 0.0723 0.0812 0.0902
5 0.0045 0.0062 0.0084 0.0111 0.0141 0.0176 0.0216 0.0260 0.0309 0.0361
6 0.0008 0.0012 0.0018 0.0026 0.0035 0.0047 0.0061 0.0078 0.0098 0.0120
7 0.0001 0.0002 0.0003 0.0005 0.0008 0.0011 0.0015 0.0020 0.0027 0.0034
8 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0003 0.0005 0.0006 0.0009
9 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002
x 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0
0 0.1225 0.1108 0.1003 0.0907 0.0821 0.0743 0.0672 0.0608 0.0550 0.0498
1 0.2572 0.2438 0.2306 0.2177 0.2052 0.1931 0.1815 0.1703 0.1596 0.1494
2 0.2700 0.2681 0.2652 0.2613 0.2565 0.2510 0.2450 0.2384 0.2314 0.2240
3 0.1890 0.1966 0.2033 0.2090 0.2138 0.2176 0.2205 0.2225 0.2237 0.2240
4 0.0992 0.1082 0.1169 0.1254 0.1336 0.1414 0.1488 0.1557 0.1622 0.1680
5 0.0417 0.0476 0.0538 0.0602 0.0668 0.0735 0.0804 0.0872 0.0940 0.1008
6 0.0146 0.0174 0.0206 0.0241 0.0278 0.0319 0.0362 0.0407 0.0455 0.0504
7 0.0044 0.0055 0.0068 0.0083 0.0099 0.0118 0.0139 0.0163 0.0188 0.0216
8 0.0011 0.0015 0.0019 0.0025 0.0031 0.0038 0.0047 0.0057 0.0068 0.0081
9 0.0003 0.0004 0.0005 0.0007 0.0009 0.0011 0.0014 0.0018 0.0022 0.0027
10 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0004 0.0005 0.0006 0.0008
11 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0002 0.0002
12 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
1000 Apndice B Tablas
x 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0
0 0.0450 0.0408 0.0369 0.0344 0.0302 0.0273 0.0247 0.0224 0.0202 0.0183
1 0.1397 0.1304 0.1217 0.1135 0.1057 0.0984 0.0915 0.0850 0.0789 0.0733
2 0.2165 0.2087 0.2008 0.1929 0.1850 0.1771 0.1692 0.1615 0.1539 0.1465
3 0.2237 0.2226 0.2209 0.2186 0.2158 0.2125 0.2087 0.2046 0.2001 0.1954
4 0.1734 0.1781 0.1823 0.1858 0.1888 0.1912 0.1931 0.1944 0.1951 0.1954
5 0.1075 0.1140 0.1203 0.1264 0.1322 0.1377 0.1429 0.1477 0.1522 0.1563
6 0.0555 0.0608 0.0662 0.0716 0.0771 0.0826 0.0881 0.0936 0.0989 0.1042
7 0.0246 0.0278 0.0312 0.0348 0.0385 0.0425 0.0466 0.0508 0.0551 0.0595
8 0.0095 0.0111 0.0129 0.0148 0.0169 0.0191 0.0215 0.0241 0.0269 0.0298
9 0.0033 0.0040 0.0047 0.0056 0.0066 0.0076 0.0089 0.0102 0.0116 0.0132
10 0.0010 0.0013 0.0016 0.0019 0.0023 0.0028 0.0033 0.0039 0.0045 0.0053
11 0.0003 0.0004 0.0005 0.0006 0.0007 0.0009 0.0011 0.0013 0.0016 0.0019
12 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006
13 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
14 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
x 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.0
0 0.0166 0.0150 0.0136 0.0123 0.0111 0.0101 0.0091 0.0082 0.0074 0.0067
1 0.0679 0.0630 0.0583 0.0540 0.0500 0.0462 0.0427 0.0395 0.0365 0.0337
2 0.1393 0.1323 0.1254 0.1188 0.1125 0.1063 0.1005 0.0948 0.0894 0.0842
3 0.1904 0.1852 0.1798 0.1743 0.1687 0.1631 0.1574 0.1517 0.1460 0.1404
4 0.1951 0.1944 0.1933 0.1917 0.1898 0.1875 0.1849 0.1820 0.1789 0.1755
5 0.1600 0.1633 0.1662 0.1687 0.1708 0.1725 0.1738 0.1747 0.1753 0.1755
6 0.1093 0.1143 0.1191 0.1237 0.1281 0.1323 0.1362 0.1398 0.1432 0.1462
7 0.0640 0.0686 0.0732 0.0778 0.0824 0.0869 0.0914 0.0959 0.1002 0.1044
8 0.0328 0.0360 0.0393 0.0428 0.0463 0.0500 0.0537 0.0575 0.0614 0.0653
9 0.0150 0.0168 0.0188 0.0209 0.0232 0.0255 0.0280 0.0307 0.0334 0.0363
10 0.0061 0.0071 0.0081 0.0092 0.0104 0.0118 0.0132 0.0147 0.0164 0.0181
11 0.0023 0.0027 0.0032 0.0037 0.0043 0.0049 0.0056 0.0064 0.0073 0.0082
12 0.0008 0.0009 0.0011 0.0014 0.0016 0.0019 0.0022 0.0026 0.0030 0.0034
13 0.0002 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013
14 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005
15 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
x 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
0 0.0061 0.0055 0.0050 0.0045 0.0041 0.0037 0.0033 0.0030 0.0027 0.0025
1 0.0311 0.0287 0.0265 0.0244 0.0225 0.0207 0.0191 0.0176 0.0162 0.0149
2 0.0793 0.0746 0.0701 0.0659 0.0618 0.0580 0.0544 0.0509 0.0477 0.0446
3 0.1348 0.1293 0.1239 0.1185 0.1133 0.1082 0.1033 0.0985 0.0938 0.0892
4 0.1719 0.1681 0.1641 0.1600 0.1558 0.1515 0.1472 0.1428 0.1383 0.1339
Apndice B Tablas 1001
x 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.0
5 0.1753 0.1748 0.1740 0.1728 0.1714 0.1697 0.1678 0.1656 0.1632 0.1606
6 0.1490 0.1515 0.1537 0.1555 0.1571 0.1587 0.1594 0.1601 0.1605 0.1606
7 0.1086 0.1125 0.1163 0.1200 0.1234 0.1267 0.1298 0.1326 0.1353 0.1377
8 0.0692 0.0731 0.0771 0.0810 0.0849 0.0887 0.0925 0.0962 0.0998 0.1033
9 0.0392 0.0423 0.0454 0.0486 0.0519 0.0552 0.0586 0.0620 0.0654 0.0688
10 0.0200 0.0220 0.0241 0.0262 0.0285 0.0309 0.0334 0.0359 0.0386 0.0413
11 0.0093 0.0104 0.0116 0.0129 0.0143 0.0157 0.0173 0.0190 0.0207 0.0225
12 0.0039 0.0045 0.0051 0.0058 0.0065 0.0073 0.0082 0.0092 0.0102 0.0113
13 0.0015 0.0018 0.0021 0.0024 0.0028 0.0032 0.0036 0.0041 0.0046 0.0052
14 0.0006 0.0007 0.0008 0.0009 0.0011 0.0013 0.0015 0.0017 0.0019 0.0022
15 0.0002 0.0002 0.0003 0.0003 0.0004 0.0005 0.0006 0.0007 0.0008 0.0009
16 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003
17 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001
x 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 7.0
0 0.0022 0.0020 0.0018 0.0017 0.0015 0.0014 0.0012 0.0011 0.0010 0.0009
1 0.0137 0.0126 0.0116 0.0106 0.0098 0.0090 0.0082 0.0076 0.0070 0.0064
2 0.0417 0.0390 0.0364 0.0340 0.0318 0.0296 0.0276 0.0258 0.0240 0.0223
3 0.0848 0.0806 0.0765 0.0726 0.0688 0.0652 0.0617 0.0584 0.0552 0.0521
4 0.1294 0.1249 0.1205 0.1162 0.1118 0.1076 0.1034 0.0992 0.0952 0.0912
5 0.1579 0.1549 0.1519 0.1487 0.1454 0.1420 0.1385 0.1349 0.1314 0.1277
6 0.1605 0.1601 0.1595 0.1586 0.1575 0.1562 0.1546 0.1529 0.1511 0.1490
7 0.1399 0.1418 0.1435 0.1450 0.1462 0.1472 0.1480 0.1486 0.1489 0.1490
8 0.1066 0.1099 0.1130 0.1160 0.1188 0.1215 0.1240 0.1263 0.1284 0.1304
9 0.0723 0.0757 0.0791 0.0825 0.0858 0.0891 0.0923 0.0954 0.0985 0.1014
10 0.0441 0.0469 0.0498 0.0528 0.0558 0.0588 0.0618 0.0649 0.0679 0.0710
11 0.0245 0.0265 0.0285 0.0307 0.0330 0.0353 0.0377 0.0401 0.0426 0.0452
12 0.0124 0.0137 0.0150 0.0164 0.0179 0.0194 0.0210 0.0227 0.0245 0.0264
13 0.0058 0.0065 0.0073 0.0081 0.0089 0.0098 0.0108 0.0119 0.0130 0.0142
14 0.0025 0.0029 0.0033 0.0037 0.0041 0.0046 0.0052 0.0058 0.0064 0.0071
15 0.0010 0.0012 0.0014 0.0016 0.0018 0.0020 0.0023 0.0026 0.0029 0.0033
16 0.0004 0.0005 0.0005 0.0006 0.0007 0.0008 0.0010 0.0011 0.0013 0.0014
17 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006
18 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002
19 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001
x 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
0 0.0008 0.0007 0.0007 0.0006 0.0006 0.0005 0.0005 0.0004 0.0004 0.0003
1 0.0059 0.0054 0.0049 0.0045 0.0041 0.0038 0.0035 0.0032 0.0029 0.0027
2 0.0208 0.0194 0.0180 0.0167 0.0156 0.0145 0.0134 0.0125 0.0116 0.0107
3 0.0492 0.0464 0.0438 0.0413 0.0389 0.0366 0.0345 0.0324 0.0305 0.0286
4 0.0874 0.0836 0.0799 0.0764 0.0729 0.0696 0.0663 0.0632 0.0602 0.0573
1002 Apndice B Tablas
x 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.0
5 0.1241 0.1204 0.1167 0.1130 0.1094 0.1057 0.1021 0.0986 0.0951 0.0916
6 0.1468 0.1445 0.1420 0.1394 0.1367 0.1339 0.1311 0.1282 0.1252 0.1221
7 0.1489 0.1486 0.1481 0.1474 0.1465 0.1454 0.1442 0.1428 0.1413 0.1396
8 0.1321 0.1337 0.1351 0.1363 0.1373 0.1382 0.1388 0.1392 0.1395 0.1396
9 0.1042 0.1070 0.1096 0.1121 0.1144 0.1167 0.1187 0.1207 0.1224 0.1241
10 0.0740 0.0770 0.0800 0.0829 0.0858 0.0887 0.0914 0.0941 0.0967 0.0993
11 0.0478 0.0504 0.0531 0.0558 0.0585 0.0613 0.0640 0.0667 0.0695 0.0722
12 0.0283 0.0303 0.0323 0.0344 0.0366 0.0388 0.0411 0.0434 0.0457 0.0481
13 0.0154 0.0168 0.0181 0.0196 0.0211 0.0227 0.0243 0.0260 0.0278 0.0296
14 0.0078 0.0086 0.0095 0.0104 0.0113 0.0123 0.0134 0.0145 0.0157 0.0169
15 0.0037 0.0041 0.0046 0.0051 0.0057 0.0062 0.0069 0.0075 0.0083 0.0090
16 0.0016 0.0019 0.0021 0.0024 0.0026 0.0030 0.0033 0.0037 0.0041 0.0045
17 0.0007 0.0008 0.0009 0.0010 0.0012 0.0013 0.0015 0.0017 0.0019 0.0021
18 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
19 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0003 0.0003 0.0003 0.0004
20 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002
21 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001
x 8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 9.0
0 0.0003 0.0003 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0001 0.0001
1 0.0025 0.0023 0.0021 0.0019 0.0017 0.0016 0.0014 0.0013 0.0012 0.0011
2 0.0100 0.0092 0.0086 0.0079 0.0074 0.0068 0.0063 0.0058 0.0054 0.0050
3 0.0269 0.0252 0.0237 0.0222 0.0208 0.0195 0.0183 0.0171 0.0160 0.0150
4 0.0544 0.0517 0.0491 0.0466 0.0443 0.0420 0.0398 0.0377 0.0357 0.0337
5 0.0882 0.0849 0.0816 0.0784 0.0752 0.0722 0.0692 0.0663 0.0635 0.0607
6 0.1191 0.1160 0.1128 0.1097 0.1066 0.1034 0.1003 0.0972 0.0941 0.0911
7 0.1378 0.1358 0.1338 0.1317 0.1294 0.1271 0.1247 0.1222 0.1197 0.1171
8 0.1395 0.1392 0.1388 0.1382 0.1375 0.1366 0.1356 0.1344 0.1332 0.1318
9 0.1256 0.1269 0.1280 0.1290 0.1299 0.1306 0.1311 0.1315 0.1317 0.1318
10 0.1017 0.1040 0.1063 0.1084 0.1104 0.1123 0.1140 0.1157 0.1172 0.1186
11 0.0749 0.0776 0.0802 0.0828 0.0853 0.0878 0.0902 0.0925 0.0948 0.0970
12 0.0505 0.0530 0.0555 0.0579 0.0604 0.0629 0.0654 0.0679 0.0703 0.0728
13 0.0315 0.0334 0.0354 0.0374 0.0395 0.0416 0.0438 0.0459 0.0481 0.0504
14 0.0182 0.0196 0.0210 0.0225 0.0240 0.0256 0.0272 0.0289 0.0306 0.0324
15 0.0098 0.0107 0.0116 0.0126 0.0136 0.0147 0.0158 0.0169 0.0182 0.1094
16 0.0050 0.0055 0.0060 0.0066 0.0072 0.0079 0.0086 0.0093 0.0101 0.0109
17 0.0024 0.0026 0.0029 0.0033 0.0036 0.0040 0.0044 0.0048 0.0053 0.0058
18 0.0011 0.0012 0.0014 0.0015 0.0017 0.0019 0.0021 0.0024 0.0026 0.0029
19 0.0005 0.0005 0.0006 0.0007 0.0008 0.0009 0.0010 0.0011 0.0012 0.0014
20 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004 0.0005 0.0005 0.0006
21 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003
22 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001
Apndice B Tablas 1003
0 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0000
1 0.0010 0.0009 0.0009 0.0008 0.0007 0.0007 0.0006 0.0005 0.0005 0.0005
2 0.0046 0.0043 0.0040 0.0037 0.0034 0.0031 0.0029 0.0027 0.0025 0.0023
3 0.0140 0.0131 0.0123 0.0115 0.0107 0.0100 0.0093 0.0087 0.0081 0.0076
4 0.0319 0.0302 0.0285 0.0269 0.0254 0.0240 0.0226 0.0213 0.0201 0.0189
5 0.0581 0.0555 0.0530 0.0506 0.0483 0.0460 0.0439 0.0418 0.0398 0.0378
6 0.0881 0.0851 0.0822 0.0793 0.0764 0.0736 0.0709 0.0682 0.0656 0.0631
7 0.1145 0.1118 0.1091 0.1064 0.1037 0.1010 0.0982 0.0955 0.0928 0.0901
8 0.1302 0.1286 0.1269 0.1251 0.1232 0.1212 0.1191 0.1170 0.1148 0.1126
9 0.1317 0.1315 0.1311 0.1306 0.1300 0.1293 0.1284 0.1274 0.1263 0.1251
10 0.1198 0.1210 0.1219 0.1228 0.1235 0.1241 0.1245 0.1249 0.1250 0.1251
11 0.0991 0.1012 0.1031 0.1049 0.1067 0.1083 0.1098 0.1112 0.1125 0.1137
12 0.0752 0.0776 0.0799 0.0822 0.0844 0.0866 0.0888 0.0908 0.0928 0.0948
13 0.0526 0.0549 0.0572 0.0594 0.0617 0.0640 0.0662 0.0685 0.0707 0.0729
14 0.0342 0.0361 0.0380 0.0399 0.0419 0.0439 0.0459 0.0479 0.0500 0.0521
15 0.0208 0.0221 0.0235 0.0250 0.0265 0.0281 0.0297 0.0313 0.0330 0.0347
16 0.0118 0.0127 0.0137 0.0147 0.0157 0.0168 0.0180 0.0192 0.0204 0.0217
17 0.0063 0.0069 0.0075 0.0081 0.0088 0.0095 0.0103 0.0111 0.0119 0.0128
18 0.0032 0.0035 0.0039 0.0042 0.0046 0.0051 0.0055 0.0060 0.0065 0.0071
19 0.0015 0.0017 0.0019 0.0021 0.0023 0.0026 0.0028 0.0031 0.0034 0.0037
20 0.0007 0.0008 0.0009 0.0010 0.0011 0.0012 0.0014 0.0015 0.0017 0.0019
21 0.0003 0.0003 0.0004 0.0004 0.0005 0.0006 0.0006 0.0007 0.0008 0.0009
22 0.0001 0.0001 0.0002 0.0002 0.0002 0.0002 0.0003 0.0003 0.0004 0.0004
23 0.0000 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0002 0.0002
24 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001
x 11 12 13 14 15 16 17 18 19 20
0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
1 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
2 0.0010 0.0004 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
3 0.0037 0.0018 0.0008 0.0004 0.0002 0.0001 0.0000 0.0000 0.0000 0.0000
4 0.0102 0.0053 0.0027 0.0013 0.0006 0.0003 0.0001 0.0001 0.0000 0.0000
5 0.0224 0.0127 0.0070 0.0037 0.0019 0.0010 0.0005 0.0002 0.0001 0.0001
6 0.0411 0.0255 0.0152 0.0087 0.0048 0.0026 0.0014 0.0007 0.0004 0.0002
7 0.0646 0.0437 0.0281 0.0174 0.0104 0.0060 0.0034 0.0018 0.0010 0.0005
8 0.0888 0.0655 0.0457 0.0304 0.0194 0.0120 0.0072 0.0042 0.0024 0.0013
9 0.1085 0.0874 0.0661 0.0473 0.0324 0.0213 0.0135 0.0083 0.0050 0.0029
10 0.1194 0.1048 0.0859 0.0663 0.0486 0.0341 0.0230 0.0150 0.0095 0.0058
11 0.1194 0.1144 0.1015 0.0844 0.0663 0.0496 0.0355 0.0245 0.0164 0.0106
12 0.1094 0.1144 0.1099 0.0984 0.0829 0.0661 0.0504 0.0368 0.0259 0.0176
13 0.0926 0.1056 0.1099 0.1060 0.0956 0.0814 0.0658 0.0509 0.0378 0.0271
14 0.0728 0.0905 0.1021 0.1060 0.1024 0.0930 0.0800 0.0655 0.0514 0.0387
1004 Apndice B Tablas
x 11 12 13 14 15 16 17 18 19 20
15 0.0534 0.0724 0.0885 0.0989 0.1024 0.0992 0.0906 0.0786 0.0650 0.0516
16 0.0367 0.0543 0.0719 0.0866 0.0960 0.0992 0.0963 0.0884 0.0772 0.0646
17 0.0237 0.0383 0.0550 0.0713 0.0847 0.0934 0.0963 0.0936 0.0863 0.0760
18 0.0145 0.0256 0.0397 0.0554 0.0706 0.0830 0.0909 0.0936 0.0911 0.0844
19 0.0084 0.0161 0.0272 0.0409 0.0557 0.0699 0.0814 0.0887 0.0911 0.0888
20 0.0046 0.0097 0.0177 0.0286 0.0418 0.0559 0.0692 0.0798 0.0866 0.0888
21 0.0024 0.0055 0.0109 0.0191 0.0299 0.0426 0.0560 0.0684 0.0783 0.0846
22 0.0012 0.0030 0.0065 0.0121 0.0204 0.0310 0.0433 0.0560 0.0676 0.0769
23 0.0006 0.0016 0.0037 0.0074 0.0133 0.0216 0.0320 0.0438 0.0559 0.0669
24 0.0003 0.0008 0.0020 0.0043 0.0083 0.0144 0.0226 0.0328 0.0442 0.0557
25 0.0001 0.0004 0.0010 0.0024 0.0050 0.0092 0.0154 0.0237 0.0336 0.0446
26 0.0000 0.0002 0.0005 0.0013 0.0029 0.0057 0.0101 0.0164 0.0246 0.0343
27 0.0000 0.0001 0.0002 0.0007 0.0016 0.0034 0.0063 0.0109 0.0173 0.0254
28 0.0000 0.0000 0.0001 0.0003 0.0009 0.0019 0.0038 0.0070 0.0117 0.0181
29 0.0000 0.0000 0.0001 0.0002 0.0004 0.0011 0.0023 0.0044 0.0077 0.0125
30 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0013 0.0026 0.0049 0.0083
31 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0007 0.0015 0.0030 0.0054
32 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0004 0.0009 0.0018 0.0034
33 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0005 0.0010 0.0020
34 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0006 0.0012
35 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0003 0.0007
36 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002 0.0004
37 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0002
38 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
39 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001
Apndice C Notacin de suma
Suma
Definicin
a xi ! x1 $ x2 $ . . . $ xn
n
(C.1)
i!1
Ejemplo para x1 ! 5, x2 ! 8, x3 ! 14
a xi ! x1 $ x2 $ x3
3
i!1
! 5 $ 8 $ 14
! 27
Resultado 1
a c ! (c $ c $
n
. . . $ c) ! nc (C.2)
i!1
n veces
Ejemplo para c ! 5, n ! 10
a 5 ! 10(5) ! 50
10
i!1
Ejemplo para c ! x
a x ! nx
n
i!1
Resultado 2
! c(x1 $ x2 $ . . . $ xn) ! c a xi
n
(C.3)
i!1
a 2 xi ! 2 a xi ! 2(27) ! 54
3 3
i!1 i!1
Resultado 3
a (axi $ byi) ! a a xi $ b a yi
n n n
(C.4)
i!1 i!1 i!1
1006 Apndice C Notacin de suma
a (2xi $ 4yi) ! 2a xi $ 4a yi
3 3 3
! 2(27) $ 4(18)
! 54 $ 72
! 126
Doble suma
Considere los siguientes datos que involucran la variable xij, donde i es el subndice que denota la
posicin en una fila o rengln, y j es el subndice que denota la posicin en la columna.
Columna
1 2 3
1 x11 ! 10 x12 ! 8 x13 ! 6
Fila
o rengln
2 x21 ! 7 x22 ! 4 x23 ! 12
Definicin
Ejemplo
i!1 i!1
! 10 $ 8 $ 6 $ 7 $ 4 $ 12
! 47
Definicin
Ejemplo
i!1
!8$4
! 12
Notacin abreviada
Algunas veces, cuando una suma es para todos los valores del subndice, se utilizan las siguientes no-
taciones abreviadas.
a xi ! a xi
n
(C.7)
i!1
a a xij ! aa xij
n m
(C.8)
i!1 j!1
a xij ! a xij
n
(C.9)
i!1 i
Apndice D Soluciones a las autoevaluaciones
y respuestas a los ejercicios de
nmeros pares
14. a) Trace una grfica con una lnea de serie de tiempo para
Captulo 1 cada fabricante
2. a) 10 b) Toyota supera a General Motors en 2006 y se convier-
b) 5 te en el principal fabricante de automviles
c) Variables categricas: el tamao y el combustible c) Una grfica de barras mostrara los datos de corte trans-
Variables cuantitativas: cilindros, MPG en la ciudad y versal para 2007; la altura de las barras sera GM 8.8,
MPG en autopista
Ford 7.9, DC 4.6 y Toyota 9.6
d) 18. a) 36%
Variable Medidas a escala b) 189
Tamao Ordinal c) Categricos
Cilindros de razn 20. a) 43% de los administradores fueron optimistas (a la
MPG en la ciudad de razn alza) o muy optimistas (muy a la alza), y 21% de los
MPG en autopista de razn administradores espera que la asistencia mdica sea la
Combustible Nominal industria principal durante los prximos 12 meses
b) El rendimiento promedio esperado a 12 meses se es-
3. a) Promedio al conducir en la ciudad ! 182/10 ! 18.2 mpg tima que sea de 11.2% para la poblacin de los admi-
b) Promedio al conducir en autopista ! 261/10 ! 26.1 mpg nistradores de inversiones
En promedio, las millas por galn al conducir en auto- c) El promedio muestral de 2.5 aos es una estimacin de
pista es de 7.9 mpg mayor que al conducir en la ciudad cunto le tomar conseguir a la poblacin de adminis-
c) 3 de 10 o 30% tienen motores de cuatro cilindros tradores de inversiones un crecimiento sostenido
d) 6 de 10 o 60% utilizan gasolina regular 22. a) La poblacin consiste de todos los clientes de la cade-
4. a) 7 na de tiendas en Charlotte, Carolina del Norte
b) 5 b) Algunas formas que la cadena de tiendas de abarrotes
c) Variables categricas: estado, campo de juego y la di- podra utilizar para recabar los datos son:
visin de la NCAA Encuestar a clientes que entran o salen de la tienda
d) Variables cuantitativas: activos y solicitudes admitidas La encuesta podra ser enviada por correo a clientes
que tengan una tarjeta de compras del club
6. a) Cuantitativos A los clientes se les proporcionara una encuesta
b) Categricos impresa al salir de la tienda
c) Categricos A los clientes se les entregara un cupn en el que
d) Cuantitativos se les solicitara completar un breve cuestionario en
e) Categricos lnea; si lo hacen, recibirn 5% de descuento en su
8. a) 1 015 siguiente compra
b) Categricos 24. a) Correcto
c) Porcentajes b) Incorrecto
d) 0.10(1015) ! 101.5; 101 o 102 personas encuestadas c) Correcto
d) Incorrecto
10. a) Cuantitativo; de razn e) Incorrecto
b) Categrico; nominal
c) Categrico: ordinal
d) Cuantitativo; de razn
Captulo 2
e) Categrico; nominal 2. a) 0.20
12. a) Todas las personas que visitan Hawaii b) 40
b) S c)/d)
c) Las preguntas primera y cuarta proporcionan datos Frecuencia
cuantitativos. Clase Frecuencia porcentual
La segunda y tercera preguntas proporcionan datos A 44 22
categricos. B 36 18
C 80 40
13. a) El gasto federal ($ billones)
D 40 20
b) Cuantitativos
c) Series de tiempo Total 200 100
d) El gasto federal se ha incrementado con el tiempo
1008 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
3. a) 360 " 58/120 ! 174 La gerencia debe estar satisfecha con estos resultados:
b) 360 " 42/120 ! 126 64% de las evaluaciones son de muy bueno a sobresalien-
c) 48.3% te, y 84% son bueno o mejor; comparando estas califica-
ciones con los resultados anteriores, se demostrar si el
restaurante est mejorando en las calificaciones de sus
Si Sin 16.7%
opinin clientes con respecto a la calidad de sus alimentos
8. a)
No
Frecuencia
Posicin Frecuencia relativa
35% P 17 0.309
H 4 0.073
d) 1 5 0.091
60 2 4 0.073
3 2 0.036
S 5 0.091
40 L 6 0.109
C 5 0.091
R 7 0.127
20
Totales 55 1.000
S No Sin opinin
b) Pitcher
c) 3a base
4. a) Cualitativos d) Jardinero derecho
b) e) 16 jugadores de cuadro (infielders) en comparacin
Programa Frecuencia con 18 jugadores de campo (outfielders)
de televisin Frecuencia porcentual
La ley y el orden (LyO) 10 20% 10. a)/b)
CSI 18 36% Frecuencia
Sin rastro 9 18% Calificacin Frecuencia porcentual
Esposas desesperadas (ED) 13 26%
Excelente 20 2
Total: 50 100% Bueno 101 10
Justo 528 52
Malo 244 24
d) CSI tuvo la mayor audiencia; Esposas desesperadas Terrible 122 12
ocup el segundo lugar
Total 1015 100
6. a)
Cadena de Frecuencia c)
televisin Frecuencia porcentual
60
ABC 15 30
CBS 17 34 50
Frecuencia porcentual
FOX 1 2
NBC 17 34 40
30
b) CBS y NBC empataron en primer lugar; ABC qued 20
cerca con 15
10
7. 0
Terrible Malo Justo Bueno Excelente
Frecuencia
Calificacin Frecuencia relativa Calificacin
Sobresaliente 19 0.38
Muy bueno 13 0.26 d) 36% un desempeo malo o terrible
Bueno 10 0.20 12% un buen o excelente desempeo
Regular 6 0.12 e) 50% un malo o terrible desempeo
Malo 2 0.04 4% de bueno a excelente desempeo
Ms pesimismo en Espaa
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1009
12.
Frecuencia Sueldo Frecuencia porcentual
Frecuencia relativa 170179 35
Clase acumulada acumulada 180189 25
#19 10 0.20 190199 5
#29 24 0.48 200209 10
#39 41 0.82 210219 5
#49 48 0.96
Total 100
#59 50 1.00
c)
14. b)/c)
Frecuencia
Frecuencia porcentual
Clase Frecuencia porcentual Sueldo acumulada
6.0 7.9 4 20 Menor o igual que 159 5
8.0 9.9 2 10 Menor o igual que 169 20
10.0 11.9 8 40 Menor o igual que 179 55
12.0 13.9 3 15 Menor o igual que 189 80
14.0 15.9 3 15 Menor o igual que 199 85
Totales 20 100 Menor o igual que 209 95
Menor o igual que 219 100
Total 100
15. a)/ b)
Tiempo Frecuencia
de espera Frecuencia relativa e) Existe un sesgo hacia la derecha
f ) 15%
04 4 0.20
59 8 0.40 18. a) Ms bajo de $180; ms alto de $2 050
1014 5 0.25 b)
1519 2 0.10
2024 1 0.05 Frecuencia
Gasto Frecuencia porcentual
Totales 20 1.00
$ 0249 3 12
250499 6 24
c)/d) 500749 5 20
750999 5 20
Frecuencia
1 0001 249 3 12
Tiempo Frecuencia relativa
1 2501 499 1 4
de espera acumulada acumulada
1 5001 749 0 0
#4 4 0.20 1 7501 999 1 4
#9 12 0.60 2 0002 249 1 4
#14 17 0.85
Total 25 100
#19 19 0.95
#24 20 1.00
c) La distribucin muestra un sesgo positivo
d) La mayora de los consumidores (64%) gasta entre
e) 12/20 ! 0.60 $250 y $1000; el valor intermedio es de aproximada-
16. a) mente $750; y dos personas gastaron ms de $1 750
Sueldo Frecuencia 20. a)
150159 1 Ingreso fuera Frecuencia
160169 3 de campo ($1 000s) Frecuencia porcentual
170179 7
04 999 30 60
180189 5
5 0009 999 9 18
190199 1
10 00014 999 4 8
200209 2
15 00019 999 0 0
210219 1
20 00024 999 3 6
Total 20 25 00029 999 2 4
30 00034 999 0 0
b) 35 00039 999 0 0
40 00044 999 1 2
Sueldo Frecuencia porcentual 45 00049 999 0 0
150159 5 Ms de 50 000 1 2
160169 15 Total 50 100
1010 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
30. a) c)
Tipo de fondo Frecuencia
56
DE 27
40 FI 10
IE 8
24 Total 45
8
y
b) 42. a)
Rendimiento promedio a 5 aos Frecuencia Calificacin en el SAT Frecuencia
09.99 10 800999 1
1019.99 28 10001199 3
2029.99 4 12001399 6
3039.99 2 14001599 10
4049.99 0 16001799 7
5059.99 1 18001999 2
20002199 1
Total 45
Total 30
1012 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
b) Casi simtrica d)
c) El 33% de las calificaciones cay entre 1 400 y 1 599. Temperatura Temperatura
Las puntuaciones por debajo de 800 o arriba de 2 200 alta Frecuencia baja Frecuencia
son inusuales. El promedio est cercano o ligeramente 1019 0 1019 1
arriba de 1 500 2029 0 2029 5
3039 1 3039 5
44. a) 4049 4 4049 5
Percent 5059 3 5059 3
Frequency 6069 9 6069 1
Population Frequency (Frecuencia 7079 2 7079 0
(Poblacin) (Frecuencia) porcentual) 8089 1 8089 0
0.02.4 17 34 Total 20 Total 20
2.54.9 12 24
5.07.4 9 18
7.59.9 4 8 48. a)
10.012.4 3 6
Nivel de apoyo Frecuencia porcentual
12.514.9 1 2
15.017.4 1 2 Totalmente a favor 30.10
17.519.9 1 2 Ms a favor que en contra 34.83
20.022.4 0 0 Ms en contra que a favor 21.13
22.524.9 1 2 Totalmente en contra 13.94
25.027.4 0 0 Total 100.00
27.529.9 0 0
30.032.4 0 0
32.534.9 0 0 En general a favor de impuestos ms altos
35.037.4 1 2 ! 30.10% $ 34.83%
Total 50 100 ! 64.93%
b) 20.2, 19.5, 20.6, 20.7, 19.0
Aproximadamente 20% por pas
c) Un sesgo positivo alto
c) Tabulacin cruzada con columna de porcentajes:
d) 17 (34%) cuenta con una poblacin menor de 2.5 millones
29 (58%) tiene una poblacin menor de 5 millones
8 (16%) cuenta con una poblacin mayor de 10 millones Pas
El mayor tiene ms de 35.9 millones (California) Gran Estados
El menor tiene menos de 0.5 millones (Wyoming) Apoyo Bretaa Italia Espaa Alemania Unidos
Totalmente a favor 31.00 31.96 45.99 19.98 20.98
46. a) Temperaturas altas Ms a favor que en contra 34.04 39.04 32.01 36.99 32.06
Ms en contra que a favor 23.00 17.99 13.98 24.03 26.96
1 Totalmente en contra 11.96 11.01 8.03 18.99 20.00
2 Total 100.00 100.00 100.00 100.00 100.00
3 0
4 1 2 2 5
Los porcentajes de encuestados que expresaron estar
5 2 4 5 a favor de un impuesto ms alto, ya sea diciendo to-
6 0 0 0 1 2 2 5 6 8 talmente a favor o a ms a favor que en contra son
7 0 7 65.04%, 71.00%, 78.00%, 56.97%, y 53.04 para los
8 4 cinco pases; todos muestran ms de 50% de apoyo,
b) Temperaturas bajas pero los europeos manifiestan ms apoyo para el im-
1 1 puesto que Estados Unidos; Italia y Espaa demuestran
el mayor nivel de apoyo.
2 1 2 6 7 9
3 1 5 6 8 9 50. a) Total de filas: 247; 54; 82; 121
4 0 3 3 6 7 Total de columnas: 149; 317; 17; 7; 14
5 0 0 4 b)
6 5 Ao Frecuencia Combustible Frecuencia
7 1973 o antes 247 Elect. 149
8 197479 54 Gas Nat. 317
198086 82 Petrleo 17
c) El intervalo de frecuencia ms alto est en la dcada de 198791 121 Propano 7
1960 (9 de 20) y slo hay una temperatura menor de 54. Total 504 Otros 14
La mayor parte de las temperaturas altas est entre 41. Total 504
y 68, mientras que la mayor parte de las temperaturas
bajas vara de 21 a 47
La baja fue de 11 y la alta de 84
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1013
75 28 $ 30 38 % 30 1
i! (8) ! 6; Q3 ! ! 29 c) z ! ! 1.6; 1 % ! 0.61
100 2 5 (1.6)2
RIC ! Q3 % Q1 ! 29 % 22.5 ! 6.5 42 % 30 1
d) z ! ! 2.4; 1 % ! 0.83
! xi 204 5 (2.4)2
x! ! ! 25.5
n 8 48 % 30 1
e) z ! ! 3.6; 1 % ! 0.92
5 (3.6)2
xi (xi ! x) (xi ! x)2 28. a) 95%
b) Casi todos
27 1.5 2.25
c) 68%
25 %0.5 0.25
20 %5.5 30.25 29. a) z ! 2 desviaciones estndar
15 %10.5 110.25 1 1 3
30 4.5 20.25
1 % 2 ! 1 % 2 ! ; por lo menos 75%
z 2 4
34 8.5 72.25
b) z ! 2.5 desviaciones estndar
28 2.5 6.25
25 %0.5 0.25 1 1
1% 2!1% ! 0.84; por lo menos 84%
z 2.52
242.00
2
c) z ! 2 desviaciones estndar
!(xi % x) 242 Regla emprica: 95%
s2 ! ! ! 34.57
n%1 8%1 30. a) 68%
s ! "34.57 ! 5.88 b) 81.5%
c) 2.5%
16. a) Rango ! 190 % 168 ! 22 32. a) %0.67
! xi 1 068 b) 1.50
b) x ! ! ! 178 c) Ninguna observacin atpica
n 6
d) S; z ! 8.25
!(xi % x)2
s2 ! 34. a) 76.5, 7
n%1 b) 16%, 2.5%
42 $ (%10)2 $ 62 $ 122 $ (%8)2 $ (%4)2 c) 12.2, 7.89; no
!
6%1 36. 15, 22.5, 26, 29, 34
376 38. Datos ordenados de menor a mayor: 5, 6, 8, 10, 10, 12, 15,
! ! 75.2
5 16, 18
c) s ! "75.2 ! 8.67 25
i! (9) ! 2.25; redondeo hacia arriba a la posicin 3
s 8.67 100
d) (100) ! (100%) ! 4.87% Q1 ! 8
x 178
Mediana (5a) posicin) ! 10
18. a) 38, 97, 9.85 75
b) El este muestra ms variacin i! (9) ! 6.75; redondeo hacia arriba a la posicin 7
100
20. Dawson: rango ! 2; s ! 0.67 Q3 ! 15
Clark: rango ! 8; s ! 2.58 Resumen de cinco nmeros: 5, 8, 10, 15, 18
22. a) 1285, 433
Los de primer ao ms
b) 1 720, 352
5 10 15 20
c) 404, 131.5
d) 367.04, 96.96 40. a) El 1er lugar de los hombres 43.73 minutos ms rpido
e) Los de primer ao muestran ms variacin b) Medianas: 109.64, 131.67
El tiempo mediano de los hombres, 22.03 minutos
24. Tiempos de cuarto de milla: s ! 0.0564; coeficiente de ms rpido
variacin ! 5.8% c) 65.30, 87.18, 109.64, 128.40, 148.70
Tiempos de milla: s ! 0.1295; coeficiente de variacin 109.03, 122.08, 131.67, 147.18, 189.28
! 2.9% d) Lmites varoniles: 25.35 hasta 190.23; sin
26. 0.20, 1.50, 0, %0.50, %2.20 observaciones atpicas
Lmites femeniles: 84.43 hasta 184.83; 2
27. Teorema de Chebyshev: por lo menos (1 % 1/z2) observaciones atpicas
40 % 30 1 e) Las corredoras mostraron menor variacin
a) z ! ! 2; 1 % ! 0.75 41. a) Organice los datos de menor a mayor
5 (2)2
45 % 30 1 25
b) z ! ! 3; 1 % ! 0.89 i! (21) ! 5.25; redondee hacia arriba hasta la
5 (3)2 100
posicin 6
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1015
52. b) 0.2022 4. x ! 0, 1, 2, . . . , 9
c) 0.4618
d) 0.4005 6. a) 0, 1, 2, . . . , 20; discreta
54. a) 0.49 b) 0, 1, 2, . . . ; discreta
b) 0.44 c) 0, 1, 2, . . . , 50; discreta
c) 0.54 d) 0 # x # 8; continua
d) No e) x & 0; continua
e) S
7. a) f (x) ) 0 para todos los valores de x
56. a) 0.25 !f (x) ! 1; por tanto, esta es una distribucin de
b) 0.125 probabilidad vlida
c) 0.0125 b) Probabilidad de que x ! 30 es f (30) ! 0.25
d) 0.10 c) La probabilidad de que x # 25 es f (20) $ f (25) !
e) No 0.20 $ 0.15 ! 0.35
58. a) d) Probabilidad de que x & 30 es f (35) ! 0.40
Adultos Adultos
jvenes mayores Total 8. a)
Blogger 0.0432 0.0368 0.08 x f (x)
No blogger 0.2208 0.6992 0.92 1 3/20 ! 0.15
Total 0.2640 0.7360 1.00 2 5/20 ! 0.25
3 8/20 ! 0.40
4 4/20 ! 0.20
b) 0.2640
c) 0.0432 Total 1.00
d) 0.1636
60. a) 0.40 b) f (x)
b) 0.67
0.4
Captulo 5 0.3
d) Discreta; 0, 1, y 2 b) x 1 2 3 4 5
2. a) x ! tiempo requerido en minutos para ensamblar un f(x) 0.04 0.10 0.12 0.46 0.28
producto
c) 0.83
b) Cualquier valor positivo: x & 0
d) 0.28
c) Continua
e) Los altos directivos estn ms satisfechos
3. Sea Y ! oferta de empleo
N ! ninguna oferta de empleo 12. a) S
a) S ! {(Y, Y, Y), (Y, Y, N ), (Y, N , Y), (Y, N , N ), (N , Y, Y), b) 0.15
(N , Y, N ), (N , N , Y), (N , N , N )} c) 0.10
b) Sea N ! nmero de ofertas formuladas; N es una va-
riable aleatoria discreta 14. a) 0.05
c) Resultado (Y, Y, (Y, Y, (Y, N, (Y, N, (N, Y, (N, Y, (N, N, (N, N,
b) 0.70
experimental Y) N) Y) N) Y) N) Y) N)
c) 0.40
Valor de N 3 2 2 1 2 1 1 0
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1019
S
b) F
y y! ( y ! )2 f ( y) ( y ! )2f( y)
2 %3.20 10.24 0.20 2.048 F
4 %1.20 1.44 0.30 0.432
2 2!
7 1.80 3.24 0.40 1.296 b) f (1) ! (0.4)1 (0.6)1 ! (0.4)(0.6) ! 0.48
8 2.80 7.84 0.10 0.784 1 1!1!
2 2!
Total 4.560 c) f (0) ! (0.4)0 (0.6)2 ! (1)(0.36) ! 0.36
0 0!2!
Var( y) ! 4.56 2 2!
! "4.56 ! 2.14 d) f (2) ! (0.4)2 (0.6)0 ! (0.16)(0.1) ! 0.16
2 2!0!
e) P(x ) 1) ! f(1) $ f(2) ! 0.48 $ 0.16 ! 0.64
18. a)/ b) f) E(x) ! np ! 2(0.4) ! 0.8
Var(x) ! np(1 % p) ! 2(0.4)(0.6) ! 0.48
x f(x) xf(x) x ! (x ! )2 (x ! )2f(x) ! "0.48 ! 0.6928
0 0.04 0.00 %1.84 3.39 0.12 26. a) 0.3487
1 0.34 0.34 %0.84 0.71 0.24 b) 0.1937
2 0.41 0.82 0.16 0.02 0.01 c) 0.9298
3 0.18 0.53 1.16 1.34 0.24 d) 0.6513
4 0.04 0.15 2.16 4.66 0.17 e) 1
Total 1.00 1.84 0.79 f) 0.9, 0.95
28. a) 0.2789
E(x) Var(x) b) 0.4181
c) 0.0733
c)/d)
30. a) La probabilidad de que un artculo producido est de-
fectuoso debe ser de 0.03 por cada pieza seleccionada;
y f( y) yf( y) y! ( y ! )2 ( y ! )2f( y) las partes deben ser seleccionadas de forma indepen-
0 0.00 0.00 %2.93 8.58 0.01 diente
1 0.03 0.03 %1.93 3.72 0.12 b) Sea D ! defectuosa
2 0.23 0.45 %0.93 0.86 0.20 G ! sin defecto
3 0.52 1.55 0.07 0.01 0.00
4 0.22 0.90 1.07 1.15 0.26 Resultado
experimental Nmero de
Total 1.00 2.93 0.59 Primera pieza Segunda pieza defectuosas
E( y) Var( y)
D (D, D) 2
Captulo 10
2
s 21 s2
$ 2
n1 n2
1. a) x1 ! x 2 " 13.6 ! 11.6 " 2 b) gl "
1 s 21 2 1 s 22 2
b) z/2 " z.05 " 1.645 $
n1 ! 1 n1 n2 ! 1 n2
21 22
x1 ! x 2 # 1.645 $ 5.22 8.52 2
n1 n2 $
35 40
(2.2)2 (3)2 " 2 " 65.7
2 # 1.645 $ 1 5.22 1 8.52 2
50 35 $
34 35 39 40
2 # 0.98 (1.02 hasta 2.98)
c) z/2 " z0.05 " 1.96 Utilice gl " 65
c) gl " 65, el rea en la cola est entre 0.01 y 0.025;
(2.2)2 (3)2 el valor-p para las dos colas se sita entre 0.02 y 0.05
2 # 1.96 $
50 35 Valor-p exacto " 0.0329
2 # 1.17 (0.83 a 3.17) d) Valor-p % 0.05; H0 es rechazada
(x1 ! x 2 ) ! D0 (25.2 ! 22.8) ! 0 12. a) x1 ! x 2 " 22.5 ! 18.6 " 3.9 millas
2. a) z " " " 2.03
21 22 (5.2)2 (6)2 s 21 s2 2
n1 $ n2 40
$
50 $ 2
n1 n2
b) gl "
b) El valor-p " 1.0000 ! 0.9788 " 0.0212 1 s 21 2 1 s 22 2
$
c) El valor-p % 0.05; H0 es rechaza n1 ! 1 n1 n2 ! 1 n2
4. a) x1 ! x 2 " 85.36 ! 81.40 " 3.96 8.42 7.42 2
$
21 22 (4.55)2 (3.97)2 50 40
b) z0.025 $ " 1.96 $ 1.88 " " 87.1
n1 n2 37 44 1 8.42 2 1 7.42 2
$
49 50 39 40
c) 3.96 # 1.88 (2.08 a 5.84)
Utilice gl " 87, t0.025 " 1.988
6. El valor-p " 0.0351 8.42 7.42
H0 es rechazada; el precio promedio en Atlanta es menor 3.9 # 1.988 $
50 40
que el precio promedio en Houston
3.9 # 3.3 (0.6 a 7.2)
8. a) H0 es rechazada; el servicio al cliente ha mejorado para
Rite Aid 14. a) H0: 1 ! 2 & 0
b) H0 no es rechazada; la diferencia estadstica no es sig- Ha: 1 ! 2 ' 0
nificativa b) !2.41
c) El valor-p " 0.0336; H0 es rechazada; el servicio al c) Al utilizar la tabla t, el valor-p est entre 0.005 y 0.01
cliente ha mejorado para Expedia Valor-p exacto " 0.009
d) 1.80 d) H0 es rechazada; los sueldos ms bajos de enfermera
e) El incremento de J.C) Penney no es estadsticamente estn en Tampa
significativo
16. a) H0: 1 ! 2 % 0
9. a) x1 ! x2 " 22.5 ! 20.1 " 2.4 Ha: 1 ! 2 ( 0
s 21 s2 2 b) 38
$ 2 c) t " 1.80, df " 25
n1 n2
b) gl " 2 2
Al utilizar la tabla t, el valor-p est entre 0.025 y 0.05
1 s1 1 s 22 2 Valor-p exacto " 0.0420
$
n1 ! 1 n1 n2 ! 1 n2 d) H0 es rechazada; se concluye que se obtienen las mejo-
2.52 4.82 2 res puntuaciones si se tiene grado de licenciatura
$
20 30
" 2 2 " 45.8 18. a) H0: 1 ! 2 & 120
1 2.5 1 4.82 2
$ Ha: 1 ! 2 ' 120
19 20 29 30
b) !2.10
c) gl " 45, t0.025 " 2.014 Al utilizar la tabla t, el valor-p est entre 0.01 y 0.025
s 21 s2 2.52 4.82 Valor-p exacto " 0.0195
t0.025 $ 2 " 2.014 $ " 2.1
n1 n2 20 30 c) 32 hasta 118
d) La muestra de mayor tamao
d) 2.4 # 2.1 (0.3 a 4.5)
19. a) 1, 2, 0, 0, 2
(x1 ! x 2 ) ! 0 (13.6 ! 10.1) ! 0
10. a) t " " " 2.18 b) d " !di#n " 5#5 " 1
s 21 s2 5.22 8.52
$ 2 $ !(di ! d )2 4
n1 n2 35 40 c) sd " " "1
n!1 5!1
1030 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
b) Con 19 grados de libertad, 20.025 " 32.852 y 17. a) La poblacin 1 de los automviles de 4 aos de anti-
20.975 " 8.907 gedad es
19(25) 19(25) H0: 21 % 22
% 2 %
32.852 8.907 Ha: 21 ( 22
14.46 % 2 % 53.33 s2 1702
b) F " 12 " " 2.89
c) 3.8 % % 7.3 s2 1002
4. a) 0.22 a 0.71 Grados de libertad: 25, 24
b) 0.47 a 0.84 En las tablas, el valor-p es menor de 0.01
El valor-p % 0.01; H0 es rechazada
6. a) 0.2205, 47.95, 6.92 Se concluye que los automviles de 4 aos de antige-
b) 5.27 a 10.11 dad tienen una mayor varianza en el costo de repara-
8. a) 0.4748 cin anual en relacin con los de 2 aos de antigedad,
b) 0.6891 lo cual es previsible debido a que los automviles ms
c) 0.2383 a 1.3687 viejos son ms propensos a las reparaciones ms ca-
0.4882 a 1.1699 ras que llevan a una mayor variacin en los costos de
reparacin anual
9. H0: 2 % 0.0004
Ha: 2 ( 0.0004 18. F " 1.44
El valor-p es mayor de 0.20
(n ! 1)s2 (30 ! 1)(0.0005)
2 " " " 36.25 H0 no es rechazada; la diferencia entre las varianzas no es
20 0.0004 estadsticamente significativa
De la tabla con 29 grados de libertad, el valor-p es mayor
20. F " 5.29
de 0.10
El valor-p % 0
El valor-p ( 0.05; H0 no es rechazada
H0 es rechazada; las varianzas de la poblacin no son igua-
La especificacin del producto no parece violarse
les para los ejecutivos y los gerentes
10. H0: 2 % 331.24
Ha: 2 ( 331.24 22. a) F " 4
El valor-p es menor de 0.01
2 " 52.07, gl " 35
H0 es rechazada; se presenta mayor variabilidad en la
El valor-p est entre 0.025 y 0.05
distancia de frenado en pavimento mojado
H0 es rechazada; la desviacin estndar de Vanguard es
mayor 24. 10.72 a 24.68
12. a) 0.8106 26. a) 2 " 27.44
b) 2 " 9.49 El valor-p entre 0.01 y 0.025
El valor-p es mayor que 0.20 H0 es rechazada; la varianza excede los requerimientos
H0 no es rechazada; no se puede concluir que la varian- mximos
za para la otra revista sea diferente b) 0.00012 a 0.00042
14. a) F " 2.4 28. 2 " 31.50
El valor-p est entre 0.025 y 0.05 El valor-p est entre 0.05 y 0.10
H0 es rechazada H0 es rechazada; se concluye que la varianza de la pobla-
b) F0.05 " 2.2; H0 es rechazada cin es mayor de 1
15. a) La varianza muestral mayores s 21 30. a) n " 15
s2 8.2 b) 6.25 a 11.13
F " 12 " " 2.05
s2 4 32. F " 1.39
Grados de libertad: 20, 25 H0 no es rechazada; no se puede concluir que las varianzas
En la tabla, el rea en la cola est entre 0.025 y 0.05 del promedio de calificaciones son diferentes
El valor-p para las dos colas est situado entre 0.05 34. F " 2.08
y 0.10 El valor-p est entre 0.05 y 0.10
El valor-p ( 0.05; H0 no es rechazada H0 es rechazada; se concluye que las varianzas de la po-
b) Para una prueba de dos colas: blacin no son iguales
F/2 " F0.025 " 2.30
H0 es rechazada si F & 2.30
2.05 ' 2.30; H0 no es rechazada Captulo 12
16. F " 1.59 1. a) Frecuencias esperadas: e1 " 200(0.40) " 80
El valor-p es menor de 0.05 e2 " 200(0.40) " 80
H0 es rechazada; el fondo de Fidelity tiene mayor varianza e3 " 200(0.20) " 40
Frecuencias observadas: f1 " 60, f2 " 120, f3 " 20
1032 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
(60 ! 80)2 (120 ! 80)2 (20 ! 40)2 (20 ! 28.5)2 (44 ! 39.9)2 (50 ! 45.6)2
2 " $ $ 2 " $ $
80 80 40 28.5 39.9 45.6
400 1600 400
" $ $ (30 ! 21.5)2 (26 ! 30.1)2 (30 ! 34.4)2
80 80 40 $ $ $
21.5 30.1 34.4
" 5 $ 20 $ 10 " 35
Grados de libertad: k ! 1 " 2 " 7.86
2 " 35 demuestra que el valor-p es menor que 0.005 Grados de libertad: (2 ! 1)(3 ! 1) " 2
El valor-p % 0.01; se rechaza H0; las proporciones no 2 " 7.86, el valor-p est entre 0.01 y 0.025
son de 0.40, 0.40 y 0.20 Se rechaza H0; las columnas de variables y las filas de las
b) H0 es rechazada si 2 & 9.210 variables no son independientes
2 " 35; H0 es rechazada 10. 2 " 19.77, gl " 4
2
2. " 15.33, gl " 3 El valor-p es menor que 0.005
El valor-p es menor de 0.005 H0 es rechazada; las columnas de las variables y las filas
H0 es rechazada; las proporciones no son todas 0.25 de las variables no son independientes
11. H0: el tipo del boleto comprado es independiente del tipo
3. H0: pABC " 0.29, pCBS " 0.28, pNBC " 0.25, pIND " 0.18
de vuelo
Ha: las proporciones no son
pABC " 0.29, pCBS " 0.28, pNBC " 0.25, pIND " 0.18 Ha: el tipo de boleto comprado no es independiente del
Frecuencias esperadas: 300(0.29) " 87, 300(0.28) " 84 tipo de vuelo
300(0.25) " 75, 300(0.18) " 54 Frecuencias esperadas:
e1 " 87, e2 " 84, e3 " 75, e4 " 54 e11 " 35.59 e12 " 15.41
Frecuencias observadas: f1 " 95, f2 " 70, f3 " 89, f4 " 46 e21 " 150.73 e22 " 65.27
(95 ! 87)2 (70 ! 84)2 (89 ! 75)2 e31 " 455.68 e32 " 197.32
2 " $ $
87 84 75
(46 ! 54)2
$ " 6.87 Frecuencia Frecuencia
54
observada esperada
Grados de libertad: k ! 1 " 3 Boleto Vuelo ( fi ) (ei ) ( fi ! ei )2/ei
2 " 6.87, el valor-p est entre 0.05 y 0.10 Primera Nacional 29 35.59 1.22
H0 no es rechazada; no se puede concluir que las pro- Primera International 22 15.41 2.82
porciones de audiencia hayan cambiado Clase de negocios Nacional 95 150.73 20.61
Clase de negocios International 121 65.27 47.59
4. 2 " 29.51, gl " 5 Tarifa completa Nacional 518 455.68 8.52
Tarifa completa International 135 197.32 19.68
El valor-p es menor que 0.005
H0 es rechazada; los porcentajes difieren de aquellos indi- Totales 920 2 " 100.43
cados por la empresa
6. a) 2 " 12.21, gl " 3 Grados de libertad: (3 ! 1)(2 ! 1) " 2
El valor-p est entre 0.005 y 0.01 2 " 100.43; el valor-p es menor de 0.005
Se concluye la diferencia para 2003 H0 es rechazada; el tipo del boleto no es independiente
b) 21%, 30%, 15%, 34% del tipo de vuelo
Aumento en el uso de la tarjeta de crdito 12. a) 2 " 7.95, gl " 3
c) 51% El valor-p est entre 0.025 y 0.05
8. 2 " 16.31, gl " 3 H0 es rechazada; la forma de pago no es independiente
El valor-p es menor que 0.005 de la edad del grupo
H0 es rechazada; las evaluaciones difieren, con un servicio b) 18 a 24; la mayora lo utiliza
telefnico levemente mejor 14. a) 2 " 8.47; el valor-p est entre 0.025 y 0.05
9. H0: la columna de las variables es independiente de las H0 es rechazada; la intencin de comprar nuevamente
filas de las variables no es independiente del automvil
b) Accord 77, Camry 71, Taurus 62, Impala 57
Ha: la columna de las variables no es independiente de la
c) Impala y Taurus estn abajo, Accord y Camry son los
fila de las variables
primeros; Accord y Camry dan mayor satisfaccin a
Las frecuencias esperadas: los propietarios, lo que puede ayudar a una futura par-
ticipacin de mercado
A B C 16. a) 6 446
P 28.5 39.9 45.6 b) 2 " 425.4; el valor-p " 0
Q 21.5 30.1 34.4 H0 es rechazada; la actitud hacia una potencia nuclear
no es independiente del pas
c) Italia (58%), Espaa (32%)
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1033
Frecuencia Frecuencia
Intervalo observada esperada Diferencia Captulo 13
menor que 16.66 3 5 !2 1. a) x " (156 $ 142 $ 134)/3 " 144
SCE " a (nj ! 1)sj2 " 5(34) $ 5(20) $ 5(32) " 430
k " 2.179"2.2 " 3.23
* x1 ! x 2 * " * 30 ! 45 * " 15 ( LSD; diferencia significativa
j" 1
* x1 ! x3 * " * 30 ! 36 * " 6 ( LSD; diferencia significativa
SCE 430 * x 2 ! x3 * " * 45 ! 36 * " 9 ( LSD; diferencia significativa
CME " " " 28.67
nT ! k 18 ! 3
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1035
Paso 1
STC " a a (xij ! x)2
j" 1
2 2 2
" 4(23 ! 24) $ 4(28 ! 24) $ 4(21 ! 24)
i j
" 104
" (10 ! 11.73)2 $ (9 ! 11.73)2 $ . . . $ (8 ! 11.73)2
SCTR 104
CMTR " " " 52 " 354.93
k!1 2
!(xi ! x)( yi ! y) 26
b1 " " " 2.6
!(xi ! x)2 10 xi yi yi yi ! yi ( yi ! yi)2 yi ! y ( yi ! y)2
b0 " y ! b1x " 8 ! (2.6)(3) " 0.2 1 3 2.8 0.2 0.04 !5 25
y " 0.2 $ 2.6x 2 7 5.4 1.6 2.56 !1 1
e) y " 0.2 $ 2.6x " 0.2 $ 2.6(4) " 10.6 3 5 8.0 !3.0 9.00 !3 9
4 11 10.6 0.4 0.16 3 9
2. b) Parece existir una relacin lineal negativa entre x y y 5 14 13.2 0.8 0.64 6 36
d) y " 68 ! 3x SCE " 12.40 STC " 80
e) 38 SCR " STC ! SCE " 80 ! 12.4 " 67.6
4. a) y SCR 67.6
b) r 2 " " " 0.845
140 STC 80
La recta de mnimos cuadrados proporciona un buen
130 ajuste; 84.5% de la variabilidad en y ha sido explicado
por la recta de mnimos cuadrados
Peso
120
110 c) rxy " "0.845 " $ 0.9192
100 16. a) SCE " 230, STC " 1 850, SCR " 1 620
b) r 2 " 0.876
x
60 62 64 66 68 70 c) rxy " !0.936
Estatura 18. a) Ecuacin de regresin estimada y media para la varia-
b) Parece haber una relacin lineal positiva entre x " es- ble dependiente:
tatura y y " peso y " 1 790.5 $ 581.1x, y " 3 650
c) Muchas y distintas rectas pueden dibujarse para pro- La suma de cuadrados debido al error y la suma total
porcionar una aproximacin lineal de la relacin entre de cuadrados:
estatura y peso; en el inciso d) se determinar la ecua- SCE " !( yi ! yi )2 " 85 135.14
cin para la recta que mejor represente la relacin STC " !( yi ! y)2 " 335 000
con base en el criterio de los mnimos cuadrados
Por tanto, SCR " STC ! SCE
d) Las sumas necesarias para calcular la pendiente y la
" 335 000 ! 85 135.14 " 249 864.86
interseccin de y:
SCR 249 864.86
!x 325 !y 585 b) r 2 " " " 0.746
x" i" " 65, y " i " " 117, STC 335,000
n 5 n 5
2 La recta de mnimos cuadrados representa 74.6% de la
!(xi ! x)( yi ! y) " 110, !(xi ! x) " 20
suma de cuadrados total
!(xi ! x)( yi ! y) 110 c) rxy " "0.746 " $ 0.8637
b1 " " " 5.5
!(xi ! x)2 20 20. a) y " 12.0169 $ 0.0127x
b0 " y ! b1x " 117 ! (5.5)(65) " !240.5 b) r 2 " 0.4503
y " !240.5 $ 5.5x c) 53
e) y " !240.5 $ 5.5(63) " 106 22. a) 0.77
El peso estimado es 106 libras b) S
c) rxy " $0.88, alta
6. c) y " 8.9412 ! 0.02633x SCE 12.4
e) 6.3 o aproximadamente $6 300 23. a) s 2 " CME " " " 4.133
n!2 3
8. c) y " 359.2668 ! 5.2772x b) s " "CME " "4.133 " 2.033
d) $254 c) !(xi ! x)2 " 10
s 2.033
10. c) y "!6 745.44 $ 149.29x sb1 " " " 0.643
d) 4 003 o $4 003 000 "!(xi ! x)2
"10
b1 ! 1 2.6 ! 0
12. c) y " !8129.4439 $ 22.4443x d) t " sb1 " 0.643 " 4.044
d) $8 704
En la tabla t (3 grados de libertad), el rea en la cola
est entre 0.01 y 0.025
14. c) y " 37.1217 $ 0.51758x
d) 73 El valor-p est entre 0.02 y 0.05
Usando Excel o Minitab, el valor-p que corresponde a
15. a) yi " 0.2 $ 2.6xi y y " 8 t " 4.04 es 0.0272
Debido a que el valor-p % , H0 es rechazada: 1 " 0
1038 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
40. a) 9
Fuente de Suma de Grados de Cuadrado
b) y " 20.0 $ 7.21x
variacin cuadrados libertad medio F valor-p
c) 1.3626
Regresin 249 864.86 1 249 864.86 11.74 0.0266 d) SCE " STC ! SCR " 51 984.1 ! 41 587.3 " 10 396.8
Error 85 135.14 4 21 283.79
Total 335 000 5 CME " 10 396.8/7 " 1 485.3
CMR 41 587.3
F" " " 28.0
28. Estn relacionados; el valor-p " 0.000 CME 1 485.3
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1039
De la tabla F (1 grado de libertad en el numerador y 7 diagrama de dispersin para estos datos tambin indi-
en el denominador), el valor-p es menor de 0.01 ca que la relacin subyacente entre x y y puede ser cur-
Utilizando Excel y Minitab, el valor-p que corresponde vilnea
a F " 28.0 es 0.0011 d) s 2 " 23.78
Debido a que el valor-p % " 0.05, H0: es rechazada 1 (x ! x)2
1 " 0 hi " $ i
n !(xi ! x)2
e) y " 20.0 $ 7.21(50) " 380.5, o $380 500 1 (x ! 14)2
" $ i
5 126
42. a) y " 80.0 $ 50.0x
b) 30
c) Significativo: el valor-p " 0.000 Residuales
d) $680 000 xi hi syi ! yi yi ! yi estandarizados
6 0.7079 2.64 3.48 1.32
44. b) S 11 0.2714 4.16 !2.47 !0.59
c) y " 2044.38 ! 28.35 peso 15 0.2079 4.34 !4.83 !1.11
d) Significativo; el valor-p " 0.000 18 0.3270 4.00 !1.60 !0.40
e) 0.774; un buen ajuste 20 0.4857 3.50 5.22 1.49
!xi 70 !y 76
45. a) x " " " 14, y " i " " 15.2, e) La grfica de residuales estandarizados contra y tiene
n 5 n 5 la misma forma de la grfica de residuales original:
2
!(xi ! x)( yi ! y) " 200, !(xi ! x) " 126 como se indica en el inciso c), la curvatura observada
!(xi ! x)( yi ! y) 200 muestra que los supuestos sobre el trmino del error
b1 " 2 " " 1.5873
!(xi ! x) 126 no puede ser satisfecha
b0 " y ! b1x " 152 ! (1.5873)(14) " !7.0222 46. a) y " 2.32 $ 0.64x
y " !7.02 $ 1.59x b) No; la varianza parece aumentar para los valores ms
grandes de x
b)
xi yi yi yi ! yi 47. a) Sea x " los gastos de publicidad y y " los ingresos
6 6 2.52 3.48 y " 29.4 $ 1.55x
11 8 10.47 !2.47 b) STC " 1002, SCE " 310.28, SCR " 691.72
15 12 16.83 !4.83 SCR
18 20 21.60 !1.60 CMR " " 691.72
1
20 30 24.78 5.22
SCE 310.28
CME " " " 62.0554
n!2 5
c) y ^y CMR 691.72
F" " " 11.15
CME 62.0554
5
4 De la tabla F (1 grado de libertad en el numerador y
3 5 en el denominador), el valor-p est entre 0.01 y 0.025
2 Utilizando Excel o Minitab, el valor-p " 0.0206
1 Debido a que el valor-p % " 0.05, se concluye que
0 las dos variables estn relacionadas
1
2 c)
3 xi yi yi % 29.40 & 1.55xi yi ! yi
4 1 19 30.95 !11.95
5 2 32 32.50 !0.50
x 4 44 35.60 8.40
5 10 15 20 25
6 40 38.70 1.30
Con slo cinco observaciones es difcil determinar si 10 52 44.90 7.10
los supuestos son satisfechos sin embargo, la grfica 14 53 51.10 1.90
sugiere una curvatura en los residuales, lo que indicara 20 54 60.40 !6.40
que el supuesto trmino del error no est satisfecho; el
1040 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
140
0
130
120
10
110
^
y 100
30 40 50 60
90 x
100 110 120 130 140 150 160 170 180
d) La grfica de residuales lleva a cuestionar la hiptesis
de una relacin lineal entre x y y; a pesar de que la rela- El diagrama de dispersin tambin indica que la obser-
cin es significativa en el nivel " 0.05, sera extre- vacin x " 135, y " 145 puede ser un valor atpico; la
madamente riesgoso extrapolarla ms all del alcance implicacin es que se pueda identificar para los valo-
de los datos res extremos de la regresin lineal simple observando
el diagrama
48. b) S
52. a) Una parte del resultado de Minitab se muestra en la
figura D14.52
50. a) Utilizando Minitab, se obtuvo la ecuacin de regresin
b) Minitab identifica la observacin 1 al tener un residual
estimada y " 66.1 $ 0.402x; una parte de los resul-
estandarizado mayor; por tanto, se considerar la ob-
tados de Minitab se muestra en la figura D14.50; los
servacin 1 como valor atpico
valores ajustados y los residuales estandarizados son
los siguientes: 54. b) El valor " !252 $ ingreso de 5.83
c) Existen cinco observaciones inusuales (9, 19, 21, 22
y 32).
Residuales
xi yi yi estandarizados 58. a) y " 9.26 $ 0.711x
b) Significativo; el valor-p " 0.001
135 145 120.41 2.11
c) r 2 " 0.744; un buen ajuste
110 100 110.35 !1.08
130 120 118.40 0.14 d) $13.53
145 120 124.43 !0.38 60. b) GR(%) " 25.4 $ 0.285 RR(%)
175 130 136.50 !0.78
c) Significativo: el valor-p " 0.000
160 130 130.47 !0.04
d) No; r 2 " 0.449
120 110 114.38 !0.41
e) S
f) S
b) 62. a) y " 22.2 ! 0.148x
Residuales b) Relacin significativa: el valor-p " 0.028
estandarizados c) Buen ajuste; r 2 " 0.739
d) 12.294 a 17.271
2.5
2.0 64. a) y " 220 $ 132x
1.5
b) Significativo: el valor-p " 0.000
c) r 2 " 0.873; muy buen ajuste
1.0
d) $559.50 a $933.90
0.5
0.0 66. a) El mercado beta " 0.95
0.5 b) Significativo: el valor-p " 0.029
1.0
c) r 2 " 0.470; sin buen ajuste
y
^ d) Xerox tiene un mayor riesgo
1.5
105 110 115 120 125 130 135 140
68. b) Parece existir una relacin lineal positiva entre las dos
variables
La grfica de los residuales estandarizados indica que
c) y " 9.37 $ 1.2875 cinco mejores (%)
la observacin x " 135, y " 145 puede ser de un valor
d) Significativo: el valor-p " 0.000
atpico; note que esta observacin tiene un residual
e) r 2 " 0.741; un buen ajuste
estandarizado de 2.11
f ) rxy " 0.86
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1041
FIGURA D14.50
The regression equation is
Y = 66.1 + 0.402 X
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 497.2 497.2 3.12 0.137
Residual Error 5 795.7 159.1
Total 6 1292.9
Unusual Observations
Obs X Y Fit SE Fit Residual St Resid
1 135 145.00 120.42 4.87 24.58 2.11R
FIGURA D14.52
The regression equation is
Shipment = 4.09 + 0.196 Media$
Analysis of Variance
Source DF SS MS F p
Regression 1 735.84 735.84 28.93 0.000
Residual Error 8 203.51 25.44
Total 9 939.35
Unusual Observations
Obs Media$ Shipment Fit SE Fit Residual St Resid
1 120 36.30 27.55 3.30 8.75 2.30R
R denotes an observation with a large standardized residual
FIGURA D15.5a
The regression equation is
Revenue = 88.6 + 1.60 TVAdv
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 16.640 16.640 11.27 0.015
Residual Error 6 8.860 1.477
Total 7 25.500
FIGURA D15.5b
The regression equation is
Revenue = 83.2 + 2.29 TVAdv + 1.30 NewsAdv
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 23.435 11.718 28.38 0.002
Residual Error 5 2.065 0.413
Total 7 25.500
variacin de los ingresos debido a una variacin de 10. a) PCT " !1.22 $ 3.96 FG%
una unidad en los gastos de publicidad en televisin, b) Un incremento de 1% en FG% aumentar 0.04 el PCT
y en el inciso b) sta representa una estimacin de la c) PCT " !1.23 $ 4.82 FG% ! 2.59 Opp 3 Pt% $
variacin de los ingresos debido a una variacin de 0.0344 Opp TO
una unidad en los gastos de publicidad por televisin, d) Aumenta FG%; disminuye Opp 3 Pt%; aumenta
cuando la cantidad de publicidad en los peridicos se Opp TO
mantiene constante e) 0.638
d) La utilidad " 83.2 $ 2.29(3.5) $ 1.30(1.8) " 93.56 o
$93 560 SCR 14 052.2
12. a) R2 " " " 0.926
STC 15 182.9
6. a) La proporcin ganada " 0.354 $ 0.000888 HR
n!1
b) La proporcin ganada " 0.865 ! 0.0837 ERA b) R2a " 1 ! (1 ! R2)
c) La proporcin ganada " 0.709 $ 0.00140 HR ! n!p!1
0.103 ERA 10 ! 1
" 1 ! (1 ! 0.926) " 0.905
10 ! 2 ! 1
8. a) y " 31054 $ 1328.7 de exactitud
b) y " 21313 $ 136.69 de calificacin ! 1446.3 c) S; despus de ajustar el nmero de las variables inde-
de exactitud pendientes en el modelo, se observa que 90.5% de la
c) $26 643 variabilidad en y ha sido tomada en cuenta
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1043
14. a) 0.75 b) 0.68 24. a) y " !0.682 $ 0.0498 ingresos $ 0.0147 % Victorias
SCR 23.435 b) Significativa; el valor-p " 0.001
15. a) R2 " " " 0.919
STC 25.5 c) El ingreso es significativo; el valor-p " 0.001
n!1 El % de victorias es significativo; el valor-p " 0.025
R2a " 1 ! (1 ! R2)
n!p!1 26. a) Significativa; el valor-p " 0.000
8!1 b) Todas son significativas: los valores-p son todos
" 1 ! (1 ! 0.919) " 0.887 ' " 0.05
8!2!1
b) Se prefiere el anlisis de regresin mltiple debido a 28. a) Utilizando Minitab, 95% del intervalo de confianza es
que tanto R2 como R2a muestran un aumento en el por- 132.16 a 154.16
centaje de variabilidad explicada de y cuando las dos b) Utilizando Minitab, 95% del intervalo de prediccin es
variables independientes son utilizadas de 111.13 a 175.18
16. a) No, R 2 " 0.153 29. a) Observe los resultados de Minitab en la figura D15.5b)
b) Un mejor ajuste con regresin mltiple y " 83.23 $ 2.29(3.5) $ 1.30(1.8) " 93.555 o
18. a) R 2 " 0.564; R2a " 0.511 $93 555
b) El ajuste no es muy bueno b) Los resultados de Minitab: 92.840 a 94.335,
SCR 6 216.375 o $92 840 a $94 335
19. a) CMR " " " 3 108.188
p 2 c) Los resultados de Minitab: 91.774 a 95.401,
SCE 507.75 o $91 774 a $95 401
CME " " " 72.536
n!p!1 10 ! 2 ! 1 30. a) 46.758 a 50.646
CMR 3 108.188 b) 44.815 a 52.589
b) F " " " 42.85
CME 72.536 32. a) E( y) " 0 $ 1x1 $ 2x2
De la tabla F (2 grados de libertad en el numerador y 0 si el nivel es 1
7 en el denominador), el valor-p es menor de 0.01 donde x2 "
1 si el nivel es 2
Utilizando Excel o Minitab, el valor-p correspondien- b) E( y) " 0 $ 1x1 $ 2(0) " 0 $ 1x1
te a F " 42.85 es 0.0001 c) E( y) " 0 $ 1x1 $ 2(1) " 0 $ 1x1 $ 2
Debido a que el valor-p % , el modelo general es sig- d) 2 " E(y * nivel 2) ! E( y * nivel 1)
nificativo 1 es la variacin en E( y) por una variacin de 1 unidad
b1 0.5906 en x1 manteniendo x2 constante
c) t " " " 7.26
sb1 0.0813 34. a) $15 300
El valor-p " 0.0002 b) y " 10.1 ! 4.2(2) $ 6.8(8) $ 15.3(0) " 56.1
Debido a que el valor-p % , 1 es significativo La prediccin de ventas: $56 100
b2 0.4980 c) y " 10.1 ! 4.2(1) $ 6.8(3) $ 15.3(1) " 41.6
d) t " " " 8.78 La prediccin de ventas: $41 600
sb2 0.0567
36. a) y " 1.86 $ 0.291 Meses $ 1.10 Tipo ! 0.609 personas
El valor-p " 0.0001
b) Significativo; el valor-p " 0.002
Debido a que el valor-p % , 2 es significativo
c) La persona no es significativa; el valor-p " 0.167
20. a) Significativo; el valor-p " 0.000
38. a) y " !91.8 $ 1.08 Edad $ 0.252 Presin $ 8.74 Fu-
b) Significativo; el valor-p " 0.000
mador
c) Significativo; el valor-p " 0.002
b) Significativo: el valor-p " 0.01
22. a) SCE " 4 000; s 2 " 571.43
c) El 95% del intervalo de prediccin es de 21.35 a 47.18,
CMR " 6 000
o una probabilidad de 0.2135 a 0.4718; dejar de fumar
b) Significativo; el valor-p " 0.008
y comenzar algn tratamiento para reducir la presin
23. a) F " 28.38 arterial
El valor-p " 0.002 39. a) Los resultados de Minitab se muestran en la figura
Debido a que el valor-p % , existe una relacin signi- D15.39
ficativa b) Minitab proporciona los siguientes valores:
b) t " 7.53
El valor-p " 0.001 Residual
Debido a que el valor-p % , 1 es significativo y x1 no xi yi yi estandarizado
debe ser eliminada del modelo 1 3 2.8 0.16
c) t " 4.06 2 7 5.4 0.94
3 5 8.0 !1.65
El valor-p " 0.010 4 11 10.6 0.24
Debido a que el valor-p % , 2 es significativa y x2 no 5 14 13.2 0.62
debe ser eliminada del modelo
1044 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
FIGURA D15.39
The regression equation is
Y = 0.20 + 2.60 X
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 67.600 67.600 16.35 0.027
Residual Error 3 12.400 4.133
Total 4 80.000
Eliminacin de 0.5
xi yi residuales estudientizados
0.0
1 3 0.13
2 7 0.91 0.5
3 5 !4.42 1.0
4 11 0.19
5 14 0.54 1.5
2.0 y
^
90 91 92 93 94 95 96 97
t0.025 " 4.303 (n ! p ! 2 " 5 ! 1 ! 2 " 2 grados de
libertad) En relacin con algunas observaciones, es difcil de-
Debido a que la eliminacin de residuales estudentiza- terminar si algunos de los supuestos con respecto a +
dos para (3,5) es !4.42 ' !4.303, se concluye que la han sido violados. Por ejemplo, un argumento podra
tercera observacin es un valor atpico ser que no parece haber ningn patrn en la grfica;
40. a) y " !53.3 $ 3.11x alternativamente, otro argumento indicara que no hay
b) !1.94, !0.12, 1.79, 0.40, !1.90; no un patrn curvilneo en la grfica
c) 0.38, 0.28, 0.22, 0.20, 0.92; no c) Los valores de los residuales estandarizados son ma-
d) 0.60, 0.00, 0.26, 0.03, 11.09; s, la quinta observacin yores de !2 y menores que $2; por tanto, al utilizar
esta prueba, no hay valores atpicos
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1045
Como un examen posterior para los valores atpicos, se c) Significativo; el valor-p " 0.0002
utiliz Minitab para calcular la siguiente eliminacin d) 0.39
de residuales estudentizados: e) $1 200
f) Cociente de posibilidades estimado " 1.25
Eliminacin Eliminacin e 0$1 x
de residuales de residuales 48. a) E( y) "
Observacin estudentizados Observacin estudentizados 1 $ e 0$1 x
1 !2.11 5 1.13
b) g(x) " !2.805 $ 1.1492x
2 !1.10 6 !0.36 c) 0.86
3 1.31 7 !1.16 d) Cociente de posibilidades estimado " 3.16
4 !0.33 8 1.10 50. b) 67.39
t0.025 " 2.776 (n ! p ! 2 " 8 ! 2 ! 2 " 4 grados de 52. a) y " !1.41 $ 0.0235x1 $ 0.00486x2
libertad) b) Significativo; el valor-p " 0.0001
Debido a que ninguno de los residuales estudentiza- c) Los dos son significativos
dos eliminados son menor que !2.776 o mayor que a d) R2 " 0.937; R2a " 9.19; un buen ajuste
2.776, se concluye que no hay valores atpicos en los 54. a) Comprar nuevamente " !7.522 $ 1.8151 Llanta
datos b) S
d) Minitab proporciona los siguientes valores: c) Comprar nuevamente " !5.388 $ 0.6899 Llanta $
0.9113 Desgaste
Observacin hi Di d) Significativo: el valor-p " 0.001
1 0.63 1.52 56. a) y " 4.9090 $ 10.4658 FundDE $ 21.6823 FundIE
2 0.65 0.70 b) R2 " 0.6144; reasonably good fit
3 0.30 0.22 c) y " 1.1899 $ 6.8969 FundDE $ 17.6800 FundIE
4 0.23 0.01 $ 0.0265 Net Asset Value ($)
5 0.26 0.14 $ 6.4564 Expense Ratio (%)
6 0.14 0.01
El valor del activo neto ($) no es significativo y
7 0.66 0.81
puede ser eliminado
8 0.13 0.06
d) y " !4.6074 $ 8.1713 FundDE $ 19.5194 FundIE
$ 5.5197 Expense Ratio (%) $ 5.9237 3StarRank
La ventaja del valor crtico es $ 8.2367 4StarRank $ 6.6241 5StarRank
3( p $ 1) 3(2 $ 1) e) 15.28%
" " 1.125
n 8
Debido a que ninguno de los valores excedieron 1.125, Captulo 16
se concluye que no hay observaciones influyentes. Sin
embargo, al utilizar la medida de distancia de Cook, se 1. a) El resultado de Minitab se muestra en la figura D16.1a
observa que D1 ( 1 (regla prctica del valor crtico); b) Debido a que el valor-p correspondiente a F " 6.85 es
por tanto, se concluye que la primera es una observa- 0.059 ( " 0.05, la relacin no es significativa
cin influyente c)
Conclusin final: la observacin 1 es influyente
y
42. b) Tendencia inusual
40
c) No hay valores atpicos
d) La observacin 2 es de tipo influyente 35
e 0$1 x 30
44. a) E( y) "
1 $ e 0$1 x
b) Estimacin de la probabilidad de que efecte una com- 25
pra un cliente que no tenga una tarjeta de crdito de 20
Simmons
c) g(x) " !0.9445 $ 1.0245x 15
d) 0.28 de los clientes que no tienen una tarjeta de crdito 10 x
de Simmons 20 25 30 35 40
0.52 para los clientes que tienen una tarjeta de crdito El diagrama de dispersin sugiere que puede ser apro-
de Simmons piada una relacin curvilnea
e) Cociente de las posibilidades estimado " 2.79 d) El resultado de Minitab se muestra en la figura D16.1d
e 0$1 x e) Debido a que el valor-p correspondiente a F " 25.68
46. a) E( y) "
1 $ e 0$1 x es 0.013 ' " 0.05, la relacin es significativa
e!2.6355$0.22018x f ) y " !168.88 $ 12.187(25) ! 0.17704(25)2 " 25.145
b) E( y) "
1 $ e!2.6355$0.22018x
1046 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
FIGURA D16.1a
The regression equation is
Y = - 6.8 + 1.23 X
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 362.13 362.13 6.85 0.059
Residual Error 4 211.37 52.84
Total 5 573.50
FIGURA D16.1d
The regression equation is
Y = - 169 + 12.2 X - 0.177 XSQ
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 541.85 270.92 25.68 0.013
Residual Error 3 31.65 10.55
Total 5 573.50
2. a) y " 9.32 $ 0.424x; el valor- p " 0.117 indica una re- b) Price " 33 829 ! 4 571 Rating $ 154 RatingSq
lacin dbil entre x y y c) logPrice " !10.2 $ 10.4 logRating
b) y " !8.10 $ 2.41x ! 0.0480x 2 d) Inciso c); se explica un mayor porcentaje de la va-
R2a " 0.932; un buen ajuste riacin
c) 20.965 10. a) Significativo: valor-p " 0.000
4. a) y " 943 $ 8.71x b) Significativo: valor-p " 0.000
b) Significativo; el valor-p " 0.005 ' " 0.01 11. a) SCE " 1 805 ! 1 760 " 45
5. a) El resultado de Minitab se muestra en la figura D16.5a CMR 1 760/4
F" " " 244.44
b) Debido a que el valor-p correspondiente a F " 73.15 CME 45/25
es 0.003 ' " 0.01, la relacin es significativa; H0 es Debido a que el valor-p " 0.000, la relacin es signifi-
rechazada; 1 " 2 " 0 cativa
c) Vea la figura D16.5c b) SCE(x1, x2, x3, x4) " 45
6. b) No, la relacin parece ser curvilnea c) SCE(x2, x3) " 1805 ! 1705 " 100
c) Varios posibles modelos; por ejemplo (100 ! 45)/2
y " 2.90 ! 0.185x $ 0.00351x 2 d) F " " 15.28
1.8
8. a) Parece que un modelo de regresin lineal simple no es Debido a que el valor-p " 0.000, x1 y x2 son signifi-
apropiado cativos
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1047
FIGURA D16.5a
The regression equation is
Y = 433 + 37.4 X -0.383 XSQ
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 36643 18322 73.15 0.003
Residual Error 3 751 250
Total 5 37395
FIGURA D16.5c
Fit Stdev.Fit 95% C.I. 95% P.I.
1302.01 9.93 (1270.41, 1333.61) (1242.55, 1361.47)
FIGURA D16.12a
The regression equation is
Scoring Avg) = 46.3 + 14.1 Putting Avg)
Analysis of Variance
SOURCE DF SS MS F p
Regression 1 4.6036 4.6036 17.66 0.0000
Residual Error 28 7.2998 0.2607
Total 29 11.9035
FIGURA D16.12b
The regression equation is
Scoring Avg) = 59.0 - 10.3 Greens in Reg)
+ 11.4 Putting Avg - 1.81 Sand Saves
Analysis of Variance
Source DF SS MS F p
Regression 3 7.5795 2.5265 15.19 0.000
Residual Error 26 4.3240 0.1663
Total 29 11.9035
30. a)
2000
1800
1600
1400
1200
Precio ($)
1000
800
600
400
200
0
15 20 25 30 35 40
Peso (libras)
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 3161747 1580874 26.82 0.000
Residual Error 16 943263 58954
Total 18 4105011
Los resultados obtenidos apoyan la conclusin de que existe una relacin curvilnea entre el peso y el precio
c) Una parte del resultado de Minitab es la siguiente:
Analysis of Variance
SOURCE DF SS MS F p
Regression 2 2944410 1472205 20.30 0.000
Residual Error 16 1160601 72538
Total 18 4105011
El tipo de bicicleta parece ser un factor significativo en la prediccin del precio, pero la ecuacin de regresin estimada
obtenida en el inciso b) parece ofrecer un ajuste menor
d) Una parte del resultado de Minitab se muestra a continuacin. En este resultado, WxF denota la interaccin entre el peso
de la bicicleta y la variable ficticia Type_Fitness, y WxX denota la interaccin entre el peso de la bicicleta y la variable
ficticia Type_Comfort
Analysis of Variance
SOURCE DF SS MS F p
Regression 5 3450170 690034 13.70 0.000
Residual Error 13 654841 50372
Total 18 4105011
3. a) Precios relativos de A " (6.00/5.45)100 " 110 8. I " 105; el portafolio aument 5%
B " (5.95/5.60)100 " 106
$11.86
C " (6.20/5.50)100 " 113 10. a) Salarios deflactados en 1996: (100) " $7.66
6.00 $ 5.95 $ 6.20 154.9
b) I2009 " (100) " 110
5.45 $ 5.60 $ 5.50 $18.55
Salarios deflactados en 2009: (100) " $8.74
6.00(150) $ 5.95(200) $ 6.20(120) 212.2
c) I2009 " (100)
5.45(150) $ 5.60(200) $ 5.50(120)
18.55
" 109 b) (100) " 156.4; el aumento porcentual en los
Incremento de 9% en el prximo periodo de dos aos 11.86
salarios reales es de 56.4%
8.74
c) (100) " 114.1; el aumento porcentual en los
4. I2009 " 114 7.66
salarios reales es de 14.1%
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1051
Captulo 18
1. La siguiente tabla muestra los clculos de los incisos a), b) y c).
22
a) EAM " " 4.4
5
104
b) CME " " 20.8
5
159.38
c) EPAM " " 31.88
5
d) El pronstico para la semana 7 es 14
2. La siguiente tabla muestra los clculos para los incisos a), b) y c).
Semana 4 5 6 7 8 9 10 11 12
(11 $ 17 $ 14) Pronstico 19.33 21.33 19.83 17.83 18.33 18.33 20.33 20.33 17.83
El pronstico para la semana 7 " " 14
3
b) CME " 11.49
c) Una constante de suavizamiento " 0.2
Prefiere el promedio mvil no ponderado; ste tiene un
CME menor
Valor de Error de c) Siempre se puede determinar un promedio ponderado
la serie Error de pronstico
en movimiento al menos tan bueno como el no ponde-
Semana de tiempo Pronstico pronstico cuadrado
rado; en realidad el promedio no ponderado en movi-
1 18 miento es un caso especial de los ponderados donde los
2 13 18.00 !5.00 25.00
pesos son iguales
3 16 17.00 !1.00 1.00
4 11 16.80 !5.80 33.64 10. b) Los datos ms recientes reciben el mayor peso o im-
5 17 15.64 1.36 1.85 portancia al determinar el pronstico; el mtodo de
6 14 15.91 !1.91 3.66 promedios en movimiento pondera el ltimo valor del
Total 65.15 dato n igualmente al determinar el pronstico
65.15 12. a) Los datos parecen seguir un patrn horizontal
CME " " 13.03 b) CME(3 meses) " 0.12
5
CME(4meses) " 0.14
Utilice los promedios mviles a 3 meses
El pronstico para la semana 7 es 0.2(14) $ c) 9.63
(1 ! 0.2)15.91 " 15.53
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1053
13. a) Los datos parecen seguir un patrn horizontal b) Los mtodos estudiados en esta seccin slo son apli-
b) cables para una serie de tiempo que tiene un patrn
horizontal, como si existiera realmente una tendencia
lineal a largo plazo en los datos. Los mtodos descri-
Promedio
Valor de mvil de tos en esta seccin no son apropiados
la serie pronstico c) La grfica de las series de tiempo para los datos de los
Mes de tiempo del mes (Error)2 % 0.2 (Error)2 aos 2002 a 2008 muestran un patrn horizontal; pa-
1 240 rece razonable concluir que los valores extremos ob-
2 350 240.00 12 100.00 servados en 1997 y 2001 son ms atribuibles al inters
3 230 262.00 1 024.00 de los espectadores en el desempeo de Tiger Woods.
4 260 273.33 177.69 255.60 19.36 Basando el pronstico en los aos 2002-2008 parece
5 280 280.00 0.00 256.48 553.19 razonable, pero debido a la lesin que Tiger Woods
6 320 256.67 4 010.69 261.18 3 459.79
experiment en 2008, la razn es si es capaz de jugar
7 220 286.67 4 444.89 272.95 2 803.70
8 310 273.33 1 344.69 262.36 2 269.57 en el Master, entonces la posicin para 2009 puede ser
9 240 283.33 1 877.49 271.89 1 016.97 significativamente mayor que la sugerida por los datos
10 310 256.67 2 844.09 265.51 1 979.36 para los aos 2002 a 2008
11 240 286.67 2 178.09 274.41 1 184.05 17. a) La grfica de la serie de tiempo muestra una tendencia
12 230 263.33 1 110.89 267.53 1 408.50
lineal
at a Yt
Totals 17 988.52 27 818.49 n n
a (t ! t)(Yt ! Y)
Con base en los valores CME anteriores, los promedios n
mviles a 3 meses parecen mejores; sin embargo, el
suavizamiento exponencial fue penalizado mediante la t" 1 21
b1 " " 2.1
a (t ! t)
n "
inclusin del mes 2, que fue difcil predecir por cual- 2 10
quier mtodo. Utilizando slo los errores de los meses t" 1
4 a 12, el CME para el exponente suavizado es b0 " Y ! b1t " 11 ! (2.1)(3) " 4.7
MSE( " 0.2) " 14 694.49/9 " 1632.72 Tt " 4.7 $ 2.1t
Por tanto, el suavizamiento exponencial fue mejor al c) T6 " 4.7 $ 2.1(6) " 17.3
considerar los meses 4 a 12
18. El pronstico para la semana 6 es de 21.16
c) Al utilizar el suavizamiento exponencial,
20. a) La grfica de las series de tiempo exhibe una tendencia
F13 " Y12 $ (1 ! )F12 curvilnea
" 0.20(230) $ 0.80(267.53) " 260 b) Tt " 107.857 ! 28.9881t $ 2.65476t2
14. a) Los datos parecen seguir un patrn horizontal c) 45.86
b) Los valores para los meses 2 a 12 son los siguientes. 21. a) La grfica de la serie de tiempo muestra una tendencia
lineal
105.00 114.00 115.80 112.56 105.79 110.05
at a Yt
n n
120.54 126.38 118.46 106.92 104.85
t" 1 45 108
CME " 510.29 b) t " " " 5 Y " t" 1 " " 12
n 9 n 9
c) Los valores para los meses 2 a 12 son los siguientes.
!(t ! t )(Yt ! Y) " 87.4 !(t ! t )2 " 60
a (t ! t)(Yt ! Y)
105.00 120.00 120.00 112.50 101.25 110.63 n
24. a) La grfica de la serie de tiempo muestra una tendencia 32. a) Las grficas de series de tiempo muestran una tenden-
lineal cia lineal y los efectos estacionales
b) Tt " 7.5623 ! 0.07541t b) La siguiente es una parte del resultado de la regresin
c) 6.7328 de Minitab.
d) Dada la incertidumbre en las condiciones del mercado
mundial, no es recomendable realizar un pronstico de The regression equation is
diciembre utilizando nicamente el tiempo Revenue = 70.0 + 10.0 Qtr1 + 105
26. a) La tendencia lineal no es apropiada Qtr2 + 245 Qtr3
b) Tt " 5.702 $ 2.889t ! 1618t2
c) 17.90 El pronstico del trimestre 1 es 80
28. a) La grfica de series del tiempo muestra un patrn ho- El pronstico del trimestre 2 es 175
rizontal, pero existe un patrn estacional en los datos; El pronstico del trimestre 3 es 315
por ejemplo, en cada ao el valor menor se presenta en El pronstico del trimestre 4 es 70
el trimestre 2 y el valor mayor en el trimestre 4 c) Una parte del resultado de la regresin de Minitab es la
b) Una parte del resultado de la regresin de Minitab es siguiente.
la siguiente.
The regression equation is
The regression equation is Revenue = -70.1 + 45.0 Qtr1 + 128
Value = 77.0 - 10.0 Qtr1 - 30.0 Qtr2 + 257 Qtr3 + 11.7 Period
Qtr2 - 20.0 Qtr3
El pronstico del trimestre 1 es 221
c) Los pronsticos trimestrales para los siguientes aos
El pronstico del trimestre 2 es 315
son los siguientes.
El pronstico del trimestre 3 es 456
Pronstico del trimestre 1 " 77.0 ! 10.0(1) ! 30.0(0) El pronstico del trimestre 4 es 211
! 20.0(0) " 67
Pronstico del trimestre 2 " 77.0 ! 10.0(0) ! 30.0(1) 34. a) Las grficas de series de tiempo muestran los efectos
! 20.0(0) " 47 de una tendencia estacional y lineal
Pronstico del trimestre 3 " 77.0 ! 10.0(0) ! 30.0(0) b) Nota: Jan " 1 si enero, 0 en caso contrario; Feb " 1 si
! 20.0(1) " 57 es febrero, 0 en caso contrario, y as sucesivamente
Pronstico del trimestre 4 " 77.0 ! 10.0(0) ! 30.0(0) Una parte del resultado de regresin de Minitab es el
! 20.0(0) " 77 siguiente.
30. a) Parece haber un patrn estacional en los datos y quiz
una tendencia lineal ascendente moderada The regression equation is
b) La siguiente es una muestra de una parte del resultado Expense = 175 - 18.4 Jan - 3.72 Feb +
de la regresin de Minitab. 12.7 Mar + 45.7 Apr + 57.1
May + 135 Jun + 181 Jul + 105
The regression equation is Aug + 47.6 Sep + 50.6 Oct +
Value = 2492 - 712 Qtr1 - 1512 35.3 Nov + 1.96 Period
Qtr2 + 327 Qtr3
c) Nota. El siguiente periodo en la serie de tiempo es Pe-
c) Los pronsticos trimestrales para el prximo ao son
riodo " 37 (Enero del ao 4); el pronstico para enero
los siguientes.
a diciembre es 229; 246; 264; 299; 312; 392; 440; 366;
El pronstico del trimestre 1 es 1 780 311; 316; 302; 269
El pronstico del trimestre 2 es 980
35. a) La grfica de la serie de tiempo indica una tendencia
El pronstico del trimestre 3 es 2 819
lineal y un patrn estacional
El pronstico del trimestre 4 es 2 492
b)
d) La siguiente es una parte del resultado de la regresin
de Minitab. Valor de Promedio Promedio
la serie de mvil del mvil
The regression equation is Ao Trimestre tiempo cuarto trimestre centrado
Value = 2307 - 642 Qtr1 - 1465 1 1 4
Qtr2 + 350 Qtr3 + 23.1 t
2 2
Los pronsticos trimestrales para el prximo ao son 3.50
los siguientes. 3 3 3.750
El pronstico del trimestre 1 es 2 058 4.00
El pronstico del trimestre 2 es 1 258 4 5 4.125
El pronstico del trimestre 3 es 3 096 4.25
El pronstico del trimestre 4 es 2 769 2 1 6 4.500
4.75
Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . . 1055
Con W " 136.5 en la cola superior, utilice la correc- 12 412 612 182
cin de continuidad H" $ $ ! 3(16) " 9.26
15(16) 5 5 5
136 ! 105 La tabla de 2 con gl " 2, 2 " 9.26; el valor-p est entre
P(W & 136.5) " P z & " P(z & 2.34)
13.2288 0.005 y 0.01
El valor-p " 2(1.0000 ! 0.9904) " 0.0192 El valor-p % 0.05 H0 es rechazada; se concluye que la po-
El valor-p % 0.05; H0 es rechazada; se concluye que blacin de caloras quemadas no son idnticas
las poblaciones no son idnticas 30. H " 8.03; con gl " 3
El contador pblico tiende a tener mayores sueldos El valor-p est entre 0.025 y 0.05
(55.0 $ 56.3) H0 es rechazada; se concluye que hay una diferencia entre
b) El contador pblico " $55.65 mil la calidad de los cursos
2
(51.8 $ 51.9) 32. a) !d 2i " 52
Gerente de planeacin financiera "
2 6!d 2i 6(52)
$51.85 miles rs " 1 ! "1! " 0.685
n(n2 ! 1) 10(99)
20. a) $54 900, $40 400
b) W " 69; z " 2.04 1 1
El valor-p " 0.0414 b) rs " " " 0.3333
n!1 9
H0 es rechazada; se concluye que existe una diferencia
rs ! 0 0.685
entre las razones; el de los hombres es ms alto z" " " 2.05
rs 0.3333
22. W " 157; z " 2.74
El valor-p " 0.0062 El valor-p " 2(1.0000 ! 0.9798) " 0.0404
H0 es rechazada; se concluye que existe una diferencia El valor-p % 0.05 H0 es rechazada; se concluye una
entre las razones: Japn tiende a ser el mayor correlacin significativa de rango positivo
24. W " 116; z " !.22 34. !d 2i " 250
El valor-p " 0.8258 6!d 2i 6(250)
H0 no es rechazada; se concluye que no hay evidencia de rs " 1 ! "1! " !0.136
n(n2 ! 1) 11(120)
que los precios difieran
1 1
26. H0: todas las poblaciones de calificaciones de productos rs " " " 0.3162
n!1 10
son idnticas
r !0 !0.136
Ha: no todas las poblaciones de calificaciones de produc- z" s " " !0.45
tos son idnticas rs 0.3162
El valor-p " 2(0.3336) " 0.6672
A B C El valor-p ( 0.05 H0 no es rechazada; no puede concluir
4 11 7
que exista una relacin significativa
8 14 2 36. rs " !0.709, z " !2.13
10 15 1
3 12 6
El valor-p " 0.0332
9 13 5 H0 es rechazada; se concluye que hay una correlacin sig-
Suma de rangos 34 65 21 nificativa de rango negativo
38. Nmero de signos de ms " 905, z " !3.15
12 342 652 212 El valor-p menor a 0.0020
H" $ $ ! 3(16) " 10.22 H0 es rechazada; se concluye que hay una diferencia sig-
15(16) 5 5 5
nificativa entre las preferencias
La tabla de 2 con gl " 2, 2 " 10.22; el valor-p est en-
tre 0.005 y 0.01 40. n " 12; T$ " 6; z " !2.55
El valor-p " 0.0108
El valor-p % 0.01; H0 es rechazada; se concluye que las
H0 es rechazada; se concluye que hay una diferencia sig-
poblaciones de calificacin no son idnticas
nificativa entre los precios
28. H0: todas las poblaciones de caloras quemadas son idnticas
42. W " 70; z " !2.93
Ha: no todas las poblaciones de caloras quemadas son
El valor-p " 0.0034
idnticas
H0 es rechazada; se concluye que las poblaciones de pesos
no son idnticas
Natacin Tenis Ciclismo 44. H " 12.61 con gl " 2
8 9 5 El valor-p es menor de 0.005
4 14 1 H0 es rechazada; se concluye que las poblaciones de cla-
11 13 3 sificaciones no son idnticas
6 10 7 46. rs " 0.757, z " 2.83
12 15 2 El valor-p " 0.0046
Suma de rangos 41 61 18 H0 es rechazada; se concluye que hay una correlacin de
rango positivo
1060 Apndice D Soluciones a las autoevaluaciones y respuestas a los ejercicios. . .
Captulo 20 22. a) UCL " 0.0817, LCL " !0.0017 (utilice LCL " 0)
2. a) 5.42
24. a) 0.03
b) UCL " 6.09, LCL " 4.75
b) " 0.0802
4. Grfica R:
UCL " RD4 " 1.6(1.864) " 2.98
LCL " RD3 " 1.6(0.136) " 0.22
Carta x:
UCL " x $ A2R " 28.5 $ 0.373(1.6) " 29.10 Captulo 21
LCL " x ! A2R " 28.5 ! 0.373(1.6) " 27.90 1. a) s1
6. 20.01, 0.082 250
8. a) 0.0470 d1 s2
b) UCL " 0.0989, LCL " !0.0049 (utilice LCL " 0) 2 100
c) p " 0.08; en control
s3
d) UCL " 14.826, LCL " !0.726 (utilice LCL " 0) 25
El proceso est afuera de control si hay ms de 14 de- 1
fectuosos s1
e) En control con 12 defectuosos 100
f ) Grfica np
d2 s2
n! 3 100
10. f (x) " p x(1 ! p)n!x
x!(n ! x)!
s3
Si p " 0.02, la probabilidad de aceptar el lote es 75
25!
f (0) " (0.02)0(1 ! 0.02)25 " 0.6035
0!(25 ! 0)! b) VE(d1 ) " 0.65(250) $ 0.15(100) $ 0.20(25) " 182.5
Si p " 0.06, la probabilidad de aceptar el terreno es VE(d2 ) " 0.65(100) $ 0.15(100) $ 0.20(75) " 95
25! La decisin ptima es d1
f(0) " (0.06)0(1 ! 0.06)25 " 0.2129
0!(25 ! 0)!
12. p0 " 0.02; riesgo del productor " 0.0599 2. a) d1; VE(d1 ) " 11.3
p0 " 0.06; riesgo del productor " 0.3396 b) d4; VE(d4) " 9.5
El riesgo del productor disminuye a medida que el nmero
de aceptacin de c se aumenta 3. a) VE(personal propio) " 0.2(650) $ 0.5(650) $ 0.3(600)
" 635
14. n " 20, c " 3 VE(proveedor externo) " 0.2(900) $ 0.5(600)
16. a) 95.4 $ 0.3(300) " 570
b) UCL " 96.07, LCL " 94.73 VE(combinacin) " 0.2(800) $ 0.5(650) $ 0.3(500)
c) No " 635
Decisin ptima: contratar un proveedor externo con
18. un costo esperado de $570 000
b) VEciP " 0.2(650) $ 0.5(600) $ 0.3(300)
Grfica R Grfica x
" 520
UCL 4.23 6.57 VEIP " & 520 ! 570 & " 50, o $50 000
LCL 0 4.27
Excel proporciona una gran cantidad de funciones para el manejo de datos y el anlisis estads-
tico. Si se sabe cul es la funcin que se necesita y cmo utilizarla, simplemente se ingresa en
la celda de la hoja de clculo correspondiente. Sin embargo, si no se sabe cules funciones estn
disponibles para realizar una tarea o no se est seguro de cmo utilizar una funcin determinada,
Excel proporciona asistencia.
estadsticas de Excel aparecen en orden alfabtico en el cuadro Select a function. Observe que
la funcin AVEDEV figura en primer lugar de la lista, seguido por la funcin AVERAGE, y as
sucesivamente.
La funcin AVEDEV est resaltada en la figura 1 indicando que ha sido seleccionada en ese
momento. La sintaxis correcta para la funcin y una breve descripcin de la misma aparecen
debajo del cuadro Select a function. Uno puede desplazarse por la lista en el cuadro para des-
plegar la sintaxis y una breve descripcin de cada una de las funciones estadsticas disponibles.
Por ejemplo, al desplazarse hacia abajo se selecciona la funcin COUNTIF como se muestra en
la figura 2. Observe que COUNTIF est ahora resaltada, y que inmediatamente debajo del cuadro
Select a function se observa COUNTIF(range,criteria), que indica que contiene dos argumentos:
rango y criterios. Adems, se observa que la descripcin de COUNTIF es Cuente el nmero de
celdas con un rango que cumpla la condicin dada.
Si la funcin seleccionada (resaltada) se desea utilizar, haga clic en OK y aparece el cuadro
de dilogo Function Arguments (argumentos de la funcin). Los argumentos de la funcin en
el cuadro de dilogo para COUNTIF se muestran en la figura 3. Este cuadro ayuda a crear los ar-
gumentos adecuados para la funcin seleccionada. Cuando termine de ingresar los argumentos,
haga clic en OK; despus Excel ingresa la funcin en una celda de la hoja de clculo.
FIGURA 4 Hoja de clculo de Excel con los datos de las bebidas refrescantes y las etiquetas
para la distribucin de frecuencias que se desea construir
A B C D E
1 Brand Purchased Soft Drink Frequency
2 Coke Classic Coke Classic
3 Diet Coke Diet Coke
4 Pepsi Dr. Pepper
WEB archivo 5 Diet Coke Pepsi
SoftDrink
6 Coke Classic Sprite
7 Coke Classic
8 Dr. Pepper
9 Diet Coke
Nota. Las filas 11 10 Pepsi
a 44 estn ocultas. 45 Pepsi
46 Pepsi
47 Pepsi
48 Coke Classic
49 Dr. Pepper
50 Pepsi
51 Sprite
52
Apndice E Uso de las funciones de Excel 1065
hoja de clculo de Excel que contiene los datos sobre las bebidas refrescantes y las etiquetas
para la distribucin de frecuencias que se quiere construir. Observe que la frecuencia de compra
de Coke Classic ir en la celda D2, la de la compra de Diet Coke en la celda D3, y as sucesi-
vamente. Suponga que desea utilizar la funcin COUNTIF para calcular las frecuencias de estas
celdas y se desea contar con un poco de ayuda de Excel.
Paso 1. Seleccione la celda D2.
Paso 2. Haga clic en fx en la barra de frmulas (o en la ficha Formulas en la barra de he-
rramientas, y en Insert Function, en el grupo Function Library).
Paso 3. Cuando el cuadro de dilogo Insert Function aparezca:
Seleccione Statistical en la casilla Or select a category box.
Elija COUNTIF en el cuadro Select a function box.
Haga clic en OK.
Paso 4. Cuando el cuadro Function Arguments aparezca (figura 5):
Ingrese $A$2:$A$51 en el cuadro Range.
Ingrese C2 en el cuadro Criteria (en este momento el valor de la funcin aparecer
en la penltima fila del cuadro de dilogo. Su valor es 19).
Haga clic en OK.
Paso 5. Copie la celda D2 en las celdas D3:D6.
La hoja de clculo se ver como en la figura 6. La frmula aparece en la hoja del fondo; la hoja
de clculo con los valores aparece al frente. En la hoja de la frmula se observa que la funcin
COUNTIF fue insertada en la celda D2. El contenido de esta celda se copia dentro de las celdas
D3:D6. En la hoja de clculo con los valores aparecen las frecuencias adecuadas segn los
clculos.
Se ha ilustrado el uso de Excel para proporcionar apoyo al utilizar la funcin COUNTIF. El
procedimiento es similar para todas las dems funciones. Esta capacidad es especialmente til
si no se sabe qu funcin utilizar o se olvida su nombre propio y/o sintaxis.
FIGURA 6 Hoja de clculo de Excel en la que se muestra el uso de la funcin COUNTIF para
elaborar una distribucin de frecuencia
A B C D E
1 Brand Purchased Soft Drink Frequency
2 Coke Classic Coke Classic =COUNTIF($A$2:$A$51,C2)
3 Diet Coke Diet Coke =COUNTIF($A$2:$A$51,C3)
4 Pepsi Dr. Pepper =COUNTIF($A$2:$A$51,C4)
5 Diet Coke Pepsi =COUNTIF($A$2:$A$51,C5)
6 Coke Classic Sprite =COUNTIF($A$2:$A$51,C6)
7 Coke Classic
8 Dr. Pepper A B C D E
9 Diet Coke 1 Brand Purchased Soft Drink Frequency
10 Pepsi 2 Coke Classic Coke Classic 19
45 Pepsi 3 Diet Coke Diet Coke 8
46 Pepsi 4 Pepsi Dr. Pepper 5
47 Pepsi 5 Diet Coke Pepsi 13
48 Coke Classic 6 Coke Classic Sprite 5
49 Dr. Pepper 7 Coke Classic
50 Pepsi 8 Dr. Pepper
51 Sprite 9 Diet Coke
52 10 Pepsi
45 Pepsi
Nota. Las filas 11 46 Pepsi
a 44 estn ocultas. 47 Pepsi
48 Coke Classic
49 Dr. Pepper
50 Pepsi
51 Sprite
52
Apndice F Clculo de los valores-p
utilizando Minitab y Excel
Aqu se describe cmo se pueden utilizar Minitab y Excel para calcular los valores-p de los
estadsticos z, t, 2 y F que se manejan en las pruebas de hiptesis. Como se analiza en el texto,
los valores-p aproximados correspondientes a los estadsticos t, 2 y F slo se pueden obtener
mediante el uso de tablas. Este apndice es til para una persona que ha calculado manualmente
estadsticos de prueba, o por otros medios, y desea utilizar software para calcular el valor-p
exacto.
Usando Minitab
Minitab puede utilizarse para proporcionar la probabilidad acumulada relacionada con z, t, 2 y
el estadstico de prueba F. As que el valor-p en la cola inferior se obtiene directamente, mientras
que en la cola superior se calcula restando 1 del valor-p de la cola inferior. El valor-p en las dos
colas se obtiene duplicando el menor de los valores-p de las colas superior e inferior.
Estadstico de prueba z En la seccin 9.3 se utiliza como ejemplo la cola menor de la
hiptesis de prueba del Caf Hilltop; el valor del estadstico de prueba es z ! #2.67. Los pasos
de Minitab utilizados para calcular la probabilidad acumulada correspondiente a z ! #2.67 son
los siguientes.
Paso 3. Elija t.
Paso 4. Cuando el cuadro de dilogo t Distribution aparezca:
Seleccione Cumulative probability.
Ingrese 59 en el cuadro Degrees of freedom.
Seleccione Input Constant.
Ingrese 1.84 en el cuadro Input Constant.
Haga clic en OK.
Estadstico de prueba 2 Como ilustracin se utiliza el ejemplo del metrobs de San Luis
de la seccin 11.1; el valor del estadstico de prueba es 2 ! 28.18, con 23 grados de libertad.
Los pasos de Minitab utilizados para calcular la probabilidad acumulada correspondiente a
2 ! 28.18 son los siguientes.
Usando Excel
Las funciones y frmulas de Excel pueden utilizarse para calcular los valores-p relacionados
WEB archivo con los estadsticos de prueba z, t, 2 y F. Se proporciona una plantilla en los archivos de da-
p-Value tos titulada valor-p para ser utilizada en el clculo de estos valores. Con la plantilla, nicamente
es necesario introducir el valor del estadstico de prueba y, si es necesario, los grados de liber-
tad adecuados. Consulte la figura D.1 a medida que se lee la descripcin de cmo utilizar la
plantilla. Para los usuarios interesados en el uso de las funciones y frmulas de Excel, slo haga
clic en la celda adecuada.
A B C D E
1 Computing p-Values
2
3
4 Using the Test Statistic z Using the Test Statistic t
5
6 Enter z --> #2.67 Enter t --> 1.84
7 df --> 59
8
9 p-value (Lower Tail) 0.0038 p-value (Lower Tail) 0.9646
10 p-value (Upper Tail) 0.9962 p-value (Upper Tail) 0.0354
11 p-value (Two Tail) 0.0076 p-value (Two Tail) 0.0708
12
13
14
15
16 Using the Test Statistic Chi Square Using the Test Statistic F
17
18 Enter Chi Square --> 28.18 Enter F --> 2.40
19 df --> 23 Numerator df --> 25
20 Denominator df --> 15
21
22 p-value (Lower Tail) 0.7909 p-value (Lower Tail) 0.9594
23 p-value (Upper Tail) 0.2091 p-value (Upper Tail) 0.0406
24 p-value (Two Tail) 0.4181 p-value (Two Tail) 0.0812
1070 Apndice F Clculo de los valores p usando Minitab y Excel
se podr utilizar el valor-p de la cola superior, que es ! 0.0354, proporcionado en la celda E10
para la prueba de hiptesis.
Estadstico de prueba 2 Como ilustracin se utiliza el ejemplo del metrobs de San Luis
de la seccin 11.1; el valor del estadstico de prueba es 2 ! 28.18, con 23 grados de libertad.
Para utilizar la plantilla del valor-p en esta prueba de hiptesis, introduzca 28.18 en la celda
B18 y 23 en la celda B19 (vea la figura F.1). Despus aparecern los valores-p de los tres tipos
de pruebas de hiptesis. El ejemplo del metrobs de San Luis se trata de una prueba de cola
superior, as que se utiliza el valor-p de cola superior ! 0.2091 proporcionado en la celda B23
para la prueba de hiptesis.
Estadstico de prueba F Como ilustracin se utiliza el ejemplo de las escuelas del con-
dado de Dullus de la seccin 11.2; el estadstico de prueba es F ! 2.40, con 25 grados de li-
bertad en el numerador y 15 grados de libertad en el denominador. Para utilizar la plantilla del
valor-p en esta prueba de hiptesis, introduzca 2.40 en la celda E18, 25 en la celda E19 y 15
en la celda E20 (figura F.1). Despus aparecern los valores-p para los tres tipos de prueba de
hiptesis. El ejemplo de las escuelas del condado de Dullus involucra una prueba de dos colas,
as que se utiliza el valor-p para dos colas, que es 0.0812, proporcionado en la celda E24 para
la prueba de hiptesis.
ndice analtico
Nota: Los nmeros de pgina seguidos por una n indican una nota al margen o en la seccin de notas y co-
mentarios.
Diagramas de puntos, 41
Diagramas de tallo y hoja, 48-51
E
Diferencia de la suma de cuadrados de la regresin, Economa, 4
732n1 Ecuaciones de regresin, 563-564, 565n2
Diferencia mnima significativa de Fisher (LSD), Ecuacin de regresin estimada mediante el mtodo
524-527 de mnimos cuadrados, 580n1
Diseo de bloques aleatorizado, 530-537, 535n1 Ecuacin de regresin logstica estimada, 685-687
Diseo de bloques completo, 534 Ecuacin de regresin mltiple, 644
Diseo de bloques incompleto, 534 Ecuacin de tendencia cuadrtica, 814-816
Diseo de experimentos, 508-513 Ecuacin de tendencia exponencial, 816
Introduccin al, y al anlisis de varianza Ecuaciones de regresin estimada, 563-565, 567,
(ANOVA), 508-513 594, 612n2
mtodo de regresin mltiple para el, 745-749 Ecuaciones de regresin mltiple estimada,
recoleccin de datos, 509-510 644-645, 665-666
Diseo de una muestra independiente, 426n2 Eficiencia relativa, 296
Diseos de bloques aleatorizado, 508, 513-524 Elaboracin de pronsticos usando el mtodo de
Distribucin binomial promedios mviles, 797-800, 804n2
para el muestreo de aceptacin, 930n1 Elementos, 5-6,
valor esperado y varianza de la, 214-215 Eliminacin hacia atrs, procedimiento de, 741
Distribucin de frecuencia porcentual, 34, 41 Encuesta por muestreo, 15,
Distribucin de probabilidad, 197 Error de pronstico, 792
Distribucin de probabilidad binomial, 208 Error estndar
Distribucin de probabilidad de Poisson, 218-220 de dos muestras aleatorias independientes, 409
prueba de bondad de ajuste, 487-491 de p1 ! p2, 430
relacin entre la, y exponencial, 255 de p1 ! p2 cuando p1 " p2 " p, 432
Distribucin de probabilidad exponencial, 253-256, Error estndar de estimacin, 585
256n1, 258 Error estndar de la proporcin, 290
Distribucin de probabilidad hipergeomtrica, 221- Error tipo I, 353-355, 355n1
223, 223n1 tasa de, por comparacin, 527
Distribucin de probabilidad normal, 238-248 tasa de, por experimentacin, 527
Distribucin de probabilidad normal estndar, 240- Error tipo II, 353-355, 355n1
245, 245-248 probabilidad de cometer un, 382-385
Distribucin de probabilidad uniforme, 234-236 Errores de redondeo, 100n3
Distribucin de probabilidad uniforme discreta, 199 Errores en la adquisicin de datos, 13
Distribucin F, 460, 464n1, 516 Errores en los datos, 681n1
Distribucin ji-cuadrada, 450-454 Escala de intervalo, 6
Distribucin muestral binomial, 861n2 Escala de razn, 6
Distribucin normal Escala nominal, 6
prueba de bondad de ajuste, 491-495 Escala ordinal, 6
Distribucin t, 316, 317 Escalas de medicin, 6-7
clases, 39-41 Espacio muestral, 150
nmero de clases en una, 36n1 Estacionalidad y tendencia, 820-826
suma de las, 36n2 estacionalidad sin tendencia, 820-823
Distribuciones de frecuencia, 33-34 modelos basados en datos mensuales, 825-826
Distribuciones de frecuencia acumulada, 43-44, Estadstica, 3
45n4 Estadstica descriptiva, 13-15, 127n1
Distribuciones de frecuencia porcentual Estadstico de prueba, 357-358
acumulada, 44 en las pruebas de hiptesis para la media pobla-
Distribuciones de frecuencia relativa acumulada, cional: conocida, 358
44 para la bondad de ajuste, 475
Distribuciones de probabilidad discreta, 197-200 para la igualdad de k medias poblacionales, 516
Distribuciones muestrales o de muestreo, 276-286 para las pruebas ji-cuadrada, 483n1
de dos varianzas poblacionales, 460 para pruebas de hiptesis acerca de 1 ! 2: 1 y
de b1, 586 2 conocidas, 411
de (n ! 1)s 2/ 2, 450 para pruebas de hiptesis acerca de p1 ! p2, 432
de p, 289-293 para pruebas de hiptesis acerca de dos varianzas
de x, 278-279, 281-286 poblacionales, 461
muestreo con remplazo y, 270 para pruebas de hiptesis acerca de una varianza
muestreo sin remplazo y, 269 poblacional, 454
Distribuciones sesgadas, 256n1 para pruebas de hiptesis con muestras pareadas,
Doctrina de las probabilidades, La (Moivre), 425
238-240 para pruebas de hiptesis 1 ! 2: 1 y
Dow Chemical Company 904 2 desconocidas, 417-419
Dow, Charles Henry, 772 Estadstico de prueba F, 461
dunnhumby, 643 Estadstico F, 732n1
1074 ndice analtico
Fisher, Ronald Alymer, Sir, 508 deflactacin de una serie por, 773-775
Food Lion, 309 ndice de precios al consumidor (IPC), 771
Forma de la distribucin, 102-103 ndice de precios al productor (IPP), 771
Frmulas de mnimos cuadrados, 635-636 promedios Dow Jones, 772
Frecuencia relativa, seleccin de artculos, 777
distribuciones de, 34-36, 39-41 seleccin de un periodo base, 777
frmula para la, 65 variaciones en la calidad, 777-778
Frecuencias, 13t1.4 ndice de precios agregado ponderados, 766
Frecuencias de porcentaje, 13f1.4 ndice de precios al consumidor (IPC), 764, 771
Funcin de densidad de probabilidad, 234, 237n1 ndice de produccin industrial, 779
Funcin de densidad de probabilidad exponencial, Indice industrial Down Jones (DJIA), 772
258 ndices de cantidad, 778-779
Funcin de densidad de probabilidad normal, 239, ndices de precios agregados, 765-767
258 clculo de precios relativos, 769, 770
Funcin de densidad de probabilidad uniforme, Inferencia estadstica, 15-16
234, 258 Influencia de la observacin i, 617, 676
Funcin de la probabilidad binomial, 209, 212 Informacin muestral, 949
Funcin de probabilidad, 197 valor esperado de la (VEIM), 954-956
Funcin de probabilidad de Poisson, 218, 488 Ingeniera de la calidad, 908
Funcin de probabilidad hipergeomtrica, 221-222 Instituto de Normas y Tecnologa (NIST) del
Funcin de probabilidad uniforme discreta, 199 Departamento de Comercio de Estados Unidos,
Funciones de probabilidad discreta, 198 906
Interacciones, 538-539, 718-720
G Interseccin de dos eventos, 166
Intervalo de confianza, 313, 594
Galton, Francis, Sir, 562
estimaciones por, 323n2
Garanta de la calidad, 908
para 1, 587-588
Gauss, Carl Friedrich, 567
para el valor medio de y, 595-596
Gosset, William Sealy, 316
Intervalo de prediccin para un solo valor de y,
Grados de creencia, 156
596-598
Grados de libertad, 316, 317, 319, 416, 535n1
Intervalo de prediccin, 594
Grados de libertad del error, 535n1
Intervalos de distancia o longitud, 220
Grfica x, 909, 920n1
Intervalos de tiempo
proceso de la media y la desviacin estndar
distribucin de probabilidad de Poisson y,
conocida, 910-912
218-220
proceso de la media y la desviacin estndar
Inversin en acciones y fondos de acciones, 100n2
desconocida, 912-915
Investigacin sobre la probabilidad de los
Grfica circular o de pastel, 35-36
veredictos en materia penal y civil (Poisson), 218
Grfica de barras, 14f1.5, 34-36, 45n1
Ishikawa, Karou, 905
Grfica de residuales, 606, 612n1
ISO 9000, 906
contra x, 606-607
contra y, 607
Grfica np, 910, 919-920, 920n2 J
Grfica p, 910 John Morrell & Company, 349
Grfica R, 910, 915-917, 920n1 Juran Joseph, 905
Grficas de control, 909-910
grfica x, 910-915
grfica np, 919-920 K
grfica p, 917-919 k medias poblacionales, 513n3
grfica R, 915-917
interpretacin de las, 920 L
Grficas de probabilidad normal, 610-612, 612n1
Grficas de series de tiempo, 786-792 Ley de la adicin, 165-166
Ley de la multiplicacin, 174-175
H Lmite de calidad promedio de salida (AOQL),
930n2
Hiptesis alternativa, 349 Lmite de control superior (UCL), 910
como hiptesis de investigacin, 350-351 Lmites de clase, 45n2
Hiptesis nula, 349-353 Lmites de control inferior (LCL), 910
Histograma, 14f1.6, 41-43, 45n1 Lnea de tendencia, 57-59
Lineamientos ticos, 18-19
I Lineamientos ticos para la prctica estadstica
ndice Baldridge, 906 (ASA), 18-19
ndice de Laspeyres, 767 Logit, 691
ndice de Paasche, 767 Logit estimado, 691
ndices de precios Lote, 922, 924
1076 ndice analtico
PrecisionTree (complemento de Excel), 970-974 Prueba de bondad de ajuste para una distribucin
Probabilidad condicional, 171-175, 960 poblacional multinomial, 476-477
Probabilidad previa, 178, 949 Prueba de cola superior, 356, 361, 461
Probabilidad, 150 Prueba de dos colas, 362-367
condicional, 171-175 clculo del valor-p en una, 364
conjunta, 172 media poblacional: caso conocida, 362-365
de xito, 215n1, 215n2 media poblacional: caso desconocida, 372-373
marginal, 172 mtodo del valor crtico, 364
mtodo clsico de asignacin de, 155-156, mtodo del valor-p, 363-364
162n1 Prueba de hiptesis, 861n1
mtodo de frecuencia relativa, 156 acerca de 1 ! 2, 410-412, 417-419
mtodo subjetivo (de asignacin), 156-155 acerca de p1 ! p2, 431-433
posterior, 178 acerca de una media poblacional, 857-861
previa, 178 con muestras pareadas, 862-863
Probabilidades binomiales errores tipo I y tipo II, 353-356
aproximacin normal, 250-252 hiptesis nula y alternativa, 349-353
tablas de, uso de, 213-214, 215n1, 215n2 media poblacional: desconocida, 370-376
Probabilidades conjuntas, 172, 962 mtodo del intervalo de confianza, 366
Probabilidades marginales, 172 para la varianza poblacional, 454-457
Probabilidades posteriores, 178, 949 pasos en la, 365
Problema de Grear Tire Company, 246-248 proporcin poblacional, 376-381
Problema de Martin Clothing Store, 209-213 prueba de una cola, 356-361, 371-372
Problema EAI, 283 pruebas de dos colas, 362-365
Procedimiento de regresin por pasos, 739-740, relacin entre estimacin por intervalo y, 366-367
743n1 y toma de decisiones, 381-382
Procedimiento de Turkey, 528 Prueba de hiptesis para las varianzas de dos
Procedimientos de comparacin mltiple poblaciones, 461
diferencia mnima significativa de Fisher (LSD), para pruebas de hiptesis con muestras pareadas,
524-527 425
tasas de error tipo I, 527-528 Prueba de independencia, 479-483
Procedimientos de seleccin de variables Prueba de cola inferior, 356, 361
alpha to remove, 739-740 Prueba de la igualdad de k medias poblacionales,
eliminacin hacia atrs, 741 517, 520-521
regresin de los mejores subconjuntos, Prueba de Mann-Whitney-Wilcoxon (MWW), 871-
741-742 882, 878n1
regresin por pasos, 739-740 Prueba de rangos con signo de Wilcoxon, 865-868,
seleccin hacia adelante, 740-741 868n1, 868n2
Proceso de Bernoulli, 208 Prueba de rangos mltiples de Duncan, 528
Procter & Gamble, 233 Prueba de significancia, 585-591
Produccin, 4 usando correlacin, 636-637
Promedio o media, 14-15 Prueba de significancia, 585-591, 591n1, 591n3,
Promedios Dow Jones, 772 636-637, 658-663, 687
Pronsticos, 785 Prueba de signos, 857-861, 861n2
Proporcin poblacional, 328-331, 331n1 prueba de hiptesis acerca de una mediana
aproximacin normal a la distribucin de poblacional, 857-863
muestreo de una, 328 prueba de hiptesis con muestras pareadas,
estadstico de prueba en las pruebas de hiptesis 862-863
para la, 378 Prueba de una cola, 371-372, 475
estimacin por intervalo de una, 329 Prueba de Durbin-Watson, 751
estimacin por intervalo para p1 ! p2, 429-431 Prueba F, 516, 588-590
inferencias acerca de la diferencia entre dos, para modelos de regresin mltiple, 658-661
429-433 Prueba de Kruskal-Walis, 882-884, 884n1
pruebas de hiptesis y, 376-379 Prueba t, 586, 661-662
tamao de la muestra para una estimacin del modelos de regresin mltiple para la
intervalo de la, 330 significancia individual, 661-662
Proyeccin de tendencia significancia para la regresin lineal simple,
regresin de tendencia lineal, 807-812 587
regresin de tendencia no lineal, 814-816 Prueba t, 586-587
suavizamiento exponencial lineal de Holt, Prueba z, 692n1
812-814 Pruebas de estrs para controladores de trfico
Prueba de bondad de ajuste, 476-477 areo, 531-532
distribucin de Poisson, 487-491 Pruebas de hiptesis acerca de 1 y 2, 417-419
distribucin multinomial, 476-477 Puntos de gran influencia, 617
distribucin normal, 491-495 Punto de la muestra, 150
estadstico de prueba para, 475 Puntos normales, 610-612
ndice analtico 1079
Estadstica Sweeney
el procedimiento no paramtrico.
Complemento StatTools para Excel StatTools es un com-
plemento (add-in) comercial de Excel 2007, desarrollado por
Palisades Corporation, que ampla la variedad de opciones
estadsticas para los usuarios de Excel. En un apndice del ca- para negocios Williams
y economa
y economa
ptulo 1 se muestra cmo descargarlo, y la mayora de los
captulos incluye un apndice que describe los pasos reque-
ridos para realizar un procedimiento estadstico usando esta
herramienta.
Apndice de Excel actualizado para la estadstica des-
criptiva de tablas y grficas El apndice de Excel del
captulo 2 muestra cmo se usan las herramientas Chart
Tools, PivotTable Report y PivotChart Report para mejorar
las capacidades de mostrar la estadstica descriptiva en ta-
blas y grficas.
Anlisis comparativo con diagramas de caja El tra-
tamiento de diagramas de caja del captulo 2 se ha am-
pliado para incluir comparaciones relativamente rpidas y
fciles de dos o ms bases de datos.
Estadstica
Nuevo Software PrecisionTree para el anlisis de
decisiones PrecisionTree es otro complemento de Ex-
cel desarrollado por Palisades Corporation, muy til en el
anlisis de decisiones. El captulo 21 contiene un apndice
para negocios
nuevo que muestra cmo usarlo.
Ejemplos y ejercicios nuevos basados en datos
reales Al usar datos reales, los lectores se interesarn
ms en el material y podrn aprender tanto sobre la meto-
y economa
dologa estadstica como sobre sus aplicaciones. Esta edi-
cin contiene ms de 350 ejemplos y ejercicios basados
en informacin real.
Archivos de datos que acompaan el libro Ms de
200 archivos de datos estn disponibles en el sitio web Incluye
http://latinoamerica.cengage.com/anderson. Las ba- tarjeta de acceso a
ses de datos se encuentran tanto en formato de Minitab
como de Excel.
ISBN-13: 978-607-481-641-9
ISBN-10: 607-481-641-7
11a. ed.
para estadstica
en espaol
http://latinoamerica.cengage.com