Sei sulla pagina 1di 5

TAREA

PLANTEAMIENTO Y OBJETIVO:
Tomamos datos de la siguiente publicacin:
"Using Cigarette Data for an Introduction to Multiple Regression", by Lauren Mcintyre in
Volume 2, Number 1, of the Journal of Statistics Education.
La primera parte del objetivo lo cubriremos con esta tarea p2p, y la segunda parte, lo
cubriremos en la segunda tarea p2p al finalizar el mdulo 4.
Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido
de alquitrn y nicotina de los cigarrillos vienen acompaados por incrementos en el
monxido de carbono emitido al fumar. Partimos de estos datos y nos planteamos el
siguiente objetivo:

(3 PARTES)
PARTE 1:
Genere un breve informe estadstico descriptivo, a partir de la salida
de ordenador que se adjunta (tmese el espacio que necesite pero sea
breve), en el que seale:

1) el tamao muestral,

2) cul es la variable con mayor variabilidad,

3) cul de las medias es ms representativa de los datos y

4) cul de las medias es ms estable.

RESPUESTAS
1. Muestra: 25
2. El Alquitrn es la variable que presenta una desviacin tpica ms dispersa
3. Todas las medias son representativas de sus distribuciones porque tienen
indicadas medidas de dispersin.
4. La variable con media ms estable es el peso: por tener un error estndar
menor que las dems variables, su media est ms cerca de la verdadera
media de la poblacin.
PARTE 2.
Analice los percentiles a partir de la tabla correspondiente que
aparece debajo. Escriba un breve informe con los resultados ms
relevantes entre los que al menos debe estar la Mediana y el Recorrido
intercuartlico (debe calcularlo a partir de la tabla) para todas y cada una de las
variables. En el informe compare, adems, los resultados obtenidos con la
Media y su dispersin y la Mediana y su dispersin.

RESPUESTAS

Tabla 1. Clculo de la Mediana y el Recorrido intercuartlico


N

MEDIANA
p50

p75 (Q3)

p25(Q1)

25 13,0000

15,6500

9,7500

25 12,4000

15,1500

7,9000

NICOTINA

25 0,90000

1,03000

0,68000

PESO

25 0,957300

1,016850 0,920550

MONXID
O
ALQUITR
AN

Recorrido (Q3Q1)
5,9000
7,2500
0,35000
0,0963

Para el clculo de la Mediana y el recorrido intercuartil de cada variable se


tomaron de la tabla de percentiles los valores p50 para la mediana y la
diferencia de los valores p75 y p25 para el recorrido; los resultados se resaltan
en la tabla 1. El Alquitrn es el que muestra un mayor recorrido RI seguido del
monxido y la nicotina en menor grado, en tanto que el peso muestra un RI
muy pequeo. Dados los datos de las tablas, estos RI permiten sustraer del
anliis de la dispersin el sesgo introducido por los valores extremos que se
evidencian en las tres primeras variables descritas.
Para comparar los resultados de la Mediana con la Media, y sus respectivas
medidas de dispersin, construimos la Tabla 2

Tabla 2. Medidas de tendencia central y de dispersin del estudio de


MEDIANA
p50

Recorrido (Q3Q1)

MEDIA

DS

EE

5,9000

12,5280

4,7397

0,9479

7,2500

11,8160

5,8763

1,1753

NICOTINA 0,90000

0,35000

0,87600

0,35420

0,07084

PESO

0,0963

0,9703

0,0877

0,0175

MONXID
O
13,0000
ALQUITR
AN
12,4000

0,957300

A pesar de los valores extremos en las observaciones correspondientes a las 3


primeras variables, los cuales se corrigen con el anlisis de la Mediana y su RI,
se destaca que en todas ellas la Media es menor a la Mediana, indicando que
estos valores discordantes no han logrado sesgar de manera importante la
distribucin aunque s existe un sesgo negativo asociado a la mayor cantidad
de cigarrillos de tipo Rubio en la muestra (64% del total de la muestra), ya que
a diferencia de los negros, estos rubios contienen menores cantidades de
alquitrn, nicotina y menores valores de monxido; el peso no muestra
diferencia significativas en las medidas, lo cual sugiere que se trata de una
variable irrelevante para el propsito del estudio. Por la explicacin anterior, la
diferencia entre rubios y negros como explicacin de la dispersin, considero
que los dos valores outliers, los dems valores extremos (por debajo
de p25 y por encima de p75) no afectan el anlisis si se utiliza la
media y la desviacin tpica para analizar de manera conjunta estos
dos tipos diferentes de cigarrillos, en cambio el rango intercuartlico
introduce un sesgo porque cuando saca del anlisis un nmero
importante de valores ms bajos (Rubios) y altos (negros), cambia las
proporciones en la muestra entre estos dos tipos de cigarrillo;
obsrvese que cuando estn todos los elementos la razn entre cigarrillos
negros y rubios es de 0,56 y cuando se toma el RI est queda en 0,3,
modificando sustancialmente el anlisis objeto del estudio al perder

representatividad los cigarrillos negros, los cuales estn asociados a valores


mayores de nicotina, alquitrn y monxido.
PARTE 3.
Analice los Box plot (diagramas de caja) que se adjuntan y saque las
conclusiones ms relevantes. Debe escribir, al menos, sobre la posible
asimetra y la existencia, o no, de outliers

RESPUESTAS
Las distribuciones muestran asimetras con trayectos mayores desde la
mediana a la base (p25) en las variables Monxido, Alquitrn y Nicotina, y cajas
ms grandes para el Monxido y el Alquitrn, indicando el mayor grado de
dispersin de estas respecto a las dems. Las asimetras mantienen la misma

tendencia en los bigotes a pesar de excluir los valores outliers, reflejando la


influencia descrita del mayor nmero de cigarrillos rubios en la muestra total.
El peso del cigarrillo muestra una mediana que se acerca a su base, con menor
variabilidad (caja pequea), y la variabilidad de los bigotes es contraria a la
observada en las otras variables.

Potrebbero piacerti anche