Sei sulla pagina 1di 37

ESTADSTICA APLICADA Adn Reyes Santiago (adanreyes@gmail.

com)
Contenido
Introduccin.............................................................................................................................................................................. 2 Conceptos bsicos ............................................................................................................................................................... 2 Definicin de estadstica .............................................................................................................................................. 2 Tipo de datos ...................................................................................................................................................................... 3 Estadstica descriptiva ........................................................................................................................................................ 4 Medidas de tendencia central ................................................................................................................................... 4 Medidas de dispersin .................................................................................................................................................. 5 Medidas de posicin y de forma .............................................................................................................................. 6 Distribuciones de probabilidad ...................................................................................................................................... 6 Distribucin de probabilidad discreta: distribucin binomial ................................................................... 6 Distribucin continua: distribucin normal ......................................................................................................... 8 Distribuciones de muestreo .......................................................................................................................................... 11 Teorema del lmite central ........................................................................................................................................ 12 Estadstica inferencial ...................................................................................................................................................... 12 Estimaciones por intervalo ....................................................................................................................................... 12 Intervalo de confianza para , conocida ................................................................................................. 12 Intervalo de confianza para , desconocida pero muestra grande .......................................... 14 Intervalo de confianza para , desconocida y muestra pequea .............................................. 14 Intervalo de confianza para la proporcin (muestras grandes) ...................................................... 15 Tamao muestral .......................................................................................................................................................... 17 Tamao muestral (media) ................................................................................................................................... 17 Tamao muestral (proporcin) ......................................................................................................................... 18 Pruebas de hiptesis ................................................................................................................................................... 18 Conceptos bsicos .................................................................................................................................................. 18 Pasos para una prueba de hiptesis ............................................................................................................ 19 Prueba de hiptesis para , con conocida ............................................................................................. 20 Prueba de hiptesis para , con desconocida ..................................................................................... 22 Prueba de hiptesis para la proporcin ....................................................................................................... 23

Introduccin
Evaluacin:

Tres tareas Proyecto final Examen final TOTAL

30% 40% 30% 100%

CONCEPTOS BSICOS
Definicin de estadstica Es la disciplina que organiza, resume, analiza y presenta datos, nos permite hacer conclusiones con respecto a una fuente de datos. Estadstica descriptiva: Organiza, resume y presenta informacin. Estadstica inferencial: Es la que permite realizar inferencias acerca de una poblacin con base en una muestra. Poblacin: Es un conjunto de elementos que tienen una caracterstica que deseamos analizar. Muestra: Es un subconjunto de la poblacin. Parmetros: Aquello que describe a una poblacin. Estadstico: Describe a una muestra.

La estadstica inferencial consiste en realizar inferencias respecto a la poblacin (parmetros), con base en estadsticos calculados a partir de muestras.

TIPO DE DATOS
Cualitativos: No tienen significado matemtico, representan cualidades o categoras Por escala de medicin: Nominales: Representan slo la etiqueta de la categora. P. ej. gnero (hombre, mujer), estado civil (soltero, casado, viudo, unin libre, divorciado. Ordinales: son aquellos que tienen un orden natural. P. ej. Nivel de educacin (primaria, secundaria, preparatoria, profesional, etc.). Cuantitativos: Tienen significado matemtico. Por escala de medicin: De intervalo: Slo tiene sentido operaciones de suma y resta, no existe un punto de partida (el 0 no representa ausencia). P. ej. temperatura en grados Celsius, ao. De razn: Se pueden aplicar todas las operaciones algebraicas, el 0 s representa ausencia. P. ej. ingreso en pesos, nmero de personas que asisten a un evento. Los datos cuantitativos tambin se pueden clasificar como: Discretos: Aquellos que se pueden contar. Continuos: Aquellos que se pueden medir.

Estadstica descriptiva
Tabulacin de datos (Tablas de frecuencia): Consiste en crear intervalos o clases y realizar el conteo de frecuencias. Medidas numricas: Permiten representar con un valor las

caractersticas principales de un conjunto de datos. o Medidas de tendencia central. o Medidas de dispersin. o Medidas de posicin y forma. Mtodos grficos: Histograma, grfico de pastel, diagramas de barras, pictogramas.

Medidas de tendencia central


o Media (media aritmtica). Es el promedio y se calcula dividiendo la sumatoria total entre el nmero de observaciones.

Media poblacional:

Media muestral:

o Mediana: Es el valor que separa el 50% de los datos ordenados del restante 50%.

o Moda: El valor que ms se repite en un conjunto de datos.

o Relacin entre media, mediana y moda: Si la distribucin de los datos es simtrica, la media, la mediana y moda coinciden. Si la media est a la derecha de la mediana, existe un sesgo hacia la derecha Si la media est a la izquierda de la mediana, existe un sesgo a la izquierda.

Comentario: si la distribucin de los datos es muy asimtrica, conviene usar


la mediana, esto es porque la media es altamente influenciable por valores extremos. Media Nominales Ordinales De intervalo De razn Medidas de dispersin Rango: Diferencia entre el valor mximo y el valor mnimo Desviacin estndar Desv. Est. Poblacional Desv. Est. Muestral x x x x x Mediana Moda X X X X

o o

Caractersticas: Est en las mismas unidades que la variable original, entre ms grande indica mayor dispersin, que representa un promedio de las distancias con respecto a la media.

o Varianza: Es el cuadrado de la desviacin estndar. Varianza Poblacional ( ) Varianza Muestral (

Medidas de posicin y de forma o Cuartiles: 1er. Cuartil: Es el valor que separa el 25% de los datos ordenados, del restante 75% de los datos. 3er. Cuartil: Es el valor que separa el 75% de los datos ordenados, del restante 25% de los datos. 2do. Cuartil: Mediana o Percentiles: El k-simo percentil es el que separa la k-sima parte de los datos ordenados del restante. Distribuciones de probabilidad En una representacin de todos los posibles resultados de un proceso aleatorio junto con su probabilidad de ocurrencia. Esta representacin puede ser una tabla o una funcin. Distribucin de probabilidad discreta: distribucin binomial La distribucin binomial se basa en un proceso aleatorio con las siguientes caractersticas: Slo hay dos resultados posibles (xito y fracaso) Hay n repeticiones independientes. La probabilidad de xito permanece constante

La funcin de distribucin binomial tiene la siguiente forma: Dado: n: nmero de ensayos (repeticiones) x: nmero de xitos p: probabilidad de xito ( ) ( ) ( )

Ejemplo:
1) Si lanzamos una moneda al aire, cul es la probabilidad de que, en 5 lanzamientos, caigan 3 guilas? n=5, x=3, p=0.5, donde x: cantidad de guilas P(X=3) =DISTR.BINOM (C6, 5, 0.5, 0) = 0.3125 2) Se sabe que en una tienda el 25% de los clientes compra ms de $500 pesos. Si seleccionamos al azar a 6 clientes. a. Cul es la probabilidad de que exactamente 2 clientes compren ms de $500? b. Cul es la probabilidad de que al menos 2 compren ms de $500? c. Cul es la probabilidad de que cuando mucho 2 compren ms de $500?

X: el nmero de clientes que compran ms de $500 pesos. N=6, p=0.25


a) P(x=2) =DISTR.BINOM.N (A14, 6,0.25, 0)=0.2966 b) P (x2)= 1-(DISTR.BINOM.N (1, 6,0.25, 1))= 0.4661 c) P (x2) =DISTR.BINOM.N (2, 6,0.25, 1)= 0.8306

3) Considere n=5 y p=0.6. Calcule: a) P(x=3) = b) P(x<2) = P(X=0)+P(X=1) = P(x1) = c) P(x4) = P(X=4)+P(X=5)= 1-P(x3) = d) P(x>2) = P(X=3)+P(X=4)+P(X=5)= 1-P(x2) =
P(x=3) =DISTR.BINOM.N (A6, 5, 0.6, 0) = 0.3456 P(x<2) = DISTR.BINOM.N (1, 5, 0.6, 1) = 0.08704 P (x4) =1-(DISTR.BINOM.N (3, 5, 0.6, 1)) = 0.33696 P(x>2) =1-(DISTR.BINOM.N (2, 5, 0.6, 1)) = 0.68256

Distribucin continua: distribucin normal Est representada por la curva de Gauss, es una distribucin cuyo grfico tiene forma de campana. Se utiliza para modelar errores y es la base de la estadstica inferencial.

Cuando una distribucin normal tiene media igual a 0 y varianza igual a 1 se le conoce como distribucin normal estndar. Si X~N (, ), cada valor de x tiene su equivalente en un valor de z, donde Z~N (0,1) dado por: ( )

Ejemplo:
1) Calcule las siguientes probabilidades, donde Z~N(0,1): P (Z>1)=1-P (Z<1)= 1-(DISTR.NORM.ESTAND (1))= 0.15865525 P (Z<-2) =DISTR.NORM.ESTAND (-2)= 0.02275013 P (Z>3) =1-P (Z<3)= 1-(DISTR.NORM.ESTAND (3))= 0.0013499 2) Las pruebas para medir el coeficiente intelectual (C.I.) estn diseadas para tener una media de 100 unidades y una desviacin estndar de 16 unidades. Considerando la transformacin calcule:

a) La probabilidad de que una persona elegida al azar tenga un C.I mayor a 110. b) La probabilidad de que una persona elegida al azar tenga entre 95 y 105 puntos de C.I. c) Si obtuvieras un puntaje de 118 qu proporcin de la poblacin tendra un C.I. superior al tuyo?

Respuesta:
X: Coeficiente intelectual de las personas X~N (media = 100, desviacin estndar = 16)

a)

) ( )

( b) ( )

))

( ( ( ( c) ( ) ( ( ) ( ) ( ) ( (

)) ))

))

3) Con base en datos del ejercicio anterior, a partir de qu C.I. se puede considerar que alguien est en el 2% superior de la distribucin? P ( X >?) =0.02

Respuesta:
Utilizando la expresin DISTR.NORM.ESTAND.INV (0.98) el valor z asociado a esa probabilidad es de 2.054. Aplicando la transformacin correspondiente tenemos que

Por tanto: ( )

4) La demanda de un producto en una tienda es de 542 unidades a la semana en promedio, con una desviacin estndar de 13 unidades. Asuma una distribucin normal. Cuntas unidades deber tener en inventario para garantizar que en el 95% de los casos tenga suficientes unidades para cubrir la demanda semanal? P ( x <?)=0.95 Respuesta: Utilizando la expresin DISTR.NORM.ESTAND.INV (0.95) el valor z asociado a esa probabilidad es de 1.645. Aplicando la transformacin correspondiente tenemos que

Por tanto: ( 563 unidades Distribuciones de muestreo La distribucin de muestreo describe la distribucin de los estadsticos de todas las posibles muestras del mismo tamao obtenidas de una poblacin. Distribucin de la media muestral Si X~N (, ) entonces ( ) )

Dnde: se conoce como error estndar Teorema del lmite central Conforme el tamao de la muestra aumenta, la distribucin de la media muestral se aproximar a una distribucin normal. Si n es grande la distribucin
de la media muestral tendr una distribucin normal. (n30unidades).

Estadstica inferencial
Estimaciones por intervalo Intervalo de confianza para la media Intervalo de confianza para la media, conocida Intervalo de confianza para la media, desconocida pero muestra grande Intervalo de confianza para la media, desconocida y muestra pequea

Intervalo de confianza para , conocida


El I.C. (intervalo de confianza) para la media, con un nivel de 1confianza est dado por:
Limite inferior ( ) Limite Superior ( )

de

Dnde:

es el valor tal que P (Z>

)=

Requisito: x tiene una distribucin normal, o n es grande.

Z 0.10 =DISTR.NORM.ESTAND.INV (0.9) =1.281 * El 0.90 es lo que falta para 1


Z 0.05 =DISTR.NORM.ESTAND.INV (0.95)= 1.645 Z 0.01 =DISTR.NORM.ESTAND.INV (0.99)= 2.326 Z 0.005 =DISTR.NORM.ESTAND.INV (0.995)=2.575 Z 0.025 =DISTR.NORM.ESTAND.INV (0.975)= 1.959 Nivel de Confianza 90% 95% 98% 99% 0.10 0.05 0.02 0.01 Z 0.05 Z 0.025 Z 0.01 Z 0.005 RESULTADO 1.645 1.959 2.326 2.575

Ejemplo:
1) Se desea conocer el ingreso promedio en una poblacin. Para calcular este dato se obtuvo una muestra de 256 personas. La media muestral fue de $11,230 y se sabe que la desviacin estndar poblacional es de $1,112. Con un 95% de confianza, calcule un estimado del valor promedio del ingreso en esa poblacin. X: ingreso, , n=256, =1,112

Intervalo de confianza para , conocida


( ) ) ( ) ( )

Con un 95% de confianza, el valor de la media poblacional, est entre 11093.7825 y 11366.2275

Intervalo de confianza para , desconocida pero muestra grande ) ) ( (Se sustituye el valor de por el valor muestral de la desviacin estndar)

Ejemplo
1) Se desea conocer cul es el gasto promedio en leche de los hogares en Veracruz. Con base en una muestra de 183 hogares, se obtuvo una media $477.27 y una desviacin estndar de $631.89. Calcule un intervalo de confianza del 95% para el gasto promedio en leche de los hogares en Veracruz. Datos:

) ) ( 385.72< <568.82

Con un nivel de confianza del 95%, el gasto promedio en leche de los hogares en Veracruz est entre $385.72 y $568.82 Intervalo de confianza para , desconocida y muestra pequea

( )

Ejemplo
1) Se desea conocer el rendimiento promedio de la gasolina en un modelo de automvil. En una muestra de 18 automviles se obtuvo una media 8 kilmetros por litro, y una desviacin estndar de 1 kilmetro por litro. Con un nivel de confianza del 90% calcule el valor de la media poblacional.

Tamao 18 Media 8 Desviacin estndar 1 Nivel de confianza 90% Alfa 0.1 T 1.73961 Margen de error 0.41003 Lmite inferior 7.58997 Lmite superior 8.41003

PROPORCIN (P) Intervalo de confianza para la proporcin (muestras grandes) Suponga una muestra de tamao n donde se observan x xitos. El intervalo de confianza para la proporcin de xitos en la poblacin, con un nivel 1- de confianza, est dado por:

Donde:

y el margen de error es:

Ejemplo
1) En una encuesta aplicada a 183 hogares se encontr que en 20 casos la vivienda es rentada. Con un nivel de confianza del 90% calcule la proporcin de hogares que viven en una vivienda rentada. Datos: n=183, x=20, =.10,

)(

) .0714<p<.1472

)(

Con un 90% de confianza podemos decir que la proporcin real de hogares que viven en una vivienda rentada est entre 7.14% y 14.72%

Ejercicio
Conforme a la ENIGH 2006, con datos de Veracruz, se observ que de 183 hogares, en 74 hogares el gasto en alimentos represent ms del 30% del gasto total. Con un 95% de confianza calcule la proporcin de hogares que gastan ms del 30% del gasto total en alimentos.

Datos
X: nmero de hogares cuyo gasto en alimentos representa ms del 30% del gasto total

N=183,x=74, =0.05, 0.333267<P<0.475477 Tamao muestral Tamao muestral (media) ( ) ( ) ( )

Entre ms grande la muestra son ms exactos los resultados

Ejemplo:
1) Se sabe que el proceso de llenado de unas botellas en una fbrica tiene una desviacin estndar de 20 mililitros. Se desea estimar el valor promedio de llenado con un margen de error de 15 mililitros, con un nivel de confianza del 99%, de cuntas botellas se deber tomar la muestra? ( ( )( )

Ejercicio
2) Se desea estimar el gasto promedio en comidas fuera del hogar con un margen de error de $100, para los hogares veracruzanos. En la encuesta previa se obtuvo un valor estimado para la desviacin estndar de $2,902. Cul deber ser el tamao muestral si se desea tener un nivel de confianza del 98%?

Tamao muestral (proporcin) ( )

Si no se tiene un estimado de p se utiliza p=.5 Se desea estimar la proporcin de votantes que prefieren determinado candidato. Cuntas personas debern entrevistar si se desea un margen de error mximo de 3% con un nivel de confianza del 95%? ( Pruebas de hiptesis Conceptos bsicos Prueba de hiptesis: procedimiento para probar una aseveracin acerca de una propiedad de una poblacin Hiptesis: una aseveracin o afirmacin acerca de una propiedad de una poblacin Mtodos para evaluar hiptesis o Mtodo tradicional o Mtodo del p-valor ) ( ) ( )( )

Valor p: es la probabilidad de obtener un valor del estadstico de prueba al menos tan extremo como el obtenido, si la hiptesis nula es cierta. o Intervalo de confianza Prueba de dos colas: la regin crtica se encuentra en las dos regiones extremas bajo la curva Prueba de cola derecha: La regin crtica se encuentra en el extremo derecho Prueba de cola izquierda: La regin crtica se encuentra en el extremo izquierdo Pasos para una prueba de hiptesis Seleccionar un nivel de significancia o Nivel de significancia: es la probabilidad de rechazar una hiptesis nula cuando esta es cierta (Error Tipo I) Plantear hiptesis nula y alternativa o Hiptesis nula: es la afirmacin de que el valor de un parmetro de la poblacin es igual a un valor aseverado. o Hiptesis alternativa: es la afirmacin de que el parmetro tiene un valor que difiere de la hiptesis nula Calcular el estadstico de prueba o Estadstico de prueba: es un valor que se utiliza para tomar la decisin sobre la hiptesis nula. Establecer regla de decisin

o Valor crtico: cualquier valor que separa la regin crtica de los valores que no conducen al rechazo de la hiptesis nula o Regin crtica (o regin de rechazo): es el conjunto de todos los valores del estadstico que pueden provocar que rechacemos la hiptesis nula. Prueba de hiptesis para , con conocida Requisitos: que la variable original tenga una distribucin normal o la muestra sea grande Prueba de hiptesis para , conocida (bilateral): Estadstico de prueba es Valor crtico es La regla de decisin: Si |z| >

se rechaza la hiptesis nula

Ejemplo
En una encuesta a 183 hogares se encontr que el gasto promedio en comidas fuera del hogar fue de $1450. Con un nivel de significancia del 5% pruebe la afirmacin de que el gasto promedio en comidas fuera de casa es de $1500. Asuma una desviacin estndar poblacional de $2,900. Datos: Estadstico de prueba es Valor crtico es

La regla de decisin: Si |z| > Puesto que

se rechaza la hiptesis nula.

|-.2332|<1.959, no se rechaza la hiptesis nula. Conclusin: no se

rechaza la afirmacin de que el gasto promedio en comidas fuera de casa es de $1500.


Prueba de hiptesis para , conocida (unilateral: cola izquierda) Estadstico de prueba es Valor crtico es La regla de decisin: Si z<

se rechaza la hiptesis nula

Ejemplo:
El gerente de una empresa afirma que el tiempo promedio de traslado de sus empleados es menor a 25 minutos. En una muestra de 16 empleados se encontr que el tiempo promedio fue de 22 minutos. Asumiendo una desviacin estndar poblacional de 5 minutos, evale la afirmacin del gerente con un nivel de significancia del 1%. Prueba de hiptesis para , conocida (unilateral: cola derecha) Estadstico de prueba es Valor crtico es La regla de decisin: Si z>

se rechaza la hiptesis nula

Ejemplo:
Un fabricante de automviles afirma que cierto modelo rinde ms de 15 kilmetros por litro de gasolina. En una muestra de 45 observaciones se encontr una media de 16.2 kilmetros por litro. Asuma que la desviacin estndar para el rendimiento de este modelo es de 2.3 kilmetros por litro. Con un nivel de significancia del 10% pruebe la afirmacin del fabricante Nota: Si es desconocida, pero la muestra es grande se utiliza como una aproximacin el valor de s en lugar de

Ejemplo
El gerente de una aerolnea afirma que el tiempo que tarda un pasajero en recoger su equipaje es menor a 20 minutos. En una muestra aleatoria de 115 pasajeros se encontr que el tiempo promedio fue de 17 minutos con una desviacin estndar de 5 minutos. Con un 1% de significancia existe evidencia estadstica que apoye la afirmacin del gerente? Prueba de hiptesis para , con desconocida Requisitos: la poblacin siga una distribucin normal Prueba bilateral (de dos colas): Estadstico de prueba es Valor crtico Regla de decisin: si t < Prueba de cola izquierda

t>

se rechaza

Estadstico de prueba es Valor crtico Regla de decisin si t < Prueba de cola derecha Estadstico de prueba es Valor crtico Regla de decisin si t >

se rechaza

se rechaza

Ejemplo:
La secretara de turismo en un municipio afirma que la cantidad promedio de dinero gastado por cada turista es mayor a $3000. En una encuesta a 25 turistas elegidos al azar se encontr que gastaron en promedio $3120 con una desviacin estndar de $654 pesos. Existe evidencia suficiente para apoyar la afirmacin de la secretara de turismo? Utilice una significancia del 5%.

Ejercicio
Se desea probar contra la ; una muestra de tamao 10 dio una media de 103 y una desviacin estndar de 12. Por lo tanto, con un nivel de significancia del 5% cul sera la conclusin? Prueba de hiptesis para la proporcin Requisitos: que la muestra sea grande. Prueba bilateral:

Estadstico de prueba es Valor crtico es La regla de decisin: Si |z| > Prueba de cola izquierda Estadstico de prueba es Valor crtico es La regla de decisin: Si z< Prueba de cola derecha Estadstico de prueba es Valor crtico es La regla de decisin: Si z>


( )

se rechaza la hiptesis nula


( )

se rechaza la hiptesis nula


( )

se rechaza la hiptesis nula

Ejemplo
En una muestra de 300 estudiantes de posgrado en el rea de negocios, se encontr que 150 son mujeres. Con un nivel de significancia de 5% pruebe la afirmacin de que la proporcin de mujeres es del 42% Estadstico de prueba

( )( )

)(

=2.807

Regla de decisin: Si |z|>

se rechaza

, puesto que

|2.807|>1.959 entonces se rechaza la hiptesis nula. Se rechaza la afirmacin de que la proporcin de mujeres es igual al 42%

Ejercicio
En una empresa se rechazar un lote de productos si ms del 5% resultan defectuosos. En una muestra de 400 unidades se encontr que 24 estaban defectuosas. Considerando un nivel de significancia del 1% se deber rechazar ese lote de productos? Estadstico de prueba: Valor crtico: =

( )( )

)(

=.9176

2.326 se rechaza Ho. Puesto que .9176 es

Regla de decisin: Si z >

menor que 2.326 no se rechaza H0. No existe evidencia estadstica suficiente para rechazar el lote de productos.

MEDIDAS DE ASOCIACIN: COVARIANZA: El parmetro que describe la intensidad de la relacin lineal entre dos variables. La covarianza puede tomar valores positivos, negativos o cero. Entre ms se aleje del cero, mayor evidencia hay de que existe una relacin lineal entre las variables; mientras que, entre ms cercano este a cero, mayor ser la evidencia de que no existe una relacin lineal entre las variables. COVARIANZA MUESTRAL: Dado una muestra de n pares de observaciones para las variables X y Y, la covarianza muestral se calcula como: (
)(

COEFICIENTE DE CORRELACIN (MUESTRAL): Es la estandarizacin de la covarianza. El coeficiente de correlacin est dado por:

El coeficiente de correlacin puede tomar valores desde -1 hasta 1. Donde -1 indica que existe una relacin perfecta inversa, mientras que un coeficiente igual a 1 indica que existe una relacin perfecta directa. NOTA: El coeficiente de correlacin no identifica relaciones no lineales. Existe una alternativa no paramtrica conocido como coeficiente de correlacin de Spearman. ANLISIS DE REGRESIN Es el estudio de la relacin de dependencia entre una variable (que llamaremos dependiente) y una o ms variables (que llamaremos

independientes), con el propsito de estimar o pronosticar el valor promedio de la primera en funcin de valores conocidos o fijos de las ltimas. NOMENCLATURA: Variable dependiente. Variable de respuesta. Variable regresada. Variable endgena. NOTA: Para propsitos de x). En el anlisis de regresin se asume que existe una relacin causal entre x y y, a diferencia del anlisis de correlacin donde solamente se asume que existe una asociacin (en correlacin no aplica casualidad). En el Anlisis de regresin lineal, esta relacin se puede expresar como: Variable independiente. Variable de control. Variable regresora. Variable exgena.

del curso utilizaremos los trminos de variable

dependiente (estar en el eje de y) y variable independiente (estar en el eje

(Si es una regresin lineal simple)


Y cuando es una regresin lineal mltiple como:

REGRESIN LINEAL SIMPLE: Es cuando solamente se tienen dos variables, una dependiente y una variable independiente. La funcin de regresin: Es conocida como funcin de regresin poblacin y su estimacin muestral es:

Dnde: = Es el valor esperado de Y dado los valores de X. = Es la estimacin del intercepto. = Es la estimacin del coeficiente (pendiente) de X. Como interpretacin podemos decir que es el valor esperado (promedio) de Y cuando X es igual a 0, mientras que es el cambio promedio en Y por unidad de cambio en X. El clculo de los estimadores se realiza mediante la minimizacin de los errores al cuadrado, tcnica que es conocida como mnimos cuadrados ordinarios.

Ejemplo: Con los datos del ENIGH 2006 para Veracruz estime el siguiente
modelo: CONSUMO= ( )

Interprete los coeficientes estimados. RESPUESTA: DATOS: Ingreso: Ingreso total por hogar de acuerdo al ENIGH 2006 (datos trimestrales). Consumo: Gasto total por hogar de acuerdo al ENIGH 2006 (datos trimestrales). El modelo estimado es: Gasto (estimado)=1579.07+0.916(INGRESO) Es decir, el gasto promedio estimado cuando el ingreso es cero es de 1579.07 y por cada peso adicional de ingreso, se gasta 0.916.

MEDIDAS DE BONDAD DE AJUSTE . Coeficiente de determinacin: El coeficiente de determinacin se calcula como la proporcin de la variacin de la variable dependiente que es explicada por el modelo. Esto es:

Donde SSR es la variacin explicada por el modelo y SST es la variacin total de la variable dependiente. El coeficiente de determinacin puede tomar valores de 0 a 1. Entre ms se acerque a 1 mayor es la variacin explicada por el modelo (es mejor). Entre ms variables independientes se agreguen al modelo, el valor tiende a aumentar; por esa razn cuando se comparan modelos con diferente cantidad de variables independientes se debe utilizar como referencia (R cuadrada ajustada). El valor de R cuadrada ajustada penaliza agregar variables que no aportan al modelo, de forma tal que incluso puede tomar valores negativos.

Ejemplo:
Con los datos del ejemplo anterior, indique e interprete el valor de la R cuadrada.

Respuesta: El valor de R cuadrada es de 0.8439, esto es el 84.39% de la


variacin del gasto es explicado por el ingreso.

Descomposicin de la variacin total. La variacin total de Y se puede descomponer en la variacin atribuible al modelo y la variacin atribuible al error. Esto es: SST=SSR+SSE Donde: SST=( SSR= ( ) ) ( ( ) ) ) ( )

SSE=(

Los valores de SSR, SSE y SST se pueden ubicar en la tabla de anlisis de varianza en la salida de Excel (Eviews, SPSS). EVALUACIN DE LA SIGNIFICANCIA DEL MODELO Dado un nivel de significancia (generalmente 0.05), si el p-valor asociado al estadstico F (En la tabla ANOVA) es menor, entonces el modelo es significativo. (lo deseable es que el p-valor sea menor a 0.05) EVALUACIN DE LOS COEFICIENTES DEL MODELO En la tabla donde se muestran los valores de los coeficientes se debe revisar el p-valor asociado a cada coeficiente. Si el p-valor es menor al nivel de significancia (generalmente 0.05) entonces el coeficiente es significativo(es diferente a cero). (lo deseable es que el p-valor de la variable sea menor a 0.05).

SUPUESTOS BSICOS DEL MODELO DE REGRESIN Las estimaciones de los coeficientes de regresin sern ptimas, de acuerdo al teorema de Gauss-Markov, si cumplen los siguientes supuestos con respecto al trmino de error. El error sigue una distribucin normal. El error tenga media igual a cero. Los errores son independientes (no estn relacionados entre s). La varianza del error es constante. ( ). Si se cumplen estos supuestos, los

Esto se resume como que

estimadores sern los mejores estimadores insesgados de mnima varianza (MELI, por las siglas en espaol; BLUE, por las siglas en ingls). iid (independiente ndicamente distribuido). Si los supuestos no se cumplen, los resultados debern tomarse con las reservas del caso. Una evaluacin inicial de los supuestos se puede realizar de manera grfica. La normalidad en la distribucin de los errores y su media se puede verificar en el histograma de los residuales. La varianza constante (homoscedasticidad) y la independencia de los errores se puede explotar en la grfica del residual versus . Ejemplo: Con los resultados del modelo gasto-ingreso, explore el

cumplimiento de los supuestos de manera grfica.

Histograma
140 120 100 80 60 40 20 0 Frecuencia

Clase

residual
80000.00 60000.00 40000.00 20000.00 0.00 -20000.00 -40000.00 -60000.00 -80000.00 0 50000 100000 150000 200000 250000 residual

Con forme a la revisin de los datos se observa que el error parece no seguir una distribucin normal y tampoco una varianza constante. Esto es evidencia del no cumplimiento de los supuestos de regresin con respecto al error. EJERCICIO: Las autopistas en el estado de Texas se construyen a partir de la licitacin de la obra, la licitacin la gana la oferta ms baja sin embargo, el costo final puede ser ms bajo que el ofertado. El archivo datos autopista contiene informacin al respecto de varias licitaciones. Construya un modelo que pronostique el costo final de la construccin de una autopista con base en la oferta ganadora. a) Calcule los estimadores de intercepto y la pendiente. = -116584.865 = 1.0624 b) Exprese el modelo fina (y estimada). Costo final estimado= -116584.865+1.0624 (costo mnimo) c) Determine el valor de la R cuadrada. d) Evalu con un nivel de significancia del 5% si el modelo y los coeficientes son significativos.

El modelo es significativo (p-valor <0.05) y la variable oferta mnima es significativa (p-valor<0.05). e) Evalu grficamente los supuestos del modelo de regresin. El histograma de los residuales no muestra una distribucin normal lo cual es evidencia del incumplimiento del supuesto de normalidad en los errores. El grafico de los errores vs. no ofrece evidencia a favor de la homoscedasticidad (muestra heteroscedasticidad). f) Si los datos estn en miles de dlares cul sera el costo estimado de una autopista si la oferta ganadora fue de USD $9,000,000? (es decir 9,000 miles de dlares)

REGRESIN LINEAL SIMPLE Resumen: FUNCIN DE REGRESIN POBLACIONAL

FUNCIN DE REGRESIN MUESTRAL

Es decir:

Donde:
Y= Dato observable (real). = Dato estimado

X= Dato fijo o conocido de la variable independiente. e= Error (componente aleatoria o de variables no incluidas).

: Intercepto
Representa la interseccin de la lnea de regresin con el eje y. Es el valor promedio de y cuando x es igual a cero.

: Coeficiente de regresin

Pendiente: representa la pendiente de la lnea de regresin. Cambio esperado en y por unidad de cambio en x. . .

: Estimado de : Estimado de
Residual.

: Estimado de e ( )

MEDIDAS DE BONDAD DE AJUSTE. = Coeficiente de determinacin Mide que proporcin de la variable de y es explicado por el modelo.

= Coeficiente de determinacin ajustada. Sirve para comparar modelos con diferente nmero de variables independientes. SIGNIFICANCIA DEL MODELO En la tabla ANOVA si p-valor es menor que (generalmente 0.05) significa que el modelo es significativo. SIGNIFICANCIA DE LOS COEFICIENTES Si p-valor asociado a ese coeficiente es menor que alfa, ese coeficiente es significativo a ese nivel de significancia. PREGUNTAS

QUE ES COEFICIENTE DE DETERMINACION R AJUSTADA PUEDE TENER VALORES NEGATIVOS R CUADRADA PUEDE ES IGUAL A 1 X EXPLICA EL COMPORTAMIENTO DE Y. QUE SIGNIFICA B0: POR EJEMPLO 1,500 (VALOR ESPERADO DE Y CUANDO X ES IGUAL A 0). EJERCICIOS: Distribucin de probabilidad Intervalos de confianza Pruebas de hiptesis Regresin Tamao muestral

INTERPRETACION DE LOS COEFICIENTES

TRABAJO FINAL OPCIN 1: GASTO EN UN PRODUCTO MODELARAN EL GASTO EN UN PRODUCTO INCLUIDO EN LA ENIGH 2006 CON BASE EN VARIABLES EXPLICATORIAS COMO INGRESO Y PRODUCTOS COMPETIDORES). OPCIN 2: RENDIMIENTO DE ACCIONES APLICAR MODELOS DE FACTORES PARA EXPLICAR EL RENDIMIENTO DE LAS ACCIONES CON BASE EN EL RENDIMIENTO DEL MERCADO Y EL RENDIMIENTO DE UN INSTRUMENTO LIBRE DE RIESGO (CETES). OPCIN 3: TIPO DE CAMBIO RELACIONADOS (COMPLEMENTARIOS O

ELABORA UN MODELO QUE EXPLIQUE EL COMPORTAMIENTO DEL TIPO DE CAMBIO, CON BASE EN TASAS DE INTERESES, TASA DE INFLACIN Y OFERTA MONETARIA.

OPCIN 4 (PROPUESTA). PRONOSTICO DE VENTAS. EVALUACIN DE DESEMPEO LABORAL. OTROS TEMAS ECONOMICOS. 1. CRECIMIENTO DEL PIB. 2. ACTIVIDAD INDUSTRIAL. REQUISITOS: 100 DATOS

CRITERIOS DE EVALUACIN TRABAJO FINAL Resumen (5 pts.): Prrafo que describe la investigacin. Se establece o mencionan los objetivos, la metodologa y los resultados (mximo 10 reglones, minino 5 reglones). Introduccin (15 pts.): (1 cuartilla) Planteamiento del problema, la justificacin de la investigacin, objetivos generales y particulares, descripcin de la estructura del trabajo. Antecedentes o marco conceptual (10 pts.): (2 cuartillas) Se realice una revisin de literatura alrededor del tema. Metodologa (5 pts.) :(1 cuartilla) Describir el instrumento, la recopilacin de los datos, la muestra y la variable. Anlisis de datos (50 pts.): Estadstica descriptiva, intervalo de confianza y una prueba de hiptesis, regresin lineal mltiple.

Discusin de resultados y conclusin (10 pts.): Con base en el anlisis de datos, discutir los resultados con base en la revisin de literatura y realizar conclusiones.

Referencias (5 pts.): Referencias bibliogrficas (en formato APA) Tablas grandes en anexos

Potrebbero piacerti anche