Trabajo de Estadistica NATALIA

TIPOS DE MUESTREO.
Los autores proponen diferentes criterios de clasificacin de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: mtodos de muestreo probabilsticos y mtodos de muestreo no probabilsticos. Mtodos de muestreo probabilsticos: Los mtodos de muestreo probabilsticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamao n tienen la misma probabilidad de ser elegidas.
Tambin se puede decir que los muestreos probabilsticos son aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra. Propiedades del muestreo probabilstico:
a) Existe la posibilidad de definir inequvocamente un conjunto de muestras M1, M2,, Mt mediante la aplicacin del procedimiento a una poblacin. Esto significa que podemos indicar cuales unidades de muestreo pertenecen a M1, M2 y as sucesivamente. b) A cada posible muestra Mi se le asigna una probabilidad conocida de seleccin Pi. c) Seleccionamos una de las Mi por un proceso mediante el cual, cada Mi tiene una probabilidad Pi de ser seleccionada. d) El mtodo de estimacin se realiza en base a la muestra, siendo nico para cualquiera de las posibles muestras Mi.
Slo
estos
mtodos
de
muestreo
probabilsticos
nos
aseguran
la
representatividad de la muestra extrada y son, por tanto, los ms recomendables. Dentro de los mtodos de muestreo probabilsticos encontramos los siguientes tipos:
Tipos de muestreo probabilstico:
1. Muestreo simple aleatorio (m.s.a.). 2. Muestreo Estratificado. 3. Muestreo Sistemtico. 4. Muestreo por conglomerados. 5. Muestreo por reas. 6. Muestreo Polietpico.
1.- Muestreo aleatorio simple: El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada individuo de la poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa, tablas de nmeros aleatorios, nmeros aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamao de muestra requerido. La ventaja de este mtodo es que es sencillo y de fcil comprensin. Sus desventajas es que requiere que se posea de antemano un listado completo de toda la poblacin y que cuando se trabaja con muestras pequeas es posible que no represente a la poblacin adecuadamente. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que estamos manejando es muy grande. Ejemplo N1: En una compaa con 150 trabajadores se quiere obtener una muestra aleatoria de 15 elementos para un chequeo mdico. Se sigue el siguiente procedimiento: 1. Los trabajadores fueron numerados del 1 al 150. 2. Mediante una tabla de nmeros aleatorios se procede a seleccionarlos. 3. El punto de arranque en la tabla se fija mediante la hora en ese momento, 4:03, por lo tanto se inicia en la fila 4, columna 3. 4. Como los nmeros de los trabajadores van desde 1 hasta 150 solo se toman en cuenta las primeras 3 cifras de cada nmero y se registran los nmeros que se vayan encontrando en ese rango. El primer nmero encontrado fue el 054 en la fila 4 columna 5, se siguen revisando los nmeros horizontalmente, el siguiente seleccionado fue el 095 y as sucesivamente. La muestra de 15 nmeros fue la siguiente: 054 005 041 095 050 021 080 024 105 004 046 009 147 018 146
Ejemplo N2: Supongamos que tengamos una poblacin de 50.000 individuos, y que tenemos un listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es que el ordenador elija al azar a 100 individuos de esos 50.000. 2.- Muestreo aleatorio sistemtico: Este procedimiento exige, como el anterior, numerar todos los elementos de la poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se parte de ese nmero aleatorio i, que es un nmero elegido al azar, y los elementos que integran la muestra son los que ocupan los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k=N/n. El nmero i que empleamos como punto de partida ser un nmero al azar entre 1 y k. El riesgo de este tipo de muestreo est en los casos en que se dan periodicidades en la poblacin ya que al elegir a los miembros de la muestra con una periodicidad constante (k) podemos introducir una homogeneidad que no se da en la poblacin. Imaginemos que estamos seleccionando una muestra sobre listas de 10 individuos en los que los 5 primeros son varones y los 5 ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10 siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una representacin de los dos sexos. Tambin podemos entenderlo de esta manera: Si se elige un individuo al azar y a partir de l, a intervalos constantes, se eligen los dems hasta completar la muestra. Este mtodo tiene las ventajas de ser fcil de aplicar, no es necesario tener un listado de toda la poblacin y asegura una cobertura de unidades de todos los tipos. Su desventaja es que si la constante de muestreo est asociada con el fenmeno de inters, las estimaciones obtenidas a partir de la muestra pueden contener un sesgo. Ejemplo N1: Suponga que la poblacin de inters consiste de 2000 expedientes en un archivo.
Para seleccionar una muestra de 100 con el mtodo aleatorio simple primero se tendra que numerar todos los expedientes. En este mtodo se selecciona el primer expediente de acuerdo al mtodo aleatorio simple, luego como se quiere una muestra de 100, se divide 2000 / 100 = 20, y se selecciona un expediente cada 20. Ejemplo N2: N = 5.000 n = 100 Coeficiente de elevacin=5.000/100=50 El peligro de esta eleccin es que si en el listado hay algn tipo de ordenacin, se corre el riesgo que la eleccin no sea tan neutra. Ejemplo N3: Si tenemos una poblacin formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de seleccin que ser igual a 100/25=4. A continuacin elegimos el elemento de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de l obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98 3.- Muestreo aleatorio estratificado: Trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamao dado de la muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos) que poseen gran homogeneidad respecto a alguna caracterstica (se puede estratificar, por ejemplo, segn la profesin, el municipio de residencia, el sexo, el estado civil, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de inters estarn representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarn parte de la muestra.
En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la poblacin. (Tamao geogrfico, sexos, edades). En ciertas ocasiones resultar conveniente estratificar la muestra segn ciertas variables de inters. Para ello debemos conocer la composicin estratificada de la poblacin objetivo a muestrear. Una vez calculado el tamao muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la poblacin usando una simple regla de tres. Entre sus ventajas, este mtodo asegura que la muestra represente adecuadamente a la poblacin en funcin de ciertas variables seleccionadas, adems de obtener estimaciones ms precisas La desventaja es que se ha de conocer como se distribuye la poblacin de acuerdo a las variables utilizadas para la estratificacin. La distribucin de la muestra en funcin de los diferentes estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin Simple: A cada estrato le corresponde igual nmero de elementos mustrales. Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao) de la poblacin en cada estrato. Afijacin ptima: Se tiene en cuenta la previsible dispersin de los resultados, de modo que se considera la proporcin y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la desviacin. Ejemplo N1: Supongamos que estamos interesados en estudiar el grado de aceptacin que la implantacin de la reforma educativa ha tenido entre los padres de una determinada provincia. A tal efecto seleccionamos una muestra de 600 sujetos.
Conocemos por los datos del ministerio que de los 10000 nios escolarizados en las edades que nos interesan, 6000 acuden a colegios pblicos, 3000 a colegios privados concertados y 1000 a colegios privados no concertados. Como estamos interesados en que en nuestra muestra estn representados todos los tipos de colegio, realizamos un muestreo estratificado empleando como variable de estratificacin el tipo de centro. Si empleamos una afijacin simple elegiramos 200 nios de cada tipo de centro, pero en este caso parece ms razonable utilizar una afijacin proporcional pues hay bastante diferencia en el tamao de los estratos. Por consiguiente, calculamos que proporcin supone cada uno de los estratos respecto de la poblacin para poder reflejarlo en la muestra. Colegios pblicos: 6000/10000=0.60 Colegios privados concertados: 3000/10000=0.30 Colegios privados no concertados: 1000/10000=0.10 Para conocer el tamao de cada estrato en la muestra no tenemos ms que multiplicar esa proporcin por el tamao muestral. Colegios pblicos: 0.60x600=360 sujetos Colegios privados concertados: 0.30x600=180 sujetos Colegios privados no concertados: 0.10x600= 60 sujetos Ejemplo N2: Se quiere obtener una muestra de 50 estudiantes de la universidad. Se pretende que la muestra sea representativa en relacin al lugar de origen de los estudiantes (si son de la localidad o son forneos). Se sabe que en esta universidad el 30% de los estudiantes son forneos. Primero debemos identificar los estratos de la poblacin y sus respectivas proporciones: Estudiantes locales Estudiantes forneos 0.70 0.30
La muestra deber mantener esas mismas proporciones, para lo cual es preciso multiplicar el tamao de la muestra (n) por las proporciones de los estratos y obtenemos el nmero de elementos que sern seleccionados de cada estrato: Estudiantes locales Estudiantes forneos (0.70)(50) = 35 (0.30)(50) = 15
Ahora se procede a seleccionarlos por medio de alguno de los mtodos anteriores. Ejemplo N3: En una fbrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la seccin A, 150 en la B, 150 en la C y 100 en la D.
4.- Muestreo aleatorio por conglomerados: Los mtodos presentados hasta ahora estn pensados para seleccionar directamente los elementos de la poblacin, es decir, que las unidades mustrales son los elementos de la poblacin. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la poblacin que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, una caja de determinado producto, etc., son conglomerados naturales.
En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son reas geogrficas suele hablarse de "muestreo por reas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto nmero de conglomerados (el necesario para alcanzar el tamao muestral establecido) y en investigar despus todos los elementos pertenecientes a los conglomerados elegidos. Tambin se puede decir que el muestreo por conglomerados consiste en dividir la poblacin en sectores o conglomerados, seleccionar una muestra aleatoria de esos sectores, y finalmente obtener una muestra aleatoria de cada uno de los sectores seleccionados. Entre sus ventajas se encuentra que es muy eficiente cuando la poblacin es muy grande y dispersa, adems de que no es preciso tener un listado de toda la poblacin, slo de las unidades primarias de muestreo. Su desventaja radica en que una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da menor precisin de las estimaciones acerca de la poblacin) que una muestra aleatoria simple del mismo tamao. Ejemplo N1: En una investigacin en la que se trata de conocer el grado de satisfaccin laboral los profesores de instituto necesitamos una muestra de 700 sujetos. Ante la dificultad de acceder individualmente a estos sujetos se decide hacer una muestra por conglomerados. Sabiendo que el nmero de profesores por instituto es aproximadamente de 35, los pasos a seguir seran los siguientes: 1. Recoger un listado de todos los institutos. 2. Asignar un nmero a cada uno de ellos. 3. Elegir por muestreo aleatorio simple o sistemtico los 20 institutos (700/35=20) que nos proporcionarn los 700 profesores que necesitamos.
Ejemplo N2: Se quiere conocer la opinin de los padres de familia sobre los temas de educacin sexual tratados en los libros de texto de primaria en la Repblica Mexicana. Como la poblacin est muy dispersa y es muy grande, es necesario hacer un muestreo por conglomerados en varias etapas. Primero dividimos la Repblica en sectores geogrficos, que podran ser los estados, y seleccionamos una muestra aleatoria de ellos. Luego en cada uno de ellos hacemos una seleccin aleatoria de escuelas primarias. Y por ltimo en las escuelas seleccionadas obtenemos una muestra aleatoria de padres de familia. Error de Muestreo: Al seleccionar una muestra aleatoria, sin importar por cul de los cuatro mtodos, es poco probable que la media de la muestra sea idntica a la media de la poblacin de donde fue obtenida. De la misma forma, es probable que la desviacin estndar de la muestra no sea exactamente igual al valor correspondiente de la poblacin. Por lo tanto podemos esperar alguna diferencia entre un estadstico muestral y el correspondiente parmetro poblacional. Esta diferencia es llamada error de muestreo. Para finalizar con esta exposicin de los mtodos de muestreo probabilsticos es necesario comentar que ante lo compleja que puede llegar a ser la situacin real de muestreo con la que nos enfrentemos es muy comn emplear lo que se denomina muestreo polietpico. Este tipo de muestreo se caracteriza por operar en sucesivas etapas, empleando en cada una de ellas el mtodo de muestreo probabilstico ms adecuado. Resumen de las Ventajas e inconvenientes de los distintos tipos de muestreo probabilstico: 1.- Aleatorio simple: CARACTERISTICAS: Se selecciona una muestra de tamao n de una poblacin de N unidades, cada elemento tiene una probabilidad de inclusin igual y conocida de n/N.
VENTAJAS: Sencillo y de fcil comprensin. Clculo rpido de medias y varianzas. Se basa en la teora estadstica, y por tanto existen paquetes informticos para analizar los datos INCONVENIENTES: Requiere que se posea de antemano un listado completo de toda la poblacin. Cuando se trabaja con muestras pequeas es posible que no represente a la poblacin adecuadamente. 2.- Sistemtico: CARACTERISTICAS: Conseguir un listado de los N elementos de la poblacin Determinar tamao muestral n. Definir un intervalo k=N/n. Elegir un nmero aleatorio, r, entre 1 y k (r=arranque aleatorio). Seleccionar los elementos de la lista.
VENTAJAS: Fcil de aplicar. No siempre es necesario tener un listado de toda la poblacin. Cuando la poblacin est ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos. INCONVENIENTES: Si la constante de muestreo est asociada con el fenmeno de inters, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de seleccin 3.- Estratificado:
CARACTERISTICAS: En ciertas ocasiones resultar conveniente estratificar la muestra segn ciertas variables de inters. Para ello debemos conocer la composicin estratificada de la poblacin objetivo a muestrear. Una vez calculado el tamao muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la poblacin usando una simple regla de tres. VENTAJAS: Tiende a asegurar que la muestra represente adecuadamente a la poblacin en funcin de unas variables seleccionadas. Se obtienen estimaciones ms precisa Su objetivo es conseguir una muestra lo mas semejante posible a la poblacin en lo que a la o las variables estratificadoras se refiere. INCONVENIENTES: Se ha de conocer la distribucin en la poblacin de las variables utilizadas para la estratificacin. 4.- Conglomerados: CARACTERISTICAS: Se realizan varias fases de muestreo sucesivas (polietpico) La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior. VENTAJAS: Es muy eficiente cuando la poblacin es muy grande y dispersa. No es preciso tener un listado de toda la poblacin, slo de las unidades primarias de muestreo. INCONVENIENTES: El error estndar es mayor que en el muestreo aleatorio simple o estratificado. El clculo del error estndar es complejo.
Mtodos de Muestreo no Probabilsticos: A veces, para estudios exploratorios, el muestreo probabilstico resulta excesivamente costoso y se acude a mtodos no probabilsticos, aun siendo conscientes de que no sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa.
No sirven para realizar generalizaciones, pues no se tiene certeza de que la muestra extrada sea representativa, ya que no todos los sujetos de la poblacin tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando que la muestra sea representativa. 1.- Muestreo por cuotas: Tambin denominado en ocasiones "accidental". Se asienta generalmente sobre la base de un buen conocimiento de los estratos de la poblacin y/o de los individuos ms "representativos" o "adecuados" para los fines de la investigacin. Mantiene, por tanto, semejanzas con el muestreo aleatorio estratificado, pero no tiene el carcter de aleatoriedad de aqul. En este tipo de muestreo se fijan unas "cuotas" que consisten en un nmero de individuos que renen unas determinadas condiciones, por ejemplo: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en Gijn. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin. Ejemplo N1: La Consejera de Sanidad desea estudiar la incidencia de las drogas en la adolescencia. Lo que deberamos hacer sera: conocer por los informes de la Consejera de Educacin cuales son los centros ms afectados por el problema, fijar un nmero de sujetos a entrevistar proporcional a cada uno de los estratos (cuotas) y finalmente dejar en manos de los responsables del trabajo de campo a que sujetos concretos se deber entrevistar.
Ejemplo N2: 20 individuos de 25 a 40 aos, de sexo femenino y residentes en una determinada regin. Una vez determinada la cuota se eligen los primeros que se encuentren que cumplan esas caractersticas. Este mtodo se utiliza mucho en las encuestas de opinin. 2.- Muestreo opintico o intencional: Este tipo de muestreo se caracteriza por un esfuerzo deliberado de obtener muestras "representativas" mediante la inclusin en la muestra de grupos supuestamente tpicos. Es muy frecuente su utilizacin en sondeos preelectorales de zonas que en anteriores votaciones han marcado tendencias de voto. Consiste en el que la persona que selecciona la muestra es quien procura que sea representativa, dependiendo de su intencin u opinin, siendo por tanto la representatividad subjetiva. Ejemplo N1: Se desea determinar cules son, a criterio de los profesores de una escuela, las cualidades que debe reunir un buen alumno. Para ello se decide entrevistar a aquellos profesores que, segn la opinin del investigador, tienen el ms alto nivel pedaggico dentro del claustro. 3.- Muestreo casual o incidental: Se trata de un proceso en el que el investigador selecciona directa e intencionadamente los individuos de la poblacin. El caso ms frecuente de este procedimiento el utilizar como muestra los individuos a los que se tiene fcil acceso (los profesores de universidad emplean con mucha frecuencia a sus propios alumnos). Un caso particular es el de los voluntarios. 4.- Bola de nieve: Se localiza a algunos individuos, los cuales conducen a otros, y estos a otros, y as hasta conseguir una muestra suficiente. Este tipo se emplea muy frecuentemente cuando se hacen estudios con poblaciones "marginales", delincuentes, sectas, determinados tipos de enfermos, etc.
5.- Muestreo sin norma (o de conveniencia): Se elige a una muestra por ser conveniente, fcil, econmica. Pero no se hace en base a un criterio de aleatoriedad. Ejemplo N1: Las encuestas en los peridicos electrnicos; el muestreo habitual en los trabajos en psicologa. Ejemplo N2: Se pretende conocer el estado de opinin de la comunidad con respecto a la calidad de la atencin que le brinda un centro hospitalario. Para ello se decide encuestar a todas las personas de dicha poblacin que acudan al mismo en el horario de visita un da determinado. 6.- Muestreo Discrecional: A criterio del investigador los elementos son elegidos sobre lo que l cree que pueden aportar al estudio. Ejemplo: Muestreo por juicios; cajeros de un banco o un supermercado, etc. CORRELACIN.La correlacin trata de establecer la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas. El objetivo de un estudio de correlacin es determinar la consistencia de una relacin entre observaciones por partes. El trmino correlacin significa relacin mutua, ya que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres tcnicas de correlacin uno para datos de medicin, otro para datos jerarquizados y el ltimo para clasificaciones nominales.
Tipos de correlacin: Correlacin directa;
La correlacin directa se da cuando al aumentar una de las variables la otra aumenta. La recta correspondiente a la nube de puntos de la distribucin es una recta creciente.
Fig. 1.1. Correlacin directa Correlacin inversa;
La correlacin inversa se da cuando al aumentar una de las variables la otra disminuye. La recta correspondiente a la nube de puntos de la distribucin es una recta decreciente.
Fig. 1.2. Correlacin inversa. Correlacin nula;
La correlacin nula se da cuando no hay dependencia de ningn tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Fig. 1.3. Correlacin nula. Grado de correlacin: El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos: a) Correlacin fuerte; La correlacin ser fuerte cuanto ms cerca estn los puntos de la recta.
Fig. 1.4. Correlacin fuerte. b) Correlacin dbil; La correlacin ser dbil cuanto ms separados estn los puntos de la recta.
Fig. 1.5. Correlacin dbil. c) Correlacin nula; Hay dependencia de ningn tipo entre las variables. REGRESIN LINEAL.La regresin lineal comprende el intento de desarrollar una lnea recta o ecuacin matemtica lineal que describe la reaccin entre dos variables. La regresin puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo. La finalidad de una ecuacin de regresin seria estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuacin de regresin es para explicar los valores de una variable en trmino de otra. Es decir se puede intuir una relacin de causa y efecto entre dos variables. El anlisis de regresin nicamente indica qu relacin matemtica podra haber, de existir una. Ni con regresin ni con la correlacin se pude establecer si una variable tiene causa con ciertos valores de otra variable. El anlisis de regresin se utiliza principalmente con el propsito de hacer predicciones. El anlisis de regresin lineal simple tiene que ver con la bsqueda de la lnea recta que mejor se ajusta a los datos. El mejor ajuste significa que deseamos encontrar la lnea recta para la cual las diferencias entre los valores reales (Yi) y los valores que seran
predichos a partir de la lnea ajustada de regresin (Yi estimada) sean lo ms pequeas posibles. Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple:
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:
Donde; : es el error aleatorio asociado a la medicin del valor Xi. Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:
Derivando respecto a
e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:
La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1. Regresin lineal mltiple:
La regresin lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables se llama Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre s, por lo que es posible que una de las variables pueda relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:
Donde; : es el error aleatorio asociado a la medicin i del valor Xip. La estimacin de los coeficientes de una regresin mltiple es un clculo bastante complicado y laborioso, por lo que se requiere del empleo de programas de computacin especializados. Sin embargo, la interpretacin de los coeficientes es similar al caso de la regresin simple: el coeficiente de cada variable independiente mide el efecto separado que esta variable tiene sobre la variable dependiente. El coeficiente de determinacin, por otro lado, mide el porcentaje de la variacin total en Y que es explicado por la variacin conjunta de las variables independientes. MODELO PROBABILSTICO LINEAL SIMPLE.Con frecuencia nos encontramos en ingeniera con modelos en el que el comportamiento de una variable Y puede ser explicado a travs de una variable X, lo que se representa mediante:
Si consideramos que la relacin f, que liga Y con X, es lineal, entonces (1) se puede escribir as:
Que corresponde a la ecuacin de regresin de poblacin, donde los coeficientes de regresin son parmetros a estimar a partir de los datos mustrales.
La relacin anterior supone una relacin exacta entre las variables. A este modelo se le denomina determinista, en el que siempre se puede determinar a Y con exactitud cuando se conoce valor de X, es decir, no hay margen de error en esa prediccin. Sin embargo, estas leyes son vlidas con exactitud slo bajo condiciones ideales. Rara vez los experimentos reproducen con exactitud esas leyes. Es por lo anterior que, en general, se tendr un error aleatorio introducido por el experimento, lo que har que las leyes solo expresen una aproximacin a la realidad. A este modelo se le denomina probabilista o probabilstico, el cual comprende tanto un componente determinista como un componente de error aleatorio. Un tipo de modelo probabilstico, el modelo de regresin lineal simple, supone que el valor medio de y para un valor dado de x se grfica como una lnea recta y que los puntos se desvan de esta lnea de medias en una cantidad aleatoria (positiva o negativa) igual a , es decir:
y 0 1 x
Donde; = Valor medio de y para una x dada. = Error aleatorio.
0 y 1 son parmetros desconocidos de la porcin determinstica del modelo.
Si suponemos que los puntos se desvan por encima y por debajo de la lneas de medias, siendo algunas desviaciones positivas, otras negativas, y con E() = 0, entonces el valor medio de y es:
x E( ) x E( y) E(0 1x ) 0 1 0 1
Por lo tanto, el valor medio de y para un valor dado de x, representado por el smbolo E(y), se grafica como una lnea recta con ordenada al origen igual a y pendiente igual a
.
Modelo de regresin lineal simple (probabilstico):
y 0 1 x
Donde; y = variable dependiente x = variable independiente
= componente de error aleatorio

( ) recta). punto en que la lnea corta el eje y pendiente de la lnea : es el componente determinstico (la ecuacin de una lnea
Forma General de los modelos Probabilsticos. Donde Y es la variable aleatoria que se tiene que predecir. Siempre se supondr que el valor promedio del error aleatorio es igual a cero. Esto equivale a suponer que el valor promedio de Y, E (Y), es igual al componente determinista del modelo. E (Y) = Componente Determinista
E (Y) =
, donde
es una constante. Sin embargo, esto no significa que Y sea ms o menos un error aleatorio. En y varianza ,
exactamente igual a , sino que ser igual a
especial si se supone que Y se distribuye normalmente con promedio entonces se puede formular el modelo probabilista aleatorio
, en el que el componente .
(epsilon) se distribuye normalmente con promedio 0 y varianza
Fig. xxx. Modelo probabilstico
Funcin de regresin poblacional. (Modelo probabilstico de la recta) Una funcin de regresin poblacional es la unin de los promedios condicionales de la variable dependiente (Y) para los valores fijos de la variable independiente o explicativa (X), as que:
Si
( )
es una funcin lineal de
, se tiene:
Lo cual nos indica que el valor promedio de Y vara con X. Como sabemos coeficientes de regresin, donde pendiente. es la ordenada en el origen de la recta y
, son la
Para un valor dado de X, los valores de Y se concentran alrededor del promedio de Y, lo cual indica que se van a presentar algunas diferencias o desviaciones de un valor
individual de Y alrededor de su valor esperado, por lo tanto teniendo en cuenta la seccin anterior:
Donde
es el componente aleatorio de error. Este
se puede considerar como una
variable sustitutiva de todas las variables omitidas que pueden afectar a Y, pero que por una u otra razn no pudieron incluirse en el modelo de regresin. Reemplazando el
( )
se tiene:
Que es la funcin de regresin poblacional. La expresin anterior refleja una relacin lineal, y en ella slo figura una nica variable explicativa, recibiendo el nombre de relacin lineal simple. En cada caso los smbolos representan parmetros de poblacin que necesitarn estimarse mediante los datos de la muestra. La frase variable independiente se usa en el anlisis de regresin para representar una variable predictora de la respuesta Y. Funcin de regresin muestral: Generalmente es necesario trabajar con informacin muestral y no poblacional, por lo tanto, se plantea una ecuacin que nos permita estimar los valores de , as
que el objetivo es estimar la funcin de regresin poblacional con base en la funcin de regresin muestral:
Donde; Estimador de Estimador de Estimador de
Debido a que los valores observados no forman exactamente una lnea recta, es necesario elegir un mtodo para estimar los coeficientes de regresin que haga
mnima la diferencia entre los valores observados y los estimados o ajustados, este mtodo es el de los mnimos cuadrados (generalmente usado).
Fig. xx. Modelo probabilstico de la lnea recta. ECUACIN DE LA RECTA DE REGRESIN MUESTRAL.En las distribuciones bidimensionales a cada individuo le corresponden los valores de dos variables, las representamos por el par (xi, yi). Si representamos cada par de valores como las coordenadas de un punto, el conjunto de todos ellos se llama nube de puntos o diagrama de dispersin. Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor posible, llamada recta de regresin. La recta de regresin es la que mejor se ajusta a la nube de puntos. La recta de regresin pasa por el punto ( ) llamado centro de gravedad. La recta de regresin sirve para hacer estimaciones, teniendo en cuenta que:
Los valores obtenidos son aproximaciones en trminos de probabilidad: es probable que el valor correspondiente a x0 sea y0.
La fiabilidad es mayor cuanto ms fuerte sea la correlacin. La fiabilidad aumenta al aumentar el nmero de datos. La estimacin es ms fiable para los valores de x prximos a la media.
Recta de regresin de Y sobre X: La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable X.
Recta de regresin de X sobre Y:
La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y. La pendiente de la recta es el cociente entre la covarianza y la varianza de la variable Y.
Si la correlacin es nula, r = 0, las rectas de regresin son perpendiculares entre s, y sus ecuaciones son: Ejemplo; Las notas de 12 alumnos de una clase en Matemtica III y Termodinmica son las siguientes: Matemticas Termodinmica 2 1 3 3 4 2 4 4 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10
Hallar las rectas de regresin y representarlas;
xi 2 3 4 4 5 6 6 7 7 8 10
yi 1 3 2 4 4 4 6 4 6 7 9
xi yi 2 9 8 16 20 24 36 28 42 56 90 100 431
xi2 4 9 16 16 25 36 36 49 49 64 100 100 504
yi2 1 9 4 16 16 16 36 16 36 49 81 100 380
10 10 72 60 Hallamos las medias aritmticas;
Calculamos la covarianza;
Calculamos las varianzas;
Recta de regresin de Y sobre X;
Recta de regresin de X sobre Y;
Fig. 1.6. Diagrama de dispersin MTODO DE MNIMOS CUADRADOS.Es el mtodo ms usado para el ajuste de una recta a una serie de datos. La recta que minimiza la suma de cuadrados de las desviaciones de los valores observados de y con respecto a los valores predichos es la recta del mejor ajuste. Una tcnica matemtica utilizada para determinar los valores de que mejor se
ajusten a los datos observados se conoce como mtodo de mnimos cuadrados. Al utilizar este mtodo surgen dos ecuaciones normales:
Supongamos el siguiente ejemplo: Un ingeniero industrial captura 5 valores de temperatura en la planta de generacin de vapor del laboratorio de energtica (LAEN) de la UNEFM ncleo el Sabino a lo largo de un da, los valores son los siguientes:
Este ingeniero industrial requiere expresar estos datos de una manera ms conveniente y apegada a sus datos reales. Y es aqu donde podemos recurrir a los mnimos cuadrados. Con el mtodo de los mnimos cuadrados se puede calcular en una funcin una serie de datos registrados. Cmo aplicar el mtodo de los mnimos cuadrados: Tomando en cuenta que el mtodo de los mnimos cuadrados consiste en ajustar una recta a valores dispersos, necesitamos entonces conocer las caractersticas de la recta, como son, su pendiente y su ordenada al origen, de la cual necesitamos estimar los valores de a y de b de la siguiente ecuacin:
Por
lo
que,
sabiendo
que
el
mtodo
de
los
mnimos
cuadrados
calcular la recta que pasa por la media de todas las observaciones representadas por (x1, y1), (x2, y2),... (xn, yn), entonces la ecuacin de la recta ser;
En donde: = media de y1, y2,... yn = media de x1, x2, ... xn
Tendremos
as
entonces que
la
ecuacin a
de la
la
recta que
en
su
forma la
pendiente-ordenada condicin:
corresponder
recta
satisface
De que las constantes a y b hacen mnima la suma de los cuadrados de las desviaciones de los valores observados respecto a dicha lnea. ( ) ( )
PREDICCIN DE Y PARA UN VALOR DADO DE X.Este prediccin no es un estimado del promedio, es ms bien un valor particular de Y para un valor particular de X0, y depender del tipo de estimacin requerida para saber cual estimacin considerar, pues si se quiere el promedio de inscripciones en la carrera de ingeniera industrial para una poblacin por ejemplo de 5.000 o bien una estimacin para una tienda en particular en un nivel de 25.000 en la poblacin. Si nuestro inters es pronosticar un valor individual Y0 correspondiente a un valor dado X0, entonces Y0 tiene una distribucin muestral:
Tambin la t es de n-2 grados de libertad. CLCULO DEL COEFICIENTE DE CORRELACIN LINEAL.El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades; 1. El coeficiente de correlacin no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2. El signo del coeficiente de correlacin es el mismo que el de la covarianza. Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin.
3. El coeficiente de correlacin lineal es un nmero real comprendido entre menos 1 y 1. 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7. Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional. Ejemplo N.-1; De acuerdo a los valores registrados del ejemplo de la recta de regresin, se efectuara el clculo del coeficiente de correlacin lineal de la distribucin.
Hallamos las medias aritmticas;
Calculamos las desviaciones tpicas;
Aplicamos la frmula del coeficiente de correlacin lineal.
Al ser el coeficiente de correlacin positivo, la correlacin es directa. Como el coeficiente de correlacin est muy prximo a 1 la correlacin es muy fuerte. Ejemplo N.-2; Los valores de dos variables X e Y se distribuyen segn la tabla siguiente: Y/X 1 2 3 0 2 1 2 2 1 4 5 4 3 2 0
Determinar el coeficiente de correlacin;
Convertimos la tabla de doble entrada en tabla simple. xi yi 0 0 1 2 fi 2 1 xi fi xi2 fi yi fi yi2 fi xi yi fi 0 0 0 0 2 2 2 4 0 0
0 2 2 2 4 4
3 1 2 3 1 2
2 1 4 5 3 2 20
0 2 8 10 12 8 40
0 4 16 20 48 32 120
6 1 8 15 3 4 41
18 1 16 45 3 8 97
0 2 16 30 12 16 76
Hallamos las medias aritmticas;
Calculamos las desviaciones tpicas;
Aplicamos la frmula del coeficiente de correlacin lineal.
Al ser el coeficiente de correlacin negativo, la correlacin es inversa. Como coeficiente de correlacin est muy prximo a 0 la correlacin es muy dbil.
COEFICIENTE DE REGRESIN LINEAL (ECUACIN NORMALIZADA).El coeficiente de determinacin es la principal forma en que podemos medir la extensin, o fuerza de asociacin que existe entre dos variables, X y Y. Puesto que
hemos desarrollado una muestra de puntos para desarrollar las lneas de regresin, nos referimos a esta medida como el coeficiente de determinacin de la muestra. El coeficiente de determinacin de la muestra se desarrolla de la relacin entre dos tipos de variacin: la variacin de los valores Y en conjunto de los datos alrededor de la lnea de regresin ajustada su propia media el termino variacin en estos dos casos se refiere a la suma de un grupo de desviaciones cuadradas. Al usar esta definicin, entonces es razonable expresar la variacin de los valores Y alrededor de la lnea de regresin con esta ecuacin:
Esta ecuacin es una medida del grado de asociacin lineal entre X y Y.
La diferencia entre cada valor de Y observado y
media se denomina variacin de Y;
La diferencia entre
estimado y
media, es la variacin tenida en cuenta por la
ecuacin de regresin, razn por la cual se denomina variacin explicada de Y; ( )
La diferencia entre Y observado y
estimado, son variaciones consideradas debidas a
factores diferentes al tenido presente por la ecuacin de regresin por eso se llama: variacin no explicada de Y; ( )
La sumatoria de las diferencias en cada una de las formas de variacin la podemos representar as:
Grficamente esta relacin se puede representar as:
Una correlacin perfecta es aquella en que todos los valores de Y caen en la lnea de estimacin, por lo tanto el coeficiente de determinacin es 1. Cuando el valor del coeficiente de determinacin es 0 quiere decir que no hay correlacin entre las dos variables
En los problemas con que se topa la mayora de los responsables de la toma de decisiones, r2 caer en alguna parte entre estos dos extremos de 1 y 0. Recuerde, no obstante que un r2 cercano a 1 indica una fuerte correlacin entre X y Y, mientras que un r2 cercano a 0 significa que existe poca correlacin entre estas dos variables. Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza de una relacin lineal entre dos variables. Otra interpretacin de r2:
Los estadsticos tambin interpretan el coeficiente de determinacin viendo la cantidad de variacin en Y que es explicada por la lnea de regresin.
INTRODUCCIN El muestreo como herramienta de la investigacin cientfica arroja resultados que se pueden utilizar para concluir un determinado estudio X de poblacin, al igual las tcnicas selectivas que se requieren para dicho estudio de acuerdo a lo que se va a evaluar. En estadstica un muestreo es la tcnica para la seleccin de una muestra a partir de una poblacin. En el muestreo, si el tamao de la muestra es ms pequeo que el tamao de la poblacin, se puede extraer dos o ms muestras de la misma poblacin. Al conjunto de muestras que se pueden obtener de la poblacin se denomina espacio muestral. El muestreo es una herramienta de la investigacin cientfica. Su funcin bsica es determinar que parte de una realidad en estudio (poblacin o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha poblacin El Muestreo es ms que el procedimiento empleado para obtener una o ms muestras de una poblacin. Este se realiza una vez que se ha establecido un marco muestral representativo de la poblacin, se procede a la seleccin de los elementos de la muestra aunque hay muchos diseos de la muestra. Al tomar varias muestras de una poblacin, las estadsticas que calculamos para cada muestra no necesariamente seran iguales, y lo ms probable es que variaran de una muestra a otra. Al elegir una muestra, se espera que sus propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, obteniendo resultados parecidos que si se realizase un estudio de toda la poblacin. Cuando se posee informacin acerca de dos o ms variables relacionadas, es natural buscar un modo de expresar la forma de la relacin funcional entre ellas. Adems, es deseable conocer la consistencia de la relacin. Es decir, no se busca solamente una relacin matemtica que nos diga de qu manera estn relacionadas las variables, sino que se desea saber tambin con qu precisin se puede predecir o pronosticar el valor de una variable, si se conocen o suponen valores para las otras variables. Las tcnicas usadas para lograr estos dos objetivos se conocen como mtodo de regresin y correlacin.
Los mtodos de regresin se usan para elegir la mejor relacin funcional entre las variables, es decir, la funcin o ecuacin que mejor se ajuste a los datos. Se har referencia sobre el muestreo estadstico, tcnicas, niveles y tipos fundamentales de un muestreo; se describen conceptos bsicos que explican lo que esto se refiere al igual se aprecia cmo y qu tipo de tcnicas se pueden utilizar para poner en prctica la realizacin de una auditoria con la finalidad de obtener una informacin determinada para lograr un objetivo especifico. Adems, se analizar la correlacin, la regresin lineal as como sus tipos y graficas, el modelo probabilstico lineal simple, la ecuacin de la recta de regresin muestral, el mtodo de los mnimos cuadrados, explicado brevemente con su frmula y aplicando un ejemplo a la ingeniera. Tambin se indagar sobre la prediccin de Y para un valor dado de X, a travs de su frmula, adems se enfatiz sobre las ecuaciones de los coeficientes de correlacin y regresin lineal, para su posterior clculo.
CONCLUSIN Entre las conclusiones que se enfatizaron sobre el presente trabajo de investigacin son las siguientes: El muestreo estadstico es un procedimiento por el que se ingresan los valores verdaderos de una poblacin a travs de la experiencia obtenida con una muestra. El muestreo permite una reduccin considerable de los costos materiales del estudio, una mayor rapidez en la obtencin de la informacin y el logro de resultados con mxima calidad. Existen dos mtodos para seleccionar muestras de poblaciones; el muestreo no aleatorio o de juicio y el muestreo aleatorio o de probabilidad. En este ltimo todos los elementos de la poblacin tienen la oportunidad de ser escogidos en la muestra. Una muestra seleccionada por muestreo de juicio se basa en la experiencia de alguien con la poblacin. Algunas veces una muestra de juicio se usa como gua o muestra tentativa para decidir como tomar una muestra aleatoria ms adelante. Las muestras de juicio contribuyen con el anlisis estadstico el cual es necesario para hacer muestras de probabilidad. La regresin y la correlacin son dos tcnicas estrechamente relacionadas y comprenden una forma de estimacin. En forma ms especifica el anlisis de correlacin y regresin comprende el anlisis de los datos mustrales para saber qu es y cmo se relacionan entre s dos o ms variables en una poblacin. El anlisis de correlacin produce un nmero que resume el grado de la correlacin entre dos variables; y el anlisis de regresin da lugar a una ecuacin matemtica que describe dicha relacin. El anlisis de correlacin generalmente resulta til para un trabajo de exploracin cuando un investigador o analista trata de determinar que variables son potenciales importantes, el inters radica bsicamente en la fuerza de la relacin. La correlacin mide la fuerza de una entre variables; la regresin da lugar a una ecuacin que describe dicha relacin en trminos matemticos. Los datos necesarios para anlisis de regresin y correlacin provienen de observaciones de variables relacionadas.
BIBLIOGRAFA Casuso, Rafael L. "Clculo de probabilidades e inferencia estadstica", UCAB. Caracas. 1996. Ross, Sheldon. "Probabilidad y estadsticas para ingeniera y ciencias", Edit. Mc Graw Hill. Mxico. 2001. Pginas de internet: http://es.scribd.com/doc/37081774/REGRESION-LINEAL-SIMPLE http://www.monografias.com/trabajos16/metodos-lineales/metodoslineales.shtml#d http://es.scribd.com/doc/2452626/Minimos-Cuadrados http://www.usb.edu.co/facultades/administracion/publicaciones/regresion _correlacion.pdf
UNIVERSIDAD NACIONAL EXPERIMENTAL FRANCISCO DE MIRANDA AREA DE TECNOLOGA COMPLEJO ACADMICO EL SABINO PROGRAMA DE INGENIERIA INDUSTRIAL
TIPOS DE MUESTREO Y REGRESION LINEAL
Bachilleres: Aular Cesar. Lorefice Natalia. Senoja Doraima.
PUNTO FIJO, JULIO DE 2011

Trabajo de Estadistica NATALIA

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Trabajo de Estadistica NATALIA

Caricato da

Copyright:

Formati disponibili

TIPOS DE MUESTREO.

Tipos de muestreo probabilstico:

Tipos de correlacin: Correlacin directa;

Fig. 1.1. Correlacin directa Correlacin inversa;

Fig. 1.2. Correlacin inversa. Correlacin nula;

e igualando a cero, se obtiene:

0 y 1 son parmetros desconocidos de la porcin determinstica del modelo.

Modelo de regresin lineal simple (probabilstico):

= componente de error aleatorio

exactamente igual a , sino que ser igual a

(epsilon) se distribuye normalmente con promedio 0 y varianza

Fig. xxx. Modelo probabilstico

es una funcin lineal de

es el componente aleatorio de error. Este

se puede considerar como una

Donde; Estimador de Estimador de Estimador de

Recta de regresin de X sobre Y:

Hallar las rectas de regresin y representarlas;

xi2 4 9 16 16 25 36 36 49 49 64 100 100 504

yi2 1 9 4 16 16 16 36 16 36 49 81 100 380

10 10 72 60 Hallamos las medias aritmticas;

Calculamos las varianzas;

Recta de regresin de Y sobre X;

Recta de regresin de X sobre Y;

En donde: = media de y1, y2,... yn = media de x1, x2, ... xn

Hallamos las medias aritmticas;

Calculamos las desviaciones tpicas;

Aplicamos la frmula del coeficiente de correlacin lineal.

Determinar el coeficiente de correlacin;

Convertimos la tabla de doble entrada en tabla simple. xi yi 0 0 1 2 fi 2 1 xi fi xi2 fi yi fi yi2 fi xi yi fi 0 0 0 0 2 2 2 4 0 0

Hallamos las medias aritmticas;

Calculamos las desviaciones tpicas;

Aplicamos la frmula del coeficiente de correlacin lineal.

Esta ecuacin es una medida del grado de asociacin lineal entre X y Y.

La diferencia entre cada valor de Y observado y

media se denomina variacin de Y;

media, es la variacin tenida en cuenta por la

ecuacin de regresin, razn por la cual se denomina variacin explicada de Y; ( )

La diferencia entre Y observado y

estimado, son variaciones consideradas debidas a

Grficamente esta relacin se puede representar as:

TIPOS DE MUESTREO Y REGRESION LINEAL

Bachilleres: Aular Cesar. Lorefice Natalia. Senoja Doraima.

PUNTO FIJO, JULIO DE 2011

Potrebbero piacerti anche