Sei sulla pagina 1di 74

PONTIFICIA UNIVERSIDAD CATLICA ARGENTINA

Instituto de Ciencias Polticas y Relaciones Internacionales


Licenciatura en Ciencias Polticas / Licenciatura en Relaciones Internacionales
Asignatura: MTODOS CUANTITATIVOS Profesores: Coronel, Alejandro

COMPENDIO: MTODOS CUANTITATIVOS

Colombo, Julin Buenos Aires, 3 de Diciembre de 2007

INTRODUCCIN: NIVELACIN CON METODOLOGA DE LA INVESTIGACIN SOCIAL


A.1: Nivelacin.
Hay afirmaciones no cientficas. Son las siguientes: Las que basamos en nuestras opiniones personales. Estas argumentaciones no sirven para el ambiente cientfico. Las que basamos en alguna autoridad1. No hay que creer todas estas afirmaciones. Las que basamos en observaciones personales. Afirmo lo que he visto. No necesariamente es cierto. Son afirmaciones no metodolgicamente correctas.

Por otro lado, hay afirmaciones cientficas. Deben tener 4 pilares, que se van retroalimentando conforme avanza la investigacin: Teora: Cumple la funcin de estructurar mi forma de pensamiento. Es el prisma para mirar la realidad social y el marco de referencia para interpretarla. Ante el mismo fenmeno puede haber varias teoras. Hay diferentes visiones de la realidad. Me permite reinterpretar los datos que yo haya conseguido en mis observaciones. Hiptesis / Formulacin del problema: La hiptesis es una explicacin para un fenmeno, que se da antes de una investigacin. La investigacin se hace para comprobarla. Es la teora bajada a lo concreto. Tal vez no me interesa encontrar la causa o explicacin para un fenmeno, sino que planteo un problema (sin arriesgar hiptesis) para resolverlo con la investigacin. No necesito formular una hiptesis para poseer una investigacin cientfica. Ambas posibilidades tienen diferentes aspectos metodolgicos. La hiptesis me lleva generalmente a una metodologa cuantitativa, mientras que la formulacin del problema me lleva generalmente a una metodologa cualitativa. Los dos ramales tambin difieren en la epistemologa, etc. Hay casos para los que conviene usar un mtodo cuantitativo, y para otros un mtodo cualitativo. Tambin hay veces en los que conviene ms usar una hiptesis, y otras veces plantear un problema. Segn el mtodo utilizado se consiguen diferentes resultados. No hay una tcnica perfecta, ambas tienen pros y contras. De acuerdo a la metodologa elegida, tendremos diferentes tipos de observaciones. Cmo hago para conseguir datos vlidos? La metodologa cuantitativa dice que solo es til lo que es medible. Es muy contundente, rgida, y su resultado tiene mucha fuerza. Pero, esa fortaleza es meramente numrica. No necesariamente puedo hacer el pasaje de asociacin estadstica a causalidad2. Hay posiciones que dicen que este mtodo no sirve para encontrar las causas. Dice que hay cosas que influyen en otras, pero no hay determinismo. Hay otros fenmenos que no son medibles, que se abordan por la metodologa cualitativa de investigacin social. Observaciones: Hay diferentes tcnicas de recoleccin de datos (cualitativas y cuantitativas) y maneras de procesarlas y analizarlas. Contrastacin de la hiptesis / Respuesta al problema: Son las conclusiones.

1 2

Por ejemplo, creer que algo es cientfico porque lo dice la Organizacin Mundial de la Salud. Por ejemplo, yo puedo probar que numricamente a mayor pobreza, mayor delincuencia; pero eso no me alcanza para afirmar que la pobreza es la causa de la delincuencia.

UNIDAD 1
1.1: Introduccin a la metodologa cuantitativa. La metodologa cuantitativa en el contexto de la investigacin social y sus etapas. La hiptesis como respuesta eventual a la pregunta de investigacin. Objetivos de la investigacin. El diseo experimental como paradigma positivista aplicado a las ciencias sociales.
La investigacin en ciencias sociales es la accin humana cooperativa que tiene por propsito adquirir un conocimiento vlido de la realidad social. Mouton y Marais ven 5 dimensiones en esta definicin: Sociolgica: Partimos de paradigmas aceptados en nuestra sociedad. todo lo que nosotros hacemos es un conocimiento trasmitido a otros, y a la vez partimos de conclusiones por otros adquiridas anteriormente. Ontolgica: Qu es lo que voy a investigar? La realidad social. Teleolgica: El fin de la investigacin es adquirir un conocimiento, responder una pregunta. Epistemolgica: Es un conocimiento vlido, no cualquier conocimiento. Metodolgica: Cmo conozco vlidamente lo que conozco. Nosotros lo reducimos a lo cuantitativo y lo cualitativo. Cada metodologa va a dar resultados diferentes. La objetividad se consigue por el mtodo: que acorde a lo que tengamos que investigar, adoptemos el paradigma correspondiente3. La metodologa no se puede definir a priori: primero hay que definir qu es lo que voy a estudiar. Esta investigacin tiene 7 etapas: Eleccin del tema: Es la eleccin del tema en general4. Formulacin del problema: Es la bajada del tema a la realidad, identifico subcuestiones. Se plantean aqu las preguntas a resolver5. Esta pregunta es el motor de la investigacin. Aqu genero el objetivo general de la investigacin, que consistir en la respuesta a la pregunta planteada. Este objetivo deriva en objetivos particulares (ms de uno) que especifican un poco la cuestin. Deben tener relacin con el objetivo general. Los objetivos de investigacin son acciones a realizar y me van determinando que metodologa voy a utilizar (segn cual sea el verbo que encabece el objetivo6). De los objetivos surge la unidad de anlisis, cual va a ser el universo que voy a estudiar. Puede haber una falacia ecolgica, que es identificar mal las unidades de anlisis. Diseo de investigacin: Son las estrategias metodolgicas que uno va a llevar a cabo para resolver la cuestin. Esta fase est determinada por lo que suceda en la fase 2. Conceptualizacin y operacionalizacin: Armo un marco terico, que nos dice cual va a ser nuestra perspectiva de anlisis terico. La operacionalizacin consiste en ver que cosas voy a observar del concepto definido en la realidad social. Es la bajada del concepto a la realidad. De la operacionalizacin me sale el instrumento de recoleccin de datos.

1) 2)

3)

4)

Igualmente, es una utopa la objetividad total de las investigaciones sociales. Siempre hay una carga subjetiva, aunque sea una mnima eleccin del investigador. 4 Por ejemplo, pobreza. 5 Por ejemplo, Qu es lo que motiva a una persona a delinquir? 6 Por ejemplo, las metodologas cuantitativas se encabezan con medir, determinar, cuantificar, etc.; y las metodologas cualitativas con explicar, explorar, etc.

5) Recoleccin de datos: Se habla aqu de tcnicas de recoleccin de datos (muestreo probabilstico en el caso cuantitativo). 6) Anlisis de datos: Refiere a las tcnicas de anlisis (estadstica univariada o bivariada). Se ven dos temas: la generacin de matrices de datos, y causalidad asociacin. 7) Redaccin de informe final: Se colocan las conclusiones de la investigacin, y si se corrobora la hiptesis o no. -------------------En la etapa 2), de la formulacin de la hiptesis, se realiza la pregunta, el objetivo general (es decidir que acciones se van a tomar para responder a la pregunta) y los objetivos particulares. Se plantea aqu la hiptesis. Es la respuesta eventual a la pregunta planteada. Hay diferentes categoras de hiptesis. Para construir una hiptesis hay dos grandes integrantes: como mnimo debe haber dos variables debe haber conexin entre esas dos variables. La conexin puede implicar relacin o causalidad. La causalidad se da cuando una variable es la causa de la otra. Es muy difcil que suceda en ciencias sociales. La relacin se da cuando hay dos variables, sin implicar causalidad de una a otra. Que haya relacin no significa que haya causalidad. As, se habla de hiptesis correlacionales y de hiptesis causales. Vamos a buscar las variables que mayor relacin tengan con la otra, ya que en relaciones humanas sociales es muy difcil encontrar relaciones absolutas. Hay fenmenos que tienen ms de una causa, y quiz yo no las conozco. No puedo hacer all modelos relacionales. Todo lo que establezcamos va a estar en un nivel de correlacin, no de causalidad. Las relaciones causales existen, pero no en las ciencias sociales. La hiptesis pone en relevancia el juego entre las variables, y las renombra como variable dependiente y variable independiente. La hiptesis influye en los objetivos. El objetivo general es la hiptesis y la pregunta redactadas de manera afirmativa7. El objetivo es la accin que voy a tomar. Los verbos no son elegidos al azar. Segn el verbo usado, ser la metodologa a emplear8. Hay verbos cualitativos (explorar, determinar, indagar), cuantitativos (medir, cuantificar, establecer), y otros ambivalentes (describir). La palabra modelizar es importante. El modelo busca causas, pero no una causalidad absoluta. Tiene un margen de error, que es la parte no explicada por el modelo. La unidad de anlisis es a quien investigo. Hay que tener en claro a quien estoy observando. Si se comete un error en este punto, se pueden construir falacias ecolgicas. Hay diferentes tipos de unidades de anlisis: Individuos: Los observados son personas individuales9. Grupos: Me interesa el rol del individuo dentro del grupo10. Hay factores que tienen cierta dinmica grupal.
7

Por ejemplo, a la pregunta Cul es el impacto del ndice de pobreza en el aumento de la delincuencia?, el objetivo general podra ser medir el impacto del ndice de pobreza en el aumento de la delincuencia. 8 Por ejemplo, el verbo medir hace a la metodologa cuantitativa. 9 Por ejemplo, jvenes, mayores adultos.

Instituciones: Son compuestas por individuos. Son grupos con estructura y permanencia11. Constructos sociales: No existen fsicamente, no tienen vida propia. Me interesan en la medida en queme permiten indagar las acciones humanas detrs de ellas12. Las falacias ecolgicas se dan cuando aplico conclusiones de un nivel de unidades de anlisis a otro nivel inferior13. Solo podemos sacar conclusiones al nivel de unidad de anlisis usado. Adems, no podemos confundir relacin con causalidad. -------------------El diseo experimental es la tercera etapa de un proyecto de investigacin. Es, metodolgicamente, como voy a llevar a cabo mi investigacin. Se puede llamar tambin estrategia, instrumento, etc. Hay tres variables para definir el tipo de diseo: 1) Diseos por objetivos: El diseo puede ser: a) Diseo Exploratorio: Reutilizan cuando el enfoque es nuevo o con muy pocas cosas investigadas hasta el momento. Tiene por objetivo acercarme al fenmeno, identificar normas, comportamientos, etc.; para tener un primer conocimiento del fenmeno, y para que otros puedan formular hiptesis sobre estos. No se lo que me voy a encontrar, pero hay que estar abierto a cualquier cosa. Implica una metodologa cualitativa y tcnicas cualitativas (observacin participante). b) Diseo Descriptivo: Intento describir, cuento como se dan las cosas. No necesariamente formulo hiptesis. Pueden ser diseos cuantitativos o cualitativos. c) Diseo Explicativo: Son preguntas ms incisivas. Quiero explicar un fenmeno, conocer causas o relaciones, etc. Son diseos cuantitativos. Tambin puede haber diseos evaluativos (sirven para evaluar el impacto de una variable; es para medir xitos y fracasos), prospectivos (se relaciona al diseo de regresin), etc. Sirven para prever el futuro. Podran llegar a ser explicativos. 2) Diseos por tiempo: El diseo puede ser: a) Diseo Transversal: Se ocupa solamente de un momento histrico cualquiera. b) Diseo Evolutivo: Mira una variable determinada a lo largo del tiempo. No se realiza mucho en Argentina, porque es muy costoso. c) Diseo Longitudinal: Mide un periodo de tiempo. Trabaja con muestras. No se realiza mucho en Argentina, porque es muy costoso. El problema es como conformo la muestra, para que no vare mucho. Hay que establecer un diseo muestral que me permita basar los cambios en variaciones de opinin y no de muestra. Para esto hay dos estrategias: I) Cohorte: Consiste en que mi muestra tenga aspectos en comn con las muestras pasadas. Hay un punto comn, que s o s tiene que ser cumplido aunque las personas varen.

10 11

Por ejemplo, familia, alumnos. Por ejemplo, partidos polticos, sindicatos, universidad. 12 Por ejemplo, las constituciones, creaciones humanas (fotos, reliquias, etc.). 13 Por ejemplo, si vemos una provincia pobre donde los votos son al Partido Justicialista y una provincia rica donde los votos son a otros partidos, no podemos hacer la generalizacin los pobres votan al Partido Justicialista.

II) Panel: Durante el tiempo que dure la investigacin se hace la entrevista a las mismas personas. En la prctica tiene problemas, es difcil de realizar. Se puede hacer un panel mvil, y cambiar a un porcentaje del panel, para salvar muertes, mudanzas, etc. 3) Segn que tanto replican el diseo experimental: El diseo puede ser: a) Diseo Experimental: No sirve para analizar cuestiones sociales. La naturaleza del observado no nos lo permite. b) Diseo Cuasi Experimental: Me falta algn requisito del diseo experimental, y no llego a l. c) Diseo No Experimental: No tiene ninguno de los requisitos del diseo experimental. En nuestro caso nos vamos a manejar con estos dos ltimos.

TEXTOS Se ver el texto de POLIT HUNGLER: Investigacin cientfica en ciencias de la salud. Problemas, preguntas e hiptesis de investigacin Un estudio de investigacin empieza como un problema que un investigador deseara resolver o como una pregunta que le gustara contestar. Terminologa bsica: En el nivel ms general, un investigador se interesa en un tema, al que a veces se denomina punto de inters de la investigacin14. Un problema de investigacin es una situacin que comprende un asunto enigmtico. El objetivo de la investigacin es resolver el problema. Mediante la pregunta de investigacin se enuncia la interrogante especfica que el cientfico desea responder. Tambin es posible que se identifiquen varias metas u objetivos de investigacin, es decir, los resultados especficos que se esperan obtener. Problemas de investigacin y paradigmas: Los estudios cualitativos son ms adecuados para resolver algunos problemas que los cuantitativos. Normalmente, un investigador cuantitativo tiende a elegir problemas de investigacin que ya han sido estudiados pero cuyos resultados es verificar, aclarar o ampliar. A menudo, se llevan a cabo estudios cualitativos porque no se comprende bien cierto aspecto de un concepto y el investigador desea contribuir al conocimiento profundo, amplio y en contexto de un fenmeno. Fuentes de los problemas de investigacin: Hay 5 fuentes comunes para seleccionar problemas de investigacin: Experiencia: La experiencia cotidiana proporciona una amplia variedad de problemas para investigacin. Suele ser la fuente ms rica y estimulante de temas de estudio. Bibliografa especializada: El investigador principiante puede beneficiarse de la lectura regular de publicaciones peridicas, etc. Los informes publicados pueden sugerir reas problema, etc. Familiarizarse con la investigacin existente constituye una va adecuada para el desarrollo de un tema de estudio. Aspectos sociales: Ocasionalmente, alguna cuestin social o poltica del momento sugiere temas de inters para la comunidad. Puede derivarse la idea para un estudio.
Por ejemplo, tabaquismo en adolescentes.

14

Teora: Para que una teora resulte de utilidad en la prctica, debe ser puesta a prueba investigando su aplicabilidad. Ideas provenientes de fuentes externas: Hay casos en que el tema deriva de una sugerencia directa15. Es comn que las ideas de investigacin surjan como resultado de sesiones de acopio de ideas (brainstorming).

Desarrollo y depuracin de problemas de investigacin: Eleccin de un tema: Lo importante aqu es poner las ideas por escrito. Luego, las ideas se ordenan segn el inters que posean para el investigador. Delimitacin de un tema: Es necesario formular una serie de preguntas que conduzcan a la enunciacin de un problema susceptible de investigar. Del mismo problema general se pueden derivar una serie de diversos interrogantes, cada uno debe ser estudiado de distinto modo. Evaluacin de los problemas de investigacin: No hay reglas para llevar a cabo la eleccin final de un problema de investigacin, pero deben tenerse en cuenta cuatro consideraciones: Importancia del problema: Un factor crucial en la eleccin del problema por estudiar es su importancia para la disciplina profesional del investigador. Susceptibilidad de investigacin del problema: No todos los problemas pueden estudiarse mediante la investigacin cientfica. Hay respuestas que se basan en los valores de cada persona16. Factibilidad de abordar el problema: Los problemas importantes y susceptibles de investigacin pueden resultar inadecuados si no es factible abordarlos en un estudio. Los factores importantes son los siguientes: o Tiempo y programacin. o Disponibilidad de los participantes. o Cooperacin de terceros. o Instalaciones y equipo. o Dinero. o Experiencia del investigador. o Consideraciones ticas. Inters para el investigador: Si el problema planteado provisionalmente pasa las pruebas de susceptibilidad de ser investigado, importancia y factibilidad, el ltimo requisito es el propio inters del investigador. Informe del problema de investigacin: Enunciados del problema: El enunciado de un problema constituye la expresin del dilema o la situacin perturbadora que deben ser investigados a fin de obtener comprensin y orientacin. El enunciado identifica la naturaleza del problema que se aborda en el estudio. Debe ser lo suficientemente amplio como para incluir las cuestiones centrales, pero restringido para servir como gua. Enunciados del objetivo: El enunciado capta la esencia del estudio, establece el rumbo general de la investigacin y proporciona una sinopsis de su meta global17. Deben identificarse las variables clave del estudio y sus posibles interrelaciones. Puede

15

Por ejemplo, un profesor puede dar a los estudiantes una lista de temas para elegir o asignar un tema especfico de estudio. 16 En cambio, en un estudio cuantitativo, los problemas susceptibles de investigacin comprenden variables capaces de ser definidas y medidas con precisin. 17 Por ejemplo, el objetivo de este estudio es...

sugerir, mediante la utilizacin de los verbos, la forma en que el investigador pretende enfocar el problema. Preguntas de investigacin: Las preguntas de investigacin son el enunciado del objetivo redactado de manera interrogativa18. Esta forma tiene la ventaja de ser sencilla y directa. En un estudio cuantitativo, las preguntas de investigacin identifican las variables clave, las relaciones entre ellas y la poblacin de estudio. Hiptesis de investigacin Qu es una hiptesis de investigacin?: En estudios cuantitativos, los investigadores a menudo presentan el enunciado del objetivo y luego una o ms hiptesis. Una hiptesis es una prediccin o explicacin provisional de la relacin entre dos o ms variables, de modo que las hiptesis traducen una pregunta de investigacin en una prediccin precisa de los resultados esperados19. En ocasiones, el investigador toma las hiptesis de un marco terico20. Caractersticas de las hiptesis demostrables: Una caracterstica esencial de las hiptesis susceptibles de demostracin es que enuncian la relacin entre dos o ms variables medibles. Las variables que se relacionan entre s a travs de la hiptesis son la independiente y la dependiente21. Idealmente, las hiptesis deben basarse en argumentos razonados, slidos y justificables. Una buena hiptesis debe ser congruente con el cuerpo de hallazgos de investigacin con que se cuente. Formulacin de hiptesis: No existen reglas formales, pero dos procesos (induccin y deduccin) constituyen el mecanismo intelectual de planteamiento de hiptesis. Una hiptesis inductiva es una generalizacin que se funda en las relaciones observadas. Una hiptesis deductiva tiene como punto de partida teoras generales que se aplican en situaciones particulares. Comprobacin de las hiptesis: La comprobacin de las hiptesis constituye el ncleo de la mayor parte de las investigaciones empricas cuantitativas. Ni las teoras ni las hiptesis pueden llegar a probarse de manera definitiva mediante los procedimientos de comprobacin. Enunciado de las hiptesis de investigacin: Una hiptesis viable establece una relacin entre variables y puede probarse empricamente. Hay diferentes maneras de formular hiptesis: Hiptesis simples y complejas: Una hiptesis simple expresa una relacin esperada entre una variable independiente y una variable dependiente22. Una hiptesis compleja predice: la relacin entre variables independientes, la relacin entre variables dependientes23. As, a las complejas se las conoce como hiptesis multivariadas.

18

Por ejemplo, Cul es la relacin entre el grado de dependencia de los receptores de transplante renal y la velocidad de recuperacin? 19 Por ejemplo, si la pobreza es alta, se produce una incidencia al voto al peronismo mayor. 20 El uso de hiptesis en estudios cuantitativos tiende a inducir al pensamiento crtico y, de esta manera, a facilitar la comprensin y la interpretacin de los datos. 21 Para no cometer ningn error, hay que verificar que la hiptesis contenga la clusula relacional. Por ejemplo, la clusula menos que, o ms que. 22 As, la variable Y es el efecto, resultado o consecuencia previstos de la variable X, que es el antecedente o causa. 23 En el mundo real, la mayor parte de los fenmenos no resultan de la accin de una sola variable, sino de una compleja red de variables. Por ejemplo, las personas ms altas y aquellas con mayor consumo calrico, pesarn ms que las personas de menor estatura y aquellas con menor consumo de caloras.

Hiptesis direccionales y no direccionales: Una hiptesis direccional indica la direccin esperada de la relacin entre las variables; es decir, se predice no solamente la existencia de una relacin, sino tambin su naturaleza24. Una hiptesis no direccional no estipula la direccin de la relacin. Predice que dos variables estn relacionadas, pero no hace proyecciones sobre la naturaleza de esta asociacin. Hiptesis de investigacin e hiptesis estadsticas: Las hiptesis de investigacin son enunciados de las relaciones esperadas entre las variables. Las hiptesis estadsticas o nulas establecen que no existe relacin entre las variables dependientes y las independientes. --------------------

Se ver ahora el texto de HUBERT M. BLALOCK: "Introduccin a la investigacin social". 1. Falla en la comunicacin Tiende a haber una falla de comunicacin entre los cientficos sociales y los legos. Los segundos a veces organizan investigaciones sin consultar a los primeros, que son los ms versados en el tema. Pero la falta no debe achacarse solamente a los polticos. Los cientficos sociales no se han preocupado demasiado por dar a conocer en qu consiste el proceso de la investigacin. Hay quienes se sienten tentados de sospechar que no existe necesidad real alguna de contar con cientficos sociales. Complejidad de las investigaciones sociales Una de las dificultades fundamentales con que nos encontramos en la investigacin social, es el hecho de que en el mundo real una gran cantidad de variables guardan estrecha interrelacin25. De las investigaciones sociales no se puede adquirir precisin exacta, pero si se puede perfeccionar continuamente cada teora. El principal problema que enfrenta el cientfico social es decidir, de manera objetiva, que variables y explicaciones tienen mayor peso. Ciertos obstculos vuelven dificultoso proporcionar respuestas realmente definitivas a muchas de las cuestiones importantes que pueden plantearse en cuanto al cientfico social. Advertencia al estudiante La existencia de principios cientficos bien establecidos es por lo regular una condicin necesaria, pero por s solos no bastan. Al cientfico, en su calidad de tal, no le interesan en forma directa las posibles aplicaciones de sus hallazgos o teoras, si bien su condicin de ciudadano puede tener mucho inters en ellas. En su funcin de cientfico debe lograr objetividad, mientras que como ciudadano debe tomar posicin. -------------------Se ver un texto de CEA D'ANCONA, Metodologa cuantitativa. Estrategias y tcnicas de investigacin.

24

Las hiptesis deductivas derivadas de la teora casi siempre son direccionales debido a que las teoras persiguen explicar los fenmenos. 25 Sus causas y efectos son arduos de desentraar, y puede haber casi tantas teoras como personas que las formulen.

10

8. La experimentacin como estrategia de investigacin social La experimentacin constituye una estrategia de investigacin, cuyo uso suele vincularse a objetivos de investigacin explicativos y/o evaluativos; al anlisis de relaciones causales26, sobre todo. Otros autores aaden una segunda finalidad fundamental a la experimentacin: la comprobacin de la efectividad de soluciones alternativas a problemas concretos. 8.1 Caractersticas esenciales de la experimentacin La investigacin se basa en el control e intervencin del investigador en la "realidad" que analiza. El control se dirige a la comprobacin de los efectos de la variable manipulada por el investigador en la variable dependiente. En la experimentacin la informacin se obtiene mediante la aplicacin de una o varias tcnicas de obtencin de datos27. La manipulacin experimental: El investigador crea una situacin que le permita comprobar la influencia causal de una o ms variables en otra. El control del investigador: La manipulacin experimental se halla condicionada a las posibilidades de controlar la influencia de cualquier variable que pueda incidir en la relacin causal entre dos variables. No es fcil controlar todos los factores que afectan a una relacin causal. La aleatorizacin: Se halla presente en dos momentos fundamentales de un proceso experimental: cuando se asigna cada sujeto a alguno de los grupos formados, y cuando se asigna cada grupo a una de las condiciones experimentales. Siempre habr dos grupos: el grupo experimental y el grupo de control. Se debe procurar la total equivalencia inicial de ambos grupos. La equivalencia puede alcanzarse mediante: Igualacin: Razonada de los sujetos, en aquellas variables que pudieran afectar al valor de la variable dependiente. Los sujetos que compartan caractersticas se asignarn aleatoriamente a los distintos grupos. Aleatorizacin: Destaca como otra opcin que ayuda a la equivalencia inicial de los grupos. Se da a todos los individuos la misma probabilidad de pertenecer a cualquiera de los grupos. Una vez realizado el experimento, el investigador procede a la comparacin de los resultados en los distintos grupos, para as comprobar el efecto del tratamiento aplicado. 8.2 Los diseos experimentales Cuando se disea un experimento, el investigador se enfrenta a la eleccin de una de las distintas variedades de diseos experimentales.

26

El estudio de la causalidad exige el complimiento de los tres criterios fundamentales del concepto de causalidad enunciados por David Hume. Estos son: 1. Comprobar la contigidad entre la causa y el efecto. 2. La precedencia temporal de la causa sobre el efecto. 3. La conjuncin constante entre la causa y el efecto. Tambin ha de cumplirse el criterio de John Stuart Mill: la exclusin de otras alternativas potenciales. Con la conjuncin de estos elementos, la indagacin tendr validez interna. 27 Por ejemplo, la observacin sistemtica, el cuestionario, la entrevista.

11

8.2.1. El experimento intersujetos: Supone la formacin de distintos grupos de sujetos, a los que se aplican tratamientos diferentes, para comprobar sus efectos. Puede ser: Experimentos con dos grupos aleatorios: Supone la formacin aleatoria de solo dos grupos. A cada uno de ellos se aplican tratamientos distintos. Un grupo ser el grupo experimental y el otro el de control. Los sujetos se distribuyen en forma aleatoria. Pueden ser de tres maneras, dependiendo del nmero de veces en que se ha medido la variable dependiente: o Diseo solamente despus: Cuando la variable dependiente solo se mide despus de la aplicacin de los tratamientos. o Diseo antes y despus: Implica la comprobacin de la variable dependiente en ambos grupos, tanto antes de la aplicacin del tratamiento como despus del mismo. El investigador se asegura que ambos grupos sean equivalentes antes de aplicar los tratamientos. o Diseo Solomon: Es una combinacin de las dos modalidades anteriores. Se crean dos grupos experimentales y dos de control. A dos de ellos se los mide antes y despus, y a los otros dos solo despus. Experimentos de ms de dos grupos: Se dan cuando la variable independiente incluye ms de dos valores. El nmero de grupos depender del nmero de categoras o de valores diferenciados en la variable independiente. Diseos factoriales: Se dan cuando al investigador le interesa analizar, al mismo tiempo, las relaciones causales existentes entre ms de una variable independiente y una sola variable dependiente. El nmero de grupos ser en funcin del nmero de variables independientes28. 8.2.2. El experimento intrasujetos: Los distintos tratamientos se aplican a un nico grupo de sujetos. Se somete a las mismas personas, en momentos diferentes, a varios tratamientos, con la finalidad de analizar su reaccin diferencial a los mismos. Las disparidades observadas en el valor de la variable dependiente se consideran como una medida de su efecto. Hay diferentes modalidades: Dos tratamientos experimentales, un solo grupo: Solo hay una variable independiente, y esta comprende dos valores. Varios tratamientos experimentales, un solo grupo: Esta es la modalidad experimental, cuando la variable independiente incluye ms de dos valores. Diseos factoriales intrasujetos: Si hay ms de una variable independiente, cuyos efectos conjuntos quieren medirse. 8.3. El control de explicaciones alternativas en la investigacin experimental. La investigacin causal se distingue por el riguroso control del proceso de investigacin. Se dirige a cualquier explicacin alternativa que invalide las conclusiones del estudio. Hay diferentes fuentes de invalidez (generalmente solucionables con los grupos de control), que son: Maduracin: Con el paso del tiempo, las personas cambian en sus formas de pensar y de actuar. Esto puede incidir en el resultado del experimento.

28

Por ejemplo, si se estudiase la influencia de dos variables independientes, y cada una de ellas incluyera dos valores, se tendra un diseo factorial 2*2; es decir, habra cuatro grupos de tratamiento diferentes.

12

Historia: La historia alude a acontecimientos externos que pueden alterar el curso del experimento, afectando a sus resultados. Instrumentacin: Cuando la medicin de la variable dependientes se realiza varias veces, las variaciones en las mediciones pueden deberse a cambios producidos en el instrumento de medicin. Mortalidad experimental: Durante el curso del experimento, algunos de los sujetos de la muestra de estudio pueden dejar de participar en la investigacin. Su abandono puede repercutir en los resultados. El efecto de la regresin: Se presenta cuando alguno de los grupos de tratamiento est integrado por sujetos que partieron de posiciones muy extremas en la variable dependiente. Esta posicin puede verse moderada ms adelante. El efecto de la medicin inicial: El recurso al pretest puede orientar a los sujetos experimentales sobre la finalidad del estudio, y de lo que se espera de ellos. As, ellos pueden modificar su actuacin. Estas seis fuentes de invalidez se logran controlar con un diseo experimental que incluya la creacin de un grupo de control, aunque ste puede provocar otras fallas. 8.4. Los experimentos de campo frente a los de laboratorio Los experimentos de campo son aquellos que se llevan a cabo en contextos reales, o naturales29. El investigador puede analizar la reaccin habitual o normal de la gente ante determinados hechos o conductas. No se realiza aqu una seleccin aleatoria de las unidades muestrales. Los experimentos de laboratorio se presentan como los avales de los principios bsicos de la experimentacin. El investigador puede manipular cualquier situacin que estime relevante a las hiptesis de investigacin. Los sujetos suelen conocer su participacin en el experimento. Cada tipo de experimento tiene sus propias ventajas y desventajas. 8.5. Ventajas e inconvenientes de la experimentacin como estrategia de investigacin

10. El anlisis de contenido cuantitativo 10.1. El anlisis de contenido como tcnica de anlisis El anlisis de contenido se perfil en sus orgenes como puramente cuantitativa. Es la descripcin objetiva, sistemtica y cuantitativa del contenido manifiesto de la comunicacin. Hoy no se limita a la cuantificacin del contenido, sino que tambin aborda la interpretacin del contenido latente.
29

Por ejemplo, en fbricas, aulas escolares, parques, etc.

13

10.1.1. Caractersticas esenciales del anlisis de contenido cuantitativo: Sus tres rasgos definitorios son objetividad, sistematicidad y cuantificacin de los contenidos manifiestos de la comunicacin. El anlisis debe reunir condiciones mnimas de validez y fiabilidad. El nfasis recae en la medicin de su frecuencia de aparicin en el texto. En suma, el anlisis puede caracterizarse como un anlisis no limitado a la descripcin, sino orientado a la inferencia. 10.1.2. Fases de un anlisis de contenido: Bardin diferencia tres momentos en la organizacin del anlisis de contenido: 1) Preanlisis: Es la fase de organizacin, de operacionalizacin de las ideas originarias. Incluye la especificacin de los objetivos e hiptesis, la elaboracin de los indicadores, y la eleccin de los documentos a analizar. 2) Explotacin del material: Incluye la eleccin de las unidades de codificacin, la determinacin de las categoras a emplear en la codificacin, y el registro y la cuantificacin de los datos. 3) Tratamiento e interpretacin de los resultados: A los datos reunidos se les da tratamiento estadstico, comenzando con el anlisis univariable. Se puede combinar con un anlisis multivariable. 10.2. La seleccin del corpus de documentos o material de anlisis En funcin de los objetivos, se eligen las unidades de anlisis y la estrategia a seguir en la recogida de informacin. Para efectuar un anlisis de contenido, previamente ha de delimitarse el corpus o material a analizar. Lo habitual es proceder a la extraccin de una muestra representativa de dicho universo. La seleccin muestral comienza con la eleccin de la fuente de comunicacin (peridicos, revistas, libros, canciones, imgenes). Prosigue con la extraccin de documentos y, en caso de que stos sean muy extensos, de partes de estos documentos. 10.3. La explotacin del material A la seleccin de documentos sigue la determinacin de criterios para la extraccin de la informacin en ellos contenida. Los criterios varan dependiendo la

14

situacin. Igualmente, casi siempre se procede a la creacin del esquema de codificacin y la preparacin del documento para su posterior tratamiento estadstico. Hay tres pasos comunes: 1) La fragmentacin del documento en unidades de codificacin y de contexto: Las unidades se dividen en unidades de codificacin (la palabra, la frase, el tema, el prrafo, el texto entero, el personaje) y las unidades de contexto (hace referencia al contexto donde se ubica la unidad de codificacin30). 2) La clasificacin de las unidades en categoras: Las unidades de registro se codifican en categoras que singularicen su contenido31. Deben evitar la ambigedad en el proceso de medicin. 3) El uso de programas informticos para el anlisis textual: Cada vez van adquiriendo mayor protagonismo los procedimientos de clasificacin emprica. Pueden llegar a ser tiles para excluir la influencia del investigador en la categorizacin de los textos. 10.5. La aplicabilidad del anlisis de contenido y los lmites a la inferencia El anlisis de contenido debe resolver los siguientes interrogantes: Que se dice Como se dice A quien Por qu Quien lo dice Con que efectos. -------------------Se ver ahora el texto de ISMAEL CRESPO: Las campaas electorales y sus efectos en la decisin del voto. 1. El grupo de investigacin sobre campaas electorales Se constituy en Espaa para las elecciones del 2000, con el objetivo de ver el efecto de las campaas electorales en la decisin del voto. 2. El contenido del volumen 1 Ofrece una exposicin de los diversos enfoques metodolgicos y las distintas tcnicas de investigacin que pueden utilizarse para el estudio de las campaas electorales. El objeto de estudio ser el que determinar que tcnica utilizar en cada caso. Captulo 2: Se centra en los distintos aspectos tcnicos que llevaron a optar por la encuesta y el estudio de panel, por suponer el mejor instrumento para captar los eventuales efectos de la campaa electoral sobre los ciudadanos. En el estudio del diseo muestral se explican cules son sus distintos pasos en el caso de un panel, partiendo del marco de muestreo que determina el tipo de diseo muestral as como los procedimientos de estimacin, prestando la debida atencin a la representatividad de la muestra. Captulo 3: Se tratan los aspectos tericos y aplicados del enfoque cualitativo, en lo que se refiere a los grupos de discusin y las entrevistas a directivos de las campaas y a ciudadanos. Se nombra la entrevista en profundidad, etc. Captulo 4: Se exponen las caractersticas de la aplicacin del anlisis de contenido al tratamiento de la campaa electoral en los medios de comunicacin. Este enfoque de investigacin es complementario de los anteriores.

30 31

Por ejemplo, si la unidad de codificacin fuese la palabra, la unidad de contexto sera la frase. Por ejemplo, sexo, edad, apariencia, capacidad de decisin individual, individual o grupal, rol, calificacin del rol.

15

3. Enfoques tericos para el estudio de las campaas electorales: una revisin La evolucin del estudio de los efectos de las campaas ha trascurrido en forma paralela a la del estudio de la influencia de los medios de comunicacin sobre el voto. La conclusin del estudio era que las teoras de la propaganda haban exagerado mucho el efecto de la comunicacin poltica sobre el pblico en general. Otros autores vieron que lo que hacen las campaas es activar las predisposiciones polticas de los votantes. Hay muchas posiciones al respecto, desde la de los norteamericanos (partidarios de que hay una influencia mnima) hasta los que opinan que hay una gran influencia. 4. Enfoques metodolgicos para el estudio de las campaas electorales: una revisin Existen dos lneas metodolgicas bsicas para estudiar los efectos de las campaas electorales sobre el voto. La primera consiste en adoptar una perspectiva contextual, recopilando toda la informacin posible sobre el contexto en que se ha desarrollado la campaa32. La segunda aproximacin se basa en los datos suministrados por los estudios de panel, experimentos controlados y resultados de encuesta para la verificacin de las hiptesis.

32

Estos estudiosos recogen las declaraciones de los actores, y basndose en la informacin recogida los autores extraen una serie de conclusiones.

16

UNIDAD 2
2.1: Conceptualizacin y operacionalizacin cuantitativa. Dimensiones, indicadores, variables, datos e ndices como conceptos y proceso de construccin. El cuestionario estructurado como instrumento de recoleccin de datos cuantitativos.
Para la conceptualizacin primero hay que identificar el Estado del arte. Se puede construir luego el marco terico. Contiene la teora desde la que me encuadro para observar la realidad. De acuerdo a este marco terico la investigacin tomar diferentes formas. Luego debemos proceder a la operacionalizacin del concepto definido anteriormente. Cmo hago para bajar el concepto a cosas medibles? Es llevar lo abstracto del concepto a un plano emprico, observable en la realidad. Para esto, genero dimensiones que reflejen el concepto, pero no son su encarnacin viva33. Como tampoco son directamente observables, debo realizar indicadores de las dimensiones34. Tampoco son 100% observables y objetivas, por lo que la subjetividad siempre existe. Le debo incorporar la caracterstica de validez. Debo construir definiciones operacionalizadas para poder medir35. La respuesta es una variable. Ser una pregunta de cuestionario, cuya respuesta es un dato o valor. -------------------Vamos a ver el tema de las variables. Una variable es un "fenmeno susceptible de adquirir dos o ms datos, categoras". Para el anlisis voy a considerar que variables estn implicadas, porque eso hace variar la tcnica. Las variables pueden ser: Por tipos de datos: Pueden ser cualitativas o cuantitativas. Por escala de medicin: Pueden ser discretas36 o continuas37. Por nivel de medicin: Pueden ser nominales38, ordinales39, de grado40 o de razn41. Cada una tiene todas las caractersticas de las anteriores ms algn plus.
33 34

Por ejemplo, "pobreza" se puede operacionalizar con las Necesidades Bsicas Insatisfechas. Por ejemplo, los 5 indicadores de las Necesidades Bsicas Insatisfechas. 35 Por ejemplo, hacinamiento lo mido como "3 o ms personas por habitacin". 36 Una variable discreta es sencillamente una variable para la que se dan de modo inherente separaciones entre valores observables sucesivos. Dicho con ms rigor, se define una variable discreta como la variable tal que entre 2 cualesquiera valores observables (potencialmente), hay por lo menos un valor no observable (potencialmente). Por ejemplo, un recuento del nmero de colonias de un cultivo en agar es una variable discreta. Mientras que cuentas de 3 y 4 son potencialmente observables, no lo es una de 3,5. 37 Una variable continua tiene la propiedad de que entre 2 cualesquiera valores observables (potencialmente), hay otro valor observable (potencialmente). Una variable continua toma valores a lo largo de un continuo, esto es, en todo un intervalo de valores. Longitudes y pesos son ejemplos de variables continuas. La estatura de una persona, pude ser 1,70 mts. 1,75 mts., pero en potencia al menos podra tomar cualquier valor intermedio como 1,73 mts. por ejemplo. Un atributo esencial de una variable continua es que, a diferencia de lo que ocurre con una variable discreta, nunca se la puede medir exactamente. Con una variable continua debe haber inevitablemente un error de medida. 38 Variable nominal: Se utiliza para representar datos cualitativos. Slo puede medirse en trminos de pertenencia a una categora, pero no se puede cuantificar. Por ejemplo: sexo, raza, color, ciudad, etc. 39 Variable ordinal: los elementos se pueden ordenar en trminos de cual tiene menos o ms la cualidad representada por la variable. Ej. El status econmico de las familias. Sabemos que la clase alta es ms alta que la clase media, pero no podemos decir que es el 18% ms alta. La medida nominal brinda menos informacin que la ordinal.

17

Con respecto a las variables, deben contener dos componentes importantes. La exclusin significa que no se engloban unas a otras. No puede haber respuesta en ms de una categora. La exhaustividad significa que no hay respuesta sin categora. Todas las respuestas estn comprendidas. Las variables dicotmicas admiten solo dos respuestas posibles42. Puedo dicotomizar las diferentes variables de manera artificial43. Las variables dummy permiten trabajar variables cualitativas en modelos cuantitativos. Les coloco valores como 0 y 1. En cuanto a la relacin entre variables, puede haber variables dependientes o independientes. Luego de esto conseguimos el cuestionario estructurado. Tiene un orden de preguntas, etc.

TEXTOS Se ver un texto de CEA DANCONA: Metodologa Cuantitativa. Estrategias y tcnicas de investigacin. 7. La investigacin social mediante encuesta La encuesta es, probablemente, la estrategia de investigacin ms conocida y practicada por los investigadores sociales. A partir de la Segunda Guerra Mundial se convierte en la estrategia predominante en la investigacin social. 7.1. La encuesta como estrategia de investigacin Constituye una estrategia de investigacin basada en las declaraciones verbales de una poblacin concreta. Puede usarse en forma aislada o conjuntamente con otras estrategias de investigacin. 7.1.1. Caractersticas esenciales de la encuesta: Puede definirse como la aplicacin de un procedimiento estandarizado para recabar informacin (oral o escrita) de una muestra amplia de sujetos. La muestra ha de ser representativa de la poblacin de inters. Sus caractersticas definitorias son las siguientes: La informacin se adquiere mediante observacin indirecta, a travs de las respuestas verbales de los sujetos encuestados. Hay que verificar los datos. La informacin abarca un abanico amplio de cuestiones, objetivas y subjetivas. La informacin se recoge de forma estructurada. El orden es el mismo para todos.

40

Variable de intervalo: adems de que permite ordenar los elementos que fueron medidos, se utiliza para cuantificar y comparar las diferencias entre ellos. Por ejemplo, la temperatura se puede medir en grados Fahrenheit o Celsius 41 Variable de razn: son similares a las variables de intervalo, se caracterizan por usar un 0 absoluto. Los tpicos ejemplos de las escalas de razn son las medidas de tiempo o espacio. Las escalas de intervalo no poseen las propiedades de las de razn. En estadstica, la mayora de los procedimientos de anlisis de datos estadstico no distinguen entre las variables de intervalo y de razn. 42 Por ejemplo, la variable sexo. Solo admite como respuestas varn o mujer. 43 Por ejemplo, la variable edad. Puedo dicotomizarla en mayores de edad - mujeres de edad.

18

Las respuestas se agrupan y se cuantifican para examinarlas mediante tcnicas analticas estadsticas. La significatividad de la informacin proporcionada depender de la existencia de errores de muestreo. La encuesta tiene diferentes tipos de errores: Errores de muestreo: Derivan de la poblacin que se excluye de la muestra. Errores de cobertura: Se dan si el marco muestral no incluye a todos los integrantes de la poblacin de inters. Errores de no respuesta: Cuando algunas unidades de la muestra no participan. Errores de medicin: No todos los datos que se obtienen por cuestionario suponen medidas adecuadas de los conceptos que se analizan.

7.1.2. Ventajas e inconvenientes de la encuesta: Ofrece muchas posibilidades al investigador: Resalta por su adecuacin para obtener informacin diversa. Se distingue por su elevado grado de fiabilidad, que depende de los errores vistos. La fiabilidad se afianza gracias a la estandarizacin de las respuestas. La encuesta permite la comparacin de datos obtenidos en estudios realizados en fechas, pases o reas geogrficas diferentes44. Pese a las ventajas, la encuesta tiene una serie de obstculos: La aplicacin de la encuesta resulta desaconsejable en poblaciones con dificultades para la comunicacin verbal. La informacin que se obtiene se halla condicionada por la formulacin de las preguntas. La presencia del entrevistador provoca efectos de carcter reactivo en las respuestas de los entrevistados45. Al ser la mayora de las encuestas transversales y carentes del control experimental, pueden confundirse simples correlaciones entre variables con verdaderas relaciones causales. La realizacin de una encuesta precisa de la organizacin de un trabajo de campo complejo y costoso. 7.1.3. Modalidades de encuesta: Existen tres modalidades principales de encuesta, en funcin de cmo se administre el cuestionario: Encuesta personal o entrevista cara a cara: Es la ms practicada. El xito de la investigacin descansa bastante en la actuacin del entrevistador, que debe tener empata con el entrevistado. Su presencia permite el tratamiento de temas complejos, comprobar la comprensin de las preguntas, recoger informacin suplementaria, y despertar el inters del entrevistado. Los problemas que acarrea son el de acceso a las viviendas particulares (inseguridad), de localizacin de determinados grupos de poblacin, y de reactividad del encuestado. El trabajo del entrevistador ha de supervisarse. Encuesta telefnica: Entre sus ventajas se puede encontrar un costo menor, un tiempo de realizacin menor, permite abarcar ncleos dispersos de la poblacin, puede accederse a los grupos de poblacin menos accesibles, facilita la repeticin
44 45

Para poder compararlas, las preguntas deben estar redactadas de similar manera. Sin embargo, los problemas de reactividad pueden reducirse con un buen diseo del cuestionario.

19

de los intentos de seleccin de las unidades muestrales, y posibilita la supervisin de las entrevistas durante su realizacin46. Las desventajas consisten en la falta de ayudas visuales para el entrevistador, y el constante ejercicio de la memoria por parte del entrevistado. Encuesta por correo: Comprende cualquier tipo de sondeo de opinin que se caracterice por ser el propio encuestado quien lee el cuestionario y anota las respuestas. Sus ventajas son la amplia cobertura de investigacin, el abaratamiento de los costos, evita el sesgo en las respuestas, y ofrece al encuestado ms tiempo para reflexionar sus respuestas, y la posibilidad de poder consultar a otras personas47. Sus inconvenientes son que la proporcin de encuestados que remiten el cuestionario es baja, hay una imposibilidad de controlar quien rellen el cuestionario, y hay una dificultad en asistir al individuo. 7.1.4. Fases de la encuesta: La estructuracin y el xito final dependen de la buena adecuacin del cuestionario. 7.2. El diseo del cuestionario En la investigacin mediante encuesta, el instrumento bsico de informacin lo constituye el cuestionario. Es un listado de preguntas estandarizadas. 7.2.1. Tipos de preguntas: Hay diferentes tipos: Preguntas cerradas: Son aquellas cuyas respuestas ya estn acotadas, cuando se disea el cuestionario. Cada respuesta tiene un cdigo numrico48. Las preguntas cerradas mltiples pueden tener ms de una respuesta. En la investigacin mediante encuesta, los cuestionarios se componen mayormente de preguntas cerradas. Sus ventajas son la rapidez, etc. Sus

46

Hoy en da se halla muy difundido el uso de entrevistas telefnicas asistidas por ordenador. Esto reduce bastante los costos de la investigacin. Sin embargo, sus inconvenientes son que el tamao de la pantalla del ordenador es inferior a la pgina de un cuestionario impreso, lo que dificulta su lectura; no se pueden reconocer a simple vista los errores. 47 Es el tipo de encuestas ms pertinentes cuando se precisa informacin detallada. 48 Si el investigador prev la posibilidad de que haya otras respuestas, deber incluir la opcin otros. No se aconseja la inclusin de la frmula no sabe / no contesta.

20

inconvenientes es que coartan las opciones de respuesta, y que su diseo es ms laborioso que el de una pregunta abierta. Preguntas abiertas: Son aquellas que no circunscriben las respuestas a alternativas predeterminadas49. Su inconveniente es el coste de traduccin de las respuestas. Por lo tanto, se realiza el cierre de las respuestas abiertas, una especie de muestreo y codificacin, a travs de trminos comunes. Pese a esto, las respuestas abiertas son tiles para estudios exploratorios, y para cuando el investigador no prev todas las respuestas, o si se quiere una mayor especificacin. Se vern las ventajas y desventajas de las preguntas abiertas y cerradas, comparativamente. Tipo de Preguntas Abierta Cerrada Fcil de responder y de codificar. Proporciona una informacin ms amplia y exacta, expresada en los Reduce la ambigedad de las propios trminos del encuestado. respuestas. Ventajas Favorece la comparabilidad de las Fcil de formular. respuestas. Suele precisar de menos espacio en Requiere menos esfuerzo por el cuestionario. parte del encuestado. Su redaccin exige un mayor La codificacin es ms laboriosa y esfuerzo y conocimiento del tema compleja. por el investigador. Ms expuesta a errores en el registro Limita las respuestas a opciones de las respuestas y en su Desventajas previamente acotadas. codificacin. Las respuestas pueden tener Su contestacin exige ms tiempo y diversas interpretaciones en los esfuerzo por parte del encuestado. encuestados. 7.2.2. La formulacin de preguntas: El xito depende en cmo se hayan operacionalizado los conceptos tericos en las preguntas concretas del cuestionario. Antes de crear nuevas preguntas, es recomendable buscar preguntas desarrolladas sobre la misma temtica por otros investigadores50. Si se opta por nuevas preguntas, deben ser relevantes a la investigacin, breves y fciles de comprender51. Hay que evitar palabras ambiguas, no emplear palabras que comporten una reaccin estereotipada. Hay que proporcionar respuestas flexibles. Es importante que la pregunta se formule de forma objetiva (neutra), con objeto de no influir en la respuesta. No se deben redactar preguntas en forma negativa, y las preguntas no deben referirse a varias cuestiones al mismo tiempo. Hay que evitar las preguntas que obliguen a realizar clculos mentales. Las preguntas deben estar redactadas en forma personal y directa. Se debe rotar el orden de lectura de las alternativas de respuesta. Las preguntas pueden hacer referencia a hechos subjetivos u objetivos. Cuando se desea investigar la actitud concreta de una persona, se puede utilizar la escala Thurstone. Contiene un conjunto de proposiciones relativas a una determinada actitud,
49 50

Por ejemplo: Qu opina usted de las campaas electorales? Igualmente, esas preguntas tomadas de otro cuestionario se deben pretestar, porque el lenguaje cambia constantemente. 51 Para ello se necesita conocer el nivel educativo y el vocabulario de la poblacin a encuestar.

21

expresadas en forma categrica. El escalograma de Guttman y la escala de Lickert tambin son para medir actitudes o preferencias, con diferentes mtodos y niveles. Otro es el diferencial semntico de Osgood, que consiste en marcar uno de los polos52. 7.2.3. La disposicin de las preguntas en el cuestionario y su codificacin: Ha de disearse de forma que parezca atractivo y cmodo de responder. Se recomienda utilizar el formato de libro, espaciar las preguntas, proporcionar suficiente espacio para las preguntas abiertas, imprimir el cuestionario en color blanco, numerar las preguntas, evitar que queden partidas entre pginas, proporcionar instrucciones al entrevistador, disponer las respuestas en sentido vertical, recurrir a tarjetas. En las preguntas filtro53 se deben dar instrucciones precisas. Se debe preparar el cuestionario para el procesamiento de los datos (precodificar las preguntas cerradas, y precolumnar el cuestionario entero). El orden de las preguntas es importante. Hay que comenzar el cuestionario con un mensaje de presentacin, debe haber un espacio para datos de control, las preguntas iniciales deben despertar el inters del encuestado. Las preguntas claves deben colocarse en el centro del cuestionario. Las preguntas amenazantes deben ir situadas al final del cuestionario. 7.2.4. La prueba o pretest del cuestionario: El cuestionario debe probarse antes de su aplicacin definitiva. Para ello se escoge a una pequea muestra de individuos de iguales caractersticas de la poblacin de estudio. 7.3. El trabajo de campo en una encuesta La fase del trabajo de campo es la ms delicada y costosa. 7.3.1. La formacin de los entrevistadores: En las encuestas mediante entrevista, la calidad de la informacin recogida depende de cmo los entrevistadores hayan cumplido su trabajo. La formacin de los entrevistadores ha de cubrir todos los aspectos implicados en la actuacin del entrevistador. 7.3.2. La supervisin del trabajo de campo: Consiste en la revisin de los cuestionarios, etc. -------------------Se ver el texto de HUBERT M. BLALOCK: Introduccin a la investigacin social. 5. La medicin A qu obedece la decisiva importancia de la medicin para el desarrollo de las ciencias sociales? En ciertas relaciones se vuelve tcnicamente imposible separar los efectos mientras se carezca de mediciones convenientes. Las mediciones suelen aclarar nuestro pensamiento terico y sugerirnos la consideracin de nuevas variables. Toda medicin es indirecta
52 53

Por ejemplo, estudioso / no estudioso. Una pregunta filtro es aquella que se formula con anterioridad a otra, con la finalidad de eliminar a los sujetos a los que no procede hacer la pregunta siguiente.

22

Quiz la objecin ms frecuente a las tentativas de lograr mediciones precisas en ciencias sociales se sintetice en el argumento de que stas ltimas suelen ser, en alto grado, indirectas. En las ciencias sociales es muy difcil ejecutar supuestos realistas sobre las perturbaciones. En primer lugar, carecemos de teoras bien fundamentadas para especificar las otras posibles fuerzas actuantes. No podemos saber, adems, si nuestros instrumentos de medicin estn bien calibrados. Medicin de las actitudes Para obtener mediciones de ciertas variables debemos usar tems altamente especficos, con lo que perderamos generalidad en las conclusiones. La medicin es muy indirecta y est sujeta a muchas interpretaciones. Indiferencia de la dimensionalidad: Cmo es posible saber si las preguntas formuladas estn revelando una sola actitud bsica o varias actitudes a la vez? En la mayora de los casos que los investigadores estudiaron una dimensin nica, se dieron cuenta luego que eran varias distintas54. Anlisis factorial: Una forma de sortear esta dificultad es analizar cada una de las preguntas para ver si son compatibles entre s. La escala de Guttman: Es otro tipo de procedimiento para inferir la dimensionalidad, que resulta provechoso en particular cuando el objetivo que persigue es reducir el nmero de tems a una cantidad relativamente pequea, que ponga de manifiesto una dimensin nica. Medicin de las propiedades grupales Los cientficos sociales suelen ocuparse ms de proposiciones concernientes a grupos. Muchos de sus datos, empero, se presentan en forma de mediciones efectuadas en individuos o pequeos agrupamientos, suscitando el problema de la yuxtaposicin de las mediciones. Cada vez que el cientfico social desea abordar grupos tan grandes como una ciudad entera, se vuelve muy arduo obtener datos verdaderamente comparables. Cuando apela a fuentes secundarias de datos, se decide por medidas diferentes de las que quera obtener. Adems, muchas de las medidas de los grupos se consiguen sumando las medidas de cada una de las personas55. Los problemas que plantea la agregacin de unidades se complican cuando es imposible asignar a todas las personas las mismas ponderaciones. Adems, los lmites entre los grupos son bastante borrosos, o han sido definidos arbitrariamente. Muy relacionado se encuentra el problema de la influencia mutua a travs de estos lmites mal definidos. -------------------Se ver el texto de D. A. LIND, MARCHAL y R. D. MASON, Estadstica para administracin y economa. Tipos de variables Existen dos tipos bsicos de datos: los obtenidos a partir de una poblacin cualitativa, y los obtenidos a partir de una poblacin cuantitativa. Cuando la variable es
54

Por ejemplo, las personas con tendencias liberales en lo econmico pueden ser conservadoras en poltica. 55 Por ejemplo, el tamao de un grupo.

23

no numrica, se la denomina variable cualitativa o atributo56. Normalmente se resumen en diagramas o grficos de barras. Cuando la variable estudiada se puede expresar numricamente, se denomina variable cuantitativa57. Las variables pueden ser discretas (pueden asumir solamente ciertos valores, y existen huecos entre ellos) o continuas (pueden tomar cualquier valor dentro de un intervalo determinado). Niveles de medicin Los datos pueden clasificarse de acuerdo con los niveles de medicin, que son los siguientes: Datos de nivel nominal: Las observaciones solo se pueden clasificar o contar. No existe algn orden especfico entre las clases58. No hay un orden especfico entre las categoras. Las categoras son mutuamente excluyentes59 y exhaustivas60. Datos de nivel ordinal: Cada categora es ms alta o mejor que la siguiente61. Sin embargo, no es posible distinguir la diferencia entre los dos grupos. Datos de nivel de intervalo: Incluye todas las caractersticas del nivel ordinal pero, adems, la diferencia entre los valores tiene un tamao constante62. Hay unidades constantes de medicin. 0 es solamente un punto en la escala, y no representa la ausencia de la condicin. Datos de nivel de razn: Esta medida tiene todas las caractersticas del nivel de intervalo, pero adems el punto 0 s tiene significado63, y la razn entre dos nmeros (o cociente64) tambin es significativa65.

56 57

Por ejemplo, gnero sexual, religin, tipo de automvil, etc. Por ejemplo, el saldo de una cuenta, edad de diferentes personas, velocidades, etc. 58 Por ejemplo, colores, sexo. 59 Es la propiedad de un conjunto de categoras, implica que una persona, objeto o medicin se ha de incluir en slo una categora. 60 Propiedad de un conjunto de categoras que implica que cada individuo, objeto o medicin debe aparecer en slo una categora. 61 As, excelente es mejor que bueno, que es mejor que regular, etc. 62 Por ejemplo, la temperatura, la medida de calzado, etc. Puedo determinar la diferencia entre cada dato, valor. 63 Ya que, por ejemplo, si se tienen 0 dlares, no se tienen fondos. 64 Por ejemplo, si una persona gana 30.000 dlares al ao y la otra gana 60.000 dlares al ao, la segunda gana exactamente el doble que la primera. 65 Por ejemplo, los salarios, las unidades de produccin, el peso, los cambios en los precios de las acciones, la distancia entre un conjunto de oficinas, la estatura, etc.

24

UNIDAD 3
3.1: La recoleccin de datos: muestreo. Nocin. Tipos de muestreos: probabilsticas y no probabilsticas. Aleatoriedad y muestra. Tipos de encuestas y tcnicas.
Con el cuestionario en mano se puede ir a recolectar los datos y construir una matriz de datos. El instrumento de la recoleccin de datos es el cuestionario estructurado. Esto hace a la cuestin de la muestra o muestreo. La muestra es una pequea porcin de la poblacin que yo quiero investigar. La muestra cualitativa y la cuantitativa se eligen por diferentes tcnicas. Debo seleccionar a que personas entrevistar. La poblacin es el todo que quiero estudiar. Una muestra grande contiene ms de 30 o 50 casos. Una muestra chica tiene menos de 30 o 50 casos. El marco muestral es el listado de todas las unidades de la poblacin. Hay dos conceptos importantes: Probabilidad: Es la probabilidad que tienen los integrantes de la poblacin de formar parte de la muestra. Segn el resultado de este concepto, puedo tener muestras probabilsticas (donde todos los integrantes de la poblacin tienen alguna chance de ser seleccionados) o muestras no probabilsticas (donde algn actor no tiene chance de ser elegido)66. El status de probabilstica / no probabilstica es independiente del tamao de la muestra. Aleatoriedad: Representa como determino a los integrantes de una muestra. Puede ser una muestra aleatoria (dejo que el azar participe) o una muestra no aleatoria (no dejo que el azar participe). Desde estos conceptos, si los cruzamos obtenemos 4 opciones (combinaciones) posibles. Solo es representativa la muestra probabilstica y aleatoria. Hay muestras representativas o no, es algo dicotmico. Los resultados de la muestra representativa pueden ser generalizados, expandidos; lo que no se puede realizar si la muestra no es representativa.

Se analizarn ahora los diferentes muestreos no probabilsticos. Son los siguientes: Bola de nieve: Es utilizada en metodologa cualitativa, con entrevistas en profundidad. Se usa en grupos marginales, sin marco muestral. Vamos derivando a otros entrevistados por referencias, recomendaciones, etc. No es probabilstica ni aleatorio. Incidental / Coincidental: No se puede generalizar, porque no hay representatividad. Es muy usado en estudios de mercado. No es probabilstico, aunque si es aleatorio67.
66

Por ejemplo, la muestra no probabilstica se dara en un estudio de 3B a la maana, y decir que es un estudio a los estudiantes de ciencias polticas, debido a que, por ejemplo, los estudiantes de la noche no tuvieron posibilidades de formar parte de la muestra. Pasara a ser probabilstica si la poblacin cambiara de estudiantes de ciencias polticas a los alumnos de 3B. Otro ejemplo es tomar una encuesta en la esquina de Florida y Corrientes y decir que es la opinin de todos los habitantes de la Capital Federal, debido a que muy poca gente tuvo chance de participar en la muestra. 67 Por ejemplo, pararme en una esquina y hacer preguntas al azar.

25

Cuotas: Si vamos a una casa y hay tres posibles entrevistados, debo sortear y entrevistar al sorteado. Si no est, lo tericamente correcto es volver ms tarde, u otro da. En el campo, esto se soluciona con las cuotas. Se entrevista a cualquier persona, pero dentro de parmetros68. Deja de ser probabilstico cuando, una vez que empiezo a completar mis grillas, se comienzan a repetir datos que ya tengo y no los necesito 69. As la muestra se transforma en no probabilstica.

Se analizarn ahora los diferentes muestreos probabilsticos: Aleatorio simple: Realizo el sorteo entre toda la poblacin como distrito nico. Hago tantos sorteos como tamao tenga mi muestra. Debo tener para esto el marco muestral. Aleatorio sistemtico: Por ejemplo, si de mi poblacin de 50 personas necesito un muestreo de 10 personas, genero un coeficiente de elevacin (K) que es el total poblacional / total muestral70. Luego realizo un sorteo del 1 al valor de K. El nmero que salga determinar mis posiciones muestrales71. As, con un solo sorteo queda toda la muestra determinada. Estratificado: Garantizo que todos los estratos formen parte de la muestra. Los estratos son iguales por dentro, pero se diferencian de los otros estratos. No son necesariamente estratos sociales, sino agrupamientos o subagrupamientos de poblacin, del total. Tengo que encuestar a personas de cada uno de los estratos. A cuantos? Segn como se responda este interrogante, la muestra puede ser: o Proporcional: La muestra tiene la misma divisin interna que la poblacin. o No proporcional: Se garantiza un mnimo para los estratos pequeos, lo que genera sobrerrepresentacin. Una vez procesados los datos debo ajustar la proporcin muestral a la proporcin poblacional. Este tipo de muestreo se utiliza cuando la estratificacin es altamente relevante. Conglomerados: Procura que adentro de cada conglomerado haya la mayor heterogeneidad posible, y que un conglomerado con otro sean homogneos. La ventaja es que los reemplazos se consiguen de forma ms rpida, dentro del conglomerado. El problema se da cuando no hay heterogeneidad en todos los conglomerados. Se puede dar un multietpico / polietpico, que es un muestreo que mezcla las diferentes recin vistas72. As, para llegar al individuo a entrevistar se pasan diferentes etapas con diferentes muestras probabilsticas.

68

Por ejemplo, necesito relevar una muestra de 60 casos, cuyas condiciones es que haya 30 varones (10 de 18 a 30 aos, 10 de 31 a 45, y 10 de 46 a 65) y 30 mujeres (10 de 18 a 30 aos, 10 de 31 a 45, y 10 de 46 a 65). Dentro de esas variables (que debo cumplir) puedo entrevistar a quien yo quiera. Generalmente se realiza con las variables edad y sexo, aunque puede realizarse tambin con clases sociales, etc. 69 Por ejemplo, si ya tengo los 10 casos de mujeres de 18 a 30 aos, no voy a necesitar ms casos de los mismos parmetros, por los que esas mujeres ya no tienen probabilidad de participar en la muestra. 70 Total poblacional dividido total muestral. Me da 5. 71 Por ejemplo, si sale el nmero 3 sern encuestados el 3, el 8, el 13, el 18, el 23, el 28, el 33, el 38, el 43 y el 48 posicionados en mi marco muestral. 72 Por ejemplo, en una primera etapa hacemos un muestreo estratificado, y luego dentro de cada estrato se puede usar un aleatorio simple. Luego, para elegir a que manzana voy realizo otro aleatorio simple. A la manzana seleccionada y las que la rodean, las llamamos puento muestral. Si necesitamos reemplazo podemos tomar de all, siempre que tengan el mismo estrato. Las viviendas a encuestar dentro de las manzanas se consiguen habitualmente por un sistema aleatorio sistemtico. Los habitantes de la vivienda a encuestar, tericamente se tendran que hacer por aleatorio simple, pero es ms prctico por cuotas.

26

TEXTOS Se ver el texto de AGNES CAMPBELL y GEORGE KATONA: Los mtodos de investigacin en ciencias sociales. 1. La encuesta por muestreo: una tcnica para la investigacin en ciencias sociales Las encuestas por muestreo son aquellas que se aplican solamente a una fraccin representativa de una poblacin total. Tipos de universo de la encuesta Muchas encuestas toman como universo a la poblacin nacional porque la nacin constituye una unidad poltica y econmica bsica. Tambin se hacen numerosos estudios de la poblacin en una ciudad. Igualmente, es posible estudiar muchos otros universos73. A veces los objetivos de una encuesta requieren un universo del cual no puede extraerse una muestra sin realizar una encuesta previa de anlisis. Es la muestra en dos etapas. Tipos de diseo de encuesta Seccin transversal no ponderada: Es el mtodo preferido para determinar las caractersticas de la poblacin en un momento particular74. El principal objetivo de este anlisis por correlaciones es identificar las causas mediante la tcnica de la inferencia. Seccin transversal ponderada: Supone una sobreestimacin deliberada, dentro de la muestra, de algn subgrupo del universo considerando que tiene una importancia particular para los objetivos de la encuesta, pero que constituye una fraccin relativamente reducida de la poblacin total75. Muestras contrastantes: A veces resulta ms eficaz para la investigacin obtener muestras de subgrupos que estn en posiciones extremas respecto de la variable ms importante que sacar una muestra de todo el universo. As pueden verse con mayor claridad efectos o correlaciones de la variable importante. Secciones transversales sucesivas: Los estudios del cambio requieren mediciones en puntos sucesivos del tiempo. Se usa el procedimiento de muestreo repetido de la misma poblacin: antes despus76 y estudio de tendencias77. Entrevistas reiteradas: Se utiliza cuando es necesario observar las actividades o actitudes de los mismos individuos a travs de un periodo determinado de tiempo.

73

Por ejemplo, pueden ser objeto de estudio las personas de una determinada ocupacin. Otra poblacin encuestada con frecuencia es la de las amas de casa. 74 Por ejemplo, la seleccin sistemtica en el registro de estudiantes de una universidad de todas las fichas que aparecen cada n fichas proporcionara las bases para la descripcin del cuerpo estudiantil en cuanto a edad, sexo, etc. 75 El sobremuestreo es particularmente til en las encuestas relacionadas con la distribucin y el uso de los ingresos y ahorros. Igualmente, siempre que se adopta este recurso es necesario, al pasar al anlisis de los datos, ponderar estos casos de acuerdo con su exacta contribucin a la muestra total. 76 Mide diversas variables antes de un hecho importante, y las compara con el despus, para ver como ste influy en ellas. 77 Realiza ms de dos mediciones, las que se espacian a lo largo de un periodo continuo ms que con anterioridad y posterioridad a un hecho especfico.

27

Las muestras de este tipo de diseo suelen llamarse paneles78. Los inconvenientes del panel son la mortalidad, los cambios en el panel, etc. Diversidad del contenido estudiado El contenido de las preguntas de una encuesta puede clasificarse de diversas maneras: Datos personales: Preguntas relativas al sexo, la edad, ocupacin, educacin, etc. Proporcionan las bases para el anlisis. Datos sobre el ambiente: Son hechos relacionados con las circunstancias en que viven los entrevistados. Datos sobre la conducta: Conciernen a las acciones o conducta de los entrevistados. Nivel de informacin, opiniones, actitudes, motivaciones y expectativas: Son, a veces, las ms relevantes para el anlisis. Formas de anlisis Comparacin entre diferentes partes de la muestra: En vez de estudiar la distribucin de determinados tipos de conducta, la muestra ha de dividirse en diversos grupos con el propsito de determinar las diferencias en la conducta o actitudes de estos grupos. Relacin entre la conducta y las actitudes: As las actitudes no se estudian en abstracto, sino que se las relaciona a formas especficas de conducta. Estudio de las motivaciones: Consiste en preguntar por qu se realiz determinada accin. A veces esto no genera respuesta, por lo que es necesario utilizar un enfoque que establezca correlaciones. Predicciones: Consiste en estimar correlaciones entre diferentes variables, prediciendo causalidad. Cuanto mayor es nuestro conocimiento, mayor es nuestra capacidad para predecir.

Variedad de campos de aplicacin La diversidad de ejemplos de contenido de encuestas presentada demuestra que el mtodo de encuesta puede aplicarse a diversos campos y disciplinas cientficas. Por ejemplo, pueden ser de psicologa social, sociologa, encuestas econmicas, ciencias polticas, salud pblica, entre otras. Plan de desarrollo de una encuesta Es la secuencia de tareas a cumplir en la realizacin de una encuesta: Objetivos generales: Son los problemas generales que hacen necesaria la encuesta. Objetivos especficos: Son ms numerosos. Se verifican los datos y las hiptesis. Muestra: Cul ser el universo de la encuesta? Cul el tamao de la muestra? Cuestionario: Es el mtodo mediante el cual se tomar contacto con la muestra. Trabajo de campo: Es necesario instruir a los investigadores en los procedimientos. Anlisis de contenido: Los datos obtenidos deben ser simples para transcribirlos. Plan de anlisis: Contiene los recorridos del analista para hallar las respuestas. Tabulaciones mecnicas: Codificacin mecnica y tarjetas. Anlisis e informe: Se analizan los datos y se redacta un informe.

1) 2) 3) 4) 5) 6) 7) 8) 9)
78

Adems de su utilidad para analizar los factores que dan lugar a cambios individuales, el panel puede obtener una medida ms sensible del cambio, y descubre cmo cambia a travs del tiempo, la composicin de los distintos estratos, econmicos y sociales.

28

Confiabilidad y validez La confiabilidad de los datos de una encuesta puede medirse de la misma forma que la de cualquier otro tipo de datos, mediante la repeticin de una prueba. La falta de confiabilidad puede derivar en error de informacin, error de la entrevista, error de muestreo. La validacin de los datos de la encuesta a menudo presenta graves problemas. El procedimiento habitual para establecer la validez de mediciones efectuadas en la investigacin social es la comparacin con un criterio exterior. Tambin se pueden comparar conjuntos extrados de la muestra con estimaciones exteriores. Limitaciones Cualquier proyecto para datos basado en una muestra, est sujeto al error de muestreo. Tambin est sujeta a todos los errores de medicin implcitos en cualquier intento de obtener un puntaje que represente las actitudes, capacidades, conductas y otros rasgos de una persona. Adems, hay lmite para el nmero de temas que pueden tratarse. Adems, la muestra puede llegar a no ser representativa. -------------------Se ver un texto de CEA DANCONA: Metodologa Cuantitativa. Estrategias y tcnicas de investigacin. 5. La seleccin de las unidades de observacin: El diseo de la muestra La seleccin de las unidades de observacin es un estadio primordial en todo proceso investigador. 5.1. Fundamentos y clarificacin terminolgica Una de las primeras decisiones es la especificacin y acotacin de la poblacin a analizar. La poblacin es el conjunto de unidades para las que se desea obtener cierta informacin. Una vez definida la poblacin, se procede al diseo de la muestra, la seleccin de unas unidades concretas de dicha poblacin. La muestra debe constituir una representacin a pequea escala de la poblacin a la que pertenece. El marco muestral es el documento que contiene al listado de la poblacin completa79. 5.2. El tamao de la muestra El nmero de unidades a incluir en la muestra es una de las decisiones ms importantes. Se deben definir de acuerdo al: El tiempo y los recursos disponibles: As, el tamao de la muestra aumentar o no. La modalidad de muestreo seleccionada: Est dada por los objetivos, los recursos y el tiempo. En general, los diseos muestrales no probabilsticos demandan un tamao muestral inferior a los diseos probabilsticos (ms orientados a las muestras representativas).

79

El marco debe ser lo ms completo posible, en orden a facilitar la representatividad de la muestra. El marco muestral (por ejemplo, la gua telefnica) es sensible a la presencia de omisiones. Debe actualizarse peridicamente para su comprehensividad. Deben evitarse las duplicidades de unidades de anlisis. Tampoco (el marco muestral) debe incluir unidades que no correspondan a la poblacin que se analiza. Debe contener informacin suplementaria, y debe ser fcil de analizar.

29

La diversidad de los anlisis de datos prevista: Hay que anticipar la variedad de anlisis que se estimen necesarios para la consecucin de los objetivos de la investigacin (anlisis multivariable, etc.). La varianza o heterogeneidad poblacional: Cuanto ms heterognea sea la poblacin, mayor ser su varianza poblacional, y se necesitar un mayor tamao muestral. El margen de error mximo admisible: Los incrementos en el tamao de la muestra reducen el error muestral. El error muestral interviene en la decisin sobre el tamao de la muestra siempre que el diseo muestral sea probabilstico. El nivel de confianza de la estimacin: El nivel de confianza es el grado de confianza que el investigador tiene en que su estimacin se ajuste a la realidad80.

5.3. El error muestral En el diseo de una muestra, el objetivo primordial es conseguir un elevado nivel de adecuacin en la seleccin de la muestra. Eso es para que la muestra adquiera validez externa. Igualmente, por muy perfecta que sea la muestra, siempre habr alguna divergencia entre los valores de la muestra y los de la poblacin. Esa disparidad es el error muestral. Es el grado de inadecuacin existente entre las estimaciones muestrales y los parmetros poblacionales. Si la extraccin de la muestra se ha llevado a cabo de forma aleatoria podr calcularse el error muestral con la ayuda de la teora de la probabilidad, en caso contrario no81. En el clculo del error tpico intervienen los elementos siguientes: El tamao muestral: Lo que determina el error muestral es el tamao de la muestra. A medida que aumenta el tamao de la muestra, decrece el error muestral. La varianza poblacional: El nivel de heterogeneidad de una poblacin favorece el error muestral, excepto si se aumenta el tamao muestral para incluir las distintas variedades que componen el universo. El nivel de confianza adoptado: Como aumentar el nivel de confianza supone ampliar el tamao de la muestra, obviamente un mayor nivel de confianza llevar consigo la reduccin del error muestral82. El tipo de muestreo realizado: En general, el muestreo aleatorio estratificado es el que genera un menor error muestral. El muestreo aleatorio por conglomerados es el que genera un mayor error muestral. 5.4. Tipos de muestreo: diseos muestrales probabilsticos y no probabilsticos La representatividad de una muestra depende del procedimiento seguido para la seleccin de las unidades muestrales. Pueden ser: Probabilsticas: Se funda en la aleatorizacin como criterio esencial de seleccin muestral. As, cada unidad de la poblacin tiene una probabilidad igual de
80

Tres son los niveles de confianza en la investigacin social. Corresponden a reas bajo la curva normal acotadas por distintos valores de desviacin tpica. De ellos el ms habitual es 2, que supone un 95,5% de probabilidades de acertar en la estimacin a partir de los datos muestrales. La plena seguridad en la investigacin (99,97%) se adquiere si se fijan en tres las unidades de desviacin tpica (3). 81 Para el clculo del error muestral en muestras probabilsticas se acude al estadstico llamado error tpico. Mide la extensin a la que las estimaciones muestrales se distribuyen alrededor del parmetro poblacional. El 68% de las estimaciones muestrales se hallarn comprendidas entre +/-1 vez el error tpico del parmetro poblacional, el 95,5% entre +/-2 veces, y el 99,7% entre +/-3 veces. En suma, el nivel de confianza de la estimacin aumenta cuando se ampla el margen de error. 82 Empero, esto acarrea una suba en los costes, por lo que el nivel ms usado es 2.

30

participar en la muestra. El error muestral no escapa de unos mrgenes especficos83. No probabilsticas: La extraccin de la muestra se efecta siguiendo criterios diferentes de la aleatorizacin. Repercute en la desigual probabilidad de las unidades de poblacin para formar parte de la muestra, dificultad de calcular el error muestral, y la introduccin de sesgos en el proceso de eleccin muestral. Sus ventajas son la prescindencia de un marco de muestreo, y su materializacin ms sencilla84. La eleccin de un tipo u otro est condicionada por la dotacin econmica de la investigacin, el tiempo disponible, la existencia de un marco muestral y el grado de precisin buscada. 5.4.1. Muestreo aleatorio simple: Su realizacin exige la existencia de un marco muestral. Se asigna a cada unidad de la poblacin un nmero de identificacin, para proceder a la extraccin aleatoria de los integrantes de la muestra. Se puede realizar por ordenador o con una tabla de nmeros aleatorios. Su desventaja es que requiere enumerar a las unidades, y resulta montono y arduo en poblaciones elevadas. 5.4.2. Muestreo aleatorio sistemtico: Difiere del muestreo aleatorio simple en dos aspectos fundamentales: Solo en la primera unidad la muestra se elige al azar, con la condicin de que el nmero seleccionado sea inferior al coeficiente de elevacin85. Los restantes nmeros de la muestra se obtienen sumando el coeficiente de elevacin hasta completar el tamao muestral. 5.4.3. Muestreo aleatorio estratificado: Es una de las ms practicadas, cuando se dispone de informacin sobre caractersticas de la poblacin de inters. Se clasifican las unidades de poblacin en un nmero reducido de grupos (estratos) en razn de su similaridad86. Las unidades para la muestra se consiguen a travs del azar. Hay cuatro principios bsicos en el diseo de un esquema de estratificacin: eleccin de las variables de estratificacin, orden de las variables de estratificacin, nmero de variables de estratificacin, y tamao de los estratos87. La precisin en la estimacin muestral solo se alcanzar cuando sean mximas las diferencias entre los estratos y mnimas dentro de cada estrato. Las variables de estratificacin ms usadas son sexo y edad. Tambin se usan la clase social, la ocupacin, el nivel de instruccin, etc. Tras la clasificacin de la poblacin en estratos, se tiende a afijar la muestra en cada estrato. Es la distribucin del tamao muestral global entre los estratos diferenciados. Puede haber afijacin simple88, afijacin proporcional89 y afijacin ptima90.
83 84

Se adeca ms a la estimacin de parmetros y a la comprobacin de hiptesis. Se adeca ms a la indagacin exploratoria, estudios cualitativos, e investigaciones sobre poblacin marginal. 85 Este coeficiente se calcula dividiendo el tamao del universo por el tamao de la muestra (N/n). 86 Con ello se percibe que cada estrato tenga representacin en la muestra final. 87 La estratificacin es ms adecuada cuando se divide a la poblacin en grupos de igual tamao. 88 Se asigna el mismo tamao de la muestra a cada estrato. Favorece a los estratos de menor volumen de poblacin, lo que es un inconveniente. 89 La distribucin de la muestra se hace proporcional al peso relativo del estrato en el conjunto de la poblacin. 90 Al peso relativo del estrato en la poblacin se aade la variabilidad (o heterogeneidad) del estrato respecto a la variable considerada en la estratificacin. Precisa del conocimiento de la varianza.

31

Estas tres modalidades de afijacin pueden ser proporcionales91 o no proporcionales92. 5.4.4. Muestreo aleatorio por conglomerados: Representa un procedimiento de seleccin aleatoria de un conjunto de individuos. Secciona la poblacin total en grupos. Cada conglomerado debe ser una representacin de la variedad de componentes del universo93. La unidad de muestreo es el conglomerado94. El muestreo polietpico por conglomerados se da al extraer una nueva muestra con referencia a cada uno de los conglomerados. Este muestreo es de especial inters cuando es difcil hacer una lista exhaustiva de todos los componentes de la poblacin, cuando se quiera reducir la duracin del trabajo. 5.4.5. Muestreo por cuotas: Constituye una variedad del muestreo no probabilstico. El propsito es establecer una muestra que se ajuste a la distribucin de las caractersticas fundamentales de la poblacin95. Las cuotas ms habituales son las determinadas por la conjuncin de las variables sexo y edad, en consonancia con su mayor accesibilidad. La clase social no puede usarse en las cuotas, por la carencia de fuentes estadsticas fiables, y la vaguedad en su definicin. Despus de la delimitacin de las cuotas, se proporciona a cada entrevistador su asignacin correspondiente: el perfil y el nmero de personas a entrevistar en cada cuota. Se da libertad al entrevistador para la eleccin de las unidades finales de la poblacin a entrevistar. La seleccin de los elementos concretos es totalmente arbitraria, lo que representa la principal debilidad de la modalidad, por la introduccin de sesgos. As, la muestra obtenida puede no ser representativa de la poblacin que se analiza. Para solucionar el sesgo se suele complementar con el muestreo de rutas aleatorias. 5.4.6. Muestreo de rutas aleatorias: Se establece la ruta o itinerario que el entrevistador ha de seguir en la seleccin de las unidades muestrales. Las rutas se eligen de manera aleatoria. La desventaja es que no todas las unidades de la poblacin tienen la probabilidad de ser elegidas. Se aconseja complementar con el muestreo por cuotas. 5.4.7. Muestreo estratgico: Es no probabilstico, y la seleccin de las unidades muestrales responde a criterios subjetivos, acordes con los objetivos de la investigacin. Basta con escoger a individuos que compartan las caractersticas de la muestra diseada para la investigacin cientfica.
91

La estratificacin se hace de manera que garantice una probabilidad igual de seleccin para todos los estratos. 92 La representacin de los estratos en la muestra final no es proporcional a su peso en el conjunto de la poblacin. Uno de sus inconvenientes es la necesidad de ponderar la muestra, que es asignarle pesos a cada estrato, de manera que logre compensarse la desigual probabilidad de seleccin dada a cada unidad de poblacin que compone el estrato. Para esto, se divide el porcentaje que representa el estrato en el universo entre el porcentaje que representa en la muestra. As se obtienen los pesos, que luego se multiplicarn por cada una de las estimaciones muestrales. 93 Un conglomerado debe ser igual a otro, la variacin se encuentra dentro de cada conglomerado. 94 Los conglomerados tienen que estar bien definidos y delimitados. El nmero de elementos que componen el conglomerado ha de ser conocido previamente, debe haber pocos conglomerados. 95 Por ejemplo, si el objetivo de estudio fuese comprobar la influencia del nivel educativo de las personas en sus actividades de ocio, la poblacin debera estratificarse por nivel educativo.

32

5.4.8. Muestreo de bola de nieve: Es no probabilstico, y las unidades muestrales van escogindose a partir de las referencias aportadas por los sujetos a los que ya se ha accedido. La muestra va aumentando como una bola de nieve, hasta que el investigador decida cortar. Es de gran utilidad cuando se carece de marco muestral. -------------------Se ver el texto de D. A. LIND, MARCHAL y R. D. MASON, Estadstica para administracin y economa. 8. Mtodos de muestreo y el teorema del lmite central Muestreo de la poblacin El muestreo es necesario por la naturaleza destructiva de ciertas pruebas, la imposibilidad fsica de revisar todos los integrantes de la poblacin, el costo de estudiar a todos los integrantes de una poblacin, lo adecuado de los resultados de la muestra. Mtodos de muestreo de probabilidad Una muestra probabilstica se selecciona de modo que cada integrante de la poblacin en estudio tenga una probabilidad conocida (pero distinta de cero) de ser incluido en la muestra. Hay diferentes mtodos: Muestreo aleatorio simple: Es una muestra seleccionada de manera que cada integrante de la poblacin tenga la misma probabilidad de quedar incluido. Muestreo aleatorio sistemtico: Los integrantes o elementos de la poblacin se ordenan en alguna forma en un archivo. Se selecciona al azar un punto de partida, y despus se elige para la muestra cada k-simo elemento de la poblacin96. Muestreo aleatorio estratificado: Una poblacin se divide en subgrupos, denominados estratos, y se selecciona una muestra de cada uno. Puede seleccionarse una muestra proporcional o no proporcional. Muestreo por conglomeracin Error de muestreo Es la diferencia entre un valor estadstico de muestra y su parmetro de poblacin correspondiente. Se puede conseguir rpidamente haciendo la media de la muestra menos la media de la poblacin. Distribucin de muestreo de medias muestrales Es una distribucin de probabilidad que consta de todas las medias muestrales posibles de un tamao de muestra dado97. Teorema de lmite central Permite el uso de la teora de la distribucin de probabilidad normal para crear los intervalos de confianza de la media poblacional y realizar pruebas de hiptesis. Dice
96 97

No debe utilizarse una muestra sistemtica si hay un patrn predeterminado en la poblacin. Es el conjunto de los diferentes promedios que podemos obtener segn que unidades utilicemos para la muestra. Para determinar la distribucin de muestreo de las medias muestrales se realiza: N/ [n (N n)] donde N = nmero de elementos en la poblacin, y n = cantidad de los mismos en la muestra.

33

que si se seleccionan de cualquier poblacin todas las muestras de un tamao determinado, la distribucin de las medias muestrales se acercar a una del tipo normal. Esta aproximacin aumenta en el caso de muestras ms grandes. Indica que sin importar la forma de la distribucin de la poblacin, la distribucin de muestreo de la media de la muestra se mover hacia la distribucin normal de probabilidad. Cuanto mayor sea el nmero de observaciones en cada muestra, la convergencia aumentar.

34

UNIDAD 4
4.1: El anlisis cuantitativo de datos I: La matriz de datos como insumo producto. Los tres niveles del anlisis de una matriz de datos. Anlisis segn la variable. Anlisis descriptivo univariado: tablas de frecuencias, grficos y medidas resmenes (tendencia central, dispersin y posicin).
El insumo para el anlisis de datos sale del cuestionario. Debo codificar las respuestas e informatizarlas. As, voy a ir conformando la matriz de datos. En ella se coloca toda la informacin codificada e informatizada. Tiene una estructura rgida, con filas (donde se encuentran las unidades de anlisis), columnas (donde se encuentran las variables) y celdas (donde se encuentran los datos). Luego de llenar la matriz de datos, debo procesarla para conseguir resultados. Analizaremos la matriz de datos siguiendo las variables, a travs de ellas. Este anlisis puede ser de descripcin o de relacin explicativa. En el primer caso, estaremos en la presencia de la estadstica univariada (nos muestra como analizar los datos para describir al conjunto univariado), y en el segundo caso en la presencia de estadstica divariada o multivariada. -------------------El anlisis univariado emplea frecuentemente las llamadas tablas de distribucin de frecuencias. Es un mero conteo de una variable. Solo muestro, describo98. Se puede usar con variables nominales, ordinales, de intervalo o de razn. En las nominales u ordinales se usan los valores absolutos de la variable. Para comparar, necesitamos de frecuencias relativas. As, podemos conseguir una tabla de distribucin de frecuencias relativas. Aqu los valores se expresan en trminos porcentuales (6%) o de proporciones (0,6)99. Son tiles para comparar dos o ms distribuciones de frecuencias. Tambin existen las tablas de distribucin de frecuencias acumuladas. Permite determinar cuantas frecuencias se encuentran por encima o debajo de ciertos valores100.
98

Por ejemplo, contar cuantas personas hay de cada religin en una poblacin. Religin Total Catlico 700.000 Evanglico 150.000 Judo 25.000 Musulmn 10.000

99

Para conseguir las proporciones, debo dividir la frecuencia absoluta con la que estoy trabajando, sobre el total de la poblacin. Para conseguir el porcentaje multiplico este valor por 100. 100 Por ejemplo, Sueldo Frecuencia Absoluta Frecuencia Acumulada

35

Cuando la variable es de intervalo o de razn puedo colocar tantas filas como ingresos haya. Esto es muy complicado, por lo que lo simplifico creando grupos por intervalos101. Cada grupo se denomina clase. Cmo llevo a cabo su construccin? No pueden dejar de ser exhaustivas. Aunque el lmite declarado de una clase sea $600 y $799, los lmites verdaderos (en este caso) sern $599,50 y $799,50 (no inclusive). As, debo seguir siendo inclusivo y excluyente. Las clases de extremo abierto tienen uno de sus extremos no definido102. Cunto vale su punto medio? No puedo calcularlo, y eso es un inconveniente. Sin embargo, a veces es necesario crear esta clase para simplificar. El intervalo de clase es la amplitud de la misma. Se consigue restando el lmite superior y el inferior (lmite superior lmite inferior). Es deseable que sea el mismo a lo largo de toda la tabla, aunque no siempre es posible ni real. Cul es el nmero ideal de clases? Dentro de lo posible, no menos de 4 y no ms de 10 12. Es una cuestin definida por la prctica, no tiene un porqu terico. Cmo fijo los lmites de cada clase? Es arbitrario, pero siempre se trata de usar los nmeros ms redondos posibles.

realizan con miden superficie, no la barra mide un Conviene no usar porque no se podra para datos agrupados, de intervalo o de razn.

En cuanto a la representacin grfica de este tipo de tablas de frecuencias, se histogramas. Estos altura. El ancho de intervalo de clase. clases abiertas, representar. Se usa

$0 $1.000 $1.001 $2.000 $2.001 $3.000 $3.001 $4.000


101

10 21 5 2

10 31 36 38

Por ejemplo, si tengo 200 datos de diferentes sueldos entre $0 y $1.500, puedo crear tres intervalos ($0 $500; $501 $1.000; y $1.001 $1.500). 102 Por ejemplo, la clase $2.500

36

Tambin se pueden graficar con polgonos de frecuencias. Es una lnea poligonal que une los puntos medios de cada clase con sus correspondientes frecuencias. Los diferentes grficos se adaptan al tipo de variables presentadas (nominales, ordinales, de intervalo o de razn). Reflejan con exactitud los datos. En cuanto a las cuestiones tcnicas de presentacin, cada grfico debe tener una numeracin, un ttulo (compuesto por la/s variable/s graficada/s), lugar y fecha, una unidad de medicin ($, porcentajes, etc.), y una fuente (de donde consegu aquellos datos). Hay diferentes tipos de grficos: Barras: Se utilizan para variables de niveles nominales u ordinales, tanto para valores absolutos como relativos. Se pueden colocar de manera vertical u horizontal103. Tambin pueden existir grficos de barras seccionados, que sirven para comparar distribuciones internas dentro de cada unidad o barra. Todas terminan en 100%104. Tiene una falencia: el de tener muchas categoras dentro de cada barra, por lo que pueden dificultar la comparacin. Circulares (torta): Se usan para las variables nominales y ordinales, de intervalo y de razn, expresadas en intervalos de clase. Principalmente se usan trminos relativos. La falencia es que no puedo saber siempre la cantidad de casos. Debera decir, abajo, cuantos son los casos totales. Lineal: Se usan para variables de intervalo / de razn, principalmente comparando con la variable tiempo, permitiendo la graficacin de tendencias. Puede comparar varias unidades fcilmente. Para analizar, hay que ver desde cuando (y con que valor) se empieza. Luego lo comparo con el final de la lnea. Al ver las puntas puedo detectar una tendencia general, lo que se dio en el periodo. Analizo tambin valores mximos, mnimos y ciclos atpicos. Esto hay que describirlo y hay que hacerlo notar. Hay formatos alternativos, como el de las personitas que tiene la falencia de la tridimensin, que hace ms grande a algunas superficies. El de las canastas partidas no puede comparar solamente a travs de los dibujos. As se cometen muchas falacias, y hay modelos inventados que tienen falencias.
103 104

El horizontal se da cuando hay muchas categoras en la variable descripta. Por ejemplo, la composicin de la compensacin del mercado bancario (que parte es salario bruto, seguros, beneficios, etc.).

37

Hay que prestar atencin a la escala. Las escalas van en el eje Y, aunque a veces son colocadas en el eje X. -------------------Se ver ahora las llamadas medidas resumen, que son las que resumen muchos datos en uno solo. Se dividen en medidas de tendencia central y medidas de dispersin. Medidas de tendencia central: Expresan otra forma de describir los datos, cuyo objetivo es sealar el centro de distribucin de frecuencias. Son las siguientes: Moda: Aplicable a todos los niveles de medicin de variables (nica medida para las variables nominales). Sirve tanto para variables discretas como para variables continuas. Se puede graficar. La moda es el valor con mayor frecuencia (el ms repetido). Si hay dos modas, se expresan las dos, y es un caso bimodal. No tiene mucha utilidad, ms que saber cual es el valor que se repite ms veces. Mediana: Se puede usar con variables ordinales y escalares (de intervalo / de razn). Ordeno las variables de menor a mayor, o viceversa; y corto el segmento en dos partes iguales105. Para conocer la posicin de la mediana, debemos calcular (n+1)/2, donde n es el nmero de casos que tengo. As se determina el valor de la mediana106. Si el mayor valor de mi serie cambia de 89 a 8.900, la mediana ser la misma porque, una vez ordenados, solo importa el nmero de casos (su posicin) y no sus valores. Entonces, es una medida robusta, porque no est influenciada por los valores de las variables. Media Aritmtica (Promedio): Solo se usa para variables escalares (numricas). Su frmula es X = xi/n. Es la sumatoria de valores dividido el nmero de casos. Es una medida sensible, porque es influenciable por los valores extremos, a diferencia de la mediana. Hay problema si mi conjunto de datos es homogneo, excepto uno. Vara segn los cambios de valores. Su ventaja es que tiene en cuenta a todos los valores del conjunto. Hay que trabajar a las tres medidas en conjunto, para poder comparar entre una y otra medida. Haciendo un clculo comparado, puede haber casos en los cuales, ante un valor extremo, la mediana puede no variar mientras la media s. Segn las diferencias entre ambas, podemos ver si ese valor influye mucho o no107.

105 106

As, la mitad de los casos ser menor a la mediana, y la otra mitad ser mayor. Por ejemplo, yo tengo una serie de datos con valor 89, 5, 15, 6, 9, 6, 7.5. Primero debo ordenarlos de menor a mayor o de mayor a menor, por lo que me quedar 5, 6, 6, 7.5, 9, 15, 89. Luego realizo la frmula (7+1)/2 = 4. As, la cuarta posicin de mi serie de datos ser la mediana (en este caso, 7.5). La frmula es (n+1)/2. La frmula cambia con una serie de datos impar. Supongamos que a mi serie de datos anterior le agrego el nmero 100. Quedar de la siguiente manera: 5, 6, 6, 7.5, 9, 15, 89. As, la frmula de la mediana me dar como resultado 4.5. En ese caso tomo los dos valores continuos (el 4 y el 5; o sea, 7.5 y 9), y realizo la siguiente frmula: (7.5+9)/2 = 8.25. Esa ser la mediana. 107 Esta es la notacin de las diferentes medidas:

38

El clculo es diferente cuando es para datos agrupados: Media: Hay que sacar el punto medio de cada clase, luego la frecuencia por punto medio. Se suman todas las frecuencias por punto medio, y se divide el total por la cantidad de casos. La frmula es x / n (o sea, sumatoria de frecuencias por punto medio dividido el nmero de casos). Mediana: La frmula es la siguiente L + [(n/2FA)/] x (i)108. Cuando llego a una clase que me hace pasar la mediana, ah est el valor.

Medidas de dispersin: Apuntan a reflejar con un solo dato que tanto los valores se alejan de lo central. Sin estos, solo con las de tendencia central hay casos que nos pareceran iguales, pero no lo seran en realidad. Muestran la homogeneidad o heterogeneidad del conjunto de datos. Son las siguientes: Amplitud total: Es la diferencia (resta) entre el valor mximo y el valor mnimo de las series de datos. No me es muy til porque puede haber dos extremos aislados, por ejemplo. No tiene en cuenta el conjunto de datos. Varianza: La varianza es la media aritmtica de las desviaciones cuadrticas con respecto a la media. Su frmula es: 2 = [(x: 2)] / n109. Corresponde a la suma de cada uno de los datos originales

108

Donde L (lmite inferior de la clase que contiene a la mediana), FA (frecuencia acumulada de la clase anterior a la mediana), (frecuencia de la clase que contiene a la mediana) e (i) (intervalo de clase que contiene a la mediana). En el ejemplo del Power Point del profesor Coronel, la frmula sera la siguiente: 1.399,50 + [(60-43)/40] x 200 = $1.484,50. 109 Por ejemplo, de una serie de datos $5, $6, $7, $8 y $9; la frmula sera la siguiente: 2 = [(5-7)2 + (62 7) + (7-7)2 + (8-7)2 + (9-7)2] / 5 = 10 / 5 = 22.

39

menos el promedio, dividido el nmero de casos. Su desventaja es que expresa todo en nmeros cuadrados110. Para solucionar esto es que se usa el desvo estndar. La varianza muestral es S2 = [ (x: - X)2] / (n-1). Desvo estndar: Es la raz cuadrada de la varianza. Su frmula es S = varianza111. Cuanto ms se acerca al 0, ms homogneo es el conjunto. Son medidas sensibles a los valores extremos112. Coeficiente de variacin: Es el cociente del desvo estndar sobre la media, expresado en porcentaje. Su frmula es CV = (S / X) x 100. Significa desvo estndar sobre la media por 100. Es muy til para comparar directamente dos o ms mtodos de dispersin cuando los datos estn expresados en unidades diferentes, o cuando los datos estn en las mismas unidades, pero las mismas son muy distantes. Amplitud cuartlica y centlica: La amplitud cuartlica es el rango entre los cuartiles113 centrales (el 50% central). Para medir la posicin del primer cuartil se hace la frmula Q1 = (n+1) / 4, y para medir la posicin del tercer cuartil se hace la frmula Q3 = [3(n+1)] / 4.

Estas medidas se grafican en boxplot. Es una frmula rpida de ver el punto central (mediana) y la dispersin (amplitud cuartlica).

TEXTOS Se ver un texto de CEA DANCONA: Metodologa Cuantitativa. Estrategias y tcnicas de investigacin. 9. El anlisis de los datos Esta fase comienza una vez que ha concluido la recogida de informacin. 9.1. Los preliminares del anlisis de datos El preliminar esencial es la creacin de los ficheros de datos114, junto a la depuracin de la informacin115. 9.2. El anlisis estadstico univariable 9.2.1. La distribucin de frecuencias: En la exploracin de los datos, primero se procede a un anlisis exhaustivo de cada variable incluida en la matriz de datos (anlisis univariable). Para cada una de las variables se calcula su tabla de frecuencias, que incluye los distintos valores que presenta la variable, acompaados por su frecuencia.
110 111

Por ejemplo, en el caso de la nota al pie anterior sera 2$ 2. En el caso de la nota al pie anterior sera 2$2 = $1,41. 112 Para distribuciones de valores de manera campanular / normal, el 68% de los datos se encontrarn a +/- 1 desvo de la media, el 95% a +/- 2 desvos y el 99,7% a +/- 3 desvos. Son porcentajes estndares. Esto me permite saber a priori que porcentaje de mis datos originales caen a X rangos de la media. 113 La divisin por cuartiles es la divisin del total en 4 conjuntos ordenados de menor a mayor. 114 Cada programa informtico comprende instrucciones concretas para la creacin de ficheros de datos propios y ficheros de definicin de los datos (comprenden instrucciones precisas para la lectura de los datos que componen el fichero de datos). 115 El investigador ha de identificar posibles errores cometidos en la grabacin de los datos.

40

Para conocer la importancia de cada valor, se obtienen las frecuencias relativas o porcentuales, que representan cada valor en el conjunto de la muestra. Por ltimo, se calculan las frecuencias relativas acumuladas, que denotan la proporcin de casos que se encuentran por debajo, o por encima, de un determinado valor de la variable. Cuando la variable est medida a nivel de intervalo, se aconseja la previa agrupacin de los valores. 9.2.2. Representaciones grficas: La informacin contenida en una tabla de frecuencias tambin puede representarse de forma grfica. Dos de los grficos habituales en la representacin de frecuencias son el diagrama de barras y el histograma. El diagrama de barras consiste en una serie de barras (una por cada categora de la variable), cuyas longitudes expresan las frecuencias de cada atributo de la variable. El histograma es un grfico de contenido similar al anterior, aunque ms adecuado a la representacin de variables escalares. En lugar de barras, el grfico se corresponde de rectngulos unidos. Por eso se exige que la variable est agrupada en intervalos. As, la base de cada rectngulo estar delimitada por los lmites reales de cada intervalo, y su altura por la frecuencia. Otros que se usan son el tronco y las hojas y la caja. El polgono es un grfico lineal que se traza sobre los puntos medios116 de cada intervalo, a una altura proporcional a su frecuencia. Las ojivas son polgonos de frecuencias acumuladas que muestran la frecuencia de casos por encima o debajo de un determinado valor de la distribucin. El grfico de sectores (torta) se representa mediante un crculo dividido en sectores, cuyos ngulos indican el porcentaje de casos que comparten cada atributo de la variable. Hay que pasar los porcentajes a grados. 9.2.3. Estadsticos univariables: Miden, de manera precisa, la distribucin de los valores de una variable. Su uso depender del nivel de medicin de la variable. Pueden ser: Medidas de tendencia central: Describen como se agrupan los atributos de una variable alrededor de un valor tpico de la distribucin. Proporcionan una sntesis de la informacin contenida en la distribucin. Las ms empleadas son:
116

Los puntos medios se calculan sumando los lmites de los intervalos, y dividiendo entre 2.

41

o Media: Es la medida ms representativa, solo utilizable con variables escalares. Se multiplican los valores de la distribucin por sus frecuencias absolutas, y se dividen por el total de casos117. Es el promedio de los valores de la distribucin. Su inconveniente es que se ve afectado por los valores extremos. o Mediana: Es el valor que divide a la distribucin en dos partes iguales. Se sita en el medio de la distribucin. Permite el conocimiento de los valores de mayor representacin en la muestra. Funciona con variables ordinales, de intervalo y de razn. o Moda: Denota el valor de mayor frecuencia en una distribucin, aquel que ms casos comparten. La distribucin puede ser unimodal, bimodal o multimodal. Su principal ventaja es su universalidad (sirve para todo tipo de variable). Medidas de dispersin: Miden la mayor o menor variabilidad existente en torno a la media o la mediana de la distribucin. Las ms comunes son: o Rango o recorrido (amplitud total): Expresa el nmero de valores incluidos en la distribucin. Se obtienen de la diferencia entre el valor superior y el inferior. Es susceptible a los valores extremos118. o Desviacin tpica: Es el promedio de la desviacin de los casos con respecto a la media. Como indicador de heterogeneidad, su estimacin se exige siempre que se calcule la media. Sirve solo para variables cuantitativas119. o Varianza: Se define como el cuadrado de la desviacin tpica. -------------------Se ver un texto de JUAN SAMAJA: Epistemologa y Metodologa.

Parte IV Fase 4. Diseo de los procedimientos a. Diseo de las muestras posibles: Las investigaciones cientficas intentan establecer las relaciones lgicas entre lo particular y lo universal. Cualesquiera sean los materiales que se estudien, ellos son una muestra del universo. La muestra es cualquier subconjunto de un universo bien definido. La evaluacin de una muestra es un acto lgica y epistemolgicamente complejo. En una misma investigacin hay tantas muestras como matrices de datos estn en curso de estudio. Criterios para organizar el plan de tratamiento y anlisis de datos i. Anlisis centrado en la variable: Es un anlisis descriptivo, que determina una distribucin de frecuencias de los valores obtenidos. Si hay muchos casos, se pueden agrupar las respuestas en categoras. ii. Anlisis centrado en las unidades de anlisis: Cada unidad de anlisis presenta valores diversos en cada una de las variables estudiadas. Estos valores no
117 118

Frmula: [ (Valor de la Variable x Frecuencia absoluta)] / Nmero de casos. Para solucionar la sensibilidad a los valores extremos, se aplican otras medidas de rango, que exigen que la variable sea, al menos, ordinal. Se trata de los recorridos intercuartlico (la diferencia entre el tercer cuartil y el primero; por lo que incluye al 50% de los valores centrales de la distribucin), semiintercuartlico (25% de los valores centrales), interpercentlico (diferencia entre el percentil 90 y el 10, contiene al 80% de los valores centrales), y el semiinterpercentlico (40%). 119 A partir de la desviacin, puede calcularse una medida de dispersin relativa que ayudar en su interpretacin. Es el coeficiente de variabilidad de Pearson. Se obtiene del cociente entre el valor de la desviacin y la media aritmtica (S / X) X 100.

42

pueden ser sumados ni restados, pero s pueden ser caracterizados como configuraciones variadas de atributos para inferir la dinmica integral. iii. Una tercera direccin del anlisis: anlisis centrado en el valor. Operacionalizacin: Es la tarea destinada a completar las definiciones operacionales previamente adoptadas, mediante la identificacin de los procedimientos precisos para llevar a cabo las mediciones respectivas. -------------------Se ver el texto de D. A. LIND, MARCHAL y R. D. MASON, Estadstica para administracin y economa. 2. Descripcin de los datos Elaboracin de una distribucin de frecuencias Es el agrupamiento de datos en categoras mutuamente excluyentes, que indican el nmero de observaciones en cada categora. Para realizarla, el primer paso es determinar el nmero de clases. El objetivo es usar suficientes grupos, o clases, que indiquen la forma de la distribucin120. Veamos el siguiente ejemplo, donde se transfirieron todos los vehculos vendidos por una concesionaria en un mes a la siguiente tabla: Precio de venta del vehculo Nmero de vehculos $12.000 hasta $15.000 8 $15.000 hasta $18.000 23 $18.000 hasta $21.000 17 $21.000 hasta $24.000 18 $24.000 hasta $27.000 8 $27.000 hasta $30.000 4 $30.000 hasta $33.000 2 Total 80 Luego hay que determinar el intervalo o amplitud. Generalmente el intervalo o amplitud de las clases debe ser el mismo para todas ellas. El tercer paso es establecer los lmites de cada clase. Es necesario establecer lmites de clase claros de manera que cada observacin pertenezca solo a una clase. El diseo debe ser exhaustivo e incluyente. Luego se distribuyen los diferentes datos en las distintas clases. Hecho esto, se cuenta el nmero de elementos en cada clase. Tenemos las frecuencias. Intervalos de clase y puntos medios de clase: El punto medio se localiza a la mitad entre los lmites inferiores de dos clases consecutivas. Se puede calcular sumando el lmite inferior de la clase al lmite superior de la misma, y dividiendo el resultado por dos121. Para determinar el intervalo de clase se resta el lmite inferior de una clase, del lmite inferior de la siguiente, o encontrando la distancia entre dos puntos medios consecutivos.
120

Para calcular el nmero de clases, debemos realizar 2 a la k, eligiendo como k el valor inmediatamente superior a n (nmero de casos). 121 Frmula: (Lmite superior de clase Lmite inferior de clase) / 2.

43

Distribucin de frecuencias relativas Muestran el porcentaje del nmero total de observaciones en cada clase. Cada frecuencia de clase se divide entre el nmero total de observaciones. Representaciones de tallo y hoja Es una tcnica estadstica que muestra un conjunto de datos. Cada valor numrico se divide en dos partes: los dgitos principales se toman como el tallo, y el dgito siguiente es la hoja. Los tallos se ubican a lo largo del eje vertical principal, y las hojas de cada observacin, a lo largo del eje horizontal122. Representacin grfica de una distribucin de frecuencias Los diagramas ms utilizados son los siguientes: Histograma: Es una grfica en la que las clases se marcan en el eje horizontal y las frecuencias de clase en el eje vertical. Las frecuencias de clase estn representadas por las alturas de las barras, y estas se colocan adyacentes una a otra. Mide solamente variables escalares. Polgono de frecuencias: Est formado por los segmentos de recta que unen a los puntos medios de clase y las frecuencias de clase. En el eje X se grafica el punto medio de clase. Su ventaja es que permite comparar en forma directa dos o ms distribuciones de frecuencias. Tambin se puede graficar un polgono de frecuencias acumuladas. Otras representaciones grficas de datos: Pueden ser: o Grficos de lneas: Muestra el camino de una variable a travs del tiempo. en la misma grfica se pueden representar dos o ms series de cifras. o Grfico de barras: Muestra cualquiera de los niveles de medicin (nominal, ordinal, de intervalo o de razn. Las barras pueden ser horizontales o verticales123. o Grfico circular: Es especialmente til para mostrar los datos de nivel nominal.

Grficos engaosos El grfico no debe llevar a una conclusin o a una interpretacin errnea. Una de las formas ms fciles para conducir al lector a una interpretacin errnea es hacer que la extensin del eje Y sea muy pequea en trminos de las unidades que se utilizan para ese eje. Tambin es engaoso comenzar con un valor diferente de 0 sobre el eje Y.

122

Por ejemplo, la fila 8 | 6 9 8 1 3, significa que entre el 80 y el 90 se encuentran los valores 86, 89, 88, 81 y 83. 123 Hay un espacio entre las barras, lo que los diferencia de los histogramas, donde no hay espacio entre las barras, debido a que representan una escala de intervalo o de razn.

44

3. Descripcin de los datos (medidas de tendencia central) Una medida de tendencia central es un valor nico que resume un conjunto de datos. Seala el centro de los valores. Media poblacional Debe contener los datos de toda la poblacin a analizar, no es poblacional si se realiza con una muestra. Es la suma de todos los valores de la poblacin, dividida entre el nmero total de dichos datos. = (X) / N. Cualquier caracterstica medible de una poblacin se denomina parmetro. La media de una poblacin es un parmetro. Media muestral La media muestral es la media de los datos que componen nuestra muestra. Se consigue haciendo la suma de todos los valores de la muestra dividido por el nmero de todos los valores en la muestra. X = (X) / N. La media de la muestra es un dato estadstico. Propiedades de la media aritmtica Todo conjunto de datos de nivel intervalo tiene un valor medio. La media es un valor nico. Es una medida muy til para comparar entre dos o ms poblaciones. Puede considerarse como un punto de equilibrio de un conjunto de datos. Tiene varias desventajas. Es muy sensible a los valores extremos. Adems, no se puede determinar la media para datos con un extremo abierto. Media ponderada Es un caso especial de la media comn (aritmtica). Se presenta cuando hay varias observaciones de un mismo valor, lo cual puede ocurrir si los datos se han agrupado en intervalos. En la media ponderada cada observacin se multiplica por el nmero de veces que se presenta124. Mediana Es el valor que corresponde al punto medio de los valores despus de ordenarlos de menor a mayor, o de mayor a menor. Cincuenta por ciento de las observaciones son mayores que la mediana, y 50% son menores que ella. La mediana tiene la ventaja de no ser afectada por valores extremos. Se puede determinar para datos de todos los niveles, excepto del nominal. Solo existe una mediana para un conjunto de datos. Puede calcularse para una clase de extremo abierto, si la mediana no se encuentra en esa clase. Moda La moda es el valor de la observacin que aparece con ms frecuencia. Es especialmente til para describir los niveles de medicin nominal y ordinal. No se ve afectada por los extremos. Se puede usar con clases con extremo abierto. Su gran desventaja es que puede no existir, cuando no hay ningn dato que se repita ms de una vez. Por el contrario, hay ciertos conjuntos donde hay ms de una moda. Media, mediana y moda de datos agrupados
124

Por ejemplo, Xw (X barra subndice w es la notacin). Xw = [3(0,90) + 4(1,25) + 3(1,50)] / 10 = 12,20 / 10 = 1,22. Se puede resumir como [ (wX)] / W.

45

Como muchas veces no se poseen los datos originales, hay que estimar las medidas: Media aritmtica: Se considera que las observaciones en cada clase estn representadas por el punto medio de la clase. Se calcula de la siguiente manera: X raya = (X) / n. Esto significa sumatoria de los productos (frecuencia de cada clase multiplicada por el punto medio) dividido el nmero total de frecuencias. Mediana: No es posible determinar la mediana exacta, pero puede estimarse. Se realiza con la frmula L + [(n/2-FA)/] x (i)125. Se puede determinar en casos en que haya clases con extremos abiertos. Moda: Es posible aproximar la moda usando el punto medio de la clase que contiene el mayor nmero de frecuencias de clase. La moda estimada es el punto medio de la clase modal.

5. Otras medidas descriptivas Se estudiarn las medidas de dispersin. Por qu estudiar la dispersin? Se estudia debido a que las medidas de tendencia central nada indican acerca de la diseminacin de los datos. Un valor pequeo en una medida de dispersin indica que los datos se acumulan estrechamente, por ejemplo, alrededor de la media aritmtica. Por el contrario, una medida de dispersin grande indica que la media no es confiable. Una segunda razn para estudiar la dispersin de un conjunto de datos es comparar la dispersin en dos o ms distribuciones. Medidas de dispersin Son las siguientes: Amplitud (o intervalo) de variacin: Se trata de la diferencia entre el valor ms grande y el ms pequeo de un conjunto de datos. Desviacin media: La amplitud de variacin solo controla el mximo y mnimo dato. La desviacin media lo corrige y controla todos. Mide el monto medio en que varan los valores de una poblacin, o muestra, con respecto a su media. Es el promedio aritmtico de los valores absolutos de las desviaciones con respecto a la media aritmtica. Se expresa de la siguiente manera: DM = ( |X X raya|) / n126. La desviacin media tiene dos ventajas. Utiliza en su clculo todos los valores en la muestra. Adems, es fcil de comprender. Su principal desventaja es el uso de valores absolutos. Varianza y desviacin estndar: La varianza y la desviacin estndar se basan en las desviaciones con respecto a la media. La varianza es la media aritmtica de las desviaciones cuadrticas con respecto a la media. La desviacin estndar es la raz cuadrada positiva de la varianza.

125

Donde L (lmite inferior de la clase que contiene a la mediana), FA (frecuencia acumulada de la clase anterior a la mediana), (frecuencia de la clase que contiene a la mediana) e (i) (intervalo de clase que contiene a la mediana). En el ejemplo del Power Point del profesor Coronel, la frmula sera la siguiente: 1.399,50 + [(60-43)/40] x 200 = $1.484,50. 126 Esto significa que es la suma de los valores de cada observacin menos la media aritmtica, dividido el nmero de observaciones de la muestra. Se toman los valores absolutos, sin signos algebraicos (son todos nmeros positivos).

46

o Varianza poblacional: Se obtiene por medio de la frmula 2 = [ (X 2)] / N. o Desviacin estndar poblacional: La varianza es difcil de entender porque las unidades estn al cuadrado. Al obtener la raz cuadrada de la varianza poblacional, se transforma a un valor que tiene la misma unidad de medicin que los datos originales. La frmula es = [ (X 2)] / N. o Varianza muestral: La frmula es S2 = [ (X X raya)2] / (n 1). o Desviacin estndar muestral: Es un estimador de la deviacin estndar poblacional. La frmula es S = {X2 [(X)2 / n]} / (n 1). Medidas de dispersin para datos agrupados en una distribucin de frecuencias Amplitud de variacin: Para calcular la amplitud de variacin a partir de datos agrupados en una distribucin de frecuencias, se resta el lmite inferior de la clase ms baja, del lmite superior de la clase ms alta. Desviacin estndar: La frmula es: S = {X2 [(X)2 / n]} / (n 1)127. Interpretacin y usos de la desviacin estndar Teorema de Chebyshev: Una desviacin estndar pequea para un conjunto de valores, indica que los mismos se localizan cerca de la media. El matemtico Chebyshev dice que para un conjunto cualquiera de observaciones, la proporcin mnima de los valores que se encuentran dentro de k desviaciones estndar desde la media es por lo menos 1 (1/k2), donde k es una constante mayor que uno. Regla emprica: En una distribucin de frecuencia simtrica con forma de campana, aproximadamente el 68% de las observaciones estarn en +1 y -1 desviacin estndar de la media; aproximadamente 95% de las observaciones se encontrarn entre +2 y -2 desviaciones estndar de la media; prcticamente todas las observaciones (99,7%) se hallarn entre +3 y -3 desviaciones estndar a partir del valor medio. Dispersin relativa: Sirve para convertir las desviaciones estndar a un valor relativo que nos permita comparar. Se hace a travs del coeficiente de variacin (CV). Es el cociente de la

127

Donde S = desviacin estndar muestral, X = punto medio de una clase, f = frecuencia de clase y n = nmero total de observaciones en la muestra.

47

desviacin estndar y la media aritmtica, expresada como un porcentaje. La frmula es CV = (S / X raya) x 100. Otras medidas de dispersin Un mtodo es determinar la ubicacin de los valores que dividen un conjunto de observaciones en partes iguales. Estas medidas son los cuartiles, los deciles y los percentiles. Los cuartiles dividen un conjunto de observaciones en cuatro partes iguales. El primer cuartil (Q), es el valor abajo del cual se encuentra el 25% de las observaciones, y el tercer cuartil (Q3), es el valor por abajo del cual se encuentran el 75% de las observaciones. Lgicamente, Q2 es la mediana. Diagramas de caja: Un diagrama de caja es una representacin grfica basada en los cuartiles, que ayuda a ilustrar un conjunto de datos.

48

UNIDAD 5
5.1: El anlisis cuantitativo de datos II: Anlisis inferencial: probabilidad y distribucin de probabilidades. Test de hiptesis. Teorema del lmite central. Clculo del tamao de la muestra aleatoria probabilstica.
El problema del anlisis bivariado, es que por lo general los datos que utilizo vienen de muestras. Tenemos que asegurarnos, entonces, que los datos sean significativos. Esto intenta responder a la pregunta sobre si las diferencias que se observan en los resultados provienen de una mera cuestin del azar en la muestra o si efectivamente son el reflejo de un comportamiento poblacional. Para realizar esto, primero debo establecer mi nivel de confianza. Luego voy a realizar un test de hiptesis. Voy a testear mis datos. Si pasan el test, los tomar en cuenta para el anlisis; si no lo pasan, la tabla queda descartada. Este es un paso que debo realizan antes del anlisis bivariado. Para las tablas de contingencia el estadstico de prueba es el chi cuadrado (2). El valor es el valor de chi cuadrado para la tabla de contingencia. La significatividad asinttica / bilateral es el llamado p-valor. La imagen muestra la distribucin para 2 con un nivel de confianza del 95%. El 2 de la tabla con la que trabajar me es otorgado por los programas estadsticos, como el SPSS (ver tabla). Una vez obtenido, lo comparo con el 2 crtico. Si cae dentro del rea del 5%, significa que las posibilidades de que mi tabla sea significativa son altas (mis datos son significativos), por lo que la tabla no se rechaza y se prueba (significa que mis datos son significativos, y no responden meramente al azar). Si mi significatividad es mayor a, en este caso, 0,05, la tabla queda descartada. Este es el testeo a travs del p-valor, que me dice cuanta superficie me queda desde el 2 de la tabla al infinito128. Para la comparacin de medias el test de significatividad se realiza a travs de F (Fisher). El test de hiptesis se realiza mediante una tabla anova.

128

Por ejemplo, en este caso mi p-valor crtico es 0,05, por lo que el de la tabla usada deber ser menor a 0,05 para que sea significativa.

49

Necesitamos un p-valor de la tabla de comparacin de medias (Sig). Cada tabla genera su propio valor de F y de p-valor. En base a mi nivel de confianza establezco un p-valor. Por ejemplo, con un nivel de confianza del 95%, mi p-valor crtico es de 0,05. Si mi tabla posee un p-valor de ms de 0,05, significa que mis datos no son significativos y mi tabla queda rechazada, y viceversa (si el p-valor obtenido con el SPSS es menor a 0,05, nuestra tabla es significativa). Para la correlacin simple y la regresin simple, el test de hiptesis para comprobar la significatividad de mi tabla es, nuevamente, lo primero que debo realizar. En correlacin y regresin simple, el programa SPSS nos muestra diferentes tablas con el coeficiente de correlacin, y la significatividad de cada variable y de las constantes.

Inferencia estadstica aplicada a encuesta por muestreo Para valores muestrales, el intervalo de confianza se calcula de la siguiente manera: Z /2 x s/n129. Como no conocemos el tamao que va a tener nuestra muestra, se realizan unas sencillas frmulas para conseguirlo. Para realizar la frmula debemos establecer el nivel de confianza a usar (95% por convencin, y el margen de error que queremos para nuestros datos. Cuando tenemos estos datos, podemos calcular el tamao de la muestra: Poblaciones menores a 100.000 personas: n = [N 2 (Z /2)] / [{(N-1)E2} + (Z /2) 2]. Poblaciones mayores a 100.000 personas: n = (Z2 . S2) / E2. Donde: S: Varianza. Para calcular la varianza de proporciones, la frmula es . (1- ) (los valores se expresan en la tabla 1)130. Significa la parte afirmativa multiplicada por
129

Siendo Z /2 = valor correspondiente segn el nivel de confianza, s = desvo estndar de la muestra, y n = tamao de la muestra. 130 Los valores para la varianza de proporciones se expresan en la siguiente tabla: (1 ) 0,1 0,1 (1 0,1) = 0,1 0,9 = 0,09 0,2 0,2 (1 0,2) = 0,2 0,8 = 0,16 0,3 0,3 (1 0,3) = 0,3 0,7 = 0,21 0,4 0,4 (1 0,4) = 0,4 0,6 = 0,24 0,5 0,5 (1 0,5) = 0,5 0,5 = 0,25 0,6 0,6 (1 0,6) = 0,6 0,4 = 0,24 0,7 0,7 (1 0,7) = 0,7 0,3 = 0,21

50

la parte negativa131. De dnde saco las proporciones estimadas? Las puedo sacar de estudios previos. Si no hay estudios previos, hay varios escenarios posibles. El escenario que me genera mayor varianza es el de 50% de cada lado. Z: Es el intervalo de confianza, el valor que me garantiza que voy a tener un nivel de confianza requerido (los valores se expresan en la tabla 2)132. Se expresa tambin como Z /2. E: Es el error mximo admitido para la muestra (margen de error como figura en la ficha tcnica de cada caso)133. N: Es el tamao de la poblacin. 2: Varianza muestral. Para proporciones se realiza . (1- ).

TEXTOS Se ver el texto de D. A. LIND, MARCHAL y R. D. MASON, Estadstica para administracin y economa. Captulo 7: Distribucin de probabilidad normal La familia de distribuciones de probabilidad normal La distribucin de probabilidad normal y su correspondiente curva normal tienen las siguientes caractersticas: La curva normal es acampanada y presenta un solo pico en el centro de la distribucin. La media, mediana y moda son iguales y estn en dicho pico. La distribucin de probabilidad normal es simtrica con respecto a su media. La curva normal decrece uniformemente en ambas direcciones a partir del valor central. Es asinttica, se acerca cada vez ms al eje X pero nunca lo toca.

0,8 0,9
131

0,8 (1 0,8) = 0,9 (1 0,9) =

0,8 0,2 = 0,9 0,1 =

0,16 0,09

Por ejemplo, el porcentaje de la poblacin que votara a Cristina Kirchner multiplicado por el porcentaje que no la votara. 132 Los valores Z para los diferentes niveles de confianza se ven en la siguiente tabla: TABLA 2 1 Z /2 0,99 2,576 0,95 1,96 0,90 1,645 0,80 1,282 0,60 0,842 0,50 0,674 Entonces, en el caso de un nivel de confianza del 95%, el Z /2 sera 1,96. 133 Por un ejemplo, para un error muestral tolerado del 3,2%, E sera 0,032.

51

Distribucin de probabilidad normal estndar Tiene una media de 0 y una desviacin estndar 1. En este tipo de distribucin se usa la llamada regla emprica: Aproximadamente 68% del rea bajo la curva normal est entre la media ms una y menos una desviaciones estndar. Alrededor de 95% del rea bajo la curva normal est entre la media ms dos y menos dos desviaciones estndar. Prcticamente toda el rea bajo la curva normal est entre la media y tres desviaciones estndar (a uno y otro lados del centro). ----Captulo 8: Mtodos de muestreo y el teorema del lmite central Muestreo de la poblacin Algunas de las principales razones por las que el muestreo es necesario son: La naturaleza destructiva de ciertas pruebas134. La imposibilidad fsica de revisar todos los integrantes de la poblacin. El costo de estudiar a todos los integrantes de una poblacin: Frecuentemente es un costo prohibitivo. Lo adecuado de los resultados de una muestra: Si realizamos una buena muestra, estudiar a toda la poblacin no hara cambiar los resultados significativamente. En ocasiones se necesita mucho tiempo para entrevistar a toda la poblacin. Mtodos de muestreo de la probabilidad Hay dos tipos de muestra: Muestra probabilstica: Se selecciona de modo que cada integrante de la poblacin en estudio tenga una probabilidad conocida (pero distinta de cero) de ser incluido en la muestra. Puede ser: o Muestreo aleatorio simple: Es una muestra seleccionada de manera que cada integrante de la poblacin tenga la misma probabilidad de quedar incluido. o Muestra aleatoria sistemtica: Los integrantes o elementos de la poblacin se ordenan en alguna forma (por ejemplo, alfabticamente) en un archivo segn la fecha en que se reciben, o por algn otro mtodo. Se selecciona al azar un punto de partida, y despus se elige para la muestra cada k-simo elemento de la poblacin. o Muestreo aleatorio estratificado: Una poblacin se divide en subgrupos, denominados estratos, y se selecciona una muestra de cada uno. o Muestreo por conglomeracin: Se subdivide una regin en reas menores. Cada subregin debe poseer la misma conformacin que la regin primaria.

1) 2) 3) 4) 5)

Error de muestreo Es poco probable que una media muestral sea idntica a una media poblacional. Hay alguna diferencia entre ambas, y esa diferencia se denomina error de muestreo. Distribucin de muestro de medias muestrales
134

Por ejemplo, si los catadores de vivo de Sutter Home Winery, en California, tuvieran que beber todo el vino para evaluar la vendimia, consumiran toda la produccin y no quedara producto disponible para la venta. Para asegurar que el producto cumpla con el estndar mnimo, se selecciona una muestra relativamente pequea.

52

Es una distribucin de probabilidades que consta de todas las medias muestrales posibles de un tamao de muestra dado. Teorema del lmite central Permite el uso de la distribucin de probabilidad normal para crear los intervalos de confianza de la media poblacional y realizar pruebas de hiptesis. Establece que, para muestras aleatorias grandes, la forma de la distribucin de medias muestrales se acerca a la de la distribucin del tipo normal. La aproximacin es ms exacta para muestras grandes que para pequeas. Si se seleccionan de cualquier poblacin todas las muestras de un tamao determinado, la distribucin de las medias muestrales se acercar a una del tipo normal. Esta aproximacin aumenta en el caso de muestras ms grandes135. Si la poblacin est distribuida normalmente, entonces, para cualquier tamao de muestra, la distribucin de la media muestral tambin lo estar. Si la distribucin de la poblacin es simtrica (pero no normal), se ver surgir la forma normal del teorema del lmite central, con muestras tan pequeas como 10. Por otra parte, si se comienza con una distribucin que es sesgada o tiene extremos gruesos, es posible que se necesiten muestras de al menos 30 para observar el aspecto de normalidad. Ntese la convergencia hacia una distribucin normal, independientemente de la forma de distribucin poblacional. El teorema de lmite central indica que sin importar la forma de la distribucin de la poblacin, la distribucin de muestreo de la media de la muestra se mover hacia la distribucin normal de probabilidad. Uso de la distribucin de muestreo de la media muestral El anlisis anterior es importante porque la mayora de las decisiones en los negocios se toman basndose en los resultados de una muestra. Se sabe que la distribucin muestral de la media muestral sigue la distribucin de probabilidad normal si se dan dos condiciones: si las muestras se toman de
135

Los estadsticos consideran que una muestra de 30 o mayor, es suficiente para que se emplee el teorema del lmite central.

53

poblaciones que siguen la distribucin de probabilidad normal si el tamao de la muestra es de por lo menos 30 observaciones. ----Captulo 9: Estimacin e intervalos de confianza Una estimacin puntual es un valor que se usa para estimar un valor poblacional. Una estimacin en la que se da ms informacin implica dar un intervalo de valores, en el que se espera se encuentre el parmetro poblacional. A este intervalo de valores se le llama intervalo de confianza. Estimaciones puntuales e intervalos de confianza conocida o muestra grande: Cuando tenemos toda la poblacin, es fcil obtener la media poblacional. Sin embargo, en la mayor parte de los casos la poblacin es grande o es difcil identificar a todos sus miembros, por lo que es necesario apoyarse en la informacin de la muestra. Se quiere estimar el valor del parmetro poblacional a travs del estadstico muestral136. Una estimacin puntual es un estadstico calculado a partir de la informacin obtenida en la muestra y que se usa para estimar el parmetro poblacional137. Pero una estimacin puntual no da mucha informacin. Como se espera que la estimacin puntual est cerca del parmetro poblacional, sera deseable saber que tan cerca est en realidad. All se usa el intervalo de confianza. El intervalo de confianza es un conjunto de valores obtenido a partir de los datos muestrales, en el que hay una determinada probabilidad de que se encuentre el parmetro. A esta probabilidad se la conoce como el nivel de confianza138. As, las probabilidades se darn, por ejemplo, de la manera graficada. La posibilidad de encontrar un valor entre 0 y 1,96 es de 0,4750, por lo que la posibilidad de que se encuentre entre -1,96 y 1,96 es de 0,9500 (95% de confianza)139.

136

As, se realiza una buena muestra y se termina considerando a la media de esa muestra, se la estima como la media poblacional. 137 As, por ejemplo, la media de la muestra es una estimacin puntual de la media de la poblacin. Tambin se podra usar, por ejemplo, la mediana muestral (pero no es tan eficiente). 138 Por ejemplo, se estima que en una determinada regin el ingreso anual medio de los trabajadores de la construccin es de 65.000 dlares. El intervalo de esta estimacin puede ser de 61.000 a 69.000 dlares. Se puede indicar que tan seguro se est de que el parmetro poblacional se encuentre en este intervalo dando una probabilidad. Se puede indicar, por ejemplo, que se tiene una seguridad del 90% de que el salario anual medio de los trabajadores de esa regin est entre 61.000 y 69.000 dlares. 139 Cmo se calcula un intervalo de confianza del 95%? Supngase que en una investigacin se quiere determinar el salario inicial de los egresados de escuelas de economa. Se calcula la media muestral y se encuentra que es 27.000 dlares, y la desviacin estndar de la media muestral es $200. Supngase que la muestra contiene por lo menos 30 observaciones. El intervalo de confianza del 95% est entre $26.608 y $27.392, lo que se obtiene de $27.000 1,96($200).

54

Cuando el nmero de observaciones de 30, por lo menos, el intervalo de confianza de 95% se calcula as: Xraya 1,96 S / (n). s desconocida o muestra pequea: Qu se hace si la muestra es inferior a 30 y no se conoce la desviacin estndar poblacional? Esta situacin no est incluida en el teorema del lmite central, pero se presenta a menudo. Podemos pensar que la distribucin de la poblacin es cercana a la normal. Por eso, sustituimos la distribucin normal por la distribucin t140. Es un poco ms plana, ms dispersa que la distribucin normal. Esto es porque la desviacin estndar en t es mayor. Es una distribucin continua, simtrica y en forma de campana. Entonces, hay una serie de variables que ayudan a decidir si utilizar la distribucin z o la distribucin t.

Un intervalo de confianza para una proporcin En la escala de tipo nominal cada observacin se clasifica en dos o ms grupos mutuamente excluyentes. Solo existen dos posibilidades y los resultados deben clasificarse en uno de los dos grupos. La proporcin es la fraccin, razn o porcentaje que indica la parte de la muestra o poblacin que tiene una caracterstica determinada. Su frmula es P = X/n. La proporcin poblacional se indica con . Se refiere al porcentaje de xitos en la poblacin. Para determinar un intervalo de confianza para una proporcin poblacional debe cumplirse lo siguiente:

El error ($200) se calcula con la frmula SXraya = S / (n), donde X raya = media muestral. 140 Su frmula es t = (Xraya ) / (s/n). El intervalo de confianza para la media poblacional cuando no se conoce es Xraya t . (s/n).

55

Que las condiciones binomiales se cumplan (que solo haya dos resultados posibles, que los resultados sean independientes, etc.). Que ambos valores (n y n[1-]) sean mayores o igual a 5. As, podremos recurrir al teorema del lmite central y utilizar la distribucin z. Con estos valores se puede actuar como se hizo anteriormente, estimando la media muestral como si fuera la media poblacional. Eleccin del tamao de muestra apropiado El tamao de muestra necesario depende de tres factores: 1) El nivel de confianza deseado: Los niveles de confianza ms comnmente usados son el 95% y el 99%. El nivel de confianza 95% corresponde al valor z 1,96. Entre mayor sea el nivel de confianza, mayor ser el tamao de la muestra, y viceversa. 2) El margen de error que el investigador est dispuesto a tolerar: El mximo error permitido se designa por E, es la cantidad que se suma o se resta a la media muestral para determinar los extremos del intervalo de confianza. Si el error es pequeo, se necesitar una muestra ms grande, y viceversa141. 3) La variabilidad de la poblacin que se estudia: Si la poblacin est muy dispersa, se requerir una muestra grande, y viceversa. Ser necesario usar una estimacin de la desviacin estndar poblacional142. La frmula del tamao de la muestra para estimar la media poblacional es la siguiente: n = [(z S) / E]2. La frmula para el tamao de la muestra para la proporcin poblacional es la siguiente: n = [p(1 p)] [z/E]2. Si se cuenta con algn valor estimado para p de un estudio piloto se puede usar. De lo contrario se usa 0,50. ----Captulo 10: Pruebas de hiptesis para una muestra Qu es una hiptesis? Una hiptesis es un enunciado acerca de una poblacin elaborado con el propsito de poner a prueba. Para verificar si la afirmacin es razonable se usan datos. Con las pruebas se determinar que no es verdadera o se verificar la aseveracin. Cuando la poblacin es muy grande, una de las alternativas de medirla o entrevistarla es a travs de una muestra. Por tanto, se puede probar una afirmacin para determinar si la evidencia emprica de la muestra fundamenta o no la afirmacin relativa a la poblacin. Qu es una prueba de hiptesis? Es un procedimiento basado en la evidencia muestral y la teora de probabilidad; se emplea para determinar si la hiptesis es una afirmacin razonable143. Procedimiento de cinco pasos para probar una hiptesis 1) Plantear la hiptesis nula (H0) y la hiptesis alternativa (H1): El primer paso es plantear la hiptesis que ha de ser probada. A esta hiptesis se le denomina
141 142

Su frmula es E = z (S / n). La misma se obtiene a travs de: uso de un estudio comparable uso de un mtodo basado en el intervalo realizar un estudio piloto. 143 Por ejemplo, se realiza una hiptesis con una media de sueldo de vendedores en $2000. Se realiza una muestra, y se prueba. Si la media muestral es de $1000, la hiptesis se rechaza. Si es de $1995, depende de los parmetros con los que estemos trabajando.

56

2)

3)

4)

5)

hiptesis nula144, y es una afirmacin acerca del valor de un parmetro poblacional. Se plantea con el objetivo de realizar una prueba. Si la hiptesis nula no se rechaza con base en los datos muestrales, no es posible afirmar que sea verdadera. En otras palabras, el no poder rechazar la hiptesis nula no prueba que H0 sea verdadera, ms bien significa que no se pudo rechazar. Para probar sin duda que es verdadera, debera conocerse el parmetro poblacional. La hiptesis alternativa es una afirmacin que se acepta si los datos muestrales proporcionan evidencia suficiente de que la hiptesis nula es falsa145. Seleccionar el nivel de significancia: El nivel de significancia es la probabilidad de rechazar la hiptesis nula cuando es verdadera. Se denota mediante la letra . Generalmente se usa el nivel de 5% para proyectos de investigacin. Se pueden cometer errores. El error de tipo I () es rechazar la hiptesis nula cuando es verdadera146. El error de tipo II () es aceptar la hiptesis nula cuando es falsa147. Calcular el valor estadstico de prueba: Existen muchos estadsticos de prueba, que son valores determinados a partir de la informacin muestral, que se utilizan para determinar si se rechaza la hiptesis nula. En este captulo se usan z y t como los estadsticos de prueba, aunque hay otros148. Formular la regla de decisin: Una regla de decisin establece las condiciones especficas en las que se rechaza la hiptesis nula y las condiciones en las que no se rechaza. El valor crtico es el punto de divisin entre la regin en que se rechaza la hiptesis nula y la regin en la que no se rechaza la hiptesis nula. Tomar una decisin: Se calcula el estadstico de prueba, se compara con el valor crtico, y se toma la decisin de rechazar o no la hiptesis nula.

Prueba de significacin de una y de dos colas El diagrama supra representa una prueba de una cola. La regin de rechazo est solo en la cola derecha (superior) de la curva. La regin de rechazo tambin se puede encontrar en la cola izquierda (inferior) de la distribucin normal.
144

Por ejemplo, la cantidad media de millas que se recorren utilizando la llanta de acero especial, no difiere de 60.000. La hiptesis nula sera H0: = 60.000. 145 Por ejemplo, H1: 60.000. 146 Por ejemplo, devolver un cargamento porque 10 de 50 unidades (las del muestreo) estn daadas, aunque en realidad estas 10 eran las nicas daadas de las 10.000 del total. 147 A la inversa que el error I, puede suceder que la muestra sea correcta, y las unidades que no fueron seleccionadas sean defectuosas. 148 Por ejemplo, F y 2.

57

Una manera de determinar la regin de rechazo y su ubicacin es mirar hacia donde apunta el signo de desigualdad en la hiptesis alternativa (< o >). Si no se especifica direccin en la hiptesis alternativa, se acusa una prueba de dos colas (la hiptesis alternativa no tiene que ser ni menor ni mayor que la nula, sino solamente diferente). Dependiendo de la hiptesis planteada ser la prueba de un tipo u otra. Valor p en las pruebas de hiptesis Al probar una hiptesis se compara el estadstico de prueba con un valor crtico. Los programas de computacin dedicados a la estadstica, proporcional el llamado valor p, que es la probabilidad de observar un valor muestral tan extremo, o ms extremo, que el valor observado, dado que la hiptesis nula es verdadera149. Pruebas respecto a proporciones Es posible realizar la prueba de hiptesis para una proporcin. Una proporcin es el cociente del nmero de xitos entre el nmero de observaciones. La proporcin se consigue haciendo X/n. Para probar una hiptesis acerca de una proporcin poblacional, se selecciona una muestra aleatoria de esa poblacin. La prueba es adecuada cuando n y n[1-], son por lo menos 5. Error de tipo II Es la posibilidad de que una hiptesis nula sea aceptada cuando en realidad es falsa (). Cmo se calcula la probabilidad de un error de tipo II? Puede determinarse calculando el rea que engloba la situacin de rechazo. ----Captulo 15: Mtodos no paramtricos Las pruebas de hiptesis no paramtricas o libres de distribucin usan datos de nivel nominal y ordinal. Pruebas de bondad de ajuste: Frecuencias esperadas iguales La prueba de bondad de ajuste es una de las pruebas no paramtricas ms utilizadas, creada por Karl Pearson. Puede usarse para cualquier nivel de datos. El objetivo de la prueba es comparar un conjunto de frecuencias observado con un conjunto de frecuencias esperado. Para la prueba de hiptesis se usa el mismo procedimiento sistemtico de los cinco pasos (establecer las hiptesis nula y alternativa seleccionar el nivel de
149

As, si el valor p es menor que el nivel de significancia, se rechaza H0. Si este valor es mayor que el nivel de significancia, no se rechaza H0.

58

significancia escoger el estadstico de prueba formular la regla de decisin tomar la decisin). El estadstico de prueba que se utiliza aqu es el ji cuadrado (2)150. Para formular la regla de decisin, se debe prestar atencin a los grados de libertad. Esto nos dar el rea de rechazo. Luego, una vez conseguido el valor de ji cuadrado, se compara con el rea de rechazo, y se aprueba o no la hiptesis. Sus caractersticas son las siguientes: 1) El valor calculado de 2 nunca es negativo. 2) Existe una familia de distribuciones 2: Hay una distribucin 2 para cada uno de los grados de libertad. 3) La distribucin 2 tiene sesgo positivo: Sin embargo, conforme aumenta el nmero de grados de libertad, la distribucin comienza a aproximarse a la de tipo normal. Prueba de bondad de ajuste: Frecuencias esperadas diferentes En el caso anterior, las frecuencias esperadas eran todas iguales. Empero, la prueba de 2 tambin puede usarse si las frecuencias esperadas no son iguales. Limitaciones de 2 Si hay una frecuencia esperada inusitadamente pequea en una celda, la 2 puede llevar a una conclusin errnea. Esto puede deberse a que fe aparece en el denominador, y la divisin entre un nmero muy pequeo produce un cociente demasiado grande. Entonces, si solo hay dos celdas, la frecuencia esperada debe ser igual a 5 o mayor. Para ms de dos celdas, no debe aplicarse 2 si ms del 20% de las celdas de fe tienen frecuencias esperadas menores que 5. Utilizacin de la prueba de bondad de ajuste para probar normalidad La prueba de bondad de ajuste es una de varias maneras para determinar si un conjunto de frecuencias observadas coincide con un conjunto de frecuencias esperadas que tienen una distribucin normal. Coinciden los valores observados en una distribucin de frecuencias con los valores esperados con base en una distribucin normal? Anlisis de tablas de contingencias Las pruebas de bondad de ajuste aplicadas en las secciones anteriores se relacionaban solo con una variable y una caracterstica. La prueba de 2 tambin puede usarse para un proyecto de investigacin con dos caractersticas151. Se relacionan dos variables, y se colocan los datos en tablas de

150

Se calcula de la siguiente manera: 2 = [(fo fe)2 / fe], donde: fo es una frecuencia observada en una categora determinada, y fe es una frecuencia esperada en una categora determinada. 151 Por ejemplo, hay alguna relacin entre el promedio de calificaciones obtenido por estudiantes de universidad, y su ingreso o percepcin monetaria 10 aos despus de su graduacin? Las dos caractersticas medidas para cada persona son el promedio de calificaciones y el ingreso.

59

contingencia. Luego de realizada la tabla de contingencia, puede determinarse el valor crtico y la regla de decisin.

60

UNIDAD 6
6.1: El anlisis cuantitativo de datos III: la bsqueda de relaciones entre variables. Asociacin, relacin y causalidad. Tcnicas estadsticas bivariadas: tablas de contingencia, comparacin de medias, correlacin lineal simple y regresin lineal simple.
En cuanto a las tcnicas estadsticas bivariadas, las tcnicas bivariadas tienen una sola causa para un solo efecto. Su fin es transmitir informacin esencial sobre un proceso o relacin. Tiene diferentes mtodos: Cuando poseemos alguna variable nominal y ninguna escalar, se trabaja con tablas de contingencia. Si poseemos una variable cualitativa (nominal u ordinal) y una cuantitativa (escalar), utilizamos la comparacin de medias. Cuando poseemos dos variables escalares (o al menos ordinales) usamos la correlacin simple y la regresin simple.

Tablas de contingencia: Son tablas que cruzan una variable dependiente con una variable independiente152. El ttulo de la tabla comienza escribiendo la variable dependiente y luego la independiente153. Elementos: Toda tabla debe tener un nmero nico que la identifique. Ttulo: Debe estar redactado de modo que se nombre primero la variable dependiente y luego la independiente. Fuente. Variables: En las filas deben aparecer los ttulos de las variables dependientes, y en las columnas los de las independientes. Los porcentajes se suman en los totales de la variable independiente (explicativa), no de la dependiente. Al sumar los porcentajes segn la variable independiente nos permitir hacer lecturas expresadas siempre en trminos relativos y con los mismos trminos que los ttulos de columnas154. En cuanto a la lectura de la tabla, primero se debe leer el ttulo, despus el ttulo, los nombres de las variables y cualquier fuente de informacin. Luego observar el sentido de suma de los porcentajes. Las comparaciones se deben realizar en el sentido contrario al de la suma de los porcentajes. La comparacin, luego, se realiza por filas. Para buscar una relacin busco los valores extremos (las diagonales opuestas). Si los valores son homogneos a lo largo de

152 153

Cabe destacar que la variable dependiente se coloca a la izquierda, y la variable independiente arriba. Por ejemplo, desconfianza en el voto por estrato social territorial en %. 154 As, en el caso del ejemplo, podemos decir que: el porcentaje ms alto de los que no confan en el voto se da en los sectores muy bajos (64,7%) mientras que el nivel de mayor confianza se da en los sectores medios (40,6%).

61

columnas y filas, no hay relacin. Si hay diferencia entre las diagonales y los valores tomados son los ms bajos o los ms altos de sus filas, hay un indicio de relacin. Si encuentro relacin, tengo que ver si la misma es directamente proporcional o inversamente proporcional. Si los dos valores tomados son los ms altos o los ms bajos, la relacin es directamente proporcional. Si un valor es el ms alto y el otro es el ms bajo, la relacin es inversamente proporcional. Se leen luego las variables comparadas. En cuanto al enunciado de los resultados, se eligen generalmente los valores ms llamativos. Se pueden hacer conclusiones generales o entradas particulares155. Tambin se pueden realizar las siguientes lecturas: Comparacin entre las columnas: Por ejemplo, dentro del estrato medio son porcentualmente ms los que confan en el voto que los que no confan. Comparacin entre columnas distintas: Deben hacerse con sumo cuidado, expresando siempre en trminos relativos y respetando los ttulos de las columnas156.

Comparacin de medias: Utilizo la comparacin de medias cuando poseo una variable escalar, y la otra nominal. Es una simple comparacin de los promedios de cada variable. Su comparacin es fcil, observable a simple vista.

Correlacin y regresin lineal simple: Se usan con dos variables escalares (o al menos ordinales). Hay una variable dependiente y solo una independiente. Correlacin lineal simple: Tiene por finalidad marcar la intensidad de la relacin entre dos variables de intervalo y/o razn. La variable que se intenta predecir se conoce como dependiente (Y). La que se utiliza para la prediccin se conoce como independiente (X). Esa intensidad se determina a travs del coeficiente de correlacin (r). El mismo est siempre representado por valores entre -1 y 1 inclusive. Este mtodo siempre trabaja con pares de variables157. Se grafican con grficos de
155

Por ejemplo: el 64.7% del estrato muy bajo no confa en el voto, o que el 42.5% de los sectores vulnerables confa en el voto como motor de cambio. 156 Por ejemplo: se puede apreciar una relacin directa entre nivel social confianza en el voto. As, el porcentaje ms alto de los que no confan en el voto se dan en los sectores muy bajos (64,7%) mientras que el nivel de mayor confianza se da en los sectores medios (40,6%). 157 Por ejemplo, la correlacin entre el porcentaje de NBI y el % de voto bronca en octubre de 2001.

62

dispersin (scatterplot). La variable independiente siempre aparece en el eje X. Habra una correlacin perfecta si los puntos graficados formaran una lnea recta. Caso contrario, puede haber correlaciones sutiles, que van de nulas a perfectas. El signo (- o +) marca la orientacin de la intensidad. El signo significa que la correlacin es inversamente proporcional (cuando aumenta X disminuye Y, y viceversa), y el signo + significa que la correlacin es directamente proporcional (cuando aumenta X aumenta Y, y viceversa). El programa SPSS tambin tiene la funcin de realizar tablas con los coeficientes de correlacin de diferentes variables comparadas.

El coeficiente marca la intensidad de la relacin. Cuanto ms se aproxima a -1 o 1, mayor es la intensidad de la relacin158. Cuanto ms se aproxima a 0, menor ser la intensidad159. -0,5 y 0,5 indican una correlacin moderada. Cuando entre dos variables no podemos conseguir una correlacin intensa, podemos intentarlo con otra variable. As, para poder relacionar, debo seleccionar las dos variables ms intensamente correlacionadas. Igualmente, que estn fuertemente correlacionadas no implica nada. Las variables deben ser comparables160. Para las variables escalares se utiliza el coeficiente de correlacin de Pearson (r) (es el que habitualmente llamamos coeficiente de correlacin a secas). Si mis variables son ordinales, en vez del coeficiente de correlacin uso el coeficiente de Spearman (rsp). Vara la forma de clculo, pero sus resultados y su interpretacin son iguales. Se basa en el orden o ranking de los pares de valores de las variables intervinientes ya que no hay otra forma de poder cuantificar.

158 159

Cabe destacar que ante un coeficiente de correlacin de -1 o 1 la correlacin es perfecta. 0 da una correlacin nula, que puede ser amorfa o constante (segn su forma). 160 Por ejemplo, an con un coeficiente de correlacin alto, no hay relacin entre los abortos cometidos y el consumo de papas fritas.

63

El coeficiente de determinacin (R2) explica claramente la proporcin que la variable dependiente Y vara como causa de la independiente X. Explica la variacin de Y causada por X. Se calcula elevando r, y luego multiplicando por 100 para que se exprese en porcentaje. La utilidad se nota en la lectura, la que simplifica161. Regresin lineal simple: Es el trazado de una recta que expresa matemticamente la relacin entre dos variables, conseguida con la correlacin. Su frmula es Y = a + b X, donde: X: Representa a los diferentes valores de la variable independiente. Y: No es el valor de la variable independiente sino un resultado de clculo. a: Representa el valor que tiene Y cuando X = 0. b: Es la pendiente. La regresin es til para resumir la dispersin y el coeficiente de correlacin. Para realizarla se elige la recta que cumple con el criterio de mnimos cuadrados. Es la recta que nos genera menor cantidad de residuos162 (error), los mnimos cuadrados. A travs de la regresin podemos estimar valores de Y para intervalos o valores en donde no tengamos datos de X (sern los valores Y). Es un modelo163. El programa SPSS posee la funcin que nos otorga una tabla en donde se puede apreciar esta tcnica.
161

Por ejemplo: Con el coeficiente de determinacin conseguido del primero de los grficos (R= r.r = 0.5829 * (-0.5829)= 0.34) leemos: El 34% del voto bronca puede explicarse por el nivel de pobreza (NBI) de la unidad de anlisis. Con un coeficiente de determinacin conseguido del segundo de los grficos (R= r.r = 0.6421 * 0.6421= 0.41) leemos: El 41% del voto bronca puede explicarse por el perfil urbano (%) de la unidad de anlisis. Si tuviera que elegir a una de las dos variables explicativas del voto bronca (NBI / % urbano) elegira a la que ms intensa correlacin tuviera (en este caso el % urbano). 162 El residuo es la diferencia entre el valor real y el valor de pizarrn, terico. Es la diferencia entre Y e Y. 163 Por ejemplo, la frmula del modelo graficado nos marca que, partiendo de $6.830,43 habr que agregarle $364,68 por cada ao que tenga el entrevistado. As, si quisiramos saber cunto (en promedio) ganara una persona de 62 aos de esta poblacin deberamos simplemente hacer la frmula: Y = a +b X = 6.830,43 + 364,68 62 = $29.440,59.

64

TEXTOS Se ver el texto de HUBERT M. BLALOCK, Introduccin a la investigacin social. 4. Explicacin y teora En el mbito del anlisis de datos, un cientfico social puede encontrarse con que un cierto nmero de variables se correlacionan o asocian con la que l desea explicar; pero a partir de este resultado no puede saltar a la conclusin de que ellas son las causas del fenmeno en cuestin. Se procede a la eliminacin de variables que no tienen correlato, y se buscan aquellas que posean relacin verdadera. Inferencia de relaciones causales a partir de correlaciones Supngase que hemos descubierto que entre dos variables, X e Y, existe correlacin o asociacin, y que sostenemos que X es causa de Y. Si, por ejemplo, se quiere descartar la posibilidad de que Y sea causa de X, se pueden agregar otras variables, que puedan tener inferencia en el anlisis. En ciencias sociales, es improbable determinar causalidad, debido a que el investigador no posee medio alguno para garantizar que no haya variables que originen una relacin espuria. Algunas complicaciones Mtodos alternativos: En general, habr ms de una explicacin para cada conjunto de datos, y ser menester utilizar informacin complementaria para elegir entre las distintas explicaciones. Variables adicionales: Surge un segundo tipo de complicacin cuando las fuentes de espuriedad son dos o ms164. La complicacin es que para muchas variables, debo realizar una muestra muy alta. Variables independientes correlacionadas: Un cierto nmero de las variables que se suponan causalmente relacionadas con la variable dependiente estaban en s mismas altamente correlacionadas165. Errores de medicin: Cuanto ms alta sea la intercorrelacin de las variables causales, ms graves sern las distorsiones producidas por los errores de medicin. Efectos de interaccin: Pueden existir efectos de interaccin entre combinaciones peculiares. Causacin recproca: Se da cuando hay influencias bilaterales entre algunas de las variables. En la vida real esto sucede con mucha frecuencia. As, tendremos ecuaciones matemticas con excesivo nmero de incgnitas, ninguna de las cuales podr resolverse. Desarrollo de la teora sistemtica

164

Por ejemplo, el vnculo entre religin y preferencias polticas puede obedecer a dos causas comunes, la ocupacin y la regin del pas. As, hay que controlarlas en forma simultnea. 165 Por ejemplo, en el caso del sndrome de la pobreza, Cmo es posible inferir los actos aislados de cada una de las variables?

65

En vista de los miles de temas que debe afrontar el cientfico social, de qu manera podemos desarrollar pautas razonables para seleccionar las variables y los problemas? Se necesitan teoras slidas que integren los hallazgos. Ahora bien: la conveniencia de una teora general de esa ndole no debe impedirnos advertir que sera poco realista suponerla, al mismo tiempo, apropiada para explicar todas las formas de desviacin. Toda ciencia se debate entre la necesidad de explicaciones generales relativamente simples, por un lado, y la necesidad de teoras ms especficas y con un mbito de aplicabilidad ms limitado, por el otro. Uno de los problemas ms serios que enfrenta el cientfico social es el de elaborar leyes de la conducta social que posean un grado razonable de generalidad, no restringidas a momento y lugar determinados, y aplicables a todas las circunstancias menos limitadas. -------------------Se ver el texto de OLIVER BENSON: El laboratorio de ciencia poltica. 2. Como leer un cuadro: Variedad de las variables 2.1 Para qu sirve un cuadro: Bsqueda de la relacin fundamental: Su fin es transmitir informacin esencial sobre el proceso o relacin. Todo lo presentado en l puede expresarse por medio de la palabra. 2.2 Elementos de un cuadro: Los elementos son los siguientes: 1) Aparato de presentacin: Es toda la informacin descriptiva que aparece fuera del cuerpo de ste: a) Nmero del cuadro: El nico requisito indispensable es la identificacin unvoca de cada cuadro en la publicacin. Dentro de ese parmetro puede asumir cualquier forma. b) Ttulo: El lector debe entender el ttulo sin tener que recurrir al texto que lo acompaa. El ttulo debe ser la clave principal para comprender el contenido del cuadro. Contendr los temas, las fechas, los lugares. En el ttulo se menciona primero la variable dependiente y luego la independiente. c) Nota superior: Aparece inmediatamente debajo del ttulo y contiene informacin imprescindible para comprender los datos presentados en el cuadro, o explica con mayor detalle el ttulo. Puede utilizarse para identificar las unidades empleadas, detalles sobre una muestra por encuesta, etc. d) Notas al pie: Aparecen inmediatamente debajo del cuadro. Explican las excepciones y cualesquiera omisiones, particularidades o aspectos especiales de algunos rubros del cuadro. e) Fuente: Al menos que los datos sean originales, siempre se debe consignar sus fuentes a continuacin de las notas. 2) Elementos del cuerpo del cuadro: Incluyen todas las partes del cuadro propiamente dicho: a) Encabezamiento: Contiene toda la informacin descriptiva sobre los datos concretos insertos en las columnas del cuadro. b) Ttulos de columnas: La explicacin de cada una de las columnas del cuadro debe surgir claramente del ttulo. Son esencialmente verbales.

66

c) Taln principal: Es la primera columna de la izquierda, y contiene las categoras en las que se ofrece la informacin en las filas del cuadro. d) Ttulos de filas: Cada fila debe identificarse con claridad. Son esencialmente verbales. e) Totales: Los totales de columnas se indican al pie y los de filas en la columna de la derecha. f) Lneas: Son las rayas utilizadas para demarcar el cuadro en s, separndolo del texto que lo acompaa y del aparato de presentacin, as como para dividir los distintos compartimientos del cuadro.

2.3 Problemas de porcentajes: Cmo se suman?: Es muy frecuente que en un cuadro los datos se presenten en forma ms concisa sustituyendo, en la mayora de los rubros, las cifras numricas por porcentajes. Es ms fcil de leer el cuadro, cuando posee porcentajes. El cuadro de porcentajes debe incluir siempre los totales numricos reales (N) para que el lector dimensione lo que el porcentaje representa. Lectura de porcentajes: Hay ciertas medidas para proceder a su lectura: 1) Sentido de los clculos: En casi todos los cuadros los porcentajes se calculan en un solo sentido: por columnas o por filas. Se debe identificar a priori cual es el sentido que el autor utiliz. 2) Motivos para la eleccin del sentido: La regla habitual consiste en calcular los porcentajes en la direccin del factor explicativo (variable independiente). 3) Enunciados verbales vinculados con los porcentajes: No conviene en modo alguno traducir a palabras cada rubro que aparezca en un cuadro; el propsito de este es, en definitiva, resumir la informacin. Por lo comn, se elige para el anlisis verbal solo los datos ms importantes relativos al tema que se expone. Hay tres tipos fundamentales de enunciados: a) Enunciados sobre entradas individuales: Por ejemplo: en el Nordeste, el 75% de la poblacin civil en edad de votar ejerci su derecho en las elecciones nacionales de 1964. b) Comparaciones dentro de las columnas: Por ejemplo: en Estados Unidos, 7 de cada 10 personas en edad de votar lo hicieron en las elecciones de 1964. c) Comparaciones entre columnas distintas: Se trabaja con porcentajes que se refieren a totales numricos diferentes. Por ejemplo: en los censos regionales de las regiones del Nordeste, Norte Central y Oeste, los ciudadanos en edad de votar lo hicieron en 1964 en proporciones que excedieron a la media nacional.

67

2.4 Variables y variacin: La explicacin de la conducta poltica trata de explicar la variacin en los fenmenos polticos. Tipos de variacin: Una variable es cualquier atributo que pueda utilizarse para describir a un individuo u otra entidad de inters poltico, o bien ubicarlo en algn tipo de escala. 1) La medicin de una variable puede hacerse sobre una escala continua o discreta. 2) Una variable puede estar ordenada o no ordenada. Puede estar ordenada por rangos, etc.; y otras variables no estn ordenadas. 3) El uso de variables dicotmicas es frecuente en la investigacin poltica y social. Las categoras de variables que no son naturalmente dicotmicas se reducen a veces a una relacin dicotmica por razones de conveniencia. 4) Las variables pueden ser objetivas o subjetivas. 5) Las variables pueden identificarse como nominales, ordinales o de intervalos, segn los tipos de mediciones que le sean aplicables. Variables bsicas de un cuadro: Cualquiera de las variables anteriores puede aparecer en el cuadro. Otra clasificacin es la siguiente: 1) Variable dependiente: Es la que se trata de explicar. 2) Variable independiente: Es el factor con que se trata de explicar la variacin de la variable independiente. 3) Variable de control: Es una segunda variable independiente que se emplea en el mismo cuadro y cuyos valores se mantienen constantes con el fin de examinar una explicacin alternativa de la variacin en la variable dependiente. La importancia de N: Es importante incluir en el anlisis cuntos casos entraban en la encuesta. 2.6 Causalidad mltiple: No se duda acerca de la complejidad del anlisis de las relaciones de tres variables. En poltica, rara vez basta un solo factor explicativo. El examen de la interaccin de varias o de muchas variables causales suele ser imprescindible an en los casos en que solo se requiera una comprensin parcial del problema. -------------------Se ver el texto de D. A. LIND, MARCHAL y R. D. MASON, Estadstica para administracin y economa. Captulo 13: Regresin lineal y correlacin Qu es un anlisis de correlacin? El anlisis de correlacin es el estudio de la relacin que existe entre las variables. Mide la intensidad de la asociacin entre dos variables. El principal objetivo del anlisis de correlacin consiste en determinar que tan intensa es la relacin entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersin, la grfica que representa la relacin entre dos variables. En este tipo de grficos, es prctica comn marcar la variable dependiente en el eje Y y la variable independiente en el eje X.

68

Coeficiente de correlacin Originado por Karl Pearson, el coeficiente de correlacin166 describe la intensidad de la relacin entre dos conjuntos de variables de nivel de intervalo. Se lo denota con r. Puede tomar cualquier valor entre -1 y 1 inclusive. Un coeficiente de correlacin de -1 o 1 indicara una correlacin perfecta. Un coeficiente de correlacin cercano a 1 indica que la correlacin es intensa. Si no existe en absoluto alguna relacin entre los dos conjuntos de variables, la r de Pearson ser cero. Un coeficiente de correlacin cercano a cero indica que la correlacin es muy dbil. Cabe destacar que la fuerza de la correlacin no depende de la direccin (ya sea o +). Coeficiente de determinacin Los trminos dbil, moderado y fuerte del coeficiente de correlacin no tienen significado preciso. Una medida que tiene una acepcin ms fcil es el coeficiente de determinacin. Se calcula elevando al cuadrado el coeficiente de correlacin. Es la porcin de la variacin total en la variable dependiente Y, que se explica por la variacin en la variable independiente X. Una advertencia: No hay que caer en las correlaciones falsas (o espurias). Son variables que no necesariamente inciden la una en la otra. Prueba de significacin del coeficiente de correlacin Al igual que en las dems tcnicas de anlisis bivariado, se debe llevar a cabo la prueba de significacin antes de trabajar con la tabla. Anlisis de regresin La ecuacin de regresin es una ecuacin que define la relacin lineal entre dos variables. Sirve para dar las estimaciones del valor de Y, a determinado valor de X. A la tcnica empleada para desarrollar la ecuacin se la conoce como anlisis de regresin. Principio de mnimos cuadrados: Es una tcnica empleada para obtener la ecuacin de regresin, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de Y y los valores pronosticados de Y. Utilizando este principio eliminamos el juicio personal.
166

La frmula del coeficiente de correlacin es la siguiente: r = [n ( X Y) (X)(Y)] / {[n( X2) ( X)2] [n( Y2) ( Y)2]}. Donde: n es el nmero de pares de observaciones. X es la suma de los valores de la variable X. Y es la suma de los valores de la variable Y. (X2) es la suma de los cuadrados de los valores de la variable X. (X)2 es el cuadrado de la suma de los valores de la variable X. (Y2) es la suma de los cuadrados de los valores de la variable Y. (Y)2 es el cuadrado de la suma de los valores de la variable Y. XY es la suma de los productos de X y Y.

69

La frmula para la regresin lineal es la siguiente: Y = a + bX. Donde: Y: Es el valor pronosticado de la variable Y para un valor seleccionado de X. a: Es la ordenada de la interseccin con el eje Y, es decir, el valor estimado de Y cuando X = 0167. b: Es la pendiente de la recta, o el cambio promedio en Y por unidad de cabio en la variable independiente X168. X: Es cualquier valor seleccionado de la variable independiente.

El error estndar de estimacin Vase que, una vez trazada la recta de regresin, no todos los puntos quedan con exactitud en la recta de regresin. Si todo hubiera coincidido, sera un clculo perfectamente predecible y no habra error. Obtener una prediccin perfecta en los aspectos de economa y administracin es prcticamente imposible. Entonces, lo que se necesita es una medida que indique qu tan preciso es el pronstico de Y con base en X o, cuan inexacta podra ser la prediccin. A esta medida se la denomina error estndar de estimacin (medida de la dispersin de los valores observados, con respecto a la lnea de regresin). Se representa por sy.x169. El error estndar se basa en los cuadrados de las desviaciones respecto a la lnea de regresin. Consideraciones bsicas para la regresin lineal Para aplicar correctamente la regresin lineal deben satisfacerse varias suposiciones: 1) Para cada valor de la variable X hay un conjunto de valores Y, que siguen la distribucin normal. 2) Las medias de estas distribuciones normales se encuentran sobre la lnea de regresin. 3) Las desviaciones estndar de todas estas distribuciones iguales son normales. 4) Los valores de Y son estadsticamente independientes. Intervalos de confianza y de prediccin El error estndar de estimacin tambin se usa para establecer intervalos de confianza cuando el tamao de la muestra es grande y la dispersin con respecto a la lnea de regresin se aproxima a la distribucin normal. Se desea proporcionar estimaciones de intervalo de dos tipos. El primero, intervalo de confianza, presenta el valor medio de Y para un valor dado de X. El
167

a = (Y/n) b(X/n). Y es un valor de la variable dependiente, X es un valor de la variable independiente, y n es el total de la muestra. 168 b = [n ( X Y) (X)(Y)] / [n( X2) ( X)2]. 169 Su frmula es la siguiente: Sy.x = {[(Y Y)2] / (n 2)}.

70

segundo, intervalo de prediccin, informa acerca de la gama de valores de Y para un valor particular de X. Relaciones entre el coeficiente de correlacin, el coeficiente de determinacin y el error estndar de estimacin Un medio conveniente para mostrar la relacin entre estas tres variables es una tabla ANOVA. Se asemeja a la de anlisis de varianza. As, la variacin total ([Y Yraya]2) se divide en dos componentes: la variacin explicada por la regresin el error (la variacin no explicada por la regresin).

71

UNIDAD 7
7.1: El anlisis cuantitativo de datos IV: El anlisis multivariado. Nociones bsicas. Anlisis multivariado de dependencia: Regresin mltiple. Variables independientes cualitativas. Efectos de interaccin. Modelos de probabilidad lineal. Introduccin conceptual a la regresin logstica (logia y probit). Anlisis multivariado de interdependencia: Introduccin conceptual al anlisis factorial. Introduccin conceptual al Path Anlisis. Introduccin conceptual al Anlisis de Clusters.

72

UNIDAD 8
8.1: Organizacin y presentacin de informes previos e informe final de investigacin. Aspectos ticos de la investigacin social.

73

UNIDAD 9
9.1: Herramientas informticas aplicadas: Manejo y aplicacin del programa estadstico SPSS.

Compendio realizado por Julin Colombo

74

Potrebbero piacerti anche