Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
013-027
* Artículo de investigación.
** Correspondencia: Bertha Lucía Avendaño Prieto, Universidad Católica de Colombia. Correo electrónico: blavendano@ucatolica.edu.co, Direc-
ción postal: Av. Caracas No 46–72, Facultad Psicología, Bogotá, Colombia.
13
Bertha Lucía Avendaño Prieto, Gerardo Avendaño Prieto, William Cruz, Alejandro Cárdenas-Avendaño
Abstract
New researchers often face difficulties in the statistical analysis of data for verification of the
working hypotheses, particularly in the selection of an appropriate statistical technique, its appli-
cation and interpretation. It is often argued that the foregoing of a negative attitude toward the
quantitative analysis related to perceived difficulties in statistics classes and research methodo-
logy in education. The purpose of this article is to provide a reference guide for non-expert re-
searchers in the use of some statistical techniques with broad applications in the generation of
knowledge. Each multivariate technique is defined and the conditions under which it is possible
its application are enumerated, presenting the minimum conditions to be met. In addition, three
examples are presented showing inconsistencies resulting from a wrong use of statistics and as-
sumptions in analyzing the data.
La enseñanza es una práctica cotidiana que tiene dares de comprensión y las estrategias de estu-
lugar a lo largo de nuestras vidas y se enmarca dio empleadas por cada estudiante, de modo tal
en la interacción humana, cualquier situación en que la actitud de partida hacia las matemáticas
la cual se tenga por objetivo la creación y trans- o la estadística, por ejemplo, modula las expe-
ferencia de conocimiento, requiere tanto de la riencias de aprendizaje subsiguientes facilitando
destreza de quien aprende para integrar nueva o dificultando su aprendizaje, comprensión, uso y
información y habilidades mediante su interés, su transmisión.
memorización y su práctica, como de la destreza
de quien enseña para organizar dicha informa- Los estudiantes interesados en la investigación
ción, hacerla llamativa y asimilable a otros. suelen percibir dificultades en el análisis estadís-
tico de los datos, particularmente en la selección
El modelo tradicional de la educación concibe el de la prueba estadística apropiada, su aplicación
aprendizaje en una única dirección, siendo el pro- e interpretación.
fesor el punto de origen y el estudiante el punto
de llegada, omitiendo la posibilidad de una reela- Dicha percepción es un correlato de una acti-
boración activa del conocimiento que está siendo tud negativa hacia los métodos cuantitativos,
transmitido y de un aprendizaje mutuo en dicha resultado de diversos factores tales como la
interacción. Díaz & Hernández (2002) señalan que atribución irreal de dificultad hacia los pro-
la práctica pedagógica es eficaz cuando se tiene cedimientos estadísticos y la antigua creencia
en cuenta el conocimiento de partida del alumno sobre su poco uso en la vida laboral (Murto-
y se cuestiona alrededor de este. nen, 2005).
Murtonen (2005) sugiere que los estudiantes uni- Los aspectos mencionados dificultan las iniciati-
versitarios de primer año inician sus clases con vas de investigación y se percibe la necesidad de
actitudes, creencias y expectativas acerca de la un documento que oriente la comprensión de los
educación y su propósito, las cuales han elabo- conceptos utilizados en estadística multivariada.
rado a partir de su propia experiencia basadas Este artículo a modo de guía intenta complemen-
en ideas en torno a la construcción del conoci- tar los contenidos que se imparten en las clases
miento; es decir, una posición epistemológica. de estadística y metodología de la investigación a
Asimismo señala que dichas ideas guían los están- nivel de pregrado y posgrado, con el objetivo de
entre las variables. Las técnicas de Dependencia y programas estadísticos como between y within
involucran un grupo de Variables Independientes comparison respectivamente).
(VI’s) para predecir y explicar el cambio en una
o más Variables Dependientes (VD’s). En contras- De tal modo el ANOVA de un factor constituye
te, las técnicas de Interdependencia no definen el fundamento estadístico de otros métodos,
a priori ninguna variable como independiente o tales como el Análisis Factorial (AF), el Aná-
dependiente; es decir, el procedimiento implica lisis Multivariado de Varianza (MANOVA), los
el análisis de todas las variables conjunta y simul- modelos con factores de efectos fijos, alea-
táneamente (Hair et al., 2000). torios, de medidas repetidas, el diseño de
bloques completos aleatorizados, entre otros
La prueba básica de todos los procedimientos
(Daniel, 1998; Ferrán, 1996).
multivariados es el Análisis de Varianza o ANO-
VA de un factor; esta técnica es una extensión
de la comparación de medias para dos muestras
que realiza la prueba t de Student. El ANOVA, por
Técnicas de Dependencia
sus siglas en ingles Analysis Of Variance (Gree-
A continuación se presenta un diagrama de flujo
ne & D´Oliveira, 2006), es aplicable en situacio-
con técnicas de Dependencia basado en un figura
nes con dos o más grupos cuya clasificación está
determinada por la VI (Visauta, 2002). Se utiliza de Hair et al. (2000), la cual indica la relación
para indagar sobre el efecto de una VI con dos o entre las VD y lasVI junto con el nivel de medición
más condiciones sobre una VD (e.g. el efecto del que exige cada técnica (Figura 1).
tipo de Afasia, sobre el desempeño en un test de
fluencia verbal). Su objetivo principal es analizar De las técnicas de dependencia mencionadas en
si hay –o no– diferencias estadísticamente signi- la Figura 1, se expondrán el MANOVA, la Regre-
ficativas entre las medias de los grupos conside- sión Lineal Múltiple (RLM), el Análisis Discriminan-
rados evaluando su varianza; lo cual se realiza te (AD), la Regresión Logística (RL) y los Modelos
a partir de la comparación de la varianza entre de Ecuaciones Estructurales (SEM), herramientas
grupos junto con la varianza al interior de cada para el análisis estadístico con amplia aplicación
grupo (i.e. usualmente referenciada en los textos en la investigación.
El modelo ofrece una ecuación de regresión con El AD permite identificar el grupo al cual perte-
las características de una fórmula de predicción nece un caso; se utiliza cuando la muestra puede
para futuras observaciones. Una gran parte de dividirse en grupos con base en una VD que pro-
investigadores en las ciencias sociales utilizan la porciona categorías identificables y excluyentes.
RLM para estimar los valores de la VD con pro- El objetivo principal de esta técnica es entender
pósitos de selección, pero sus aplicaciones no se las diferencias entre los grupos, permitiendo pre-
reducen a dicha situación (Kerlinger & Lee, 2002). decir la probabilidad de que un caso pertenez-
ca a un grupo en particular, a partir de varias VI
Los coeficientes de regresión no son totalmente cuantitativas. Por ejemplo, puede utilizarse para
estables y varían en relación con la muestra y la distinguir consumidores y no-consumidores de un
adición o sustracción de VI en el análisis, entre producto, de acuerdo con las puntuaciones en sus
otras varias condiciones; de tal manera que su perfiles demográficos y psicográficos. Otras apli-
interpretación debe contemplar dicha limitación. caciones incluyen la distinción entre usuarios ha-
Adicionalmente la magnitud de estos coeficientes bituales, ocasionales y no usuarios de un servicio;
es relativa, dado que un coeficiente determinado también es utilizado en medicina o en psicología,
para dos variables en distintas unidades de me- para determinar la predisposición a una enferme-
dida, puede indicar una importancia relativa di- dad, teniendo en cuenta los resultados de los exá-
ferente. Para eliminar el efecto de las distintas menes médicos y o test psicológicos.
unidades de medida sobre las VI, se recomienda
Cuando el análisis incluye dos clasificaciones,
considerar los coeficientes de regresión tipifi-
la técnica es conocida como AD de dos grupos;
cados (Ferrán, 1996). Por otro lado, la situación
cuando se incluyen tres o más, la técnica es cono-
ideal para predecir con un pequeño margen de
cida como AD múltiple (Hair et al., 2000).
error, tiene lugar cuando las correlaciones entre
las VI y la VD son altas, y las correlaciones entre Otro aspecto del AD es que tiene una finali-
las VI son bajas (Kerlinger, 2002). dad doble; un fin descriptivo, que consiste en
evidenciar las diferencias grupales respecto 3. El número mínimo de casos para realizar esti-
al conjunto de variables utilizado para dividir maciones con un modelo de k VI es de 10 (k +
una población; y un fin predictivo, que con- 1). Es decir, por cada variable que interviene
siste en aportar procedimientos sistemáticos en el modelo, incluyendo la variable depen-
de clasificación para nuevas observaciones diente, se necesitan al menos 10 casos.
(Figueras, 2001).
4 Método que evalúa la existencia de diferencias significativas en- 5. Las VI son de razón o de intervalo, en tanto que
tre los promedio de las VI por separado. las VD pueden ser nominales.
Tabla 1.
Características fundamentales de algunas técnicas de dependencia.
Figura 2. Diagrama de flujo que identifica los supuestos que deben cumplirse para seleccionar apropiadamente una
técnica de dependencia.
Redes Neuronales
Cuantitativos Cualitativos
Componentes Principales
Análisis Multidimensional Análisis de Correspondencias
La interpretación de un factor se genera en re- 5 El test de esfericidad de Bartlett contrasta la hipótesis nula de
que la matriz de correlaciones es una matriz identidad; es decir,
lación con las variables que lo conforman y con que existen una incorrelación lineal entre las variables.
6 Test de adecuación de la muestra para realizar un AF, valores
los principios que guiaron la selección inicial de mayores que 0.7 indican la existencia de relaciones entre las
las variables. Para que la interpretación sea co- variables.
objetos de otros grupos (i.e. alta heterogeneidad les, a un conjunto menor de variables con poca
entre clústers), respecto a algún criterio de selec- pérdida de información (Hair et al., 2000).
ción predeterminado. Al no distinguir entre VD y
VI, se constituye en una técnica exploratoria dise- También se denomina método de proyección
ñada para revelar agrupaciones naturales dentro pues refleja en pocos componentes la infor-
de una colección de datos, calculando las relacio- mación conjunta de las variables extrayendo
nes interdependientes del conjunto de variables. la información de todos los datos simultánea-
Este análisis también es conocido como análisis mente, maneja bien el problema de datos fal-
de clasificación, taxonomía numérica y reconoci- tantes y su gráfica es de fácil interpretación;
miento de patrones (Figueras, 2001). es una técnica exploratoria que permite ge-
nerar hipótesis en lugar de probarlas (Jack-
Usualmente no se emplea ningún modelo estadís- son, 1991).
tico que determine el proceso de clasificación,
siendo ideal para extraer información de un con- Cuando las variables estudiadas se correlacionan
junto de datos y útil en la elaboración de hipóte- entre sí, se utiliza el ACP para reducir el número
sis acerca del problema considerado, sin imponer de las mismas y encontrar componentes que ex-
patrones o teorías previamente establecidas. Sin pliquen la variación entre los factores, con ópti-
embargo y al igual que el AF, el conocimiento del mas propiedades y sin perder su generalidad.
investigador sobre el problema es fundamental al
momento de decidir cuáles de los grupos obteni- Aunque el paquete estadístico para las ciencias so-
dos son significativos –y cuáles no–, de otro modo ciales SPSS presenta el AF basado en el método de
la clasificación de los datos puede resultar en una componentes principales, Dallas (2000) hace una
partición aleatoria de los mismos. distinción entre ambos análisis; en el AF se utiliza
la varianza común o comunalidad entre la varia-
El AC es una técnica exploratoria y no se reco- bles, mientras que en el ACP se utilizan todas las
mienda su uso para formular teorías, sus solucio- varianzas de la variable; esto es, la comunal, la
nes dependen de varios elementos del procedi- específica y la residual. Aunque los primeros facto-
miento y se obtienen diversas soluciones variando res tienen varianza específica y residual, en el PCA
solo algunos casos; por otro lado la solución de- suele suceder que los últimos factores se corres-
penderá de la medida de comparación seleccio- ponden con una única variable. Los resultados de
nada. Aunque los resultados del AC pueden to- la investigación empírica no muestran grandes di-
marse como punto de partida en la elaboración ferencias entre ambos procedimientos, aunque se
de teorías, no es una técnica inferencial dado que ha generalizado el uso del ACP debido a la indeter-
no es posible generalizar los hallazgos de la mues- minación de los factores en el AF (Conchillo, 2004).
tra a la población (Conchillo, 2004).
El propósito del ACP es detectar relaciones poco
Supuestos evidentes a partir de la varianza de los datos,
asumiendo que los componentes principales re-
1. Conocer el tema tratado.
presentan significativamente la totalidad de casos
2. Las variables son cuantitativas. encontrados en los datos; si es así, el ACP puede
usarse eficientemente.
Tabla 2.
Aplicaciones de las técnicas de interdependencia.
Técnica Objetivo
Definir la estructura de una prueba, reducir el número de ítems en una prueba, establecer la vali-
AF dez de constructo (i.e. confirmar una teoría), extraer nuevas variables que resuman la información
significativa contenida en los datos.
AC Establecer grupos significativos de individuos u objetos, relativamente homogéneos.
ACP Reducir el número de variables procurando no perder información en el proceso.
RN Clasificar, ordenar, identificar e interpretar.
Tabla 3.
Resultados del análisis factorial con tamaños de muestra diferente.
De acuerdo con los supuestos del AF y teniendo Con previa autorización de los autores y para efec-
en cuenta el número de ítems de la prueba (k = tos del siguiente ejemplo, (Oquendo, de la Esprie-
79), el número mínimo de personas recomendado lla, & Avendaño, 2007), se utilizan los datos de un
para su aplicación es n = 790. En la Tabla 3 puede estudio en el que participaron 5.493 jóvenes con
observarse que con tamaños de muestra inferio- edades entre los 10 y 18 años, que tenía como
res a dicho valor, los resultados sobrevaloran los objetivo identificar la relación entre factores de
alcances de la prueba y se concluye que más del riesgo-alto de afecto negativo y el desarrollo de
62 % de la varianza se explica con tamaños de depresión. La variable dependiente fue la depre-
muestra más pequeños. Para una muestra de 36 sión y se utilizó la prueba Zung para su medición,
personas por ejemplo, la prueba arroja 19 fac- las variables independientes fueron los factores de
tores que explican el 90.5 % de la varianza. Es riesgo y el alto afecto negativo, medidos con las
de resaltar el error en el cual se incurre cuando pruebas Eventos Vitales y Panas, respectivamente.
se encuentran 8 factores adicionales y 29.74 % de
diferencia en la varianza explicada, respecto a lo Al verificar todos los supuestos que exige la RLM,
que se puede inferir de la prueba cuando se cum- se encontró que las VI se correlacionaban en-
ple este supuesto. tre sí; por tal motivo, las autoras realizaron dos
regresiones lineales simples que permitieron Figura 4. Diagrama de dispersión de Estatura vs. Peso
identificar la correlación entre cada VI con la VD. utilizando escalas de medición con intervalos diferentes.
La correlación entre el afecto negativo y la de-
presión fue de 0.79 (p = 0.001), en tanto que la Peso (Kg)
correlación entre los eventos vitales y la depre-
sión fue de 0.23 (p = 0.48); la segunda correlación 80
no fue significativa, aspecto determinante para 70
no utilizar la RLM; en caso de omitirse este su-
puesto, se encontraría que la varianza de la VD 60
(v.g. la depresión), se explica en un 64 % por am- 50
bas VI (v.g. factores de riesgo-afecto negativo),
40
resultado que oculta cuál de las variables predice
con mayor confianza la depresión. 1.4 1.6 1.8 2.0 Estatura (m)
técnicas inadecuadas para el análisis de datos, Además, las pruebas estadísticas no siempre son
conduciendo a errores en los resultados y a ex- excluyentes y en algunos casos puede resultar
plicaciones falsas de los mismos, lo cual genera adecuado mezclarlas.
teorías con poca claridad. Más allá de lo expuesto
en esta guía y de los conceptos que no pueden
evitarse al presentar las distintas técnicas, se es- Referencias
pera que la comparación de las mismas sirva para
Aparisi, F., Avendaño, G., & Sanz, J. (2006). Inter-
diferenciarlas, apreciar sus alcances, entender
preting T2 Control Charts. IIE Transaccions,
sus limitaciones, reconocer sus supuestos y pro- 38(8), 647-657.
fundizar en el manejo estadístico. Las técnicas se
presentaron procurando incluir las más utilizadas, Avendaño, G. (2003). Interpretación de la señal
clasificándolas según sus objetivos de aplicación y de falta de control en gráficos multivariantes
exponiendo en cada caso sus supuestos, aunque el mediante redes neuronales. (Doctorate The-
lector tendrá que profundizar en aspectos proce- sis), Universidad Politécnica de Valencia.
dimentales que no se incluyeron en este artículo.
Bello, R., & Garcia, M. (1996). A model and its di-
Particularmente, los modelos multivariados re- fferent applications to case-based reasoning.
quieren de quien los utiliza un mínimo de com- Knowledge System Design and Applications,
prensión sobre la técnica, metodología, ventajas 9(7), 465-473.
y debilidades. Ahora bien, debido a la rigurosidad
que exigen los análisis multivariados, el uso de Berrendero, J. R., Justel, A., & Svarc, M. (2011).
paquetes estadísticos no es opcional. La disponi- Principal components for multivariate func
bilidad de programas para el análisis estadístico tional data. Computacional Statistics and
como SPSS, MATLAB, R, STATISTICA, entre otros, data analysis, 55(9), 2.619-2.634.
facilitan la utilización de pruebas sofisticadas
pero pueden conducir a una utilización inadecua- Conchillo, A. (2004). Guías doctorado. Metodolo-
da y mecánica de estos, de ahí la importancia de gía de las ciencias del comportamiento. Es-
conocer la técnica, el manejo del software y la paña: Madrid: Universidad Nacional de Edu-
interpretación de los resultados (Field, 2013; Mar- cación a Distancia (UNED).
ques de Sá, 2007).
Dallas, E. J. (2000). Métodos multivariados apli-
La utilización de procedimientos matemáticos cados al análisis de datos. México: Interna-
ofrece objetividad en los resultados y esto es tional Thomson Editores, S. A.
cierto en alguna medida, pero también acarrea
Daniel, W. (1998). Bioestadística. Base para el
una carga grande de subjetividad, donde se inclu-
análisis de las ciencias de la salud. México:
ye la predilección misma del modelo matemático
Noriega Editores.
hasta la selección de las variables por parte del
investigador. Díaz, F., & Hernández, G. (2002). Estrategias
docentes para un aprendizaje significativo.
Finalmente, los ejemplos presentados pretenden
Una interpretación constructivista. México:
mostrar la implicación de las conclusiones a las
McGraw-Hill.
que se llegan cuando se incumplen los supuestos
mínimos que exige cada prueba. Se debe tener Ferrán, M. (1996). SPSS para Windows. Programa-
presente que la elección de la técnica para cada ción y análisis estadístico. Madrid: McGraw-
problema de investigación depende del tipo de Hill.
estudio y su objetivo, de la familiaridad con los
datos y lo que representan, de la confiabilidad Figueras, S. (2001). Análisis de conglomerados o
y validez de los resultados junto con sus alcan- clúster. Recuperado de http://www.5campus.
ces estadísticos a la luz de una visión práctica. org/leccion/cluster
Field, A. (2013). Discovering Statistics Using IBM Marques de Sá, J. (2007). Applied Statistics Using
SPSS Statistics. Fourth Edition. Londres: SAGE SPSS, STATISTICA, MATLAB and R. Second Edi-
Publications Ltd. tion. Heidelberg: Springer.
Greene, J., & D´Oliveira, M. (2006). Test Estadísti- Martínez, C. (2000). Estadística y Muestreo. Bogo-
cos para Psicología. Madrid: McGraw-Hill. tá: Ecoe editores.
Hair, J., Anderson, R., Tatham, R., & Black, W. Morales, P. (2003). El Análisis Factorial en la cons
(2000). Análisis Multivariante Quinta edición. trucción e interpretación de tests, escalas y
Madrid: Prentice Hall. cuestionarios. Recuperado de http://www.
upcomillas.es/personal/peter/investigacion/
Jackson, J. E. (1991). A user’s guide to principal AnalisisFactorial.pdf
components. New York: John Wiley y Sons,
Inc. Murtonen, M. (2005). University Students` Re-
search Orientations: Do negative attitudes
Jaques, J., & Preda, C. (2014). Model-based clus- exist toward quantitative methods? Scan-
tering for multivariate functional data. Com- dinavian Journal of Educational Research,
putacional Statistics and data analysis. 71. 49(3), 263-280.
92-106.
Oquendo, D., de la Espriella, C., & Avendaño, B.
Kerlinger, F., & Lee, H. (2002). Investigación del L. (2007). Eventos de vida y alto afecto ne-
comportamiento. Métodos de investigación gativo como factores de riesgo para el desa-
en ciencias sociales. México: McGraw-Hill. rrollo de depresión en jóvenes colombianos.
(Magister), Fundación Universitaria Konrad
Lizasoain, L., & Joaristi, L. (2003). Gestión y aná- Lorenz.
lisis de datos con SPSS. Versión 11. Madrid:
Thompson. Romero, R. (1997). Curso de introducción a los
métodos de análisis estadístico multivarian-
López, C., Fernández, K., & Mariel, P. (2002). te. Universidad Politécnica de Valencia.
Índices de satisfacción del consumidor: una
aplicación de modelos estructurales a la in- Sánchez, F. (2006). Validación de una prueba para
dustria automovilística española. Universi- evaluar clima organizacional.
dad del país vasco.
Visauta, B. (2002). Análisis Estadístico con SPSS
Malhotra, N. (1997). Investigación de Mercados. para Windows. Segunda Edición. (Vol. 1). Es-
Un enfoque práctico. México: Prentice-Hall. paña: McGraw-Hill.