Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ESCALA DE LIKERT
La escala de Likert es uno de los tipos de escalas de medición. Nos sirve principalmente para realizar
mediciones y conocer sobre el grado de conformidad de una persona o encuestado hacia determinada
oración afirmativa o negativa.
La escala de Likert se utiliza comúnmente en la investigación por encuesta. A menudo se utiliza para medir
las actitudes de los encuestados preguntándoles en qué medida están de acuerdo o en desacuerdo con
una pregunta en particular o una declaración.
La escala de Likert asume que la fuerza e intensidad de la experiencia es lineal, por lo tanto va desde un
totalmente de acuerdo a un totalmente desacuerdo, asumiendo que las actitudes pueden ser medidas.
Siempre se debe tener un elemento neutral para aquellos usuarios que ni de acuerdo ni en desacuerdo.
Ejemplos de escala de Likert
Ventajas
Desventajas
Existen estudios científicos que indican que existe un sesgo en la escala, ya que las respuestas positivas
siempre superan a las negativas.
También hay estudios que indican que los encuestados tienden a contestar “de acuerdo” ya que implica
un menor esfuerzo mental a la hora de contestar la encuesta.
Las escalas Likert son un formato de clasificación común para las encuestas. Los encuestados clasifican la
calidad de alto a bajo o mejor a peor utilizando cinco o siete niveles.
Los estadísticos generalmente han agrupado los datos recogidos de estas encuestas en una jerarquía de
cuatro niveles de medición:
Datos nominales: El nivel de medición más débil que representa categorías sin representación numérica.
Datos ordinales: Datos en los que es posible ordenar o clasificar las respuestas, pero no es posible medir
la distancia.
Datos de intervalo: En general, datos enteros en los que se pueden realizar mediciones de pedidos y
distancias.
Datos de relación: datos en los que es posible el ordenamiento significativo, distancia, decimales y
fracciones entre variables.
Los análisis de datos que utilizan datos nominales, de intervalo y de relación son generalmente sencillos
y transparentes. Los análisis de datos ordinales, particularmente en lo que se refiere a Likert u otras
escalas en las encuestas, no lo son.
Una razón subyacente para analizar los datos ordinales como datos de intervalos podría ser la afirmación
de que las pruebas estadísticas paramétricas (basadas en el teorema del límite central) son más poderosas
que las alternativas no paramétricas.
Sin embargo, el tratamiento de los datos ordinales como datos de intervalo (o incluso de relación) sin
examinar los valores del conjunto de datos y los objetivos del análisis puede inducir a error y tergiversar
los resultados de una encuesta
Como regla general, la media y la desviación estándar son parámetros no válidos para la estadística
descriptiva cuando los datos están en escalas ordinales, al igual que cualquier análisis paramétrico basado
en la distribución normal.
Los procedimientos no paramétricos basados en el rango, la mediana o el rango son apropiados para
analizar estos datos, al igual que los métodos libres de distribución tales como tabulaciones, frecuencias,
tablas de contingencia y estadísticas de chi-cuadrado.
Los modelos de Kruskall-Wallis pueden proporcionar el mismo tipo de resultados que un análisis de
varianza, pero en base a los rangos y no a los medios de las respuestas. Dado que estas escalas son
representativas de una medida subyacente continúa, una recomendación es analizarlas como datos de
intervalos como un piloto antes de recoger la medida continua.
Las escalas Likert de cinco puntos se asocian comúnmente con las encuestas y se usan en una amplia
variedad de entornos. Te has topado con la escala de Likert si alguna vez te han preguntado si estás
totalmente de acuerdo, de acuerdo, ni de acuerdo o en desacuerdo, en desacuerdo o muy en desacuerdo
sobre algo. Arriba podrás encontrar algunos ejemplos de este tipo de preguntas.
Debido a que los datos de los elementos de Likert son discretos, ordinales y tienen un alcance limitado,
ha habido una larga disputa sobre la forma más válida de analizar los datos de Likert. La elección básica
es entre una prueba paramétrica y una prueba no paramétrica. Los pros y los contras para cada tipo de
prueba se describen generalmente como los siguientes:
Las pruebas paramétricas, como la prueba t de 2 muestras, asumen una distribución normal y continua.
Sin embargo, con un tamaño de muestra suficiente, las pruebas t son robustas a las salidas de la
normalidad.
Las pruebas no paramétricas, como la prueba de Mann-Whitney, no asumen una distribución normal o
continua. Sin embargo, hay preocupaciones acerca de una menor capacidad de detectar una diferencia
cuando uno realmente existe.
¿Cuál es la mejor opción? Esta es una decisión real que tienes que hacerte cuando vas a hacer un análisis
de los datos de tu encuesta cuando utilizaste Likert.
A través de los años, una serie de estudios que han tratado de responder a esta pregunta. Sin embargo,
han tendido a mirar un número limitado de distribuciones potenciales para los datos Likert, lo que hace
que la generalización de los resultados a sufrir.
Gracias a los aumentos en la potencia de la computación, los estudios de simulación ahora pueden evaluar
a fondo una amplia gama de distribuciones.
Los investigadores identificaron un conjunto diverso de 14 distribuciones que son representativas de los
datos reales de Likert. El programa informático dibujó pares independientes de muestras para probar
todas las combinaciones posibles de las 14 distribuciones.
En total, se generaron 10.000 muestras aleatorias para cada una de las 98 combinaciones de distribución.
Los pares de muestras se analizan utilizando tanto la prueba t de dos muestras y la prueba de Mann-
Whitney para comparar la eficacia de cada prueba. El estudio también evaluó diferentes tamaños de
muestra.
Los resultados muestran que para todos los pares de distribuciones las tasas de error Tipo I (falso positivo)
son muy cercanas a las cantidades objetivo. En otras palabras, si usted utiliza cualquiera de los análisis y
sus resultados son estadísticamente significativos, no es necesario estar demasiado preocupado por un
falso positivo.
Los resultados también muestran que para la mayoría de los pares de distribuciones, la diferencia entre
el poder estadístico de las dos pruebas es trivial. En otras palabras, si realmente existe una diferencia a
nivel de población, cualquiera de los análisis es igualmente probable que lo detecte.
Las preocupaciones sobre la prueba de Mann-Whitney que tienen menos poder en este contexto parecen
ser infundadas.
Tengo una advertencia. Hay algunos pares de distribuciones específicas donde hay una diferencia de
poder entre las dos pruebas.
Si realiza ambas pruebas en los mismos datos y no están de acuerdo (uno es significativo y el otro no lo
es), puede consultar una tabla del artículo para determinar si una diferencia en el poder estadístico podría
ser un problema. Esta diferencia de poder afecta sólo a una pequeña minoría de los casos.
En general, la elección entre los dos análisis es lazo. Si necesita comparar dos grupos de datos de Likert
de cinco puntos, normalmente no importa qué análisis utilice.
Ambas pruebas proporcionan casi siempre la misma protección contra falsos negativos y siempre
proporcionan la misma protección contra falsos positivos. Estos patrones son válidos para tamaños de
muestra de 10, 30 y 200 por grupo.
Pasos a seguir:
1 Obtener los datos de lista para el análisis mediante la codificación de las respuestas.
2. Recuerde que debe diferenciar entre los datos ordinales y de intervalo, porque los dos tipos requieren
diferentes enfoques analíticos. Si los datos son ordinales, podemos decir que una puntuación es más alta
que otra. No podemos decir cuánto más alto, como podemos con los datos de intervalo, lo que le dirá la
distancia entre dos puntos. Aquí está la trampa con la escala de Likert: muchos investigadores la tratarán
como una escala de intervalo. Esto supone que las diferencias entre cada respuesta son iguales en la
distancia. La verdad es que la escala de Likert no nos dice eso. En nuestro ejemplo, sólo nos dice que las
personas con mayor número de respuestas están más de acuerdo con las posiciones del partido que
aquellos con el menor número respuestas.
3. Comenzar a analizar los datos de la escala de Likert con estadística descriptiva. Aunque puede ser
tentador, resista el impulso de tomar las respuestas numéricas y calcular una media. Agregar una
respuesta "muy de acuerdo" (5) a dos de las respuestas "en desacuerdo" (2) nos daría una media de 4,
pero ¿cuál es el significado de ese número? Afortunadamente, hay otras medidas de tendencia central
que puede utilizar, además de la media. Con datos de la escala de Likert, la mejor medida a utilizar es el
modo o la respuesta más frecuente. Esto hace que los resultados de la encuesta sean mucho más fácil de
interpretar para el analista (por no hablar de la audiencia para su presentación o un informe). También
puede visualizar la distribución de las respuestas (porcentajes que están de acuerdo, en desacuerdo, etc)
en un gráfico, como un gráfico de barras, con una barra para cada categoría de respuesta.
4. Proceder al lado de las técnicas de inferencia que ponen a prueba las hipótesis planteadas por los
investigadores. Hay muchos métodos disponibles, y el mejor depende de la naturaleza de su estudio y las
preguntas que están tratando de responder. Un método popular es el de analizar las respuestas usando
técnicas de análisis de varianza, como la prueba de Mann Whitney o prueba de Kruskal Wallis.
Supongamos que en nuestro ejemplo hemos querido analizar las respuestas a las preguntas sobre las
posiciones de política exterior con la etnicidad como variable independiente. Supongamos que nuestros
datos incluyen las respuestas de los anglos, afroamericanos y los hispanos encuestados, por lo que podría
analizar las respuestas entre los tres grupos de encuestados con la prueba de Kruskal Wallis de la varianza.
5. Simplifique sus datos de la encuesta mediante la combinación de las cuatro categorías de respuesta
(por ejemplo, muy de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo) en dos categorías
nominales, tales como acuerdo / desacuerdo, aceptar o rechazar, etc.). Esto ofrece otras posibilidades de
análisis. La prueba de chi cuadrado es un enfoque para el análisis de los datos de ésta manera.
Definimos una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados, de
forma que constituyan un criterio válido, fiable y preciso para medir de alguna forma los fenómenos
sociales. En nuestro caso, este fenómeno será una actitud cuya intensidad queremos medir.
Las actitudes no son susceptibles de observación directa sino que han de ser inferidas de las expresiones
verbales; o de la conducta observada. Esta medición indirecta se realiza por medio de unas escalas en las
que partiendo de una serie de afirmaciones, proposiciones o juicios, sobre los que los individuos
manifiestan su opinión, se deducen o infieren las actitudes.
¿Qué es un item?
Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un fenómeno que
nos interesa conocer. Por ejemplo, el ítem:
"Las normas sobre utilización de carretillas elevadoras dictadas por la empresa, en la práctica cotidiana,
son de difícil cumplimiento."
Expresa una opinión sobre un tema: la política normativa de la empresa, y se refiere concretamente al
manejo de carretillas. La posición valorativa de tal afirmación hecha por un individuo se puede considerar
como un indicador de su opinión sobre dicha política normativa, sobre el uso de carretillas elevadoras,
sobre la seguridad en la empresa, etc
FORMULARIO
Título de la encuesta
En las respuestas de las escalas tipo Likert, por favor, marque con una X la respuesta escogida de entre
las seis opciones que se presentan en los casilleros, siendo:
1 = muy en desacuerdo
2 = en desacuerdo
3 = en desacuerdo más que en acuerdo
4 = de acuerdo más que en desacuerdo
5 = de acuerdo
6 = muy de acuerdo
ATENCIÓN: Esta página se debe copiar tantas veces como preguntas se deban validar por los expertos.
Pregunta n.º __*
Transcriba la pregunta a evaluar aquí
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el objetivo
general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la pregunta.
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el
objetivo general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la
pregunta.
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el
objetivo general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la
pregunta.
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el
objetivo general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la
pregunta.
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el
objetivo general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la
pregunta.
sí no
El instrumento contiene instrucciones claras y precisas para que los encuestados puedan
responderlo adecuadamente (ver Anexo 1)
El número de preguntas del cuestionario es excesivo
Las preguntas constituyen un riesgo para el encuestado
(en el supuesto de contestar SÍ, por favor, indique inmediatamente abajo cuáles)
Preguntas que el experto considera que pudieran ser un riesgo para el encuestado:
N.º de la(s) pregunta(s)
Motivos por los que se
considera que pudiera
ser un riesgo
Propuestas de mejora
(modificación,
sustitución o supresión)
Nombre y apellidos
Filiación
(ocupación, grado académico
y lugar de trabajo):
e-mail
Teléfono o celular
Fecha de la validación (día,
mes y año):
Firma
Adecuación
7
Pertinencia
Adecuación
8
Pertinencia
Adecuación
9
Pertinencia
Adecuación
10
Pertinencia
Adecuación
11
Pertinencia
Adecuación
12
Pertinencia
II. JUICIO DE EXPERTOS
El juicio de expertos se define como una opinión informada de personas con trayectoria en el
tema, que son reconocidas por otros como expertos cualificados en éste, y que pueden dar
información, evidencia, juicios y valoraciones. La identificación de las personas que formarán
parte del juicio de expertos es una parte crítica en este proceso, se proponen los siguientes
criterios de selección:
También plantean que los expertos pueden estar relacionados por educación similar,
entrenamiento, experiencia, entre otros; y en este caso la ganancia de tener muchos expertos
disminuye. Otros autores, proponen como criterio básico de selección únicamente el número
de publicaciones o la experiencia.
La validez de contenido se establece en diferentes situaciones, siendo dos de las más frecuentes:
(a) el diseño de una prueba, y
(b) la validación de un instrumento que fue construido para una población diferente, pero que
se adaptó mediante un procedimiento de traducción (equivalencia semántica).
Es muy frecuente que instrumentos que ya han sido estandarizados en países de habla inglesa
sean utilizados en países de habla no inglesa, por lo cual se debe realizar el proceso de
traducción, adaptación y estandarización del instrumento para dichos países. Estos procesos
presentan dificultades importantes, ya que la sola adaptación del instrumento no
necesariamente genera una equivalencia cultural debido a las barreras del idioma, a significados
culturales diferentes de un constructo particular o a una variedad de interpretaciones de un
comportamiento observado basado en normas culturales. Es por esto que se hace necesario
validar dichos instrumentos en términos de su contenido, y es allí donde la evaluación realizada
por expertos cobra especial relevancia, pues son ellos quienes deben eliminar los ítems
irrelevantes y modificar los ítems que lo requieran, como en el caso de expresiones idiomáticas.
En este contexto surgen los objetivos de:
(c) brindar algunas alternativas estadísticas para el análisis de los datos obtenidos del proceso
que permitan tomar decisiones.
De otra parte, el número de jueces que se debe emplear en un juicio depende del nivel de
experticia y de la diversidad del conocimiento; sin embargo, la decisión sobre qué cantidad de
expertos es la adecuada varía entre autores, algunos sugieren un rango de dos hasta 20
expertos, otros manifiestan que diez brindarían una estimación confiable de la validez de
contenido de un instrumento. Si un 80 % de los expertos han estado de acuerdo con la validez
de un ítem éste puede ser incorporado al instrumento.
Varios autores han propuesto diversos pasos para la realización del juicio de expertos:
(e) establecer el acuerdo entre los expertos por medio del cálculo de consistencia.
Además de estos pasos comunes a los diferentes autores, se debe instruir claramente al juez en
la dimensión y el indicador que mide cada ítem o un grupo de ellos. Es de especial relevancia
brindar información sobre el uso que tendrán los resultados de la prueba, ya que como se
mencionó en un apartado anterior, estos están estrechamente relacionados con la validez de
contenido. En efecto, utilizaciones diferentes de las puntuaciones harán que varíe la pertinencia
y suficiencia de los ítems. Si tomamos el caso de una prueba de autoestima para deportistas de
alto rendimiento, por ejemplo, es diferente el valor que se le atribuye a los ítems si la prueba se
va a usar para seleccionar a los deportistas que asistirán a competencias de alta exigencia por
primera vez, que si se van a usar para describir un perfil de los diferentes aspectos psicológicos
que pueden tener efecto en el desempeño del deportista.
Existen varios métodos para la obtención de juicios de expertos, que pueden clasificarse según
si la evaluación se realiza de manera individual o grupal. En el primer grupo se encuentran
algunos como el método de agregados individuales y el método Delphi, en ambos métodos cada
juez realiza la evaluación individualmente, pero en el Delphi, luego de analizar las respuestas se
le envía a cada juez la mediana obtenida y se le pide que reconsidere su juicio hasta que se logre
un consenso. Ésta técnica ofrece un alto nivel de interacción entre los expertos, evitando las
desventajas de la dinámica grupal. Entre las técnicas grupales se encuentra la nominal y el
consenso, en ambas se requiere reunir a los expertos, pero en la última se exige mayor nivel de
acuerdo. Estas técnicas pueden tener problemas si se generan discusiones tensas o si existen
variables individuales como la personalidad y las habilidades sociales de los jueces que generen
sesgos. Otro procedimiento utilizado para el juicio de expertos se basa en el emparejamiento de
los ítems con el dominio. En este caso se entrega a los jueces una lista de objetivos (categorías)
y se les presenta cada ítem en una ficha separada. El juez compara cada ítem con la lista y
registra el resultado en una hoja de respuestas, indicando al lado de cada ítem el número del
objetivo. La precisión de los juicios depende tanto de las características de los jueces y de su
experiencia, como de las características de la tarea. Dentro de esta última, la teoría cognitiva
sugiere tres categorías importantes:
1. Definir el objetivo del juicio de expertos. En este apartado los investigadores deben tener
clara la finalidad del juicio, ya que puede utilizarse con diferentes objetivos:
(a) Establecer la equivalencia semántica de una prueba que se encuentra validada en otro
idioma,
(b) evaluar la adaptación cultural, es decir, el objetivo de los jueces es evaluar si los ítems de la
prueba miden el mismo constructo en una cultura distinta; así por ejemplo, los ítems que midan
agresividad en una prueba validada en el Tibet, pueden no estar midiendo lo mismo en
Alemania, y
2. Selección de los jueces. Para ello han de tomarse en cuenta los criterios especificados
anteriormente para la selección, considerando la formación académica de los expertos, su
experiencia y reconocimiento en la comunidad. Se propone un mínimo de cinco jueces, dos de
los cuales deben ser expertos en medición y evaluación, y para el caso de traducciones y
adaptaciones de pruebas, se requiere por lo menos un experto en lingüística.
3. Explicitar tanto las dimensiones como los indicadores que está midiendo cada uno de los
ítems de la prueba. Esto le permitirá al juez evaluar la relevancia, la suficiencia y la pertinencia
del ítem. No hay que dar por sentado que el juez únicamente con la descripción del constructo
a medir pueda identificarlo claramente, ya que como se mencionó anteriormente, es posible
que existan diferentes definiciones de un mismo constructo.
5. Establecer los pesos diferenciales de las dimensiones de la prueba. Esto sólo se hace cuando
algunas de las dimensiones tienen pesos diferentes. Por ejemplo, si una prueba va a ser utilizada
para el diagnóstico y asignación a un programa de rehabilitación de una adicción, se debe dar
mayor peso a las dimensiones que midan la calidad de vida que a las que evalúen personalidad
adictiva.
6. Diseño de planillas. La planilla se debe diseñar de acuerdo con los objetivos de la evaluación.
No obstante, en el Anexo 1 se muestra una planilla que puede ser utilizada en la gran mayoría
de juicios de expertos, con sus respectivos indicadores para la calificación.
7. Calcular la concordancia entre jueces. Para esto se utilizan los estadísticos Kappa y Kendall
que se describirán a continuación. La información sobre cada estadístico, las hipótesis de trabajo
y los criterios de interpretación, se muestran en la tabla 1
Estadístico Kappa. Este estadístico genera una medida de acuerdo entre evaluadores y se utiliza
cuando las variables están dadas en una escala nominal, es decir únicamente clasifican. Por
ejemplo, un juez clasifica los ítems de una prueba de conocimientos en contestables o no
contestables por una persona que tenga un nivel adecuado de conocimiento en el área, o el caso
de psicólogos clínicos que tienen que clasificar a pacientes entre los que requieren seguimiento
permanente y los que no. El estadístico tiene un rango entre -1 y 1, pero generalmente se ubica
entre 0 y 1. Si el coeficiente es 1 indica acuerdo perfecto entre los evaluadores, si es 0 indica que
el acuerdo no es mayor que el esperado por el azar, y si el valor del coeficiente es negativo el
nivel se acuerdo es inferior al esperado por el azar. No obstante, obtener estos valores extremos
es improbable, lo común es obtener un amplio espectro de valores intermedios que se
interpretan teniendo como referencia la complejidad de la evaluación y el número de categorías
a evaluar, es decir, la interpretación es relativa al fenómeno medido. Un acuerdo de 0.55 sería
considerado bajo, y se podría inferir que hay dificultad en la clasificación, o que incluso, pueden
tener ambigüedad en los indicadores que les permiten decidir en uno u otro sentido. En otro
caso, si en un colegio el objetivo es clasificar los alumnos con trastornos de aprendizaje y
discapacidad, para identificar el número de casos de dislexia, discalculia, disgrafía, discapacidad
cognoscitiva, y discapacidad sensorial; obtener 0.55 se interpretaría como un índice de acuerdo
moderado, atendiendo a la mayor complejidad de la evaluación. Sin embargo si dicha
clasificación se va a realizar con el objetivo de enviarlos a terapia o a aulas de apoyo se requiere
un acuerdo mayor, al igual que si se trata de ítems para validación de una prueba. El coeficiente
de Kappa tiene como ventaja que corrige el porcentaje de acuerdo debido al azar y es muy
sencillo de calcular. Sin embargo, se han realizado varias críticas principalmente relacionadas
con que el índice de acuerdo se ve afectado por el número de categorías y por la forma en la
que están distribuidas las observaciones.