Escala de Likert

I.
ESCALA DE LIKERT
La escala de Likert es uno de los tipos de escalas de medición. Nos sirve principalmente para realizar
mediciones y conocer sobre el grado de conformidad de una persona o encuestado hacia determinada
oración afirmativa o negativa.
La escala de Likert se utiliza comúnmente en la investigación por encuesta. A menudo se utiliza para medir
las actitudes de los encuestados preguntándoles en qué medida están de acuerdo o en desacuerdo con
una pregunta en particular o una declaración.
Cuando se responde a un ítem de la escala de likert, el usuario responde específicamente en base a su

nivel de acuerdo o desacuerdo. Las escalas de frecuencia con la de Likert utilizan formato de respuestas
fijos que son utilizados para medir actitudes y opiniones. Estas escalas permiten determinar el nivel de
acuerdo o desacuerdo de los encuestados.
La escala de Likert asume que la fuerza e intensidad de la experiencia es lineal, por lo tanto va desde un
totalmente de acuerdo a un totalmente desacuerdo, asumiendo que las actitudes pueden ser medidas.
Siempre se debe tener un elemento neutral para aquellos usuarios que ni de acuerdo ni en desacuerdo.
Ejemplos de escala de Likert
Ventajas
Es una escala de fácil aplicación y diseño.
Puede utilizar ítems que no tienen relación con la expresión.
Ofrece una graduación de la opinión de las personas encuestadas.
Muy sencilla de contestar.
Desventajas
Existen estudios científicos que indican que existe un sesgo en la escala, ya que las respuestas positivas
siempre superan a las negativas.
También hay estudios que indican que los encuestados tienden a contestar “de acuerdo” ya que implica
un menor esfuerzo mental a la hora de contestar la encuesta.
Dificultad para establecer con precisión la cantidad de respuestas positivas y negativas.
Escala de Likert y análisis de datos
Las escalas Likert son un formato de clasificación común para las encuestas. Los encuestados clasifican la
calidad de alto a bajo o mejor a peor utilizando cinco o siete niveles.
Los estadísticos generalmente han agrupado los datos recogidos de estas encuestas en una jerarquía de
cuatro niveles de medición:
Datos nominales: El nivel de medición más débil que representa categorías sin representación numérica.
Datos ordinales: Datos en los que es posible ordenar o clasificar las respuestas, pero no es posible medir
la distancia.
Datos de intervalo: En general, datos enteros en los que se pueden realizar mediciones de pedidos y
distancias.
Datos de relación: datos en los que es posible el ordenamiento significativo, distancia, decimales y
fracciones entre variables.
Los análisis de datos que utilizan datos nominales, de intervalo y de relación son generalmente sencillos
y transparentes. Los análisis de datos ordinales, particularmente en lo que se refiere a Likert u otras
escalas en las encuestas, no lo son.
Una razón subyacente para analizar los datos ordinales como datos de intervalos podría ser la afirmación
de que las pruebas estadísticas paramétricas (basadas en el teorema del límite central) son más poderosas
que las alternativas no paramétricas.
Sin embargo, el tratamiento de los datos ordinales como datos de intervalo (o incluso de relación) sin
examinar los valores del conjunto de datos y los objetivos del análisis puede inducir a error y tergiversar
los resultados de una encuesta
Análisis, generalización a índices continuos
Como regla general, la media y la desviación estándar son parámetros no válidos para la estadística
descriptiva cuando los datos están en escalas ordinales, al igual que cualquier análisis paramétrico basado
en la distribución normal.
Los procedimientos no paramétricos basados en el rango, la mediana o el rango son apropiados para
analizar estos datos, al igual que los métodos libres de distribución tales como tabulaciones, frecuencias,
tablas de contingencia y estadísticas de chi-cuadrado.
Los modelos de Kruskall-Wallis pueden proporcionar el mismo tipo de resultados que un análisis de
varianza, pero en base a los rangos y no a los medios de las respuestas. Dado que estas escalas son
representativas de una medida subyacente continúa, una recomendación es analizarlas como datos de
intervalos como un piloto antes de recoger la medida continua.
Mejores prácticas para analizar los resultados de la escala de Likert
Las escalas Likert de cinco puntos se asocian comúnmente con las encuestas y se usan en una amplia
variedad de entornos. Te has topado con la escala de Likert si alguna vez te han preguntado si estás
totalmente de acuerdo, de acuerdo, ni de acuerdo o en desacuerdo, en desacuerdo o muy en desacuerdo
sobre algo. Arriba podrás encontrar algunos ejemplos de este tipo de preguntas.
Debido a que los datos de los elementos de Likert son discretos, ordinales y tienen un alcance limitado,
ha habido una larga disputa sobre la forma más válida de analizar los datos de Likert. La elección básica
es entre una prueba paramétrica y una prueba no paramétrica. Los pros y los contras para cada tipo de
prueba se describen generalmente como los siguientes:
Las pruebas paramétricas, como la prueba t de 2 muestras, asumen una distribución normal y continua.
Sin embargo, con un tamaño de muestra suficiente, las pruebas t son robustas a las salidas de la
normalidad.
Las pruebas no paramétricas, como la prueba de Mann-Whitney, no asumen una distribución normal o
continua. Sin embargo, hay preocupaciones acerca de una menor capacidad de detectar una diferencia
cuando uno realmente existe.
¿Cuál es la mejor opción? Esta es una decisión real que tienes que hacerte cuando vas a hacer un análisis
de los datos de tu encuesta cuando utilizaste Likert.
A través de los años, una serie de estudios que han tratado de responder a esta pregunta. Sin embargo,
han tendido a mirar un número limitado de distribuciones potenciales para los datos Likert, lo que hace
que la generalización de los resultados a sufrir.
Gracias a los aumentos en la potencia de la computación, los estudios de simulación ahora pueden evaluar
a fondo una amplia gama de distribuciones.
Los investigadores identificaron un conjunto diverso de 14 distribuciones que son representativas de los
datos reales de Likert. El programa informático dibujó pares independientes de muestras para probar
todas las combinaciones posibles de las 14 distribuciones.
En total, se generaron 10.000 muestras aleatorias para cada una de las 98 combinaciones de distribución.
Los pares de muestras se analizan utilizando tanto la prueba t de dos muestras y la prueba de Mann-
Whitney para comparar la eficacia de cada prueba. El estudio también evaluó diferentes tamaños de
muestra.
Los resultados muestran que para todos los pares de distribuciones las tasas de error Tipo I (falso positivo)
son muy cercanas a las cantidades objetivo. En otras palabras, si usted utiliza cualquiera de los análisis y
sus resultados son estadísticamente significativos, no es necesario estar demasiado preocupado por un
falso positivo.
Los resultados también muestran que para la mayoría de los pares de distribuciones, la diferencia entre
el poder estadístico de las dos pruebas es trivial. En otras palabras, si realmente existe una diferencia a
nivel de población, cualquiera de los análisis es igualmente probable que lo detecte.
Las preocupaciones sobre la prueba de Mann-Whitney que tienen menos poder en este contexto parecen
ser infundadas.
Tengo una advertencia. Hay algunos pares de distribuciones específicas donde hay una diferencia de
poder entre las dos pruebas.
Si realiza ambas pruebas en los mismos datos y no están de acuerdo (uno es significativo y el otro no lo
es), puede consultar una tabla del artículo para determinar si una diferencia en el poder estadístico podría
ser un problema. Esta diferencia de poder afecta sólo a una pequeña minoría de los casos.
En general, la elección entre los dos análisis es lazo. Si necesita comparar dos grupos de datos de Likert
de cinco puntos, normalmente no importa qué análisis utilice.
Ambas pruebas proporcionan casi siempre la misma protección contra falsos negativos y siempre
proporcionan la misma protección contra falsos positivos. Estos patrones son válidos para tamaños de
muestra de 10, 30 y 200 por grupo.
Pasos a seguir:
1 Obtener los datos de lista para el análisis mediante la codificación de las respuestas.
2. Recuerde que debe diferenciar entre los datos ordinales y de intervalo, porque los dos tipos requieren
diferentes enfoques analíticos. Si los datos son ordinales, podemos decir que una puntuación es más alta
que otra. No podemos decir cuánto más alto, como podemos con los datos de intervalo, lo que le dirá la
distancia entre dos puntos. Aquí está la trampa con la escala de Likert: muchos investigadores la tratarán
como una escala de intervalo. Esto supone que las diferencias entre cada respuesta son iguales en la
distancia. La verdad es que la escala de Likert no nos dice eso. En nuestro ejemplo, sólo nos dice que las
personas con mayor número de respuestas están más de acuerdo con las posiciones del partido que
aquellos con el menor número respuestas.
3. Comenzar a analizar los datos de la escala de Likert con estadística descriptiva. Aunque puede ser
tentador, resista el impulso de tomar las respuestas numéricas y calcular una media. Agregar una
respuesta "muy de acuerdo" (5) a dos de las respuestas "en desacuerdo" (2) nos daría una media de 4,
pero ¿cuál es el significado de ese número? Afortunadamente, hay otras medidas de tendencia central
que puede utilizar, además de la media. Con datos de la escala de Likert, la mejor medida a utilizar es el
modo o la respuesta más frecuente. Esto hace que los resultados de la encuesta sean mucho más fácil de
interpretar para el analista (por no hablar de la audiencia para su presentación o un informe). También
puede visualizar la distribución de las respuestas (porcentajes que están de acuerdo, en desacuerdo, etc)
en un gráfico, como un gráfico de barras, con una barra para cada categoría de respuesta.
4. Proceder al lado de las técnicas de inferencia que ponen a prueba las hipótesis planteadas por los
investigadores. Hay muchos métodos disponibles, y el mejor depende de la naturaleza de su estudio y las
preguntas que están tratando de responder. Un método popular es el de analizar las respuestas usando
técnicas de análisis de varianza, como la prueba de Mann Whitney o prueba de Kruskal Wallis.
Supongamos que en nuestro ejemplo hemos querido analizar las respuestas a las preguntas sobre las
posiciones de política exterior con la etnicidad como variable independiente. Supongamos que nuestros
datos incluyen las respuestas de los anglos, afroamericanos y los hispanos encuestados, por lo que podría
analizar las respuestas entre los tres grupos de encuestados con la prueba de Kruskal Wallis de la varianza.
5. Simplifique sus datos de la encuesta mediante la combinación de las cuatro categorías de respuesta
(por ejemplo, muy de acuerdo, de acuerdo, en desacuerdo, totalmente en desacuerdo) en dos categorías
nominales, tales como acuerdo / desacuerdo, aceptar o rechazar, etc.). Esto ofrece otras posibilidades de
análisis. La prueba de chi cuadrado es un enfoque para el análisis de los datos de ésta manera.
Construcción de una escala de actitudes tipo Likert
¿Qué es una escala?
Definimos una escala como una serie de ítems o frases que han sido cuidadosamente seleccionados, de
forma que constituyan un criterio válido, fiable y preciso para medir de alguna forma los fenómenos
sociales. En nuestro caso, este fenómeno será una actitud cuya intensidad queremos medir.
¿Qué es una actitud?
Actitud es un estado de disposición psicológica, adquirida y organizada a través de la propia experiencia

que incita al individuo a reaccionar de una manera característica frente a determinadas personas, objetos
o situaciones.
Las actitudes no son susceptibles de observación directa sino que han de ser inferidas de las expresiones
verbales; o de la conducta observada. Esta medición indirecta se realiza por medio de unas escalas en las
que partiendo de una serie de afirmaciones, proposiciones o juicios, sobre los que los individuos
manifiestan su opinión, se deducen o infieren las actitudes.
¿Qué es un item?
Un ítem es una frase o proposición que expresa una idea positiva o negativa respecto a un fenómeno que
nos interesa conocer. Por ejemplo, el ítem:
"Las normas sobre utilización de carretillas elevadoras dictadas por la empresa, en la práctica cotidiana,
son de difícil cumplimiento."
Expresa una opinión sobre un tema: la política normativa de la empresa, y se refiere concretamente al
manejo de carretillas. La posición valorativa de tal afirmación hecha por un individuo se puede considerar
como un indicador de su opinión sobre dicha política normativa, sobre el uso de carretillas elevadoras,
sobre la seguridad en la empresa, etc
Ejemplo de uso de Escala de Likert:

PLANTILLA PARA EVALUAR UN INSTRUMENTO POR JUICIO DE EXPERTOS
FORMULARIO
Título de la encuesta
En las siguientes páginas usted evalúa el cuestionario para poder validarlo.
En las respuestas de las escalas tipo Likert, por favor, marque con una X la respuesta escogida de entre
las seis opciones que se presentan en los casilleros, siendo:
1 = muy en desacuerdo
2 = en desacuerdo
3 = en desacuerdo más que en acuerdo
4 = de acuerdo más que en desacuerdo
5 = de acuerdo
6 = muy de acuerdo
ATENCIÓN: Esta página se debe copiar tantas veces como preguntas se deban validar por los expertos.
Pregunta n.º __*
Transcriba la pregunta a evaluar aquí
Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

(1 = muy en desacuerdo; 2 = en desacuerdo; 3 = en desacuerdo más que en acuerdo;
4 = de acuerdo más que en desacuerdo; 5 = de acuerdo; 6 = muy de acuerdo) 1 2 3 4 5 6
ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

encuestar):
 La pregunta se comprende con facilidad (clara, precisa, no ambigua, acorde al
nivel de información y lenguaje del encuestado)
 Las opciones de respuesta son adecuadas
 Las opciones de respuesta se presentan con un orden lógico
PERTINENCIA (contribuye a recoger información relevante para la investigación):
 Es pertinente para lograr el OBJETIVO GENERAL de la investigación
(Copiar el objetivo general.)
 Es pertinente para lograr el OBJETIVO ESPECÍFICO n.º ___ de la investigación**
(Copiar el objetivo n.º __.)
*Escribir el n.º de pregunta correspondiente.
**Todas las preguntas deben ser pertinentes para lograr uno o más objetivos específicos de la investigación, o
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el objetivo
general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la pregunta.
Observaciones y recomendaciones en relación a la pregunta n.º ___:

Motivos por los que se
considera no adecuada
considera no pertinente
Propuestas de mejora
(modificación, sustitución o
supresión)
Pregunta n.º __*


encuestar):
también ser pertinentes al objetivo general. Por defecto mantenga siempre en la tabla la fila que contiene el
objetivo general y deje al menos una de las filas que corresponde al objetivo específico que quiera alcanzar con la
pregunta.

supresión)
Pregunta n.º __*


encuestar):
pregunta.

supresión)
Pregunta n.º __*


encuestar):
pregunta.

supresión)
Pregunta n.º __*


encuestar):
pregunta.

supresión)
Valoración general del cuestionario
Por favor, marque con una X la respuesta escogida de entre las opciones que se presentan:
sí no
El instrumento contiene instrucciones claras y precisas para que los encuestados puedan
responderlo adecuadamente (ver Anexo 1)
El número de preguntas del cuestionario es excesivo
Las preguntas constituyen un riesgo para el encuestado
(en el supuesto de contestar SÍ, por favor, indique inmediatamente abajo cuáles)
Preguntas que el experto considera que pudieran ser un riesgo para el encuestado:
N.º de la(s) pregunta(s)
considera que pudiera
ser un riesgo
(modificación,
sustitución o supresión)
Evaluación general del cuestionario

Excelente Buena Regular Deficiente
Validez de contenido del cuestionario
Observaciones y recomendaciones en general del cuestionario:

(modificación,
sustitución o supresión)
Identificación del experto
Nombre y apellidos
Filiación
(ocupación, grado académico
y lugar de trabajo):
e-mail
Teléfono o celular
Fecha de la validación (día,
mes y año):
Firma
Muchas gracias por su valiosa contribución a la validación de este cuestionario.

CUESTIONARIO
Inserte el cuestionario aquí
VALIDACIÓN POR EXPERTOS DEL CUESTIONARIO
El n.º de expertos mínimo recomendable es 7. El n.º de expertos es preferible que sea un
número impar.
1. La puntuación va de 1 a 6 («muy en desacuerdo» a «muy de acuerdo»), se asigna el
promedio de adecuación y el promedio de pertinencia de cada pregunta del
cuestionario.
2. Si el promedio de puntuaciones de los expertos es 4 o más, tanto en adecuación como
en pertinencia, entonces la pregunta se considera validada.
PREGUNTA PUNTUACIÓN EXPERTOS
VALIDACIÓN
SUMA PROMEDIO 2
pregunta
n. Evaluació 1 2 3 4 5 6 7
1 1 1 1 1 1 1 puntuacione puntuacione
º n (SÍ/NO
s s
Adecuació
n
1
Pertinenci
a
Adecuació
n
2
Pertinenci
a
Adecuació
n
3
Pertinenci
a
Adecuació
n
4
Pertinenci
a
PREGUNTA PUNTUACIÓN EXPERTOS VALIDACIÓN2

SUMA PROMEDIO pregunta
n.º Evaluación 11 21 31 41 51 61 71
puntuaciones puntuaciones (SÍ/NO
Adecuación
5
Pertinencia
Adecuación
6
Pertinencia
Adecuación
7
Pertinencia
Adecuación
8
Pertinencia
Adecuación
9
Pertinencia
Adecuación
10
Pertinencia
Adecuación
11
Pertinencia
Adecuación
12
Pertinencia
II. JUICIO DE EXPERTOS
El juicio de expertos se define como una opinión informada de personas con trayectoria en el
tema, que son reconocidas por otros como expertos cualificados en éste, y que pueden dar
información, evidencia, juicios y valoraciones. La identificación de las personas que formarán
parte del juicio de expertos es una parte crítica en este proceso, se proponen los siguientes
criterios de selección:
(a) Experiencia en la realización de juicios y toma de decisiones basada en evidencia o experticia

(grados, investigaciones, publicaciones, posición, experiencia y premios entre otras),
(b) reputación en la comunidad,
(c) disponibilidad y motivación para participar, y
(d) imparcialidad y cualidades inherentes como confianza en sí mismo y adaptabilidad.
También plantean que los expertos pueden estar relacionados por educación similar,
entrenamiento, experiencia, entre otros; y en este caso la ganancia de tener muchos expertos
disminuye. Otros autores, proponen como criterio básico de selección únicamente el número
de publicaciones o la experiencia.
La utilización del juicio de expertos es parte del proceso de estimación de la validez de

contenido. Esta técnica debe realizarse de manera adecuada, ya que muchas veces constituye
el único indicador de la validez de contenido. El juicio de expertos requiere interpretar y aplicar
sus resultados de manera acertada, eficiente y con toda la rigurosidad metodológica y
estadística, para permitir que la evaluación basada en la información obtenida de la prueba
pueda ser utilizada con los propósitos para la cual fue diseñada.
La validez de contenido se establece en diferentes situaciones, siendo dos de las más frecuentes:
(a) el diseño de una prueba, y
(b) la validación de un instrumento que fue construido para una población diferente, pero que
se adaptó mediante un procedimiento de traducción (equivalencia semántica).
Es muy frecuente que instrumentos que ya han sido estandarizados en países de habla inglesa
sean utilizados en países de habla no inglesa, por lo cual se debe realizar el proceso de
traducción, adaptación y estandarización del instrumento para dichos países. Estos procesos
presentan dificultades importantes, ya que la sola adaptación del instrumento no
necesariamente genera una equivalencia cultural debido a las barreras del idioma, a significados
culturales diferentes de un constructo particular o a una variedad de interpretaciones de un
comportamiento observado basado en normas culturales. Es por esto que se hace necesario
validar dichos instrumentos en términos de su contenido, y es allí donde la evaluación realizada
por expertos cobra especial relevancia, pues son ellos quienes deben eliminar los ítems
irrelevantes y modificar los ítems que lo requieran, como en el caso de expresiones idiomáticas.
En este contexto surgen los objetivos de:
(a) Realizar una aproximación a la conceptualización de la validez de contenido y del juicio de

expertos
(b) proponer un procedimiento para su realización, y
(c) brindar algunas alternativas estadísticas para el análisis de los datos obtenidos del proceso
que permitan tomar decisiones.
De otra parte, el número de jueces que se debe emplear en un juicio depende del nivel de
experticia y de la diversidad del conocimiento; sin embargo, la decisión sobre qué cantidad de
expertos es la adecuada varía entre autores, algunos sugieren un rango de dos hasta 20
expertos, otros manifiestan que diez brindarían una estimación confiable de la validez de
contenido de un instrumento. Si un 80 % de los expertos han estado de acuerdo con la validez
de un ítem éste puede ser incorporado al instrumento.
Pasos para realizar un juicio de expertos
Varios autores han propuesto diversos pasos para la realización del juicio de expertos:
(a) Preparar instrucciones y planillas,
(b) seleccionar los expertos y entrenarlos
(c) explicar el contexto
(d) posibilitar la discusión, y
(e) establecer el acuerdo entre los expertos por medio del cálculo de consistencia.
Además de estos pasos comunes a los diferentes autores, se debe instruir claramente al juez en
la dimensión y el indicador que mide cada ítem o un grupo de ellos. Es de especial relevancia
brindar información sobre el uso que tendrán los resultados de la prueba, ya que como se
mencionó en un apartado anterior, estos están estrechamente relacionados con la validez de
contenido. En efecto, utilizaciones diferentes de las puntuaciones harán que varíe la pertinencia
y suficiencia de los ítems. Si tomamos el caso de una prueba de autoestima para deportistas de
alto rendimiento, por ejemplo, es diferente el valor que se le atribuye a los ítems si la prueba se
va a usar para seleccionar a los deportistas que asistirán a competencias de alta exigencia por
primera vez, que si se van a usar para describir un perfil de los diferentes aspectos psicológicos
que pueden tener efecto en el desempeño del deportista.
Existen varios métodos para la obtención de juicios de expertos, que pueden clasificarse según
si la evaluación se realiza de manera individual o grupal. En el primer grupo se encuentran
algunos como el método de agregados individuales y el método Delphi, en ambos métodos cada
juez realiza la evaluación individualmente, pero en el Delphi, luego de analizar las respuestas se
le envía a cada juez la mediana obtenida y se le pide que reconsidere su juicio hasta que se logre
un consenso. Ésta técnica ofrece un alto nivel de interacción entre los expertos, evitando las
desventajas de la dinámica grupal. Entre las técnicas grupales se encuentra la nominal y el
consenso, en ambas se requiere reunir a los expertos, pero en la última se exige mayor nivel de
acuerdo. Estas técnicas pueden tener problemas si se generan discusiones tensas o si existen
variables individuales como la personalidad y las habilidades sociales de los jueces que generen
sesgos. Otro procedimiento utilizado para el juicio de expertos se basa en el emparejamiento de
los ítems con el dominio. En este caso se entrega a los jueces una lista de objetivos (categorías)
y se les presenta cada ítem en una ficha separada. El juez compara cada ítem con la lista y
registra el resultado en una hoja de respuestas, indicando al lado de cada ítem el número del
objetivo. La precisión de los juicios depende tanto de las características de los jueces y de su
experiencia, como de las características de la tarea. Dentro de esta última, la teoría cognitiva
sugiere tres categorías importantes:
(a) La complejidad de la estructura de la tarea,
(b) la ambigüedad en el contenido de la tarea, y

(c) la forma de la presentación de la tarea
Guía para la realización de un juicio de expertos
El juicio de expertos es un procedimiento que nace de la necesidad de estimar la validez de

contenido de una prueba. Para realizarlo se debe recabar información de manera sistemática. A
continuación se proponen una serie de pasos que permiten organizar la información, de manera
que el proceso de juicio de expertos sea más eficiente.
1. Definir el objetivo del juicio de expertos. En este apartado los investigadores deben tener
clara la finalidad del juicio, ya que puede utilizarse con diferentes objetivos:
(a) Establecer la equivalencia semántica de una prueba que se encuentra validada en otro
idioma,
(b) evaluar la adaptación cultural, es decir, el objetivo de los jueces es evaluar si los ítems de la
prueba miden el mismo constructo en una cultura distinta; así por ejemplo, los ítems que midan
agresividad en una prueba validada en el Tibet, pueden no estar midiendo lo mismo en
Alemania, y
(c) validar contenido en una prueba diseñada por un grupo de investigadores.
2. Selección de los jueces. Para ello han de tomarse en cuenta los criterios especificados
anteriormente para la selección, considerando la formación académica de los expertos, su
experiencia y reconocimiento en la comunidad. Se propone un mínimo de cinco jueces, dos de
los cuales deben ser expertos en medición y evaluación, y para el caso de traducciones y
adaptaciones de pruebas, se requiere por lo menos un experto en lingüística.
3. Explicitar tanto las dimensiones como los indicadores que está midiendo cada uno de los
ítems de la prueba. Esto le permitirá al juez evaluar la relevancia, la suficiencia y la pertinencia
del ítem. No hay que dar por sentado que el juez únicamente con la descripción del constructo
a medir pueda identificarlo claramente, ya que como se mencionó anteriormente, es posible
que existan diferentes definiciones de un mismo constructo.
4. Especificar el objetivo de la prueba. El autor debe proporcionar a los jueces la información

relacionada con el uso de la prueba, es decir, para qué van a ser utilizados los puntajes obtenidos
a partir de ésta. Esto aumenta la contextualización del juez respecto a la prueba, incrementando
a su vez el nivel de especificidad de la evaluación; ya que la validez de los ítems está
directamente relacionada con su utilización, por ejemplo, para hacer un diagnóstico o un
tamizaje, o evaluar desempeño, entre otros.
5. Establecer los pesos diferenciales de las dimensiones de la prueba. Esto sólo se hace cuando
algunas de las dimensiones tienen pesos diferentes. Por ejemplo, si una prueba va a ser utilizada
para el diagnóstico y asignación a un programa de rehabilitación de una adicción, se debe dar
mayor peso a las dimensiones que midan la calidad de vida que a las que evalúen personalidad
adictiva.
6. Diseño de planillas. La planilla se debe diseñar de acuerdo con los objetivos de la evaluación.
No obstante, en el Anexo 1 se muestra una planilla que puede ser utilizada en la gran mayoría
de juicios de expertos, con sus respectivos indicadores para la calificación.
7. Calcular la concordancia entre jueces. Para esto se utilizan los estadísticos Kappa y Kendall
que se describirán a continuación. La información sobre cada estadístico, las hipótesis de trabajo
y los criterios de interpretación, se muestran en la tabla 1
8. Elaboración de las conclusiones del juicio.
Estadísticos para análisis
Para estimar la confiabilidad de un juicio de expertos, es necesario conocer el grado de acuerdo

entre ellos, ya que un juicio incluye elementos subjetivos. Cuando la medida de acuerdo
obtenida es alta indica que hay consenso en el proceso de clasificación o asignación de puntajes
entre los evaluadores, igualmente da cuenta de la intercambiabilidad de los instrumentos de
medición y reproducibilidad de la medida. Para determinar el grado de acuerdo entre los jueces
se han utilizado diferentes procedimientos, una aproximación inicial fue calcular el porcentaje
de acuerdo, medida que resulta insuficiente ya que no incluye el acuerdo esperado por el azar.
Luego se incluyeron medidas de correlación que eran interpretadas como índices de acuerdo;
sin embargo un alto índice de correlación no necesariamente implica que el acuerdo sea alto
también, un ejemplo que refleja esta situación: En dos evaluaciones, dos codificadores
asignaban a cada ítem una puntuación entre uno y diez, en la primera evaluación los
codificadores A y B están completamente de acuerdo; en la segunda evaluación los codificadores
C y D están en desacuerdo en todos los ítems, pero les asignan valores que están linealmente
correlacionados. En los dos casos se obtiene el mismo índice, con lo que queda claramente
expresada la inconveniencia de medidas únicamente de correlación para la estimación del
acuerdo. Posteriormente se propuso el coeficiente Kappa, que se convirtió rápidamente en el
índice de acuerdo más utilizado en ciencias biológicas y sociales. Inicialmente el coeficiente se
utilizaba únicamente en datos nominales, después se hizo una generalización para incluir datos
ordinales a este nuevo coeficiente al que se le denominó weighted k-coefficient. Kendall
también propuso un coeficiente de acuerdo para datos ordinales, basado en el grado de varianza
de la suma de los rangos obtenidos de los diferentes jueces. Actualmente se vienen investigando
otros procedimientos para estimar el acuerdo, se están aplicando los modelos log-lineales y los
mixtos (mezcla de distribuciones). En el primero se analizan tanto la estructura del acuerdo
como la del desacuerdo que se presentan en los datos, con este enfoque se puede conocer el
ajuste del modelo y se puede aplicar a datos ordinales; mientras que en el segundo se incluyen
variables latentes.
Estadístico Kappa. Este estadístico genera una medida de acuerdo entre evaluadores y se utiliza
cuando las variables están dadas en una escala nominal, es decir únicamente clasifican. Por
ejemplo, un juez clasifica los ítems de una prueba de conocimientos en contestables o no
contestables por una persona que tenga un nivel adecuado de conocimiento en el área, o el caso
de psicólogos clínicos que tienen que clasificar a pacientes entre los que requieren seguimiento
permanente y los que no. El estadístico tiene un rango entre -1 y 1, pero generalmente se ubica
entre 0 y 1. Si el coeficiente es 1 indica acuerdo perfecto entre los evaluadores, si es 0 indica que
el acuerdo no es mayor que el esperado por el azar, y si el valor del coeficiente es negativo el
nivel se acuerdo es inferior al esperado por el azar. No obstante, obtener estos valores extremos
es improbable, lo común es obtener un amplio espectro de valores intermedios que se
interpretan teniendo como referencia la complejidad de la evaluación y el número de categorías
a evaluar, es decir, la interpretación es relativa al fenómeno medido. Un acuerdo de 0.55 sería
considerado bajo, y se podría inferir que hay dificultad en la clasificación, o que incluso, pueden
tener ambigüedad en los indicadores que les permiten decidir en uno u otro sentido. En otro
caso, si en un colegio el objetivo es clasificar los alumnos con trastornos de aprendizaje y
discapacidad, para identificar el número de casos de dislexia, discalculia, disgrafía, discapacidad
cognoscitiva, y discapacidad sensorial; obtener 0.55 se interpretaría como un índice de acuerdo
moderado, atendiendo a la mayor complejidad de la evaluación. Sin embargo si dicha
clasificación se va a realizar con el objetivo de enviarlos a terapia o a aulas de apoyo se requiere
un acuerdo mayor, al igual que si se trata de ítems para validación de una prueba. El coeficiente
de Kappa tiene como ventaja que corrige el porcentaje de acuerdo debido al azar y es muy
sencillo de calcular. Sin embargo, se han realizado varias críticas principalmente relacionadas
con que el índice de acuerdo se ve afectado por el número de categorías y por la forma en la
que están distribuidas las observaciones.
Coeficiente de concordancia W de Kendall: Este coeficiente se utiliza cuando se quiere conocer

el grado de asociación entre k conjuntos de rangos, por lo cual es particularmente útil cuando
se les solicita a los expertos asignarle rangos a los ítems, por ejemplo de 1 a 4. El mínimo valor
asumido por el coeficiente es 0 y el máximo 1, y su interpretación es la misma que para el
coeficiente de Kappa. Sin embargo, hay que hacer la salvedad que hay que revisar la calificación
dada a cada ítem, ya que puede haber una alta concordancia en los aspectos, un ejemplo de ello
es que el ítem no sea adecuado. Obviamente en este caso se debe eliminar o modificar el ítem
completamente hasta que ajuste a los objetivos de la medición de forma acertada. Según Siegel
y Castellan, un valor alto de la w puede interpretarse como un reflejo de que los k observadores
o jueces están aplicando los mismos estándares al asignar rangos a los ítems. Esto no garantiza
que los ordenamientos observados sean correctos, ya que todos los jueces pueden concordar si
todos están utilizando un criterio incorrecto para clasificar. Es debido a esto último que el
criterio de selección de jueces cobra especial relevancia al igual que la independencia entre los
mismos. Para estimar en SPSS 14 el coeficiente de Kappa se siguen estos pasos:
a) Haga clic en Analizar y seleccione Estadísticos descriptivos,
b) Haga clic en Tablas de contingencia, allí encontrará un cuadro de diálogo y
c) Haga clic en Estadísticos y seleccione Kappa.
Para estimar en SPSS 14 el coeficiente de Kendall siga estos pasos:
a) Haga clic en Analizar y seleccione Pruebas no paramétricas,
b) Haga clic en k muestras relacionadas y seleccione W de Kendall y
c) seleccione Kendal (ver tabla 1)

Escala de Likert

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Escala de Likert

Caricato da

Copyright:

Formati disponibili

I.

Cuando se responde a un ítem de la escala de likert, el usuario responde específicamente en base a su

Es una escala de fácil aplicación y diseño.

Puede utilizar ítems que no tienen relación con la expresión.

Ofrece una graduación de la opinión de las personas encuestadas.

Muy sencilla de contestar.

Dificultad para establecer con precisión la cantidad de respuestas positivas y negativas.

Escala de Likert y análisis de datos

Análisis, generalización a índices continuos

Mejores prácticas para analizar los resultados de la escala de Likert

Construcción de una escala de actitudes tipo Likert

¿Qué es una escala?

¿Qué es una actitud?

Actitud es un estado de disposición psicológica, adquirida y organizada a través de la propia experiencia

Ejemplo de uso de Escala de Likert:

En las siguientes páginas usted evalúa el cuestionario para poder validarlo.

Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

*Escribir el n.º de pregunta correspondiente.

Observaciones y recomendaciones en relación a la pregunta n.º ___:

Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

*Escribir el n.º de pregunta correspondiente.

Observaciones y recomendaciones en relación a la pregunta n.º ___:

Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

*Escribir el n.º de pregunta correspondiente.

Observaciones y recomendaciones en relación a la pregunta n.º ___:

Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

*Escribir el n.º de pregunta correspondiente.

Observaciones y recomendaciones en relación a la pregunta n.º ___:

Indique su grado de acuerdo frente a las siguientes afirmaciones: Grado de acuerdo

ADECUACIÓN (adecuadamente formulada para los destinatarios que vamos a

*Escribir el n.º de pregunta correspondiente.

Observaciones y recomendaciones en relación a la pregunta n.º ___:

Evaluación general del cuestionario

Observaciones y recomendaciones en general del cuestionario:

Muchas gracias por su valiosa contribución a la validación de este cuestionario.

PREGUNTA PUNTUACIÓN EXPERTOS VALIDACIÓN2

(a) Experiencia en la realización de juicios y toma de decisiones basada en evidencia o experticia

(b) reputación en la comunidad,

(c) disponibilidad y motivación para participar, y

(d) imparcialidad y cualidades inherentes como confianza en sí mismo y adaptabilidad.

La utilización del juicio de expertos es parte del proceso de estimación de la validez de

(a) Realizar una aproximación a la conceptualización de la validez de contenido y del juicio de

(b) proponer un procedimiento para su realización, y

Pasos para realizar un juicio de expertos

(a) Preparar instrucciones y planillas,

(b) seleccionar los expertos y entrenarlos

(c) explicar el contexto

(d) posibilitar la discusión, y

(a) La complejidad de la estructura de la tarea,

(b) la ambigüedad en el contenido de la tarea, y

Guía para la realización de un juicio de expertos

El juicio de expertos es un procedimiento que nace de la necesidad de estimar la validez de

(c) validar contenido en una prueba diseñada por un grupo de investigadores.

4. Especificar el objetivo de la prueba. El autor debe proporcionar a los jueces la información

8. Elaboración de las conclusiones del juicio.

Estadísticos para análisis

Para estimar la confiabilidad de un juicio de expertos, es necesario conocer el grado de acuerdo

Coeficiente de concordancia W de Kendall: Este coeficiente se utiliza cuando se quiere conocer

b) Haga clic en Tablas de contingencia, allí encontrará un cuadro de diálogo y

c) Haga clic en Estadísticos y seleccione Kappa.