Sei sulla pagina 1di 79

ESTRUCTURA Y USO DE LAS ESCALAS JUST-ABOUT-RIGHT (JAR)

Introducción

Las escalas JAR son usadas comúnmente en investigaciones de consumo para


identificar si los atributos de un producto son percibidos a niveles que estén muy
altos, muy bajos, o justo lo adecuado (Traducción al español de JAR) para ese
producto. Mientras que a primera vista la este tipo de escala puede parecer
simple, el proceso de desarrollo y análisis de las escalas JAR es complejo. En
este manual, la historia del uso de las escalas JAR, la mecánica de la
construcción de las escalas JAR, usos inapropiados y apropiados para las
escalas JAR, beneficios y riesgos de uso, y estudios de casos que ilustran los
muchos métodos de análisis de datos para estas escalas son revisados.
También son incluidas alternativas a las escalas JAR. Finalmente, se presenta
un resumen y conclusiones.
Este manual cubre la aplicación, construcción, análisis e interpretación de
escalas JAR para su uso en consumidores. Definidas como escalas de atributos
etiquetados bipolarmente, las escalas JAR miden niveles a los atributos de un
producto relativos a una respuesta teórica de nivel ideal. Estas escalas tienen un
punto medio anclado de “just about right” o “just right” y puntos finales anclados
a representar niveles de intensidad del atributo que son mayores o menores al
ideal. El modelo ideal de puntos [1] servirá como la base conceptual para la
interpretación de la escala JAR.
Este modelo es uno de los muchos disponibles; sin embargo, no es práctico
cubrir todos los aspectos del modelamiento de puntos ideales ni considerar otros
marcos conceptuales, como preferencia en el despliegue de este manual. Este
manual fue desarrollado por miembros del Task Group E18.04.26, el cual es
parte del comité ASTM E18 en evaluación sensorial y está diseñada para
profesionales de investigaciones sensoriales y de mercado responsables de las
pruebas de consumo e interpretación de datos de los consumidores. La mira del
grupo de trabajo fue desarrollar un manual practica que cubra los aspectos
ejecutivos de las escalas JAR (construcción, ubicación y análisis) e identifica y
discute problemas con su validez e interpretación.
Este manual no discute en detalle fisiológico o psicofísico procesos relativos a la
escala, practicas básicas en pruebas de consumo, o principios estadísticos
generales.
Terminología
Para definiciones de términos relacionados al análisis sensorial, vea terminología
E253, y para términos relacionados a estadística, vea terminología E456.
Definiciones de términos específicos para este manual:
- Escala bipolar --- una escala en donde los finales ancla son semíticamente
opuestos, por ejemplo, “ni siquiera cercano al dulzor suficiente” a
“demasiado dulzor”, y hay un punto medio anclado a lo neutro.
- Escala Just-about-right (JAR) --- Escala bipolar usada para medir el nivel
de un atributo relativo a el nivel ideal de un asesor, teniendo un punto
medio etiquetado como “just about right” o “just right” (justo lo necesario).
- Optimo --- Cantidad de grado de algo que es muy favorable a algún fin.
Significancia y uso
La data cuantitativa obtenida de los consumidores es frecuentemente usada para
ayudar en el desarrollo de productos. Los tipos de data cuantitativa reunida
pueden incluir medidas hedónicas o de aceptabilidad, medidas de preferencia,
intensidad del atributo o medidas de fuerza, y medidas JAR.
Mientras que las escalas hedónicas y de intensidad de atributos proveen distintas
clases de información, la escala JAR pretende combinar aceptabilidad e
intensidad para parecerse a la fuerza percibida de algún atributo específico para
el óptimo teórico del encuestado. Los investigadores de mercado han usado las
escalar JAR rutinariamente desde los 60´s, aun cuando no eran llamadas
escalas JAR. Más recientemente, las escalas JAR han sido usadas en
conjunción con medidas de preferencia o aceptabilidad como una herramienta
de diagnóstico para entender la base para estas respuestas hedónicas, con el
fin de proveer información concerniente a cual atributo del producto ajustar y en
cual dirección. En este sentido, las escalas JAR proveen una guía para el
desarrollador del producto.
Ya que las escalas JAR combinan fuerza del atributo y apropiadez en una escala,
la duración del cuestionario puede ser minimizada. Las escalas JAR deberían
ser fácilmente interpretadas por los encuestados cuando los atributos son fáciles
de entender por ellos mismos. (Salado, oscuro, apretado y demás). Las escalas
JAR no escapan a la controversia respecto a su utilidad y validez como guía en
la investigación de desarrollo de mercados y productos. Como en todos los otros
tipos de escalas cuantitativas, las escalas JAR tienen problemas y limitaciones
respecto a su utilidad e interpretación: la habilidad de los encuestados para
entender las etiquetas de intervalos y puntos finales del atributo, número de
puntos de escala, representación física de la escala en el cuestionario, y las
cuestiones psicológicas comunes en las tareas de escala en general.
En adición, la recolección de datos de la escala JAR puede ser específicamente
obstaculizada por la habilidad del investigador de construir escalas bipolares
para los atributos de interés y demandas características de la prueba, la cual
puede probar la dificultad para algunos encuestados. Otra importante limitación
que concierne a la valides de la data obtenida usando escalas JAR cuando se
sospecha que las respuestas son un resultado cognitivo más que sensorial. Por
ejemplo, un encuestado puede gustar de un perfil de sabor de un postre “como
es”, pero cuando le preguntan, puede clasificarlo como “muy dulce” porque cree
que las comidas dulces son “malas”.
Un numero de técnicas estadísticas están disponibles para analizar la data de
escalas JAR; estas van desde simples hasta muy complejas. El análisis
estadístico de los datos de escalas JAR debe ser escogido para el objetivo de la
porción de investigación que involucra escalas JAR. Los ejemplos de objetivos
están listados en la Tabla 1.
Historia del uso de las escalas JAR
El génesis de la clasificación JAR no está bien documentado literatura publicada
de marketing o investigación sensorial. Un probable origen puede ser encontrado
en las metodologías de escala de aptitud-medida por L. L. Thurstone y Rensis
Likert en los 20´s y 30´s. Thurstone contribuyó con una escala de actitud
diferenciada sobre un continuum, y Likert adjuntó números a los niveles de
significancia de esa escala. La escala de Likert (escala de 5 puntos desde
“totalmente de acuerdo” hasta “totalmente en desacuerdo” con un punto central
en “neutral”) es todavía ampliamente usada.
No fue hasta los 50´s con la introducción del concepto de Osgood de “espacio
semántico” y el desarrollo de “escala diferencial semántica” que los opuestos
semánticos empezaron a aparecer en la medición de escalas. Estas escalas
adicionaron 3 componentes de juicio: evaluativo, potencia, y actividad que son
usados para medir actitudes y ciertos aspectos de un producto. En 1957, Osgood
publico sus hallazgos en la cuantificación del significado semántico connotativo
en The measurement of Meaning. Las escalas semánticas diferenciales, sin
embargo, con continuas y, a diferencia de la escala JAR, no identifican el punto
ideal para un individuo. Sigue sin esclarecerse quién y cuándo empezó a usar la
técnica única de la ancla media de JAR. Referencias más tempranas a
discusiones acerca del punto medio ideal datan de los 50´s. En 1972, Moskowitz
presento la idea de usar la escala JAR e ideales diseñados por uno mismo en la
optimización de las dimensiones perceptuales en alimentos. Cerca a los 80´s, el
uso de escalas con el centro anclado a “justo lo suficiente” fueron reportados por
otros. Desde los 80´s al presente, la investigación sensorial usando escalamiento
JAR continua. La relación entre las escalas JAR y las escalas hedónicas y de
intensidad, preferencias y patrones de consumo, han sido de particular interés.
Varios autores han propuesto el uso de escalas JAR como una alternativa para
las escalas hedónicas para determinar el nivel ideal de un ingrediente. Otros, sin
embargo, o no encontraron coincidencia entre los valores JAR y hedónicas o
encontraron preguntas en el efecto de una sobre otra. Para 1999, se reportó
ampliamente el uso de las escalas JAR para guías de producto. Sin embargo, su
uso e interpretación sigue siendo un tema controversial en la ciencia sensorial,
en parte por el tipo de juzgamientos que deben hacer los encuestados.
Mecánica de la construcción de escalas JAR
Desarrollo de cuestionarios usando escalas JAR – Cuando se desarrolla un
cuestionario que contendrá escalas JAR, los investigadores deberían considerar
que otro tipos de escalas incluir y sus relativas ubicaciones en el cuestionario.
Esto dependerá en el objetivo promedio de la prueba y en como la información
será usada. Un cuestionario típico para el consumidor puede incluir tanto
respuestas hedónicas como JAR. Mientras que es posible construir un
cuestionario con solo escalas JAR, sin una concomitante colección de
información hedónica el investigador será incapaz de relacionar la información
de escalas JAR a calificaciones hedónicas. Si el investigador desea entender las
calificaciones de los encuestados en fuerza del atributo, pueden ser incluidas las
escalas de intensidad en el cuestionario de escala JAR. Alternativamente, la
información descriptiva de un panel entrenado debe ser recolectada
separadamente y examinada con calificaciones JAR.
Problemas relacionados al escalamiento
Tipo de escala – A veces conocidos como “direccionales”, las escalas JAR son
construidas bajo la categoría de escalas bipolares o de línea continua, con un
punto medio etiquetado como Justo lo Suficiente. A diferencia del caso de una
escala de categoría, las respuestas para escalas continúas son teóricamente
infinitas.
Número de puntos de escala – Si es usada como una escala de categoría, el
número mínimo de puntos en una escala JAR es 3. Como el punto central de la
escala es el óptimo del encuestado, el número de puntos siempre será raro. La
escala encuentra su “balance” en que hay un número igual de puntos en ambos
lados del punto medio anclado. Mientras que no hay un máximo absoluto, en la
práctica, el número de puntos de escala es raramente mayor a nueve, a no ser
que se usó una escala de líneas continuas. Puede haber una ley para disminuir
el retorno asociado con un gran número de puntos de escala. Mientras 3 es el
mínimo número de puntos, muchos investigadores están incomodos con solo
tres puntos porque evitan el final, lo cual fuerza a los encuestados a elegir el
centro de la escala. Una encuesta internacional de ASTM en 1999 sobre
profesionales sensoriales reveló que el 52% de los que respondían usaban una
escala JAR de 5 puntos exclusivamente y que el 32% usaba más de un tipo de
escala JAR dependiendo en los encuestados y en los objetivos de la prueba. Las
calificaciones de los encuestados pueden llevar a uno a un número específico
de puntos, por ejemplo, si se prueba con niños pequeños, los investigadores
usan escalas JAR de tres puntos para simplificar la tarea. (Mirar figura 2)
Anclas – El punto medio de una escala JAR está reservado para el punto de
Justo Lo Suficiente. Algunos investigadores creen que el punto medio debe ser
etiquetado como Just Right, lo cual implica que cualquier desviación del “ideal”
debería ser capturada por un punto fuera del centro, otros investigadores creen
que el Just Right (Justo lo suficiente) involucra muy fuerte un compromiso de
parte del encuestado, así que la elección media es parafraseada a Just About
Right (Justo alrededor de suficiente). Los extremos de la escala son anclados en
ambas direcciones desde el punto medio con tantas etiquetas adicionales como
el investigador desee. Un lado de la escala es menos que lo suficiente, mientras
que el otro lado es más que lo suficiente. Algunos investigadores han
demostrado una gran confianza en la escala como una función de anclaje
adicional, mientras que otro sugiere que la palabra ancla puede no representar
un mismo espaciado entre puntos y evitar anclaje del punto final y los puntos
medios. Cuando se presenta como una escala de categoría, los puntos de escala
son presentados como equidistantes uno del otro, aunque esto puede no ser
cierto psicológicamente. Por ejemplo, la distancia psicológica entre “un poco
pasado de sal” y “muy pasado de sal” puede ser percibida como mayor que la
distancia entre “justo lo suficiente” y “ligeramente pasado de sal”. Las escalas
que incorporan un valor realmente igual de intervalo pueden ser desarrolladas
usando los métodos thurstonianos. Cuando se seleccionan los escalas
apropiadas de anclaje, pueden ser usadas muchas aproximaciones. Una de ellas
es usar términos claramente definidos y entendidos como opuestos semánticos
que son consistentes con el marco del producto y un reconocimiento general del
consumidor. Cuando se trata del ajuste de una prenda, por ejemplo, “muy
ajustado” y “muy suelto” son generalmente aceptados como opuestos
semánticos, como lo son “muy delgado” y “muy grueso” cuando se trata de
textura en alimentos. “Muy dulce” y “muy salado”, por otro lado, no se consideran
como opuestos semánticos. La falta de opuestos ocurre porque los sentidos
químicos de olfato, gusto y trigeminales, dan respuesta de cero o la no intensidad
es de ocurrencia común para algunos productos. Cuando no existen opuestos
semánticos, un aborde es usar el mismo atributo en ambos lados de “justo
alrededor de suficiente”. Otro aborde es usar términos genéricos como anclas de
la escala, algunos como “muy débil” y “Muy fuerte” y “no suficiente” y
“demasiado”. El atributo especifico debe ser posicionado sobre la escala, como
lo ilustrado en las figura 3.
Escala de grado de cambio – La escala de grado de cambio usa instrucciones
alternativas para el encuestado y diferentes anclas respecto a la escala JAR
típica para cambiar la escala de ser evaluativa a orientada a la acción. En vez de
ser instruida para proveer una opinión como la cantidad de sal, el encuestado es
preguntado que cambiaría de la cantidad de sal del producto. Un ejemplo de una
escala de grado de cambio de nueve puntos incluiría la pregunta:
¿Cómo cambiaría la cantidad de sal de este producto?
Las respuestas son:
- Lo disminuiría extremadamente
- Lo disminuiría mucho
- Lo disminuiría moderadamente
- Lo disminuiría ligeramente
- Lo dejaría igual
- Lo incrementaría ligeramente
- Lo incrementaría moderadamente
- Lo incrementaría mucho
- Lo incrementaría extremadamente
Pokorny y Davidek presentan una escala similar para la optimización de
atributos. Ha sido sugerido que esta escala puede ser más fácil de entender para
el encuestado que la típica escala JAR ya que es orientada a la acción. Mientras
que los modos de análisis para estas escalas no difieren de los usados para
escalas JAR, los procesos psicológicos involucrados con el uso de esas escalas
no son conocidos y no han sido rigurosamente estudiados. Por eso, los
investigadores son exhortados a proceder con precaución.
Problemas relacionados con atributos
Selección de atributos – Los atributos para inclusión en los cuestionarios
deberían ser fáciles de entender para los encuestados (lenguaje común); los
términos técnicos o industriales deben ser evitados. (“muy reopéctico”). Los
términos deben ser tan específicos como sea posible para evitar la confusión;
por ejemplo, el atributo “cantidad de chocolate” en helado de chocolate que
contiene chips de chocolate podría confundir al encuestado sin importar si el
investigador este preguntando acerca de la fuerza del sabor de chocolate en la
base del helado, el número de chispas de chocolate, o una combinación de
ambas. Otros términos que connoten múltiples significados o modelos
sensoriales como “caliente” o “picante” deben ser evitados o explicados más
profundamente en el cuestionario. (“calor/quemadura sentida en la boca”, “fuerza
del sabor picante”)
Fuentes de atributos – La selección adecuada del atributo es fundamental para
obtener resultados útiles. Los usuarios de las escalas JAR desarrollan una lista
de los atributos del producto que son de interés para el investigador. La fuente
de estos atributos puede incluir aquellos que han mostrado ser importantes
basados en un mayor estudio del producto, características percibidas de los
ingredientes clave, atributos que son sospechosos de interactuar con otros
ingredientes, o atributos tomados de publicidad del producto. Adicionalmente, la
investigación cualitativa y otras técnicas (focus group, parrilla de repertorio, o
perfil de elección libre) deben ser usadas para elucidar atributos para los
encuestados antes de las pruebas.
Atributos simples – Los atributos simples se refieren a escalas que usan el mismo
adjetivo en ambos extremos (“muy dulce”, “no suficientemente dulce”). El objetivo
de la investigación es seleccionar atributos los cuales tengan un aumento de
intensidad continuo, evitando términos complejos que se relacionen con
múltiples propiedades sensoriales del producto o que pueden tener más de un
significado para los encuestados. Estos términos incluyen “cremoso”, “rico”, y
“masticable”. “Cremoso” puede referirse a la apariencia del producto (color,
opacidad), sabor (crema, lácteo), sensación en la boca (suave, espeso), o alguna
combinación. Una excepción seria cuando el objetivo de la investigación es
entender el uso del consumidor de términos complejos en comparación con los
términos usados por un panel entrenado para una análisis descriptivo, y como
términos simples pueden relacionarse más adecuadamente con términos
complejos. Un ejemplo seria incluir “nubosidad”, “sabor lácteo”, “espesor”, y
“suavidad” junto con “cremosidad” para entender como los primeros términos
contribuyen al último. Mantenga en mente que una investigación así necesita un
aumento en la duración del cuestionario. Hay otras maneras de entender
términos complejos para los atributos, incluyendo la combinación de resultados
de análisis descriptivos con la información de términos complejos de escala JAR.
Escalas de atributos combinados – Las escalas de atributos combinados
denotan escalas cuyas anclas extremas difieren. Estos son problemáticos en la
construcción de escalas JAR y deben ser evitados, excepto en casos en los
cuales son claramente definidos como opuestos semánticos (“muy suelto”, “muy
apretado”). Las escalas de atributos combinados requieren de asunciones
acerca de la relación entre esos atributos que pueden o no ser ciertos y elimina
la posibilidad de que ambas cualidades varían independientemente de “justo
alrededor de suficiente” (Just about right). Considerando las siguientes escalas
de atributos combinados:
- Muy acido – JAR – muy dulce
- Muy suave – JAR – muy áspero
- Muy seco – JAR – muy grasoso
Una lectura literal de estas escalas de atributos revela las siguientes asunciones:
- Un producto que es “no lo suficientemente acido” es “muy dulce”.
- Un producto que es “insuficientemente suave” es “muy áspero”, y
- Un producto que es “muy seco” no puede ser también “muy grasoso”.
Mientras que estas relaciones pueden ser ciertas para un cierto producto, no
están recomendadas para el uso en escalas JAR excepto en la situación en la
que la asunción es verdadera. Un ejemplo de esta escala puede ser “muy suelto”
o “muy apretado”, donde, de hecho, algo que no está “muy suelto” o “justo lo
adecuado” esta “muy apretado”. Una alternativa a las escalas JAR combinadas
puede ser el uso de dos escalas; in el primer ejemplo, una escala que va desde
“muy dulce” a “no lo suficientemente dulce” y una segunda escala que va desde
“muy acido” a “no lo suficientemente acido”. Mientras que es procedimiento
aumentara la duración del cuestionario, es por lejos mejor tener preguntas
adicionales que recolectar información que no es interpretable.

Atributos con connotaciones positivas o negativas – Los atributos con


connotaciones negativas inherentes deben ser usados con precaución. Los
encuestados pueden encontrar difícil calificar café o chocolate como “no lo
suficientemente amargo” o vinagreta como “no lo suficientemente acida” debido
a la percepción de que “menos es mejor”, y la escala JAR puede perder utilidad.
Existen procedimientos alternativos para manejar atributos inherentemente
negativos. Estos incluyen a los encuestados calificando el nivel de intensidad de
un atributo con análisis subsecuentes para determinar el impacto sobre el gusto
promedio, relacionando data descriptiva a la aceptabilidad, o comparación
hedónica directa de productos con diferencias en el interés del atributo.
Similarmente, los atributos con connotaciones positivas (natural, blended),
particularmente aquellos que no tienen asociación directa clara con atributos
sensoriales específicos del producto, no deben ser usados en escalas JAR.
Numero de atributos – En la mayoría de los casos, muchos atributos son
estudiados en una prueba simple por una variedad de razones: para proveer
dirección de productos con multi-atributo, para identificas atributos que tengan
impacto en la aceptabilidad si sus intensidades no son “justo lo suficiente”, para
evitar el uso de escalas de atributos combinados, y asegurar que todos los
atributos clave son incluidos para evitar una mala atribución de percepciones. La
duración promedio del cuestionario y el número de atributos incluidos debería
ser considerada para evitar problemas de fatiga sensorial y psicológica en el
encuestado. Los atributos redundantes no deben ser incluidos (tales escalas
como “insuficientemente delgado” a “muy delgado” y “insuficientemente espeso”
y “muy espeso”, por ejemplo donde “espeso” y “delgado” pueden ser
considerados como opuestos semánticos) a no ser de que el propósito de la
investigación sea identificar atributos redundantes.
Ubicación de escalas JAR en el cuestionario
Las escalas JAR son típicamente ubicadas en el cuestionario después de las
calificaciones hedónicas como el gusto promedio o el gusto de un atributo
especifico del producto. Algunos investigadores, sin embargo, ponen el gusto
promedio subsecuente al gusto especifico de atributos del producto; en estos
casos, los atributos JAR precederían la pregunta acerca del gusto promedio.
Hacula et al. Encontró que la información JAR esta estadísticamente no
correlacionada con la información sobre el gusto, sugiriendo que las escalas JAR
pueden ser puestas antes del gusto promedio en el balotarlo del consumidor. Es
una práctica común que el orden de las escalas JAR rigurosamente coincida con
la experiencia sensorial de los encuestados sobre el producto: por ejemplo, en
el caso de alimentos, atributos de apariencia, atributos de aroma, luego atributos
de sabor, luego atributos orales. En el caso de no alimentos (por ejemplo,
toallitas faciales), el orden puede ser apariencia, sensación en las manos, aroma,
y sensación en el uso, seguido por atributos específicos. Si la intensidad de las
escalas JAR es incluida en el mismo cuestionario, es una práctica común que
los encuestados respondan todas las preguntas relacionadas al mismo atributo,
así sean de intensidad o JAR, antes de moverse al siguiente atributo, para
asegurar la concentración del encuestado y evitar la confusión o fatiga. Por
ejemplo, sería mejor tener atributos ordenados como fuerza del sabor dulce, JAR
del sabor dulce, fuerza de sabor salado, y JAR del sabor salado como opuesto
a fuerza del sabor dulce, fuerza del sabor salado, JAR del sabor dulce, y JAR del
sabor salado. Algunos investigadores adicionalmente incluyen preguntas de
gusto a atributos específicos. En este caso, el orden común de las preguntas
seria gusto del atributo; fuerza del atributo; JAR del atributo, por ejemplo gusto
al dulzor; fuerza del dulzor, y JAR del dulzor. Hay, sin embargo, algunos
investigadores que agrupan todas las preguntas de gusto del atributo antes de
intensidades o escalas de JAR.
Uso apropiado/inapropiado de las escalas JAR
Las escalas JAR son usadas apropiadamente cuando el objetivo es entender las
reacciones de los encuestados a la intensidad o fuerza de atributos especifico,
comparado al nivel que ellos creen que sería “ideal”. Estas escalas son
particularmente útiles cuando los niveles de un componente del producto no han
sido variados sistemáticamente, cuando se prueban productos competitivos o
para un solo prototipo de evaluación. En estos casos, los encuestados no
responden directamente al cambio de nivel del componente vía sus respuestas
hedónicas. Cuando las muestras son variadas en el diseño experimental, las
escalas JAR pueden no ser necesarias. En estos estudios sistemáticos, el
investigador esta frecuentemente interesado en la intensidad directa o las
medidas de fuerza de los encuestados para demostrar el impacto de los rangos
variables en el producto. El producto “optimo” será inferido del modelamiento del
gusto promedio, y las escalas JAR pueden no proveer un beneficio adicional. Ha
sido recientemente demostrado, sin embargo, que la información de las escalas
JAR puede ser usada para predecir niveles óptimos de ingredientes dentro del
espacio sensorial de un experimento diseñado y puede ser una herramienta útil
en este sentido. Las escalas JAR no están diseñadas para uso con paneles
entrenados porque el panel entrenado está acostumbrado a un instrumento
imparcial para clasificar intensidades de atributo, no para juzgar si las
intensidades son muy altas o muy bajas.
Beneficios de uso
Las escalas JAR proveen guía en la formulación
Las escalas JAR son particularmente útiles en situaciones en las que los
atributos del producto no pueden ser variados sistemáticamente. Las escalas
JAR proveerán de guía tanto para aquellos productos cuyo atributo está en un
nivel “ideal” como para los que no. Cuando un atributo no es JAR, la escala JAR
puede proveer información de la posible dirección de cambio.
A través del uso de escalas JAR, una respuesta puede representar la
combinación de la fuerza del atributo con el juzgamiento hedónica y puede ser
combinado para proveer información direccional para la formulación y
optimización del producto. Si, por ejemplo, un producto probado recibe una baja
puntuación hedónica y es calificado como “muy salado” por el 50% de los
encuestados (y ha sido inferido o determinado que el nivel de sal impactó en la
puntuación hedónica), el investigador esta más propenso a disminuir el nivel de
salinidad en las siguientes pruebas. En este sentido, la información de las
escalas JAR provee guía accionar para el desarrollo de producto.
Escalas JAR fácilmente entendidas
Otro de los beneficios es que los encuestados fácilmente entienden la escala en
ella misma, asumiendo que la escala JAR ha sido diseñada correctamente y los
atributos correctamente elegidos. La escala es también generalmente entendida
por otros accionistas o clientes de la organización conduciendo la investigación,
teniendo resultados fáciles de comunicar.
Beneficios adicionales de usar escalas JAR
Las escalas JAR pueden también asistir en definir o identificar segmentos de
consumidores en los cuales la segmentación está basada en el perfil sensorial
“ideal” de un producto. Si la información de la escala JAR es bimodal (el producto
es calificado como “muy chicloso” y “no suficientemente chicloso” al mismo
tiempo), una hipótesis es que los encuestados difieren en su nivel ideal de
atributo indicando la posibilidad de segmentos de consumidores basados en lo
sensorial. Las respuestas bimodales pueden también señalar un problema con
el tipo específico o carácter del atributo (queso suizo versus queso cheddar, por
ejemplo) y la necesidad de una reformulación subsecuente. Los problemas
asociados con las respuestas bimodales pueden ser más fácilmente
identificados con escalas JAR que con otro tipo de escalas, tales como las de
intensidad.
La escala JAR en el entendimiento de cuales atributos impactan en el gusto
Cuando son usadas en conjunción con escalas de gusto, las escalas JAR tiene
potencial para ayudar en el entendimiento de que atributos tienen un mayor
impacto en el gusto; información adicional en que extremo de la escala JAR
evitar (muy fuere o muy débil) también puede ser determinada. Los
investigadores pueden usar esta información para priorizar cuales atributos se
ajustan durante la reformulación, y como ajustarlos. Adicionalmente, los atributos
que no son JAR pero que no tienen impacto en la aceptación del producto
pueden ser ignorados.
Rango de análisis de data JAR de simple a complejo
Con una variedad de métodos disponibles para analizar escalas JAR, desde una
simple representación gráfica a complejos métodos estadísticos, los
investigadores pueden customizar el análisis dependiendo de los objetivos del
proyecto, nivel de experiencia, el número de recursos estadísticos disponibles, y
objetivos del proyecto.
Riesgo de uso
Riesgo común para todas las escalas
El escalamiento de atributos incluye la asignación de números para cuantificar la
experiencia sensorial. Lo siguiente sirve como un pequeño resumen y un
recordatorio de todos los riesgos asociados con el uso de las escalas JAR que
son comunes a todas las técnicas de escalado. También son mencionados
remedios potenciales para cada riesgo. Lea Lawless y Heymann para una
discusión más profunda de riesgos de escalado.
Halo/Cuernos – Con este riesgo, el encuestado asume que una impresión
promedio negativa o positiva se extiende a la calificación de atributos
subsecuentes, donde una alta aceptabilidad del producto puede derivar en falsas
calificaciones de “justo lo adecuado”. En este caso, el encuestado puede desear
evitar la disonancia cognitiva que puede resultar de calificaciones aparentemente
disparatadas. Similarmente, si al encuestado no le gusto el producto en
promedio, asignando un calificado positivo en cualquier atributo puede ser difícil.
Mientras asumimos que los encuestados separan el gusto de un producto de las
evaluaciones del atributo, la naturaleza inherente de las escalas JAR implican un
grado de respuesta afectiva que puede hacer a los halos/cuernos a un riesgo
más grande para las escalas JAR que para cualquier otro tipo de escalas.
Analizando las escalas JAR en conjunción con información del gusto puede
ayudar en la diferenciación del efecto de halo/cuernos de desbalances de
atributos que afectan el gusto.
Relevancia – Un atributo que tiene poca relevación en el criterio de evaluación
de los encuestados puede recibir una calificación de “justo lo suficiente”
simplemente porque no es importante, una salida a tener que marcar una
determinante. Conocimiento previo o una investigación puede ayudar a
minimizar la inclusión de atributos irrelevantes.
Errores de expectativa – Un encuestado puede reaccionar a un atributo basado
en expectativas, opuestas a la percepción. Un ejemplo podría ser la calificación
de “no suficientemente salado” para un hot dog que contenía menos sal que el
promedio. El nivel de sal puede ser “justo lo suficiente” para el encuestado, pero
lo puede calificar como “no lo suficientemente salado” porque su expectativa fue
un hot dog mas salado. Dependiendo del objetivo de la prueba, la adición de un
concepto o declaración de posicionamiento en la prueba puede reducir este
efecto (“ahora hot dogs con menos sal”).
Efectos de contraste – Un efecto de contraste ocurre cuando un encuestado
califica un atributo basado en productos previamente evaluados,
consecuentemente exagerando diferencias entre productos. Por ejemplo, un
encuestado puede recibir un producto extremadamente grande, seguido por un
producto moderadamente grande. El primer producto puede ser calificado como
“muy grande”, y el segundo producto puede ser calificado como “muy pequeño”,
por el contraste entre el primer y segundo producto recibido. Dado el solo, el
segundo producto puede haber sido clasificado como “justo lo suficiente”. Esto
puede llevar a un “arreglo” inapropiado del producto por el desarrollador.
Combatir los efectos de contraste típicamente involucra rotar el orden de las
evaluaciones del producto. Sin embargo, esto presupone que los efectos de
contraste causan desbalance sobre el orden de evaluación, lo que puede o no
ser verdad. Para evitar totalmente el efecto de contraste se involucraría solo
evaluaciones individuales del producto, lo cual es generalmente una opción poco
económica. Sin embargo, la examinación de la data a través de la posición al
servirse puede ayudar en la interpretación. Adicionalmente, tener muestras
espaciadas igualmente en términos de la fuerza esperada del atributo es
deseable. Por ejemplo, en un banco de muestras bajas en sodio, incluyendo una
muestra con un nivel más típico de sodio se tenderá a disminuir las diferencias
de grado de salado entre las muestras con sodio más bajo, lo que debe ser
evitado.
Efectos de contexto – Similar a los efectos de contraste, el contexto se refiere a
la influencia de un banco específico de muestras incluidas dentro del marco de
evaluación, incluso cuando se balancea el orden al servir. Este efecto
típicamente ocurre después de evaluar varias muestras que tienen fuerza similar
en el atributo; mientras que el encuestado puede no experimentar fatiga sensorial
específica, el nivel del atributo en cuestión puede parecer más “normal” o
“promedio” de lo que debería si se hubiera experimentado con un banco diferente
de muestras. Considerando un banco de productos reducidos en sal; las muestra
clasificadas antes en la evaluación puede ser clasificadas como “no
suficientemente salado”, mientras que las muestras servidas después en el
orden pueden ser clasificadas más “alrededor de suficiente”, mientras el marco
de referencia de los encuestados se inclina más hacia productos menos salados
por ser “típicos” dentro del banco. Este ocurriría sin importar el orden de
evaluación, como si todas las muestra tuvieran sal reducida. Similarmente, si un
banco de muestra todas con un muy alto contenido de azúcar fueran evaluadas,
después de un número de evaluaciones, la dulzura podría no salir del parámetro
tanto como en las muestras previas. Los remedios potenciales para este riesgo
incluyen limitar el número de evaluaciones del producto en una sesión o incluir
un amplio rango de niveles de atributo para que el contexto sea consecuente con
“todos” los niveles razonables. El último remedio, sin embargo, puede no ser
práctico para la mayoría de estudios de investigación.
Rango/Frecuencia – El espaciado relativo y frecuencia niveles de
estímulo/atributo dentro de la prueba de un producto puede resultar en efectos
de contexto que produzcan prejuicios en las escalas de categoría. Los modelos
para estos prejuicios han sido descritos. Los prejuicios de centralización pueden
ocurrir cuando los productos con diferentes intensidades de un atributo son
evaluados en una prueba. Las escalas JAR no están exentas de los prejuicios
de centralización y frecuencia. Cuando esto ocurre, el encuestado puede
clasificar la fuerza intermedia del producto como “justo lo suficiente”,
representando mal la verdadera fuerza óptima. Alternativamente, dentro de un
rango de estímulos dado, los prejuicios en determinar el estímulo “justo
suficiente” o en nivel del atributo pueden ocurrir cuando más muestras son
presentadas en un lado del rango de estímulo. En ese caso, los prejuicios
tendrán encuestados clasificando muestras como “justo lo suficiente” en el
extremo más representando del rango. Parducci y Perrett también discuten la
tendencia entre los encuestados a usar diferentes partes de la escala con igual
frecuencia. Johnson y Vickers han confirmado métodos sugeridos por Poulton y
Mc Bride para evitar prejuicios de centralización. Cuando es posible, el sentido
común dictará que las intensidades del atributo están igualmente separadas, en
un intento de contrarrestar el prejuicio de frecuencia. Mientras que las escalas
JAR no están exentas de prejuicios comunes a todas las escalas de atributos,
una atención cuidados al rango y frecuencia de la intensidad de atributos en el
producto prospectado, acompañada de una previa alerta de la posibilidad de
estos prejuicios, ayudará en la recolección de data y su evaluación.
Interpretación del atributo – Es asumido que el encuestado interpreta el atributo
como lo planea el investigador. Un mal entendido del atributo por el encuestado
puede llevar a una falsa conclusión concerniente a la aceptabilidad de las
intensidades del atributo o una distribución bimodal de las respuestas. Por
ejemplo, un producto puede ser clasificado como “muy amargo” porque los
encuestados pueden confundir amargor con acidez o astringencia. Esto puede
llevar a una reformulación innecesaria. O a los encuestados puede no gustarles
el carácter particular de un sabor, incluso cuando el nivel del flavor puede ser el
apropiado. Considerando un producto con una distribución bimodal de “no lo
suficientemente frutal” y “muy frutal” debido a la nota de la fruta, mientras
moderar su fuerza es “indeseado”. En este caso, alguno encuestados
clasificarían la nota frutal como “muy fuerte” debido a que no es placentera,
mientras que otros pueden clasificarla como “muy débil” debido a que no es lo
suficientemente “agradable frutal”. De hecho, una distribución de respuesta
bimodal en la escalas JAR puede ser una indicación de malinterpretación de un
atributo. Se debe tener cuidado en llegar a esta conclusión, sin embargo, una
distribución de respuestas bimodales puede indicar la presencia de segmentos
de consumidores. Una distribución de respuestas bimodales puede también
indicar una sensibilidad diferencial en la detección de atributos entre
encuestados.
Mala atribución de precepciones – La falta de oportunidad para clasificar un
atributo que es importante para el encuestado puede derivar en una mala
atribución, donde las percepciones no explícitamente medidas resultan en
percepciones siendo expresadas en uno o más atributos no intencionados. Un
ejemplo de esto puede ocurrir si un encuestado percibe un producto como muy
dulce y muy acido en el cual el único atributo relevante en el balotarlo es la
dulzura JAR. En este caso, el encuestado puede confundirse; si clasifica el
producto como “muy dulce” puede estar asustado de que el producto puede ser
tomado como “no suficientemente acido”. Para combatir esto, clasifica el
producto como “muy salado” para capturar la fuerza e la acidez, haciendo esta
clasificación subconscientemente o tal vez una percepción adivinada. Aunque
este pueda ser un ejemplo extremo, ilustra la necesidad de entender
rigurosamente los atributos perceptibles del producto bajo estudio y decidir
cuales atributes necesitas ser incluidos en el cuestionario.
Riesgos exclusivos a escalas JAR
Como las escalas JAR tienen el propósito de combinar intensidad con
aceptabilidad para relacionarse con las fuerzas percibidas de atributos
específicos para el óptimo teórico de los encuestados, hay riesgos adicionales
únicos para escalas JAR que los investigadores deberían considerar. Son
incluidos potenciales remedios para cada riesgo.
Cognición versus percepción – La confusión de los encuestados de percepción
y cognición puede suceder cuando un atributo tiene connotaciones negativas.
Los ejemplos pueden incluir atributos tales como “salado” o “dulce”, los cuales
pueden tener connotaciones negativas para la salud. Un encuestado puede
calificar un producto como “muy salado” o “uy dulce” debido a que el encuestado
cree que los ingredientes que causan dulzor o salado son “poco saludables”; sin
embargo, este producto puede ser preferido sobre un producto menos dulce o
salado por el mismo encuestado. En este caso, la escala JAR no habrá provisto
una dirección válida para el desarrollo del producto. Entendiendo la relación entre
la inclinación del atributo y el gusto promedio puede ser de ayuda en la prueba
de una mala percepción, así como puede no haber impacto en el gusto general
asociado con la inclinación del atributo. Otro ejemplo ocurre cuando
juzgamientos no sensoriales son considerados junto con el atributo en cuestión.
Por ejemplo, un encuestado puede calificar el quemado en la lengua de un
enjuague bucal como “muy fuerte”; sin embargo, ese nivel de quemadura puede
ser asociado con eficacia. En este caso, una reducción del quemado puede
resultar en una reducción de la eficacia percibida. La inclusión de calificaciones
de eficacia seria apropiada para entender esta tendencia.
Atributos JAR que nunca son suficientes – Hay algunos atributos que los
encuestados típicamente clasifican como “insuficiente” en escalas JAR, tales
como la cantidad de nueces en barras de chocolate o helado, ingredientes como
pepperoni en una pizza, o caracterizas sabores como “sabor a queso”. Esto
puede llevar a un efecto, similar al discutido previamente, en el cual las
calificaciones JAR son dadas basadas en la cognición versus la percepción.
Incrementar el componente en la pregunta puede, de hecho, disminuir la
aceptabilidad del producto, mientras que aumentar el componente puede llevar
a un desbalance de textura o sabor. Relacionar clasificaciones JAR con medidas
hedónicas puede ayudar identificar atributos en los cuales este efecto exista.
Prejuicios del encuestado – Los encuestados pueden asumir que al menos uno
de los productos bajo evaluación es “justo lo suficiente” o que es poco probable
que todos los productos sean “muy fuertes” o “muy débiles” en algún atributo,
cuando en realidad, este puede ser el caso. Pueden asumir que un producto que
es bastante gustado es “justo lo suficiente” en todos los atributos. O, un
encuestado puede asumir que si califica el producto como “justo lo suficiente” en
todos los atributos, entonces él o ella deben preferirlo más que un producto que
marco como “muy alto” o “muy bajo” en uno o más atributos. Incluyendo un
número suficiente de encuestados en la investigación disminuirá el impacto de
este efecto.
Interdependencia de atributos – Para que la data JAR sea accionable, el
investigador debe entender como los elementos de formulación deben
interactuar para influenciar la calificación de los atributos. Por ejemplo, un
investigador puede tener varias alternativas de solución para el problema de un
producto “muy dulce”, incluyendo ajustar el dulzor, la acidez, el salado, la textura
o el flavor del sistema como un todo. No entender estas interacciones puede
limitar la habilidad del desarrollador para responder apropiadamente a la data
obtenida de las escalas JAR. Adicionalmente, hacer cambios en un atributo para
moverlo más cerca de “justo lo suficiente” puede mover otro atributo lejos del
óptimo. Moskowitz creo modelos para la optimización de productos usando
puntaje de gusto generado de un arreglo de producto que constituía un diseño
experimental. El óptimo predicho del producto no generó puntos medio
esperados de valor en la escala JAR para mucho atributos. Similarmente, cuando
la data fue corrida en reversa para ajusta la escala JAR a puntos medios, el perfil
estimado del producto no fue el producto óptimo. Aparte del hecho de que estos
resultados fueron derivados de fórmulas matemáticas, es posible que las
disparidades en alcanzar el óptimo promedio de aceptabilidad versus el óptimo
individual del nivel del atributo se deba a o que moskowitz et al. Se refiere como
“contradicciones y compensaciones” (Contradictions and trade-offs). Cuando los
encuestados califican un producto en un numero de atributos JAR, cada atributo
es considerado separadamente, Sin embargo, cuando se alteran las formulas en
base a la respuesta del encuestado, hay frecuentes compensaciones entre los
deseos del encuestado y las restricciones de formulación. El resultado es que
algunos atributos pueden no ser llevador al nivel meta. Un mayor entendimiento
de las interacciones entre componentes del producto y cambios anticipados
durante la reformulación ayudara en disminuir el número de atributos
compensados.
Los encuestados pueden no reconocer el nivel ideal del atributo – Algunos
investigadores cuestionan si el encuestado realmente sabe el nivel ideal del
atributo. Es posible que un encuestado pueda pensar que prefiere un producto
más oscuro, pero si ese producto se le entrado puede ser “muy oscuro” incluso
si el los atributos del otro producto se mantienen idénticos. Un remedio para este
riesgo es entender, a través de la historia previa del consumidor, cuales atributos
tienden a estos efectos.
Relacionar respuestas al nivel de cambio deseado – Un desarrollador puede
asumir incorrectamente que un gran número de “demasiado” como respuesta
sugiere un impacto mayor sobre el gusto general o preferencia que un grupo
pequeño de “demasiado” como respuesta. Es difícil, si no imposible, relacionar
el nivel de ajuste a la distancia del atributo a “justo lo suficiente”.
Aspectos temporales en la prueba de productos – La cantidad de productos
evaluados y el periodo de tiempo en el que se evalúan puede influenciar en las
calificaciones JAR. Un atributo puede ser “justo lo necesario” cuando se
consume una pequeña cantidad del producto, pero puede ser “muy fuerte” o
“muy débil” cuando se consume una servida completa o con exposición continua.
O, un producto puede tener un fuerte impacto inicial, pero ser más balanceado
sobre un patrón de consumo típico. Estos aspectos de la prueba de productos
debe ser considerados cuando se examinan datos de escalas JAR.
Adicionalmente, los productos que no están bien homogeneizados puede tener
“picos” de sabor causando respuestas a ambos lados de “justo lo suficiente”
Estos aspectos de la prueba de productos deben ser considerados cuando se
examinan datos de escalas JAR.
Efecto de la reformulación del producto sobre calificaciones de encuestados
subsecuentes – Basado en información de la escala JAR, los productos pueden
ser reformulados para satisfacer a los encuestados que encontraron el producto
no “alrededor de suficiente”. Estas reformulaciones pueden no tomar en cuenta
el efecto de las reformulaciones sobre aquellos encuestados quienes
originalmente calificaron el atributo como “alrededor de suficiente” o aquellos a
los que les gustó la fuerza del atributo en evaluaciones previas. Hay métodos
estadísticos para contabilizar este problema potencial.
Sectores de consumo y calificaciones JAR – Lawless y Hermann sugieren que
las calificaciones de escala JAR pueden conducir equivocadamente a los
desarrolladores de productos a concluir que una población homogénea existe
cuando no es así. Considere el caso en que 2 grupos de encuestados califican
un producto como “alrededor de suficiente”; uno de los grupos cree que el
producto es fuerte y otro que es medio, sin embargo ambos creen que el nivel
es alrededor de suficiente. La solución a este riesgo puede ser incluir
evaluaciones de fuerza junto con la calificación JAR. Sin embargo, sabiendo que
hay segmentos de consumo que varían en percepciones opuestas a su
aceptabilidad pueden no afectar la decisión sobre el producto. Es cierto, sin
embargo, que sin la inclusión de calificaciones de intensidad o fuerza la
percepción de los encuestados del nivel de atributos no es conocida.
Efecto de la inclusión de la escala JAR en calificaciones hedónicas – Hay alguna
evidencia de la inclusión de escalas JAR en el mismo cuestionario que escalas
hedónicas puede alterar las calificaciones de gusto promedio comparado con
aquellas calificaciones generadas en la ausencia de escalas JAR. Este efecto no
apareció cuando las escalas de intensidad fueron incluidas, usando los mismo
atributos. Investigaciones subsecuentes no encontraron el mismo efecto
consistentemente. El efecto de la inclusión de escalas JAR en escalas hedónicas
necesita estudios más profundos.
Remedios para los riesgos – Mientras que en secciones previas los riesgos
puede generar cautela cuando se usan escalas JAR, estos riesgos pueden ser
minimizados a través de construcciones de balotarios juiciosos, análisis de datos
e interpretación, y tomando los pasos recomendados en cada sección de riesgo.
Alternativas a escalas JAR
Incluso con una cuidadosa construcción de cuestionario, cautela en el análisis
de datos, e interpretación, no todos los investigadores se sentirán cómodos al
usar escalas JAR para pruebas de producto; existen alternativas que obvian la
necesidad del uso de escalas JAR. Ejemplos de escalas alternativas de análisis
de datos son incluidos en los apéndices X, Y y Z.
Recolectar información de intensidad y hedónica en escalas separadas – La
información obtenida de escalas JAR puede ser aproximada mediante la
recolección de datos de series de productos en los cuales los niveles de fuerza
del atributo y el gusto del atributo son recolectados para cada producto. Las
intensidades del atributo pueden ser regresadas a puntos de gusto del atributo.
En este sentido, el nivel de intensidad del atributo que es asociado al más alto
gusto del atributo puede ser determinado.
Diseños experimentales – Los diseños experimentales pueden ser usados para
optimizar solo un atributo del producto o para optimizar simultáneamente
múltiples atributos que pueden interactuar uno con el otro. Para un atributo
simple, las series de productos son preparadas para que la formulación varíe
sistemáticamente o que la variable proceso que se espera varíe la intensidad
percibida en el atributo. Como un mínimo, el gusto promedio es recolectado,
aunque muchos investigadores también recolectan calificaciones de fuerza del
atributo y gusto del atributo. Los datos son analizados para identificar la fuerza
óptima del atributo y la variable de la formulación. Hay un número de diseños
experimentales que son usados desde un simple diseño con cuatro muestras a
diseños complejos con un gran número de muestras.
Escala ideal – En lugar de intentar calibrar la intensidad del atributo y la
aceptabilidad en una escala, la modelación de punto ideal envuelve separar fuera
del componente hedónico de la respuesta de la evaluación de intensidad. En
esencia, el encuestado es preguntado cuan fuerte es el atributo en una escala
de intensidad, seguido de cuan fuerte les gustaría que fuera ese atributo. El flujo
de preguntas entonces seria:
- ¿Cuán dulce es este producto? (Escala de intensidad a elección)
- ¿Cuán dulce es tu producto ideal? (Escala de intensidad a elección)
Las calificaciones medias del atributo del producto entonces son comparadas a
las calificaciones medias “ideales” del atributo, lo cual sirve como punto de
referencia y provee a los desarrolladores del producto de dirección. Una
comparación entra las respuestas de estas dos preguntas brinda una indicación
de la dirección en la cual el atributo debería ser movido y, en algún alcance, la
magnitud del cambio deseado. Es postulado que a mayor distancia entre la
intensidad percibida y la idea, un mayor cambio debe ser hecho para ajustar el
atributo.
Preguntar el gusto de la fuerza del atributo puede preceder estas preguntas. En
este caso, el flujo de preguntas seria:
- ¿Cuánto le gusta o disgusta el “atributo” de este producto?
- ¿Cuán “atributo” es este producto?
- ¿Cuán “atributo” debería ser este producto?
La respuesta a la previa pregunta de gusto, si se pregunta, puede sugerir la
significancia de la discrepancia entre las intensidades percibidas e ideales con
respecto a la aceptabilidad del producto y puede proveer a los desarrolladores
del producto con una visión más amplia del desempeño del producto. Cuando se
usa esta técnica, es posible que los encuestados califiquen el nivel ideal de
ciertos atributos como irrealmente alto o bajo, lo que puede llevar a
formulaciones erróneas.
Ténicas de análisis de datos
Hay un número de métodos disponibles para el investigador para análisis de
datos de escalas JAR y varios para analizar datos con escalas alternativas a la
JAR. Como con cualquier técnica de escalado, el análisis apropiado es crítico
para dibujar conclusiones apropiadas de datos. Mientras el análisis de datos de
escalas JAR varía desde simple a muy complejo, la interpretación de tales datos
debe ser considerada cuidadosamente.
Análisis de datos de escalas JAR – Cuando se elige un método de análisis de
escalas JAR, es importante considerar que pregunta(s) especifica(s) el
investigador quiere responder. Como un primer paso, el investigador debe
considerar si la pregunta(s) a responder envuelve solo data JAR o si la pregunta
se basa en relaciones entra JAR y otros datos, tales como la aceptabilidad del
producto. La tabla 1 lista los métodos comúnmente usados para análisis de datos
de escalas JAR en dos columnas dependiendo de si la pregunta y sus
subsecuente método de análisis involucra solo datos JAR o la relación de JAR
con otros datos. La pregunta específica que cada método de análisis pretende
responder también está incluida. Cada método de análisis es presentado en el
mismo formato: una introducción y una sección de objetivo, la cual da
antecedentes para el análisis así como lo que el método pretende determinar;
una sección de requerimientos, la cual especifica el tipo de data necesitada; una
sección de “how to”, la cual describe las mecánicas del análisis; una sección de
resultados y conclusiones, la cual discute los resultados del análisis cuando se
aplican a los datos del caso de estudio; una sección de pros y contras, la cual
subraya los beneficios y las advertencias asociadas con el análisis; y finalmente,
una sección de recomendaciones, la cual discuto cuando el método debe ser
usado( o si debe ser usado).
Descripción de los parámetros de banco de datos
Estos datos son de una prueba monódica secuencial de cinco muestra con
N=119. Los datos de tres muestras fueron usados para el análisis. La muestra
170 es distribuido bimodalmente para gusto general, la muestra 896 es
distribuida normalmente, y la muestra 914 no es totalmente bimodal pero
tampoco es normal.
Las muestras son variaciones del mismo tipo de producto. Las descripciones del
atributo fueron cambiadas para generalizar el producto, pero los datos de gusto
y JAR están relacionados a los mismo atributos. La figura 4 contiene las anclas
de los atributos y la escala del banco de datos.
Métodos de análisis que involucran solo escalas JAR
Métodos gráficos – Estos métodos involucran solo examinación visual:
- Muestra de data grafica (Vea apéndice A)
- Escala grafica (Vea apéndice D)
Métodos no gráficos – Estos métodos requieren de computación:
- Diferencia porcentual de la norma y diferencia porcentual de “justo lo
suficiente” (Vea apéndice C)
- La media (Vea apéndice D)
- Desviación direccional media y desviación direccional absoluta (Vea
apéndice E)
- Media versus punto medio de la escala (Vea apéndice F)
- Cochram-Mantel-Haenszel (CMH), Stuart Maxwell, Mc-Nemar, y Chi-
cuadrado (Vea apéndice G)
- Probabilidades proporcionales/peligros del modelo (Vea apéndice H)
- Pruebas t (Vea apéndice I)
- Análisis de varianza (ANOVA) (Vea apéndice J)
- Modelamiento de punto ideal Thurstoniano. (Vea apéndice K)
Métodos de análisis que involucran relaciones de datos
Los siguientes métodos relacionan JAR a datos obtenidos de otro tipo de
escalas, más comúnmente medidas de gusto.
- Penalidad o análisis de caída de media (Vea apéndice L)
- Agregar medidas de significancia a análisis de penalidades (Vea apéndice
O)
Los casos de estudio, Apéndice N y O, proveen de varios métodos para probar
la significancia de una caída de la media observada (en otras palabras,
determinan si la diferencia entre las medias que califican al producto “justo lo
suficiente” y aquellas calificando al producto como “muy débil” es
estadísticamente significante.) Ningún estudio de caso requiere que la data de
respuesta sea normalmente distribuida porque directamente se aproxima a la
variabilidad de las caídas de media; sin embargo, datos sobre el nivel del
intervalo son requeridos.
El primer caso de estudio, Apéndice N, transforma la variable JAR a variables
postizas, y luego crea una regresión para cada variable. Los coeficientes de
regresión de estos modelos se toman de sanciones no ponderadas. El estudio
del caso entonces provee de 4 métodos de prueba de la significancia de esos
coeficientes. Tres de los cuatro métodos usan la prueba t de student sobre el
coeficiente, calculando el error estándar del coeficientes ya sea directamente
desde el modelo usando procedimientos navaja u oreja de bota. El método que
se basa directamente en el modelo se denomina “paramétrico”. Los otros dos
métodos son denominados “semi-paramétricos” y derivan del re muestreo de la
validación cruzada de dejar una salida (navaja) u oreja de bota de los datos. El
cuatro método presentado es la oreja de bota porcentual, la cual es no
paramétrica y produce un intervalo de confianza que es usado para determinar
la significancia. El segundo caso de estudio, Apéndice O, provee un método
simple para probar la significancia. Este método es similar al método de oreja de
bota semi-paramétrica en el primer caso estudiado; sin embargo, usa re
muestreo oreja de bota directamente sobre las caídas de medias y no sobre los
coeficientes de regresión. Ambos navaja y oreja de bota requieren alguna
habilidad de programación al ser implementadas, pero los resultados son de uso
directo. Todos los métodos presentados para estimar la varianza son bien
fundamentados en teoría de estadística moderna y debe ser de interés para los
investigadores interesados en adicionar pruebas de significancia a sus análisis
de penalidad.
- Análisis de oportunidad (vea apéndice P)
- Análisis de mejora de producción (PRIMO) (vea apéndice O)
- Chi-cuadrado (vea apéndice R).
- Análisis de factores y biplots (Vea apéndice S)
Métodos de análisis que involucran correlación y regresión
Los siguientes estudios de caso usan correlación o análisis de regresión para
relacionar las calificaciones JAR de los consumidores al gusto general. Aunque
todos los casos estudiados (excepto el estudio de caso que solo cubre la
correlación) comparte análisis de regresión como su técnica de análisis de datos,
las enfoques son muy diferentes uno de otro. Se diferencian en las asunciones
que hacen concerniendo las propiedades estadísticas de los datos JAR y, más
básicamente, en las preguntas que preguntan respecto a las relación de las
calificaciones JAR con el gusto general. Los métodos no pueden ser usados
intercambiándolos. El objetivo de cada análisis debe ser considerado para
seleccionar un enfoque que se oriente a las necesidades del investigador. El
primer estudio de caso usa análisis de correlación para relaciones datos JAR con
gusto general. La correlación es una técnica estadística ampliamente usada y
familiar. Es, sin embargo, limitada en la profundidad de la información que puede
proveer concerniendo la relación de datos JAR con el gusto general, y está entre
las más restrictivas en términos de las asunciones que hace acerca de la
naturaleza de los datos JAR. El análisis correlativo asume que las calificaciones
JAR con datos de intervalos de escala partiendo desde, como mínimo, una
unimodal, distribución de probabilidad simétrica. Prosiguiendo, la correlación
asume que la relación entre las calificaciones JAR y el gusto general puede ser
igualmente resumida usando una línea recta. Todas esas asunciones son
sospechosas. Sin embargo, la amplia disponibilidad de software puede
desempeñar análisis correlativos y su facilidad para la interpretación y el uso la
vuelve una técnica aparentemente deseable. Cuando se usa análisis correlativo,
cada escala JAR es analizada por separado. El análisis correlativo no revela
cuán importante sea JAR. Sin embargo, el análisis correlativo revela si es peor
estar sobre JAR que estar debajo de JAR y viceversa. Si la correlaciones es
positiva entonces es peor ser “no suficiente”. Si la correlación es negativa es
peor ser “mucho”. Si ese es el único propósito del análisis, el análisis correlativo
puede ser una solución. Sin embargo, existen otras técnicas ampliamente
disponibles y más fáciles de usar que pueden revelar más sobre la naturaleza de
la relación JAR/gusto general.

El segundo caso estudiado usa análisis de regresión estándar para relacionas


datos JAR con gusto general. Como el análisis correlativo, el análisis de
regresión es familiar y ampliamente disponible. La regresión hace las mismas
asunciones concernientes a la naturaleza de la data JAR que la correlación. Sin
embargo, la regresión tiene varias ventajas sobre la correlación. Provee
calificaciones de gusto predichas que se basan en calificaciones JAR y todas las
escalas JAR pueden ser analizadas simultáneamente. Más importante, el
modelo de regresión linear simple puede ser extendido para acoplarse a
relaciones curvilíneas entre calificaciones JAR y gusto general. Estas relaciones
curvilíneas se acercan a lo esperado de que el gusto general debería ser mayor
en el medio de la escala JAR y que son capaces de revelar si es mejor estar a
un lado de JAR o al otro. Otras, más sofisticadas, técnicas de regresión evitan
las asunciones de que las escalas JAR producen datos que están en escala de
intervalos, unimodal, y simétrica. Por ejemplo, el tercer caso de estudio usa
análisis de ranuras multivariadas de regresión adaptativa (MARS) para
relacionar calificaciones JAR con gusto general. MARS selecciona las variables
JAR que están significativamente relacionadas al gusto general y determinan el
costo asociado con estar sobre o debajo del nivel JAR para atributos específicos.
Diferente al análisis de penalidad que usa una escala JAR colapsada de tres
puntos, MARS usa la información de todas las categorías de la escala JAR. Más
allá de determinar si es mejor estar en un lado de JAR que en el otro, MARS
estima cuanto gusto general disminuye al no estar en JAR. Un inconveniente
para MARS es que el software requerido para desempeñar el análisis no está
ampliamente disponible.

Otra de limitación de MARS (y de todas las otras técnicas discutidas hasta ahora)
es que asume que las calificaciones JAR son independientes de cada una. Este
es un caso raro. En casi todas las categorías de producto, muchos atributos
sensoriales suben y caen ya sea junto u opuesto al otro, y, por eso, están
intercorrelacionados. El cuatro caso de estudio sobrelleva esta limitación. La
regresión de mínimos cuadrados parciales (PLS) con variables postizas posee
todas las ventajas de MARS pero no requiere que los atributos JAR sean
independientes uno de otro. Aunque las salidas de una regresión PLS pueden
ser difíciles de interpretar, el abordaje provee con mucho, si no más, información
acerca de la relación entre calificaciones JAR y gusto general mientras que hace
la menor cantidad de asunciones sobre la naturaleza de la data JAR.
Un caso de estudio de regresión previamente mencionado presenta dos técnicas
relacionadas: el modelo de posibilidades proporcionales (Proportional odds
model (POM)) y el modelo de peligros proporcionales (proportional hazard model
(PHM)). Aunque ambos son un tipo de análisis de regresión, proveen resultados
más similares al ANOVA que a una regresión estándar. En vez de concentrarse
en predecir el gusto general, POM y PHM proveen con tests generales para
diferencia entre la prueba de muestras y comparaciones de parejas para
determinar cuál de las muestras es significativamente diferente a la otra. Ambos
enfoques toman en cuenta la naturaleza ordinal de los datos de escala JAR, pero
ninguno brinda un tratamiento especial al medio de la categoría JAR en le escala.
Si las comparaciones estadísticas de las pruebas de producto son el objetivo
primario del análisis, pueden ser considerados POM y PHM. Mientras que estos
métodos están basados en regresión, su objetivo de diferenciar distribuciones
JAR de productos los pone en la tabla 1 debajo de “Preguntas involucrando solo
datos JAR”, específicamente bajo la pregunta, “¿Son las distribuciones de
puntos JAR similares entre productos?”
- Correlación (Vea apéndice T)
- Regresión (vea apéndice U)
- MARS (vea apéndice V)
- Mínimos cuadrados parciales postizos (PLS) (Vea apéndice W)
Análisis de datos para métodos alternativos a escalas JAR
- Recolectando información de intensidad y hedónica por separado (Vea
apéndice X)
- Diseño experimental (Vea apéndice Y)
- Escala de puntos ideales (Vea apéndice Z)
Resumen y conclusiones
Este manual provee una mirada profunda a las escalas JAR, incluyendo su
aplicación, construcción y análisis. Después de una sección introductoria, una
breve historia del origen y la evolución del uso de la escala JAR fue presentada.
Esta fue seguida de una discusión practica sobre la construcción de escalas JAR
incluyendo el número de puntos de escala, identificación y ubicación de las
anclas de escala, selección de atributos, y ubicación en le balotarlo. Una sección
sobre usos apropiados e inapropiados de las escalas JAR. Un extensivo
resumen de los beneficios y riesgos fue presentado después, incluyendo riesgos
que son comunes a todas las escalas así también como aquellos riesgos que
son únicos para el uso de escalas JAR. Fueron incluidas alternativas a escalas
JAR para el investigador que escoja otros medios para obtener información de
diagnóstico del producto. Finalmente, más de 25 métodos de análisis de datos
de escala JAR son presentados en la forma de casos de estudio usando datos
nativos de un banco de datos común. Los casos de estudio, todos en formato
similar, describen el objetivo, requerimientos, cálculos, salidas, e interpretación
de cada método, seguido de una sección de pros y contras con una
recomendación final acerca de su uso. Estos análisis de casos desde
representaciones graficas simples a computaciones complejas que requirieron
de conocimiento estadístico avanzado o software especializado o ambos.
También se presentaron casos de estudio para alternativas a escalas JAR,
aunque estos están basados en bancos de datos únicos. Los casos de estudio
demostraron que, con un análisis e interpretación apropiados, las escalas JAR
proveen de una guía accionable para el desarrollo de producto.

Referencias
_1_ Ennis, D. M., Analytic Approaches to Accounting for IndividualIdeal Points,
IFPress,Vol. 8 No. 2, 2005, pp. 2–3.
_2_ Moskowitz, H. R., Munoz, M. S., and Gacula, M. C., Viewpointsand
Controversies in Sensory Science and Consumer Product Testing, Food &
Nutrition Press, Inc., Trumbull, CT,2003, pp. 416–430.
_3_ Coombs, C. H., A Theory of Data, John Wiley & Sons, Inc.,NewYork, 1964.
_4_ Kruskal, J. B., “Multidimensional Scaling by Optimizing Goodness of Fit to a
Nonmetric Hypothesis,” Psychometrika, Vol. 29, 1964, pp. 1–27.
_5_ Schutz, H. G., “Consumer DataSense and Nonsense,” FoodQuality
Preference,Vol. 10, 1999, pp. 245–251.
_6_ Riskey, D. R., “Use and Abuses of Category Scales in
SensoryMeasurement,” J. Sens. Stud.,Vol. 1, 1986, pp. 217–236.
_7_ Likert, R., “A Technique for the Measurement of Attitudes,”Arch. Psychol.,
1932, p. 140.
_8_ Thurstone, L. L., “Attitudes Can Be Measured,” Am. J. Sociol.,Vol. 33, No. 4,
1928, pp. 529–552.
_9_ Osgood, C. E., Suci, G. J., and Tannenbaum, P. H., The Measurementof
Meaning, University of Illinois Press, Urbana, IL, 1957, pp. 155–159.
_10_ Coombs, C. H., “Psychological ScalingWithout a Unit of
Measurement,”Psychol. Rev.,Vol. 57, 1950, pp. 145–158.
_11_ Jones, L. V., Peryam, D. R., and Thurstone, L. L., “Developmentof a Scale
for Measuring Soldiers’ Food Preferences,” Food Res.,Vol. 20, 1955, pp. 512–
520.
_12_ Gridgeman, N. T., “A Comparison of Some Taste-Test Methods,”J. Food
Sci.,Vol. 16, 1961, pp. 171–177.
_13_ Moskowitz, H. R., “Subjective Ideals and Sensory Optimizationin Evaluating
Perceptual Dimensions in Food,” J. Appl. Psychol.,Vol. 56, 1972, p. 60.
_14_ McBride, R. L., “Range Bias in Sensory Evaluation,” J. Food Technol.,Vol.
17, 1982, pp. 405–410.
_15_ Frijters, J. E. R., and Rasmussen-Conrad, E. L., J. Gen. Psy-chol.,Vol. 107,
1982, pp. 233–247.
_16_ Booth, D. A., Thompson, A., and Shahedian, B., “A Robust, Brief Measure
of an Individual’s Most Preferred Level of Salt in an Ordinary Foodstuff,” Appetite:
J. Intake Res., Vol. 4, 1983, pp. 301–312.
_17_ McBride, R. L., and Booth, D. A., “Using Classical Psychophysics to
Determine Ideal Flavor Intensity,” J. Food Technol., Vol. 21, 1986, pp. 775–780.
_18_ Connor, M. T., and Booth, D. A., “Preferred Sweetness of a Lime Drink and
Preference for Sweet Over Non-Sweet Foods,” Appetite,Vol. 10, 1988, pp. 25–
35.
_19_ Sheperd, R., Farleigh, C. A., Land, D. G., and Franklin, J. G., “Validity of
Relative-to-Ideal Rating Procedure Compared with Hedonic Rating,” in Progress
in Flavor Research, 4th Weurman Flavor Research Symposium, Elsevier Science
Publishers, Amsterdam, 1984, pp. 103–110.
_20_ Vickers, Z., Holton, E., andWang, J., “Effect of Ideal-Relative Sweetness on
Yogurt Consumption,” Food Quality Preference, Vol. 12, No. 8, 2001, pp. 521–
526.
_21_ Epler, S., Chambers, E., IV, and Kemp, K., “Just About Right Scales are
Not Useful for Measuring Sweetness in Lemonade,” J. Sens. Stud.,Vol. 13, 1998,
pp. 191–198.
_22_ Earthy, P. J., MacFie, J. H., and Duncan, H., “Effect of Question Order on
Sensory Perception and Preference in Central LocationTrials,” J. Sens. Stud.,Vol.
12, 1997, pp. 215–237.
_23_ Moskowitz, H. R., Munoz, M. S., and Gacula, M. C., Viewpoints and
Controversies in Sensory Science and Consumer Product Testing, Food &
Nutrition Press, Inc., Trumbull, CT, 2003.
_24_ Lawless, H. T., and Heyman, H., Sensory Evaluation of Food— Principles
and Practices, Chapman and Hall,NewYork, 1998.
_25_ Bendig, A.W., and Hughes, J. B., II, “Effect of Amount ofVerbal Anchoring
and Number of Rating-Scale Categories Upon Transmitted Information,” J. Exp.
Psychol., Vol. 40, No. 2, 1953, pp. 87–90.
_26_ Kim, W., Ennis, D., and O’Mahony, M., “A New Approach to Category
Scales of Intensity II: Use of d_ Values,” J. Sens. Stud.,Vol. 13, 1998, pp. 251–
267.
_27_ Pokorny, J., and Davidek, J., “Application of Hedonic Sensory Profiles for
the Characterization of Food Quality,” Die Nahrung, Vol. 8, 1986, pp. 757–763.
_28_ Stewart, D. W., Shamdasani, P. N., and Rook, D. W., Focus Groups: Theory
and Practice, 2nd ed., Thousand Oaks California: Sage Publications, 2007.
_29_ Baxter, I. A., and Jack-Schroder, M. J. A., “The Use of Repertory Grid
Method to Elicit Perceptual Data from Primary School Children,” Food Quality
Preference, Vol. 9, 1999, pp. 73–80.
_30_ Tang, C., and Heymann, H., “Multidimensional Sorting, Similarity Scaling
and Free-Choice Profiling of Grape Jellies,” .Sens. Stud.,Vol. 17, No. 6, 2002,
pp. 493–509.
_31_ Gacula, M. C., Jr., Mohan, P., Fuller, J., Pollack, L., and Moskowitz, H.R.,
“Questionnaire practice: What happens when
the JAR scale is placed between two “overall” acceptance scales?”J. Sens.
Stud.,Vol. 23, 2008, pp. 136–147.
_32_ Lovely, C., and Meullenet, J. F., “A Comparison of Statistical Approaches
for the Optimization of StrawberryYogurt Formulation,” 7th Pangborn Sensory
Science Symposium, 2007.
_33_ Parducci, A., and Perrett, L. F., “Category Rating Scales: Effects of Relative
Spacing and Frequency of Stimulus Values,” J. Exp. Psychol. Monogr.,Vol. 89,
1971, pp. 427–452.
_34_ Poulton, E. C., “Models for Biases in Judging Sensory Magnitude,” Psychol.
Bull.,Vol. 86, 1979, pp. 777–803.
_35_ Riskey, D. R., Parducci, A., and Beauchamp, G. K., “Effects of Context in
Judgments of Sweetness and Pleasantness,” Percept. Psychophys.,Vol. 26,
1979, pp. 171–176.
_36_ Johnson, J., and Vickers, Z., “Avoiding the Centering Bias or Range Effect
when Determining an Optimum Level of Sweetness in Lemonade,” J. Sens.
Stud.,Vol. 2, 1987, pp. 283–292.
_37_ Moskowitz, H. R., Food Concepts and Products: Just In Time Development,
Food & Nutrition Press, Inc., Trumbull, CT, 1994.
_38_ Moskowitz, H. R., “Just About Right _JAR_ Directionality and theWandering
Sensory Unit in Data AnalysisWorkshop: Getting the Most Out of Just-About-
Right Data,” Food Quality Preference,Vol. 15, 2004, pp. 891–899.
_39_ Popper, R., Rosenstock, W., Schraidt, M., and Kroll, B. J., “The Effect of
Attribute Questions on Overall Liking Ratings,” Food Quality Preference,Vol. 15,
2004, pp. 853–858.
_40_ Popper, R., Schraidt, M., and Kroll, B. J., “When Do Attribute Ratings Affect
Overall Liking Ratings,” presented at the 6th Pangborn Sensory Sciences
Symposium, Harrogate International Center,York, 7–11 Aug. 2005.
_41_ van Trip, H., Punter, P., Mickartz, F., and Kruithof, L., “The Quest for the
Ideal Product,” J. Food Quality Preference, 2007. _42_ Moskowitz, H. R.,
“Learning from the Competition Through Category Appraisal: One Practitioner’s
Keys to Faster and More Efficient Product Development,” Food Service Technol.,
Vol. 1, No. 2, 2001, pp. 103–118.
_43_ Gacula, M. C., Jr., Singh, J., Bi, J., and Altan, S., Statistical Methods in
Food and Consumer Research, 2nd edition, Academic, San Diego, CA, 2009.

MNL63-EB/Feb. 2009

Apéndice A: Demostración de Datos


Gráficos
Colleen Conley1

Introducción y Objetivos
El método de demostración de datos gráfico proporciones de datos del J.A.R
a través de productos y atributos, o ambos. El objetivo de este método es
proveer un método que visualice la distribución de datos del J.A.R. Esto es
descriptivo/ Método de resumen y no un método inferencial.
Requisitos
Este método requiere la distribución de frecuencia para cada atributo, para
cada producto, y una aplicación de gráfico de barras.
"Como hacerlo"
Resuma la distribución de los datos en una tabla de frecuencia para cada
producto por la combinación de atributos. Represente gráficamente estos
resúmenes usando gráficos de barras o gráficos de barras acumulativos de las
frecuencias. Ambos pueden ser agrupados por la escala categórica del
producto, como se muestra en los dos ejemplos de abajo. Los gráficos de barras
también pueden ser mostrados en un producto X de atributo.
Ejemplos de Datos del Estudio de Casos
Los ejemplos a continuación utilizan el atributo de sabor para productos 170,
896, y 914. Figura 1 (a) y (b) de distribución agrupada de frecuencia por la
categoría de escala y por producto, respectivamente. La figura 2 muestra un
gráfico de barras acumulativo.

Resultados y Conclusiones
El ejemplo 1 (a) de Distribuciones graficas de Frecuencia (agrupada por la
categoría de escala del J.AR) compara modelos de respuesta para tres
productos.
En la gráfica se muestra que por encima del 82 % (84 / 102) los encuestados
marcaron en el Sabor del producto 896 "Sobre lo adecuado," mientras que sólo
el 62 % (63 / 102) marcó en el sabor del producto 170 "Sobre lo adecuado" y
sólo el 44 % (45 / 102) del producto 914 marcó "Sobre lo adecuado."

Pues bien, los gráficos de barras pueden ser usados como ilustradores,
mostrando el número actual de respuestas dadas en cada categoría para tres
productos en el mismo diseño. Es fácil ver en el diseño mostrado debajo que el
producto 896 fue considerado
 APÉNDICE A: DEMOSTRACIÓN DE DATOS GRÁFICOS 15
"Sobre lo adecuado" en sabor por la mayor parte de encuestados N = 84,
mientras que el producto 914 fue catalogado como "insuficiente" sabor por 48
asesores y "Sobre lo esperado" por 45 asesores.

Pros y los contras


Este método proporciona un resumen visual sucinto, y debe ser entendido para
su uso como un método que compara productos/atributos múltiples. No es una
técnica formal para probar hipótesis.

Recomendación
Este método es recomendado para todos los datos de la escala J.A.R como una
herramienta de evaluación.
1 Director, Sensory Science, Flavor Technology R&D, Solae Company, LLC, P.O.

Box 88940, St. Louis, MO 63188.

100
frecuencia de las respuestas

90
80
70
60
50
40
30
20
10
0
Algo J.A.R (Sobre lo
Insuficiente Algo Excedido Excedido
Insuficiente Adecuado)
Producto 170 2 14 63 21 2
Producto 189 0 5 84 12 1
Producto 914 6 48 45 3 0
100%
90% 82%
80%
% Respuestas 70% 62%
60%
47% 44%
50%
40%
30% 21%
20% 14% 12%
10% 5% 6% 3% 0%
2% 2% 0% 1%
0%
Producto 170 Producto 189 Producto 914
Insuficiente Algo Insuficiente
J.A.R (Sobre lo Adecuado) Algo Excedido
Excedido

Fig.1- (a) Frecuencia de sabor J.A.R. (b) Porcentaje de Sabor J.A.R (%).
Respuestas

Producto
6 48 45 3
914

Producto
5 84 12
189

Producto Fig.2- Sabor J.A.R


14 63 21
170

0% 20% 40% 60% 80% 100%

Insuficiente Algo Insuficiente J.A.R (Sobre lo Adecuado) Algo Excedido Excedido

Apéndice B: Escala gráfica


Introducción y Objetivo
La escala gráfica es una técnica para presentar los resultados de un análisis de
escala JAR que ilustra gráficamente cualquier desequilibrio alrededor del punto
de escala "Correcto/Optimo".
Requisitos
El porcentaje de encuestados en ambos “demasiado” y “no suficiente” a los lados
de “Correcto” se resume, para cada producto y atributo.
¿Cómo?
Reste la proporción de respuestas del lado "No Suficiente" de la escala de la
proporción en el lado "Demasiado" de la escala. La diferencia (el Efecto Neto)
indica la magnitud y la dirección de las diferencias entre las muestras de prueba,
y se puede graficar para ilustrar las diferencias del producto.
Ejemplo de caso Estudio de Datos
Este ejemplo usa las clasificaciones de Tamaño, Color, Sabor, Textura y
adherencia para los productos 170, 896 y 914. Los datos se han comprimido a
una escala de tres categorías, como se ilustra en la Tabla 1, y las diferencias
trazadas en la mano derecha Columna del Gráfico 1.1. Esta discusión supone
que los criterios a priori incluyeron un requisito para un "Correcto/Optimo" de ≥
70% y un Efecto Neto (Diferencia) ≤ 20%.

Tabla 1: Distribución de las respuestas (% de encuestados) para los tres productos


% Producto 170 Producto 896 Producto 914
Demasiado
24 22 28
pequeño
Tamaño
Optimo 36 39 31
Demasiado largo 40 39 41
Insuficiente 11 1 21
Color Optimo 83 96 79
Demasiado 6 3 0
Insuficiente 16 5 53
Sabor Optimo 62 82 44
Demasiado 23 13 3
Demasiado
13 9 4
delgado
Textura Optimo 82 88 75
Demasiado
5 3 21
grueso
Insuficiente 4 1 11
Adherencia Optimo 79 85 80
Demasiado 17 14 9

Resultados y conclusiones
Las clasificaciones muestran que los tres productos marcaron por debajo del
70% “Correcto” criterio de tamaño, y los productos 170, 896 y 914 no cumplían
con los criterios que para el sabor. El gráfico Efectos Netos muestra claramente
que la muestra 914 carece de sabor. Aunque el Producto 914 cumplió con el
70% de lo esperado para el color, los Efectos Neto sugieren que puede haber
margen de mejora haciendo que el producto sea un poco más oscuro.
Las calificaciones reales también revelan la polarización de las respuestas de
tamaño para los tres productos y pueden sugerir la existencia de más de un
segmento de consumo en la muestra. Debido a la polarización, los efectos netos
no proporcionan una dirección clara para los cambios de producto para el
tamaño, ya que se encuentran por debajo del criterio del 20% de efecto neto en
este ejemplo. La muestra 170 se puntuó ligeramente por debajo del criterio del
70% para sabor; sin embargo, las respuestas "No Correcto " son similares para
cada extremo de la escala, una vez más no dando una orientación obvia para la
mejora.
Pros y contras
Los beneficios del uso de este método incluyen la facilidad de cálculo, la
presentación visual y la simplicidad de examinación e interpretación de un
estadístico de resumen. En los casos en que los datos sobre cada lado de
“Correcto” se agregan, los efectos netos pueden ser no representativos de la
magnitud de las diferencias entre los productos ya que la información sobre el
grado de “No suficiente” o “Demasiado” se pierden. Otra desventaja de este
método es que si los datos JAR se distribuyen bimodalmente debido a
segmentos de consumidor que pueden tener diferentes expectativas con
respecto a la intensidad del producto, los resultados pueden ser engañosos en
cuanto a que los efectos Netos pueden ser artificialmente bajos. Otra advertencia
gira en torno a la suposición de que si un producto se reformula para abordar el
sesgo en un lado de “Correcto” esto no causaría una sesgada en el otro lado de
“Correcto”. En color para el producto 914, por ejemplo, si el color fuera
reformulado para ser más oscuro. ¿Algunos de los encuestados que califican
actualmente el producto “apenas correcto” ahora clasifican el color demasiado
oscuro?
Recomendación
La escala grafica para los datos de la escala JAR se recomienda como un
componente de presentación de un análisis JAR, pero no se recomienda como
método de análisis independiente.
Apéndice C: Diferencia de porcentaje de la norma y diferencia de porcentaje de
“JustRight”
Gloria A. Gaskin1 and Joni L. Keith1

Introducción y Objetivo:
La diferencia porcentual con el análisis de la norma determina si él % de las
respuestas por la escala JAR cumplen o exceden una norma establecida. Si no
lo hacen, también determina la dirección de los desequilibrios de las respuestas
de la escala JAR. La Diferencia porcentual del análisis "JustRight" no se basa
en una norma, pero compara las respuestas con las de la categoría
"JustAboutRight". Si se encuentra una diferencia significativa, las respuestas se
comparan entre sí. El análisis se realiza en una combinación producto-atributo a
la vez, pero no hay límite en cuanto a cuántos productos o atributos pueden ser
analizados.
Requisito:
Estos análisis requieren el tamaño de base (n) yuna distribución de frecuencia
marginal para cada atributo de escala JAR y producto a analizar.
"Cómo":
Existen dos métodos para utilizar esta técnica dependiendo de si se ha
establecido un valor normativo para el "JAR" deseado.
Análisis A: Diferencia de porcentaje de la norma utilizada cuando se ha
establecido un valor normativo para el porcentaje “JAR”
1. Determinar las respuestas de "JAR%" normalizadas para ser utilizadas en
el análisis, por ejemplo, 70%.
2. ¿El JAR% real es igual o mayor que la norma establecida?
3. a. En caso sea afirmativo, no se requiere más análisis; Si el JAR% es
menor que la norma establecida, continúe con el análisis.

b. Suma el número de respuestas en cada extremo de la escala de JAR


(por ejemplo, 1 + 2 y 4 + 5, si se usa una escala de categoría de 5 puntos
centrada) y realice una prueba de significación para determinar si el
número de respuestas en los dos extremos es significativamente diferente
utilizando una prueba binomial o chi cuadrado contra un valor esperado
del 50%.El tamaño total de la muestra es el número de observaciones que
no son "JustAboutRight". El nivel de confianza de la prueba será
comúnmente un valor tal como 90% o 95%. El valor crítico se puede
determinar usando una tabla binomial, o una función estadística (Excel
ofrece la función CRITBINOM). Si se encuentra una diferencia entre los
extremos en la escala "JAR", el producto debe ser cambiado hacia el final,
el que tiene menos respuestas.
Ejemplo de los datos de un estudio de caso:
Las siguientes tablas demuestran el método para los atributos Sabor, Color y
Tamaño de los productos 170, 896 y 914 de los datos del estudio de caso. En
cada caso, se supone que la norma es 70% "JustAboutRight" o mejor. Las
columnas de cada tabla incluyen:

1. el código del producto,


2. el valor JAR observado,
3. ¿Cumple el JAR observado el criterio,
4. El número de valoraciones por debajo del valor "JustAboutRight"
5. El número de calificaciones por encima del valor "JustAboutRight"
6. La suma de las columnas 5 y 6,
7. La mayor de las columnas 5 y 6,
8. El valor crítico binomial "el nivel de confianza del 95% en este ejemplo",
9. El resultado de la comparación de las columnas 7 y 8,
10. La conclusión de esa comparación

Resultados y conclusiones de la diferencia de porcentaje del análisis de


normas
 Los resultados del estudio de caso utilizando el análisis de diferencia de
porcentaje de normas indicaron que el producto 914 no tiene suficiente
sabor p=0.05, n=57 (54 sabor insuficiente y 3 demasiado sabor)
 Para el atributo color, todos los productos se consideraron casi correctos
en color basados en un JAR% del 70% o más.
 Para el atributo Tamaño, se encontró que el producto 170 era demasiado
grande (p = 0,05, n = 65 (24, "No es suficientemente grande “y 41
“demasiado grande“)). El producto 896 también se encontró que era
demasiado grande en tamaño p = 0,05, n = 62(22 “No es suficientemente
grande” y 40 “demasiado grande”).

TABLA 1- ATRIBUTO: SABOR, OPCION A

1 2 3 4 5 6 7 8 9 10
Son 1 y 2
CODIGO El JAR Valor diferentes
JAR SUMA a
DEL >= 1Y2 4Y5 Max critico de 4 y 5 conclusiones
(n; %) (o n)
PRODUCTO 70%? 0.05 con p=
0.05?
170 63 NO 16 23 39 23 27 NO
porcentaje 61.76 15.69 22.55 EL PRODUCTO
N/A, 914 NO TIENE
896 84 SI 5 13 18 13 14 JAR>=70% SUFICIENTE
porcentaje 82.35 4.9 12.75 SABOR,
914 45 NO 54 3 57 54 37 SI INCREMENTAR
porcentaje 44.12 52.94 2.94 SU SABOR.
a mayor de 1+2 o 4+5
TABLA 2- ATRIBUTO: SABOR, OPCION A

1 2 3 4 5 6 7 8 9 10
Son 1 y 2
CODIGO El JAR Valor diferentes
JAR SUMA
DEL >= 1Y2 4Y5 Maxa critico de 4 y 5 conclusiones
(n; %) (o n)
PRODUCTO 70%? 0.05 con p=
0.05?
N/A,
170 85 SI 11 6 17 11 14 JAR>=70%
porcentaje 83.33 10.78 5.88 TODOS LOS
N/A, PRODUCTOS
896 98 SI 1 3 4 3 N/A JAR>=70% SON
porcentaje 96.08 0.98 2.94 CONSIDERADOS
N/A, "JAR", NO HAY
914 81 SI 21 0 21 21 16 JAR>=70% NINGUNA
porcentaje 79.41 20.59 0 ACCION.
a mayor de 1+2 o 4+5

Análisis B: Diferencia porcentual “justright” cuando no se ha establecido un


porcentaje normativo “justright"
Este análisis determina si las respuestas en la escala JAR "JustAboutRight" (1,
2, 4, 5 en una escala centrada de categoría de 5 puntos) son significativamente
diferentes del número de respuestas en la categoría JAR, para un determinado
atributo y producto.
1. Determine n, el tamaño base, que es el total de todas las respuestas.
2. ¿El número total de respuestas en las categorías de la escala JAR ""? (1
+ 2 + 4 + 5)
Comparar el número de respuestas en las categorías que no son JAR al número
esperado en una distribución binomial del mismo tamaño total que tiene una
proporción binomial de 0,5. Utilice una tabla de la distribución binomial para
buscar el valor crítico para el nivel alfa = 0.05 cuando n es igual al tamaño base
calculado
En la etapa 1, y p, la proporción binomial, es 0,5. El valor crítico también puede
determinarse utilizando la siguiente función en Excel: CRITBINOM (trial,
probabilidad, s-alfa) donde trial es igual a n, como arriba, la probabilidad s es 0,5
y alfa es 0,05.
Si se encuentra una diferencia entre el total de las categorías extremas y el
número de respuestas JAR y si el número de respuestas JAR es menor o igual
al total de todas las demás respuestas, proceda al análisis A, Paso 3b, para
evaluar si las categorías extremas son diferentes entre sí y si es así, en qué
dirección.
Ejemplo de los datos del estudio de caso:
(Cuadros 4-6) Demostrar el método para los atributos Sabor, Color y Tamaño de
los productos 170, 896 y 914 a partir de los datos del estudio de caso.
Las columnas de cada tabla incluyen:

1. El código del producto,


2. El número de calificaciones que no sean JAR,
3. El valor JAR observado,
4. El tamaño base,
5. El valor crítico binomial (el nivel de confianza del 95% en este ejemplo)
6. El resultado de la comparación de las columnas 2 y 3,
7. La conclusión lógica de esa comparación,
8. Un resumen textual de la conclusión.

Resultados y Conclusiones de la Opción B:


 Los resultados del estudio de caso utilizando el análisis B, el producto
914 no tiene respuestas JAR significativamente más altas que los datos
combinados de las categorías extremas combinadas p = 0,05, n = 102 (57
“insuficiente sabor” y 45 "apenas correcto" en sabor). En consecuencia,
era necesario un análisis más detallado. Proceda al Paso 3b en la Opción
A. Usando la Opción A, se descubre que el Producto 914 no tiene
suficiente sabor (P = 0,05, n = 57 (54 “insuficiente sabor” y 3(“Demasiado
Sabor“).
 Además, el número de respuestas JAR para todos los productos fue
menor que el total de todas las demás respuestas. Esto requiere seguir
con la Opción A.
Se encontró que el producto 170 era demasiado grande p = 0,05, n = 65
(24 “insuficientemente grande “y 41 “demasiado grande“). El producto 896
también se encontró que era demasiado grande en tamaño p = 0,05, n =
62 (22 “insuficientemente grande” y 40 “demasiado grande”).
TABLA 3- ATRIBUTO: TAMAÑO, OPCION A

1 2 3 4 5 6 7 8 9 10
Son 1 y 2
CODIGO El JAR Valor diferentes
JAR SUMA
DEL >= 1Y2 4Y5 Maxa critico de 4 y 5 conclusiones
(n; %) (o n)
PRODUCTO 70%? 0.05 con p=
0.05?
170 37 NO 24 41 65 41 41 SI
porcentaje 36.27 23.53 40.20 REDUCIR EL
896 40 NO 22 40 62 40 39 SI TAMAÑO DE
porcentaje 39.22 21.57 39.22 LOS
914 32 NO 28 42 70 42 44 NO PRODUCTOS
porcentaje 31.37 27.45 41.18 170 Y 914.
TABLA 4- ATRIBUTO: TAMAÑO, OPCION B

1 2 3 4 5 6 7 8
Son1,2,4,5
CODIGO Valor diferentes Es JAR mejor
SUMA
DEL 1,2,3,4 JAR critico que el que otros Conclusiones
(o n)
PRODUCTO 0.05 JAR p=0.05?
p=0.05?
16+23 63
170 =39 61.76 102 62 SI SI
LA MISMA
CONCLUSION
QUE LA
porcentaje 38.24 OPCION A

NO TAN LARGO, LA MISMA


USAR OPCION CONCLUSION
5+13 A QUE LA
896 =18 84 102 62 SI POSIBLEMENTE OPCION A
porcentaje 17.65 82.35
NO AJUSTAR
54+3 NO MAS LOS
914 =57 45 102 62 SI ANALISIS SABORES
LA MISMA
CONCLUSION
UTILIZAR QUE LA
porcentaje 55.88 44.12 OPCION A OPCION A
TABLA 5- ATRIBUTO: COLOR, OPCION B

1 2 3 4 5 6 7 8
Son1,2,4,5 Es JAR
CODIGO Valor
SUMA diferentes mejor que
DEL 1,2,3,4 JAR critico Conclusiones
(o n) que el JAR otros
PRODUCTO 0.05
p=0.05? p=0.05?
11+6 85
170 =17 83.33 102 62 SI SI
EN TODOS LOS CASOS
NO MAS LA MISMA CONCLUSION
porcentaje 16.67 ANALISIS ES LA OPCION A.
1+3+4
896 98 102 62 SI SI
NO MAS
porcentaje 3.92 96.08 ANALISIS
21+0
914 =21 81 102 62 SI SI
NO MAS
porcentaje 20.59 79.41 ANALISIS

TABLA 6- ATRIBUTO: TAMAÑO, OPCION B

1 2 3 4 5 6 7 8
Son1,2,4,5 Es JAR
CODIGO Valor diferentes mejor
SUMA
DEL 1,2,3,4 JAR critico que el que Conclusiones
(o n)
PRODUCTO 0.05 JAR otros
p=0.05? p=0.05?
170 21+41=65 37 102 62 SI NO
EN TODOS LOS
IR A LA CASOS LA MISMA
OPCION CONCLUSION ES
porcentaje 63.73 36.27 A LA OPCION A.
896 22+40=62 40 102 62 NO NO
IR A LA
OPCION
porcentaje 60.78 39.22 A

914 28+42=72 32 102 62 SI NO


IR A LA
OPCION
porcentaje 68.63 31.37 A
Los datos de pruebas de consumo a gran escala están
disponibles teniendo tres para cinco categorías para
respuestas casi correctas. (No se recomienda para pruebas
sensoriales)
OPCION A OPCION B

¿Se ha
establecido
Determine n, el
una norma o
un mínimo número total de
porcentaje de respuestas.
NO
respuesta casi
correcto?

NO UN NÚMERO
RAZONABLE
PUEDE SER 70%
CORRECTO SI Sume el número de respuestas
de los extremos de cada
categoría.
SI
¿Se ha IGNORA LAS
SI
logrado la OTRAS
respuesta RESPUESTAS
mínima
casi
correcta?
USANDO P= 0,5 HAY
NO ALGUNA DIFERENCIA
NO SIGNIFICATIVA ENTRE
LAS RESPUESTAS
“CORRECTAS” Y LA
COMBINACION DE
SUMA LAS RUPUESTAS DE LOS LAS RESPUESTAS EN
EXTREMOS BAJOS CON LOS LOS EXTREMOS.
EXTREMOS ALTOS

SI

CALCULE EL TAMAÑO DE BASE, POR LA


COMBINACION DEL NUMERO DE
RESPUESTAS EN LOS EXTREMOS DE LAS CALCULE EL TAMAÑO DE BASE, POR LA
CATEGORIAS. COMBINACION DEL NUMERO DE
RESPUESTAS EN LOS EXTREMOS DE LAS
CATEGORIAS.

USANDO UNA TABLA P= 0.5 COMPARE EL


NUMERO DE RESPUESTAS BAJAS Y ALTAS
HAY ALGUNA HAY ALGUNA
DIFERENCIA DIFERENCIA
SIGNIFICATIVA? SIGNIFICATIVA?
NO NO
SI
SI

DETERMINAR QUE GRUPO DETERMINAR QUE GRUPO


TIENE MAS RESPUESTAS, Y TIENE MAS RESPUESTAS, Y
POR LO TANTO SI TIENE UN POR LO TANTO SI TIENE UN
SIGNIFICADO ALTO SIGNIFICADO ALTO

INFORME CUALQUIER SIGNIFICADO E


INCLUYA LA DIRECCIÓN, SI CUALQUIE,
DEL PRODUCTO SE DEBE CAMBIAR
BASADO EN ESTOS RESULTADOS

Fig 1. Escala JAR: diferencia porcentual desde la norma (diagrama de flujo para las opciones A Y B
Pro y Contras:

Estos análisis abarcan dos situaciones: Si se establece una norma, se puede


utilizar el Análisis A. Cuando una norma JAR% no se ha establecido, se puede
usar el Análisis B. Cuando las respuestas son desequilibradas, este análisis
permite al investigador determinar la dirección de optimización.
Esta técnica no indica por sí misma cuánto de un cambio físico en un atributo es
necesario para optimizar el producto.

Recomendación:

Estos métodos se recomiendan cuando el objetivo es entender las


clasificaciones de JAR para una combinación de producto / atributo en particular.
Cuando se ha establecido una norma, determinará si cumple con esa norma y
cómo debe modificarse el producto para cumplir esa norma. Cuando no se ha
establecido una norma, el segundo método se puede utilizar para evaluar la
desviación del valor "JAR" y sugerir cómo se puede modificar el producto para
mejorar la puntuación "JAR". Ninguno de los dos métodos está diseñado para
comparar los productos.

ReferenciasBibliográficas:

 Bush Brothers and Company, 1016 E. Weisgarber Road, Knoxville, TN


37909.

Apendice D: La media
I. INTRODUCCION Y OBJETIVOS
El objetivo del análisis de la media es determinar si, en promedio, el producto
marca "Just About Right" o si hay un sesgo de "demasiado" o "no es suficiente"
de un atributo. Este método de análisis utiliza sólo los datos JAR. Mientras que
el cálculo de los medias JAR se completa individualmente para cada producto,
estos medias pueden compararse (véanse los Apéndices I y J). Para determinar
si la media es estadísticamente diferente del punto medio de la escala ver el
Apéndice F.

II. REQUISITOS
Para realizar un análisis de la media, se necesitan las puntuaciones de datos
brutos para cada encuestado y el producto para los atributos de interés.
III. ¿CÓMO?
Cada puntuación media se calcula sumando los valores de los datos brutos para
cada combinación de atributo / producto y luego dividiendo la suma por número
de respuestas para esa combinación de atributo / producto. La media se compara
entonces con el valor "Just About Right". Por ejemplo, en una escala simétrica
de 5 puntos, que va de 1 a 5, la media de la muestra se comparará con el valor
"JAR" de 3.

IV. EJEMPLO DE UN ESTUDIO DE CASO

La figura 1 muestra la distribución de frecuencia y la media de las calificaciones


JAR para cinco atributos en el código de producto 458.

Figura 1: Distribuciones de frecuencia y mediciones de la puntuación JAR para


la muestra 458.
V. RESULTADOS Y CONCLUSIONES
La puntuación JAR significa que para la muestra 458 para los atributos tamaño,
color, cantidad de sabor, ligero / espeso y adherencia fueron calculados y se dan
a continuación.
Interpretando la media de la muestra para cada atributo
 Tamaño, una media de 3.0 implica que la calificación promedio es "just
about right"
 Color, la media de 2,87 probablemente indica que el producto es "muy
claro".
 Sabor, en un promedio de 3.36, el sabor parece ser "demasiado fuerte".
 Ligero / espeso, un promedio de 2.93 parece estar lo suficientemente
cerca de 3.0 para indicar que la calificación promedio es "just about right".
 Adherencia, mientras que una media de 3.13 puede indicar que el
producto es demasiado" pegajoso”.
VI. PROS Y CONTRAS
- Los beneficios del uso de la escala incluyen la facilidad de cálculo y la
simplicidad del examen e interpretación de una estadística de resumen.
Los beneficios de este análisis son superados por las conclusiones
erróneas que pueden resultar de este enfoque simplista. Consideremos la
media de la escala de 3,0 para el tamaño, lo que implica que el tamaño
es "just right".
- Examen de la distribución de las puntuaciones de este atributo indica un
alto grado de bimodalidad, con un 32% de encuestados calificando la
muestra como "muy grande" y 31% clasificaron la muestra como "muy
pequeña". ¿Puede considerarse la muestra "just right" para el tamaño,
cuando casi dos tercios de los encuestados lo califican de otra manera?
es esto falta de rendición de cuentas de la distribución de las uso de la
media inadecuada para el análisis de escala JAR.
- Otra limitación es el uso de juicios oculares acerca de si la media está "lo
suficientemente cerca" del punto medio de la escala al concluir que el
atributo es "just about" estos juicios a menudo descuidan la variabilidad y
asimetría sobre la media. Mientras que la media de 3.36 parece estar
sólidamente en el área de "demasiado fuerte", ¿cuán confiado está el
investigador de que la media de 2.87 indica claramente que la muestra es
"demasiado débil ".
- Una tercera advertencia gira en torno al hallazgo de una desviación en los
datos, por ejemplo, en el caso del sabor de la muestra 458 que tiene una
media de "Demasiado Fuerte". Si el investigador hace que el Sabor sea
menos fuerte en respuesta a este hallazgo, los encuestados que
calificaron al producto inicialmente como "¿Está bien?" ¿Lo calificarán
entonces de "demasiado débil" después de la reformulación? Por lo tanto,
el examen de la media por sí solo no considera lo que sucede después de
ajustar la inclinación.
- Sin embargo, una cuarta limitación es que el hallazgo de una diferencia
con el valor "JAR" no indica por sí mismo que el producto no fue muy
querido, ni indica el efecto que tiene la diferencia en el valor general. Por
último, usar sólo la media implica una asunción de normalidad con una
varianza conocida, es decir, una curva en forma de campana en las
respuestas.
- Si los datos son bimodales, esta suposición no se cumple, haciendo de
este un análisis inadecuado. Los datos JAR pueden ser bimodales, en
presencia de segmentos de consumidores, los cuales pueden tener
diferentes expectativas con respecto a las intensidades de los atributos
del producto.
VII. RECOMENDACIÓN
El uso de la clasificación media para los datos de la escala JAR se recomienda
sólo cuando se combina con información adicional como el examen de la
distribución de los datos.
VIII. BIBLIOGRAFIA
ROTHMAN,L. AND PARKER ,M.2009. Just-About-Right (JAR) Scales:Design,
Usage, Benefits and Risks. AST
Apéndice E: Desviación Media Direccional y Absoluta.
Veronika Jones1

Introducción y Objetivos
Las desviaciones media direccional y absoluta son estadísticas que se pueden usar
para resumir y verificar el balance de la data JAR. La data JAR es analizada
separadamente para cada producto y por cada atributo.
La desviación media direccional es el promedio registrado diferenciado de las
clasificaciones del valor de “Justo a tiempo” (JAR). En una escala de 5 puntos de
Justo a tiempo, el rango de la media direccional va de -2 a +2 (Perfecto=0). Puntajes
que son cercanos a -2 indican que la respuesta a ese atributo fue “Demasiado bajo”.
Los puntajes que son cercanos a +2 indican que la respuesta para ese atributo fue
de “Demasiado alto”. Las desviaciones media direccional es un simple
desplazamiento de la media, explicado en el apéndice D.
La desviación media absoluta resume la extensión de la clasificación del valor de
“Justo a tiempo”. En una escala de 5 puntos, la desviación media absoluta tiene un
rango de 0, cuando todas las decisiones son “Justo a tiempo” a +2, cuando todas
las decisiones son de uno o del otro extremo del final de la escala. A diferencia de
los porcentajes en los puntajes “Perfecto”, las desviaciones absolutas pueden ser
calculadas para cada individuo y la desviación media absoluta puede ser analizada
por cualquiera de los procedimientos estadísticos de parámetros estandarizados.
La desviación media absoluta resume la distancia promedio al valor de “Justo a
tiempo”, mientras que la desviación media direccional resume la dirección promedio
a los atributos del valor de “Justo a tiempo”.

Requerimientos
Para calcular los valores de las desviaciones medias direccional y absoluta tienes
que tener la distribución de los puntajes del JAR para cada combinación de producto
y atributo.

¿Cómo hacerlo?
Desviación Media Direccional
1) Calcular el puntaje medio
2) Sustraer el valor de “Justo a tiempo” dentro de la escala.

Desviación Media Absoluta


1) Sustraer el valor de “Justo a tiempo” dentro de la escala.
2) Calcular el valor absoluto de cada diferencia.
3) Promediar los valores absolutos sobre los evaluados.

Ejemplo de un caso de estudio


La tabla 1 aporta un ejemplo detallado de las computaciones para la escala de
sabores de código 170, de asignaturas de 49-52. La columna 4 de la tabla muestra

1Centro de Investigación Fonterra, Paquete Privado 11 029, Carretera de Granja Lechera, North
Palmerston, Nueva Zelanda.
las calificaciones, la columna 5 resta 3, del valor obtenido en la escala de “Justo a
tiempo”, y la columna 6 muestra los valores absolutos de aquellas diferencias. La
tabla 2 resume los cálculos para las propiedades de Tamaño, Color, Sabor,
Fino/Grueso, y Viscosidad para los productos 170, 896 y 914.

Tabla 1. Ejemplo de puntajes de la desviación direccional y desviación absoluta para


las respuestas de 49-52 respecto a la Cantidad de Sabor del JAR. .
# de resp. Servido # código Cantidad de sabor Desv. Direccional Desv. Absoluta
49 4 170 4 1 1
50 4 170 2 -1 1
51 4 170 3 0 0
52 4 170 5 2 2

Tabla 2. Puntajes de la media direccional y la media absoluta para el ejemplo del conjunto de datos.

Tamaño Color Sabor Fino/Grueso Viscosidad


Muestra Direcc. Absoluta Direcc. Absoluta Direcc. Absoluta Direcc. Absoluta Direcc. Absoluta
170 0.22 0.75 -0.05 0.17 0.07 0.42 -0.08 0.18 0.14 0.22
896 0.24 0.73 0.02 0.04 0.09 0.19 -0.07 0.13 0.14 0.16
914 0.1 0.82 -0.21 0.21 -0.56 0.62 0.17 0.25 -0.03 0.21

Resultados y conclusiones
De los puntajes medios mostrados en la tabla 2, podemos sacar las siguientes
conclusiones.
 Tamaño: No hubo mucha diferencia entre las muestras y estuvieron cerca
del “Perfecto”, a pesar de que todas fueron ligeramente muy largas.
 Color: La muestra 896 estuvo más cerca del “Perfecto” que las otras
muestras. La muestra 914 estuvo muy clara.
 Sabor: La muestra 896 estuvo más cerca del “Perfecto” que las otras
muestras; la muestra 914 fue la más lejana del “Perfecto”. Esta muestra no
tenía mucho sabor.
 Fino/grueso: La muestra 896 estuvo más cercana al “Perfecto”; la muestra
914 fue la más lejana del “Perfecto”. Esta muestra fue demasiado gruesa y
las otras dos muestras eran ligeramente muy finas.
 Viscosidad: No hubo mucha diferencia entre las muestras; la muestra 896
fue la ligeramente la más cerca al “Perfecto” que las otras dos muestras. La
muestras 914 no fue lo suficientemente viscoso y las muestras 170 y 896
fueron ligeramente muy viscosas.
 Comparaciones de producto
 La muestra 896 fue la más cerca al “Perfecto” para todos los atributos
comparados con las otras dos muestras.
 La muestra 914 fue la más alejada del Perfecto” para la mayoría de
atributos. Fue muy claro, no tuvo suficiente sabor, fue muy grueso y no fue
lo suficientemente viscoso.
 La muestra 170 estuvo cercana al “Perfecto” pero no tuvo respuestas tan
satisfactorias como la muestra 896.

A favor y en contra
Este análisis dio una medida de su extensión a través del valor “Justo a tiempo” y la
dirección de la desviación promedio para ese valor. Lo último puede usarse para
sugerir direcciones para realizar mejoras.
Una limitación potencial para la desviación estadística es el cálculo requerido de
dos pasos para la desviación estadística. Mientras son insignificantes en paquetes
como SAS, SPSS, R y JMP, requiere una programación extra para sistemas como
Excel. Este análisis puede ser mejorado con una representación gráfica.

Recomendación
Este análisis es muy útil en resumir el cambio promedio y su difusión del valor de
“Justo a Tiempo” en la escala JAR. Sin embargo, este no aporta ningún significado
estadístico para evaluar las diferencias entre los productos o la variabilidad
inherente en las medidas.

Apéndice F: Promedio versus Punto Medio de la Escala


Introducción y Objetivo
Este método describe un procedimiento estadístico para comparar una sola media
con su punto medio de la escala JAR. Determinará si un atributo del producto se
percibe como significativamente diferente del ideal. Cuando un atributo es
significativamente diferente del punto medio, también se pueden hacer conclusiones
acerca de la dirección de la diferencia.
Este análisis está diseñado para comparar una sola combinación producto / atributo
con su punto central y no es apropiado para las comparaciones entre productos o
atributos. Las comparaciones entre varios productos en la misma prueba se limitan
a las declaraciones de cómo cada uno de ellos se relaciona con el punto medio de
la escala JAR o el valor "Ideal". Tenga en cuenta que el valor "Ideal" se refiere al
punto medio de la escala JAR y no está relacionado con un producto estándar de
oro específico.
Requisitos
El método requiere las evaluaciones JAR individuales de cada evaluador. Se
supone que los valores de escala se codifican como números enteros consecutivos
(por ejemplo, 1 a 5 para la escala JAR simétrica de 5 puntos comúnmente usada).
“Como”
En primer lugar, examinar las frecuencias de distribución de los datos JAR sin
procesar para cada producto. Si los datos aparecen aproximadamente unimodal
para cada producto, proceda con el análisis. De lo contrario, cuando los datos
parezcan bimodales, considere un análisis alternativo.
Restar el valor de punto medio de la escala de los datos sin procesar (por ejemplo,
3,0 en una escala de 5 puntos de 1 a 5). Analizar estos datos usando una prueba t
de dos colas de una muestra, al nivel de confianza deseado (por ejemplo, 95%). El
análisis se puede realizar utilizando Excel, SAS, MiniTab, SPSS u otro paquete de
software estadístico general con capacidades de prueba t.
Ejemplos de Datos de Estudio de Caso
Las tablas a continuación resumen las puntuaciones medias y los valores -p de una
prueba t de una muestra para todos los atributos y productos del Estudio de Caso.
Para cada combinación atributo-producto, las clasificaciones individuales se
compararon con el punto medio JAR de 3,0. Recordemos que la falta de
significación no prueba la equivalencia, sólo que los datos no son suficientes para
rechazar la hipótesis de equivalencia.
Resultados y Conclusiones

Vea las Tablas 1 y 2. El producto 170 podría considerarse "Just About Right" por la
cantidad de color, cantidad de sabor y grosor, y se percibió que era "demasiado
grande" en tamaño y "demasiado pegajoso" en comparación con el "ideal".
El producto 458 podría considerarse "Just About Right" para el tamaño y el grosor,
y se percibía que era "demasiado bajo" en color, "demasiado alto" en intensidad de
sabor y "demasiado pegajoso" en comparación con el "ideal".
TABLA 1-Promedio de calificaciones de cinco productos para cinco
atributos JAR. N = 102. Las puntuaciones medias en negrita son
significativamente diferentes del punto de mediana escala de 3,0, en α =
0,05.

Intensidad de Grosor
sabor Delgado/Grueso
Código de Producto Tamaño Color Adherencia
170 3.2 3.0 3.1 2.9 3.1
458 3.0 2.9 3.4 2.9 3.1
523 3.2 2.9 3.2 2.9 3.1
896 3.2 3.0 3.1 2.9 3.1
914 3.1 2.8 2.4 3.2 3.0

TABLA 2-Comparación de las puntuaciones medias de JAR con respecto


al punto medio de la escala para cinco productos para cinco atributos (p-
valores por atributo).

Intensidad de Grosor
sabor Delgado/Grueso
Código de Producto Tamaño Color Adherencia
170 0.026 0.227 0.329 0.059 0.004
458 1.000 0.001 0.000 0.163 0.023
523 0.106 0.134 0.001 0.004 0.001
896 0.015 0.320 0.049 0.070 0.001
914 0.347 0.000 0.000 0.001 0.551

El Producto 523 podría considerarse "Just About Right" para el tamaño y la cantidad
de color, y se percibió como "demasiado alto" en intensidad de sabor y "demasiado
fino" y "demasiado pegajoso" en comparación con el "ideal".
El producto 896 podría considerarse "Justo a la derecha" por la cantidad de color y
grosor, y se percibió como "demasiado grande", "demasiado alto" en la intensidad
del sabor y "demasiado pegajoso" en comparación con el "ideal".
El Producto 914 podría considerarse "Just About Right" para tamaño y adherencia,
y se consideró demasiado bajo en color, "demasiado bajo" en intensidad de sabor
y "demasiado grueso" en comparación con el "ideal".
Pros y contras
Este es un análisis simple para realizar y puede proporcionar orientación para el
desarrollo de productos sobre cómo los cambios direccionales a un atributo de
producto pueden aumentar su aceptabilidad. Este método es razonable de usar
cuando no hay una norma establecida para el porcentaje esperado de "Just About
Right" respuestas.
Este método supone una distribución normal de las respuestas. La distribución de
las respuestas debe examinarse antes de realizar este procedimiento, es decir,
revisar las frecuencias de las distribuciones como una tabla de valores numéricos o
como un histograma; Si hay una distribución bimodal, entonces una prueba simple
de la media generalmente no es apropiada ver Apéndice D.
La comparación de los promedios con el punto medio de la escala proporciona
orientación direccional sobre los cambios del producto; Se requieren datos
adicionales para sacar conclusiones sobre la cantidad absoluta de cambio para el
atributo especificado para aumentar la aceptabilidad del consumidor.
Este método no permite comparaciones directas entre muestras; Se necesitarían
análisis adicionales (ver Apéndice J) para comparar dos o más productos.
Recomendación
Este método de análisis se recomienda cuando sólo hay datos JAR disponibles de
una población unimodal, para permitir la comparación de los atributos individuales
del producto a la "Ideal".

Apendice G: Métodos para determinar si las distribuciones JAR son similares


entre los productos (Chi-Square, Cochran-Mantel-Haenszel (CMH) , Stuart-
Maxwell, McNemar)
Carl Fritz1
Introducción general y objetivos
Los siguientes métodos pueden cada uno ser usados para determinar si la
puntuación de las distribuciones JAR son similares entre un conjunto de productos:
• Método de Chi-cuadrado
• Metodo Cochran-Mantel-Haenszel( CMH) [1], [2]
• Metodo3 Stuart-Maxwell [3]
• Método 4 McNemar [4]
El método de chi-cuadrado y el método CMH son los más generales de los cuatro
métodos mencionados anteriormente. Ambos métodos pueden ser utilizado para la
comparación de las distribuciones de puntuación JAR entre cualquier número de
productos para cualquier número de categorías escala JAR.
El método de chi-cuadrado se diferencia de los otros tres métodos con respecto al
diseño de la prueba de consumidores para los cuales puede ser usado. El uso del
método de chi-cuadrado requiere independencia entre las respuestas de los
evaluadores. Esto limita la el uso del método de chi-cuadrado para las situaciones
en las diferentes grupos de evaluadores evalúan cada producto.
Los métodos CMH, Stuart-Maxwell y McNemar son apropiados cuando los
evaluadores evalúan todos los productos. Estos métodos proporcionan un mayor
nivel de poder sobre el método del chi- cuadrado, aprovechando la correlación
positiva que normalmente existe entre las calificaciones de un evaluador individual
sobre dos o más productos evaluados durante la misma prueba de consumidores.
El método CMH puede usarse para probar la igualdad de distribuciones de puntajes
JAR para múltiples productos usando escalas JAR con múltiples categorías. El
método de Stuart-Maxwell es un caso especial del método CMH y se utiliza para
comparar las distribuciones de puntaje JAR de dos productos para la escala JAR
con múltiples categorías. El método de McNemar es un caso especial de los
métodos de CMH y Stuart-Maxwell que se utiliza para los dos métodos CMH y
Stuart-Maxwell que se utiliza para dos productos y exactamente dos categorías de
respuesta (por ejemplo, "Exacto" y "No Exacto" o “demasiado grueso” y "no
demasiado Grueso"). Las estadísticas de prueba de las pruebas CMH, Stuart-
Maxwell y McNemar son idénticas para la situación en la que hay dos productos y
dos categorías de escala. Estos métodos son apropiados para diseños completos
de bloques, donde cada evaluador evalúa una muestra de cada producto o para
diseños no bloqueados donde cada evaluador evalúa una muestra o muestras de
un solo producto. La hipótesis que se está probando es, en su mayor parte, general.
Técnicas más poderosas, como la regresión logística ordinal, pueden ser
apropiadas para hipótesis específicas; Ver Tabla 1.
Metodo Cochran-Mantel-Haenszel (CMH)
El método Cochran-Mantel-Haenszel(CMH) se puede utilizar para determinar si
existen estadísticamente significativo las diferencias en la puntuación de las
distribuciones JAR entre dos o más productos cuando cada producto ha sido
evaluado por cada evaluador. Pone a prueba la homogeneidad de la escala JAR en
todos los productos, después de controlar (bloquear) para las diferencias entre los
evaluadores.
Objetivos del análisis
Las pruebas del método CMH ya sea la hipótesis nula de que no hay diferencias en
las distribuciones de los puntajes JAR a través de los productos o la hipótesis nula
de que no hay diferencia en las puntuaciones medias JAR a través de los productos

TABLA 1-Resumen de los métodos para comparar las distribuciones de JAR entre
los productos.
2 Productos 3 Productos
Formato de Método Escala JAR Escala JAR Escala JAR Escala JAR
la Prueba para 2 para 3 o más para 2 para 3 o más
categorías categorías categorías categorías

Cada X X X X
evaluador CMR
evalua todos Stuart- X X
los productos Maxwell
X
McNemar
Diferentes X X X X
evaluadores Chi-
evalúan cada cuadrado
producto

Consultor Estadístico, 15 Crammer Lane, Hillsborough, NJ 08844.


Hipótesis 1: Asociación General
Esta forma de la CMH comprueba la hipótesis nula de que la distribución de las
puntuaciones JAR es el mismo en todos los productos para después de ajustar
las diferencias entre evaluadores. Se trata del JAR escalar como un una escala
desordenada (nominal). La hipótesis alternativa de asociación general es que al
menos una de los productos difiere en al menos una de las categorías de escala
JAR.
Esta forma de la prueba se debe utilizar cuando el investigador quiere determinar
si las distribuciones de resultados JAR difiere entre los productos sin necesidad
de indicar el patrón específico de las diferencias. La hipótesis nula será
rechazada si el distribución de las respuestas de un producto es sufí-
cientemente diferente que la distribución de las respuestas de otro producto
independientemente de si las respuestas medias para los productos son
diferentes.
Hipótesis 2: Diferentes respuestas medias
Esta forma de la CMH comprueba la hipótesis nula de que las puntuaciones
medias JAR son constantes a través de los productos. La hipótesis alternativa es
que al menos uno de los productos tiene una puntuación media diferente del
resto. Esta forma de la prueba se utiliza cuando el investigador desea probar la
igualdad de los medios ponderados o no ponderados.
Una o ambas de las hipótesis alternativas podrían ser de interés para el
investigador en un estudio particular. Es apropiado probar ambas hipótesis
alternativas en el mismo estudio si el investigador está interesado en ambas
hipótesis.
Los siguientes ejemplos pueden ayudar al investigador a entender la distinción
entre las dos hipótesis alternativas. En ambos ejemplos, el "no es suficiente ",
"Exacto," y "Demasiado" de una escala JAR de 3 puntos se codifican como 1, 2
y 3, respectivamente. El ejemplo 1 ilustra una situación en la que existen
diferencias entre los productos en el número de respuestas en cada una de las
categorías de la escala JAR, pero no hay diferencias en las respuestas medias
entre los productos.
Ejemplo 1
Frecuencia de las respuestas
“No es suficiente” “Exacto” “Demasiado”
(1) (2) (3) Media
Producto A 10 80 10 2
Producto B 15 70 15 2
Producto C 20 60 20 2
En el Ejemplo 1, la hipótesis nula de distribuciones de frecuencia idénticas sería
rechazada. Existen diferencias estadísticamente significativas entre los productos
en la distribución de respuestas entre las categorías de la escala JAR (p <0,0001),
pero no hay diferencias significativas entre los productos en las respuestas medias.
Para obtener más información sobre cómo realizar la prueba CMH, consulte los
ejemplos de casos prácticos en las siguientes páginas.
Ejemplo 2 ilustra una situación en la que hay estadísticamente diferencias signifi
cativamente tanto en las respuestas medias .Entre los productos y en el número de
respuestas en cada de las categorías de escala.
Ejemplo 2
Frecuencia de las respuestas
“No es suficiente” “Exacto” “Demasiado”
(1) (2) (3) Media
Producto A 5 60 35 2.3
Producto B 20 60 20 2.0
Producto C 35 60 5 1.7

Requisitos para el análisis


Para utilizar el método CMH para analizar los datos de las escalas JAR, las
puntuaciones JAR individuales de cada evaluador para cada producto deben estar
disponibles. Cada producto incluido en el análisis debe haber sido evaluado por
cada evaluador. Además, al igual que su contrapartida continua, el diseño del
bloque completo aleatorizado, la validez de este análisis requiere que se cumplan
ciertos requisitos de aditividad o homogeneidad.
Detalles del Análisis
Varios programas informáticos estadísticos comercialmente disponibles tales como
SAS [5] y JMP pueden usarse para realizar el análisis para los métodos CMH. No
hay fórmulas simples para el cálculo de manos disponibles para calcular las
estadísticas de CMH, y se recomienda el uso de un programa de computadora. Los
detalles matemáticos que son necesarios para explicar las fórmulas que se utilizan
en los métodos CMH se pueden encontrar en Refs. [1], [2] y [5].
Para realizar las pruebas CMH, asigne un código numérico a cada categoría de la
escala JAR. Si la escala contiene más de tres categorías, los análisis se pueden
realizar de dos maneras: 1) utilizando todas las categorías de escala originales, o
2) combinando las categorías de cada lado del punto medio para crear una escala
de tres categorías ( Por ejemplo, "Muy poco", "Exacto", "Demasiado").
Al probar la hipótesis nula de no asociación general, el análisis trata las categorías
JAR como valores de datos nominales, de modo que cualquier texto o numéricos
códigos pueden utilizarse para las categorías siempre que cada categoría tiene
asignado un código diferente.
Al probar la hipótesis nula de los medios comunes a través de los productos, los
valores numéricos asignados a los niveles de escala se utilizan para ordenar los
niveles. Además, por medios sencillos, los valores se utilizan para formar los propios
medios. A menudo, los valores se asignan como enteros ordenados. Para una
escala JAR de 3 puntos, dos enfoques comunes son asignar códigos de {1, 2, 3} o
{-1,0,1} a las categorías "No Suficiente", "Exacto" y "Demasiado" respectivamente.
Para una escala JAR de 5 puntos, un investigador podría usar {1,2,3,4,5} o {-2, -
1,0,1,2} como códigos para las categorías. Opcionalmente, pueden estar
disponibles en el programa de análisis estadístico otras formas de pesos óptimos
(por ejemplo, pesos ridículos). Los detalles de estos métodos de puntuación están
fuera del alcance de este documento.
Las respuestas de los evaluadores pueden resumirse en una tabla de contingencia
c por r donde r=número de productos (filas) y c= número de escala categorías
(columnas). El cuerpo de la contingencia,tabla muestra la frecuencia de respuestas
para cada categoría de escala para cada producto (véase más abajo).
c= 3 columnas
r= 3 filas “No es suficiente” “Exacto” “Demasiado”
(1) (2) (3) Media
Producto A 5 60 35 2.3
Producto B 20 60 20 2.0
Producto C 35 60 5 1.7

La CMH estadística para probar la hipótesis de la asociación general sigue una


distribución chi-cuadrado con grados de libertad=(productos-1)x(columnas-1). La
CMH estadística para probar la hipótesis de que las diferencias en las medias de
las respuestas entre los productos sigue una distribución chi-cuadrado con grados
de libertad=productos-1.
Ejemplos de datos de casos de estudio
Para el análisis de los datos del estudio de caso, la escala JAR de 5 puntos se
colapsó en tres categorías al combinar las dos categorías en el lado "No Suficiente"
del punto medio y combinando las dos categorías en el lado "Demasiado" del punto
medio .
Las siguientes sentencias de programa se pueden utilizar en el programa de
software SAS para realizar los métodos CMH:
La primera sentencia "tablas" crea una tabla de resumen que muestra la frecuencia
de respuestas en cada categoría para cada producto. La segunda declaración de
"tablas" realiza las pruebas CMH para la asociación general y para las diferencias
en las respuestas medias.
Resultados
Atributo= Frecuencia JAR del tamaño
Producto 1 2 3 Total
170 24 37 41 102
896 22 40 40 102
914 28 32 42 102

CMH
Hipótesis Alternativa GL Value p-value
Las puntuaciones medias de la fila 2 0.174 0.916
difieren
Asociación General 4 1.691 0.792

Atributo= Frecuencia JAR del Color


Producto 1 2 3 Total
170 11 85 6 102
896 1 98 3 102
914 21 81 0 102

CMH
Hipótesis Alternativa GL Value p-value
Las puntuaciones medias de la fila 2 24.53 <0.0001
difieren
Asociación General 4 29.94 <0.0001

Atributo= Frecuencia JAR del Cantidad de sabor


Producto 1 2 3 Total
170 16 63 23 102
896 5 84 13 102
914 54 45 3 102

CMH
Hipótesis Alternativa GL Value p-value
Las puntuaciones medias de la fila 2 63.98 <0.0001
difieren
Asociación General 4 77.77 <0.0001
Atributo= Frecuencia JAR de delgado /grueso
Producto 1 2 3 Total
170 13 84 5 102
896 9 90 3 102
914 4 77 21 102

CMH
Hipótesis Alternativa GL Value p-value
Las puntuaciones medias de la fila 2 23.73 <0.0001
difieren
Asociación General 4 29.70 <0.0001

Atributo= Frecuencia JAR de pegajosidad


Producto 1 2 3 Total
170 4 81 17 102
896 1 87 14 102
914 10 82 9 102

CMH
Hipótesis Alternativa GL Value p-value
Las puntuaciones medias de la fila 2 7.51 0.023
difieren
Asociación General 4 11.13 0.025

El análisis CMH también se puede hacer con el programa de software JMP


solicitando un análisis de tabla de contingencia dentro de la plataforma "FitYBy X".
Las variables que representan los productos y los atributos JAR deben definirse
como variables nominales u ordinales para el análisis para producir la prueba
correcta.
Conclusiones del análisis
No hay diferencias estadísticamente significativas entre los tres productos en las
distribuciones de las puntuaciones de los evaluadores en la escala JAR para el
atributo tamaño. Para el color, la cantidad de sabor, el espesor y los atributos de
viscosidad hay diferencias estadísticamente significativas entre al menos dos de los
productos en las distribuciones de los resultados JAR y en las respuestas medias.
Para los cuatro atributos donde las diferencias significativas, un análisis de
seguimiento recomendado sería repetir el método CMH para subconjuntos de dos
productos a la vez para determinar qué pares de productos tienen distribuciones de
puntuaciones significativamente diferentes. Este enfoque es equivalente a usar el
método de Stuart-Maxwell como un procedimiento de seguimiento al método CMH
para determinar si las distribuciones de puntuaciones difieren entre dos productos.
Beneficios del Análisis
El método CMH permite al investigador determinar si existen diferencias
significativas en las distribuciones de puntajes JAR entre dos o más productos.
Otros enfoques como la prueba de McNemar y la prueba de Stuart-Maxwell sólo
son adecuados para probar las diferencias en las distribuciones entre dos
productos. El método CMH permite al investigador analizar los datos de las escalas
JAR que tienen más de tres categorías. La prueba de McNemar requiere que los
datos se combinen en dos categorías. El método CMH proporciona más poder (es
decir, una mayor probabilidad de que una diferencia estadísticamente significativa
se encuentra cuando una de las hipótesis alternativas son verdaderas) que el
método chi cuadrado cuando los mismos evaluadores evalúan todos los productos
aprovechando la correlación positiva que típicamente ocurre cuando el evaluador
individual califica dos o más productos durante la misma sesión de prueba.
Advertencias
El método CMH no está disponible en algunos programas informáticos de análisis
estadístico. Si el método CMH no está disponible, un enfoque alternativo es utilizar
la prueba de Stuart-Maxwell para analizar dos productos a la vez. El uso del método
CMH se limita a diseños de prueba de bloque completo en los que cada evaluador
evalúa todos los productos en la prueba.
Recomendaciones
El método CMH es apropiado para determinar si hay diferencias en las
distribuciones de puntajes JAR entre dos o más productos cuando los productos
son evaluados por el mismo grupo de evaluadores. Si cada producto es evaluado
por un grupo diferente de evaluadores, entonces este método no es apropiado y se
debe usar un método chi-cuadrado o una técnica más general, como una regresión
ordinal.
Método Stuart-Maxwell
El método de Stuart-Maxwell se puede utilizar para comparar la distribución de las
puntuaciones JAR de dos productos cuando cada evaluador evalúa cada producto.
Por ejemplo, el investigador puede querer saber si hay una diferencia entre dos
productos en la proporción de puntajes en la categoría "Demasiado" o en la
categoría "Exacto". El método de Stuart-Maxwell es una forma especial del método
CMH más general discutido anteriormente [b].
Objetivos del Análisis
La hipótesis nula del método de Stuart-Maxwell es que las distribuciones de los
puntajes JAR para dos productos son idénticas. La hipótesis alternativa es que hay
una diferencia en la distribución de las puntuaciones JAR entre dos productos. Si
hay más de dos productos, el método de Stuart-Maxwell puede usarse como una
prueba de seguimiento después de que el método de Cochran-Mantel-Haenszel
[CMH] haya determinado que hay diferencias en las distribuciones de puntaje JAR
entre los productos. En esta situación, el método de Stuart-Maxwell se utiliza para
determinar qué pares de productos tienen distribuciones de puntaje JAR
significativamente diferentes.
Requisitos para el análisis
Para utilizar el método de Stuart-Maxwell, ambos productos deben haber sido
evaluados por los mismos evaluadores. Los datos deben ser ordenados primero en
una tabla que enumera el número de evaluadores que dieron la misma clasificación
en la escala JAR al Producto A y Producto B y al número de evaluadores que dieron
calificaciones diferentes al Producto A y al Producto B como se muestra a
continuación.

Clasificación del producto B


Clasificación del “Demasiado “Exacto” “Demasiado” Filas
producto A poco” totales
“Demasiado poco” n11 n12 n13 n1
“Exacto” n21 n22 n23 n2
“Demasiado” n31 n32 n33 n3
Columnas totales n.1 n.2 n.3

Donde:
n11= número de asesores que dieron la calificación de “demasiado poco” para ambos
productos
n12= número de asesores que dieron una calificación de “demasiado poco” para el
producto A y una calificación de “exacto” al producto B
n.1= número de asesores que dieron la calificación de “demasiado poco” para el
producto A
n1.= número de asesores que dieron la calificación de “demasiado poco” para el
producto B

Detalles del Análisis


Primero, calcule la diferencia en el número de clasificaciones en cada categoría de
escala (por ejemplo, "Demasiado poco", JAR, "Demasiado") entre los dos productos
como sigue:
d 1 = n1. –n.1 d 2 = n2. –n.2 d 3 = n3. –n.3
A continuación, calcule la estadística de prueba:
Luego, compare X2 con un valor de la tabla chi-cuadrado con 2 grados de libertad
(gl) al nivel de significancia deseado.
Nota: La fórmula anterior para X 2 es específica para la situación en la que la escala
JAR contiene tres categorías. Si la escala JAR contiene más de tres categorías, el
cálculo de la estadística de prueba requiere la inversión de una matriz. La fórmula
para calcular la estadística de prueba en este caso se da en la referencia de Stuart
(1955). Dado que el método Stuart-Maxwell es un caso especial del método CMH,
un enfoque alternativo es utilizar un programa informático estadístico que realice el
método CMH.
Ejemplo de datos de estudio de caso
Atributo = JAR Cantidad de Sabor
Clasificación del producto 896
Clasificación del "Demasiado “Exacto” "Demasiado" Filas totales
producto 170 poco"
"Demasiado 3 11 2 16
poco"
“Exacto” 1 60 2 63
"Demasiado" 1 13 9 23
Total de columnas 5 84 13

d 1= 16-5=11 d 2= 63-84=-21 d 3= 23-13=10

La estadística de prueba 16.62 es mayor que el valor crítico de 13.82 de una tabla
de distribución de chi cuadrado con 2 grados de libertad al nivel de signifi cado de
0.001. Esto indica que existe una diferencia estadísticamente significativa entre los
productos 170 y 896 en las distribuciones de la escala JAR para la cantidad de
sabor.
Conclusión del análisis
La conclusión de que hay una diferencia estadísticamente significativa en las
distribuciones de puntaje JAR para la cantidad de sabor entre el Producto 170 y el
Producto 896 no indica al investigador cómo difieren las distribuciones de los
puntajes JAR. El investigador a menudo puede determinar cómo las distribuciones
difieren simplemente mirando la tabla de frecuencias. En este ejemplo, el producto
896 recibió más puntajes que el producto 170 en la categoría "Exacto" (84 frente a
63). Un análisis de seguimiento que puede ser de interés para el investigador es
combinar las respuestas en las categorías "Demasiado poco" y "Demasiado" y usar
el método McNemar para determinar si hay una diferencia en el número de "Exacto"
Y "No es exacto" las respuestas entre los dos productos. Este análisis de
seguimiento le dirá al investigador si una proporción significativamente mayor de
evaluadores dio calificaciones de "Exacto" a un producto que el otro.
Beneficios del Análisis
El método de Stuart-Maxwell permite al investigador determinar si existe una
diferencia significativa en las distribuciones de puntaje JAR entre dos productos en
la situación en que la escala JAR contiene tres o más categorías y cada evaluador
evaluó ambos productos. Otro enfoque, la prueba de McNemar, requiere que los
datos se combinen en dos categorías. El método Stuart-Maxwell proporciona más
precisión que el método del chi-cuadrado para probar situaciones en las que los
mismos evaluadores evalúan todos los productos. Cuando la escala JAR contiene
tres categorías, las fórmulas están disponibles para calcular la estadística de prueba
sin el uso de una computadora.
Advertencias
El método Stuart-Maxwell no está disponible por nombre en la mayoría de los
programas informáticos de análisis estadísticos más comunes. Sin embargo, dado
que el método Stuart-Maxwell es un caso especial del método CMH, cualquier
programa de software que realice el método CMH proporcionará también el método
Stuart-Maxwell. Como con el método CMH, este método también requiere ciertos
supuestos de homogeneidad para ser válido.
Recomendaciones
El método de Stuart-Maxwell se puede utilizar para comparar las distribuciones de
puntajes JAR de dos productos cuando los productos son evaluados por el mismo
grupo de evaluadores. Si cada producto es evaluado por un grupo diferente de
evaluadores, entonces este método no es apropiado y se debe usar un método de
chi-cuadrado o una técnica más general como una regresión ordinal.

Método McNemar
El método de McNemar se puede utilizar para determinar si hay diferencias en las
distribuciones de puntajes JAR entre dos productos cuando los datos de la escala
JAR se han combinado en dos categorías. El método McNemar es apropiado
cuando ambos productos han sido evaluados por los mismos evaluadores.
Objetivos del Análisis
La hipótesis nula probada por el método McNemar es que las proporciones de las
puntuaciones JAR en las dos categorías son iguales para los dos productos que se
comparan. La hipótesis alternativa es que las proporciones para los dos productos
son diferentes. El método McNemar se utiliza típicamente para determinar si hay
diferencias en las distribuciones de puntajes JAR entre dos productos cuando las
calificaciones en la escala JAR se han combinado en dos categorías de una de las
siguientes maneras:
• "Demasiado poco" y "Demasiado" clasificaciones combinadas para crear las
categorías "Exacto" y "No es exacto"
• "Demasiado poco" y "Exacto" clasificaciones combinadas para crear las categorías
"Demasiado poco o exacto" y "demasiado"
• "Exacto" y "Demasiado" clasificaciones combinadas para crear las categorías "muy
poco" y "Exacto o demasiado" .La prueba de McNemar se puede utilizar como una
prueba de seguimiento después de un resultado estadísticamente significativo del
método de Cochran Mantel Haenszel (CMH) o el método de Stuart-Maxwell para
determinar cómo las distribuciones de las puntuaciones JAR difieren entre dos
productos.
Requisitos para el análisis
Para utilizar el método McNemar, ambos productos deben haber sido evaluados por
los mismos evaluadores. Los datos deben ser ordenados primero en una tabla que
enumera el número de evaluadores que dieron la misma clasificación en la escala
JAR al Producto A y Producto B y al número de evaluadores que dieron
calificaciones diferentes al Producto A y al Producto B como se muestra a
continuación. El ejemplo siguiente muestra la disposición de datos cuando los
valores de escala se han combinado para crear las dos categorías "Exacto" y "No
es exacto".
Clasificación del Producto B
Clasificación del Producto “Exacto” “No es Exacto”
A
“Exacto” n11 n12
“No es Exacto” n21 n22

Donde:
n11= número de asesores que dieron la calificación “Exacto” a ambos productos
n12= número de asesores que dieron la calificación “Exacto” para el producto A y la
calificación “No exacto ” para el producto B
n21= número de asesores que dieron la calificación “Exacto” para el producto B y la
calificación “No exacto ” para el producto A.
n22= número de asesores que dieron la calificación “No Exacto” a ambos productos.

Detalles del Análisis


Para determinar si el número de respuestas en las dos categorías difiere
significativamente entre los dos productos, primero calcule el estadístico de prueba
de McNemar:
Luego, compare X2 a una tabla de la distribución chi-cuadrada con 1 gl en el nivel
de significancia deseado.
Nota: Cuando n12 y/o n21 son pequeños(digamos, n12 + n21< 10 ),entonces la
estadística de prueba de McNemar X2 no está bien aproximada por la distribución
de chi-cuadrado. Se recomienda una prueba exacta de dos colas basada en la
distribución binomial acumulativa (ver código SAS a continuación).
Los siguientes estados de programa pueden utilizarse en el programa de software
SAS para realizar el método McNemar:
La opción "acepto" proporciona la prueba de McNemar. La palabra clave "mcnem"
en la instrucción "exacta" proporciona la prueba exacta basada en la distribución
binomial acumulativa.
Dado que el método McNemar es un caso especial del método CMH, la prueba
McNemar también se puede hacer con el programa de software JMP solicitando un
análisis de tabla de contingencia dentro de la plataforma "FitYBy X". Las variables
que representan los productos y los atributos JAR deben definirse Como variables
nominales u ordinales para que el análisis produzca la prueba correcta. En la
ventana de resultados, consulte los resultados de la prueba CMH [7].
El método McNemar también se puede realizar con el programa de software SPSS
eligiendo cualquiera de las siguientes dos rutas de menú:
• Analizar estadísticas descriptivas // tablas de referencias cruzadas o haga clic en
el botón "Estadísticas" y elija "McNemar" o
• Analizar / Pruebas no paramétricas / 2 muestras relacionadas / Seleccione el
cuadro denominado "de McNemar"
Ejemplo de datos de estudio de caso
En el ejemplo siguiente, la prueba de McNemar se utiliza como una prueba de
seguimiento al método Stuart-Maxwell para el atributo "JAR Cantidad de Sabor
"para determinar si hay una diferencia entre los Productos 170 y 896 en la
distribución de las calificaciones JAR cuando las calificaciones se combinan en las
dos categorías" Exacto " y " No es exacto ". Consulte la sección de este documento
que describe El método Stuart-Maxwell para detalles sobre el método Stuart-
Maxwell. Atributo = JAR Cantidad de Sabor
Clasificación del Producto 896
Clasificación del Producto “Exacto” “No es Exacto”
170
“Exacto” 60 3
“No es Exacto” 24 15

La estadística de prueba 14.81 es mayor que el valor presentado de 10.83 de la


distribución de chi-cuadrado con 1 gl en el nivel de significancia de 0.001.
Conclusión del análisis
Hay una diferencia estadísticamente significativa entre el Producto 170 y el Producto
896 en la proporción de evaluadores que clasificaron los productos "Exacto " para
la Cantidad de Sabor.
Beneficios del Análisis
El método de McNemar permite al investigador determinar si hay una diferencia
significativa en las distribuciones de puntaje JAR entre dos productos cuando los
valores de la escala JAR se han combinado en dos categorías y cada evaluador ha
evaluado ambos productos. El método McNemar proporciona más precisión que el
método del CHi-cuadrado para probar situaciones en las que los mismos
evaluadores evalúan todos los productos. El cálculo de la estadística de prueba de
McNemar se hace fácilmente sin una computadora.
Advertencias
Una desventaja del método McNemar es que el análisis acomoda sólo dos
categorías de escala por producto. Al igual que con el método CMH, este método
también requiere ciertos supuestos de homogeneidad para ser válido.

Recomendaciones
Se recomienda utilizar el método McNemar cuando se comparan dos productos, la
escala JAR se ha colapsado en dos categorías y cada evaluador ha evaluado una
muestra de ambos productos. Si cada producto es evaluado por un grupo diferente
de evaluadores, entonces este método no es apropiado y se debe usar un método
de chi-cuadrado o una técnica más general como una regresión ordinal.
Método Chi-cuadrado
El método del chi-cuadrado es apropiado cuando cada evaluador evalúa solamente
un producto y el investigador desea comparar la distribución de los resultados de
JAR a través de dos o más productos.
Objetivos del Análisis
El método del chi-cuadrado puede utilizarse para probar la hipótesis nula de que no
hay diferencias en las distribuciones de las puntuaciones JAR entre los productos.
La hipótesis alternativa es que al menos un producto es diferente de los demás en
esta escala JAR. Por ejemplo, un producto puede tener una proporción más alta de
resultados en la categoría "Exacto correcto" que otro producto.
Requisitos para el análisis
Este método de análisis requiere que las calificaciones de los evaluadores sean
independientes. Esto generalmente implica que un grupo diferente de evaluadores
evalúa cada producto. Tenga en cuenta que puede ser posible estructurar las
pruebas para que las calificaciones de los evaluadores de los productos múltiples
se comporten como si fueran independientes (por ejemplo, separando las
evaluaciones de los productos por un periodo de tiempo suficientemente largo para
que los evaluadores no recuerden sus evaluaciones previas) .

Para utilizar el método del chi-cuadrado no es necesario disponer de las respuestas


individuales de los evaluadores. Sólo es necesario conocer el número total de
respuestas en cada categoría de la escala JAR para cada producto, como se
muestra a continuación.

Categoria de la escala JAR


“Demasiado “Exacto” “Demasiado” Filas
poco” totales
“Demasiado poco” n11 n12 n13 n1
“Exacto” n21 n22 n23 n2
“Demasiado” n31 n32 n33 n3
Columnas totales n.1 n.2 n.3 n..

Donde:
n11= número de asesores que dieron la calificación "muy poco" para un producto A
n1.= número de evaluadores que calificaron el Producto A
n.1= suma del número de calificaciones de "muy poco" para todos los productos
n..=suma del número de clasificaciones en todas las categorías JAR para todos los
productos

Detalles del Análisis


La mayoría de los programas informáticos estadísticos tienen la capacidad de
realizar la prueba de ji cuadrado. Si el software adecuado no está disponible, los
cálculos necesarios para realizar
La prueba del chi- cuadrado se puede hacer fácilmente a mano como sigue
1. Calcule el número esperado de respuestas en cada categoría de escala
JAR para cada producto:

eij = número esperado de respuestas en la categoría j para el i-ésimo producto


2. Calcule el estadístico de prueba usando el número observado de respuestas
y el número esperado en cada categoría de escala JAR para cada producto
como se muestra a continuación. La suma se toma sobre todos los productos
y todas las categorías de la escala:

3. Compara X2 con el valor crítico de una tabla de la distribución de


chi-quadrado al nivel de significancia deseado con grados de libertad igual
a (número de productos-1) x (número de categorías de escala-1) (para chi-
cuadrado, véase Apéndice B de la Ref. [8])
Datos del ejemplo del caso de estudio
Atributo = JAR Cantidad Sabor
Número de respuestas en cada categoría
(Valores esperados entre paréntesis)
Producto Demasiado Exacto Demasiado Totales
poco
170 16 63 23 102
(25) (25) (13)
896 5 84 13 102
(25) (64) (13)
914 54 45 3 102
(25) (64) (13)
Totales 75 192 39 306

A continuación, compare la estadística de prueba con el valor crítico de una


tabla de la distribución de chi cuadrado al nivel de significación deseado con
grados de libertad igual a (Nº de productos-1) x (nº de categorías de la escala
JAR utilizadas en el análisis-1).
La estadística de prueba 80.17 anterior es mayor que el valor presentado de
18.47 de la distribución de chi cuadrado con (tres productos-1) x (tres
categorías de escala-1) = 4 grados de libertad en el nivel de significancia de
0.001 (para el chi -cuadrado Cuadro, véase el Apéndice B de la Ref. [8].

Dado que esta prueba indica que hay una diferencia estadísticamente
significativa en las distribuciones de los puntajes JAR entre los tres
productos, el investigador puede querer hacer una prueba de seguimiento
para determinar si hay una diferencia significativa en las distribuciones de los
puntajes JAR entre los productos 170 y 896. El primer paso es crear una
subtabla para los productos 170 y 896. Luego calcular el número esperado
de respuestas para cada producto en cada categoría de escala JAR.
Número de respuestas en cada categoría
(Valores esperados entre paréntesis)
Producto Demasiado Exacto Demasiado Totales
poco
170 16 63 23 102
(10.5) (73.5) (18)
896 5 84 13 102
(10.5) (73.5) (18)
Totales 21 147 36 204

La estadística de prueba 11.54 es mayor que el valor presentado de 10.60


de la distribución de chi cuadrado con 2 gl (2 productos-1) x (3 categorías de
escala-1) al nivel de significancia de 0.005.

Por último, supongamos que el investigador quiere determinar si la


proporción de respuestas en la categoría "Exacto " es la misma para los
productos 170 y 896. Primero, cree una subtabla para los productos 170 y
896 con respuestas para "Demasiado" y "Demasiado poco" combinadas
(véase más adelante). A continuación, calcule el número esperado de
respuestas para cada producto en cada categoría.

Número de respuestas en cada categoría


(Valores esperados entre paréntesis)

Producto Exacto No es exacto Totales


170 63 39 102
(73.5) (28.5)
896 84 18 102
(73.5) (28.5)
Totales 147 57 204
El estadístico de prueba 10.74 es mayor que el valor presentado de 7.88 de
la distribución de chi-cuadrado con 1 gl (2 productos-1) x (2 categorías de
escala-1) al nivel de significancia de 0,005.

Conclusiones del análisis

Hay una diferencia estadísticamente significativa en las distribuciones de la


escala JAR para la Cantidad de Sabor entre los tres productos (p <0,001).

Sobre la base del primer análisis de seguimiento, las distribuciones de la


escala JAR para los productos 170 y 896 son significativamente diferentes (p
<0,005).
Sobre la base del segundo análisis de seguimiento en el que se combinaron
las categorías de escala JAR, existe una diferencia estadísticamente
significativa en la proporción de calificaciones "Exacto " entre los productos
170 y 896.

Beneficios del Análisis

El método del qui-cuadrado permite que el investigador determine si hay


diferencias significativas en las distribuciones de la cuenta de JAR entre
cualquier número de productos para cualquier número de categorías de la
escala de JAR en las situaciones donde las calificaciones de los evaluadores
de los productos son independientes. Cuando se encuentran diferencias
significativas en las distribuciones de la escala de JAR, los análisis de
seguimiento se pueden hacer usando el método del chi-cuadrado para
explorar esas diferencias más lejos. El método del chi-cuadrado está
disponible en la mayoría de los programas informáticos estadísticos, pero los
cálculos necesarios para llevar a cabo el método se pueden hacer fácilmente
sin el uso de una computadora si el software apropiado no está disponible.

Advertencias
Algunos investigadores usan el método del chi-cuadrado en lugar de los
métodos de CMH, Stuart-Maxwell o McNemar para probar las diferencias en
las distribuciones de puntaje JAR entre dos o más productos,
independientemente de si los evaluadores evalúan solo un producto o todos
los productos. Esto es generalmente inválido. La prueba del chi-cuadrado
requiere que las calificaciones de los evaluadores de los productos sean
independientes. En los estudios en los que el mismo evaluador evalúa más
de un producto, las respuestas de los evaluadores individuales sobre
productos múltiples suelen estar positivamente correlacionadas. Los
métodos CMH, Stuart-Maxwell y McNemar toman en cuenta esta correlación,
pero el método chi-cuadrado no. Por esta razón, los métodos de CMH, Stuart-
Maxwell o McNemar son más sensibles que el método del chi-cuadrado
cuando las respuestas para cada evaluador están positivamente
correlacionadas. Si las calificaciones de los evaluadores de los productos
están correlacionadas positivamente, entonces los valores de p del método
del chi-cuadrado son más altos que los valores de p de las pruebas de CMH,
de Stuart-Maxwell, o de McNemar. Por lo tanto, cuando se utiliza la prueba
del chi-cuadrado en una situación donde cada evaluador evalúa dos o más
de los productos en el estudio, existe la posibilidad de que las diferencias en
las distribuciones de las calificaciones JAR entre los productos se declararán
como no significativas cuando estadísticamente Realmente existen
diferencias significativas.

Recomendaciones
Se recomienda el método del chi-cuadrado para comparar las distribuciones
de puntaje JAR entre dos o más productos en situaciones en las que
diferentes grupos de evaluadores evalúan cada producto. En situaciones en
que los productos son evaluados por el mismo grupo de evaluadores, se
recomiendan los métodos CMH, Stuart-Maxwell o McNemar.

Referencias

1. Mantel, N. y Haenszel, W. J., "Aspectos estadísticos del Análisis de


datos de estudios retrospectivos de la enfermedad ", Nat.Cancer Inst.,
Vol. 22, 1959, páginas 719 - 748.

2. Kuritz, S.J., Landis, J.R., y Koch, G.G., "Una visión general de


métodos de Mantel-Haenszel: aplicaciones y desarrollos recientes",
Annu. Rev. Public Health, vol. 9, 1988, pp.123-160.

3. Stuart, A. "Una prueba para la homogeneidad de las distribuciones


marginales en una clasificación de dos vías", Biometrika, vol. 42, 1955,
páginas 412 - 416.
4. McNemar, Q., "Nota sobre el error de muestreo de la diferencia entre
proporciones o porcentajes correlacionados", Psychometrika, vol. 12,
1947, págs. 153-157.

5. SAS Institute Inc., Guía del usuario de SAS / STAT, Versión 6, 4ª


edición, Vol. 1, SAS Institute, Inc., Cary, NC, 1989, 943 págs.

6. Stone, H. y Sidel, J. L., Prácticas de Evaluación Sensorial, 2da


Edición, Academic Press, Nueva York, 1993, págs. 88-91.

7. Fleiss, J. L., Statistical Methods for Rates and Proportions, 2nd


edition,Wiley,NewYork, 1981.

8. Agresti, A., Análisis de Datos Categóricos, 2ª edición, Wiley, New


York, 2002.

Apéndice H: Un enfoque proporcional de probabilidades/riesgos de los datos


JAR
Introducción y Antecedentes
Las prueba t, ANOVA, y regresión lineal suponen que la respuesta se mide en una
escala de intervalo, de modo que las diferencias entre valores adyacentes tengan
el mismo significado a través de la escala. Esta suposición es a menudo infringida
en la práctica, lo que puede conducir a conclusiones inexactas. Los modelos
proporcionales de probabilidades y riesgos son modelos de regresión ordinal que
son solo sensibles al orden de las observaciones, no los valores específicos
asignados a las categorías. Éstos se utilizan para comparar las distribuciones de las
puntuaciones JAR entre los productos y se realizan simultáneamente. El modelo
proporcional de probabilidades (POM) es antisimétrico, de manera que invertir el
orden de la escala simplemente cambia el signo de la media, mientras que el modelo
proporcional de los riesgos (PHM) es asimétrico, de modo que invertir el orden de
la escala cambia tanto el orden y el signo del estimado.
Requerimientos
Para el análisis se requiere de los datos brutos de las combinaciones de
respuesta/producto/atributo. Estas técnicas son de computación intensiva y
requieren programas especializados, como SAS/STAT, SPSS o R. Adicionalmente,
las clasificaciones JAR se supone que son independientes; sin embargo, esta
práctica es infringida a menudo.
“Cómo”
Los modelos proporcionales de probabilidades y riesgos son ampliamente usados
en estudios de medicina y ciencias de la vida. Recientemente, ambos modelos se
han aplicado al campo sensorial para el mapa de preferencia [1] y los estudios de
vida útil [2], respectivamente. Estos artículos o el libro de Agresti [3] deberían ser
consultados para detalles técnicos. Los modelos proporcionales de probabilidades
y riesgos tienen la misma suposición subyacente, pero usan diferentes funciones de
enlace para modelar los datos de respuestas ordinales. La comparación de POM y
PHM se evalúa en la Tabla 1. La bondad de ajuste tanto para POM y PHM son
evaluados por la relación de verosimilitud o desviación G.
Modelo Proporcional de Probabilidades (POM)
El modelo proporcional de probabilidades [3] modela las probabilidades de estar en
o por debajo de cada punto de escala a través de los productos (las probabilidades
acumuladas) y determina una relación promedio de esas probabilidades
acumuladas entre los productos. Dado que el modelo funciona con probabilidades
y relación de probabilidades, es tradicional expresar el modelo en términos de logits
(log-odds). El modelo se ajusta utilizando máxima verosimilitud y produce estimados
de la probabilidad logarítmica (log-odds) promedio para cada punto de escala, así
como para cada producto incluido en el análisis. De forma predeterminada, un
producto, el control, siempre se establece en cero.
La implementación de SAS de este modelo incluye una prueba para determinar si
la misma escala de calificación se utilizó en todos los productos y si incluye, los
panelistas en el estudio. Se denomina prueba de pendientes iguales o paralelismo.
Esto es una generalización de una prueba para la homogeneidad de variancias en
una prueba t. Cuando este es significativo, los datos no cumplen con los supuestos
para este análisis.
Modelo Proporcional de Riesgos (PHM)
El modelo proporcional de riesgos, también conocido como modelo de regresión
Cox, también considera las probabilidades, pero mira las probabilidades de estar en
cada categoría, dado que la observación no está en las categorías por debajo de
ella, y de nuevo estima la relación promedio de esas probabilidades a través de los
productos. Al igual que con el POM, es tradicional utilizar logaritmos y expresar los
resultados esa escala. El análisis no trata los datos simétricamente; los resultados
dependen del orden en el cual los puntos de escala sean codificados. Este análisis
es más apropiado cuando la calificación puede ser vista como el resultado de una
progresión, como en los datos de vida donde se originó el modelo.
La implementación SAS de éste utiliza el mismo procedimiento como lo hace el
POM y de manera similar incluye una prueba de paralelismo.
TABLA 1 – Comparación de los modelos proporcionales de posibilidades y
riesgos
Modelo Proporcional de Modelo Proporcional
Posibilidades de Riesgos
Pendientes iguales entre Pendientes iguales entre
Suposición los niveles de una los niveles de una
variable respuesta variable respuesta
1 −𝛼𝑘 +𝛽′ 𝑥
Modelo 𝑃[𝑌 ≤ 𝑘] = +𝛽 ′ 𝑥) 𝑃[𝑌 ≤ 𝑘] = 1 − 𝑒 −𝑒
1 + 𝑒 −(𝛼𝑘

Función de enlace Logit Complemento log-log

Ejemplo de los datos de un estudio de caso


Los datos de estudio de caso se analizaron utilizando PROC Logistic en SAS/STAT.
El siguiente código se utilizó para ajustar un POM al atributo de sabor:

TABLA 2 – Parámetros estimados del modelo proporcional de


probabilidades para el tamaño
Error
Parámetro Estimado Chi-cuadrado Valor p
estándar
Intercepto1 -3.048 0.2597 137.769 <0.0001
Intercepto2 -1.181 0.1916 37.990 <0.0001
Intercepto3 0.359 0.1843 3.799 0.0513
Intercepto4 2.564 0.2397 114.426 <0.0001
Muestra 458 0.382 0.2544 2.255 0.1332
Muestra 523 0.081 0.2543 0.102 0.7495
Muestra 896 -0.026 0.2544 0.010 0.9197
Muestra 914 0.138 0.2542 0.296 0.5866

Datos Proc logistic=EstudioDeCaso


Muestra Clase (ref= “170”)/param=ref;
Modelo Sabor = Muestra/enlace =escala logit = ninguno agregado;
Título “Modelo proporcional de probabilidades para el sabor”,
Contraste “Muestra 458” vs “170” Muestra 1 0 0 0/estimado=ambos;
Contraste “Muestra 523” vs “170” Muestra 0 1 0 0/estimado=ambos;
Contraste “Muestra 896” vs “170” Muestra 0 0 1 0/estimado=ambos;
Contraste “Muestra 914” vs “170” Muestra 0 0 0 1/estimado=ambos;
Contraste “Muestra 523” vs “458” Muestra -1 1 0 0/estimado=ambos;
Contraste “Muestra 896” vs “458” Muestra -1 0 1 0/estimado=ambos;
Contraste “Muestra 914” vs “458” Muestra -1 0 0 1/estimado=ambos;
Contraste “Muestra 896” vs “523” Muestra 0 -1 1 0/estimado=ambos;
Contraste “Muestra 914” vs “523” Muestra 0 -1 0 1/estimado=ambos;
Contraste “Muestra 914” vs “896” Muestra 0 0 -1 1/estimado=ambos;
Correr;salir;
Este código se ajusta al modelo (la declaración del "modelo") y realiza
comparaciones por pares de los productos (las declaraciones "Contraste"). Se utilizó
un programa similar para los otros atributos comparados en las secciones de
resultados.
El código para el PHM es bastante similar al código dado anteriormente, con la única
diferencia es la especificación "link =" en la declaración del modelo. Tenga en cuenta
que la especificación del enlace se convierte en "enlace = cloglog", resaltado a
continuación:
Datos Proc logistic = EstudioDeCaso;
Muestra Clase (ref= “170”)/param=ref;
Modelo Sabor = Muestra/enlace =escala cloglog = ninguno agregado;
Título “Modelo proporcional de riesgos para el sabor”,
Contraste “Muestra 458” vs “170” Muestra 1 0 0 0/estimado=ambos;
Contraste “Muestra 523” vs “170” Muestra 0 1 0 0/estimado=ambos;
Contraste “Muestra 896” vs “170” Muestra 0 0 1 0/estimado=ambos;
Contraste “Muestra 914” vs “170” Muestra 0 0 0 1/estimado=ambos;
Contraste “Muestra 523” vs “458” Muestra -1 1 0 0/estimado=ambos;
Contraste “Muestra 896” vs “458” Muestra -1 0 1 0/estimado=ambos;
Contraste “Muestra 914” vs “458” Muestra -1 0 0 1/estimado=ambos;
Contraste “Muestra 896” vs “523” Muestra 0 -1 1 0/estimado=ambos;
Contraste “Muestra 914” vs “523” Muestra 0 -1 0 1/estimado=ambos;
Contraste “Muestra 914” vs “896” Muestra 0 0 -1 1/estimado=ambos;

Correr;salir;

Resultados y Conclusiones

Para el atributo JAR tamaño, el ji-cuadrado (χ2) para probar la suposición de


pendientes iguales fue 7.6 con p-valor de 0.814, el cual que no era significativo con
respecto a una distribución de ji-cuadrado con 12 grados de libertad (GL) a un nivel
de significancia (α) de 0.05. Esto sugiere que el supuesto de paralelismo estaba
satisfecho. La relación de verosimilitud (desviación) G2 fue 7.132 (GL = 12) con p =
0.849, lo que indica que el modelo proporcional de probabilidades ajustó
adecuadamente los datos. La parametrización utilizada en el sistema SAS es
aquella que deja fuera el parámetro para la muestra referencia (Muestra 170 en este
caso) con el cual cada muestra es comparada. Por lo tanto, un parámetro positivo
estimado (β) en la Tabla 2 significa que la Muestra 170 fue "más largo" en tamaño
que la muestra comparada, mientras que una estimación negativa significa que la
Muestra 170 fue “más pequeña” en tamaño.
El valor p para la estadística de ji-cuadrado se utiliza para probar si la diferencia
entre la muestra comparada y la muestra de referencia es significativa. Debido a
que todos los valores p fueron mucho mayores que α = 0.05 (Tabla 2), todas las
muestras no eran significativamente diferentes en tamaño de la Muestra 170. En
general, el efecto de los productos no era significativo (χ2 = 3.273, GL = 4, valor p =
0.513) a un α = 0.05. Esto sugirió que todos los productos tenían una distribución
similar de las puntuaciones de tamaño.

TABLA 3 – Estimación de parámetros y relación de probabilidades del modelo


proporcional de probabilidades para Color

Error Relación de Wald Ji-


Efecto Estimado Valor p
Estándar probabilidades Cuadrado

Intercepto1 -6.629 1.0450 40.246 <0.0001


Intercepto2 -2.431 0.3266 55.393 <0.0001
Intercepto3 3.458 0.3926 77.568 <0.0001
Muestra 458 vs
0.575 0.4208 1.777 1.867 0.1718
170
Muestra 523 vs
0.091 0.4408 1.095 0.043 0.8363
170
Muestra 896 vs
-0.713 0.4653 0.490 2.347 0.1255
170
Muestra 914 vs
1.124 0.4008 3.078 7.869 0.0050
170
Muestra 523 vs
-0.484 0.4156 0.6164 1.355 0.2444
458
Muestra 896 vs
-1.288 0.4547 0.276 8.020 0.0046
458
Muestra 914 vs
0.549 0.3639 1.732 2.279 0.1311
458
Muestra 896 vs
-0.804 0.4642 0.448 2.999 0.0833
523
Muestra 914 vs
1.033 0.3947 2.810 6.850 0.0089
523
Muestra 914 vs
1.837 0.4415 6.278 17.311 <0.0001
896

Para el atributo JAR color, la suposición de paralelismo (pendientes iguales) no se


cumplió para POM (χ2 = 15.900, GL = 8, valor p = 0.044) con un α = 0.05, pero sí se
cumplió para un α = 0.01. Esto típicamente puede ocurrir cuando uno o más de los
productos son más variables que los productos restantes. El efecto global de los
productos era entonces significativo (χ2 = 19.944, GL = 4, valor p = 0.0005), lo que
implica que algunos de los productos tienen diferentes promedios de log-odds. Los
productos cuales eran significativamente diferentes en color se puede identificar
usando los contrastes incluidos. Utilizamos una corrección de Bonferroni para
explicar las 10 pruebas múltiples, probando cada comparación por pares a un α =
0.05/10 = 0.005.
Las estimaciones de los parámetros y proporción de probabilidades entre todos los
pares de las muestras fueron obtenidas a partir de contrastes y son presentados en
la Tabla 3. Los valores p en la Tabla 3 se usaron para probar si un par de muestras
fue significativamente diferente a un α = 0.005. Por ejemplo, el valor p para el par
de muestras 458 y 170 fue 0.1718 > α = 0.005, lo que indica que las dos muestras
no fueron significativamente diferentes en color (Es decir, las distribuciones de
puntajes JAR fueron similares no que los productos fueran idénticos en color). Los
valores p para los pares de Muestras 896 frente a 458 y 914 frente a 896 fueron
0.0046 y <0.0001, respectivamente, lo cual indicó que la muestra 896 fue
significativamente diferente en color de las muestras 458 y 914. Como se mencionó
arriba, los signos de las estimaciones de los parámetros pueden usarse para
determinar la diferencia direccional entre dos productos. La muestra 896 era
globalmente de color más oscuro que la muestra 458 debido a la estimación del
parámetro negativo de -1.288, mientras que la muestra 914 era significativamente
más clara en color que la muestra 896 debido a la estimación positiva de 1.837.
Como resultado, la muestra 896 era significativamente más oscura que las muestras
458 y 914, y otros pares de muestras no fueron significativamente diferentes en
color. El método contrastante proporcionado por el POM en el procedimiento SAS
LOGISTIC es otra ventaja sobre el procedimiento de prueba en dos etapas, como
las pruebas Ji-cuadrado/McNemar. La interpretación de los parámetros se hace
generalmente usando la relación de probabilidades. Por ejemplo, la relación de
probabilidades de 6.278 (= e1.837, 1.873 fue el parámetro estimado) para las
muestras 914 frente a 896 (Tabla 3) significa que las probabilidades que el
consumidor califique a la muestra 914 como "Muy claro" en color era 6.278 veces
las probabilidades para la muestra 896, por lo que los consumidores clasificaron la
muestra 914 de color más claro que la muestra 896.
Cuando la prueba de paralelismo es significativa, esto significa que hay diferencias
entre los códigos más allá de un simple cambio medio. Esto sugiere que el analista
considere modelos alternativos para determinar si las mismas conclusiones se
mantienen. En este caso la suposición de paralelismo no fue significativa para PHM
(χ2 = 14.014, GL = 8, valor p = 0.081) con un α = 0.05. El efecto general de los
productos fue significativo (χ2= 16.875, GL = 4, valor p = 0.002) al nivel de
significancia de 0.05, lo que sugiere que algunos productos tienen distribuciones
diferentes para las puntuaciones de Color JAR. Las estimaciones de parámetros
para PHM se proporcionan en la Tabla 4. Al igual que POM, una estimación de
parámetros positivos para PHM (Tabla 4) significa que la muestra 170 era "más
oscura" en color que la muestra comparada, mientras que una estimación negativa
significa que la muestra 170 era "más claro" en color. Los valores p muestran que
las muestras 914 frente a 170, 914 frente a 523 y 914 frente a 896 fueron
significativamente diferentes entre sí (α’ = 0.005), respectivamente. La muestra 914
tenía valores JAR de "color más claro" que las muestras 170, 523 y 896.
Comparando las Tablas 3 y 4, los resultados de ambos POM y PHM fueron
diferentes. En este caso, nosotros confiamos en los resultados de PHM porque el
supuesto de paralelismo se cumplió a un α = 0.05 para PHM, pero no para POM.
Una desventaja de PHM es que no proporciona relación de probabilidades para la
interpretación de los parámetros.

TABLA 4 – Estimación de parámetros del modelo proporcional de riesgos


para Color
Error Wald Ji-
Efecto Estimado Valor p
Estándar Cuadrado
Intercepto1 -6.654 1.0138 43.078 <0.0001
Intercepto2 -2.539 0.2106 145.381 <0.0001
Intercepto3 1.099 0.1384 62.957 <0.0001
Muestra 458 vs
0.477 0.2323 4.213 0.0401
170
Muestra 523 vs
0.059 0.1960 0.092 0.7618
170
Muestra 896 vs
0.011 0.1937 0.003 0.9569
170
Muestra 914 vs
1.076 0.2943 13.377 0.0003
170
Muestra 523 vs
-0.417 0.2339 3.185 0.0743
458
Muestra 896 vs
-0.466 0.2326 4.021 0.0449
458
Muestra 914 vs
0.599 0.2979 4.050 0.0442
458
Muestra 896 vs
-0.049 0.1964 0.062 0.8032
523
Muestra 914 vs
1.017 0.2944 11.928 0.0006
523
Muestra 914 vs
1.066 0.294 13.115 0.0003
896

Para el atributo JAR sabor, el supuesto de paralelismo se cumplió para POM (χ 2 =


20.425, DF = 12, p-valor = 0.06) con un α = 0.05. El efecto global de los productos
fue significativo (χ2 = 105.198, GL = 4, valor p = 0.0001), lo que indica que los
productos no eran de la misma población para el sabor. Los valores p muestran que
la muestra 914 tenía puntuaciones de sabor JAR significativamente más bajas que
todas las demás muestras debido a las estimaciones positivas, mientras que la
muestra 458 tenía un sabor JAR significativamente mayor que las muestras 170,
896 y 914.
Para el atributo JAR delgado/grueso, se cumplió la hipótesis de las pendientes
iguales para POM (χ2 = 13.171, GL = 8, valor p = 0.106) con un α = 0.05. El efecto
global de los productos fue significativo (χ2 = 27.096, GL = 4, valor p<0.0001) al nivel
de significancia de 0.05, lo que sugiere que no todos los productos tenían
distribuciones similares de sus respectivas puntuaciones delgadas / gruesas. Los
valores p junto con los signos de las estimaciones de parámetros muestran que sólo
la muestra 914 tenía puntuaciones de espesor JAR significativamente mayores que
todas las otras muestras y que esas otras muestras no eran significativamente
diferentes entre sí.
Para el atributo pegajosidad JAR, el supuesto de paralelismo se cumplió para POM
(χ2 = 10.129, GL = 12, p-valor = 0.605) con un α = 0.05, pero el efecto global de los
productos no fue significativo (χ2 = 8.511, GL = 4, valor p = 0.075) a un nivel de
significancia de 0.05. No había pruebas suficientes para concluir que todos los
productos no provenían de la misma distribución de las puntuaciones de
pegajosidad.
Conclusiones del Análisis
Tanto para el tamaño como para la pegajosidad, no hubo evidencia que las
distribuciones de las puntuaciones JAR para los varios productos fueran diferentes.
Para los atributos Color, Sabor y Delgado/Grueso, hubo diferencias significativas
entre las muestras. La muestra 914 tenía puntaciones de Color JAR
significativamente inferiores a las muestras 170, 523 y 896. La muestra 914
presentó puntuaciones de Sabor JAR significativamente más bajas que otras
muestras, mientras la muestra 458 tenía puntuaciones de sabor significativamente
más altas que las muestras 170 y 914. Para el atributo Delgado/Grueso JAR, solo
la muestra 914 tuvo calificaciones JAR significativamente más altas que todas las
otras muestras.
Pros y Contras
El principal beneficio de estos modelos es que no se requieren distribuciones
normales de datos. Un beneficio secundario en la implementación de SAS es la
prueba incorporada de los supuestos de pendientes iguales (paralelismo). Si se
cumple el supuesto de paralelismo, se puede evaluar el efecto general del producto;
si esto es significativo, se pueden evaluar las diferencias entre pares de productos.
Cuando los supuestos de paralelismo no se cumplen, el análisis puede verse
comprometido. Esto es en el nivel de fallar la prueba de homogeneidad en un
ANOVA. Cuando esto ocurre, el analista debería probar un modelo alternativo o
identificar y corregir los códigos ofensivos. Cuando el supuesto de paralelismo para
POM falla, se recomienda utilizar el modelo proporcional de riesgos. Cuando
ninguno de los dos modelos es apropiado, debe considerarse el modelo logístico
multinominal general.
Recomendaciones
Estos análisis se recomiendan como un medio para determinar si existen
distribuciones JAR similares entre los productos cuando los datos no se distribuyen
normalmente.
Referencias
[1] Meullenet, J.-F., Xiong, R., Hankins, J. A. R., Dias, P., Zivanovic, P., Monsoor,
M. A., Bellman-Homer, T., Liu, Z., and Fromm, H., “Preference Modeling of
Commercial Toasted White Corn Tortilla Chips Using Proportional Odds Model”.
Food Quality Preference. Vol. 14, No. 7, 2003, pp. 603–614.
[2] Gimenez, A. M., Gambaro, A., Varela, P., Garitta, L., and Hough, G., “Use of
Survival Analysis Methodology to Estimate Shelf-life of “alfajor””. Proceeding of 2003
Pangborn Sensory Evaluation Meeting. Boston, MA.
[3] Agresti, A., Categorical Data Analysis. Wiley,NewYork, 1990.

Potrebbero piacerti anche