Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Q-Q Plot
El gráfico cuantil-cuantil o Q-Q plot es un método que muestra a un cuantil contra otro. Un
cuantil es una fracción en la que los valores que se tienen caerán por debajo o por encima
de dicho cuantil. Por ejemplo, la mediana es un cuantil donde 50% de los datos caen por
debajo de ese punto y 50% se encuentran por encima de él.
• primer cuartil = cuantil 0.25
• segundo cuartil = mediana = cuantil 0.5
• tercer cuartil = cuantil 0.75
Q-Q Plot
El gráfico cuantil-cuantil (Q-Q plot) nos permite observar si dos conjuntos de datos
provienen de la misma distribución. La idea es que, si los dos conjuntos de datos
coinciden, se vea un comportamiento muy parecido a una recta con ángulo de 45°.
Nota:
• Si todos los puntos caen en una línea de 45o, las dos distribuciones son
exactamente iguales
• Si la línea esta desplazada de los 45o, las dos distribuciones tienen la misma
forma pero diferentes medias
• Si la inclinación de la línea no es 45o, las dos distribuciones tienen diferentes
varianzas
• Si hay un carácter no lineal en el grafico Q-Q, las distribuciones tienen diferentes
formas en el histograma
Q-Q Plot
Ejemplo: cuando cuantiles de una distribución normal teórica (eje x) son
comparados con un conjunto de datos (eje y). A esta representación se le
llama gráfico cuantil-cuantil normal o Q-Q plot normal.
Nota: La distribución normal se trata de una variable aleatoria continua (la variable puede tomar cualquier
valor real).
¿Cómo hacer un Q-Q Plot?
Paso 3: Encuentra el valor z (punto límite) para cada segmento
En ejemplo, los valores z serán los siguientes:
10% = -1.28
20% = -0.84
30% = -0.52
40% = -0.25
50% = 0
60% = 0.25
70% = 0.52
80% = 0.84
90% = 1.28
100% = 3.0
¿Cómo hacer un Q-Q Plot?
Paso 4: Coloca tu conjunto de datos (aquellos del Paso 1) contra los puntos límites de la distribución
normal (aquellos del Paso 3) en forma de gráfica
Es aquí donde se compara los “cuantiles teóricos” (eje x) con los cuantiles de la muestra (eje y).
En este ejemplo podemos observar que casi se forma una línea recta, esto quiere decir que el conjunto
de datos es aproximadamente normal.
Nota: El ejemplo usó la distribución normal estándar, pero si sus datos provienen de una distribución
normal diferente (es decir, uno con una media y una desviación estándar distinta), entonces ésta puede
ser utilizada.
Q-Q Plot y la asunción de la normalidad
La asunción de la normalidad es una suposición importante para muchas pruebas de
estadística; se debe asumir que se está tomando muestras de una población normalmente
distribuida. El Q-Q plot normal es una forma de evaluar la normalidad. Sin embargo, no se
tiene que utilizar la distribución normal como una comparación de los datos; se puede
utilizar cualquier distribución continua como una comparación (por ejemplo, una
distribución de Weibull o una distribución uniforme), siempre y cuando se calculen los
cuantiles. De hecho, un procedimiento típico es probar varias distribuciones distintas con el
Q-Q plot para ver cual se ajusta bien a los datos.
Sesgos y colas (skews and tails) en el Q-Q Plot
-Gráfica ‘a’: Los puntos caen aproximadamente sobre la recta. Hay una distribución normal (distribución gaussiana).
-Gráfica ‘b’: Esta gráfica muestra el comportamiento típico de una distribución con colas más pesadas que la normal. (heavy
tailed distributions: forma una letra ‘S’ invertida en la distribución normal)
-Gráfica ‘c’: Al contrario de la gráfica ‘b’, los puntos de las colas de la distribución son más ligeras que las que habría con una
distribución normal. (light tailed distributions: forma una letra ‘S’ en la distribución normal)
-Gráfica ‘d’: Esta gráfica exhibe patrones asociados con sesgo positivo (el sesgo es la propiedad de una muestra que hace que
algunos resultados no sean representativos de toda la población debido a diversos factores como la recolección, análisis, etc.).
Gráfica ‘e’: Esta gráfica exhibe patrones asociados con sesgo negativo.
¿Cómo hacer un Q-Q Plot?
Ejemplo 1: Simulando la distribución estándar normal con el tamaño de una muestra de 1000, nosotros
podemos comparar los “cuantiles teóricos” con los cuantiles de la muestra en un Q-Q plot para ver si
éstos coinciden.
En el histograma de esta muestra podemos ver que hay un comportamiento en “forma de campana”,
diciéndonos que la muestra probablemente proviene de una distribución estándar normal.
Al crear su Q-Q Plot se puede observar que los puntos concuerdan con la recta de 45°. En conclusión, la
muestra coincide con la distribución base.
¿Cómo hacer un Q-Q Plot?
Naturalmente, el conjunto de datos no siempre vendrá de la distribución estándar normal y, en estos casos, el Q-Q Plot tendrá otro
comportamiento.
Ejemplo 2: Simulando la distribución ji cuadrada (que es la distribución muestral de varianzas que se obtiene al calcular la varianza de
cada muestra de una población normal) con 2 grados de libertad y con el tamaño de una muestra de 1000, nosotros podemos
observar que la distribución se sesga hacia la derecha (comparándola con la distribución estándar normal).
En el histograma de esta muestra podemos ver que la distribución está sesgada hacia la derecha desde el momento en el que
aparecen muchos valores bajos (alrededor de cero), pero baja rápidamente a medida que aumenta la frecuencia de los valores de
“w”.
Al crear su Q-Q Plot se puede observar que la muestra tiene una alta frecuencia en valores entre cero y cinco, además de que sus
cuantiles aumentan lentamente en esta zona, comparándolos con los cuantiles de la distribución estándar normal. Sin embargo, en la
zona de los valores mayores de cinco, los cuantiles de la muestra aumentan rápidamente, comparándolos con los cuantiles de la
distribución estándar normal.
¿Cómo hacer un Q-Q Plot?
Ejemplo 3: Simulando la distribución ji cuadrada con 2 grados de libertad y con los valore multiplicados por -1 (con el fin de reflejar la
distribución alrededor del eje y), nosotros podemos observar que la distribución se sesga hacia la izquierda (comparándola con la
distribución estándar normal).
En el histograma de esta muestra podemos ver que la distribución está sesgada hacia la izquierda.
Al crear su Q-Q Plot se puede observar que la muestra tiene baja frecuencia en los valores entre -15 y 15, además de que sus
cuantiles aumentan rápidamente en esta zona. Sin embargo, en la zona de los valores arriba de -5, los cuantiles de la muestra
aumentan lentamente y disminuye hasta cero (el mayor valor de la muestra).
¿Cómo hacer un Q-Q Plot?
En el siguiente ejemplo, el conjunto de datos proviene de una distribución de colas ligeras (light tailed distributions) y no de una
distribución estándar normal.
Ejemplo 4: De una muestra tomada de una distribución uniforme (-3, 3) en comparación con la distribución normal estándar (aunque
la comparación de esta muestra con la distribución normal estándar no es verdaderamente justa, ya que la muestra está
estrictamente limitada entre (-3,3)), nosotros podemos observar que en el histograma de la muestra no tiene cola después de -3 o 3.
Al crear su Q-Q plot se puede observar que la distribución de colas ligeras (light tailed distributions) da una forma de letra S.
Entre los valores -3 y -1.5, la muestra crece más lento que la distribución normal estándar; por lo tanto, toma más tiempo para que
los cuantiles de la muestra aumenten (parte cóncava del gráfico). A partir de los valores -1.5 y 1.5, la muestra crece al mismo ritmo
que la distribución normal estándar; por lo tanto sus cuantiles coinciden en esta zona. Por último, entre los valores 1.5 y 3, la muestra
crece más rápido que la distribución normal estándar; por lo tanto la muestra alcanza su cuantil más alto antes que la distribución
normal estándar. Por eso, el cuantil de la muestra se ve plano en la parte superior; la muestra ha alcanzado su cuantil más alto, pero
la distribución normal estándar necesita aumentar un poco para alcanzarla.
¿Cómo hacer un Q-Q Plot?
En el siguiente ejemplo, el conjunto de datos proviene de una distribución de colas pesadas (heavy tailed distributions) y no de una
distribución estándar normal.
Ejemplo 5: Simulando la distribución de una muestra aleatoria con 5 grados de libertad, nosotros podemos observar la distribución
de colas pesadas (heavy tailed distributions) relativa a la distribución normal estándar. El histograma enseña que la muestra se
asemeja a la forma de una campana, pero en el Q-Q plot aparece con la forma de una letra S invertida en la recta de 45°.
Entre los valores -3 y -1.5, la muestra crece más rápido que la distribución normal estándar; por lo tanto, toma menos tiempo para
que los cuantiles de la muestra aumenten (parte cóncava del gráfico). A partir de los valores -1.5 y 1.5, la muestra crece al mismo
ritmo que la distribución normal estándar; por lo tanto sus cuantiles coinciden en esta zona. Por último, entre los valores 1.5 y 3, la
muestra crece más lento que la distribución normal estándar; por lo tanto la muestra alcanza su cuantil más alto antes que la
distribución normal estándar. Por eso, el cuantil de la muestra se ve vertical en la parte superior; la muestra ha alcanzado su cuantil
más alto, pero la distribución normal estándar necesita aumentar un poco para alcanzarla.
Más ejemplos:
La forma de letra “S” indica que estas
a) gráficas tienen colas ligeras, aunque la
distribución normal es la que domina.
b)
c)
Y más ejemplos:
c) La gráfica en forma de letra “S” indica dos
colas ligeras.
6. Examinar visualmente el gráfico para determinar la linealidad aproximada. Si el patrón del Q-Q
plot es lineal, o casi lineal, la distribución de los datos tiene una buena aproximación al modelo
normal. Una desviación significativa de la linealidad debería servir como señal de falla potencial de
la suposición de normalidad.