Sei sulla pagina 1di 22

Q-Q Plot

Q-Q Plot
El gráfico cuantil-cuantil o Q-Q plot es un método que muestra a un cuantil contra otro. Un
cuantil es una fracción en la que los valores que se tienen caerán por debajo o por encima
de dicho cuantil. Por ejemplo, la mediana es un cuantil donde 50% de los datos caen por
debajo de ese punto y 50% se encuentran por encima de él.
• primer cuartil = cuantil 0.25
• segundo cuartil = mediana = cuantil 0.5
• tercer cuartil = cuantil 0.75
Q-Q Plot
El gráfico cuantil-cuantil (Q-Q plot) nos permite observar si dos conjuntos de datos
provienen de la misma distribución. La idea es que, si los dos conjuntos de datos
coinciden, se vea un comportamiento muy parecido a una recta con ángulo de 45°.

Nota:
• Si todos los puntos caen en una línea de 45o, las dos distribuciones son
exactamente iguales
• Si la línea esta desplazada de los 45o, las dos distribuciones tienen la misma
forma pero diferentes medias
• Si la inclinación de la línea no es 45o, las dos distribuciones tienen diferentes
varianzas
• Si hay un carácter no lineal en el grafico Q-Q, las distribuciones tienen diferentes
formas en el histograma
Q-Q Plot
Ejemplo: cuando cuantiles de una distribución normal teórica (eje x) son
comparados con un conjunto de datos (eje y). A esta representación se le
llama gráfico cuantil-cuantil normal o Q-Q plot normal.

Se puede apreciar que los puntos no se agrupan en la línea de 45 grados,


más bien forma una curva, sugiriendo que los datos de la muestra no se
distribuyen normalmente.
¿Cómo hacer un Q-Q Plot?
Problema: ¿los siguientes valores provendrán de una distribución normal?
7.19, 6.31, 5.89, 4.5, 3.77, 4.25, 5.19, 5.79, 6.79

Paso 1: Ordenar de menor a mayor


3.77
4.25
4.50
5.19
5.89
5.79
6.31
6.79
7.19
¿Cómo hacer un Q-Q Plot?
Paso 2: Dibuja una curva de distribución normal (curva de distribución de Gauss o
gaussiana)
Divide la curva en cierto número de segmentos (n+1). Al tener nueve valores, la curva se
dividirá en 10 partes iguales (cada segmento es 10% del área)

Nota: La distribución normal se trata de una variable aleatoria continua (la variable puede tomar cualquier
valor real).
¿Cómo hacer un Q-Q Plot?
Paso 3: Encuentra el valor z (punto límite) para cada segmento
En ejemplo, los valores z serán los siguientes:
10% = -1.28
20% = -0.84
30% = -0.52
40% = -0.25
50% = 0
60% = 0.25
70% = 0.52
80% = 0.84
90% = 1.28
100% = 3.0
¿Cómo hacer un Q-Q Plot?
Paso 4: Coloca tu conjunto de datos (aquellos del Paso 1) contra los puntos límites de la distribución
normal (aquellos del Paso 3) en forma de gráfica

Es aquí donde se compara los “cuantiles teóricos” (eje x) con los cuantiles de la muestra (eje y).
En este ejemplo podemos observar que casi se forma una línea recta, esto quiere decir que el conjunto
de datos es aproximadamente normal.
Nota: El ejemplo usó la distribución normal estándar, pero si sus datos provienen de una distribución
normal diferente (es decir, uno con una media y una desviación estándar distinta), entonces ésta puede
ser utilizada.
Q-Q Plot y la asunción de la normalidad
La asunción de la normalidad es una suposición importante para muchas pruebas de
estadística; se debe asumir que se está tomando muestras de una población normalmente
distribuida. El Q-Q plot normal es una forma de evaluar la normalidad. Sin embargo, no se
tiene que utilizar la distribución normal como una comparación de los datos; se puede
utilizar cualquier distribución continua como una comparación (por ejemplo, una
distribución de Weibull o una distribución uniforme), siempre y cuando se calculen los
cuantiles. De hecho, un procedimiento típico es probar varias distribuciones distintas con el
Q-Q plot para ver cual se ajusta bien a los datos.
Sesgos y colas (skews and tails) en el Q-Q Plot

-Gráfica ‘a’: Los puntos caen aproximadamente sobre la recta. Hay una distribución normal (distribución gaussiana).
-Gráfica ‘b’: Esta gráfica muestra el comportamiento típico de una distribución con colas más pesadas que la normal. (heavy
tailed distributions: forma una letra ‘S’ invertida en la distribución normal)
-Gráfica ‘c’: Al contrario de la gráfica ‘b’, los puntos de las colas de la distribución son más ligeras que las que habría con una
distribución normal. (light tailed distributions: forma una letra ‘S’ en la distribución normal)
-Gráfica ‘d’: Esta gráfica exhibe patrones asociados con sesgo positivo (el sesgo es la propiedad de una muestra que hace que
algunos resultados no sean representativos de toda la población debido a diversos factores como la recolección, análisis, etc.).
Gráfica ‘e’: Esta gráfica exhibe patrones asociados con sesgo negativo.
¿Cómo hacer un Q-Q Plot?
Ejemplo 1: Simulando la distribución estándar normal con el tamaño de una muestra de 1000, nosotros
podemos comparar los “cuantiles teóricos” con los cuantiles de la muestra en un Q-Q plot para ver si
éstos coinciden.
En el histograma de esta muestra podemos ver que hay un comportamiento en “forma de campana”,
diciéndonos que la muestra probablemente proviene de una distribución estándar normal.

Al crear su Q-Q Plot se puede observar que los puntos concuerdan con la recta de 45°. En conclusión, la
muestra coincide con la distribución base.
¿Cómo hacer un Q-Q Plot?
Naturalmente, el conjunto de datos no siempre vendrá de la distribución estándar normal y, en estos casos, el Q-Q Plot tendrá otro
comportamiento.
Ejemplo 2: Simulando la distribución ji cuadrada (que es la distribución muestral de varianzas que se obtiene al calcular la varianza de
cada muestra de una población normal) con 2 grados de libertad y con el tamaño de una muestra de 1000, nosotros podemos
observar que la distribución se sesga hacia la derecha (comparándola con la distribución estándar normal).
En el histograma de esta muestra podemos ver que la distribución está sesgada hacia la derecha desde el momento en el que
aparecen muchos valores bajos (alrededor de cero), pero baja rápidamente a medida que aumenta la frecuencia de los valores de
“w”.

Al crear su Q-Q Plot se puede observar que la muestra tiene una alta frecuencia en valores entre cero y cinco, además de que sus
cuantiles aumentan lentamente en esta zona, comparándolos con los cuantiles de la distribución estándar normal. Sin embargo, en la
zona de los valores mayores de cinco, los cuantiles de la muestra aumentan rápidamente, comparándolos con los cuantiles de la
distribución estándar normal.
¿Cómo hacer un Q-Q Plot?
Ejemplo 3: Simulando la distribución ji cuadrada con 2 grados de libertad y con los valore multiplicados por -1 (con el fin de reflejar la
distribución alrededor del eje y), nosotros podemos observar que la distribución se sesga hacia la izquierda (comparándola con la
distribución estándar normal).
En el histograma de esta muestra podemos ver que la distribución está sesgada hacia la izquierda.

Al crear su Q-Q Plot se puede observar que la muestra tiene baja frecuencia en los valores entre -15 y 15, además de que sus
cuantiles aumentan rápidamente en esta zona. Sin embargo, en la zona de los valores arriba de -5, los cuantiles de la muestra
aumentan lentamente y disminuye hasta cero (el mayor valor de la muestra).
¿Cómo hacer un Q-Q Plot?
En el siguiente ejemplo, el conjunto de datos proviene de una distribución de colas ligeras (light tailed distributions) y no de una
distribución estándar normal.
Ejemplo 4: De una muestra tomada de una distribución uniforme (-3, 3) en comparación con la distribución normal estándar (aunque
la comparación de esta muestra con la distribución normal estándar no es verdaderamente justa, ya que la muestra está
estrictamente limitada entre (-3,3)), nosotros podemos observar que en el histograma de la muestra no tiene cola después de -3 o 3.
Al crear su Q-Q plot se puede observar que la distribución de colas ligeras (light tailed distributions) da una forma de letra S.

Entre los valores -3 y -1.5, la muestra crece más lento que la distribución normal estándar; por lo tanto, toma más tiempo para que
los cuantiles de la muestra aumenten (parte cóncava del gráfico). A partir de los valores -1.5 y 1.5, la muestra crece al mismo ritmo
que la distribución normal estándar; por lo tanto sus cuantiles coinciden en esta zona. Por último, entre los valores 1.5 y 3, la muestra
crece más rápido que la distribución normal estándar; por lo tanto la muestra alcanza su cuantil más alto antes que la distribución
normal estándar. Por eso, el cuantil de la muestra se ve plano en la parte superior; la muestra ha alcanzado su cuantil más alto, pero
la distribución normal estándar necesita aumentar un poco para alcanzarla.
¿Cómo hacer un Q-Q Plot?
En el siguiente ejemplo, el conjunto de datos proviene de una distribución de colas pesadas (heavy tailed distributions) y no de una
distribución estándar normal.
Ejemplo 5: Simulando la distribución de una muestra aleatoria con 5 grados de libertad, nosotros podemos observar la distribución
de colas pesadas (heavy tailed distributions) relativa a la distribución normal estándar. El histograma enseña que la muestra se
asemeja a la forma de una campana, pero en el Q-Q plot aparece con la forma de una letra S invertida en la recta de 45°.

Entre los valores -3 y -1.5, la muestra crece más rápido que la distribución normal estándar; por lo tanto, toma menos tiempo para
que los cuantiles de la muestra aumenten (parte cóncava del gráfico). A partir de los valores -1.5 y 1.5, la muestra crece al mismo
ritmo que la distribución normal estándar; por lo tanto sus cuantiles coinciden en esta zona. Por último, entre los valores 1.5 y 3, la
muestra crece más lento que la distribución normal estándar; por lo tanto la muestra alcanza su cuantil más alto antes que la
distribución normal estándar. Por eso, el cuantil de la muestra se ve vertical en la parte superior; la muestra ha alcanzado su cuantil
más alto, pero la distribución normal estándar necesita aumentar un poco para alcanzarla.
Más ejemplos:
La forma de letra “S” indica que estas
a) gráficas tienen colas ligeras, aunque la
distribución normal es la que domina.

b)

c)
Y más ejemplos:
c) La gráfica en forma de letra “S” indica dos
colas ligeras.

La gráfica muestra una distribución


d) importante con colas pesadas, indicada
por la forma de letra “S” invertida que
aparece sobre la distribución normal.

e) La gráfica incluye una cola ligera en una


dirección y una cola pesada en la otra.
En resumen…
Las representaciones anteriores nos ayudan a ver como se compara la muestra con la distribución base. Si en el Q-Q plot
aparecen los valores como una forma invertida, podemos pensar que la muestra no viene de una distribución normal
estándar. Otra observación de estas representaciones de Q-Q plot es que la muestra tiene colas pesadas (heavy tail), así que
podemos comparar nuestra muestra con una distribución de cola pesada (heavy tailed distributions) como las distribuciones
de Pareto, de Laplace, de Cauchy o de Weibull. Si ahora construimos un Q-Q plot de nuestra muestra contra una de estas
distribuciones de cola pesada y el Q-Q plot produce una línea recta, entonces podemos decir que nuestra muestra puede
provenir de alguna de las distribuciones que probamos.
¿Cómo hacer un Q-Q Plot…en Excel?
El Q-Q plot equivale al gráfico de probabilidad normal clásico, sólo que no requiere una escala ni un
papel de probabilidad específicos. Este gráfico puede implementarse muy fácilmente con una
herramienta de planilla de cálculo como Excel con la función NORMSINV. Los datos pueden
suponerse "adecuadamente" normales si la mayoría de los puntos del gráfico forman una línea más
o menos recta. Además de servir para juzgar la normalidad de los datos, el Q-Q plot también resulta
útiles para:
• El eje y indica las unidades normales de los datos.
• Los valores atípicos potenciales pueden identificarse visualmente como los puntos que se desvían
de la línea recta aproximada a lo largo de la cual están la mayor parte de los datos.
• El punto de corte en y de la línea recta aproximada es la mediana del grupo de datos.
• La curva de la línea recta aproximada es una indicación de la magnitud de la desviación estándar
del grupo de datos, donde una pendiente excesiva representa una gran desviación estándar y una
pendiente poco pronunciada representa una pequeña desviación estándar.
¿Cómo hacer un Q-Q Plot…en Excel?
A continuación se detalla una descripción simple de la construcción de un Q-Q plot:
1. Ordenar los datos del menor al mayor (n = cantidad total de observaciones).
2. Crear un índice “i” al lado de los datos ordenados en donde “i” tomará los
valores del 1 al n, y el valor más bajo se asignará como i = 1 y el mayor será i =
n.
3. Calcular f = (i - 0.5)/n para cada observación. Ésta es una representación gráfica
de rangos para el Q-Q plot.
4. Obtener de la versión de distribución acumulativa de la tabla de distribución
normal estándar (μ= 0, σ= 1) el valor de “z” para cada “f”. Un enfoque más
sencillo es usar la función NORMSINV en la planilla de cálculo Excel para
computar los valores de “z”. Comparar la observación con el índice “i” para ser
graficada posteriormente.
¿Cómo hacer un Q-Q Plot…en Excel?
¿Cómo hacer un Q-Q Plot…en Excel?
5. Graficar cada valor de observación sobre el eje y con respecto a su valor “z” obtenido en el Paso 4
sobre el eje x usando papel para gráficos lineales común. De esta forma se genera un Q-Q plot.

6. Examinar visualmente el gráfico para determinar la linealidad aproximada. Si el patrón del Q-Q
plot es lineal, o casi lineal, la distribución de los datos tiene una buena aproximación al modelo
normal. Una desviación significativa de la linealidad debería servir como señal de falla potencial de
la suposición de normalidad.

Potrebbero piacerti anche