02-Gráfica de caja y bigotes (boxplot)
Tags: #estadística_descriptiva #representaciones_gráficas #boxplot
1. ¿Qué es y para qué sirve?
La gráfica de caja y bigotes (o boxplot) es un resumen visual diseñado para reflejar las propiedades más prominentes de una muestra o conjunto de datos basándose en medidas que son resistentes a los valores atípicos (es decir, que no se ven drásticamente afectadas por datos extremos).
Sirve principalmente para evaluar cuatro aspectos fundamentales de un vistazo:
- El centro de los datos.
- La dispersión o variabilidad.
- La asimetría (hacia dónde se alargan los datos).
- La identificación rápida de valores atípicos (anomalías u observaciones extremas).

2. Anatomía del boxplot
El boxplot se construye a partir del "resumen de cinco números": el valor mínimo, el primer cuartil (
Visualmente, se compone de las siguientes partes:
1. La caja central: Es un rectángulo que va desde el primer cuartil (
2. La mediana (
3. Los bigotes: Son líneas que se extienden hacia afuera desde ambos extremos de la caja. Estos bigotes no siempre van hasta el valor máximo y mínimo absoluto. Se extienden hasta la observación más pequeña y la más grande que no sean considerados valores atípicos.
4. Valores atípicos (outliers): Se representan como puntos, asteriscos o círculos individuales más allá de las puntas de los bigotes (límites inferior y superior).
- La regla del 1.5: Técnicamente, cualquier observación que se aleje de la caja por una distancia superior a
(hacia arriba de o hacia abajo de ) se considera una anomalía o valor extremo. A esta distancia mínima se la conoce como límite inferior ( ) y límite superior ( ); la función de este límite es definir a partir de dónde empieza la "zona de anomalías".
3. ¿Cómo leer e interpretar un boxplot?
Cuando vemos un boxplot en nuestros problemas, debemos hacernos las siguientes preguntas:
- ¿Dónde está el centro?
- ¿Qué tan dispersos están los datos?
- ¿Hay asimetría?
- ¿Hay datos raros?
Respondiendo cada una de las preguntas:
- Miramos la línea de la mediana. Eso te da el valor típico representativo.
- Observamos el tamaño de la caja (
) y la distancia total entre las puntas de los bigotes (el rango de todos los típicos). Una caja muy ancha indica mucha variabilidad en la muestra. - Si la línea de la mediana está exactamente en el centro de la caja y los bigotes miden lo mismo, la distribución es simétrica. Si la aja es más grande del lado derecho de la mediana (o el bigote derecho es mucho más largo), hay asimetría positiva (la "cola" de los datos se alarga hacia valores mayores), y si ocurre lo contrario, hay asimetría negativa.
- Buscamos los asteriscos fuera de los bigotes. En control de calidad o manufactura, un valor extremo alerta al investigador de que el proceso puede tener problemas o que un procedimiento asume normalidad de forma errónea.