05-Varianza y desviación

Tags: #dispersión #estadística_descriptiva #medidas_resumen #fórmulas

1. Varianza poblacional (σ2)

Evalúa la variabilidad poblacional promediando las desviaciones al cuadrado de cada dato respecto a la media poblacional:

σ2=i=1N(xiμ)2N

2. Varianza muestral (s2)

Evalúa la variabilidad de la muestra promediando las desviaciones al cuadrado de cada dato respecto a la media muestral:

s2=i=1n(xix¯)2n1     (datos no agrupados)s2=i=1mcafri(mcaix¯)2     (datos agrupado)
Question

¿Por qué dividimos entre n1 y no entre n en la varianza muestral? Las observaciones de una muestra tienden a estar más cerca de su propia media muestral (x¯) de lo que están de la verdadera media poblacional (μ). Si dividiéramos entre n estaríamos subestimando la verdadera variabilidad de la población (obtendríamos valores demasiado pequeños en promedio). Dividir entre n1 (conocido como grados de libertad) corrige este sesgo, haciendo que s2 sea un estimador "insesgado" de σ2.

3. Desviación estándar muestral (s)

Es simplemente la raíz cuadrada positiva de la varianza muestral:

s=s2

Tiene la ventaja de estar en las mismas unidades lineales que los datos originales.

4. Interpretación de varianza y desviación muestral

Para entender qué significa el resultado de estas fórmulas, imaginemos que estamos analizando los tiempos de vuelta de Lewis Hamilton en una sesión de clasificación libre de 20 vueltas.

La varianza y la desviación estándar miden la consistencia o el error. En ingeniería suelen representar la tolerancia o el ruido.

Un valor más bajo (tendiendo a cero) significa precisión absoluta. Las 20 vueltas de Hamilton fueron clavadas en el mismo milisegundo, es un relojito. En ingeniería eléctrica, un s bajo en una partida de resistores de 100 significa excelente control de calidad (todos miden 99.9, 100.1, 100.0).

Un valor más alto significa inconsistencia, caos o mucha dispersión. Hamilton hizo algunas vueltas rapidísimas y otras lentísimas. En los resistores, un s alto significa que te pueden tocar resistencias de 90 o de 110 ; es un lote poco confiable.

¿Por qué preferimos la desviación estándar (s)?
Porque la varianza te da el resultado en unidades al cuadrado (lo cual no tiene sentido físico). Al aplicarle la raíz cuadrada, la desviación estándar s te da un valor en la misma unidad que medís. Si medimos s=0.5 segundos (en caso de Hamilton), significa que en promedio, sus tiempos fluctúan medio segundo por encima o por debajo de la media.