Cómo detectar la variabilidad estadística en un histograma

Puede obtener una sensación de variabilidad en un conjunto de datos estadísticos observando su histograma. Por ejemplo, si los datos son todos iguales, se colocan todos en una sola barra y no hay variabilidad. Si hay una cantidad igual de datos en cada uno de los grupos, el histograma se ve plano con las barras cerca de la misma altura; esto indica una buena cantidad de variabilidad.

La idea de un histograma plano que indique alguna variabilidad puede ir en contra de su intuición, y si lo hace, no está solo. Si está pensando que un histograma plano significa que no hay variabilidad, probablemente esté pensando en un gráfico de tiempo, en el que se grafican números individuales a lo largo del tiempo. Recuerde, sin embargo, que un histograma no muestra datos en el tiempo – muestra todos los datos en un momento dado. Dado que el histograma es plano, esto significa que los datos se distribuyen a lo largo del espectro, de ahí una alta variabilidad.

Igualmente interesante es la idea de que un histograma con un gran bulto en el centro y colas inclinadas bruscamente hacia abajo a cada lado en realidad tiene menos variabilidad que un histograma que es recto. Las curvas que parecen colinas en un histograma representan grupos de datos que están muy juntos, por lo tanto, una baja variabilidad.

La variabilidad en un histograma es mayor cuando las barras más altas están más separadas de la media y menor cuando las barras más altas están cerca de la media.

Para las edades de los ganadores de los premios Oscar a la mejor actriz que se muestran en la figura anterior, se puede ver que muchas actrices tienen entre 30 y 35 años de edad, y que la mayoría de las actrices tienen entre 20 y 50 años de edad, lo cual es bastante diverso; luego están los valores atípicos, las pocas actrices mayores (7 de ellas) que extienden los datos más allá, aumentando la variabilidad general de los datos.

La estadística más común utilizada para medir la variabilidad en un conjunto de datos es la desviación estándar, que en un sentido aproximado mide la distancia «media» o «típica» entre los datos y la media. La desviación estándar para los datos de edad de la mejor actriz es de 11,35 años. Una desviación estándar de 11,35 años es bastante grande en el contexto de este problema, pero la desviación estándar se basa en la distancia media de la media, y la media está influenciada por valores atípicos, por lo que la desviación estándar también se verá influenciada.

?>