Diez pasos para crear un histograma

- Advertisement -

Tabla de Contenidos

La estadística se puede dividir en dos grandes áreas que son la estadística descriptiva y la estadística inferencial. La primera es indispensable para poder comprender el comportamiento general de un conjunto grande de datos, ya que permite resumir todos estos datos en una serie de valores fácilmente digeribles que nos muestran la tendencia central de los datos y su variabilidad, entre otras cosas.

Pero, además de permitirnos representar muchos datos con pocos números, la estadística descriptiva también se basa en métodos gráficos para representar rápida y visualmente muchas características de un conjunto de datos que no son evidentes a partir de la observación de números. Entre estas herramientas gráficas, una de las más importantes en el campo de la estadística son los histogramas.

¿Qué es un histograma?

En esencia, un histograma es una representación gráfica de una tabla de frecuencias bien sea absolutas o relativas. Es un gráfico de barras o columnas en el que el área de cada barra o rectángulo es proporcional a la frecuencia relativa o absoluta de cada valor de una variable cuantitativa, o de cada intervalo de valores para el caso de datos agrupados.

Información que aportan los histogramas

Algunas de las piezas clave de información que podemos obtener a partir de un histograma a simple vista son:

La moda

En el histograma, el valor o la clase que posee la mayor área representa el valor o la clase que se repite con más frecuencia en el conjunto de datos, por lo que también representa la moda de los datos o clase modal.

Además, la observación de la forma del histograma y la determinación de si tiene uno, dos o más picos (o clases con frecuencias relativas mayores que las demás), nos permite establecer si los datos poseen una sola moda (datos unimodales), dos modas (datos bimodales) o más de dos modas (datos multimodales). Este tipo de información no es fácil de ver ni en la lista completa de datos originales ni en las tablas de frecuencias, pero sí en el histograma.

Por otro lado, los histogramas también permiten reconocer rápidamente las series de datos uniformes (sin moda), ya que en estos casos, todos los datos o clases de datos poseen la misma frecuencia y el histograma presentará columnas de la misma altura tomando la forma de un rectángulo.

La simetría de los datos

Otro aspecto clave de los datos que resulta muy fácil de identificar en un histograma, es si los datos están sesgados hacia uno u otro lado, o si, por el contrario, son simétricos en torno a un punto central. Esto lo observamos comparando las colas a ambos lados del centro del histograma o a ambos lados de la moda.

Si ambas colas son iguales, entonces podemos decir que los datos son simétricos.

En cambio, si una de las colas es más larga que la otra, decimos que los datos están sesgados. Si la cola larga del histograma está a la derecha de la moda (del pico más alto), decimos que el histograma o los datos están sesgados hacia la derecha, o que el histograma muestra sesgo positivo.

Por el contratio, si la cola más larga se encuentra hacia la izquierda de la moda, entonces decimos que el histograma o los datos están sesgados hacia la izquierda o que el histograma muestra sesgo negativo.

Pasos para construir un histograma

Generalidades

Para simplificar nuestro análisis y explicación del proceso, representaremos la variable de la población cuyo histograma estamos construyendo con la letra X. X puede representar cualquier cosa que sea una variable cuantitativa discreta o continua. Por ejemplo, puede representar:

  • La estatura de los miembros de una comunidad.
  • El número de mariposas de color amarillo atrapadas durante el día.
  • El tiempo en horas que tarda en repararse el tren delantero de un vehículo en un taller mecánico, etc.

El primer paso general para construir un histograma a partir de un conjunto de datos individuales es construir una tabla de frecuencia. Esto se hace de distintas maneras según se trate de datos discretos o continuos. Además, en el caso de datos discretos, la tabla de frecuencia puede construirse en base a los datos individuales o agrupando datos, mientras que, en el caso de datos continuos, la agrupación de datos es obligatoria.

A continuación, se presentan diez pasos para la construcción de un histograma. Los primeros siete corresponden a la construcción de la tabla de frecuencia a partir de los datos individuales. De estos siete pasos, los primeros tres son independientes del tipo de datos que se tenga (cuantitativos discretos o continuos).

Por otro lado, los últimos tres pasos representan la etapa de la construcción de la gráfica o histograma en sí. Además, se incluye un paso adicional que es enteramente opcional.

Paso 1: Contar y ordenar los datos de menor a mayor.

Los datos experimentales por lo general se encuentran desordenados, así que el primer paso consiste en ordenarlos en una tabla de menos a mayor. A veces también ayuda rotular los datos con un número entero del uno en adelante para poder identificar fácilmente a cada dato y facilitar su conteo tanto total como el de las frecuencias absolutas en los pasos subsiguientes.

Paso 2: Identificar los valores extremos y determinar el rango de los datos.

Una vez ordenados los datos de menos a mayor, identificamos los valores extremos como Xmin y Xmax (es decir, los valores mínimo y máximo de la serie de datos). Con estos dos valores, podemos determinar la amplitud o rango (R) de los valores de nuestros datos, simplemente restando el mayor menos el menor:

Pasos para crear un histograma

Paso #3: Determinar el número de clases para conocer el número de columnas del histograma.

Ahora que tenemos el rango, necesitamos saber en cuantos intervalos se va a dividir, lo que significa determinar el número total de clases en las que debemos agrupar nuestros datos para construir el histograma. El número de clases o intervalos determina de manera directa cuántas columnas o barras contendrá nuestro histograma.

Como tal, el número de clases es de suma importancia ya que determina cuánta información perderemos al resumir los datos. Esto, a su vez, determina directamente qué tan útil será el histograma como herramienta descriptiva ya que, si tomamos muy pocas clases, perderemos la mayor parte de la información de los datos. Pero, si tomamos demasiadas clases, sucede lo contrario. Mantenemos demasiada información y no logramos ver en el histograma el comportamiento general de los datos.

Existen diferentes criterios para establecer el número de intervalos de clase. Algunas personas utilizan criterios algo empíricos (a ojo) como, por ejemplo, dividir en 20 clases si se tienen más de 200 datos y en 5 clases si se tienen menos. Por otro lado, hay otros métodos más objetivos con los que se obtienen mejores resultados, como por ejemplo tomar la raíz cuadrada del número total de datos.

Sin embargo, la forma más común de determinar el número de clases es utilizando la regla de Sturges:

Pasos para crear un histograma regla de Sturges

O

Pasos para crear un histograma regla de Sturges

Donde la primera ecuación toma el logaritmo base 2 del número de datos y la segunda toma el logaritmo base 10. Ambas expresiones son equivalentes ya que el coeficiente 3,322 es el factor de conversión entre el logaritmo base 2 y el logaritmo base 10 que es igual a 1/log(2).

El corchete ⌈ ⌉ se utiliza para indicar que el resultado obtenido se debe redondear siempre hacia arriba al siguiente número entero. Esta es la manera como se redondea cuando lo que nos interesa es construir una tabla de frecuencias de datos agrupados.

Sin embargo, para la construcción de histogramas, resulta útil tener un número impar de clases para poder dividir el histograma en una clase central y un número igual de clases a ambos lados. Entonces, en este caso, en lugar de redondear siempre hacia arriba o hacia el entero más cercano, redondearemos siempre al número entero impar más cercano.

Por otro lado, si se tiene datos discretos y el número de clases calculado resulta mayor o igual que el número total de valores individuales que aparecen en los datos, entonces no se lleva a cabo la agrupación de datos, sino que se toman los valores individuales de la variable como clases. En este caso, se pueden saltar los siguientes dos pasos.

Paso 4: Determinar la amplitud de cada clase (A) y los límites de los intervalos de clase.

La amplitud aproximada de cada clase se determina dividiendo el rango de los datos (R) entre el número de clases. Es decir:

Pasos para crear un histograma - amplitud de clase

Si se trata de datos discretos representados por números enteros, la amplitud de clase se suele redondear a un número entero.

La amplitud representa el rango de valores dentro de cada clase, es decir, representa la diferencia entre el límite superior e inferior de cada intervalo de clase. Para obtener los límites de cada intervalo (linf y lsup) debemos comenzar seleccionando el punto de partida de la primera clase. Este debe ser un número igual o inferior que el valor mínimo de los datos (Xmin) para asegurar que no este quede por fuera.

Además, se trata que el límite inferior de la primera clase sea, preferiblemente, un múltiplo de la amplitud, aunque esto no es estrictamente necesario. Por lo tanto, lo más común es que se tome Xmin como límite inferior de la primera clase.

Una vez definido el límite inferior de la primera clase, su límite superior se calcula sumándole la amplitud de la clase. Luego, el límite inferior de la siguiente clase corresponde al límite superior de la anterior. Se continúa así, sumando la amplitud de clase a cada intervalo hasta llegar a la última clase. En esta última, si la suma del límite inferior más la amplitud da menor que Xmax, entonces se elige Xmax como límite superior.

Los límites inferiores de todos los intervalos de clase deben ser límites cerrados (es decir, inclusivos), mientras que todos los límites superiores, a excepción del de la última clase, deben ser abiertos. Esto se hace para asegurar que se cubran todos los posibles valores de la variable sin que se solapen los intervalos entre sí.

En resumen, el límite inferior de la clase 1 se elige como el valor mínimo de todos los datos. Luego, los límites superiores sucesivos se calcular sumando la amplitud de clase (A) como sigue:

Pasos para crear un histograma - límites

Paso 5: Determinar las marcas de clase.

En el proceso de agrupación de datos, todos los datos que caen dentro de cada una de las K clases se representa por medio de un único valor (de aquí es de donde viene la pérdida de información al hacer la agrupación). Este valor se denomina marca de clase y se calcula como el valor medio entre los límites de la clase.

Es decir, la marca de cada clase, Xi, vendrá dada por:

Pasos para crear un histograma - marca de clase

Paso 6: Contar el número de datos dentro de cada clase (frecuencia absoluta, fi).

Ahora determinamos la frecuencia absoluta de cada clase contando el número de datos que caen en cada intervalo respectivo. Aquí es donde tener la lista ordenada de los datos resulta indispensable ya que podemos buscar en la lista los valores que están justo por debajo y por encima de los distintos límites que separan las clases y así marcar fácilmente en los datos donde una clase termina y comienza la siguiente.

Se debe verificar que la suma de todas las frecuencias absolutas dé como resultado el número total de datos.

Paso 7: Determinar la frecuencia relativa de cada clase.

Luego de tener cada frecuencia absoluta (fi), la frecuencia relativa (fr,i) se calcula dividiendo esta frecuencia entre el número total de datos:

Pasos para crear un histograma - frecuencia relativa

Toda la información que tenemos hasta ahora debería organizarse en una tabla de frecuencias de datos agrupados que posea las siguientes columnas:

Nro. de ClaseIntervalo de ClaseMarca de clasefifr,i
1[linf,1 ; lsup,1) f1fr,1
2[linf,2 ; lsup,2) f2f r,2
3[linf,3 ; lsup,3) f3f r,3
K[linf,K ; lsup,K] fkf r,k

Paso 8: Dibujar y rotular los ejes del histograma.

El histograma es una gráfica bidimensional así que posee dos ejes de coordenadas. En el eje horizontal o eje de las abscisas, se representan los valores de nuestra variable (X) mientras que en el eje vertical se suele representar la frecuencia relativa, aunque en algunos casos también se representa la frecuencia absoluta.

Paso 9: Establecer los límites de los intervalos de clase y las marcas de clase.

En el eje horizontal se deben representar los valores de los límites de los intervalos de clase y de las marcas de clase. Si hay espacio suficiente, se puede rotular el eje con todos estos valores, de lo contrario, es preferible incluir solo las marcas de clase.

En el eje vertical se dibuja una escala que vaya desde 0 hasta un valor redondo que esté por encima de la frecuencia relativa (o absoluta) máxima de la tabla. Por ejemplo, si la frecuencia más alta es 0,456, entonces la escala podría llegar hasta 0,5 e ir graduada en intervalos de 0,1 unidades.

Paso 10: Dibujar barras centradas en cada marca de clase cuya área sea proporcional a la frecuencia relativa de cada clase.

En un histograma, el área de cada rectángulo que representa a cada clase debe ser proporcional a la frecuencia de dicha clase. Como en nuestro caso (y en la gran mayoría de histogramas) los intervalos de clase poseen una amplitud constante (es decir, tienen el mismo ancho en el eje horizontal), entonces basta con asegurarnos de que las alturas sean proporcionales a la frecuencia. Como el área es la base por la altura y la base es fija, hacer la altura proporcional a la frecuencia también hace que el área sea proporcional a la frecuencia.

Paso 11 (opcional): Trazar una curva o una línea quebrada que una las alturas de cada barra.

Algunas personas acostumbran a representar el histograma como el área bajo una curva dibujada uniendo los puntos medios del segmento superior de cada rectángulo con el del siguiente, mientras que el de la primera y última clase se unen con un segmento de línea recta hasta un punto a una amplitud, A, por debajo y por encima, respectivamente, sobre el eje horizontal (es decir, con frecuencia 0).

Esta curva posee la misma área por debajo que la suma de las áreas de todos los rectángulos que conforman el histograma, por lo que es una representación equivalente del mismo que hace que sea más fácil observar las características de la forma del histograma. Sin embargo, esto no es estrictamente necesario y el histograma tradicional suele ser suficiente.

Ejemplos de creación de histogramas en dos casos diferentes

A continuación, presentamos dos ejemplos de la aplicación de los 10 pasos anteriores para la creación de histogramas en dos situaciones diferentes:

  • Datos discretos sin agrupar
  • Datos discretos agrupados

Además, en el segundo caso se muestra la aplicación del paso opcional para obtener la curva equivalente del histograma. Para el caso de datos continuos, el procedimiento es esencialmente el mismo que para el de los datos discretos agrupados.

Ejemplo 1: Creación de un histograma a partir de un conjunto de datos discretos (sin agrupar)

La siguiente tabla presenta el número de hijos por familia de una muestra de 50 familias tomadas de una población ficticia.

41003
43331
61060
11404
43441
05663
53260
05406
65012
61244

Se desea construir un histograma para observar el comportamiento de los datos.

Paso 1: Contar y ordenar los datos de menor a mayor.

Del enunciado, ya sabemos que tenemos 50 datos en la tabla, pero es necesario ordenarlos. Una vez ordenados los datos se ven así:

01245
01345
01346
01346
01346
01346
01346
01346
02456
02456

Paso 2: Identificar los valores extremos y determinar el rango de los datos.

Como podemos ver en la tabla anterior, los datos van desde 0 hijos hasta 6 hijos, por lo que Xmin = 0 y Xmax = 6.

Ahora calculamos el rango utilizando la fórmula mencionada antes

Ejemplo de los pasos para crear un histograma - rango

Paso 3: Determinar el número de clases para conocer el número de columnas del histograma.

Utilizamos la regla de Sturges para calcular el número de clases:

Ejemplo de los pasos para crear un histograma - número de clases

Como podemos ver, en este caso el número de clases es igual al número de valores que posee nuestra variable discreta (los siete valores que van desde el 0 al 6). Por lo tanto, no es necesario llevar a cabo la agrupación de datos, y saltamos al paso 6.

En este caso, a cada clase se le identifica con el valor respectivo de la variable y con un número secuencial comenzando en 1. Es decir, la clase 1 corresponde a las familias con 0 hijos, la 2 a las que tienen 1 hijo, etc.

Pasos 6 y 7: Contar el número de datos dentro de cada clase y determinar la frecuencia relativa de cada clase.

La tabla anterior permite constatar rápidamente que dentro de la primera clase, hay 10 familias con 0 hijos; hay 8 familias que poseen 1 hijo y así sucesivamente.

Luego, la frecuencia relativa de cada clase se encuentra dividiendo cada frecuencia entre 50, que es el número total de datos. Una muestra de los cálculos se presenta a continuación:

Ejemplo de los pasos para crear un histograma - frecuencias relativas

Los resultados de esto cálculos se resumen en la siguiente tabla de frecuencias:

Nro. de ClaseNúmero de hijos (X)fifr,i
10100,20
2180,16
3230,06
4370,14
54100,20
6540,08
7680,16

Paso 8 y 9: Dibujar y rotular los ejes del histograma y ubicar los límites de los intervalos de clase y las marcas de clase.

En este caso, como las clases corresponden a números enteros equidistantes, se pueden tomar como límites de los intervalos de clase los puntos medios entre cada par de valores.

Ejemplo de los pasos para crear un histograma - ejes

Paso 10: Dibujar barras centradas en cada marca de clase cuya área sea proporcional a la frecuencia relativa de cada clase.

El resultado del histograma se muestra a continuación:

Ejemplo de los pasos para crear un histograma - histograma

Como se puede ver, se trata de un histograma multimodal asimétrico.

Ejemplo 2: Creación de un histograma a partir de un conjunto de datos discretos (agrupados)

La siguiente tabla de datos muestra el número de franelas vendidas por semana en 100 sucursales de una cadena de tiendas por departamento imaginaria.

1473026633250
270130448414275
119216448436198
33134926619784
11532542713273
221403392324391
11266254109443
14718028614955
210434394298346
343330130439405
40825733464328
1492513869285
27233531490113
15191189279297
324185238160286
31425128329241
405220171209312
8715188149287
39729427841147
4176517283277

Se trata nuevamente de datos discretos, sin embargo, en este caso existen muchos más valores para la variable bajo estudio, por lo que se deberán agrupar los datos para poder crear el histograma.

Paso 1: Contar y ordenar los datos de menor a mayor.

Al igual que en el ejemplo anterior, los datos se deben ordenar de menor a mayor para identificar los valores extremos y para facilitar el conteo de las frecuencias absolutas. Los datos de la tabla anterior ordenados a lo largo de las columnas se muestran en la siguiente tabla.

31128209277334
33130210278335
38130210279343
41132216285346
55147220286349
64147220286391
65147221287392
66149225294394
69149238297403
73149241298405
83151250300414
84151250312417
88160251314425
90171254324427
109172257324434
112180266325436
113185266328439
115189270329443
119197272330448
120198275331448

Paso 2: Identificar los valores extremos y determinar el rango de los datos.

Como podemos ver en la tabla anterior, los datos van desde 31 franelas hasta 448 franelas, por lo que Xmin = 31 y Xmax = 448.

El rango es

Ejemplo de los pasos para crear un histograma - rango

Paso 3: Determinar el número de clases para conocer el número de columnas del histograma.

Nuevamente, utilizamos la regla de Sturges para calcular el número de clases:

Ejemplo de los pasos para crear un histograma - regla de Sturges

En este caso redondeamos a 7 para obtener el número impar de clases más cercano.

Paso 4: Determinar la amplitud de cada clase y los límites de los intervalos de clase.

Ejemplo de los pasos para crear un histograma - amplitud de clase

Redondeamos a 60 ya que se trata de una variable discreta para la que valores decimales carecen de sentido. Si se hubiera tratado de una variable continua, el procedimiento a seguir sería redondear al mayor número de decimales de todos los datos, asegurándose de redondear siempre hacia arriba. De lo contrario, puede que queden datos por fuera del último intervalo de clase.

Alternativamente, se puede añadir un decimal más a la amplitud comparada con el número de decimales de los datos. Esto por lo general es suficiente para evitar tener que expandir de más la última clase para incluir el último dato.

Tenemos la opción de tomar Xmin = 31 como límite inferior para la primera clase, pero, dado que 30 es un número más redondo que está justo por debajo de 31 y, además, nuestras clases serán ligeramente más amplias que lo necesario (por redondear a 60), entonces es preferible tomar 30 como límite inferior.

Así, tenemos que los límites de cada clase serán:

Ejemplo de los pasos para crear un histograma - límites de clases

Paso 5: Determinar las marcas de clase.

Las marcas de cada clase se calculan con los límites de cada clase:

Ejemplo de los pasos para crear un histograma - marcas de clase

Alternativamente, se puede calcular la primera marca de clase y las siguientes se calculan sumando la amplitud. Es decir, X2 = X1 + A = 60 + 60 = 120   ;    X3 = X2 + A = 120 + 60 = 180   y así sucesivamente.

Pasos 6 y 7: Contar el número de datos que dentro de cada clase (frecuencia absoluta) y determinar la frecuencia relativa de cada clase.

En la tabla de valores ordenados podemos ver que hay 13 valores entre 30 y 90, sin contar el 90. Debemos recordar que el límite superior de todas las clases (a excepción de la última) es abierto, por lo que el 90 no se incluye en la primera clase. Sin embargo, sí se cuenta en la segunda.

Luego, cada frecuencia relativa se calcula dividiendo cada frecuencia absoluta entre el número total de datos, que en este caso es 100. La siguiente tabla de frecuencias agrupadas muestra el resumen de todos los cálculos:

Nro. de ClaseIntervalo de ClaseMarca de clasefifri
1[30   ;   90)60130,13
2[90  ;  150)120170,17
3[150 ; 210)180110,11
4[210 ; 270)240160,16
5[270 ; 330)300210,21
6[330 ; 390)36070,07
7[390 ; 450]420150,15

Pasos 8 y 9: Dibujar y rotular los ejes del histograma y ubicar los límites de los intervalos de clase y las marcas de clase.

En este caso, las frecuencias son similares a las del ejemplo anterior, pero el eje de las abscisas es diferente:

Ejemplo de los pasos para crear un histograma -

Paso 10: Dibujar barras centradas en cada marca de clase cuya área sea proporcional a la frecuencia relativa de cada clase.

Ejemplo de los pasos para crear un histograma

Paso 11 (opcional): Trazar una curva o una línea quebrada que una las alturas de cada barra.

En este caso, mostraremos la aplicación del último paso. Como se puede ver en la siguiente figura, se traza una línea quebrada partiendo de una frecuencia de 0 en la que sería la marca de una clase anterior a la primera (en este caso, en X0 = 60 – 60 = 0). La curva se cierra en un punto sobre el eje horizontal, 60 unidades por encima de la última marca de clase (en este caso, en Xf = 420 + 60 = 480).

Ejemplo de los pasos para crear un histograma - curva equivalente del histograma

Referencias

Amigo Matemático. (2021, 26 abril). 👉Cómo calcular INTERVALOS DE CLASE, REGLA DE STURGES y MARCA DE CLASE estadística en DATOS AGRUPADOS. YouTube. https://www.youtube.com/watch?v=zvgxxmc6ufM

Arellano Ruiz, B. (2011, julio). Elaboración de una Distribución de Frecuencias y sus Gráficas. UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO. https://www.uaeh.edu.mx/docencia/P_Presentaciones/prepa1/matematicas_elaboracion_de_una_distribucion_de_frecuencias.pdf

Idrees, M. (2019, 12 junio). Construction of Frequency Distribution. eMathZone. https://www.emathzone.com/tutorials/basic-statistics/construction-of-frequency-distribution.html

Lugoteachpro math. (2019, 20 octubre). Tabla de frecuencia, histograma y sesgos. YouTube. https://www.youtube.com/watch?v=vIqsY4YMjIA

Mates Fáciles. (2021, 21 junio). Distribución de Frecuencias para Datos Agrupados. https://lasmatesfaciles.com/2021/05/07/distribucion-de-frecuencias-para-datos-agrupados/

Portal Educativo. (s. f.). Tablas de frecuencias con datos agrupados. https://www.portaleducativo.net/octavo-basico/791/Tablas-de-frecuencias-con-datos-agrupados

TOMi Digital. (s. f.). TOMi.digital – TABLA DE FRECUENCIA PARA DATOS AGRUPADOS. https://tomi.digital/es/33634/tabla-de-frecuencia-para-datos-agrupados?utm_source=google&utm_medium=seo

Zach. (2021, 11 enero). What is Sturges’ Rule? (Definition & Example). Statology. https://www.statology.org/sturges-rule/

Artículos relacionados