¿Qué es el resumen de cinco números en estadística?

Resumen de cinco números

La estadística descriptiva nos permite resumir un conjunto de datos en una pequeña cantidad de números o medidas que sirven para describir cómo están distribuidos esos datos. Existen distintas medidas que sirven para describir la tendencia central de los datos, su dispersión y la forma de las curvas de distribución, algunas de las cuales se encuentra en el resumen de cinco números.

¿Qué es el resumen de cinco números?

En función de lo anterior, se puede definir el resumen de cinco números como un conjunto de cinco medidas o estadísticas relacionadas con un conjunto de datos que permiten describir de una manera muy sencilla la amplitud del conjunto, su dispersión. También proporciona una medida de su tendencia central. Además, el resumen de cinco números también se puede representar de forma gráfica, lo cual facilita la visualización de estas características de un conjunto de datos, permitiendo a su vez compararlo fácilmente con otros conjuntos de datos relacionados.

¿Cuáles son los cinco números y qué significan?

El resumen de cinco números está compuesto por el valor mínimo, los tres cuartiles y el valor máximo de una serie de datos estadísticos. Los cuartiles son aquellos datos o valores que dividen al conjunto ordenado de todos los datos en cuatro subgrupos con igual número de elementos. Así, si contamos con un conjunto de 100 datos, los cuartiles son aquellos datos o valores que dividen at conjunto en 4 subconjuntos de 25 datos cada uno.

Los cuartiles se nombran según el orden en el que aparecen, de menor a mayor, como primer, segundo y tercer cuartil. Además, se representan por medio de la le letra Q mayúscula seguido del número que indica su posición ordinal. Por su definición, el segundo cuartil, Q2, también se le conoce como la mediana o punto medio de los datos. No se debe confundir con la media, que es el promedio aritmético de los datos.

Además de los tres cuartiles (Q1, Q2 y Q3), el resumen de cinco números también incluye al valor mínimo de los datos ordenados de menor a mayor, y el valor máximo. En otras palabras, los cinco números de este resumen son:

  • Mínimo .– Es el primer valor de un conjunto de datos estadísticos ordenados de menor a mayor. Es el dato de menor valor.
  • Q1 o primer cuartil .– Es aquel dato o valor que divide al conjunto de datos dejando el 25% (o la cuarta parte) de ellos por debajo y el otro 75% por encima.
  • Q2 o segundo cuartil .– Es el dato o valor que divide al conjunto de datos en dos grupos iguales. Es decir, es el valor que deja el 50% de los datos tanto por debajo como por encima del mismo, por lo que representa también a la mediana o punto medio de los datos.
  • Q3 o tercer cuartil .– Este es el dato o valor que deja al 75% o tres cuartas partes de los datos por debajo y el otro 25% por encima.
  • Máximo .– Como su nombre lo indica, es el dato con mayor valor de toda la serie de datos. Es decir, se trata del último dato cuando estos son ordenados de menor a mayor.

Al interpretar el resumen de cinco números, la diferencia entre el valor mínimo y el máximo proporciona lo que se conoce como la amplitud de la serie de datos. Por otro lado, la diferencia entre el tercer y primer cuartil, denominado el Rango Intercuartílico (RIC), nos muestra qué tan dispersos están los datos, ya que indica el rango de valores que contiene al 50% de los datos centrales.

Por otro lado, el segundo cuartil o mediana es una medida de tendencia central que se puede utilizar para representar en un solo número, el valor de todos los datos de la serie. A pesar de que en muchas situaciones se suele utilizar la media como una medida de tendencia central, la mediana ofrece la ventaja de no ser sensible a valores extremos (demasiado altos o demasiado bajos).

Diagramas de cajas: la representación gráfica del resumen de cinco números

Una forma práctica de visualizar un resumen de cinco números es por medio de lo que se denomina un diagrama de caja o Box Plot. En este tipo de representaciones, el rango intercuartílico (RIC) se representa como un rectángulo o caja que se extiende desde Q1 hasta Q3, y que está dividido en dos por una línea perpendicular al eje de medida ubicada en Q2, es decir, en la mediana.

Finalmente, a cada lado de la caja se dibujan líneas paralelas al eje de medida que se extienden desde el mínimo hasta Q1 y desde Q3 hasta el máximo, siempre y cuando el mínimo y el máximo no estén a más de 1,5.RIC de distancia a la izquierda y derecha de Q1 y Q3, respectivamente. Estas líneas laterales son lo que se conoce como los bigotes de la caja. Si hay datos que quedan por fuera del rango demarcado por Q1 – 1,5.RIC y Q3 + 1,5.RIC, entonces los laterales (a veces llamados bigotes) se extienden hasta el dato más alejado de la caja que se encuentre dentro de dicho rango, y los demás se marcan como datos atípicos.

Ejemplo de la elaboración del resumen de cinco números para una serie de datos

A continuación, se presenta el procedimiento, paso a paso, para la elaboración de un resumen de cinco números a partir de un conjunto de datos estadísticos. Además, se explica cómo construir el diagrama de caja para la visualización de este resumen en forma gráfica.

Los datos corresponden al número de artículos vendidos en el departamento de damas de una tienda por departamentos durante un periodo de 10 semanas. Los resultados del estudio se presentan a continuación:

LunesMartesMiércolesJuevesViernesSábadoDomingo
Semana 1158145156156164167147
Semana 2161146157152162160153
Semana 3152150157155164166152
Semana 4150149153162169162149
Semana 5157152154155168161155
Semana 6157145160164164168149
Semana 7160152151152168163145
Semana 8157152155156162169155
Semana 9160148157150164170154
Semana 10158146163158165169150

Paso 1: Ordenar todos los datos de menor a mayor y asignarles un índice comenzando por 1.

El resultado de este paso se presenta a continuación:

ÍndiceValorÍndiceValorÍndiceValorÍndiceValor
1145221524315864168
2145231534416065168
3145241534516066168
4146251544616067169
5146261544716068169
6147271554816169169
7148281554916170170
81492915550162
91493015551162
101493115552162
111503215653162
121503315654163
131503415655163
141503515756164
151513615757164
161523715758164
171523815759164
181523915760164
191524015761165
201524115862166
211524215863167

Paso 2: Determinar los cuartiles Q1 y Q3

Para determinar los cuartiles Q1, Q2 y Q3, se comienza calculando un índice para el dato correspondiente a cada cuartil. La fórmula es la siguiente:

Resumen de cinco números
Resumen de cinco números
Resumen de cinco números

Donde N es el número total de datos. Este cálculo puede resultar entero o no, por lo que el procedimiento se divide en dos casos:

Caso 1: Resultado entero

Si el resultado es entero, entonces el respectivo cuartil será el valor del dato al que corresponda el índice. Por ejemplo, si el índice de Q1 da 10, esto quiere decir que Q1 será el valor del dato número 10 (149 en nuestro ejemplo).

Caso 2: Resultado decimal

Si el índice resulta un número decimal, entonces el cuartil no corresponderá exactamente a ninguno de los datos presentes en la serie. En este caso, se redondea el resultado hacia abajo y el cuartil se calcula a partir de este dato y el que le sigue, utilizando la siguiente fórmula:

Resumen de cinco números

Donde d representa la parte decimal del índice, xi es el dato con el índice redondeado hacia abajo, y xi+1 es el siguiente dato.

En el caso de nuestro ejemplo, este es el resultado del cálculo de los índices de los tres cuartiles:

Resumen de cinco números
Resumen de cinco números
Resumen de cinco números

En todos los casos el resultado fue un número decimal, así que ahora aplicamos la fórmula del caso 2 para determinar el valor de cada cuartil:

Resumen de cinco números
Resumen de cinco números
Resumen de cinco números

Paso 3: Identificar los cinco números

Ahora que tenemos los datos ordenados y además ya determinamos los valores de los tres cuartiles, el resumen de los cinco números es:

Mínimo:145
Q1:152
Q2 o Mediana:157
Q3:162,25
Máximo:170

Paso 4: Construir el diagrama de caja

Ya tenemos todo lo necesario para construir el diagrama de cajas a excepción del RIC. En base al resultado obtenido en el paso anterior, la diferencia entre Q3 y Q1 es:

Resumen de cinco números

Para determinar si existen datos atípicos, calculamos Q1 – 1,5 RIC y Q3 + 1,5 RIC y comparamos con el mínimo y el máximo:

Resumen de cinco números
Resumen de cinco números

Como podemos ver, no hay valores atípicamente pequeños ya que el mínimo, 140 es mayor que 136,625. Tampoco hay valores atípicamente altos ya que el máximo, 170, es menor que 177,625.

La siguiente figura muestra el resultado de construir el diagrama de caja correspondiente al ejemplo:

Resumen de cinco números

Referencias

Cómo reunir a un resumen de cinco números de una muestra estadística. (s. f.). FaqSalex.info. https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html

McAdams, D. (2009, 4 marzo). Resumen de cinco números. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/es/f/fivenumbersummary.html

Serra, B. R. (2020, 22 noviembre). Mediana. Universo Formulas. https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo

Serra, B. R. (2021, 4 agosto). Cuartiles. Universo Formulas. https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#ejemplo

Zentica Global. (s. f.). Brutalk – Cómo calcular el resumen de 5 números para sus datos en Python. Brutalk. https://www.brutalk.com/en/news/brutalk-blog/view/como-calcular-el-resumen-de-5-numeros-para-sus-datos-en-python-6047097da7d56