Tabla de Contenidos
La varianza y la desviación estándar son dos términos de gran importancia, tanto en estadística como en todas las ramas de la ciencia y la ingeniería. Ambas son medidas de la dispersión con respecto a un valor central, pero, dependiendo del contexto en el que se utilicen, se pueden definir de formas diferentes.
En los campos de estadística y probabilidad, la varianza y la desviación estándar miden cuánto se alejan los valores de una variable aleatoria (casi siempre representada con la letra X) con respecto a su valor medio.
Sin embargo, cuando se utilizan estos términos en ciencias o en ingeniería, la varianza y la desviación estándar hacen referencia a la dispersión de una serie de datos, bien sea de toda una población o de una muestra, en torno a la media poblacional o muestral. También se suele utilizar la desviación estándar de una serie de medidas repetitivas utilizando el mismo instrumento de medida para dar una idea del nivel de precisión de dicho instrumento.
En el primer caso, la varianza y la desviación estándar miden la variabilidad de una variable aleatoria, mientras que, en el segundo, miden la dispersión de datos experimentales. En cualquiera de los dos casos, una varianza o una desviación estándar de cero indica que no hay variación alguna (la variable aleatoria es, en realidad constante, o los datos todos son exactamente iguales), mientras que un valor alto indica lo contrario.
Estos dos términos están muy relacionados y a veces se pueden confundir entre sí, sin embargo, hay diferencias claves entre las dos que veremos de inmediato.
Diferencias entre varianza y desviación estándar
1. Tienen definiciones diferentes
La primera diferencia de estos dos términos estadísticos es su definición:
Definición de varianza
En estadística, la varianza se define como el valor esperado del cuadrado de la diferencia entre el valor de una variable aleatoria y su valor medio.
Matemáticamente, esto se escribe como:
De manera un poco menos formal, también se puede definir como el promedio de los cuadrados de las diferencias entre los datos individuales de una serie de datos (poblacionales o muestrales) y su valor medio.
Definición de desviación estándar
Sin importar el contexto en el que se utilice, la desviación estándar, también conocida como desviación típica, se define como la raíz cuadrada positiva de la varianza.
Matemáticamente, esto se escribe como:
2. Se representan con símbolos diferentes
La varianza y la desviación estándar se representan de formas diferentes tanto en textos de estadística como en fórmulas y ecuaciones:
Varianza:
- σ2 cuando se refiere a la varianza poblacional
- S2 cuando se refiere a la varianza muestral
- Var (X) cuando se refiere a la varianza de una variable aleatoria, en este caso X.
Desviación estándar:
- σ cuando se refiere a la desviación estándar poblacional
- S cuando se refiere a la desviación estándar muestral
- SD(X) cuando se refiere a la desviación estándar de una variable aleatoria, en este caso X.
3. Tienen fórmulas diferentes
Tanto para el caso de la varianza como para la desviación estándar existen dos fórmulas, dependiendo de si la serie de datos a la que se le está calculando la varianza o la desviación estándar son datos de una población o de una muestra.
Fórmula de varianza poblacional (σ2)
En cualquiera de las dos fórmulas para la varianza poblacional, μ representa la media poblacional, Xi representa el valor del i-ésimo dato poblacional y N representa el tamaño de la población o el número total de datos.
Fórmula de varianza muestral (S2)
Aquí, x-barra representa la media de los datos de la muestra (media muestral), xi representa el valor del i-ésimo dato muestral y n representa el tamaño o número total de datos de la muestra.
Fórmula de desviación estándar poblacional (σ)
En el caso de la desviación estándar, ésta se puede calcular de tres formas diferentes:
Fórmula de desviación estándar muestral (s)
Aquí también se puede utilizar una de tres formas diferentes:
Se debe hacer una acotación con respecto a las dos últimas fórmulas. Es común que, al momento de calcular la desviación estándar, se calcule primero la varianza y luego se le saque la raíz cuadrada. Rara vez se determina la desviación estándar utilizando las últimas ecuaciones sin calcular primero la varianza, así que la primera casi siempre preceda a la segunda.
4. Tienen unidades diferentes
Tanto las unidades de la varianza como las de la desviación estándar dependen de la naturaleza y de las unidades de los datos o de la variable aleatoria a la cual se refieren, sin embargo, las unidades son diferentes en cada caso.
La desviación estándar tiene las mismas unidades de los datos originales o de la variable aleatoria, mientras que la varianza viene en estas unidades elevadas al cuadrado.
Ejemplo:
Si se tiene los datos de los pesos en kilogramos (kg) de una muestra de estudiantes de 8vo grado en determinada institución educativa, entonces la varianza de dichos datos tendrá unidades de kg2 mientras que la desviación estándar vendrá en kg.
5. Difieren en su interpretación
Tanto para la varianza como para la desviación estándar la interpretación es la misma que ya se mencionó: si valen cero, entonces no hay dispersión y todos los datos son exactamente iguales entre sí; si son valores pequeños entonces habrá poca dispersión y si son grandes habrá mucha dispersión.
Sin embargo, al momento de comprender qué significa ser un valor grande o pequeño, es mucho más fácil interpretar los valores de la desviación estándar que los de la varianza, ya que se encuentran en las mismas unidades que los datos. Esto no es tan sencillo en el caso de la varianza.
6. Difieren en su sensibilidad a valores extremos
Como medidas de dispersión, tanto la varianza como la desviación estándar sufren de sensibilidad a la existencia de valores extremos (bien sea muy altos o muy bajos). Esto significa que al describir una serie de datos en la que todos los datos son muy parecidos a excepción de uno que es mucho mayor o menor que los demás, ni la varianza ni la desviación estándar representarán bien la dispersión de los datos (ambas darán valores grandes a pesar de que la gran mayoría de los datos presentan muy poca dispersión).
Sin embargo, al comparar la varianza con la desviación estándar, la varianza es mucho más sensible a estos valores extremos ya que todas las desviaciones están elevadas al cuadrado, mientras que en la desviación estándar no.
7. Difieren en sus propiedades matemáticas
La última diferencia que veremos engloba en realidad varias diferencias mucho más profundas que son importantes, principalmente, para los estadísticos (o para aquellos que estén estudiando estadística).
Como funciones matemáticas, la varianza y la desviación estándar presentan diferencias en cuanto al efecto de multiplicar los datos por una constante, al efecto de sumar constantes, sumar variables aleatorias entre sí, elevar a potencias, etcétera.
Estas diferencias, sin embargo, están fuera del alcance de este artículo.
Ejemplo de cálculo de varianza y desviación estándar
Supongamos que se llevó a cabo el pesaje de una muestra de 12 toros provenientes de un productor local. Los pesos, en kilos se presentan a continuación:
507 | 497 | 510 | 508 | 491 | 510 |
500 | 509 | 496 | 491 | 505 | 503 |
Se pide determinar la varianza y la desviación estándar de esta muestra.
SOLUCIÓN
Como se mencionó anteriormente, al tener una serie de datos, resulta conveniente determinar, en primer lugar, la varianza y luego la desviación estándar.
Cálculo de la varianza muestral (S2)
Utilizaremos la segunda fórmula de varianza muestral, ya que resulta más práctica. Para ello se siguen los siguientes pasos:
- Paso 1: Se hace una lista vertical de todos los datos
- Paso 2: Se calcula el cuadrado de cada dato y se escribe a su lado en una columna nueva.
- Paso 3: Se suman todos los datos y se anota el resultado al final de la primera columna.
- Paso 4: Se suman todos los cuadrados y se anota el resultado al final de la segunda columna.
Estos primeros 5 pasos se resumen en la siguiente tabla:
Xi | Xi2 |
500 | 250000 |
509 | 259081 |
496 | 246016 |
491 | 241081 |
505 | 255025 |
503 | 253009 |
507 | 257049 |
497 | 247009 |
510 | 260100 |
508 | 258064 |
491 | 241081 |
510 | 260100 |
∑Xi | ∑Xi2 |
6027 | 3027615 |
- Paso 5: Se utiliza la fórmula para calcular la varianza:
Así que la varianza de la muestra es aproximadamente S2 = 50 kg2.
Cálculo de la desviación estándar muestral (S)
Ahora que tenemos la varianza, calcular la desviación estándar es tan sencillo como sacar la raíz cuadrada de la primera:
Como se puede observar, la comparación de la desviación estándar, que es 7 kilos, con el peso promedio de los toros, que es de 502,25 kilos (calculado por separado), nos permite concluir que esta muestra tiene una dispersión baja, ya que es de tan solo el 1,4% del peso promedio de los toros.
Referencias
Espinoza, C. I., & Echecopar, A. L. (2020). Aplicaciones Estadísticas usando MS Excel con ejemplos paso a paso (Spanish Edition) (1.a ed.). Lima, Perú: Luis Felipe Arizmendi Echecopar y Duo Negocios SAC.
Investopedia. (2021, 16 abril). Learn How Standard Deviation Is Determined by Using Variance. Recuperado 24 de julio de 2021, de https://www.investopedia.com/ask/answers/021215/what-difference-between-standard-deviation-and-variance.asp
López, J. F. (18 de noviembre, 2017).Varianza. Recuperado de https://economipedia.com/definiciones/varianza.html
National Institute of Standards and Technology. (s. f.). Basic definitions of uncertainty. Recuperado 24 de julio de 2021, de https://physics.nist.gov/cuu/Uncertainty/basic.html
Webster, A. (2001). Estadistica Aplicada a Los Negocios y La Economia (Spanish Edition). Toronto, Canada: Irwin Professional Publishing.