La estadística no es un chiste: cuándo podemos fiarnos de la media

Photo by Christian Dubovan on Unsplash. Unsplash, CC BY

La estadística no es un chiste: cuándo podemos fiarnos de la media

Un chiste dice que si una persona come dos pollos y otra ninguno, la estadística considerará que de media cada uno ha comido un pollo. Otra versión afirma que, si pusiéramos la mitad del cuerpo en un horno a 50 ℃ y la otra mitad en un frigorífico a cero, tendríamos el cuerpo a una media de 25 ℃ .

Dicho así, la estadística no parece una disciplina ni muy solidaria ni muy sensata. En este breve artículo queremos hacer ver la falacia que estos chistes esconden y mostrar la cautela con la que hay que tratar cualquier valor medio.

La media es un valor que resume un conjunto de datos. Por ejemplo, tomemos la Encuesta de Estructura Salarial en España publicada por el Instituto Nacional de Estadística (INE) en 2012. Obtuvo que el salario medio bruto anual por trabajador era de 22.790 euros.

Para obtener este valor, se recopila información de los asalariados que trabajan a tiempo parcial y a tiempo completo, de los directivos y empleados, de mujeres y hombres. En todos los casos existe una notable diferencia de salarios según el colectivo escogido. Hay, por tanto, demasiada heterogeneidad en los salarios o, como se dice en estadística, variabilidad o dispersión.

En consecuencia, el dato así presentado puede que dé la razón a la historieta de los pollos. Muchos asalariados españoles no se sentirán representados con la cifra del salario medio.

Media y mediana. INE

Por supuesto, la estadística dispone de métodos para establecer la validez de los resúmenes que proporciona. A la hora de interpretar una media, se acompaña de una medida de la dispersión de los datos respecto a la media. Cuando la dispersión es alta, la media es poco representativa y, por tanto, no se debería utilizar como resumen de los datos.

¿Cómo se mide la dispersión? Hay varias formas de hacerlo pero destaca una medida llamada desviación típica. No entraremos en ella, solo veremos dos situaciones extremas. Por un lado, imaginemos que todos los asalariados ganan lo mismo: 22.790 euros brutos anuales. Entonces no hay dispersión y la desviación típica es cero, por lo que el valor medio da un resumen perfecto.

Ahora imaginemos que la mitad de asalariados trabaja gratis y percibe cero euros al año, mientras que la otra mitad recibe justo el doble de 22.790 euros. La media sigue siendo la misma, pero la variabilidad es muy alta. En otras palabras, y trasladándolo al chiste, la mitad se come dos pollos y la otra mitad, ninguno.

En los dos chistes, se utilizan datos muy dispersos para calcular el valor medio, por lo que este no es válido como resumen representativo de los datos. En el caso de los salarios, también hay mucha dispersión. Basten tres datos: el salario de más de un tercio de los trabajadores se aleja más de 9.000 euros del salario medio; la mitad de los asalariados, más de 6.000 euros, y el 75%, más de 3.000 euros.

Expongamos los datos anteriores de una forma más familiar. Imagínense que, tras consultar en todas las tiendas, obtenemos que el precio medio de un producto es de 100 euros. Sin embargo, el 35% de las tiendas lo tienen 40 euros más caro o más barato. En la mitad, la diferencia es de más de 25 euros. En el 75%, de más de 13 euros. ¿A que no daría igual comprar en una tienda que en otra?

En conclusión, un valor medio debe ir acompañado de una medida de la dispersión de los datos para poder conocer su representatividad. Cuando la dispersión es alta, una buena alternativa a la media es la mediana, que proporciona el valor por debajo del cual se encuentra la mitad de los individuos. En el caso de los salarios, la mediana es de 19.017 euros brutos anuales. Es decir, la mitad de los asalariados españoles gana menos de esa cantidad.


Este artículo fue publicado originalmente en el blog de la UPNA Traductor de ciencia.