¿Qué entendemos por ser precisos?

Precisión y exactitud, sesgo y varianciaImagínese practicando puntería contra una diana, ya sea usando dardos, arco y flecha, armas de fuego, u otro artefacto. Su objetivo es acertar al centro de la diana. Si sus disparon cayeron altededor del área que apuntó, tuvo exactitud o efectividad. Si todos sus tiros se dieron concentrados en una pequeña área, se dice que fue preciso. Anbas propiedades no están relacionadas: usted puede ser preciso pero no exacto, o exacto pero no preciso. Exactitud y precisión se buscan al trabajar con estimaciones basadas en datos.  Las mismas condiciones se buscan al recolectar datos o realizar mediciones. Notará que al recolectar datos bajo condiciones similares, obtiene resultados discímiles. La falta de precisión se denomina “Variabilidad“. La variabilidad se encuentra en toda la naturaleza. En efecto, es la sal de la vida. Sin ella, todos los vinos sabrían igual, Todas las carreras terminarían en empate. Incluso las estadísticas podrían perder su encanto. Así que un poco de variabilidad no es tan malo. La pregunta importante, sin embargo, es ¿qué tipo de variabilidad?

Orígenes de variabilidad

Suponga que usted está sentado en su silla mirando su noticiero en pleno verano. Los informes de gente veraneando en la calurosa arena de Mar del Plata  y el reciente café que se preparó le hacen sospechar la temperatura de 20 grados indicada por el visor su aire acondicionado. Entonces toma un termómetro y comienza a tomar medidas de temperatura. Hay 16 grados en la boca del aire acondicionado, 30 grados contra la ventana asoleada, 25 grados en el sillón de cuero y 19 grados en la TV.

PIense en estas medidas como la suma de cinco componentes:

  • Características de la población: La porción de la información que no varía entre la muestra y la población (realidad). Esta es la parte que interesa descubrir. Si se piensa al espacio de la habitación como la población que se desea medir, la temperatura característica podrían promediar 22 grados.
  • Variabilidad natural: La diferencia inherente entre la población y la muestra. Surge de la incertidumbre o variabilidad en los patrones de la población al momento de tomar la muestra. En un ambiente totalmente determinístico y con pleno conocimiento de la población, el muestreo de la temperatura en el mismo sector de la habitación obtendría idéntico resultado. Pero en el mundo real, el tiempo corre y varias temperaturas circulan en la habitación. Si todos los demás orígenes de variación fueran controlados, las diferencias registradas corresponderían a variabilidad natural.
  • Variabilidad en el muestreo: diferencias entre la muestra y la población atribuíble a la pérdida de representatividad de la muestra respecto a la población. Minimizar el error muestral requiere que se conozca la población que se trata de evaluar. La variabilidad de la temperatura en la habitación se puede deber a los sectores específicos en los que se hicieron las mediciones.
  • Variabilidad en la medición misma: Diferencias entre la muestra y la población debido a cómo se han practicado las medidas. Para minimizar este componente de error, es necesario que los instrumentos de medición funcionen correctamente, los procedimientos de medición estén estandarizados y comprobados, y que las escalas de medición sean lo más precisas y exactas posibles. La variabilidad será diferente según si el tipo de termómetro fuera mecánico o electrónico.
  • Variabilidad del entorno: Diferencias entre la población y la muestra atribuíbles a factores externos. minimizar la variancia del medio ambiente es dificultoso porque existen muchas variables y algunas de ellas muchas veces no las podemos controlar. Por ejemplo, el aire acondicionado pudo haberse quedado sin electricidad unos segundos por un corte de luz, o una nube tapó el calor del sol durante unos minutos. El propio movimiento de su cuerpo al movilizarse por la habitación tomando temperaturas hizo que se provocara movimiento de aire y consecuentes variaciones no deseadas en las mediciones.

Cuando analiza una población, usted está interesado en estudiar sus características y su variabilidad natural. Tratará de evitar y minimizar los errores debidos a la selección de la muestra, la toma de las mediciones, y controlar el acceso de eventos externos no deseados en los resultados.

Variabilidad versus Sesgo

Volvemos al ejemplo de la práctica de puntería. Si ha tenido poca variación en sus disparos y buena puntería, las desviaciones entre los disparos y el objetivo serían al azar en distancia y dirección. Sus disparon fueron exactos y precisos. Pero, ¿qué sucedería si hubiera hecho los disparos con un arma desalineada? En su lugar, hubiera obtenido una desviación sistemática causada por la visión desalineada, aunque hubiera conservado su pulso. Sus tiros hubieran sido inexactos, aunque con la misma desviación promedio desde el centro de ellos. Esta desviación sistemática entre este centro de los disparos y el objetivo se llama sesgo. Usted no pudo haberse dado cuenta de elllo antes de disparar, pero luego de varios intentos, el desvío sistemático hacia la misma dirección le haría sospechar.

Entonces, las relaciones a recordar son:

Variación – Impresición
Sesgo – Inexactitud

La mayoría de las estimadores estadísticos desarrollan resultados insesgados, siempre y cuando se cumplan sus suposiciones. Si no se obtienen los resultados deseados, no hay que culpar a las estadísticas, puede que hayamos errado nosotros mismos. Durante el transcurso de cualquier análisis estadístico hay varias decisiones que tomar que involucran datos. Cualquiera sea la decisión, como mantener o liminar un valor atípico, habrá un cambio en la precisión, o incluso en la exactitud. Un consultor estadístico en general tratará de ser conservador, tratando de tomar decisiones en los datos en contra de sus expectativas. Pero cuando no se tienen los resultados esperados, muchos analistas regresan a ajustar sus datos. Llegado este punto el análisis perdió toda valoración objetiva. Este sesgo se evita sencillamente tomando unicamente decisiones basadas en principios estadísticos.

A veces el sesgo no es culpa del analista. Buena parte de los orígenes de los sesgos es la falta de publicación de informes en los que “no sucede nada”. Por ejemplo, las investigaciones dedicadas a un tipo de droga que no logra los resultados esperados, no son publicadas. Esta modalidad también genera presiones en el investigador, que se ve obligado a obtener resultados positivos para ganar reconocimiento; por tanto, puede ser tentado a distorsionar sus resultados.

Es por ello que debe utilizar informes realizados por profesionales de confianza, en los cuales se detallen valores como tamaño de muestra y varianzas. Recuerde, las estadísticas no mientes, los hombres sí.