La libertad y el control de la varianza

En un mundo ideal, nuestro set de datos no tendría sesgo y estaría afectado unicamente por variabilidad natural. Esta situación no sucede en los hechos reales que analizamos. Muchas veces nos encontramos con datos que poseen demasiada variabilidad que derrumba nuestras conjeturas estadísticas. El escenario se torna más peligroso cuando añadimos a esta situación que el sesgo es pequeño, dándonos una falsa seguridad para la toma de decisiones.Continuando nuestra nota anterior, podemos mirar la variabilidad en términos de cómo afectan a los datos y cuál es nuestra posibilidad de control que tenemos sobre ellos.

cuadro de variablidad

La variabilidad en el muestreo y las mediciones pueden ser controladas sin pérdida de información. La variabilidad del entorno a veces puede controlarse y a veces no. Estos tipos de variabilidad suelen afectar a todo el conjunto de datos.

La variabilidad natural es la que da al proceso en estudio su característica aleatoria y no puede ser controlada. Los sesgos también afectan a todo el set de datos y pueden ser controlados si podemos identificarlos. Cabe destacar que el sesgo puede ser intencional si por ejemplo explotamos nuestra muestra por una variable y cada subconjunto tiene características propias que le hacen diferir de los parámetros de la población conjunta; no más que una clasificación.

Los errores en los datos afectan mismamente a ese dato. Los shocks son eventos de corta duración no deseados en nuestros datos que afectan a uno o varios de nuestros datos de análisis. Ejemplo de shocks son: un accidente vehicular en una medición de tráfico en una autopista. La pérdida de un proceso de datos diarios en un sistema de información. Un corte de luz que impidió tomar mediciones durante un período. Una decisión repentina sobre el precio de productos en análisis.

Tres maneras de conceptualizar la varianza

Existen técnicas utilizadas por los profesionales estadísticos para desmembrar la variabilidad en los componentes analizados hasta aquí. Nombraremos tres de las proncipales:

Referencia

Se basa en que nuestra muestra puede compararse con otro experimento, muestra, lineamiento, procedimiento o un estándar generalmente aceptado. Ellos tendrán similares operaciones o resultados con sus datos, y las diferencias halladas nos dará conocimiento de la variabilidad en nuestro análisis. Las referencias pueden usarse durante varias etapas:

  • En el relevamiento de datos: el conocimiento de los errores calibración de las herramientas de medición.
  • Durante el tratamiento de datos: las referencias con datos externos no nos permitirá reducir la variabilidad en el muestreo y la medición, pero puede ayudarnos a obtener una magnitud de ella. Asimismo colabora con la detección de variabilidad en el entorno en caso de haber una documentación minuciosa de las condiciones en que se realizó el muestreo de referencia.
    La manera más común y accesible de conseguir una referencia es mediante una muestra de  control, consistente en separar un lote de nuestros datos y mantenerlo apartado de la experimentación a realizar. Por ejemplo, durante la experimentación de una droga experimental en 100 pacientes, a 20 de ellos se les ofrece en su lugar un placebo.

Réplicas

Otra manera de obtener información del tipo de variabilidad es internamente mediante réplicas. La repetición o aseguramiento de un aspecto del estudio es una especie de referencia.

Ejemplos de ello son las preguntas que tienen cierta redundancia en un cuestionario, que fueron planificadas con el objetivo de chequear la consistencia de las respuestas aportadas. Por ejemplo:

  • ¿considera que la compañía tiene buenos salarios para sus empleados?
  • Tache los motivos por los cuales no nos eligió para trabajar: a) cercanía del hogar; b) mejor salario; c) plan de beneficios; d) oportunidades de crecimiento.

Replicar también puede entenderse como el hecho de tomar medidas de un atributo de varias formas diferentes. Por ejemplo, el tamaño de un cliente mediante su ingreso salarial, o su ingreso salarial anual.

Mencionaré como párrafo aparte de nuestro tema que el trabajo con información replicada requiere de ciertos cuidados durante el análisis. La utilización de dos representaciones de un atributo que conceptualmente sean lo mismo (por ejemplo, el último salario y el promedio salarial de un cliente como atributo de riqueza) provoca problemas de sobre-representación. Hay que unificarlas o descartar la que menos información nos brinde.

Aleatorización

Los profesionales de la estadística llamamos llamamos aleatorización al asignamiento aleatorio de tratamientos en un diseño experimental. En un sentido más común, la aleatorización involucra cualquier acción tomada para generar más datos aleatorios.

La aleatorización es muy útil en los estudios estadísticos porque minimiza (pero no elimina) la posibilidad de tener muestras sesgadas, ya que le “roba” importancia. En consecuencia, también minimiza el impacto de la variabilidad del entorno.  Resulta irónico que la introducción de irregularidades (aleatorización) a nuestros datos puedan reducir las irregularidades en los resultados.

Cabe destacar que tanto en las réplicas como en la aleatorización incorporada, no deben opacar la variabilidad natural implícita en nuestros datos. La idea es que tales incorporaciones no disuelvan las respuestas que nos contarán los datos, sino la de ayudarnos a descubrirlas.