Revisión técnica de informes estadísticos

Informe Estadístico

Cuando realizamos un trabajo de corte estadístico, antes de entregarlo debiéramos realizar un control. Mismo cuando estamos por utilizar conceptos de un reporte de un tercero ¿Cómo puede hacerse esta tarea rápidamente con una eficiencia razonable? A continuación se presenta una guía práctica para enfocarse en lo importante.

Analice las muestras

Comience con las muestras. Si usted puede poner en duda la representatividad de las muestras, todo lo demás hecho después de eso no importa. Si usted es un experimentado en la aplicación de las técnicas estadísticas subsecuentes, probablemente el único lugar para buscar dificultades sean las muestras. Hay algunas razones para esto. En primer lugar, un estadístico puede no estar familiarizado con algunas de las complejidades técnicas de muestreo de la media o de la población objeto de la investigación. En segundo lugar, a menudo se le entrega el conjunto de datos con poca o ninguna explicación de los métodos de extracción de datos. En tercer lugar, como ya mencioné, el consultor estadístico probablemente obtendrá todo lo demás bien.

Revise los métodos

Cálculos

Es muy probable que los cálculos estén correctos. Hay demasiado desarrollo de software estadístico como para esperar un fallo en esta etapa; hasta la suma más simple se suele realizar con una calculadora. Visto de otro modo, revisar sus cálculos le será similar a volver a realizar el trabajo. Es mejor que invierta el tiempo de revisión en otros detalles.

Estadísticos Descriptivos

Los estadísticos descriptivos será el primer lugar donde comenzará a sospechar sobre un posible error. Una buena lectura de las medias, varianzas, mínimos y máximos nos permitirá localizar situaciones contradictorias y outliers que omitimos excluir. Verifique también que los tamaños de muestra son significativos. Asimismo, controle que hayamos realizado una correcta y representativa factorización de las variables de manera tal que no existan cúmulos (ni vacíos) que distorsionen la media.

Correlaciones

Las correlaciones que se generan al combinar factores se multiplican de una forma asombrosa y pueden afectar a las conclusiones. Para cada una de las que se muestren significativas, asegúrese de realizar el test t-student para testear que sea igual o diferente de cero, y grafique las dos variables involucradas.

Regresiones

Los modelos de regresión son uno de los más populares tipos de análisis que realiza el profesional estadístico dada su cercanía con el concepto de causalidad entre variables y la facilidad de explicarlo al usuario final. Sin mucho que decir en este punto, se recomienda repasar los siguientes puntos:

  • Datos: si el ratio entre puntos muestrales y variables explicativas no es mayor que 10 a 1, el modelo es inestable.
  • Intercepto: Debe de existir, al menos que haya una razón teórica para omitirlo. Cuando se omite el intercepto, téngase en cuenta que el coeficiente de determinación se infla artificialmente.
  • Variación: Observe las variaciones de las predicciones, usualmente expresadas en forma de desvío estándar. Puede estarse enfrente de un modelo muy preciso en su diseño, pero que su precisión en las estimaciones puntuales requeridas no sean aceptables.

Tests Estadísticos

Si el reporte ha sido hecho por nosotros mismos, sabremos cuál fue su fin. En caso de estarse analizando un reporte estadístico de un tercero, será prudente se revise la hipótesis nula planteada, si tiene sentido chequearla o se trata de una “profecía autocumplida”. Asimismo, compruébese que el error de tipo 1 sea el más costoso desde la óptica del objetivo analizado.

Análisis de la Varianza

El análisis ANOVA es, diríase, demasiado potente. Existen muchas formas en que el test puede quedar poco especificado, mal calculado o mal interpretado. Un buen ANOVA debe incluir la tradicional tabla de sumarización de cuadrados del ANOVA, un análisis de los desvíos de la hipótesis y un análisis de potencia. La falta de uno de estos elementos es motivo de sospecha para cualquier conclusión que emerja de él. Si el ANOVA no contiene una cantidad de muestras equilibradas por celda, estará desequilibrado; esto no es fatal pero violará varias de las suposiciones detrás del test. Si la muestra es demasiado pequeña, el ANOVA rechazará la hipótesis nula al detectar diferencias de medias muy importantes, dejando a veces sin utilidad el test.

Supuestos que se quedan y supuestos que se van

Los modelos estadísticos normalmente realizan cuatro suposiciones: linearidad, independencia, normalidad y homocedasticidad (véase la nota http://laboratorioactuarial.blogspot.com.ar/2012/08/los-4-supuestos-subyacentes-basicos.html). La violación de alguna de las cuatro suposiciones no necesariamente invalidan el reporte, pero seguramente requerirá que se adviertan sus resultados.

La independencia de variables es la cuestión más crítica. Normalmente se la garantiza con un estudiado método de muestreo, para evitar problemas típicos de correlación temporal y espacio-geográficos.

La igualdad de varianzas es más compleja. Existen tests para evaluar la suposición de homocedasticidad, pero pueden no haber sido mencionadas en el reporte de un tercero. En este caso se puede aplicar la siguiente regla de control del escrito: si la mayor varianza en a) en un grupo de un análisis ANOVA o b) en un regresor, es al menos dos veces superior al grupo o regresor con menor varianza, puede existir un problema de heterogeneidad de varianzas. Si dicho factor es mayor a cinco, definitivamente la igualdad de varianzas no existe.

La normalidad en los residuos puede ser importante. El problema que podemos tener es en la evaluación de tests de hipótesis que toman decisiones. O en distribuciones muestrales que están truncadas de un lado (mostrando evidente asimetría), como pasa típicamente con las variables enteras positivas. Asimismo, truncamientos de colas desmedidos provocarían un error grave si se les practica un test en esta cola.

La suposición de linearidad no es un ítem difícil de verificar. Basta con observar algunos gráficos de dispersión que usualmente contienen los reportes. Si el análisis estadístico avanza hacia modelos no lineales, no se podrán realizar muchas verificaciones sin los datos.

Otras Cuestiones

Gráficos

Los gráficos pueden inducir a varios errores, tanto a los lectores como al analista estadístico. En el caso de estar analizando un trabajo externo, un reporte en el que sólo aparecen gráficos de torta o de barras puede darnos un indicio de que estamos ente un analista novicio y se deberá profundizar la labor de revisión.

Los gráficos de barra deben ser examinados ante notorias distorsiones de la realidad. Las escalas de los ejes deben cumplir con una razonabilidad entre la exposición del detalle y la verdadera distribución subyacente.

Mapas

Así como en los gráficos, los mapas tienen muchos puntos a ser controlados que van desde lo más básico (orientación de la brújula, coordenadas, escala, contornos y leyendas) hasta cuestiones más complejas como los gradientes utilizados para interpolar los colores en un mapa de calor.

Documentación

Es importante que se incluyan referencias en un reporte, pero debieran ser las necesarias para alcanzar un nivel epistémico mayor del escrito en cuestión. Cualquier analista puede agregar unas cuantas líneas de bibliografía. Dependiendo de su especificidad y cantidad de menciones durante el contenido del trabajo, se podrá indagar si el documento está trabajado con bibliografía previa a conciencia.

Recuerde, si usted que es un estadístico, no revisa la bibliografía estadística, nadie más lo hará. Nuevamente, el análisis bibliográfico depende del tiempo que usted invierta en verificación, y de la importancia del documento.

Nos hemos enfocado en los aspectos técnicos del documento. En el caso que sea Ud, quien esté redactando reporte, le recomiendo esta segunda guía en la que encontrará una estrategia para vender mejor su trabajo ante público no especializado: http://nisusconsultora.com/2014/11/25/redaccion-eficaz-de-documentos-para-directivos/