Estadística en una cadena hotelera

Test de hipótesisEres el manager de West Garden, una cadena hotelera de cinco complejos ubicados en dos islas tropicales. Sabes por experiencia que un cliente conforme tendrá más posibilidades de volver, has colocado tu foco en ese objetivo. Para obtener tus estadísticas de calidad de atención, provees de un cuestionario al cliente en su check-out. Estos formularios te permitirán conocer el nivel general de satisfacción por los servicios proveídos y las diferencias entre los complejos. Aunque también estás interesado en cuál es la verosimilitud con la tasa de retorno de los turistas.

Test Chi-cuadrado para la diferencia entre dos proporciones

En una de las islas West Garden tiene 2 de sus cinco hoteles (el Blue Hotel y el Yellow Hotel). De los cuestionarios relevados, eliges la pregunta “¿Elegirías este hotel nuevamente?” como la más verosímil con tu objetivo: tener una tasa elevada de retorno. Se obtuvo una proporción de 163/227 respuestas positivas en Blue Hotel y 154/262 en Yellow Hotel. Para detectar diferencias en el nivel de satisfacción del cliente, podemos practicar un test de diferencia de proporciones mediante una distribución t-student o con una tabla de contingencias y la distribución Chi-cuadrado.

Una tabla de contingencias para dos grupos se construye así:

Grupos

1

2

Totales

Items de Interés $latex X_1$ $latex X_2$ $latex X$
Items sin interés $latex n_1 – X_1$ $latex n_2 – X_2$ $latex n – X$
Totales $latex n_1$ $latex n_2$ $latex n$
$latex X_1 $ = número de ítems de interés en grupo 1
$latex X_2 $ = número de ítems de interés en grupo 2
$latex n_1 – X_1 $ = resto de ítems en grupo 1
$latex n_2 – X_2 $ = resto de ítems en grupo 2
$latex X = X_1 + X_2$ = número total de ítems de interés
$latex n – X $ = resto de items
$latex n_1 $ = tamaño muestral del grupo 1
$latex n_2 $ = tamaño muestral del grupo 2
$latex n = n_1 + n_2 $ = tamaño muestral total

Es decir que se trata de una tabla de frecuencias con sus totales, con la particularidad de encolumnar los grupos sobre los que deseamos testear una diferencia. La tabla que necesitamos construir es la siguiente:

Hotel

¿Volvería a este hotel?

Blue

Yellow

Totales

SI

163

154

317

NO

64

108

172

Totales

227

262

489

Debemos testear la hipótesis de si la proporción de huéspedes que podrían retornar en el hotel Blue $latex \pi_1$ es igual a la proporción de huéspedes que podrían retornar al hotel Yellow $latex \pi_2$. Las hipótesis nula y alternativa serían:

$latex H_0: \pi_1 = \pi_2 $
$latex H_1: \pi_1 \neq \pi_2$

El estadístico de prueba utilizado para docimar diferencias de proporciones mediante tablas de contingencia es el siguiente:

$latex \chi^2_{\rm p}
\sum\limits_{\substack{celdas \\ internas}}\frac{(f_0 – f_e)^{2}}{f_e}$

$latex f_0 $ = frecuencia observada en la celda
$latex f_e $ = frecuencia esperada en la celda bajo hipótesis nula cierta
$latex \chi^2_{\rm p}$ = estadístico con distribución chi-cuadrado con un grado de libertad

Observemos que el estadístico penaliza las diferencias entre observaciones esperadas y observadas. Para computar $latex f_e$, necesitamos entender que si $latex H_0$ es cierta, las proporciones entre ambos hoteles sólo pueden variar por azar. Su estimación se calcula tomando la proporción observada en el total de observaciones, es decir,

$latex \hat{p} = \frac{X_1 + X_2}{n_1 + n_2} = \frac{X}{n}$

Luego, $latex f_e$ se obtiene como el producto de $latex \hat{p}$ con el tamaño de muestra de cada hotel. La segunda fila (los NO esperados) se completa con el mismo procedimiento con la proporción $latex 1- \hat{p}$. Agregamos entre paréntesis a la tabla de valores los valores esperados:

$latex \hat{p} = \frac{163 + 154}{227 + 262} = \frac{317}{489} = 0.6483$

Hotel

¿Volvería a este hotel?

Blue

Yellow

Totales

SI

163 (227*0.6438 = 147.16)

154 (262*0.6438 = 169.84)

317

NO

64 (227*(1-0.6438) = 79.84)

108 (262*(1-0.6438) = 92.16)

172

Totales

227

262

489

Luego computamos el estadístico chi-cuadrado

$latex \chi^2_{\rm p} = \frac{(163 – 147.16)^{2}}{147.16} + \frac{(64 – 79.84)^{2}}{79.84} + \frac{(154 – 169.84)^{2}}{169.84} + \frac{(108 – 92.16)^{2}}{92.16} = 9.05$

Este es el número que estuvimos buscando con cierta labor, y representa el grado de diferencia de calidad de atención entre los dos hoteles. Para juzgar la hipótesis nula, necesitamos aún de un valor crítico que nos construya una regla de decisión. Cabe destacar que al ser un proceso aleatorio, cualquier decisión, con o sin dicha regla, tendrá un margen de error. En estadística lo denominamos significatividad. Bajo hipótesis nula de igualdad de proporciones, el estadístico que construímos puede tener valor positivo unicamente por consecuencias del azar, distribuidos como una chi-cuadrado con 1 grado de libertad. Por ejemplo, en el 5% de los casos, podría superar el valor de 3.841. Podemos verlo en el siguiente gráfico:

Este puede ser un buen punto para decidir. Si el cálculo nos arroja un valor superior a 3.841, estaremos seguro que por azar sólo se supera este valor muy pocas veces (5%). Por tanto, si en nuestro análisis dio 9.05, la diferencia seguramente no es por azar y decidiremos que hay diferencia de calidad atención entre los hoteles (con un riesgo de equivocarnos de monos del 5%).

Otra forma de decidir es obteniendo cuál sería la probabilidad de obtener 9.08 bajo hipótesis nula cierta (dicho valor se llama p-value). En dicho caso, la probabilidad nos da 0.0026 = 0,26%. A partir de ello, tomamos nuestra propia decisión. El problema de no armar una regla fija (como la del 5% de significatividad) es que nosotros podemos tomar una decisión en base a ese número, pero otra persona puede decidir diferente. Por tanto la regla de decisión es para fijar un estándar y siempre se decida del mismo modo al repetir el experimento.

Este test no nos permitió conocer la direccionalidad del resultado, es decir, cuál de los dos hoteles tendrá una posible mejor tasa de retorno. Para ello debió practicarse el test t o test z, y haberse cambiado las hipótesis por las siguientes:

$latex H_0: \pi_1 = \pi_2 $
$latex H_1: \pi_1 > \pi_2$

Este test lo veremos en otro momento.

Test Chi-cuadrado para la diferencia entre varias proporciones

La razón por la que decidí escribir sobre el test chi-2 y no sobre el test z o test t, es porque tenemos el siguiente casi general que nos permite chequear más de dos proporciones al mismo tiempo. Si tenemos c grupos independientes, nuestra hipótesis nula es todos los grupos tienen igual proporción (todos!). La hipótesis alternativa es que algún grupo es diferente

$latex H_0: \pi_1 = \pi_2 = \pi_3 = \ldots = \pi_c$
$latex H_1 $ algún $latex \pi$ es diferente del resto

El armado de la tabla de contingencias, el estadístico de prueba $latex \chi^2_{\rm p}$y la porporción $latex \hat{p} $ se calculan exactamente igual. Los grados de libertad de la distribución chi-2 bajo $latex H_0$ se calcula como el número de grupos c menos 1.

Veamos por ejemplo los resultados de nuestros otros tres hoteles en la otra isla

Hotel

¿Volvería a este hotel?

Red

Orange

Green

Totales

SI

128

199

186

513

NO

88

33

66

187

Totales

216

232

252

700

Realizamos los cálculos nuevamente

$latex \hat{p} = \frac{128 + 199 + 186}{216 + 232 + 252} = \frac{513}{700}= 0,733$

Hotel

¿Volvería a este hotel? Red

Orange

Green

Totales

SI

128 (216*0.733 = 158.30)

199 (232*0.733 = 170.02)

186 (252*0.733 = 184.68)

513

NO

88 (216*(1-0.733) = 57.70)

33 (232*(1-0.733) = 61.98)

66 (252*(1-0.733) = 67.32)

187

Totales

216

232

252

700

Luego computamos el estadístico chi-cuadrado

$latex {\chi^2_{\rm p} = \frac{(128 – 158.30)^{2}}{158.30} + \frac{(199 – 170.02)^{2}}{170.02} + \frac{(186 – 184.68)^{2}}{184.68} + \frac{(88 – 57.70)^{2}}{57.70} + \frac{(33 – 61.98)^{2}}{61.98} + \frac{(66 – 67.32)^{2}}{67.32} = 40.23}$

En este caso tenemos 3-1=2 grados de libertad. A medida que se tiene más grados de libertad, hay más sumandos en el estadístico y por lo tanto los valores encontrados tenderán a subir.

Con una probabilidad de menos del 5%, el estadístico de prueba no podría superar el valor de 5.991. Siendo que su valor es 40.23, es casi imposible obtener este valor si los tres hoteles tuvieran la misma proporción de contestaciones positivas, y se rechaza tal hipótesis. Para conocer cuáles de los hoteles con diferencias, se necesita hacer por ejemplo un emparejamiento de a dos con test-t o test-z.