Comentario de: Searching for Positive Returns at the Track. A Multinomial Logit Model for Handicapping Horse Races

Referencia.

Bolton, R. N., & Chapman, R. G. (1986). Searching for Positive Returns at the Track: A Multinomial Logit Model for Handicapping Horse Races. Management Science, 32(8), 1040–1060. doi:10.1287/mnsc.32.8.1040

Introducción a los comentarios de artículos.

Como se trata del primer comentario, me ha parecido interesante añadir un este prólogo antes del comentario en sí mismo, para, como su propio nombre indica, introducir los comentarios a artículos científicos o papers.

Comenzaré poniendo la referencia bibliográfica del artículo, y lo primero que te recomiendo puede parecer obvio, pero es que vayas al paper, lo leas, y después vuelvas aquí para leer el comentario. Una vez leído el artículo original este comentario tendrá sentido. La única excepción es que no manejes el idioma en el que fue escrito el paper, normalmente inglés. Yo trataré de ser claro en el comentario, y puede que sin leer el original lo que yo vaya diciendo te sea útil, pero la verdad es que te vas a perder bastante contenido.

El comentario en sí mismo empieza con los objetivos de la investigación que refleja el artículo. Aquí comentaré cómo se relacionan estos objetivos con las carreras de caballos. En ocasiones esto será muy obvio, pero otras veces no tanto (por ejemplo, cuando el artículo hable sobre teoría estadística).

Después, haré un repaso de los puntos principales que trata el artículo, dando mi opinión, para acabar viendo las conclusiones que plantea, comentándolas un poco también. Hay que aclarar una cosa muy importante: mi opinión en ningún caso pretende corregir a los autores del artículo, que son grandes expertos en el tema (de no serlo seguramente habría descartado el artículo), sino generar un debate y, en muchos casos, ver cómo se encuadra esa investigación en la realidad actual.

Terminaré con una lista de cinco artículos para ampliar el tema o que tengan relación. En ocasiones estos serán parte de la propia bibliografía del artículo comentado y otras veces serán aportaciones mías, pero siempre será material que yo haya leído, para garantizarme de que lo que recomiendo es adecuado. Si conoces algún paper que hayas leído y te parece interesante para recomendar o para que lo comente no dudes en hacérmelo llegar por las vías que figuran en la sección de Contacto.


Objetivos.

Definir cuáles son los objetivos de este artículo es bastante complicado, porque básicamente se propone solucionar el desarrollo de un método estadístico rentable de cara a las apuestas a ganador en un sistema de pari-mutuel como se puede encontrar en los hipódromos. Por este motivo lo he elegido para ser el primer artículo que comentar, ya que trata muchas de las cuestiones a las que deberás hacer frente si te interesa esta cuestión.

Puntos clave.

Un concepto que se mencionan a lo largo de todo el artículo es el de “eficiencia del mercado”, haciendo un paralelismo con la ciencia económica. Básicamente es medir cómo de precisas son las probabilidades de ganar que el público le otorga a cada caballo, en base a sus dividendos. Tengo un post en el que comento cómo pasar de dividendo a probabilidades, te recomiendo echarle un vistazo porque quizás aclare la cuestión si no acabas de verlo claro.

La primera idea que plantea es que un apostante sólo obtendrá beneficios si el público (el resto de los apostantes) subestima la capacidad de la selección en cuestión, es decir, si el mercado no es eficiente. Incluso si el dividendo refleja las probabilidades de la selección con rigurosa precisión, el apostante perderá a largo plazo debido al impuesto del hipódromo.

A partir de aquí el trabajo se divide en dos: encontrar un método para calcular las probabilidades mejor que el público y desarrollar una estrategia de apuestas.

El modelo estadístico.

Para elaborar un sistema de apuestas primero se deben conocer, o al menos aproximar, las probabilidades de ganar de cada caballo. La idea sería que cada caballo se puede entender como una lista de cualidades (actuaciones anteriores, efectividad del jockey, etc.) y, a partir de estas es posible determinar sus probabilidades de ganar comparándola con las cualidades de sus rivales. El modelo estadístico que eligen para realizar las predicciones es una regresión. Este sistema en principio es bastante simple, pero permite modelar relaciones lineales de forma eficaz.

Para que entiendas qué es una regresión te voy a mostrar un ejemplo. Pongamos que tenemos un caballo, que vamos a entender como un set de características. En este caso consistirá en la posición en la que ha quedado en sus últimas carreras y su cajón de salida en estas carreras. A continuación pongo la tabla y el gráfico:

Carrera Cajón Posición
1 1 7
2 1 9
3 1 8
4 2 4
5 2 6
6 3 5
7 3 4
8 5 3
9 5 2
10 6 3
11 7 1


Con estos datos parece bastante evidente que hay un sesgo en el hipódromo y que los cajones exteriores favorecen resultados mejores. Hay que tener en cuenta que esto se trata de un ejemplo muy simplificado, ya que en la realidad intervienen numerosos factores y nunca se puede reducir todo a un solo rasgo. Quizás en la carrera 11 nuestro caballo corrió contra ejemplares de menor valor, tuvo una mejor monta o, simplemente, ganó sin que un factor fuera crucial. Pero, como comentaba, esto es un ejemplo y vamos a suponer que el cajón de salida es lo único que afecta.

El modelo estadístico, la regresión, nos permite comprender la realidad y, lo que es más importante, predecirla. Para este caso la regresión queda como una ecuación de la siguiente fórmula (te dejo el código en el Code Book del final):

Siendo p la posición en la que va a acabar y c el cajón. Pongamos que sale del cajón 1. El resultado es 7.151 o, lo que tiene más sentido teniendo en cuenta que hablamos de posiciones, séptimo. Si hacemos lo mismo con el cajón 6 se obtiene 1.826, digamos segundo. Si no habías oído hablar de modelos predictivos espero que estés tan fascinado como yo lo estaba cuando descubrí esto. No es decir que hay un track bias y que es mejor salir por el exterior, es que sabemos “cuánto de mejor” es salir por el exterior y podemos predecir el resultado sabiendo de qué cajón se parte. Lógicamente la realidad siempre estropea los experimentos tan bonitos, y desde luego no es tan sencillo, pero espero que hayas entendido qué están haciendo Bolton y Chapman. En definitiva, es el ejemplo de los cajones de salida, pero usando un modelo que resulta en probabilidades y no en números enteros como mi regresión. Además, ellos utilizan muchos más factores, no sólo uno.

Como acabamos de ver, para predecir el futuro necesitas registros de carreras pasadas. Bolton y Chapman utilizan datos de 200 carreras, lo que les lleva 200 horas de trabajo para maquetar la información. Hay que tener en cuenta que es un artículo de 1986, por lo que no existía la posibilidad de montar un sistema de crawler + scraper para obtener los datos sistemáticamente. Si no entiendes qué significa lo que acabo de decir no te preocupes, en el futuro haré un post sobre ello, pero básicamente te tienes que quedar con que hoy día es más fácil automatizar la recogida de datos debido a ordenadores con más potencia, generalización de internet, etc.

De cada carrera extraen los siguientes datos para elaborar su ecuación.

Nombre de la variable Explicación
LIFE%WIN Porcentaje de victorias en los últimos dos años
AVESPRAT Speed rating de las últimas cuatro carreras
W/RACE Ganancias por carrera en el último año (en $000s)
LSPEDRAT Speed rating de la última carrera
JOCK%WIN Porcentaje de victorias jockey
JOCK#WIN Total de victorias jockey
JMISDATA Vale 1 cuando no hay datos sobre el jockey y 0 en caso contrario
WEIGHT Peso portado por el caballo
POSTPOS Cajón de salida
NEWDIST Vale 1 cuando el caballo ha corrido 3 o 4 de sus últimas 4 carreras en distancias inferiores a la estudiada y 0 en caso contrario

Pueden parecer pocas variables, pero en general reflejan bien las actuaciones pasadas del caballo y su jockey y pueden servir para modelar la realidad sin invertir muchísimo tiempo en recopilar los datos.

Una vez construido el modelo revisan qué variables explican mejor el resultado final, y llegan a la conclusión de que AVESPRAT es la más relevante, mientras que WEIGHT sería la menos importante. No dan una explicación clara sobre esto, así que voy a intentar hacerlo yo. En primer lugar, el peso portado no es relevante porque valores muy altos pueden reflejar tanto una alta calidad como un alto lastre, mientras que valores muy bajos pueden ser un regalo si el caballo tiene suficiente calidad, pero también un reflejo de su baja condición física. Por otro lado, los speed ratings son de las mejores formas de simplificar la actuación de un caballo. En el futuro hablaré de ellos, pero hay toda una corriente de handicappers (con Andrew Beyer, entre otros, como padre intelectual) que cree que el tiempo lo es todo. En definitiva, no siempre gana quien hace la mejor monta, pero siempre gana quien hace la distancia en menos tiempo, y, planteado así, es algo irrefutable. Sea como fuere, es una manera más o menos precisa de medir cómo de bien lo hizo un caballo, que además tiene en cuenta valores intermedios, no sólo ganador / perdedor, como LIFE%WIN, una variable para la que lo mismo puntúa llegar segundo por una cabeza que décimo a quince cuerpos del primero.

Estrategia de apuestas.

Llega el momento de probar la ecuación que han elaborado y para ello hacen una cosa muy importante, de sus 200 carreras de muestra usan 150 para construir la ecuación y 50 para probarla. Con esto se garantizan que no haya overfitting o, para que lo entienda todo el mundo, que no usan los mismos datos que usaron en el modelo para probarlo, un error más o menos frecuente que al final supone hacerte “trampas al solitario”.

Revisan distintas estrategias que aquí no voy a comentar, porque hablaré de ellas y muchas más en el futuro, pero concluyen que el mejor sistema es el Single Differential Bet Strategy, con un 3.6% de retorno a lo largo de las 50 carreras.


Conclusiones

La conclusión fundamental es que hay que ser optimistas respecto a la aproximación estadística a las carreras de caballos. No se trata de un fenómeno regido con puño de hierro por el azar, frente al que lo mismo da jugar tus euros al ganador obtenido tras 300 horas de estudio que jugárselos al que lleva tu número de la suerte. Esto puede parecer obvio si estás familiarizado con la estadística, pero es bastante gratificante cuando estás empezando.

Además, sienta las bases sobre lo que hay que hacer: recopilar datos, muchos datos, extraer variables útiles que expliquen la actuación del caballo, construir un modelo predictivo sólido y hacer pruebas. Y desde este momento (incluso desde antes), todos los intentos de elaborar sistema que se hacen por parte de matemáticos y expertos en estadística desde la universidad siguen ese modelo, porque saben que otra cosa es perder el tiempo. Es bastante sorprendente la disociación entre lo que la “academia” lleva haciendo desde hace tres décadas y las “tablas” que los aficionados hacen.

Confío en que esta reseña reduzca un poco esa brecha entre los estudios estadísticos universitarios y los métodos del aficionado normal, o, al menos, que sirva para que no se tire el dinero y el tiempo con métodos mágicos de gurús del Turf.

Recomendaciones para ampliar el tema.

Benter, W. (2008). Computer Based Horse Race Handicapping and Wagering Systems: A Report. World Scientific Handbook in Financial Economics Series, 183–198. doi:10.1142/9789812819192_0019

Beyer, A. (1994). Picking winners. A horseplayer’s guide. New York, United States: Houghton Mifflin Company.

Chapman, R. G. (2008). Still Searching For Positive Returns At The Track: Empirical Results From 2,000 Hong Kong Races. World Scientific Handbook in Financial Economics Series, 173–181. doi:10.1142/9789812819192_0018

Chatterjee, S., & Simonoff, J. S. (2012). Handbook of Regression Analysis. doi:10.1002/9781118532843

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer Texts in Statistics. doi:10.1007/978-1-4614-7138-7

Benter (2008) es un artículo muy similar y paralelo del que es todo un referente en modelos predictivos, William Benter, que alcanzó gran éxito en Hong Kong. Beyer (1994) es un libro, no un artículo, pero es un clásico en el que se explican las Beyer Speed Figures que incluso hoy día aparecen en los programas del Daily Racing Form en Estados Unidos. Viendo que estas figuras parecen ser buenas para predecir futuras actuaciones, es importante conocerlas de la mano de una de las personas que más han contribuído a su popularización. Chapman (2008) es, literalmente, la continuación del artículo que acabamos de ver, por lo que es un imprescindible si te ha interesado el tema. Las dos últimas recomendaciones son sobre estadística en general. Chatterjee & Simonoff (2012) es un manual sobre regresiones, el tipo de modelo que usan Bolton y Chapman en este artículo, que te ayudará a profundizar bastante más. Por último, James et al. (2013) es de los mejores libros para trasladar los conocimientos estadísticos al lenguaje de programación R.



Code Book.

Aquí tienes el código de R para poder hacer tu propia regresión lineal.


## seed & libraries
set.seed(230963)

## Generate the dataset
draw <- c(1,1,1,2,2,3,3,5,5,6,7)
act <- c(7,9,8,4,6,5,4,3,2,3,1)
race <- c(1:11)
act <- as.data.frame(act)
race <- as.data.frame(race)
draw <- as.data.frame(draw)
dataset <- cbind(race, draw, act)

## Linear regression
linReg <- lm(act ~ draw, data = dataset  )
summary(linReg)