Modelo de Goles de PredictApp explicado

La mayoría de los productos de predicción deportiva son cajas negras. Te dan un número. Sin explicación. Sin metodología. No tienes ni idea de si proviene de un modelo real, de la opinión de alguien o, peor aún, de una “predicción” de IA.

PredictApp está diseñado para funcionar de forma diferente. En este artículo te explico de manera accesible nuestro modelo de goles que impulsa las predicciones de mercados de goles (ambos equipos a anotar, goles over/under, probabilidad de porterías a cero y total de goles del equipo). Aquí está el sistema completo de tres niveles, sin toda la dificultad matemática.

Nivel 1: RWI: Cuatro estados de equipo antes del partido

El primer nivel del modelo es el Índice Roiz-Walss (RWI). Es una señal previa al partido que construí a partir de la pregunta más fundamental en la analítica de fútbol: ¿qué tan fuerte es cada equipo, ahora mismo, para este partido?

En este articulo te voy a dar una explicación rápida del RWI. Si quieres saber más a detalle cómo se calcula el RWI, puedes encontrar una explicación completa aquí.

En fútbol, muchos análisis usan sistemas de puntuación como Elo para medir que tan fuerte es cada equipo. Eso es útil para clasificaciones aproximadas de equipos, pero como se trata de un solo número, comprime información importante. Un equipo puede ser fuerte en casa y frágil fuera. Fuerte en ataque y débil en defensa. Por esta razón, los sistemas de puntuación no son los mejores si quieres predecir goles. RWI resuelve este problema rastreando cuatro estados differentes para cada equipo:

AH (Fuerza ofensiva local): Qué tan bueno es el equipo para anotar goles cuando juega en su propio estadio.
DH (Debilidad defensiva local): Qué fácil es que este equipo reciba goles en casa.
AA (Fuerza ofensiva visitante): Qué tan bueno es el equipo para marcar goles fuera de casa.
DA (Debilidad defensiva fuera de casa): Qué fácil es que este equipo reciba goles cuando juega fuera de casa.

Estos cuatro estados se actualizan después de cada juego. Si un equipo pierde a tres defensores clave por lesión y sus resultados defensivos cambian, la calificación de DH refleja eso en las predicciones de la siguiente jornada.

¿Por qué cuatro estados en lugar de uno?

Imagina esto: un equipo ha ganado todos los partidos jugados en casa y ha conseguido algunas victorias fuera de casa y un par de empates. Estos resultados hacen que este equipo esté entre los cinco mejores de la liga.

Ahora, añadamos más contexto e imaginemos esto: nuestro equipo marca 2.12 goles por partido en casa, pero solo 0.8 goles por partido fuera. Está claro que nuestro equipo no tiene la misma fuerza ofensiva jugando en casa que fuera. También está claro que jugar en casa o visitante cambia el contexto.

Si usas un solo número como ELO, entonces nuestro equipo será muy fuerte porque ha obtenido resultados positivos y ha acumulado puntos. Pero, como sabemos, el equipo no es tan fuerte cuando juega fuera de casa. Así que usar un único número probablemente resultaría en más goles esperados para nuestro equipo cuando jueguen fuera de casa de lo que es.

Nuestra estructura de cuatro estados del RWI es lo que permite a nuestro modelo diferenciar los partidos en casa y fuera, que es exactamente cómo funciona el fútbol.

Conocimiento de la formación

RWI también conoce la alineación. Cada jugador tiene un valor individual estabilizado construido a partir de sus minutos jugados y su posición. Cuando falta un delantero clave, la calificación ofensiva del equipo se ajusta. Cuando un portero titular regresa de una lesión, la calificación defensiva lo refleja. No se usan calificaciones fijas, el modelo utiliza la alineación real para el partido específico.

Conocimiento de la liga

Una diferencia de goles esperada de 2.1 en la Bundesliga no significa lo mismo que un 2.1 en la Copa Libertadores. En la Bundesliga se marcan más goles por partido (3.16 vs 2.45 goles por partido).

Por eso, el RWI utiliza criterios específicos de la liga: la media de goles por equipo, la ventaja de jugar en casa y la dispersión por diferencia de goles se calculan por separado por liga. Esto es lo que hace que el modelo multi-liga funcione. La señal está calibrada para la competencia de la que proviene.

Resultados RWI

RWI como estadística se representa como un número único, la diferencia de goles esperada para el partido. Y esto es lo que se utiliza para el modelo de resultados. Pero para predecir cuántos goles marcará un equipo no necesitas la diferencia. Así que tomé los resultados del RWI sin procesar. Esto es los goles esperados de cada equipo en un partido dado.

Nivel 2: El modelo de goles

Nuestro RWI es un gran punto de partida, pero no es el modelo final. Es una señal previa al juego que el modelo de segundo nivel utiliza como información principal junto con las características del contexto del juego.

EL segundo nivel es un modelo combinado que predice dos números: los de goles esperados en del equipo local y los goles esperados del equipo visitante para el partido específico.

Cuatro familias de modelos, un solo resultado

Durante el desarrollo, hice benchmarks de cuatro tipos de modelos en la validación cruzada caminando hacia adelante a lo largo de varias temproadas:

Poisson GLM: un enfoque estadístico clásico para contar datos como goles. Interpretable, estable y generaliza bien.
LightGBM: un modelo de gradient boosting que captura interacciones no lineales entre características que el GLM no detecta.
CatBoost: otro modelo con gradient boosting que tiene un manejo sólido de características categóricas y un enfoque de entrenamiento diferente al de LightGBM.
Regresión Ridge: un modelo lineal regularizado que funciona bien cuando la señal es aproximadamente lineal pero el espacio de características es amplio.

Cada familia modelo se entrenó por separado tanto para los goles del local como para los goles del visitante. Fueron evaluados en MAE de goles de local, MAE de goles de visitante, MAE de goles totales, desviación de Poisson y tasa exacta de acierto.

Ningún modelo individual dominó en todos los indicadores evaluados. El Poisson GLM rindió mejor en calibración. LightGBM capturó algunos patrones no lineales que el GLM no detectó. CatBoost y Ridge contribuyeron en MAE y la puntuación exacta.

El modelo final combina los cuatro modelos. La combinación es más fiable que cualquier modelo individual porque diferentes familias cometen distintos tipos de errores, y promediar entre esos errores reduce la varianza global.

Validación de “walk-forward”:

Finalmente, todos los modelos de la mezcla fueron entrenados usando validación walk-forward para evitar fugas de datos.

Esto significa que el modelo de cada temporada se entrenó únicamente con datos de temporadas anteriores. Por ejemplo, entrena en las temporadas 2018-2023 para predecir 2024 y luego entrena en 2018-2024 y predice la temporada 2025. Esto es para asegurar que no se filtre información futura en los datos de entrenamiento. Es fácil entrenar accidentalmente un modelo que se ve bien en las evaluaciones, pero utiliza información que no habría estado disponible en el momento de la predicción. La validación walk-forward evita esto.

Así que ahora nuestro modelo combinado genera de goles esperados del local y goles esperados del visitante. Esta es la información que se usa en el tercer nivel.

Nivel 3: Dixon-Coles: De goles a probabilidades

Predecir que el Equipo A marcará 1.8 goles y el Equipo B 0.9 goles es útil, pero es muy engañoso. Aunque el modelo es preciso y cuenta con buenas métricas de evaluación, la predicción exacta de goles no es útil para los usuarios.

¿Por qué la predicción exacta no es útil para los usuarios?

La razón es sencilla: los deportes no son deterministas. Es decir, preguntas como ¿quién va a ganar? ¿O cuántos goles marcará el equipo local? No se pueden responder con un 100% de certeza. Por ejemplo, las matemáticas son deterministas. Esto significa que 1+1 siempre será 2 con un 100% de certeza.

Como los deportes no son deterministas, no existe ningún modelo en el mundo que pueda garantizar el resultado de un partido antes de que empiece. Cualquier “análisis” que diga lo contrario es mentira.

Por eso, lo que PredictApp muestra a los usuarios es una probabilidad: un porcentaje de probabilidad de que ambos equipos marquen, o de que el partido supere los 2.5 goles, o que el equipo local marque más de 1.5 goles. Así, el usuario puede entender qué es probable y cuál es el riesgo.

Entonces para pasar de las predicciones de goles a esas probabilidades requiere el tercer nivel: probabilidad de Dixon-Coles.

El enfoque básico

Si tratas los goles en casa y los goles fuera como dos variables independientes de Poisson (lo cual es una aproximación razonable) (también probamos la transformación de probabilidad no independiente, pero independiente tuvo mejor rendimiento), puedes calcular la probabilidad de cualquier resultado específico.

La probabilidad de que el equipo local marque exactamente 2 dado que los goles esperados es la media es de P(L2). Probabilidad de que el equipo visitante marque exactamente 1gol dado que la media son los goles esperados es P(V1). Multiplícalos. Eso es P(L2V1). Haz esto para cada combinación de puntuaciones posible, y tendrás una matriz de probabilidades de goles completa. Suma las probabilidades que te interesan y obtendrás tus probabilidades del mercado.

¿Por qué Dixon-Coles en concreto?

La suposición independiente de Poisson subestima ligeramente los empates de pocos goles y sobreestima ligeramente otros resultados de pocos goles. Dixon y Coles (1997) propusieron un parámetro de corrección que ajusta las probabilidades de puntuación baja para que coincidan mejor con los datos reales.

Comparé el método de Dixon-Coles con varios enfoques alternativos de construcción de probabilidades. El resultado fue que Dixon-Coles logró el mejor equilibrio global entre rendimiento y simplicidad. También es muy conocido en el estudio académico de estadísticas del fútbol, lo cual es importante para la transparencia.

Una sola distribución, todos los mercados

Esta es la clave del tercer nivel. Una vez que tienes la matriz de probabilidades de goles completa, todas las probabilidades de mercado se deducen de la misma fuente:

Probabilidad BTTS = suma de todos los resultados donde los goles del local > 0 Y los goles del visitante > 0
Más de 2,5 goles = suma de todos los marcadores donde los goles del local + los goles del visitante > 2,5
Menos de 2,5 goles = suma de todos los marcadores donde los goles del local + los goles del visitante < 2,5
Portería a cero local= suma de todos los marcadores donde goles del visitante = 0
Portería a cero visitante = suma de todos los marcadores donde los goles del local = 0
Probabilidades de goles del equipo = suma de todos los puntos donde el equipo marca > la cantidad de goles.

Todo de la misma matriz. Todo internamente consistente. Nuestras probabilidades provienen de la misma distribución de goles y están matemáticamente limitadas entre sí. Así que no vas a encontrar cosas locas como que el equipo visitante tenga un 40% de probabilidad de anotar, pero ambos equipos de marcar tengan un 65% de probabilidad.

¿Contra que se compara el modelo?

Comparé el modelo con las probabilidades implícitas de casas de apuestas, usando la pérdida logarítmica y la puntuación Brier.

Los resultados: el modelo de objetivos opera a nivel de corredor de apuestas o mejor:

En conclusión, todas las probabilidades mostradas en la app provienen del mismo modelo coherente y son competitivas con las probabilidades más fuertes.

Cuando vez una tarjeta de predicción tienes:

Diferencia de goles esperada en RWI: es decir, la Nivel 1, la señal de fuerza previa al partido.
BTTS, probabilidades de over/under y de portería en ceros: son los resultados del Nivel 3 de la distribución que generó el Nivel 2.
Probabilidades de resultados: procedentes del modelo de resultados usando el mismo RWI (explicado aquí)

Construí PredictApp sobre el principio de que una predicción que entiendes es más útil que una que no. El RWI y los porcentajes de probabilidad son ventanas en el mismo modelo. El modelo está haciendo el trabajo. Tú estás viendo los resultados y ahora sabes qué hay detrás.

Ve las predicciones de cada partido

Explora nuestros mercados

El modelo de goles impulsa las predicciones para los cuatro mercados disponibles en la aplicación:

Predicciones de ambos equipos marcan: probabilidad de BTTS a partir de la misma distribución de goles

Predicciones de goles over/under: predicciones del total del partido basadas en la diferencia de goles en RWI

Predicciones de porterías en cero: valoraciones de debilidad defensiva y probabilidad de porterías a cero

Centro de fútbol

Modelo de Goles de PredictApp: RWI, un modelo combinado, y Dixon-Coles explicados