Qui sera le vainqueur de la Ligue des Champions ? Prédictions avec l'IA de DataRobot - MYDRAL

Si il y a bien un sport qui fait fureur eu Europe c’est le football ! Chacun y va de son commentaire quand il s’agit de prédire le gagnant et le ton monte très vite entre les fans ! Pour deviner l’issue de ces matchs notre partenaire DataRobot a décidé de se pencher sur la Ligue des Champions et le vainqueur éventuel de cette saison.

Quelle procédure ? Quelle problématique ?

Pour commencer, nous avons approché Data Sports Group pour voir s’ils seraient prêts à partager certaines de leurs riches données sur le football. Dès que nous avons eu ces données, nous avons été confrontés à plusieurs défis. Premièrement, comment pouvons-nous étendre nos modèles au-delà de ce que nous avons fait dans les sports précédents et créer des fonctionnalités spécifiques au football qui peuvent aider nos prévisions ?

Deuxièmement, comment fusionner au mieux les différents ensembles de données pour créer l’ensemble de données d’apprentissage ?

Enfin, comment pouvons-nous gérer la nature des bris d’égalité à élimination directe ? Profitant de tout ce que nous avons appris des prédictions sportives antérieures et du récent achat de Paxata par DataRobot , nous avons pu répondre à ces questions.

À l’aide des données de Data Sports Group , nous avons calculé les notes Elo pour chaque équipe, capturé des classements d’équipe supplémentaires en fonction de leurs objectifs et score et ajouté un classement propre à DataRobot pour chaque joueur.

Notre prédiction :

Sur la base de ces informations, nous prédisons que l’équipe championne est plus susceptible de provenir de Manchester City, Liverpool, Juventus, PSG ou du Bayern Munich.

Manchester City étant les légers favoris.

Approche de modélisation

Dans la phase élimination directe de la Ligue des champions, tous les tours (sauf la finale) sont joués avec chaque équipe accueillant une étape. Le vainqueur de chaque tour est l’équipe avec le score de buts cumulé le plus élevé et s’il est à égalité sur les buts cumulés, le vainqueur est l’équipe avec le plus de buts à l’extérieur. Pour simuler adéquatement cela, nous avons décidé de construire des modèles pour prédire les totaux des objectifs pour chaque équipe lors d’un match à domicile ou à l’extérieur.

Pour commencer, nous avons collecté les quatre dernières années de données de la Premier League, de la Liga, de la Bundesliga, de la Ligue 1, de la série A et de la Ligue des champions auprès de DataSportsGroup . Ces données contiennent des informations sur chaque match joué, les joueurs, leurs statistiques individuelles et les statistiques des équipes pour ces matchs. À l’aide de ces données, nous avons calculé Elo, les classements (inspirés des pourcentages de victoire de Pythagore) pour les statistiques individuelles et les classements des joueurs individuels (voir ci-dessous) pour chaque équipe après chaque match.

Ensuite, nous avons construit notre ensemble de données d’entraînement en utilisant à la fois l’Elo actuel, les performances de la saison à ce jour et la forme récente (à la fois pour les classements par équipe et les classements individuels) à l’aide de Paxata (voir ci-dessous) dans DataRobot. En examinant l’un de nos modèles pour le score de l’équipe à domicile, nous voyons (dans la figure 1) que notre modèle s’appuyait le plus sur les scores Elo de chaque équipe, mais que les performances récentes et cumulatives des onze meilleurs joueurs de chaque équipe étaient également important. Au-delà des modèles Elo et de performance des joueurs, nos classements supplémentaires ont également eu un impact sur notre modèle.

Figure 1: Importance des fonctionnalités du modèle d’objectif de l’équipe à domicile

En analysant l’impact d’Elo (dans la figure 2), nous voyons que le nombre d’objectifs que le modèle prédit augmente comme prévu avec l’augmentation d’Elo:

Figure 2: Impact de l’Elo de l’équipe à domicile sur la prédiction par les modèles des buts à domicile

Enfin, nous examinons l’effet de nos modèles de notation des joueurs, voir la figure 3 ci-dessous. Plus les joueurs de l’équipe se sont améliorés au cours de la saison, plus la prévision de buts pour l’équipe à domicile est élevée:

Figure 3: Impact du classement des 11 meilleurs joueurs de l’équipe à domicile au cours de la saison

À l’aide de ces modèles, nous avons prédit le nombre moyen de buts marqués par les deux équipes sur les deux jambes d’un tour en phase à élimination directe. Avec les moyennes, nous avons ensuite exécuté une simulation de l’ensemble de la phase à élimination directe. Cette simulation a été répétée 10 000 fois et les résultats ont été comptabilisés pour déterminer les favoris de la Ligue des champions, comme détaillé ci-dessus. Le pourcentage total de simulations gagnées par chaque équipe (ainsi que le pourcentage du temps atteint à chaque tour) est indiqué dans le tableau 1 ci-dessous :

Équipe	Quarts de finale	Demi finales	Finales	Champion
Manchester City	65%	41%	26%	16%
Liverpool	72%	43%	26%	15%
Juventus	74%	44%	25%	13%
PSG	73%	43%	24%	12%
Bayern Munich	67%	39%	22%	12%
Barcelone	62%	36%	20%	dix%
RB Leipzig	66%	27%	11%	4%
Real Madrid	35%	17%	8%	3%
Napoli	38%	18%	8%	3%
Atlanta	55%	23%	8%	3%
Chelsea	33%	14%	5%	2%
Dortmund	27%	12%	5%	2%
Atletico Madrid	28%	11%	5%	2%
Valence	45%	15%	5%	1%
Olympique Lyon	26%	8%	2%	1%
Tottenham	34%	9%	2%	1%

Tableau 1: Résultats de la simulation par DataRobot de la phase élimination directe de la Ligue des champions

Notes des joueurs

Il existe des données riches au niveau du joueur sur la contribution de chaque joueur à la victoire d’une équipe. Peut-on prédire si Chelsea va battre Liverpool en fonction de son alignement ? Et quel est le meilleur indicateur de forme de match ? S’agit-il de leurs performances au cours du match, du mois précédent ou cumulées sur l’ensemble de la saison ? Nous avons construit des modèles basés sur chacune de ces questions pour fournir un score de performance par joueur et pour déterminer les indicateurs de performance clés.

Dans la figure 5 ci-dessous, nous pouvons voir l’impact des statistiques du jeu de chaque individu sur la note que nous calculons pour ce joueur:

Figure 4: Importance des fonctionnalités du modèle de lecteur

Une fois que nous avons obtenu un score de performance prévu pour chaque joueur (c’est-à-dire la probabilité d’une victoire compte tenu de leur inclusion dans l’équipe), nous avons voulu explorer comment cela peut être combiné avec les performances prévues de leurs coéquipiers. Peut-être que la performance du meilleur joueur est le meilleur moyen de prédire une victoire d’équipe. Nous avons calculé les scores de la moyenne de l’équipe, du meilleur joueur et des N meilleurs joueurs de chaque équipe, en normalisant les scores par position.

Paxata Data Prep

En examinant de plus près les ensembles de données (séparés par des ligues) – il y avait beaucoup de données étrangères. Chaque ligue comptait environ 2 500 colonnes et il était extrêmement important pour nous d’identifier les colonnes les plus pertinentes avant de les exécuter via DataRobot. Grâce à la fonction de profilage rapide des données de Paxata, nous avons pu mieux comprendre les données. De plus, en utilisant les puissantes capacités de préparation des données de Paxata, nous avons ensuite pu supprimer les colonnes inutiles en un seul clic :

Figure 5: Profilage rapide des données dans Paxata

Figure 6: Gestion des colonnes dans Paxata

Étant donné que les données étaient séparées par ligues, il était important pour nous de réunir tous ces ensembles de données et de créer des fonctionnalités / mesures clés étant donné que notre objectif était de faire des prédictions pour les prochains matchs de la Ligue des champions, dans lesquels les meilleures équipes des différentes ligues joueront contre L’une et l’autre.

En utilisant Paxata, nous avons pu consolider toutes ces données dans un seul fichier; une fois que nous avons fini avec ces données, nous avons développé un script Python pour calculer les scores Elo pour toutes les équipes. Ensuite, nous avons ramené ces données à Paxata pour créer le formulaire Domicile et Extérieur pour toutes les équipes actuellement en Ligue des champions. Le formulaire étant une variable catégorielle, nous avons utilisé One Hot Encoding dans Paxata pour façonner ces données avant de les parcourir dans le modèle.

Figure 7: Ajout de plusieurs fichiers à l’aide de Paxata

Figure 8: Mise en forme et un encodage à chaud à l’aide de Paxata

Après avoir mis en forme, transformé et construit des fonctionnalités clés supplémentaires pour cet ensemble de données, nous l’avons intégré à DataRobot pour modéliser et obtenir nos prévisions.

Conclusions

Prédire les résultats des matchs, en particulier pour le sport mondial du football, est à la fois amusant et stimulant. En utilisant la principale plateforme d’IA d’entreprise de DataRobot, nous avons rapidement pu exploiter les généreuses données de DataSportsGroup pour prédire la phase à élimination directe de la Ligue des champions et le futur vainqueur de la Ligue des champions. Le temps nous dira si Manchester City, Liverpool ou la Juventus seront victorieuses, comme prévu. Ou si le PSG, le Bayern Munich ou Barcelone vont créer la surprise par leurs probabilités légèrement inférieures. Peut-être que l’une des dix autres équipes brisera les tendances ? Le temps nous le dira. d’ici là.. ENJOY !

Merci aux auteurs : Andrew Engel directeur général des sports et des jeux chez DataRobot – Chloe Coates associée en science des données appliquées chez DataRobot – Akshay Viswanathan architecte de plateforme de données chez DataRobot.

Author Profile

Mathieu RONDEAU

Qui sera le vainqueur de la Ligue des Champions ? Prédictions avec l’IA de DataRobot