À quel point les xG reflètent-ils l'issue d'un match ?

Les xG sont un outil puissant, mais le football a plusieurs caractéristiques qui le rendent imprévisible

En football, les scores se révèlent souvent chaotiques. Les xG par tir, et par extension les xG totaux, permettent de mieux appréhender la physionomie d'une rencontre. À travers les expected points, analysons la relation entre ces deux données.

Périmètre de cette étude

Les 1140 matchs de Ligue 1 sur les 3 saisons suivantes :

  • 2016-2017

  • 2017-2018

  • 2018-2019

Les expected points

Pour saisir la relation évoquée plus haut, il faut préalablement transformer les xG par tir en expected points : la probabilité d’un résultat donné à l’issue de la rencontre. Plusieurs méthodes pour cela :

  • les hacking statistics et la méthode de Monte Carlo : on rejoue le match des milliers de fois jusqu’à obtention de probabilités consolidées

  • loi Poisson binomiale : un outil statistique pour évaluer les probabilités de marquer k buts à partir des xG associés aux n tirs d’une équipe, c’est une généralisation de la loi binomiale. Nous partirons sur cette solution, dont l’avantage majeur sur les hacking statistics est la rapidité de calcul.

Un cas concret : Caen - Lorient lors de la saison 2016-2017

Commençons par observer tous les tirs de la rencontre. Aucune autre information que la minute et les xG associés n'est fournie.

Tous les tirs du match Caen - Lorient

On voit pas mal de Big Chances, notamment la plus importante, à 0.76 pour Lorient à la 18e minute. Une telle valeur correspond précisément à la chance de marquer sur un penalty.

Transformons les tirs de chaque équipe en probabilités d'un nombre de buts marqués :

Au vu de ses tirs, Caen a une plus forte probabilité d'avoir marqué 2 buts...

Probabilités calculées à partir de la loi Poisson binomiale pour chaque nombre de buts pour Caen

...Tout comme Lorient

Probabilités calculées à partir de la loi Poisson binomiale pour chaque nombre de buts pour Lorient

Croisons ces probabilités afin de générer une matrice de probabilités des scores. La probabilité que deux évènements indépendants (au sens statistique du terme) est la multiplication de leurs probabilités.

Sans surprise, le score de 2:2 est le plus probable

La matrice de probabilité des scores du match Caen-Lorient

Nous approchons du but ; ne reste désormais qu'à additionner les probabilités de la matrice suivant le résultat. On trouve :

  • 43% de chance de victoire pour Caen

  • 26% pour un nul

  • 30% de chance de défaite pour Caen

Dans ce cas, les expected points tombent juste ; le score final étant de 3:2.

Qu'en est-il de nos 1140 matchs ? Les expected goals/points prédisent correctement le résultat final 670 fois, soit un ratio de près de 60%. Ce chiffre permet d'évaluer quantitativement la part de bruit qui se glisse entre les occasions et le score final.

Dernier point, que se passe-t-il si nous croisons ces expected points avec les cotes des bookmakers d'avant match ? Pour un euro investi à partir des expected points sur chaque rencontre, nous aurions engrangé 1568 euros, soit un bénéfice net de 428 euros. (Mais tout cela reste un modèle prédictif purement théorique, les xG n'étant évidemment pas disponibles avant la rencontre.)

Source : understat, oddsportal

Retrouvez cet article en version web par ici.