Beaucoup de bruit pour rien ?
Cette semaine, on se penche sur les méthodes d’analyses en «top-down» et sur les questions que soulèvent leur utilisation dans le football.
Commençons par un truisme. Un des points essentiels dans les statistiques appliquées au sport tient à l’évaluation de la performance. Pour ce faire, en football, on utilise souvent des indicateurs de plus en plus sophistiqués qui, agglomérés, vont quantifier l’apport d’un joueur : combien de passes, de pressions, de xG, … Un portrait statistique en pointillisme qui vise à faire émerger ses caractéristiques.
L’oeuf ou la poule
Cette façon de faire soulève pourtant de nombreuses questions. Un joueur avec d’excellentes statistiques au PSG n’est pas assuré d’avoir le même rendement dans un autre club. Le contexte dans lequel il joueur évolue est difficile à détacher. Le style de jeu impulsé par son entraîneur ou la stature de son équipe au sein du championnat sont des éléments majeurs qui pèsent sur les statistiques individuelles. Ce n’est pas la seule difficulté : l’hybridation des postes rend les comparaisons souvent peu pertinentes. Plus anecdotique, citons la tendance chez certains - consciemment ou pas - au padding de statistiques (qui a pu être reproché à Westbrook en NBA1) : jouer de façon à optimiser ses statistiques personnelles, parfois au détriment du reste de l’équipe. Il est certes possible de consolider les indicateurs employés mais d’autres problèmes surviennent alors. Une trop grande sophistication entraîne une assomption excessive sur le jeu, induite par les choix effectués durant l’élaboration des statistiques (le seuil de longueur pour qualifier une passe progressive par exemple).
L’approche «top-down»
Il existe une autre philosophie, qui consiste à partir, non pas des statistiques individuelles mais des résultats d’une équipe pour déterminer l’apport des joueurs qui la composent. Des méthodes très utilisées en hockey ou au basket-ball.
Le plus-minus est le plus basique de ces indicateurs. Il correspond à la différence de points (marqués et encaissés) lorsque le joueur se trouve sur le terrain. En basket, on le normalise sur 100 possessions…
Pour ce dernier sport, l’intérêt d’une telle statistique est évident. Il s’agit de tirer profit des nombreux points et permutations de joueurs pour inférer l’influence d’un élément sur le collectif. Si la méthode n’est pas exempte de biais en basket, ce n’est rien comparé au football. À commencer par l’utilisation des buts comme base de calcul, beaucoup plus rares (donc «bruités») que les paniers. On préfèrera se baser sur les expected goals (xG) :
De nombreux problèmes persistent. D’abord, les permutations de joueurs sont beaucoup moins fréquentes qu’au basket ou en hockey. De plus, on ne tient pas compte du game state, un élément pourtant essentiel dans la dynamique du jeu, ni de l’influence des 21 autres joueurs sur le gazon... Du reste, la lecture du graphique ci-dessus fera sans doute sourciller plus d’un connaisseur de notre championnat.
Conscients des limites du plus-minus, regardons plus en détail les éléments les plus saillants. Vitinha (OM) se détache nettement du reste de son équipe. Pourtant le Portugais déçoit, à tel point qu’il a été prêté au Genoa cet hiver, au moins jusqu’à la fin de saison.
On relève l’écart surprenant entre le plus-minus par xG et par buts lorsque Vitinha joue. Une incapacité à concrétiser qui dépeint bien la saison erratique de Marseille. Mais qui n’est pas du seul fait du Portugais : Aubameyang a marqué 4 buts de moins que ne le prédisent ses xG.
Le On-Off
On peut aussi comparer le plus-minus d’un joueur avec celui de son équipe lorsqu’il n’est pas sur le terrain, on parle alors de on-off. Mieux, on peut décomposer le on-off entre apport offensif et défensif.
Le regularized adjusted plus-minus à la rescousse
Si l’usage du plus-minus est douteux en football, regardons comment les statisticiens ont essayé de l’améliorer en basket, où le principal biais vient du parasitage causé par les 9 autres joueurs sur le terrain : un joueur souvent associé avec les coéquipiers les plus forts de la rotation est largement avantagé dans le plus-minus standard. Aussi, l’idée derrière le regularized adjusted plus-minus2 est de percer la brume collective afin d’inférer l’apport propre à chaque joueur. Pour ce faire, on décompose les matchs en stints, des phases de jeu où les 10 mêmes joueurs s’affrontent sur le terrain, pour lesquelles on va calculer une marge, équivalente du plus-minus, soit la différence de points pour 100 possessions.
En accumulant les stints, on se retrouve avec un système d’équations à X inconnus : les plus-minus de chaque joueur pris en compte. On ne peut alors qu’inférer des valeurs approximatives, au prix de calculs qui dépassent à la fois mes connaissances et le cadre de ce post. Mais le résultat est là : déterminer l’apport d’un joueur à partir des seules données de score. J’ai éludé de nombreuses questions techniques, mais l’approche du RAPM est d’une élégance conceptuelle remarquable et tranche avec les travaux actuels menés dans le monde du soccer analytics. À raison sans doute… Adapter directement le RAPM au football semble illusoire. Heureusement, des solutions hybrides sont envisageables, qui mélangent une approche «top-down» à des indicateurs statistiques plus conventionnels3.
Russell Westbrook, triple-doubles, and stat-padding accusations, Dailythunder, 27 janvier 2017.
Rob Antle, Regularized Adjusted Plus/Minus (RAPM), Basketball, Stat, 19 août 2019.
Ismael Haffoud, Stats : Introduction à la Mesure de l'Impact, Coparena, 3 août 2022.