À nul autre pareil ?
Cette semaine, décortiquons un algorithme permettant de trouver des joueurs similaires. Une méthode de «scouting» qui pose autant de problèmes qu'elle en résout.
Mbappé l’a fait. Il a enfin annoncé son départ du PSG1 en fin de saison. La fin d’un feuilleton, le début d’un autre2 sans aucun doute. Le prodige de Bondy laissera un vide difficile à combler au sein de l’effectif parisien dont il fut le centre de gravité durant sept saisons.
Je suis de ceux qui pensent qu’une équipe gagne à multiplier les joueurs en mesure de porter le danger dans le camp adverse. En Ligue 1 cette saison, Mbappé a marqué 25 des 52 buts de son équipe3. Un joueur si prégnant offensivement facilite grandement la tâche des défenseurs adverses. C’est du reste un schéma de plus en plus rare parmi le gratin des équipes européennes, qui tablent plutôt sur un collectif bien huilé, d’où le danger peut surgir de partout.
Au-delà de cet avis personnel, imaginons-nous en charge de trouver le remplaçant idéal de KM pour le club de la capitale. Comment utiliser les données au mieux afin d’identifier les potentiels candidats ?
La problématique est plus complexe qu’il n’y paraît. Il y a d’abord la différence de niveau et de style entre les ligues4. Pour amoindrir ce biais, on peut passer par des tables de correspondance pour mieux contextualiser les statistiques d’un joueur. Un facteur qu’il faut conjuguer avec les différences entre les équipes elles-mêmes. Un exemple concret concerne les statistiques défensives des équipes dominantes. C’est le cas du PSG en Ligue 1 : l’équipe a tenté 15 722 passes contre seulement 8 459 pour ses adversaires. Dit autrement, le PSG a 65% de possession. Un chiffre qu’il convient de prendre en compte lorsqu’on regarde les stats défensives de l’équipe. Elle réalise 8,23 interceptions par 90 minutes contre 10,8 pour ses adversaires. Si l’on rapporte ses chiffres aux nombres de passes tentées, le PSG réalise 2,14 interceptions pour 100 passes tentées par l’adversaire, contre seulement 1,5 pour ses adversaires.
Pour la démonstration, nous allons sélectionner une poignée d’indicateurs caractéristiques, mais il aurait été possible d’élargir le champ à des centaines de variables. Nous allons comparer Kylian avec des joueurs occupant le plus souvent un poste équivalent (ailier ou avant-centre) dans les 5 grands championnats, soit un corpus de 389 joueurs. Toutes ces statistiques sont ensuite transformées en percentiles, pour classer les joueurs, mais aussi pour normaliser ces différents indicateurs dans une échelle équivalente. Commode pour une représentation visuelle et pour appliquer un algorithme à même de déterminer la proximité entre joueurs dans cet espace aux multiples dimensions. On utilise ici une méthode non-supervisée5, qui va trouver les joueurs similaires sans a priori sur les données fournies en entrées.
Le résultat nous donne une liste de 5 prospects. Sans surprise, on trouve Vinicius Junior dans le lot. Le Brésilien évolue souvent dans la même position que Mbappé et leur cohabitation annoncée interroge tant leurs profils sont proches.
Les autres joueurs sont plus intéressants dans notre optique :
Donyell Malen : joueur du Borussia Dortmund
Victor Boniface : recruté cet été par Xabi Alonso pour le Bayer Leverkusen, il est cependant moins habitué à porter le ballon.
Ademola Lookman de l’Atalanta
Justin Njinmah du Werder de Brême
Mon coeur penche pour le Néerlandais Donyell Malen. D’un an plus jeune que Kylian, il est virevoltant, à l’aise dans les zones denses en défenseurs, un atout pour une équipe comme le PSG qui doit souvent composer avec des blocs bas.
Le lien de la semaine
Pour prolonger le débat, rien de tel que cet article de John Muller, dans lequel il s’intéresse aux ailiers dribbleurs.
Transferts : Kylian Mbappé a annoncé aux dirigeants du PSG son départ cet été, L’Equipe, 15 février 2024
Simon Magron, Kylian Mbappé : son départ du PSG, l'avancée du contrat avec le Real Madrid... Où en est la situation ?, La Dépêche, 21 février 2024
Tony ElHabr, Quantifying Relative Soccer League Strength, r-bloggers, 25 juin 2021
Unsupervised Nearest Neighbors, scikit-learn