Peut-on prédire les buts marqués en Ligue Magnus ?

793

D’où sont marqués les buts en Ligue Magnus ? Quelles sont les zones de la glace les plus dangereuses pour décocher un tir ? À quelle fréquence marque-t-on du haut des cercles, du long des bandes ou bien de l’enclave ? Des questions auxquelles souhaitait répondre le projet estival de Magnus Corsi baptisé « xG », avec en ligne de mire la problématique suivante : peut-on prédire le nombre de buts marqués par une équipe ?

 

Le projet Magnus Corsi est né à l’aube des playoffs 2018, avec pour ambition d’offrir (enfin) au hockey français les statistiques manquantes à la compréhension de notre Ligue Magnus. Nous entendons par « statistiques » les indicateurs utilisés désormais dans les grandes ligues de la planète et communément surnommés « statistiques avancées ». Venait en premier lieu la volonté de comptabiliser tous les tirs tentés (et non simplement les tirs cadrés), le fameux « Corsi », qui reflète davantage la physionomie d’un match en mesurant chaque fois qu’une équipe a pu se mettre en position de tenter sa chance. Parmi ces tirs tentés se trouvent aussi les chances de marquer, tirs provenant du « slot », zone allant des buts aux points d’engagement et jusqu’en haut des cercles. C’est de là que proviennent 77% des buts inscrits en ligue Magnus (spoiler), selon les données que nous avons collectées. En finale, 26 des 28 buts inscrits par Grenoble ou Rouen à 5 contre 5 étaient situés dans cette zone.

 

Objectif du projet

Venons-en au débat géniteur du projet xG : mesurer les tirs, c’est bien, mais tous les tirs ne se valent pas. C’est tout le principe du débat entre quantité et qualité qui fait rage dans le monde du hockey. Suivant ce que nous venons d’évoquer, un tir de la ligue bleue n’est pas aussi dangereux qu’une chance de marquer. Et un tir dans l’enclave du gardien l’est davantage qu’un du point de mise en jeu. Comment alors faire ressortir ces différences ? C’est l’objectif du projet xG.

xG est le symbole utilisé dans le sport, et pas seulement le hockey, pour signifier « Expected goals ». La traduction française varie entre « Buts anticipés » ou « Buts attendus » mais nous avons tranché pour la première. Le principe est simple : calculer combien de buts une équipe peut anticiper marquer/encaisser dans un match et sur une saison en fonction de son rendement sur la glace. Il faut pour cela différencier les tirs selon leur localisation et la situation de jeu. Les modèles en NHL ou Liiga peuvent en plus s’appuyer sur des données publiées par la ligue sur la localisation exacte du tir sur la patinoire (façon GPS), l’angle par rapport au but, le type de tir (du poignet, slap shot, etc.), si c’est un rebond, etc. Ce n’est malheureusement pas notre cas et nous avons donc tenté de bâtir le modèle le plus solide possible avec les moyens à notre disposition.

 

Méthodologie

La première décision a été de diviser la glace en 7 zones distinctes en prenant pour référence les découpages semblables réalisés ailleurs. La zone 1 est baptisée « high-danger » et correspond aux alentours immédiats de l’enclave. Les zones 1 et 2 forment ensemble la zone des Chances de marquer dont nous avons parlé plus tôt. Les zones 3, 4 et 5 sont en haut de la zone offensive et les zones 6 et 7 sont situées le long des bandes.

Ce découpage est uniquement utilisé pour le jeu à 5 contre 5, qui représente en moyenne 40-45 minutes d’un match.

Pour les autres situations, supériorité et infériorité numérique, 4 contre 4 ou 3 contre 3, 6 contre 5 et 5 contre 6, nous avons uniquement découpé la glace en deux : la zone des chances de marquer (zones 1 et 2 ensemble) et le reste.

Le cœur du projet xG est donc de pouvoir attribuer des valeurs différentes à chacune de ces zones, suivant toutes les situations de jeu. Cela représente au total 17 scénarios (7 à cinq contre cinq, un par zone, et 2 zones par autre situation de jeu) pour lesquels il fallait trouver des données et modéliser la formule des Buts anticipés.

Le principe est relativement simple : si, dans une zone, sur 100 tirs tentés, 10 buts sont marqués, il est possible de dire que 10% des tirs provenant de cette zone deviennent des buts en moyenne. Si l’échantillon de matchs mesurés est suffisamment grand, ce pourcentage va demeurer stable à l’avenir. Donc, si un but est marqué tous les 10 tirs depuis cette zone, un tir y vaut donc 0.1 but anticipé. Au cours d’un match, nous pouvons donc additionner tous les buts anticipés obtenus afin de donner la somme totale et de comparer à quel point les deux équipes ont été dangereuses.

 

Échantillon

Combien de matchs fallait-il regarder afin d’être représentatif d’une saison entière ? Comment s’assurer que les chiffres soient suffisamment solides pour que le modèle des xG tienne la route ? L’objectif que nous nous étions fixés était de mesurer 60 matchs de la saison régulière 2017-18. Cela représente presque un quart du championnat de Ligue Magnus et nous paraissait d’une part un objectif réalisable et un échantillon statistiquement suffisant. En vérité, nous avons observé qu’après 10 matchs, les pourcentages ne bougeaient quasiment plus.

Des mesures ont ensuite été prises afin de nous assurer que ces 60 matchs soient au maximum représentatifs du rendement moyen de la ligue. Comme nous allions calculer le ration buts par tirs tentés, il fallait coller à la réalité des douze équipes sur une saison complète. La moyenne de buts inscrits par match en 2017-18 était de 6,3. Nous n’avons donc gardé que les matchs où il s’est marqué entre 4 et 8 buts, rendant par la même occasion un tiers des matchs de la saison inéligibles pour le projet. Nous avons ensuite laissé une formule de sélection aléatoire choisir 60 matchs parmi ceux disponibles avant d’ajuster manuellement la liste définitive pour répondre aux critères suivants :

  • Chaque équipe sera mesurée 10 fois.
  • 5 fois à domicile et 5 fois à l’extérieur.
  • Aucune équipe ne peut affronter le même adversaire plus de deux fois.
  • Les matchs choisis sont étalés sur l’ensemble de l’année afin de refléter la saison complète, éviter l’impact des transferts, blessures, etc.

De manière générale, les adversaires affrontés devaient provenir du haut comme du bas du classement. Nous avons pour cela attribué un coefficient à chaque équipe afin de donner une note de difficulté au calendrier de chaque équipe. Rouen et Grenoble avait un coefficient de 1,5, Gap, Amiens, Lyon, Bordeaux, Angers et Mulhouse un coefficient de 1 et Nice, Épinal, Chamonix, Strasbourg un coefficient de 0,75.

Au final, seule Gap a été un peu désavantagée car nous n’avons eu d’autre option de lui faire affronter deux fois Grenoble et une fois Rouen. Mais dans l’ensemble, une logique égalitaire est respectée, ce qui est primordiale pour l’analyse des données recueillies à propos de la performance des équipes, sujet qui fera l’objet de prochains articles.

Restait plus qu’à se mettre devant l’écran…

J’en profite ici pour remercier les volontaires qui ont participé au projet et ont permis d’accélérer celui-ci. Il a fallu deux gros mois pour regarder les 60 matchs de l’échantillon entre mai et juin 2018.

 

Répartition des buts selon les situations

Observons d’abord la répartition des buts marqués selon les situations de jeu.

Les buts marqués à 5 contre 5 constituent 61% de l’ensemble des buts marqués. Le 5 contre 5 représente 72% du temps de jeu. Les situations de supériorité numérique comptaient, elles, pour 24% du temps mais 29% (25+4) des buts. Cela ne surprendra personne d’apprendre qu’il se marque plus de buts par minute en Power play qu’à 5 contre 5…

Néanmoins, ces chiffres renforcent le sentiment grandissant que les supériorités numériques, certes des situations cruciales, sont peut-être historiquement surestimées dans leur importance. Dans l’évaluation d’une équipe (comme d’un joueur), le jeu à 5 contre 5, représentant donc presque les trois quarts du temps de glace, est plus révélateur des forces et faiblesses de celle-ci.

 

D’où proviennent les tirs ?

Voyons à présent d’où sont provenus les 6501 tirs tentés au cours du projet. Parmi les 4553 tentatives à 5 contre 5, ce qui saute aux yeux est la prédominance du centre de la glace. 19% ont été décochés du haut de la zone mais, surtout, 20% entre les cercles de mise en jeu. Si l’on rajoute 9% dans la zone high-danger devant le but, cela donne 29% des tirs tentés qui sont des chances de marquer. Le reste des tirs sont répartis de manière très uniforme à gauche et à droite de la glace.

En supériorité numérique, où nous avions simplement découpé la glace en deux zones, chances de marquer et non-chances, 68% des tirs tentés venaient de la périphérie, et 32% étaient des chances de marquer. C’est donc à peine plus qu’à 5 contre 5. La difficulté à s’avancer au centre de la glace, même en supériorité numérique, demeure donc forte et les équipes s’en remettent principalement aux tirs de la pointe ou du haut des cercles.

 

D’où proviennent les buts ?

Observons ensuite le pourcentage de buts inscrits par zone. Nous l’avions évoqué en introduction, le nombre de buts inscrits depuis la zone des chances de marquer est écrasant, 77% toutes situations confondues. À 5 contre 5, c’est 81% des buts qui proviennent de cette zone, pour seulement 29% des tirs tentés ! De plus, 43% des buts sont inscrits depuis la zone high-danger, alors que seuls 9% des tirs en proviennent. L’adage est vieux comme le monde mais c’est devant la cage que cela se joue. On y trouve un bon nombre de rebonds évidemment, quelques déviations mais aussi des un contre un et décalages pour reprise de volée.

Le reste de la glace doit donc se partager les miettes. La zone en haut voit 6% des buts alors que 19% des tirs en proviennent. Les angles de la zone sont de rares fournisseurs de buts (à elles deux, seulement 8 buts en 5157 minutes de jeu). Un constat curieux est de voir que la gauche de la glace fournit 8% des buts, contre 5% pour la droite. Sachant que le nombre de tirs est le même à gauche comme à droite, cela signifie que les tireurs ont plus de réussite sur l’aile gauche. Notre petit doigt pense tout de suite que c’est le côté du bouclier pour la vaste majorité des gardiens. Théorie sans réponse claire pour le moment.

En supériorité, les buts sont l’exact opposé des tirs. Les deux tiers des buts proviennent de la zone des chances de marquer, pour un tiers des tirs tentés. Et donc inversement pour le reste de la glace.

En résumé, l’importance de la zone des chances de marquer est considérable. Le tableau ci-dessous montre bien la disproportion entre le pourcentage de tirs et le pourcentage des buts provenant de cette zone. Ce constat global impacte très largement notre construction de la formule des buts anticipés comme nous allons le voir. Nous n’avons même pas vu un seul but inscrit en infériorité qui n’était pas une chance de marquer mais cela parait logique…

 

Buts anticipés par Zone

Passons maintenant à la modélisation des buts anticipés. Suivant la proportion de buts inscrits par tirs tentés, le visuel ci-dessous indique le nombre de but anticipé attribuable à chaque tir tenté selon la zone.

On voit donc qu’un tir tenté dans la zone high-danger vaut 0,231 but anticipé, un tir tenté entre les points de mise en jeu en vaut 0,092. C’est presque 10 fois plus qu’un tir du haut de la zone (0,015). Pour prendre un exemple concret, 23 tirs de la pointe gauche de la zone (0,01 but anticipé par tir) valent autant qu’un seul tir high-danger (0,23 but anticipé par tir)… En supériorité numérique, la zone des chances de marquer rapporte également davantage de buts anticipés et c’est logiquement toujours le cas pour les autres situations de jeu. Et si vous vous demandez combien de but anticipé vaut une chance de marquer face à une cage vide ? C’est 0,6 !

 

Différence entre buts anticipés et buts par équipe

Pour finir, jetons un rapide coup d’œil sur la différence à l’issue des 10 matchs mesurés entre les buts anticipés (pour et contre) et les buts réels pour chaque équipe, à 5 contre 5.

La plus grande différence revient à Angers avec une différence (négative) de 8,4. Ne cherchez pas plus loin que Florian Hardy pour l’expliquer. Défensivement, Angers a encaissé 6 buts de moins qu’anticipé. À l’autre bout du spectre, Amiens a à la fois davantage marqué et encaissé de buts qu’anticipé par le modèle. Rouen est aussi à +6 mais 8 équipes sur 12 finissent entre 4 et -4 de différence. Le positif ou négatif importe peu ici, l’important est de voir qu’en moyenne, la formule a prédit correctement les buts inscrits, se trompant de moins d’un demi-but par match en moyenne (4 buts/10 matchs).

Rajoutons pour finir qu’au cours des 60 matchs du projet, l’équipe qui a obtenu le plus de tirs durant le match a remporté la rencontre 68% du temps. L’équipe qui a obtenu le plus de buts anticipés ? 77% du temps. Les buts anticipés sont ainsi plus prédictifs que la simple mesure quantitative des tirs tentés. Objectif accompli.

 

Développements futurs

Nous reviendrons dans de futurs articles sur l’analyse de la performance des équipes en utilisant justement les buts anticipés et vous avez certainement déjà vu ceux-ci inclus dans nos résumés de match.

Pour ne donner qu’un exemple, voici le pourcentage des buts anticipés à 5 contre 5 obtenus les équipes. Grenoble arrive en tête avec presque 59% des buts anticipés en leur faveur. Et surtout, à l’exception d’Épinal, les hiérarchies du classement de la saison régulière sont respectées entre le duo de tête, Gap et Amiens ensuite, les autres qualifiés pour les playoffs et les équipes qui ont joué la poule de maintien largement décrochées ensuite. La qualité prédictive des buts anticipés pourra ainsi être utilisée largement pour la saison prochaine.

 

N’hésitez pas à poser vos questions magnuscorsi@passionhockey.com et sur Twitter @magnuscorsi

Les commentaires sont fermés.

%d blogueurs aiment cette page :