Les séries de la NHL commencent dans quelques jours à peine et le jeu des pronostics battra bientôt son plein. Y aurait-il moyen d’y voir plus clair ? Oui, en utilisant les statistiques comme outils. Présentation du simulateur des playoffs « Normandy » qui sera utilisé cette saison pour vous présenter les séries sur Hockey Archives.
Commençons par parler des affaires qui fâchent. L’an passé, avant la finale, votre serviteur s’était essayé à la création d’un tel simulateur en vitesse sur un coin de table… et s’était planté.
Comme le dit l’extrait, j’avais préféré me baser sur les 20 derniers matchs de la saison régulière et les trois premières rondes de playoffs. Une décision un peu arbitraire qui voulait se rapprocher du vrai visage des équipes en présence, Preds et Penguins ayant changé d’allure en fin de saison. Le même modèle sur la saison entière aurait donné Pittsburgh à 54%…
Bref, je suis donc retourné à mes crayons ces derniers mois et pris le temps de travailler sur un véritable modèle de prédiction, donc la solidité statistique serait pérenne et validée par une mise en application sur les dernières saisons.
Et il fallait lui trouver un petit nom, car c’est la coutume. J’avais hésité avec « Camembert », mais ce sera « Normandy ». C’est le pays qui m’a donné le jour….
Un modèle pour quoi faire ?

Comment est construit le modèle « Normandy »
La magie de l’affaire, c’est que chaque modèle est évidement différent, sinon cela donnerait des pronostics semblables. À la manière de nos autres outils, le Power Rankings NHL, le Cup Score ou la Yakuline des playoffs, nous sommes allés voir dans le passé pour prédire l’avenir. Nous avons regardé les dix saisons pour lesquelles les statistiques avancées sont disponibles, et donc les 150 séries de playoffs jouées depuis avril 2008. Pour chaque série, quels indicateurs de la saison régulière étaient prédictifs du résultat de la série ? Les suspects habituels resurgissent sans surprise.
On voit par exemple que le PDO n’est pas du tout prédictif ou que l’équipe possédant l’avantage de la glace n’a gagné que 53% du temps, alors que le Corsi (le pourcentage des tirs tentés) ou les buts anticipés voyaient juste presque les deux tiers du temps.
Il faut néanmoins aller plus loin que cela. Il parait en effet injuste de mettre dans le même panier une équipe dont le Corsi serait supérieur à celui de son adversaire de 0.0000001% (je force évidement le trait) et une autre qui serait supérieure de 4 ou 5%. Il faut pour cela indexer les stats, afin de mettre en comparaison directe deux adversaires. Par exemple, l’an passé, Pittsburgh avait un Corsi de 50.4% et Nashville de 51.5%. Indexé, cela donne 101.1 pour Nashville et 98.9 pour Pittsburgh. Deux équipes beaucoup plus proches l’une de l’autre, comme Edmonton (Corsi de 50.5%) – Anaheim (Corsi de 50.3%), étaient ainsi indexées 100.1 pour Edmonton et 99.9 pour Anaheim, dans un mouchoir de poche donc.
Je vous rassure, le mal de tête est presque fini. En bref, cela permet une granularité bien supérieure dans la prédictibilité des résultats.
Si l’on prend l’exemple des buts anticipés en attaque, plus l’index est élevé (plus on était supérieur à l’autre équipe en saison régulière), plus la progression des chances de remporter la série augmente clairement. L’autre exemple, le pourcentage des buts inscrits en unités spéciales est intéressant car il montre qu’entre 98 et 102, aucune différence n’est visible. Cela indique que cette statistique n’est utile que si une équipe était franchement supérieure à l’autre. Il aurait été erroné de l’utiliser pour Nashville et Pittsburgh par exemple, alors que leurs index étaient de 99.3 et 100.7. Pas assez parlant pour prédire une différence en somme.
Au final, les deux équipes se faisant face lors d’une série sont donc comparées sur une batterie d’indicateurs. En finale, Pittsburgh était meilleur pour le Corsi offensif ou les buts anticipés en attaque, le différentiel des pénalités, le save% des gardiens, etc. Mais Nashville l’était pour le Corsi défensif et les buts anticipés en défense, les buts encaissés ou le pourcentage de buts en unités spéciales. On compte donc les points des deux côtés, sachant que les indicateurs les plus prédictifs sont logiquement pondérés plus lourdement que ceux dont l’importance est mineure. Avoir un meilleur shooting% est ainsi quasiment une goutte d’eau par rapport aux buts anticipés en attaque.
Validation du modèle
La dernière étape a été d’appliquer Normandy sur les dernières années, remontant jusqu’en 2013 pour avoir au moins les données de cinq saisons sur lesquelles construire le modèle (2008 à 2012 pour les playoffs 2013). Les stats les plus significatives ont aussi évolué avec le temps. La recette varie ainsi un peu chaque année, suivant logiquement l’évolution du sport. Par exemple, la qualité des chances (les buts anticipés) se révèle ainsi de plus en plus prédictive.
Voyons le résultat :




2013 demeure à ce jour la meilleure année, avec 13 séries correctement prédites sur 15. Et 2017 la pire, avec seulement 9/15. L’an dernier, Ottawa, les Rangers et St Louis ont déjoué les prédictions dès le premier tour, puis Pittsburgh et Anaheim en demi-finale et Nashville en finale de conférence. Qu’avaient dit les autres modèles existants à ce sujet ? Sur les 17 modèles engagés dans la compétition, un seul a atteint le 10/15 et trois autres 9/15. Normandy aurait donc partagé la seconde place dans cette année bizarre.
Depuis cinq ans, Normandy aurait vu juste 75% du temps, dont un 5/5 en finale. De manière générale, le 1er tour est celui qui peut déjouer les pronostics, mais plus on avance dans le tableau, plus il est compliqué de déjouer les indicateurs statistiques. Remporter la coupe Stanley appartient à l’élite et les chiffres le montrent.
Et pour 2018 ? Si vous nous suivez sur Twitter, vous avez pu voir passer les simulations mises à jour régulièrement, simulant le 1er tour mais aussi pour le fun la suite du tableau si le modèle avait 100% raison. Voici en date du 19 mars.
Le véritable pronostic interviendra bien-sûr à la veille des séries, lorsque les statistiques définitives de la saison régulière seront utilisées dans la recette. On en reparlera alors.
 
			 
                                





























 
			
















