Magnus Corsi : Intro et bilan de l’outil de pronostics Camambert

488

Si vous n’avez pas entendu parler de Camembert cette saison en suivant la Ligue Magnus, c’est que vous aviez mieux à faire… Et vous aviez sûrement raison. Pour ceux qui se sont laissés distraire par nos histoires, voici venu le temps de donner quelques explications.

 

À un moment donné, il me semble avoir promis d’écrire un article sur la genèse de Camembert, et, à Magnus Corsi, nous n’avons qu’une parole. De plus, maintenant que la saison est terminée, le temps semble long… Non, même pas en fait, il est venu le temps béni de pouvoir faire tranquillement des recherches afin de développer des outils futurs ! Et le temps de s’asseoir avec un café et de coucher sur papier le bilan de l’année, ce qui a l’air d’intéresser une majorité d’entre vous, même si 25% se laissent facilement distraire…

Parmi les pistes de développement de l’été dernier, mettre au point un outil de pronostics venait quasi tout en haut de la liste. Camembert de son petit nom a donc vu le jour à la neuvième journée de cette saison 2018-19, un poil trop tôt d’ailleurs, pardonnez notre enthousiasme.

Pourquoi un outil de pronostics ? Premièrement pas pour nous enrichir, ce n’est pas notre tasse de thé mais les parieurs de tous poils ont vite sauté sur l’occasion. Non, le but premier était d’allier l’utile à l’agréable : associer les pronostics, activité amusante et qui ouvre le débat, et faire découvrir l’utilité des stats. En termes de pédagogie, la combinaison semblait plutôt alléchante et de notre point de vue le pari (sic) a réussi. Camembert a fait parler, de lui, des stats et de hockey en général. On a moqué ses échecs et salué des succès, en toute objectivité et dans la bonne humeur (y en a bien un ou deux qui ont dit que le hockey ça se gagnait sur la glace mais bon…). C’est tout ce qu’on voulait.

 

Mode d’emploi

Afin de garder tout le monde éveillé, je vais essayer de faire bref. Pour commencer, nous pouvions compter sur une centaine de matchs trackés entre l’an passé et le début de saison. Par la suite, chaque nouveau match a été ajouté à la base de données afin de solidifier le modèle.

Nous avons donc regardé sur ces matchs qui avait gagné la partie en ayant présenté un certain profil au préalable.

Ex : l’équipe A était la meilleure offensivement jusque-là sur la saison ET a gagné le match. Si la situation se répète de manière significative, cela indique un lien de causalité entre le fait d’être meilleur offensivement que l’adversaire et de gagner les matchs.

Cela semble logique n’est-ce pas ? Mais non seulement il fallait bien le vérifier mais il fallait surtout voir ce qui était plus prédictif entre l’attaque ou la défense à 5 contre 5, les unités spéciales, le gardien, les tireurs… Et mieux vaut-il regarder les tirs, les chances de marquer ou les buts anticipés ? Et quel est l’impact de jouer à domicile ou à l’extérieur ?

Bref, nous avons gardé les indicateurs les plus prédictifs, tout en s’assurant de couvrir tous les aspects d’un match de hockey:

·         Quantité et qualité offensive à 5 contre 5

·         Quantité et qualité défensive à 5 contre 5

·         Qualité des gardiens à 5 contre 5

·         Qualité des tireurs à 5 contre 5

·         Qualité des unités spéciales (supériorité et infériorité), sur la base de la qualité du système et de l’impact des tireurs et gardiens

·         Domicile versus extérieur. Sachant qu’être la meilleure équipe offensivement n’a pas le même impact selon que l’on joue à domicile ou sur la route

·         Importance du jeu à 5 contre 5 par rapport aux unités spéciales.

·         Une prévision de la régression positive ou négative des tireurs et gardiens.

 

En gros, ce qui n’a PAS été pris en compte est le jeu à 4 contre 4 ou 3 contre 3. En termes de minutes de jeu, cela représente une goutte d’eau dans la mer et, pour le 3 contre 3 en particulier, ce hockey-là s’apparente davantage à la roulette russe qu’autre chose. Pareil pour les tirs aux buts.

L’étape suivante a été de regarder sur ces indicateurs les différences en fonction de l’écart entre les deux équipes : une équipe un peu plus forte offensivement que son adversaire a gagné 66% du temps. Mais une équipe beaucoup plus forte offensivement a gagné 89% du temps ! La distinction est donc nécessaire afin de respecter la granularité de la ligue.

Enfin, en vue de prédire un match, chaque équipe voit ses stats pondérées en fonction de l’importance de chaque indicateur comme nous venons de l’expliquer. Nous faisons le total des forces et faiblesses, et voilà !

Une version 2 de Camembert a été rapidement nécessaire pour ajouter un moyen de prévoir la régression positive ou négative des tireurs et gardiens. Par exemple, les tireurs amiénois qui n’en mettaient pas une en début de saison allaient forcément rebondir et il aurait été injuste de ne se fier qu’à leur sécheresse passagère alors que les efforts derrière étaient corrects.

 

Résultats

Pressés de lancer l’outil, Camembert a été jeté aux fauves lors de la neuvième journée, avec donc 8 matchs de données pour chaque équipe cette saison. Bien trop peu en fait et nous aurions dû attendre un peu. Sur un tel échantillon, les stats d’une équipe peuvent varier grandement avec chaque match. En réalité, attendre une dizaine de journées, le temps aussi de rencontrer tout le monde, était nécessaire pour avoir une bonne idée des forces en présence.

Sur l’ensemble de la saison, Camembert a vu juste 67,3% du temps. Notre objectif était de 66%, soit deux matchs sur trois. Ajoutons qu’avec l’échantillon grandissant, Camembert a eu raison à 71% sur les 20 dernières journées de championnat. Ajoutons aussi que Camembert avait prévu l’équipe ayant obtenu le plus de buts anticipés dans le match 70,8% du temps.

Enfin, dans sa version Playoffs qui simulait les séries de 7 matchs, Camembert a vu juste pour toutes les séries. Non pas qu’il y ait une gloire à tirer de prédire Grenoble et Rouen en quarts et demi-finales, mais Amiens-Bordeaux, Angers-Gap et la finale Rouen-Grenoble ont été correctement pronostiquées.

La question suivante vous brûle les lèvres : oui mais 67%, c’est bien ou pas ? C’est « juste » deux fois sur trois… La réponse est oui, c’est bien bande de grincheux. Les modèles existants en NHL arrivent à prédire autour de 62-63% des matchs, dans une ligue, il est vrai, bien plus homogène. Notre objectif à long terme serait de parvenir autour de 70% mais peut-être que la longueur des saisons nous coupe l’herbe sous le pied à chaque fois. Si la Magnus avait 60 matchs par exemple, le modèle sur la fin du championnat serait plus robuste comme nous l’avons déjà vu cette année.

Mais pourquoi pas 80% ? Parce que nous parlons du sport le plus rapide du monde où le but est d’envoyer une rondelle au milieu d’une forêt de jambes, patins, bâtons. Nous parlons aussi d’un sport où votre meilleur attaquant ne va jouer qu’un tiers du match, votre meilleur défenseur moins de la moitié. Un sport où le nombre de tirs est immense comparé à d’autres, augmentant donc la possibilité d’un résultat surprenant découlant dudit fait d’envoyer une rondelle au milieu d’une forêt de jambes, patins, bâtons… Bref, un sport où l’équipe qui domine le match (obtient le plus de buts anticipés) ne gagne que 66% du temps en Magnus, 61% en NHL.

 

Résultat par équipe

Pour finir, voici les résultats par équipes cette saison. Sans surprise, Rouen (86%) et Grenoble (80%) ont été les plus faciles à prédire. Vient ensuite Chamonix (74%) dont le jeu n’a pas vraiment varié de l’année. Pareil pour Gap (72%) et Strasbourg (71%, souvent donné perdant…).

Bordeaux (66%) est dans la moyenne malgré son nombre de matchs surprises (défaiteS contre Strasbourg, victoire contre Grenoble…) et Nice (61%) était relativement prévisible.

Amiens (58%) a donné du fil à retordre en début de saison par son manque de réussite chronique. Angers (56%) semblait une équipe à deux visages, curieusement meilleure sur la route qu’à domicile, ce qui faisait tourner Camembert en bourrique.

Enfin, nous nous sommes trompés plus de la moitié du temps sur Mulhouse (49%). Des Scorpions plombés par leurs gardiens, puis dont le niveau de jeu a baissé, puis s’est relevé, puis Mustukovs est arrivé et a volé des matchs. Bref, Camembert avait toujours un train de retard.

 

L’avenir ?

À l’heure actuelle, une ou deux améliorations nous viennent bien à l’esprit, notamment pour mieux cerner les performances domicile/extérieur, mais elles comportent également des risques. À voir, donc.

La bonne nouvelle est que la base de données en arrière-plan sera beaucoup plus solide en septembre prochain avec une saison pleine de data dans les jambes.

Camembert vous donne rendez-vous la saison prochaine.

 

Les commentaires sont fermés.

et, eget vulputate, adipiscing accumsan sit leo. id, Praesent at