Le statistiche nel tennis servono? Si, no, a volte. Un domanda da 1X2. Un problema su cui si potrebbe discutere all’infinito e di cui Ubitennis si è già occupato. Il problema è sia di significatività dei dati, che di potere esplicativo delle variabili comunemente costruite. In questo breve focus analizziamo i pro e i contro delle statistiche applicate al tennis e in particolare l’utilizzo degli strumenti di data analytics.
PARTE I – La critica: il buon senso batte spesso e volentieri IBM
Innanzitutto una breve premessa per i non appassionati di tematiche tecnologiche: per analytics in generale si intende la ricerca di percorsi esplicativi in un certo set di dati, attraverso l’uso di strumenti propri della statistica, della programmazione e della ricerca operativa. Indipendentemente dall’ambito di applicazione, applicare strumenti di analytics ha come scopo quello di ottenere insight predittivi. Quando si parla di analytics pertanto si fa riferimento a strumenti sofisticati matematico-statistici. E in generale il contesto in cui l’approccio basato sugli analytics porta maggiormente i suoi frutti è quello dato da set di dati, complessi e di grandi dimensioni (i cosiddetti big data). Un altro elemento che sta alla base dell’approccio big data è quello di utilizzare dati grezzi e non strutturati. Riassumendo quando si parla di analytics si fa riferimento a tecniche di elaborazione caratterizzate da:
- Mole di dati di grandi dimensioni e non strutturate
- Utilizzo di tecniche di analisi statistica non banali
A prima vista l’insieme dei dati relativi ai match giocati in decine di tornei nell’arco di decenni sembrerebbe prestarsi bene ad un approccio basato sugli analytics, in particolare nei tornei del grande slam, grazie anche a partnership di peso come quella con IBM. Matin Jouzdani, uno dei responsabili delle attività connesse agli sport analytics in IBM, ha raccontato a TechWeekEurope che il tennis si potrebbe prestare bene all’utilizzo di tali tecniche, in quanto scandito da una serie di eventi discreti. Ogni punto può essere collegato ad un risultato, e determinati momenti chiave come i break point, possono essere facilmente identificati. Da anni IBM sta raccogliendo grandi quantità di dati nei tornei dello Slam, tracciando ogni punto di ogni match giocato. Volendo, gli utenti dello Slam Tracker – l’applicazione sviluppata da IBM per consentire agli utenti di seguire i match in tempo reale – possono vedere quanti smash vincenti o diritti vincenti ha fatto un certo giocatore in un determinato match. Questo corposo data set può così essere dato in pasto da IBM ai propri algoritmi di calcolo proprietari, al fine di ricavare informazioni descrittive e predittive in merito agli stili di gioco dei vari tennisti. A partire dal 2011 IBM ha strutturato una serie di 156 indicatori (156 listed on Wimbledon’s website) e li ha chiamati “IBM keys of the match”, ovvero una serie di Target che ogni giocatore dovrebbe compiere per portare a casa il match. Tali keys sono normalmente richiamabili facilmente nell’applicazione Slam Tracker vicino a statistiche più convenzionali come aces e doppi falli. Inoltre vengono proiettate come flussi informativi continui se richiesto dall’utente.
Per capire poi la strategia di IBM sul tema non si può poi prescindere da due parole magiche: social e mobile.
Sempre Jouzdani ha affermato che la fruizione di eventi sportivi diventerà sempre più legata ad un secondo schermo (almeno fino a quando i broadcaster non riusciranno a integrare tali informazioni e renderle disponibili su supporti smart tv degne di questo nome…visto che ancora oggi di smart non è che si veda chissà cosa), sia per una fruizione degli analytics, sia per condividere su piattaforme social l’esperienza sportiva fruita. In particolare IBM ha reso nota che già nell’edizione del 2009, la visite al sito tramite app mobile rappresentarono circa il 40% del totale. Sotto il profilo social IBM ha reso noto che nel 2012 l’incremento dei post twitter è stato del 205% e che la finale tra Federer e Murray aveva generato in media 100 tweet al secondo. E nell’edizione 2015 degli Australian Open era possibile indagare il social sentiment (positivo o negativo) verso un certo giocatore.
Insomma tutto molto bello, tecnologico e accattivante… peccato che ci sia un piccolo problema; spesso le IBM keys to the match hanno scarso valore predittivo. Nel 2012 ad esempio prima di ogni match, la app IBM identificava alcune keys ma, in un terzo dei casi, ottenere dei risultati migliori del proprio avversario nei target previsti da IBM non era garanzia di successo per il giocatore. Ironicamente, un approccio molto più semplice e artigianale si è dimostrato spesso più produttivo.
Jeff Sackmann, il gestore del sito www.tennisabstractcom, ha analizzato tra il 2009 e il 2012 5.700 match maschili, studiando e interpolando alcune semplici variabili, come la % di prime di servizio, le % di punti vinti sulla prima e sulla seconda di servizio. Sulla base di queste variabili è riuscito ad identificare dei valori limite, che fungono da frontiera per separare i vincenti dai perdenti. Questo approccio semplicistico – nessuna key fatta su misura per ogni singolo match – stesse variabili per tutti, ha dato buoni risultati: nella maggioranza dei casi gli indici di Sackmann hanno dimostrato un miglior potere predittivo di quelli IBM che, tradotto, significa che la % di tennisti vittoriosi che rispettavano gli indici di Sackman era maggiore di quella che rispettavano le keys di IBM. Un altro esempio di variabile “semplice” su cui è possibile lavorare è la % di punti vinta in risposta; Carl Bialik ad esempio qualche tempo fa ha costruito un’interessante analisi dimostrando come un servizio devastante da solo non sia sufficiente per entrare stabilmente nei top ten, senza un decente gioco alla risposta.
Una possibile ragione di un non completo potere esplicativo può essere data dalla numerosità delle keys: come detto le keys testate da IBM sono 156 e il problema a questo punto è quello di indicare i falsi positivi, ovvero quelle combinazioni che hanno dimostrato casualmente di predire un certo avvenimento. Di conseguenza il problema vero è che fra queste 156 keys to the match, alcune hanno un senso, altre sono solo curiose. Ad esempio la statistica che si concentra sui punti vinti in risposta è di sicuro interesse e analizzando i dati emergono alcune soglie interessanti.
Giocatori monodimensionali come Ivo Karlovic e John Isner hanno dimostrato che un servizio ai limiti della perfezione da solo può portare come contropartita una stabile posizione fra i primi 30 del mondo, un ritorno economico non disprezzabile, ma difficilmente consente di accedere all’elite dei top 10. Nick Kyrgios, pur non essendo un gigante della stazza di Isner o Karlovic ha comunque delle statistiche simili. L’anno scorso aveva vinto il 31,7% dei punti in risposta, il terzo peggiore fra i top 50. Per irrompere nell’olimpo il tennista australiano ha ancora qualcosa da migliorare. Di solito, il vincitore di quasi tutti i match ATP porta a casa una percentuale di punti vinti in risposta compresa fra il 29% e il 43%, con Kyrgios che si posiziona quindi molto vicino al limite inferiore. L’unico top ten che si avvicina alle percentuali di Kyrgios è Raonic (con il 33,7%) – per caratteristiche il più simile all’australiano – mentre tutti gli altri top ten viaggiano al di sopra del 36% di media. E se da un lato lo score di Raonic alla risposta è il più basso per un top ten da almeno 20 anni a questa parte, d’altra parte il canadese è riuscito a vincere il 75% dei tie break giocati. Raonic quindi è giù sulla frontiera estrema, se non riuscirà i migliorare significativamente il suo score alla risposta difficilmente riuscirà a mantenere il suo posto nei top 10, anche considerando che nessuno fino ad ora è mai riuscito a conseguire in maniera consistente per più anni un tasso di successo nei tiebreak superiore al 70%. Per dare un’idea, Roger Federer, il più dipendente dal servizio dei “Fab Four” non è mai sceso in 15 anni al di sotto del 38% di punti vinti in risposta. La differenza fra un 32% e un 36% nel tennis è enorme. Con una media del 32% un giocatore in media ruba il servizio al suo avversario una volta ogni 8 turni di servizio; con una media del 36% questo accade una volta ogni 5 turni. Con il 39% si arriva a una volta ogni 4, ovvero il doppio di quanto riesca a fare ora Kyrgios. In sostanza queste statistiche sono un indicatore: tanto più si affrontano giocatori con uno stile di gioco monodimensionale e povero in risposta, tanto più i match saranno decisi da pochi punti chiave. E tanto più si riduce il numero di punti significativi, tanto più il fattore casuale diventa importante. E per questo che giocatori come Isner e Karlovic sulla partita singola sono così pericolosi: trattandosi di partite decise da pochi punti, alla fine anche un net può avere un peso non indifferente.
Inoltre, un altro aspetto delle Keys di IBM – che vengono descritte come azioni chiavi che i giocatori possono attuare su un campo da tennis per aumentare le possibilità di vittoria – è che spesso non è chiaro se tali indicazioni sottintendono una specifica strategia. In molti casi il target è quello di vincere più dell’x% di punti di un certo tipo, ad esempio long rallies – mentre la chiave potrebbe essere opposta: ad esempio contro Nadal sulla terra battuta potrebbe essere vincente la strategia di non cercare di vincere long rallies.
Infine un altro aspetto che non aiuta è che i dati e i modelli di IBM dietro le ”keys” sono proprietari e non se ne conoscono i dettagli. Perciò, invece di avere un grande Data Set grezzo disponibile per tutti, sul quale qualunque statistico potrebbe indagare e confrontarsi, abbiamo una situazione opposta, in cui esistono i prodotti finiti di IBM e basta.
Per concludere insomma, perché in altre discipline l’uso degli analytics è diventato common sense mentre nel tennis siamo ancora così indietro?
- Disponibilità dei dati e linearità degli schemi di gioco: il baseball è un unicum in quanto a disponibilità dei dati, che vengono raccolti e resi pubblici da decenni, e linearità del gioco, scandito da fasi. Qualsiasi tipo di schema di gioco, qualsiasi lancio, qualsiasi home run, si è già verificato in passato migliaia di volte, il che significa che ogni situazione può essere analizzata con strumenti statistici, in quanto rientriamo nel regno dei grandi numeri. Questi metodo sono stati analizzati e hanno trovato notorietà pubblica in un libro di Michael Lewis del 2003, “Moneyball”, che è stato fra l’altro di ispirazione al film del 2011 con Brad Pitt. Il libro – e il film – raccontano come si sia passati dall’idea di un singolo ricercatore, ad un’industria multimilionaria e alla sua applicazione al mondo del baseball.
- Incentivi: la “Moneyball revolution” tratta di come alcuni managers di team di baseball abbiano utilizzato gli analytics per identificare giocatori sottovalutati e costruire delle squadre competitive a costi contenuti. Nel tennis tuttavia non esistono queste figure di manager (i Galliani o i Marotta per intenderci). Ci sono i giocatori e basta, i quali potrebbero beneficiare di analisi statistiche sofisticate per migliorare le loro strategie di gioco; tuttavia i giocatori con un budget tale da potersi permettere di avere al proprio servizio uno statistico forse sono solo i top 100.
In breve: nel tennis al momento sembrerebbero mancare sia le basi dati che gli incentivi e le risorse per consentire un decollo definitivo delle analytics. Tuttavia ci sono altre fonti di dati come gli Hawk-eye data che potrebbero servire da rampa di lancio per il decollo definitivo delle analytics.
Prossimamente su Ubitennis
Atto II (Il vero patrimonio di dati grezzi su cui puntare: gli Hawk-eye data)
Federico Bertelli