Ubi: Credi che le continue discussioni sui record, GOAT e così via sviliscano la vera analisi descrittiva, spacciando gli albi d’oro per numeri che hanno un impatto sulla partita e soprattutto sui match-up tecnici fra i giocatori?
ES: Sviliscono l’analisi se sono impostate su sterili argomentazioni a favore del proprio giocatore in un confronto da stadio, come spesso mi è capitato di vedere su Twitter tra sostenitori di Federer, Nadal e Djokovic (e non tra le donne, forse perché il dominio di Williams non lascia spazio a repliche). Non la sviliscono se hanno invece l’obiettivo di fare chiarezza, fare previsioni, aumentare la conoscenza complessiva. Nel primo caso, la ricerca dell’espressione della grandezza di un giocatore attraverso un numero assoluto che lo dichiari il migliore è un’inclinazione tipicamente americana. Fatico onestamente ad apprezzarne la valenza, visto che confronti tra epoche sono per forza limitati da mancanza di omogeneità di condizioni. E anche tra giocatori dello stesso periodo: sulla base di quale criterio si stabilisce la preminenza di un parametro rispetto ad altri? Gli Slam vinti, gli altri tornei, le settimane al numero 1, gli scontri diretti? Si può certamente sostenere meriti e demeriti di ciascuno senza riuscire ad arrivare a un’approvazione universale.
Ritengo molto più interessante sviluppare ragionamenti interpretativi con modelli che superano questo limite per restituire un intervallo di riferimento plausibile. Così fa il sistema di valutazioni Elo, che incorpora i risultati di tutte le partite contro tutti gli avversari arrivando a un quoziente di grandezza molto più sensato se paragonato ad esempio al numero degli Slam totali. Elo, infatti, tiene conto del livello della competizione, della fortuna dei tabelloni, dell’impatto del calendario sulla classifica, cioè di quell’insieme di informazioni su cui altrimenti sarebbe difficile trovare uniformità di lettura. Ancora, l’analisi può essere applicata per prevedere, con poche variabili, l’esito degli Slam dei prossimi cinque anni e quindi ipotizzare un conteggio più o meno definitivo per Djokovic, Federer e Nadal.
In un articolo per Tennis Abstract, mi sono cimentato a capire da un lato quali giocatori (Wawrinka più di tutti al momento della stesura) avrebbero beneficiato negli Slam di un universo parallelo senza un dominio asfissiante dei Fantastici Quattro (i tre di prima più Murray), dall’altro chi tra loro era l’ostacolo più insormontabile per la vittoria di uno Slam (Nadal). Record, albi d’oro e scontri diretti hanno un valore predittivo inaffidabile nelle sfide tra giocatori. Ad esempio, grazie al Match Charting Project possediamo i dati punto per punto di tutte le 231 partite tra i Fantastici Quattro. Si tratta di 40.866 punti e 188.187 colpi! Forse è molto più utile analizzare una base dati di questa entità per individuare, se ce ne fossero, nuove interpretazioni tattiche che possono influenzare l’andamento di una partita.
Ubi: Quale modello statistico nel tennis pensi sia il migliore per accuratezza – uno basato su sistemi di classifica, modelli di regressione o modelli basati su situazioni di punteggio?
ES: È un’ottima domanda perché, in continuità con la precedente, permette di parlare di tennis con un taglio che vorrei diventasse di pubblico dominio, cioè quello previsionale. Vale la pena precisare a favore di tutti che quando si parla di accuratezza di un modello ci si riferisce alla capacità di prevedere correttamente il risultato di una partita. Più spesso il pronostico di un modello è confermato dall’effettivo vincitore, maggiore è la sua accuratezza, espressa in percentuale. Se un modello, quindi, ha individuato il vincitore poniamo 80 volte su cento partite, ha un’accuratezza dell’80%.
Delle tre categorie citate, preferisco quella dei modelli basati sui sistemi di classifica, in particolare, come già detto, le valutazioni Elo, un adattamento al tennis di un sistema creato dal fisico ungherese Arpad Elo per classificare gli scacchisti. Il principio sottostante è quello per cui la valutazione di un giocatore è una stima della sua bravura, che aumenta a seguito di una vittoria e diminuisce dopo una sconfitta. Elo eccelle nel determinare l’ampiezza di queste fluttuazioni, che si basa sul numero di partite per ogni giocatore inserite nel modello e sulla bravura dell’avversario. È un sistema che ha dimostrato di essere costantemente più preciso delle formule utilizzate dalle classifiche ufficiali ATP e WTA, e di possedere immediatezza intuitiva e relativa facilità di applicazione che lo rendono più abbordabile di altri modelli intrisi di complicati concetti statistici.
Naturalmente, per poter affermare che un modello è migliore di un altro occorre metterne a confronto la qualità. Fa il suo ingresso l’indice Brier, che unisce in un solo numero tre parametri: l’abilità di un modello di fornire una probabilità predittiva vicina alla probabilità reale (detta calibrazione), la misura dello scarto tra i pronostici e la media complessiva (detta risoluzione), e l’incertezza propria dell’esito di un evento. Brier premia il coraggio delle previsioni che si sono rivelate corrette e punisce severamente le previsioni aggressive ma sbagliate. Più basso il valore, maggiore l’affidabilità di un modello. Non è un caso che le previsioni generate dai bookmaker siano mediamente le più puntuali, quindi con indice Brier minore, anche rispetto a quelle delle valutazioni Elo. Altrimenti, nelle parole di Sackmann, si dedicherebbe molto più tempo a scommettere che a scrivere di sistemi di valutazione nel tennis.
Ubi: Ultima domanda (anzi due): perché molti non amano le statistiche? Cosa diresti a chi pensa che un approccio eccessivamente analitico intacchi lo spirito decubertiniano (come se esistesse ancora) del gioco?
ES: Perché la matematica è un linguaggio ostico, il cui utilizzo implica l’obbligo di aver acquisito padronanza di un insieme di simboli, regole, formule e istruzioni che, almeno per la grande maggioranza delle persone, è poco intuitivo o privo di alcun fascino. Questo non è necessariamente vero per lo strumento che usiamo ogni giorno per comunicare, argomentare, interagire, cioè la lingua. L’italiano può essere poco immediato o interessante, ma non serve aver imparato la grammatica per poterlo parlare, almeno in forma elementare. I numeri però, e la loro combinazione in statistiche, aiutano a semplificare un mondo sempre più complesso, a ridurre dinamiche e tendenze in schemi espressivi che forniscono una mappa per un orientamento più facile. E questo vale anche per lo sport. Nella mini-biografia del suo profilo Twitter, Sackmann scriveva qualche tempo fa di usare i numeri nel tentativo di essere un po’ meno ignorante riguardo il tennis. Se l’obiettivo è la diffusione della conoscenza come volano di crescita ed evoluzione, demonizzare la statistica si pone alla stregua della condanna del Sant’Uffizio delle concezioni astronomiche di Galileo.
Perché un approccio eccessivamente analitico dovrebbe intaccare lo spirito del gioco? L’analisi statistica è solo una delle forme interpretative di un evento sportivo. È quella che più si avvicina a una verità oggettiva, ma non ha la pretesa di escludere modalità di narrazione che esaltano altri aspetti come l’epica, il tifo, il dogma, la passione. Anzi, può esserne un accompagnamento o un naturale complemento. Mi vengono in mente due coppie di titani della divulgazione sportiva che illustrano perfettamente il concetto, Tommasi e Clerici proprio nel tennis, Tranquillo e Buffa nel basket. Le loro telecronache sono state una sintesi di ragione e sentimento, una fusione di numeri e parole che rappresenta oggi un fondamento di cultura, non solo di sport. Semplicemente, tenere a distanza l’analisi statistica è un anacronismo. Anche De Coubertin sarebbe d’accordo!