Home
Le sette insidie della data analysis

26 Maggio 2020

Le sette insidie della data analysis

di

Il trattamento dei dati porta a galla i difetti dei dati stessi. E anche gli errori di analisi nei quali siamo più portati a cadere, che vogliamo evitare.

Devi darti il permesso di essere umano.
– Joyce Brothers

Chi ha già lavorato con i dati conosce questa sensazione. Diamo una presentazione importante, i nostri dati sono istruttivi oltre ogni aspettativa, i diagrammi e i grafici sono impeccabili e conformi a tutte le indicazioni di Edward Tufte, il ragionamento che porta alla conclusione grandiosa è a prova di bomba e lascia tutti a bocca aperta. Poi un tizio in fondo alla sala chiede se siamo consapevoli di lavorare con un database fondamentalmente viziato. C’è di che far venire i sudori freddi.

La natura delle insidie dei dati è che siamo particolarmente inclini a non vederle. Esse però non condannano al fallimento ogni nostro sforzo, tutt’altro. Abbiamo fatto grandi cose, in questa nuova èra dei dati. Abbiamo mappato il genoma umano. Abbiamo riportato sulle carte astronomiche grandi galassie lontane. Persino gli umili motori di ricerca sono diventati incredibilmente più capaci di trovare quello che cerchiamo.

Stanno aumentando però anche i nostri scivoloni, dal colossale fallimento degli analisti quantitativi e dei loro modelli nella crisi finanziaria dei primi anni del nuovo secolo alla parabola dei Google Flu Trends e a quello che ci ha insegnato sull’arroganza indotta dai dati. Perché? Semplicemente perché abbiamo la tendenza a ripetere continuamente certi tipi di errori.

Con tutto il mio manipolare, remixare, analizzare, visualizzare e dedurre dai dati, ho notato che sulla strada che porta al paradiso dei dati si incontrano alcuni tipi specifici di insidie, che si possono raggruppare in sette categorie.

Sette tipi di insidie dei dati

Insidia 1: errori epistemici, ovvero come pensiamo ai dati

Che cosa possono dirci i dati? Forse ancora più importante: che cosa non possono dirci? L’epistemologia è quell’ambito della filosofia che si occupa della teoria della conoscenza: che cosa è una convinzione ragionevole anziché una semplice opinione. Spesso affrontiamo i dati con una mentalità e presupposti sbagliati, che portano a errori lungo tutta la strada, indipendentemente dal tipo di grafico che scegliamo, come i seguenti.

  • Presumere che i dati che usiamo rispecchino perfettamente la realtà.
  • Trarre conclusioni sul futuro solo sulla base di dati storici.
  • Cercare di usare i dati per verificare una convinzione già formata, anziché sottoporla a prova per vedere se non sia in realtà falsa.

Evitare gli errori epistemici, e assicurarsi di avere le idee chiare su ciò che è ragionevole e ciò che non lo è, è un fondamento importante per un’analisi dei dati efficace.

Torna all’inizio.

Insidia 2: sconfinamenti tecnici, ovvero come elaboriamo i dati

Una volta deciso di usare i dati per risolvere un particolare problema, dobbiamo raccoglierli, memorizzarli, unirli con altri set di dati, trasformarli, pulirli e metterli nella forma giusta. Ciò che si ottiene può presentare molti problemi.

  • Dati sporchi, con livelli categoriali non corrispondenti ed errori ortografici.
  • Unità di misura o campi di data che non sono coerenti o non sono compatibili.
  • Unione di set di dati non omogenei, record nulli o duplicati che distorcono l’analisi.

Possono essere aspetti complicati e fonte di confusione, ma l’accuratezza dell’analisi dipende dal fatto che siano trattati correttamente. A volte la verità contenuta nei dati viene lost in translation, persa nella traduzione, ed è possibile andare avanti a testa bassa e prendere decisioni senza nemmeno rendersi conto che si sta lavorando con un insieme di dati seriamente difettoso.

Torna all’inizio.

Insidia 3: errori matematici, ovvero come calcoliamo i dati

Lavorare con i dati comporta quasi sempre effettuare dei calcoli, eseguire operazioni matematiche sui dati quantitativi a nostra disposizione.

  • Si sommano i dati a vari livelli di aggregazione.
  • Si calcolano percentuali o rapporti.
  • Si lavora con proporzioni o percentuali.
  • Si tratta con unità di misura diverse.

Questi sono solo alcuni esempi di come prendiamo dei campi di dati già esistenti e da quelli creiamo nuovi campi di dati. Come alle scuole elemntari, è possibilissimo commettere errori nei calcoli, che possono avere un costo enorme: nel 1999 un errore di questo tipo ha causato la perdita di un Mars orbiter da 125 milioni di dollari. In quel caso, è stato più come finire in un buco nero che cascare in una trappola.

Torna all’inizio.

Insidia 4: lapsus statistici, ovvero come confrontiamo i dati

Esistono le bugie, le maledette bugie e la statistica. Questa battuta di solito implica che qualcuno stia manipolando i numeri per trarre in inganno altri, ma nel campo della statistica capita altrettanto spesso che mentiamo a noi stessi. Che si parli di statistica descrittiva o inferenziale, le insidie abbondano.

  • Le misure di tendenza centrale o di variazione che usiamo ci portano fuori strada?
  • I campioni che usiamo sono rappresentativi della popolazione che vogliamo studiare?
  • Gli strumenti di confronto che usiamo sono validi e statisticamente corretti?

Queste insidie sono numerose e particolarmente difficili da individuare, perché hanno a che fare con un modo di pensare che può indurre all’errore, a volte, persino gli esperti. Un semplice campione casuale può essere tutto fuorché semplice da selezionare, e provate qualche volta a chiedere a un esperto di dati che vi spieghi, in termini comprensibili a un non addetto ai lavori, che cos’è un valore p.

Torna all’inizio.

Insidia 5: aberrazioni analitiche, ovvero come analizziamo i dati

L’analisi è al centro di ogni lavoro sui dati. È l’insieme degli strumenti grazie ai quali traiamo conclusioni e prendiamo decisioni. Esistono molte persone che hanno, nella loro qualifica, il termine analista, ma in realtà l’analisi dei dati è un’attività che praticamente chiunque finisce per svolgere, prima o poi. L’analisi dei dati ha raggiunto nuove vette, ma si può finire anche in fondo a qualche nuovo baratro, come nei casi seguenti.

  • Quando si ottiene un iper-adattamento dei modelli ai dati storici.
  • Quando nei dati si trascurano segnali importanti.
  • Quando si estrapola o si interpola in modi che non hanno alcun senso.
  • Quando si usano metriche che in realtà non hanno alcuna importanza.

Era davvero ragionevole ipotizzare che le tendenze di ricerca potessero consentirci di prevedere accuratamente il numero delle persone che si sarebbero ammalate di influenza, anche sapendo che gli algoritmi di ricerca cambiano costantemente e che chi effettua ricerche reagisce a input come le notizie pubblicate e pompate dai media e le raccomandazioni del motore di ricerca?

Torna all’inizio.

Insidia 6: gaffe grafiche, ovvero come visualizziamo i dati

Sono gli errori che si notano più facilmente e di cui si parla di più. Perché? Perché sono quelli visuali. Sono lì in bella vista e tutti possono rimirarli orripilati. Si sa di che cosa parlo: splendidi grafici a torta con decine di fette, istogrammi fuorvianti con assi y che partono dalla metà del valore massimo. Per fortuna queste insidie sono ben documentate e si possono identificare ponendosi poche domande.

  • Abbiamo scelto un tipo di grafico adatto allo scopo?
  • Se si deve evidenziare un punto, è mostrato chiaramente o bisogna cavarsi gli occhi per riuscire a vederlo?
  • Usiamo delle regole empiriche senza esserne indebitamente limitati?

Certo, trovare il tipo di grafico perfetto è del tutto inutile, se siamo caduti in una delle prime cinque insidie, ma che peccato quando si fanno tutte le cose giuste fino a questo punto e si casca proprio sul traguardo.

Torna all’inizio.

Insidia 7: difetti di design, ovvero come abbelliamo i dati

Siamo esseri umani e apprezziamo il buon design. Andiamo al lavoro in automobili ben progettate, con tutti i controlli al posto giusto, ci sediamo alla scrivania in poltroncine ergonomiche che si adattano alla perfezione al nostro corpo. Perché sedere comodi e poi aprire il browser per guardare un’infografica pacchiana o un goffo cruscotto di dati? Il design conta.

  • La scelta dei colori confonde chi guarda o aiuta a rendere le cose più chiare?
  • Abbiamo usato la nostra creatività per abbellire sapientemente i grafici, o ci siamo persi una buona occasione per includere componenti estetici che aggiungono valore?
  • È facile interagire con gli oggetti visuali che abbiamo creato, oppure disorientano l’utente?

Mettere gli elementi di design giusti al posto giusto può fare la differenza: il nostro pubblico presterà attenzione al nostro messaggio, oppure ci ignorerà totalmente e presterà attenzione invece a qualche altra cosa?

Torna all’inizio.

Queste sette insidie sono come i sette peccati capitali: ciascuna può vanificare tutti i nostri sforzi di trattamento dei dati. Non ha senso però temerle; meglio imparare come tirarsi fuori rapidamente, se si cade in qualcuna o, meglio ancora, imparare a evitarle del tutto. Come si fa?

Evitare le sette insidie

Quando si incontra un’insidia su un particolare sentiero nel mondo reale, vorremmo che ci fosse un bel cartello segnalatore, che ci avverta utilmente e ci metta in guardia dal pericolo, come quello che si trova sul sentiero di Coal Creek Falls vicino a casa mia a Bellevue, Washington.

Cartello di allerta

Un minaccioso cartello avverte di un pericolo sul sentiero che porta a Coal Creek Falls, vicino a Bellevue, Washington.

Ma semplicemente conoscerle spesso non basta. Anche il più saggio degli esperti dei dati ogni tanto cade in questi tranelli ben nascosti. Abbiamo bisogno di qualche consiglio adatto e di qualche guida fidata che ci aiuti lungo la strada.

“Sono caduto e non riesco a tirarmi su”

Il fatto è, però, che spesso non abbiamo il tempo per scorrere una lista di controllo completa. In questi casi, probabilmente non abbiamo altra alternativa che continuare ad andare avanti, ma almeno dobbiamo restare consapevoli delle insidie e soprattutto di quelle che ci fanno cadere più spesso. Perché succederà di sicuro.

Pensando ai tempi lunghi dell’evoluzione, il dover interagire con grandi fogli di calcolo e database è una novità. I primi esseri umani moderni dal punto di vista anatomico compaiono nella documentazione fossile circa 195 mila anni fa in Africa e Alan Turing, pioniere fra gli scienziati informatici, ha proposto l’idea del computer moderno in un influente articolo del 1936, circa 80 anni fa. Questo significa che ci stiamo acclimatando all’era informatica da non più di uno 0,04 percento di tutta la storia della specie umana, che corrisponde, sulla scala di una giornata, agli ultimi 35 secondi.

Proprio come i nostri antenati, anche la nostra generazione commette regolarmente errori stupidi che le generazioni future troveranno sconcertanti. Spero che il cadere nelle insidie dei dati sarà fra quelle inclinazioni umane che le future generazioni considereranno incomprensibili.

Che cosa succede, dunque, quando finiamo sul fondo di una brutta trappola dei dati? Che cosa facciamo? Per naturale inclinazione, tenderemmo a far finta che non sia mai successo, a mascherare l’errore, nella speranza che nessuno lo scopra, ma è proprio il contrario di quello che dovremmo fare.

Tre consigli semplici per uscire da una trappola di dati

  • Per prima cosa, cercare di uscire dalla trappola: risolvere l’errore.
  • Secondo, spuntare la lista di controllo, vicino alla trappola in cui si è caduti.
  • Terzo, raccontare a tutti quello che è successo.

Questo processo, per quanto possa sembrare un modo per autofustigarsi, ci aiuterà a sviluppare la capacità di lavorare efficacemente con i dati. Per assicurarci che anche gli altri possano seguire questo processo, dobbiamo astenerci dal denigrare quanti cadono nelle insidie dei dati. Ricordiamo, non solo sarebbe potuto capitare a noi, ma di sicuro capiterà a noi, prima o poi, lungo la strada.

Trovi numerosi articoli e risorse di valore sulla visualizzazione dei dati dentro la nostra raccolta di risorse in rete contro il coronavirus.

Questo articolo richiama contenuti dal capitolo 1 di Data Analysis & Visualization.

unsplash-logoImmagine di apertura di Filiberto Santillán

L'autore

  • Ben Jones
    Ben Jones è fondatore e CEO di Data Literacy, una società di formazione il cui obiettivo è aiutare le persone a parlare la lingua dei dati. Ha maturato una lunga esperienza nel campo del marketing e della business intelligence e in oltre vent'anni di attività ha imparato cosa fare - e soprattutto non fare - quando si lavora con i dati.

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.

Corsi che potrebbero interessarti

Tutti i corsi
Big-data-analytics-iniziare-bene-cover Corso Online

Big Data Analytics - Iniziare Bene

con Andrea De Mauro

Credi che i Big Data siano una grande opportunità ma che spesso se ne parli a sproposito? Excel ti sta stretto e vorresti fare di più? Andrea De Mauro ti aiuta a fare chiarezza e ti insegna a muovere i primi passi nell'analisi dei Big Data.

Mora-Agile_Sviluppo_e_Management-home2 Corso In aula

Agile, sviluppo e management: iniziare bene

con Fabio Mora

Non sei soddisfatto delle gestione dei tuoi progetti software? Vuoi scoprire come i metodi agili possono cambiare il tuo modo di lavorare? Il corso di Fabio Mora è quello che ti serve.

corso-data-governance Simone Aliprandi Corso Online

Data governance: diritti, licenze e privacy

con Simone Aliprandi

I dati sono ovunque intorno a noi ma per poterli utilizzare in sicurezza bisogna confrontarsi con temi complessi che riguardano licenze, proprietà intellettuale e privacy. Se non ti senti sicuro o hai paura di prendere la decisione sbagliata, il corso di Simone Aliprandi fa per te.


Libri che potrebbero interessarti

Tutti i libri

Data Analysis & Visualization

Sette insidie da evitare per analizzare e rappresentare dati

34,90

49,89€ -30%

28,41

29,90€ -5%

19,99

di Ben Jones

Data Science con Python

Dalle stringhe al machine learning, le tecniche essenziali per lavorare sui dati

34,90

49,89€ -30%

28,41

29,90€ -5%

19,99

di Dmitry Zinoviev

Data Science

Guida ai principi e alle tecniche base della scienza dei dati

41,25

59,99€ -31%

33,25

35,00€ -5%

24,99

di Sinan Ozdemir


Articoli che potrebbero interessarti

Tutti gli articoli