Home
Data Science: a cosa serve e come funziona

03 Luglio 2019

Data Science: a cosa serve e come funziona

di

I dati sono la nuova ricchezza, a patto di saperli consultare per estrarre da loro le risposte che ti servono.

In questo articolo:

È partita una nuova corsa all’oro

Avranno esagerato sull’Economist a scrivere che i dati sono il nuovo petrolio? Non del tutto; ci sono paralleli interessanti. Come il petrolio, la ricchezza dei dati è nascosta e va estratta. Le nuove trivelle, più ecologiche, si chiamano algoritmi e linguaggi di programmazione, come Python. Sempre come il petrolio, più si affina la tecnologia, più si trovano risposte anche dove sembravano non essercene. Diventare estrattori, di conoscenza o di idrocarburi, è una professione vera e richiede impegno. Fortunatamente esistono ottime risorse per facilitare l’inizio e impostare bene lo studio.

Per fare buon data mining bisogna imparare a trasformare i dati

Il data mining è l’inizio della data science: per ragionare sui dati, servono dati opportunamente preparati all’analisi e quindi la capacità di elaborarli per estrarne informazioni altrimenti non visibili. Le modifiche applicate ai dati per fare emergere risultati utili sono dette trasformazioni.

Come spiega Giuseppe Moschese, esistono due possibili approcci: top-down e bottom-up. Nel primo si cercano conferme a fatti noti (per esempio quali fattori hanno prodotto un risultato conosciuto); nel secondo si cercano informazioni utili scavando fra dati e collegamenti tra loro, per costruire ipotesi, per esempio quali fattori sono le cause più probabili che producono un certo risultato. Lo scopo principale del data mining è produrre un modello che rappresenti bene le relazioni emerse tra i dati. Può trattarsi di un modello descrittivo (un cliente che compra tre volte i tovaglioli è probabile che compri anche la birra) oppure predittivo (quale di queste famiglie risponderà all’offerta di vendita per corrispondenza?).

I dati vanno preparati prima di ottenere risultati

Una volta definiti gli obiettivi della ricerca, bisogna preparare i dati. Contrariamente al pensiero comune, conta più avere dati buoni di avere tanti dati. Molto spesso, infatti, si procede per campionamento e si suddividono i dati in tre (o più) sottoinsiemi, uno per il training, uno per la validazione del modello e uno per i test. Spesso il quarto sottoinsieme viene aggiunto a scopo di controllo.

La pre-elaborazione dei dati tra machine learning e analisi statistica

Le trasformazioni applicabili al modello sono di due tipi.

  1. Modificazioni matematiche alla distribuzione delle variabili.
  2. Creazione di nuove variabili dalla combinazione di variabili esistenti.

Al primo tipo appartengono:

  • l’eliminazione degli effetti degli outlier (dati maligni isolati che alterano il comportamento del campione);
  • la facilitazione dell’interpretazione dei dati mediante schemi di discretizzazione o di elaborazione logaritmica.

Il secondo comprende invece la creazione di:

  • variabili più rappresentative di quelle esistenti;
  • termini che descrivono la variazione dei dati nel tempo;
  • discretizzazione dei dati tramite range (per esempio raggruppando i dati in due gruppi 1 e 0 se si lavora su una rete neurale, oppure alto, medio e basso se i dati riguardano fasce di reddito);
  • trasformazioni matematiche, per esempio logaritmiche o polinomiali, utili per normalizzare la base di dati;
  • conversioni da testo a numerico, per esempio assegnando un codice a valori testuali se il tool a disposizione impone l’uso di numeri.

Dopo che i dati sono stati preparati, selezionati e trasformati, si è pronti a procedere con il data mining.

Il lavoro del data miner non ha fine

Quando tutte le premesse sono a posto, inizia un lavoro ciclico di affinamento, monitoraggio e revisione dei dati. Come spiega Giuseppe Moschese:

Si esaminano quali input hanno forte impatto sugli output, quali hanno poco impatto, quali non hanno impatto, e quali input, se combinati con altri input, hanno un forte impatto rispetto a quando sono presi da soli (congiunzione). Si cercano nuove intuizioni nelle relazioni cause-ed-effetti nei dati, si usano più dati, si includono nuovi elementi di dati, si eliminano dati che non hanno impatto, si estendono o si diminuiscono gruppi di dati per ottenere tutte le possibili intuizioni.

Puoi partire dalle basi della data science in modo semplice

Come spiega Sinan Ozdemir nel suo libro Data Science, per lavorare in questa disciplina sono necessarie competenze matematiche e di programmazione, più l’esperienza. Il campo è ancora apertissimo a nuovi contributi perché la maggior parte delle persone possiede una o magari due di queste competenze, ma non tutt’e tre. E il libro aiuta a superare questo ostacolo nel modo più semplice possibile. Certo, è il primo passo. E qualcosa proprio non si può studiare, come sottolinea l’autore:

Per diventare data scientist bisogna essere pazienti, perché la data science non funziona sempre come pensavamo e occorre provare e riprovare. La pazienza non si impara studiando, ma è un requisito base.

Se sei particolarmente curioso riguardo Data Science, puoi anche scoprire come abbiamo pensato la sua copertina.

Niente meglio di Python per fare machine learning

Il machine learning, l’apprendimento automatizzato, è una delle branche della data science più in auge e Python è facile da approcciare, completo, con una forte comunità a dare supporto. Non è necessario essere programmatori o ingegneri del software per fare machine learning con Python e puoi iniziare a lavorare immediatamente se segui le indicazioni di Sebastian Raschka nel suo Machine Learning con Python. Puoi anche partire da progetti piccoli, se non da una passiona personale. Senti che cosa ci ha dichiarato l’autore:

Sono un grande appassionato di calcio e ho applicato il machine learning alla costruzione di modelli per predire gli esiti dell’equivalente inglese del Fantacalcio. È stato un progetto divertente che mi ha permesso di imparare molto. I miei modelli non erano perfetti ma, nella media, certamente più precisi delle mie previsioni improvvisate.

A proposito di passioni, in Machine Learning con Python Raschka fa un esempio di lavoro con Internet Movie Database (IMDB), il database universale dedicato al cinema. È un libro che ha meritato tutta la nostra attenzione in ogni dettaglio, a partire dalla copertina.

Python può esserti utile in qualsiasi percorso della data science

Con Python hai un linguaggio di programmazione straordinariamente versatile e la data science ha campi di applicazione vastissimi. Praticamente sono fatti l’uno per l’altra. Lo mostra bene Dmitry Zinoviev, autore di Data Science con Python e di vari articoli apparsi su Apogeonline. Zinoviev è uno schietto che ti fa notare, per esempio, come la vita sia una incessante esperienza di data science anche se non lo sai, oppure ti consiglia di lasciare stare il linguaggio R perché, se sei cresciuto come programmatore, imparare R può essere una tortura. Inoltre è per formazione un fisico, che però consiglia una preparazione in statistica a tutti i data scientist (compresi quelli che si occuperanno di fisica).

Puoi praticare data science con Python in qualunque campo

Niente è meglio dell’esempio per imparare e, più interessanti sono gli esempi, più viene voglia di impegnarsi. Puoi scoprire, per dire, come usare Python per predire le classifiche dei gironi di un torneo sportivo internazionale oppure analizzare un forum di appassionati di una serie televisiva imparando nel frattempo tecniche di analisi di dominî culturali e iniziando a familiarizzare con le librerie di Python specifiche per il lavoro sui dati prima di ricavare risultati concreti dal campione di dati raccolto e ripulito.

Una curiosità: lo sapevi che il machine learning viene applicato negli Archivi Segreti Vaticani per aiutare il computer a leggere la scrittura a mano degli atti e dei documenti delle epoche più antiche?

I campioni di data science sono campioni di big data analytics

Nelle aziende, la scienza dei dati si interseca con i big data e la domanda di persone capaci di mettere insieme le due cose supera largamente la disponibilità. La data science è una fonte di ottimi posti di lavoro. Andrea De Mauro ha scritto per noi di come la Big Data analytics trasformi le aziende e le carriere e, per chi desidera approfondire, un libro intero sull’argomento, dove si parla tra l’altro di come:

  • conoscere i Big Data e sfatare i miti che li circondano;
  • iniziare a usare un tool specifico come KNIME;
  • gestire dati con agilità ed efficacia;
  • scoprire come impara una macchina;
  • applicare i metodi base del machine learning;
  • costruire modelli di predizione;
  • normalizzare i dati e creare cluster.

De Mauro ha anche descritto, in un articolo dedicato ai fondamenti dei Big Data, quali siano le competenze più ricercate nelle aziende e quale sia la loro funzione:

  1. Analista di business (o business analyst, data analyst): l’interfaccia tra le funzioni aziendali tradizionali (come marketing, vendite, acquisti e così via) e il mondo dei dati.
  2. Data scientist: identifica i giusti modelli e algoritmi da utilizzare in base all’esigenza e, all’occasione, modifica e riscrive metodi analitici esistenti, se non ne crea da zero.
  3. Sviluppatore: progetta, sviluppa e gestisce il software applicativo per l’utilizzo dei Big Data in azienda.
  4. Tecnico sistemista (o data engineer o system engineer): disegna, implementa e mantiene operativa tutta l’infrastruttura tecnologica a supporto della data analytics.

È importante una precisazione: le competenze di data analytics in azienda non possono essere patrimonio esclusivo di data scientist e analisti. Per poter collegare le opportunità dei Big Data alle esigenze di business servirà che tutti in azienda (a partire da chi la dirige) siano in grado di parlare di questi temi e abbiano una certa conoscenza di base di potenzialità e limiti dei vari metodi analitici.

La data science è già presente anche nel marketing

Se hai letto AI Marketing, sai già che intelligenza artificiale, machine learning, Big Data e data science sono usciti dai laboratori e dalle software house, per diventare materia essenziale persino nel marketing. Steven Struhl, l’autore, ha scritto per noi diversi articoli che puoi leggere per avvicinarti al tema e iniziare a farti un’idea su diversi aspetti.

Data science: ne parlano tutti

Al termine di questa chiacchierata ci concediamo un pizzico di orgoglio. La scienza dei dati, oggi, sbuca da ogni angolo. Ma ad anticiparne l’avvento sono stati pochi e c’eravamo anche noi. Nel 2001.

L'autore

  • Redazione Apogeonline
    Nella cura dei contenuti di questo sito si sono avvicendate negli anni tantissime persone: Redazione di Apogeonline è il nome collettivo di tutti noi.
    Non abbiamo scelto questa formula per prendere le distanze da chi ha scritto qualcosa, piuttosto la utilizziamo quando sapere a chi appartiene la penna, anzi la tastiera, di chi l'ha prodotto non aggiunge valore al testo.

    Per contattarci usa il modulo di contatto che trovi qui.

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Gli argomenti che mi interessano:
Iscrivendomi dichiaro di aver preso visione dell’Informativa fornita ai sensi dell'art. 13 e 14 del Regolamento Europeo EU 679/2016.

Corsi che potrebbero interessarti

Tutti i corsi
Big-data-analytics-iniziare-bene-cover Corso Online

Big Data Analytics - Iniziare Bene

con Andrea De Mauro

Credi che i Big Data siano una grande opportunità ma che spesso se ne parli a sproposito? Excel ti sta stretto e vorresti fare di più? Andrea De Mauro ti aiuta a fare chiarezza e ti insegna a muovere i primi passi nell'analisi dei Big Data.

big-_data_executive-home Corso Online

Big Data Executive: business e strategie

con Andrea De Mauro

Vuoi capire se e come la tua azienda può ottenere un vantaggio di business investendo in una strategia di creazione e analisi di Big Data? Il corso di Andrea De Mauro è quello che ti serve.


Libri che potrebbero interessarti

Tutti i libri

Data Science con Python

Dalle stringhe al machine learning, le tecniche essenziali per lavorare sui dati

34,90

49,89€ -30%

28,41

29,90€ -5%

19,99

di Dmitry Zinoviev

Data Science

Guida ai principi e alle tecniche base della scienza dei dati

41,25

59,99€ -31%

33,25

35,00€ -5%

24,99

di Sinan Ozdemir

Big Data Analytics

Analizzare e interpretare dati con il machine learning

34,90

49,89€ -30%

28,41

29,90€ -5%

19,99

di Andrea De Mauro


Articoli che potrebbero interessarti

Tutti gli articoli