26 Ottobre 2004

Data Mining: tecniche di trasformazione dei dati (Parte seconda)

Lo scopo di questo articolo (il secondo di una serie) è quello di dare indicazioni specifiche, utili alla costruzione di sistemi di Data Mining, in termini di metodologie di sviluppo e di analisi.

L’articolo, come si diceva nella prima parte, propone inoltre un’indagine sulle tecniche che soddisfano le esigenze di analisi, ne descrive la possibile applicabilità e fornisce dei parametri di valutazione.

Identificazione del problema di business

Definizione degli obiettivi
Per avere i migliori benefici da un sistema di Data Mining bisogna avere chiari quali sono gli obiettivi aziendali cui l’attività di analisi è preposta.

La perfetta definizione degli obiettivi da raggiungere è fondamentale per la riuscita dell’intero progetto, non è infatti importante avere un grande ammontare di dati a disposizione per garantire il successo.

Si può ad esempio voler incrementare le risposte ad una campagna di mailing. Questo scaturisce due differenti obiettivi: “incrementare il tasso di risposta” e “incrementare il valore di una risposta”. Per essi sono necessari due modelli completamente diversi.

Valutazione dell’ambiente di Information Tecnology e delle fonti dati

Il secondo passo consiste nell’individuare le fonti da dove reperire i dati necessari per il raggiungimento degli obiettivi sopra definiti.

Le fonti dei dati possono essere interne, esterne oppure una combinazione dettata dalla necessità di arricchire i dati con nuove dimensioni descrittive (variabili di geomarketing) o con nuovi nominativi (liste di prospect) non presenti nel sistema informativo aziendale.
Questa fase di ricerca risulta facilitata dalla presenza di un Data Warehouse organizzato per soggetti e contenente dati certificati.

Da sottolineare comunque che, non è possibile utilizzare un Data Warehouse direttamente per il Data Mining, poiché è necessario un gran lavoro di preparazione dei dati che devono essere utilizzati per le analisi.

In effetti, il lavoro richiesto per la preparazione dei dati va dal 50 all’85% del tempo e degli sforzi dell’intero processo di scoperta della conoscenza.

Predisposizione dei dati in input
Il terzo passo consiste nella creazione della matrice dei dati disegnata sulla base del modello dati dettato dalle esigenze di analisi e dagli obiettivi preposti.
Questa matrice viene indicata in vari modi: da Data Mart delle Analisi (DMA), a Data Mart del Data Mining a tabelle per il Data Mining.

Se non si parte da un Data Warehouse la collocazione del DMA è sicuramente esterna all’ambiente sorgente. Questa è la configurazione più comune anche quando si parte da un Data Warehouse, ma in questo caso alcuni tool permettono la creazione del DMA (virtuale) all’interno dell’ambiente sorgente generando una query wave (una serie di statement SQL) che estrae gli aggregati e le informazioni di dettaglio come e quando sono richiesti.
Come già evidenziato, il modello dati impone sicuramente delle trasformazioni dei dati originari al fine di disporre i dati di input nella forma propria per i successivi processi di analisi quantitativa.

Il rilascio del DMA è subordinato ad un’attività di controllo di qualità:

controllo formale per l’individuazione delle variabili non utilizzabili, variabili fisicamente esistenti ma non implementate;
controllo sostanziale per la verifica del contenuto delle variabili implementate, presenza di modalità non previste.

Effettuati i controlli formali e sostanziali, potrebbe emergere la mancanza di alcuni elementi informativi essenziali per il proseguimento dell’attività di analisi. In questi casi è necessario riciclare sulla fase di individuazione delle fonti, individuazione di nuove e/o procedendo alle opportune trasformazioni.

La fase di costruzione del DMA, in termini di definizione dei soggetti logici di riferimento (clienti, prodotti, territorio) e di predisposizione degli opportuni descrittori (fatti e dimensioni di analisi) è guidata dagli obiettivi di business che si intende raggiungere e si configura come propedeutica alla fase di analisi.

Preparazione dei dati

Ottenuti al passo precedente tutti i dati necessari alle analisi dalle varie fonti interne ed esterne e convogliate in un’unica sorgente si devono adesso risolvere: i conflitti tra i dati, gli outliers (eccezioni o valori inusuali), i valori mancanti e le ambiguità.

Poiché i modelli di Data Mining derivano direttamente dalle informazioni contenute nei dati, un prerequisito per avere un buon modello, non può che essere quello di avere dei buoni dati in termini di granularità, di variazioni e di pulizia. Non può trovare migliore applicazione il detto informatico GIGO (Garbage In, Garbage Out) in altre parole se abbiamo della spazzatura in ingresso al nostro sistema non possiamo che ottenere della spazzatura in uscita.

Quindi è necessario uno studio preliminare sui dati che identifichi le caratteristiche dei dati che possono degradare la qualità del modello.

Campionamento

In generale è opportuno impostare l’attività di analisi su base campionaria, soltanto in talune circostanze è consigliabile lavorare sull’intera popolazione di riferimento.
Le motivazioni che portano all’estrazione di un campione rappresentativo si basano sulle seguenti considerazioni:

la similitudine dei dati nei VLDB (Very Large Data Base);
l’entità dell’errore campionario è tenuta sotto controllo dalla teoria dei campioni;
i migliori tempi di elaborazione;
la suddivisione dei dati in tre (o più) sottoinsiemi per il training, la validazione e il test del modello;
avere a disposizione più basi di confronto per la costruzione e per la scelta dei modelli di sintesi.

In particolare lavorare su un sotto-insieme rappresentativo dell’universo di riferimento permette di tenere sotto controllo il rischio di costruire modelli auto-esplicativi: la bontà di una regola consiste nella sua capacità discriminante, ma anche nella sua robustezza.
Il vantaggio di lavorare su base campionaria, costruendo un Data Mart (porzione del DMA) per il training del modello, uno per la validazione, ed uno per il test, consiste proprio nell’evitare che la regola, adattandosi alle irregolarità ed alla variabilità propria dei dati sui quali è stimata, perda capacità di generalizzazione.

In questo caso si dice che la regola è “over-fitted” o si è verificato un “overtraining”.
Questa situazione occorre quando il modello è stato addestrato intensamente sul training set ed ha appreso il noise dei dati in esso contenuti invece dei sottostanti pattern. Per questa ragione è indispensabile un secondo insieme di dati “fresco” per la validazione.

Il maggiore timore dell’utilizzo della base campionaria rispetto all’intera popolazione è di perdere cruciali informazioni per la costruzione di un buon modello. Comunque, statisticamente si può avere un’ottima confidenza se ci sono abbastanza dati e l’effetto della ricerca (come una propensione all’acquisto o un buon rischio di credito) è sufficientemente prevalente, il tal caso si ha un buon modello.

Comunque, se si hanno 10.000.000 record clienti e si vuole cercare il 5% (500.000) dei clienti che rispondono ad una campagna di mailing, sono necessari meno del 10 per cento (circa un milione) di record per costruire un buon modello.

Una volta creato il DMA e deciso su quale base lavorare: campione o popolazione, segue il processo di estrazione di ricchezza informativa dai dati opportunamente predisposti. La metodologia di Data Mining guida questo processo di sintesi.

Esplorazione dei dati
In questa fase, solitamente con strumenti grafici o filtri, si studia il comportamento dei dati per l’individuazione di andamenti non omogenei e dei poco desiderati outliers. Uniti alla possibilità dei tool di permettere la visione dei dati da prospettive diverse e dalla possibilità di estrapolarne dei sottoinsiemi per ulteriori analisi si ottiene una migliore comprensione dei dati da analizzare.

Consolidamento e pulizia
In questo passo viene “costruito” un database con dati “omogenei” che saranno alla base della costruzione del modello. Bisogna quindi consolidare i dati e risolvere il più possibile i problemi individuati nella fase di esplorazione.

Solitamente si individuano quattro categorie di problemi: valori mancanti, dati sporchi, outliers e incertezza. In realtà, se non si parte da un Data Warehouse, i problemi potrebbero essere tanti altri, ad iniziare dall’inconsistenza dei formati degli ambienti legacy. Si suppone che i preliminari problemi di pulizia dei dati siano stati già risolti.

Valori mancanti
Un’indicazione può essere ad esempio quella di sostituire un valore mancate con la media dei valori della altre osservazioni corrispondenti. Ma questo potrebbe non essere plausibile con gli obiettivi preposti, così come potrebbe non essere plausibile ignorare l’osservazione con importanti dati mancanti, pena la perdita della migliore predizione – il fatto che il dato ha omesso. Ogni situazione va trattata con la consapevolezza dell’informazione omessa e dalla perfetta conoscenza degli obiettivi che si vogliono raggiungere.
In generale i dati mancanti possono essere trattati nei seguenti modi:

semplicemente non far caso al valore mancante,
omettere il corrispondente record,
dedurre il valore mancante dai valori conosciuti,
sostituire il valore mancante con il valore più probabile,
inserire la media del valore mancate ottenuta con le tecniche di Bayes,
trattare i valori mancanti come valori speciali da includere negli attributi del dominio,
costruire un modello di classificazione per assegnare i valori mancanti.

La trattazione dei valori mancanti, come valori speciali, potrebbe essere il caso di un campo che deve contenere delle risposte non obbligatorie a delle domande.
Guardando gli altri campi, dove sono state inserite le risposte, ci si può accorgere che i dati non sono necessariamente mancanti. In questo caso si codifica il valore mancante come “senza risposta” e fornisce indicazioni sui clienti che scelgono di non rispondere a particolari domande.
La migliore soluzione per la gestione dei valori mancanti è sicuramente la 7, ma è anche la più costosa visto che richiede la costruzione di un modello.

Prima di scegliere una soluzione piuttosto che un’altra, bisogna fare delle considerazioni tra il tempo che si vuole spendere per modellare i valori mancanti e i potenziali benefici.

Dati sporchi
Un altro problema è il noise dei dati (dati sporchi), nel senso di imprecisi.
Questa è una caratteristica di tutte le collezioni di dati, e tipicamente vengono “puliti” confrontando l’andamento con delle distribuzioni statistiche, come quella Gaussiana, e i valori che non collimano sono interpretati come errori di inserimento.

È una consuetudine trattare il problema del noise dei dati con metodi statistici, i quali permettono anche di separare differenti tipi di noise.

Problema degli outliers
Gli outliers (o outlying value) sono un grosso problema, essi sono dei dati che deviano significativamente dalla norma, e che si infilano malignamente in molte analisi modificando significativamente i risultati ottenuti. Purtroppo non si hanno delle tecniche precise per la loro gestione. Potrebbero contenere informazioni importanti per la costruzione del modello, o potrebbero essere ignorati, basandosi sulla comprensione del problema che il sistema deve indirizzare. Ad esempio, potrebbero essere il risultato di un tentativo di frode o di un inserimento errato o di un evento non significante per le analisi (esempio uno sciopero).

Incertezza
L’incertezza fa riferimento alla severità degli errori e al grado di noise dei dati. La precisione dei dati è un’importante considerazione nei sistemi di scoperta della conoscenza.
Se i dati si trovano in una situazione molto grave di incertezza, la migliore soluzione è riciclare sull’individuazione delle fonti per ottenere dei dati migliori.

Valutazione e selezione

L’analisi vera e propria inizia con un’attività di analisi preliminare delle variabili che descrivono il fenomeno oggetto d’indagine che diventeranno gli input del futuro modello.
Si tratta di una prima valutazione di significatività dei descrittori che può portare ad una selezione o trasformazione delle variabili originarie.

L’attività di identificazione delle colonne o variabili dipendenti, indipendenti e correlate viene indicata col termine di “data pruning“.

Strumenti grafici aiutano a visualizzare i dati e le loro relazioni permettendo di identificare importanti variabili indipendenti e le variabili in collisione.
Anche se in principio alcuni algoritmi di Data Mining ignoreranno automaticamente le variabili irrilevanti e gestiranno appropriatamente le colonne correlate, in pratica, è saggio evitare di dipendere solamente da un tool.

Spesso la conoscenza del dominio del problema aiuta ad effettuare queste selezioni correttamente. Per esempio, includere l’ID number o il codice fiscale come variabili indipendenti è il miglior modo per non ottenere benefici, ancora peggio, si riduce il peso di altre importanti variabili.

Continua…

L'autore

Giuseppe Moschese

Iscriviti alla newsletter

Novità, promozioni e approfondimenti per imparare sempre qualcosa di nuovo

Corsi che potrebbero interessarti

Tutti i corsi

Corso Online

Big Data Analytics - Iniziare Bene

con Andrea De Mauro

Credi che i Big Data siano una grande opportunità ma che spesso se ne parli a sproposito? Excel ti sta stretto e vorresti fare di più? Andrea De Mauro ti aiuta a fare chiarezza e ti insegna a muovere i primi passi nell'analisi dei Big Data.