Best Practice

Text Analytics: creazione dei dataset con IBM Watson

Blue Reply, la società del gruppo Reply specializzata nella trasformazione digitale attraverso servizi, consulenza ed implementazione di soluzioni basate su tecnologie IBM, porta nelle imprese la tecnologia dell’Intelligenza Artificiale attraverso l’utilizzo della suite IBM Watson.

Estrarre valore dai dati

Ogni giorno vengono prodotti 2,5 quintilioni di bytes di nuovi dati, molti dei quali rappresentano documenti non strutturati e in linguaggio naturale, di tipologia diversa: richieste, rapporti, reclami, ricette mediche, sinistri scritti in varie lingue. A causa della natura destrutturata del dato, è stato calcolato che tipicamente le organizzazioni non riescono a sfruttarne il patrimonio informativo oltre l’8%. L’Intelligenza Artificiale sta vivendo oggi una forte crescita, spinta dalle potenzialità computazionali offerte dal Cloud. L’elaborazione del linguaggio naturale è da sempre una delle tematiche di intelligenza artificiale seguite con maggior attenzione.

Nel panorama d’offerta delle tecnologie d’intelligenza artificiale, circa una decina di soluzioni si sono distinte e si trovano oggi ai vertici del mercato.

Blue Reply ha scelto di operare attraverso le tecnologie di IBM Watson: rispetto ai principali competitors, queste sono caratterizzate da un’elevata maturità in termini di Machine Learning, una vasta offerta di prodotti (sia in Cloud che on premise) con numerose funzionalità out of the box, internazionalizzazione e grande flessibilità nella composizione delle soluzioni.

I tre approcci

Blue Reply offre competenze e profili altamente specializzati per l’affiancamento consulenziale al cliente, il supporto nella selezione dei software e nella definizione di architetture e soluzioni applicative per l’estrazione di valore da documenti scritti in linguaggio naturale, mediante tecnologie cognitive.

È possibile elaborare documenti in linguaggio naturale per estrarne determinate entità come persone, specifici prodotti, riferimenti geografici, organizzazioni e relazioni tra di esse sia su un dominio generale che su un dominio di business specifico. Il testo scritto per il calcolatore non è altro che una sequenza di parole senza significato, il sistema non è in grado di comprendere se una frase corrisponde ad una proposizione, ad una parola oppure a dei numeri: è necessario addestrare il sistema al riconoscimento di determinati pattern che identificano identità. Occorre individuare all’interno del testo le relazioni tra le entità, per assicurarsi che il significato sia quello più corretto in relazione al contesto del discorso. In questo modo si ottiene l’identificazione di un modello composto da entità e relazioni.

Le soluzioni disegnate da Blue Reply per l’estrazione di informazioni dai dati consentono di addestrare il sistema mediante l’ausilio di regole manuali, di Machine Learning oppure ibride. Questi tre approcci presentano caratteristiche diverse.

Approccio rules-based

Utilizza regole predefinite per eseguire l’analisi del linguaggio naturale;
Consente il tracciamento e il debug in modo semplice;
Richiede l'intervento umano per la programmazione di regole complesse;
È difficile da mantenere all’aumentare della complessità.

Approccio machine learning

Utilizza inferenze e modelli statistici per eseguire l’analisi del linguaggio naturale;
Apprende attraverso esempi, non richiede la scrittura di codice;
È indicato quando il processo coinvolge un ampio volume di dati;
Può risultare poco chiaro per lo sviluppatore e rende più difficili da eseguire i debug;
Richiede la creazione di una base di conoscenza (Ground truth).

Approccio ibrido

Combina gli approcci Rules-based e Machine Learning;
Consente di iniziare con l’approccio Rules-based e di muoversi poi verso il Machine Learning;
Utilizza regole per accelerare il training e migliorare la precisione dei modelli ML;
Richiede lo sviluppo di una soluzione per integrare i due approcci.

Particolare attenzione va prestata alla creazione del dataset, il campione di documenti per addestrare il sistema. È possibile valutare le percentuali di performance rispetto ad un piccolo set di documenti annotati manualmente mediante intervento umano. Utilizzando procedimenti completamente manuali di estrazione dell’informazione, specialisti dello sviluppo software e esperti di dominio lavorano isolati, imparando ad interfacciarsi fra loro con difficoltà dovute alla conoscenza del dominio e/o affrontando lo studio del linguaggio che spesso può essere ambiguo. Grazie alle tecnologie Watson è possibile semplificare e rendere intuitivo questo processo, in quanto attraverso la condivisione di una piattaforma di collaborazione specialisti cognitivi e specialisti di dominio possono collaborare integrando prodotti ed API, al fine di realizzare una soluzione automatizzata in grado di elaborare grandi volumi di dati.

La creazione del dataset attraverso l’utilizzo di Watson risulta essere quindi:

Intuitiva: le sfumature di linguaggio naturale vengono apprese senza la necessità di scrittura di codice;
Collaborativa: due utenti con competenze diverse possono accedere contemporaneamente allo strumento ed eseguire ognuno il proprio lavoro;
Conveniente: la rapidità del processo e la natura Saas, che consente di acquistare solamente gli elementi necessari alle proprie esigenze, la rendono una soluzione efficiente anche dal punto di vista dei costi.

La soluzione è adatta a chiunque abbia bisogno di elaborare documenti in linguaggio naturale, per l’estrazione di informazioni, per l’individuazione di intenzioni e/o il significato di un documento. I clienti potenzialmente interessati a questo tipo di offerta possono appartenere ad esempio all’ambito insurance, healthcare, telco, retail, banking e manufacturing.