Da parole a numeri

211

Text Analytics per massimizzare il valore insito nei dati non strutturati

La crescente domanda di informazioni e l’incremento esponenziale dei volumi di dati sono problematiche rese ancora più complicate dalla varietà dei tipi e dalla complessità dei dati da gestire, inclusi dati semi-strutturati e non strutturati come e-mail, log di messaggi istantanei, corrispondenza, pagine Web, blog, ecc. Per ricavare il massimo valore dai dati è indispensabile poterli analizzare. Tuttavia, a causa dell’ambiguità e della molteplicità dei modi in cui uno stesso testo rappresenta concetti simili, le informazioni insite nei dati testuali non sempre sono facili da distinguere, quantificare, analizzare o sfruttare. Inoltre, numerose organizzazioni non sono in grado di combinare le informazioni testuali con i propri dati strutturati e risulta quindi impossibile ottenere una visione completa e precisa dell’azienda. Succede spesso quindi che decisioni importanti vengano prese senza disporre di tutte le informazioni necessarie. Di pari passo alla crescita del volume delle informazioni in azienda, si assiste ad una maggiore domanda di intelligence sui dati, al fine di ricavarne il massimo valore per il business. Le applicazioni più importanti e più diffuse in ambito Text Analytics sono quelle che supportano il Brand Management, ovvero l’analisi di come il marchio viene recepito dal mercato, la Competitive Intelligence, con l’obiettivo di analizzare come le aziende definiscono sé stesse sui media e di come il sentiment dei consumatori associato ai vari brand si modifichi nel tempo. Poi ci sono tutte le applicazioni relative alla Customer Experience, altrimenti definite Voice of the Customer, applicazioni con le quali le aziende cercano di intercettare il sentiment dei consumatori, tramite l’analisi di dati strutturati e non relativi ai clienti (per i non strutturati parliamo di e-mail, telefonate ai call center, lettere, risposte a survey, ecc.). Esistono poi le applicazioni di gestione documentale, definite come Content o Knowledge Management, applicazioni con le quali le aziende cercano di organizzare al meglio la mole di dati documentali interni (si pensi ai documenti scientifici di una casa farmaceutica o ai documenti legali). Un altro tipo di applicazione di Text Analytics è sicuramente relativa al Customer Service, ovvero sistemi con i quali si migliorano i servizi post vendita verso i clienti, la warranty analysis, ovvero l’analisi delle richieste di assistenza di prodotti in garanzia per cercare da un lato di gestire al meglio le risposte ai clienti e dall’altro di organizzare la logistica della supply chain nella modalità più ottimizzata e meno dispendiosa possibile. Non ultimi, l’analisi delle frodi e del rischio e il monitoraggio dei Media e delle Human Resources, tramite survey interne.

Linguistica e semantica in primo piano
 

A che punto siamo con l’analisi di dati non strutturati a fini di Business Intelligence?
“Alcuni analisti visionari già 50 anni fa annunciarono che l’area dell’analisi testuale sarebbe emersa prepotentemente. La realtà è che negli ultimi 50 anni la Business Intelligence ha investito soprattutto sull’analisi dei dati numerici, che estratti dai sistemi transazionali e operazionali e successivamente storicizzati nei Data Warehouse aziendali, hanno fornito al business un valore tangibile e misurabile. Negli ultimissimi anni, si è riacceso l’interesse verso le analisi testuali. Software vendor e Open Source si stanno dedicando con sempre maggiore interesse verso questa nuova opportunità per il business”.

 

Ma che differenza c’è tra categorizzazione e catalogazione dei dati testuali e Text Analytics?
“SAS definisce Text Analytics il framework che consente alle organizzazioni di massimizzare il valore dei dati testuali archiviati nei repository aziendali, estraendo dati rilevanti per il business, interpretando e strutturando l’informazione per migliorarne la tracciabilità e la ricerca di pattern nascosti, il sentiment e le relazioni tra documenti. È importante sottolineare che, una volta catalogati i dati testuali in strutture organizzate e indicizzate, sulle quali sia semplice effettuare una ricerca o ottenere informazioni sui metadati associati, per portare beneficio al business è necessario effettuare delle operazioni successive. Ovvero, spesso per ottenere un misurabile ritorno sull’investimento, manca ancora qualcosa. Gli strumenti avanzati di Text Analytics devono riuscire a estrarre informazioni strategiche per le aziende, a indirizzare il business e a prevedere pattern di interesse; per far ciò è necessario integrare tecniche linguistiche e semantiche di Natural Language Processing con tecniche statistiche evolute. Le tecniche di Natural Language Processing prendono in considerazione le relazioni logiche e semantiche che sono nelle intenzioni di chi parla, o scrive testi di qualunque natura. A questo proposito diventano essenziali funzionalità quali il Part-of-speech tagging, la Tokenization, lo Stemming, il riconoscimento delle Entità, la ricerca dei Lemma, l’estrazione di concetti e fatti, la summarizzazione e così via. La componente analitica invece, consente di passare agevolmente da parole (o gruppi di parole) a numeri, ovvero tramite modelli matematici spazio vettoriali è possibile rappresentare numericamente la mole di documenti da analizzare. Tali tecniche consentono di ridurre lo spazio vettoriale della matrice di frequenze parole-documenti, ovvero la matrice che registra per ogni documento (in riga) quante volte viene utilizzata la parola i-esima (in colonna). Inoltre hanno il vantaggio di trattenere i concetti più importanti di un testo e consolidare o eliminare i concetti meno importanti. Alla matrice derivante dalla trasformazione tramite la Singular Value Decomposition, verranno applicate tecniche statistiche tradizionali di clustering, modelli predittivi, e altra tipologia di analisi di Data Mining”.

 

È importante che strumenti di Text Analytics siano completi sia nelle funzionalità linguistiche e semantiche del Natural Language Processing sia nelle funzionalità di trasformazione dei testi in numeri (funzionalità altrimenti definite di Text Mining) al fine di poter effettuare anche analisi predittive evolute e di ricerca di pattern nascosti tra i dati, per raggiungere obiettivi di business misurabili. In particolare la soluzione SAS Text Analytics consente di:

– analizzare grandi volumi di dati contenutistici e testuali, in più lingue
scoprire ed estrarre nuova conoscenza nascosta da documenti testuali
esaminare i social media e catturare informazioni rilevanti e pertinenti
integrare repository e risorse di testo esistenti associando testi disparati a definizioni e regole gerarchiche comuni.

Molte le applicazioni nel business
Pensiamo a quanto le tradizionali analisi di marketing o di rischio di credito nelle banche potrebbero trarre giovamento dall’analisi congiunta di dati strutturati (i transazionali, ad esempio) e i non strutturati, come le e-mail, le conversazioni con i call center o le note di bilancio delle società nelle attività di stima della probabilità di attrition dei clienti o la probabilità di default in ambito rischio. Estendere le fonti informative dai tradizionali dati transazionali ai dati testuali, soprattutto in considerazione del fatto che gli analisti di mercato stimano che circa il 70-75% delle fonti di informazione presente in azienda sia non strutturata, ci fa capire quanto beneficio di business può derivare dall’integrazione delle fonti e dall’applicazione di queste tecniche:

– eliminare il caos a livello di contenuti nelle aziende mantenendo e distribuendo soltanto le informazioni pertinenti, accurate e aggiornate;
– facilitare processi decisionali;
– analizzare le informazioni provenienti dal Web, da siti di social networking e da documenti elettronici interni per comprendere il sentiment e il relativo effetto sui profitti;
– restare aggiornati su tendenze, ricerca e posizionamento competitivo del mercato valutando automaticamente i materiali interni ed esterni;
– essere proattivi nell’individuazione di problematiche su prodotti o servizi prima che influiscano negativamente su vendite e opinione del cliente;
– ottenere una visione più completa delle problematiche organizzative.

 

Soltanto un framework analitico integrato, che copre l’intero processo di creazione dell’intelligence, dall’integrazione e gestione dei dati (strutturati e non), alle analisi avanzate e alla distribuzione efficiente delle informazioni attraverso soluzioni di business e di settore, permette di ottenere valore dalle informazioni. Per un reale e tangibile vantaggio competitivo.