Virtualizzare i dati conviene!

299

Nella società dell’informazione odierna i data warehouse sono strumenti potenti e fondamentali per la presa di decisioni, ma la quantità crescente dei dati impone scelte per la loro gestione

Viviamo da tempo nella società dell’informazione, una società caratterizzata da elevato dinamismo e rapidi cambiamenti determinati anche dalla centralità assunta dall’informazione. Il suo ruolo di risorsa strategica ne fa uno strumento potente in grado di condizionare imprese e processi aziendali ma anche sviluppo economico, crescita, ricchezza sociale e culturale. Informazione e conoscenza sono diventate materie prime strategiche, prodotti fondamentali di cui singole persone, organizzazioni, istituzioni e imprese non possono più fare a meno. Per stare al passo e competere globalmente, le imprese devono sempre più e sempre meglio fare affidamento su informazioni aggiornate, rinnovabili e disponibili in tempo reale, per poter coordinare risorse distribuite geograficamente, favorire l’interazione e la collaborazione tra membri di un team o agenti di un distretto o di una filiera produttiva e per la creazione di nuovo valore. Queste informazioni risiedono spesso all’interno di sistemi di Data Warehouse, Data Mart e ODS (Operational Data Store) che permettono alle aziende di prendere decisioni critiche in tempo reale disponendo di tutti i dati necessari nelle varie fasi dei processi decisionali e rispettando i mandati relativi alla compliance e alle normative vigenti. I Data Warehouse, nelle varie configurazioni e forme che si sono affermate negli anni, sono strumenti potenti per l’integrazione e la trasformazione di dati distribuiti, complessi ed eterogenei, in informazioni e conoscenze utili a sostenere il reporting, i processi decisionali e le esigenze di analisi delle performance aziendali.

Approcci e modelli
Gestire in modo efficace miriadi di dati con schemi e formati diversi, archiviati in database e applicazioni distribuite e usate da utenti eterogenei per motivi diversi, può risultare frustrante per tutti i lavoratori della conoscenza che richiedono, nei loro report, dashboard, strumenti di query e applicazioni di BI, una vista unificata di dati operazionali diversi. L’approccio più consolidato e comune per integrare dati eterogenei è quello indicato come Enteprise Data Warehouse (EDW) un approccio non sempre ottimale per ambienti distribuiti e decentralizzati. Per questi ambienti si ricorre ad un approccio alternativo di Data Federation, solitamente parte di una strategia dell’informazione sotto forma di servizio e utile a fornire, in tempo reale, viste unificate di dati eterogenei e distribuiti, utilizzando dati che risiedono su database e fonti diverse. La maggior parte delle applicazioni di BI si appoggiano su architetture di EDW viste come un punto di aggregazione fisico di dati storici. I bisogni legati alla gestione dell’informazione e della conoscenza sono però molto più ampi e difficilmente trovano oggi risposte concrete da investimenti in soluzioni di Data Warehouse e Data Mart fisici. Per questo motivo molte aziende sono andate rivedendo le loro architetture di EDW, ricorrendo ad approcci di Data Federation o virtualizzazione dei data warhouse e dei data mart aziendali, per ottimizzarne infrastrutture, modelli e funzionalità e per fornire applicazioni in grado di erogare servizi in tempo reale. Il ricorso alla virtualizzazione dei dati non nasce solo da obiettivi funzionali e da bisogni dell’utente. La virtualizzazione permette al dipartimento IT dell’azienda di reagire più rapidamente a nuovi bisogni e richieste dando modo agli sviluppatori di aggiungere, testare e mettere in produzione nuovi volumi di dati da fonti eterogenee in poco tempo senza dover operare a livello fisico dei database.

Un po’ di storia
Il tema della virtualizzazione in ambito Data Warehouse non è nuovo. La terminologia risale agli anni ‘90 quando vennero introdotti i primi data warehouse e data mart sia nella loro forma fisica che virtuale. La configurazione virtuale veniva ritenuta ricca di potenzialità per la sua capacità di fornire maggiore agilità nel soddisfare esigenze di business sempre diverse ed urgenti e più adeguata a fornire soluzioni in tempo reale. La prima generazione di data mart virtuali non superò le critiche di quanti ritenevano necessario, prima di poter eseguire report o analisi, operare innanzitutto al livello fisico dei dati. Non le superò perché era allora troppo complicato affrontare la complessità dei dati sorgenti, troppo elevato il rischio di impantanare i sistemi transazionali, troppo difficile ristrutturare i dati da una forma tabellare ad una multidimensionale, prima di permettere un sistema di reporting e di analisi affidabile. In assenza di nuove tecnologie prevalse il ricorso a sistemi di estrazione, trasformazione e caricamento dei dati (ETL) che divenne de facto il sistema di integrazione dei dati delle soluzioni di BI. La virtualizzazione dei dati ha le sue radici nell’integrazione fornita da approcci di Data Federation. Un approccio di Enteprise Information Management a cui si fa ricorso per integrare dati provenienti da fonti molteplici in modalità logiche invece che fisiche, finalizzandone l’uso alla richiesta on-demand e in tempo reale da parte di applicazioni di BI e portali aziendali. Nel tempo la virtualizzazione dei dati ha finito con il comprendere altre forme e approcci al dato denominati Data Warehouse Extension e Enterprise Data Sharing. A questa visione federata si è sempre opposto Bill Immon, padre del Data Warehouse, con considerazioni legate al costo e alla difficoltà legata al soddisfacimento dell’esigenza dell’utente di avere una vista unica del dato. Nei fatti le nuove tecnologie hanno fatto della data federation l’approccio ottimale per fornire prestazioni elevate e minimizzare l’impatto di dati distribuiti in fonti eterogenee. La data federation e la virtualizzazione dei dati possono essere implementate in alternativa agli EDW monolitici garantendo un accesso diretto e interattivo a sistemi OLTP senza passare attraverso operational data store, ma possono anche coesistere, estendere e arricchire l’EDW così come altri ambienti di raccolta dati quali gli operational data store, i data mart e gli OLAP.

Data Mart virtuali
Le soluzioni di Data Mart virtuale stanno guadagnando popolarità grazie a nuove tecnologie di Data Federation, finalizzate a fornire migliore integrazione dei dati e supporto alle strategie di integrazione ad esse associate. Il successo dell’integrazione dipende da strumenti ad hoc in grado di mostrare viste e stili dei dati diverse e viste ‘federate’ come uno di questi stili. Le nuove tecnologie di virtualizzazione dei dati si stanno affermando per l’accresciuta necessità da parte delle aziende di dotarsi di strumenti e soluzioni software sempre più potenti e performanti, di gestire quantità di dati elevate e di muoversi all’interno di ambienti sempre più complessi con agilità e facilità grazie alle informazioni e alle conoscenze disponibili. A ciò ha contribuito sia l’adozione diffusa di soluzioni di ERP, l’affermarsi di applicazioni con interfacce e servizi web che l’accresciuta disponibilità di strumenti di Business Intelligence analitici o di performance management. L’evoluzione delle imprese dalla società industriale a quella dell’informazione indica con chiarezza come la maggiore complessità generata abbia prodotto tipologie di dati molto eterogenei quali dati relazionali e transazionali, documenti HTML generati sul web, contenuti generati dagli utenti, fogli elettronici, presentazioni di powerpoint o keynote, immagini, video, audio, podcast ecc. Integrare dati così eterogenei e provenienti da fonti diverse non è semplice e richiede nuove tecnologie best of-breed (hardware ma anche network, bandwidth ecc.) e grande capacità innovativa nella creazione di nuovi algoritmi per l’interrogazione delle banche dati, la ricerca di nuovi dati, e di modelli probabilistici per fornire servizi di analisi predittive e di data mining. Le nuove tecnologie e l’affermarsi di standard quali ODBC, JDBC, SOAP ecc. hanno contribuito a facilitare la raccolta, la distribuzione e la circolazione di dati eterogenei e la loro integrazione a partire da banche dati sorgenti diverse. Lo sviluppo di questi ambienti è stato reso più semplice dal ricorso a strumenti CASE complessi che hanno aiutato gli sviluppatori e i ricercatori fornendo modelli e schemi astratti per accedere ai dati. L’affermazione dei data mart virtuali è però legata a progetti complessi di business intelligence che hanno richiesto il ricorso a strumenti di ETL e alla realizzazione di ambienti e progetti di data mart complessi. L’evoluzione delle pratiche di Information Management in azienda ha portato alla pratica di replicare i dati in molteplici data mart, magazzini di dati operazionali (Operational Data Store) e data warehouse. Questo approccio ha favorito il proliferare di silos informativi che hanno a loro volta fatto nascere l’esigenza di maggiore integrazione.

Non solo per applicazioni di BI
Le soluzioni di Data Mart virtuali sono oggi abilitate da tecnologie di middleware che permettono interrogazioni ai database distribuiti, la federazione di data mart diversi e l’integrazione delle informazioni a livello d’impresa (EII). Le funzionalità principali si possono riassumere nella virtualizzazione dei dati che fornisce un’unica vista dei dati. E’ come se i dati risiedessero in un’unica sorgente mentre invece sono distribuiti in sistemi e banche dati diverse; l’astrazione dei dati semplifica e rende più comprensibili dati complessi trasformandone la loro struttura e sintassi in viste riutilizzabili e in servizi Web facili da finalizzare a regole e processi di sicurezza nell’accedere a dati operazionali e storici diversi, grazie a tecniche di ottimizzazione, di caching e integrazione che garantiscono migliore performance. Nella fase di sviluppo e implementazione di data mart virtuali, strumenti ad hoc forniscono modellatori e generatori di codice in grado di costruire viste di tipo relazionale utili alle varie attività di reporting e altri utilizzi di business intelligence ma anche per servizi web o iniziative di tipo SOA, portali Web ecc. Nella fase di run-time i data mart virtuali sono in grado di eseguire iterrogazioni con prestazioni elevate e garanzie di elevata sicurezza per l’accesso, la federazione, la trasformazione e la consegna dei dati agli utenti che ne hanno bisogno per il loro business in tempo reale. I data mart virtuali non sono utili soltanto per applicazioni di BI ma anche per tutte quelle attività che richiedono integrazione di dati, comprese quelle solitamente disponibili all’interno di architetture SOA, di master data management (MDM) e customer data integration (CDI). Le soluzioni di data mart virtuali possono poi avere valenze diverse, per singoli progetti o per l’intera azienda. L’integrazione dei dati non è semplice e obbliga le aziende a sperimentare approcci diversi in base alla complessità organizzativa e aziendale.
Nella scelta dell’approccio adeguato gli analisti di mercato si sono espressi da tempo con suggerimenti che toccano tutte le aree di criticità sia dei modelli di business che della complessità dei dati esistenti. Secondo Gartner Group, ad esempio, bisogna fare attenzione a vari elementi quali: obiettivi di business associati ai dati richiesti (quali dati servono, come sono tra loro relazionati, perché lo dovrebbero essere, quale livello di trasformazione viene richiesta, sono sufficienti strumenti di analisi tabellari semplici o servono approcci multidimensionali, ecc.); volatilità dei dati (quanto spesso cambiano i dati, chi e cosa garantisce un aggiornamento dei dati, qual’è lo SLA previsto in termini di performance, come verrà soddisfatta la richiesta crescente di carico, ecc.); volatilità delle soluzioni di BI ( periodicità delle richieste utente, volumi, capacità di risposta ecc.); agilità (come sono stati compresi i requirement utente, sono ripetitivi o cambiano spesso nel tempo, può la virtualizzazione garantire cambiamenti rapidi e urgenze, ecc.); total cost of ownership (benefici e vantaggi per gli utenti o BU, benefici addizionali, budget disponibili per l’integrazione, flessibilità richiesta ecc. ).

Conclusioni
Il DW continua a rappresentare per le aziende la risorsa principale per ogni processo decisionale. La nascita di bisogni più sofisticati, la competitità del mercato, la necessità di reagire rapidamente, il bisogno di ridurre i costi, hanno spinto molte aziende a implementare approcci di virtualizzazione che hanno finito per affiancare ai DW, DM e ODS fisici esistenti, ambienti virtuali. Grazie alle tecniche di Data Federation e a innovativi middleware per l’enteprise information management, le aziende possono oggi accedere ai dati e alle informazioni critiche aziendali in tempi più rapidi, riducendo i costi di gestione e i rischi operativi e generando benefici e vantaggi competitivi. I benefici della virtualizzazione sono evidenti ma le versioni virtuali di DW/DM e ODS dovrebbero sempre essere viste come opzioni addizionali che possono essere usate per garantire maggiore flessibilità nel raggiungimento di obiettivi aziendali, di progetto o per soddisfare i requisiti di singole applicazioni.