Framework Ingestion modulare per l’alimentazione e la gestione di un Data Hub

Realizzazione di un datahub centralizzato e di un framework modulare di elaborazione e modellazione del dato

Scenario

Technology Reply ha supportato il cliente in tutte le fasi di design ed implementazione di un Data Lake centralizzato e nella realizzazione di tutti i servizi necessari all’elaborazione e alla preparazione del dato per la sua interrogazione. L’obiettivo è quello di gestire in modo efficiente all’interno di un'unica Data Platform tutti i dati consortili delle diverse Banche, fornendo alle stesse le medesime funzionalità. In particolare, il datalake centralizzato, denominato Data Hub, ospita i dati provenienti da sistemi differenti in modo che gli utenti possano usufruire di un ambiente unico per la consultazione del dato.

Tale Data Hub garantisce una serie di servizi in termini di:

Elaborazione e trasformazione del dato
Interazione utente per l’input di nuovi dati
Interrogazione del dato tramite strumenti di Analytics

In ambito di tale trasformazione, viene realizzato un framework modulare, configurabile e centralizzato che, mediante i servizi cloud, consenta:

Ricezione del dato ed elaborazioni mediante schedulazioni ad evento
Processamento di grandi moli di dati
Modellazione delle informazioni in modo che possano essere accessibili facilmente dagli strumenti di Analytics

Il framework prevede diversi layer di caricamento ed elaborazione, ognuno con uno scopo specifico:

Primo Layer di ricezione e verifica del dato per identificazione automatica delle issue legate alla sorgente
Secondo Layer per la tipizzazione e per i controlli tecnico-formali
Core Layer per l’applicazione di tutte le logiche di storicizzazione
Modeled Layer per la realizzazione di tutti i modelli utili all’interrogazione

Tali layer vengono realizzati mediante tecnologie differenti a seconda della necessità e dello scopo dello use case. In particolare, le tecnologie utilizzate sono:

Postgres per l’accesso a dati relazionali
Tecnologia chiave-valore
Hadoop per l’accesso a grosse moli di dati

Il framework presenta una struttura modulare. Ognuna delle componenti, infatti, viene identificata come un modulo a se stante, con un obiettivo ben preciso. La modalurità, come descritto in seguito, consente di ottenere differenti vantaggi in termini di estendibilità della soluzione e integrazione di nuove funzionalità. Tali moduli vengono realizzati mediante l’utilizzo di tecnologie opensource come PySpark, in modo da poterne garantire il riutilizzo in caso di necessità.

L’intero Framework è veicolato mediante delle strutture centralizzate di metadato che consentono di velocizzare l’introduzione di nuovi flussi di elaborazione e consentono di mantenere facilmente la governabilità del processo. Per garantire un accesso veloce a tali metadati, la tecnologia scelta è un DB postgres.

Soluzione

La realizzazione di un Data Hub che integra il framework sopra descritto, consente di gestire in modo più intuitivo le elaborazioni e la creazione dei modelli necessari agli utenti per l’analisi delle informazioni. Technology Reply supporta il cliente in tutte le fasi, dall’analisi della piattaforma all’individuazione dei processi e alla loro realizzazione.

Vantaggi

La piattaforma può essere realizzata mediante servizi Cloud Native Serveless, che garantiscono i seguenti vantaggi:

Gestione ottimale in termini di affidabilità e disponibilità dei servizi
Infrastruttura ottimamente dimensionata, in base all’utilizzo a consumo

La modularità del framework, consente di adeguarlo allo esigenze specifici dei nostri clienti ed estenderlo mediante componenti aggiuntivi, utili a differenti scopi, in modo semplice ed intuitivo. Di seguito, possibili estensioni:

Moduli per la gestione della componente di Data quality
Moduli per la gestione delle informazioni sensibili
Moduli per l’integrazione di flussi e storicizzazioni differenti

Le strutture di metadato, utili a veicolare i processi, possono essere interrogate in modo da costruire facilmente il Data Lineage: in particolare, è possibile ripercorrere le modalità utilizzate e le trasformazioni applicate al dato per la costruzione dei differenti modelli.