Tale Data Hub garantisce una serie di servizi in termini di:
- Elaborazione e trasformazione del dato
- Interazione utente per l’input di nuovi dati
- Interrogazione del dato tramite strumenti di Analytics
In ambito di tale trasformazione, viene realizzato un framework modulare, configurabile e centralizzato che, mediante i servizi cloud, consenta:
- Ricezione del dato ed elaborazioni mediante schedulazioni ad evento
- Processamento di grandi moli di dati
- Modellazione delle informazioni in modo che possano essere accessibili facilmente dagli strumenti di Analytics
Il framework prevede diversi layer di caricamento ed elaborazione, ognuno con uno scopo specifico:
- Primo Layer di ricezione e verifica del dato per identificazione automatica delle issue legate alla sorgente
- Secondo Layer per la tipizzazione e per i controlli tecnico-formali
- Core Layer per l’applicazione di tutte le logiche di storicizzazione
- Modeled Layer per la realizzazione di tutti i modelli utili all’interrogazione
Tali layer vengono realizzati mediante tecnologie differenti a seconda della necessità e dello scopo dello use case. In particolare, le tecnologie utilizzate sono:
- Postgres per l’accesso a dati relazionali
- Tecnologia chiave-valore
- Hadoop per l’accesso a grosse moli di dati
Il framework presenta una struttura modulare. Ognuna delle componenti, infatti, viene identificata come un modulo a se stante, con un obiettivo ben preciso. La modalurità, come descritto in seguito, consente di ottenere differenti vantaggi in termini di estendibilità della soluzione e integrazione di nuove funzionalità. Tali moduli vengono realizzati mediante l’utilizzo di tecnologie opensource come PySpark, in modo da poterne garantire il riutilizzo in caso di necessità.
L’intero Framework è veicolato mediante delle strutture centralizzate di metadato che consentono di velocizzare l’introduzione di nuovi flussi di elaborazione e consentono di mantenere facilmente la governabilità del processo. Per garantire un accesso veloce a tali metadati, la tecnologia scelta è un DB postgres.