Data Reply è al lavoro per fare in modo che il modello B2B di costruzione dei veicoli di MAN Truck & Bus basato su l'On-Premises Data Lake si sposti verso il Cloud AWS. L’obiettivo di questa mossa: riuscire ad effettuare analisi flessibili e costo-efficienti.
Un focus particolare del MAN Truck & Bus è sui servizi per gestori di flotte che semplificano la manutenzione, la riparazione e la gestione dei veicoli. Per fare in modo che ciò sia possibile, il costruttore di veicoli B2B si affida al costante progresso tecnologico realizzando una solida base per la gestione dei dati.
Già nel 2016, MAN Truck & Bus ha incaricato Data Reply di sviluppare un On-Premises-Data-Lake, che poi diversi consulenti hanno ampliato e gestito. Ma poco dopo sono state sviluppate soluzioni decisamente più innovative.
MAN Truck & Bus gestisce un'architettura IT distribuita in numerosi dipartimenti. I dati vengono prodotti e raccolti in una miriade di applicazioni, banche dati e sistemi. Alcuni di questi dati risalgono a più di 30 anni fa e sono disponibili in diversi formati. Il primo Data Lake si basava su Cloudera Hadoop e Apache Kafka.
Tuttavia, con l’arrivo dei grandi cloud provider, questa soluzione si è rivelata poco scalabile e flessibile a fronte di un’offerta di servizi in più rapida crescita. Per questo motivo, MAN Truck & Bus ha avviato un progetto di migrazione verso AWS, e ancora una volta l'azienda si è affidata all'expertise di Data Reply per essere supportata in un questo processo.
Data Reply ha ricevuto l’incarico di configurare un Data Lake nel cloud di Amazon Web Services (AWS). In primo luogo, il team ha creato una soluzione centralizzata per l’archiviazione e la gestione dei dati basata su Amazon Simple Storage Service (S3), e in secondo luogo i dati conservati nel sistema Apache Hadoop Distributed File System (HDFS) sono stati spostati in una soluzione cloud e organizzati su più strati in base alle migliori pratiche di data lake. Così, i dati sono stati prima trascritti ad un livello di landing - usando principalmente Kinesis e Apache NiFi e per lo più nei formati di file delle fonti dei singoli sistemi. Le pipeline ETL elaborano poi i dati e li memorizzano in un numero minore di format di file selezionati. Le pipeline nascondono informazioni sensibili e aumentano la quantità dei dati con l’aiuto di una soluzione sviluppata da Data Reply. Il risultato viene memorizzato in un strato finale chiamato Datahub. Infine, viene conferito a diversi account AWS l'accesso a singoli pacchetti di dati necessari per i singoli casi di applicazione. La divisione in diversi account permette di assegnare i costi sostenuti ai rispettivi casi di applicazione.
MAN Truck & Bus ha richiesto che il progetto si basasse su soluzioni severless.
AWS S3 è usato per memorizzare i dati, e AWS Glue per le pipeline ETL basate su Spark che sono aggregate in flussi di lavoro Glue.
Athena è usato come interfaccia SQL, gli analisti di BI possono anche usare Quicksight per le query SQL e la creazione di report. Infine, qualora fosse necessario, i data scientist hanno a disposizione i loro cluster EMR e altri strumenti.
L'infrastruttura è gestita utilizzando AWS CloudFormation e Sceptre.
Per la configurazione dei workflow e job Glue, Data Reply si è affidata a un servizio sviluppato internamente.
I sistemi sviluppati da Data Reply calcolano quali sono le risorse necessarie. Una soluzione aggiuntiva di mascheramento assicura il monitoraggio delle informazioni sensibili.
Per la configurazione dei workflow e job Glue, Data Reply si è affidata a un servizio sviluppato internamente. Questo si avvia automaticamente quando si caricano i dati su S3 Data Lake. Utilizzando le configurazioni di base in AWS Systems Manager, il servizio calcola il numero ottimale di unità di elaborazione dati (DPU) necessarie per processare i dati sottostanti. In questo modo si evita la richiesta di troppe risorse cloud e che si perdano di vista i costi.
Data Reply utilizza anche AWS Managed Services per Redis ed Elasticsearch. Questi sistemi sono utilizzati per la soluzione di mascheramento di Data Reply e il monitoraggio funzionale delle pipeline ETL.
Nel cuore del data lake c'è l'account AWS centrale, dove i dati sono distribuiti su più contenitori S3 a seconda del loro sistema di origine. Questo account è usato anche dalle pipeline ETL di AWS Glue, che preparano pacchetti di dati per diversi casi d'uso.
A questo punto, il passo preparatorio più importante è il mascheramento delle informazioni sensibili, ad esempio quelle relative al GDPR. Eseguendo questi passaggi nell'account principale è possibile evitare problemi di riservatezza. Allo stesso tempo, un servizio aggiuntivo permette ad altri account di trasferire dati in maniera chiara, a condizione che ci sia una ragione legittima oltre che l'autorizzazione per farlo.
Oltre a quello principale, ci sono una serie di account impostati per specifici casi di applicazione. In linea con le migliori pratiche per AWS Cross-Account Access, possono essere dati permessi di lettura per i dati richiesti.
Gli sviluppatori di applicazioni per l'elaborazione dei dati possono implementare le tecnologie che preferiscono senza creare disordine nell'account principale. In questo modo il team può guadagnare quel tempo che altrimenti sarebbe necessario per mettere a disposizione e mantenere tali applicazioni.
concordano i servizi AWS Cloud su standard individuali
Le soluzioni serverless permettono di sfruttare i vantaggi principali del cloud AWS.
Data Reply ha una panoramica di tutti i dati raccolti e può gestire l'accesso in modo molto semplice. Questo permette agli utenti finali dell’azienda di concentrarsi sulla creazione di valore aggiunto per il business nel complesso piuttosto che sulla laboriosa raccolta di dati da svariati sistemi e in svariati formati di file.
Anche se Data Reply offre modelli e supporto per i data scientist e gli analisti di MAN Truck & Bus, resta il fatto che ogni utente può decidere in autonomia quali tecnologie utilizzare per il proprio caso di applicazione. Data Reply fornisce i dati in format moderni come Parquet o Avro.
Le informazioni sensibili sono protette automaticamente.
MAN Truck & Bus
MAN Truck & Bus è uno dei principali produttori europei di veicoli commerciali e fornitori di soluzioni di trasporto con un fatturato annuo di oltre 9,5 miliardi di euro (2020). Il portafoglio prodotti comprende furgoni, camion, autobus, motori diesel e a gas, nonché servizi per il trasporto di passeggeri e merci. MAN Truck & Bus è un'azienda di TRATON SE.
Data Reply, come parte del gruppo Reply, supporta i clienti a lavorare guidati dai dati. Data Reply opera in diversi settori e aree di business e lavora intensamente con i clienti per aiutarli a raggiungere risultati significativi attraverso un uso efficace dei dati. A tal fine, Data Reply si concentra sullo sviluppo di piattaforme di analisi dati, soluzioni di machine learning e applicazioni streaming, automatizzate, efficienti e scalabili, senza compromettere la sicurezza IT.