Google Cloud Composer
Google Cloud Composer è un servizio di orchestrazione dei flussi di lavoro completamente gestito che consente di creare, programmare e monitorare le pipeline. Composer è un servizio consigliato quando si vuole creare una pipeline con task da eseguire solo quando quello precedente ha terminato l’esecuzione in modo tale da evitare sovrapposizioni. Inoltre, offre la possibilità di ritentare automaticamente task falliti, di invia notifiche in caso di fallimento per poter intervenire tempestivamente e risolvere eventuali problemi.
L’utilizzo del servizio Google Cloud Composer nel progetto ha portato ad un miglioramento significativo nei tempi di esecuzione delle query su Google Bigquery. Infatti, segmentando la query che genera il dataset sul quale applicare gli algoritmi di Machine Learning in diverse query minori indipendenti tra di loro, è possibile eseguirle sfruttando il parallelismo offerto da Google Cloud Composer. Una volta che tutte le query minori avranno terminato l’esecuzione parallela, le si potranno aggregare e procedere con i task successivi.