AWS EMR

Plateforme de clusters gérés qui simplifie l'exécution des infrastructures big data, telles qu'Apache Hadoop et Apache Spark, sur AWS pour traiter et analyser de grandes quantités de données.

AWS EMR

AWS EMR est un framework Big Data pour le traitement de grandes quantités de données à l'aide d'outils open source tels que Apache Spark, Apache Hive, Apache HBase. AWS EMR est complètement intégré à l'écosystème AWS Big Data, en particulier avec S3 Bucket pour le stockage des données. C'est l'un des services les plus utilisés sur AWS, lié à la plateforme Big Data, grâce à sa facilité et à la fiabilité de ses fonctions basées sur les Clusters.
Les clusters sont des ensembles d'instances Elastic Compute Cloud (Amazon EC2), et chaque instance est appelée "node".

TYPES de NODE

Les types de nodes dans Amazon EMR sont les suivants :
• Master node: Un node qui gère le cluster en exécutant des composants logiciels pour coordonner la distribution des données et des tâches entre les autres nœuds en vue de leur traitement. Chaque cluster a un node maître, et il est possible de créer un single-node cluster unique avec seulement le node maître.

• Core node: Un node avec des composants logiciels qui exécutent des tâches et stockent des données dans le système de fichiers distribués Hadoop (HDFS) sur votre cluster. Les clusters multi-node ont au moins un node central.

• Task node: Un node avec des composants logiciels qui exécute uniquement des tâches et ne stocke pas de données dans HDFS. Les nodes de tâches sont facultatifs

AWS Migration

Case Study

MAN Truck & Bus: Cloud migration to AWS

Services for fleet managers that facilitate vehicle maintenance, repair and management – this is a key focus area for MAN Truck & Bus. For flexible, cost-efficient analyses, Data Reply migrated the B2B vehicle manufacturer's on-premises data lake to the AWS Cloud.

MAN Truck & Bus Cloud migration to AWS  0

AVANTAGES


  • strip-0

    AWS Integration

    Amazon EMR s'intègre à d'autres services AWS pour fournir des capacités et des fonctionnalités liées au réseau, au stockage et à la sécurité de votre cluster.

  • Évolutivité et flexibilité

    Avec EMR, vous pouvez rapidement exécuter votre module dans un cluster composé de plusieurs groupes d'instances. Ainsi, par exemple, vous pouvez utiliser des instances à la demande dans un groupe pour une puissance de traitement garantie, ainsi que des instances ponctuelles dans un autre groupe pour que vos travaux soient exécutés plus rapidement et à moindre coût. En outre, les clusters EMR sont évolutifs à tout moment, afin que les algorithmes soient toujours exécutés dans un environnement sur mesure. En outre, EMR permet d'utiliser différentes couches de stockage, HDFS ou EMRFS. Dans le premier cas, les données sont stockées à l'intérieur de HDFS dans le Core Node de vos clusters, évitant ainsi de stocker ces données de manière permanente. Dans le second cas, vous pouvez stocker les données sur S3 en tant que couche de données pour les applications fonctionnant sur votre cluster, ce qui vous permet de séparer le calcul et le stockage, et de conserver les données en dehors du cycle de vie de votre cluster.

    strip-1
  • strip-2

    Fiabilité

    Amazon EMR surveille les nœuds de votre cluster et arrête et remplace automatiquement une instance en cas de défaillance. Amazon EMR propose des options de configuration qui contrôlent la manière dont votre cluster est terminé, automatiquement ou manuellement. Si vous configurez votre cluster pour qu'il se termine automatiquement, il se termine une fois que toutes les étapes sont terminées. Il s'agit alors d'une grappe transitoire. Toutefois, vous pouvez configurer la grappe pour qu'elle continue à fonctionner une fois le traitement terminé, afin que vous puissiez choisir de la terminer manuellement lorsque vous n'en avez plus besoin. Vous pouvez également créer une grappe, interagir directement avec les applications installées, puis mettre fin manuellement à la grappe lorsque vous n'en avez plus besoin. Dans ces exemples, les grappes sont appelées grappes à longue durée d'exécution.

  • Facilité de déploiement et de contrôle

    AWS EMR est facile à déployer, il suffit de configurer le nombre et le type de nœuds et le cluster est opérationnel en quelques minutes. Le déploiement de l'application est également très facile et peut être automatisé à l'aide d'outils CI/CD comme Jenkins. AWS EMR s'intègre à CloudWatch pour suivre les mesures de performance du cluster et des travaux au sein du cluster. Vous pouvez configurer des alarmes basées sur une variété de mesures telles que l'inactivité du cluster ou le pourcentage de stockage utilisé.

    strip-3
  • strip-4

    Réduction des coûts

    Les tarifs d'Amazon EMR dépendent du type d'instance et du nombre d'instances EC2 que vous déployez, ainsi que de la région dans laquelle vous lancez votre cluster. La tarification à la demande offre des tarifs avantageux, mais vous pouvez réduire davantage les coûts en achetant des instances réservées ou des instances ponctuelles.

  • Sécurité intégrée à l'application AWS

    Amazon EMR s'intègre à IAM pour gérer les autorisations. Vous définissez les autorisations à l'aide des politiques IAM, que vous associez aux utilisateurs ou aux groupes IAM. Les autorisations que vous définissez dans la politique déterminent les actions que ces utilisateurs ou membres du groupe peuvent effectuer et les ressources auxquelles ils peuvent accéder.

    strip-5

DATA REPLY MEILLEURES PRATIQUES

Data Reply, AWS Premier Consulting Partner, a développé une forte expertise sur la mise en œuvre de la plateforme AWS Big Data. Au cours de cette période, nous avons acquis une expertise dans l'utilisation d'AWS EMR, ce qui peut garantir la fiabilité et la réduction des coûts dans son utilisation.

Gouvernance

La gouvernance d'AWS EMR est possible grâce à un tableau de bord centralisé qui offre au client la possibilité de gérer (créer, supprimer, dimensionner, configurer,...) les clusters, permettant aux utilisateurs d'avoir toujours une vision claire des coûts et de la puissance du cluster. De plus, en utilisant EMR en collaboration avec Glue, il est possible de créer un catalogue de données centralisé, où vous pouvez consommer les métadonnées associées aux données et aux tables utilisées par EMR.

Logging

AWS EMR est totalement intégré à AWS Cloudwatch. Grâce à cette fonctionnalité, nous pouvons collecter des logs et des métriques liés à EMR, et les utiliser pour surveiller en permanence les pipelines.

Coûts

Un des avantages d'AWS EMR est la possibilité d'utiliser des Instances Spot. Les Instances Spot sont des capacités Amazon EC2 inutilisées pour lesquelles vous faites une offre ; le prix que vous payez est déterminé par l'offre et la demande d'Instances Spot. Le coût de l'utilisation des instances Spot peut être inférieur de 80 % à celui de l'utilisation des instances On-Demand. Toutes les charges de travail ne peuvent pas être exécutées sur des instances Spot ; dans ce cas, nous pouvons utiliser des machines on-demand, qui peuvent être partagées entre plusieurs petits travaux ou équipes.

DATA REPLY APPROCHE MIGRATOIRE

En tant que Data Reply, nous apportons notre expertise en matière de migration AWS, acquise dans différents secteurs industriels, au fil de plusieurs années de projets. Nous avons distillé notre expertise dans notre approche de la migration, qui consiste en 4 modules qui peuvent être combinés et sélectionnés en fonction du niveau de maturité du client :

EXIGENCES ET CAS D'UTILISATION DE L'ENTREPRISE

Comprendre les principaux défis et objectifs de l'entreprise, afin d'identifier les lacunes et les opportunités, et de planifier l'état actuel et futur.

ATELIER TECHNIQUE

Au cours de la phase d'atelier, nous réalisons une évaluation technique et des opportunités, en planifiant une session d'approfondissement technique, afin d'identifier les critères de réussite de la migration, les résultats du Data Lake pour l'entreprise et l'informatique.

PILOT

L'objectif de la phase pilote est de créer un simple pilote de la solution cible, afin de permettre aux clients d'avoir un moyen concret de tester la solution. Nous définissons l'architecture cible et la cartographie au niveau des composants, en fonction des exigences collectées dans les phases précédentes, et nous exécutons la migration incrémentale des données et l'automatisation. Après l'étape UAT, le pilote est prêt à être mis en service !

MISE EN ŒUVRE

Enfin, la phase de mise en œuvre de la solution finale, divisée en vagues qui garantissent une mise à disposition continue de la solution. Nous définissons une stratégie et un calendrier de migration complets, ainsi que la migration du code de l'application avec l'approche Dual Target. Ensuite, nous pouvons commencer les vagues d'implémentation, y compris l'import/export en masse et la validation et l'audit de la solution. Après les phases de test et d'UAT, nous sommes prêts pour un lancement réussi (GO LIVE) !

  • strip-0

    Data Reply est la société du groupe Reply offrant une large gamme de services d'analyse avancée et de données alimentées par l'IA. Nous opérons dans différentes industries et fonctions commerciales, en travaillant directement avec des professionnels de niveau exécutif et des directeurs généraux leur permettant d'obtenir des résultats significatifs grâce à l'utilisation efficace des données.