Découvrez les agents innovants incarnés par l'IA de Reply qui simplifient le contrôle des robots, présentés dans l'étui Spot.
Ces dernières années, le domaine de la robotique et de l'intelligence artificielle a connu des avancées remarquables, notamment dans le domaine de l'IA personnifiée. Ces avancées ont été rendues possibles grâce à la convergence de technologies telles que la robotique douce, le feedback haptique et l'utilisation révolutionnaire d'algorithmes basés sur des transformateurs. L'une des principales avancées a été l'intégration de l'IA dans les systèmes robotiques, leur permettant de comprendre le monde physique et d'interagir avec celui-ci de manière plus efficace.
Grâce à des algorithmes novateurs tels que DINO (Distillation of knowledge with NO labels), CLIP et VC1 (Visual Cortex), qui sont basés sur l'architecture Vision Transformer, comme Reply, nous avons assisté à une augmentation significative des capacités des agents incarnés par l'IA. Ces algorithmes imitent le mécanisme de l'attention visuelle humaine, surpassant les performances des modèles de vision par ordinateur traditionnels tels que les réseaux neuronaux convolutifs (CNN).
L'affaire Spot
Chez Reply, nous exploitons les représentations visuelles pour permettre au robot Spot de comprendre l'environnement et d'effectuer des tâches complexes telles que la navigation et la manipulation d'objets avec un minimum de formation, améliorant ainsi l'interaction homme-robot. Cela permet de contrôler les agents d'IA à l'aide du langage naturel et des commandes vocales, éliminant ainsi le besoin d'une gestion complexe des modèles.
L'interaction de Spot commence par la conversion des commandes humaines prononcées en langage naturel et de la voix en texte par le biais de la phase Speech-to-Text, une étape cruciale pour permettre une communication fluide. Le texte en langage naturel est ensuite soumis au traitement des tâches, où les sous-tâches sont extraites, ce qui permet à Spot de mieux comprendre les intentions de l'utilisateur. Les fonctionnalités de Spot s'étendent aux tâches de navigation, facilitées par l'utilisation de Vision Language Maps (VLMaps) de Google. Ces cartes fournissent à Spot une compréhension sémantique de son environnement, ce qui l'aide à effectuer des tâches telles que l'exploration autonome et la cartographie. Dans Manipulation Tasks, Spot utilise deux modèles d'IA distincts : Grounding DINO pour la détection d'objets et Visual Cortex 1 pour une manipulation efficace. DINO joue un rôle essentiel dans la détection et la localisation précises des objets dans l'environnement de Spot. Visual Cortex 1 améliore plutôt la capacité de Spot à interagir avec les objets, garantissant ainsi précision et efficacité, en particulier dans des tâches telles que les opérations « pick-and-place ».
explorez le futur des agents incarnés par l'IA
L'intégration de l'IA de pointe dans vos projets de robotique vous intéresse ?