Erfahren Sie am Beispiel von Spot mehr über die wegweisenden Agenten von Reply, die auf verkörperter Künstlicher Intelligenz basieren und die Steuerung von Robotern vereinfachen.
In den letzten Jahren haben Robotik und Künstliche Intelligenz bemerkenswerte Fortschritte erzielt, insbesondere auf dem Gebiet der Embodied AI, also verkörperten KI. Diese Fortschritte wurden durch die Konvergenz von Technologien wie Soft-Robotik, haptischem Feedback und dem bahnbrechenden Konzept der transformatorbasierten Algorithmen ermöglicht. Eine der wichtigsten Entwicklungen war die Integration von KI in Robotersysteme, wodurch diese die physische Welt besser verstehen und mit ihr interagieren können.
Dank bahnbrechender Algorithmen wie DINO (DIstillation of knowledge with NO labels), CLIP und VC1 (Visual Cortex), die auf der Vision Transformer-Architektur beruhen, konnten wir bei Reply einen erheblichen Fortschritt bei den Fähigkeiten von KI-verkörperten Agenten beobachten. Diese Algorithmen ahmen die visuellen Wahrnehmung von Menschen nach und übertreffen die Leistung herkömmlicher Computer-Vision-Modelle wie Convolutional Neural Networks (CNNs).
Das Beispiel Spot
Reply nutzt visuelle Darstellungen, um den Roboter Spot in die Lage zu versetzen, die Umgebung zu verstehen und komplexe Aufgaben wie Navigation und Objektmanipulation mit minimalem Training durchzuführen. Dadurch wird die Interaktion zwischen Mensch und Roboter verbessert. Schließlich können die KI-Agenten so über Befehle in natürlicher Sprache gesteuert werden.
Die Interaktion mit Spot beginnt mit der Umwandlung menschlicher Befehle, die in natürlicher Sprache erfolgen, in Text - ein entscheidender Schritt für eine nahtlose Kommunikation. Die Fähigkeiten von Spot umfassen auch Navigationsaufgaben, die durch den Einsatz von Vision Language Maps (VLMaps) von Google unterstützt werden. Die Karten vermitteln Spot ein Verständnis seiner Umgebung und unterstützen ihn so bei Aufgaben wie der autonomen Erkundung und Kartierung. Bei Manipulationsaufgaben setzt Spot zwei verschiedene KI-Modelle ein: Grounding DINO für die Objekterkennung und Visual Cortex 1 für die effektive Manipulation. DINO spielt eine zentrale Rolle bei der genauen Erkennung und Lokalisierung von Objekten in Spots Umgebung. Visual Cortex 1 hingegen verbessert Spots Fähigkeit, mit Objekten zu interagieren, und sorgt für Präzision und Effektivität, insbesondere bei Aufgaben wie dem Aufnehmen und Platzieren von Objekten.
erkunden Sie die Zukunft von "AI-embodied agents"
Sind Sie daran interessiert, modernste KI in Ihre Robotikprojekte zu integrieren?