Covariant a annoncé cette semaine le lancement du RFM-1 (Modèle de Fondation Robotique 1). Peter Chen, le co-fondateur et PDG de la spinout en intelligence artificielle de l’UC Berkeley, dit à TechCrunch que la plateforme, “est essentiellement un grand modèle de langue (LLM), mais pour le langage robotique.”
Le RFM-1 est le résultat, entre autres, d’un immense trésor de données collectées à partir du déploiement de la plateforme Brain AI de Covariant. Avec le consentement des clients, la startup a construit l’équivalent robotique d’une base de données LLM.
“La vision du RFM-1 est de pouvoir les milliards de robots à venir,” dit Chen. “Nous chez Covariant avons déjà déployé beaucoup de robots dans des entrepôts avec succès. Mais ce n’est pas la limite où nous voulons nous arrêter. Nous voulons vraiment alimenter les robots dans la fabrication, le traitement des aliments, le recyclage, l’agriculture, l’industrie des services et même dans les foyers des gens.”
Le lancement de la plateforme intervient alors que davantage d’entreprises de robotique discutent de l’avenir des systèmes à “usage général”. L’arrivée soudaine d’entreprises de robotique humanoïde comme Agility, Figure, 1X et Apptronik a joué un rôle pivot dans cette conversation. La forme est particulièrement adaptée à l’adaptabilité (tout comme les humains sur lesquels elle est modélisée), bien que la robustesse des systèmes embarqués d’IA/logiciels soit une autre question entièrement.
Pour l’instant, le logiciel de Covariant est largement déployé sur des bras robotiques industriels effectuant une variété de tâches familières d’entrepôt, y compris des travaux comme le choix de bacs. Il n’est actuellement pas déployé sur des humanoïdes, bien que l’entreprise promette un certain niveau d’agnosticisme matériel.
“Nous apprécions beaucoup le travail qui se fait dans l’espace du matériel robotique à usage plus général,” dit Chen. “Coupler le point d’inflexion de l’intelligence avec le point d’inflexion matériel est là où nous verrons encore plus d’explosion d’applications robotiques. Mais beaucoup de ceux-ci ne sont pas entièrement là, surtout du côté matériel. Il est très difficile d’aller au-delà de la vidéo mise en scène. Combien de personnes ont interagi avec un humanoïde en personne ? Cela vous indique le degré de maturité.”
Covariant ne recule cependant pas devant les comparaisons humaines en ce qui concerne le rôle que joue RFM-1 dans les processus de prise de décision des robots. Selon son matériel de presse, la plateforme ” offre aux robots la capacité de raisonnement semblable à celle des humains, représentant la première fois que l’IA générative a réussi à donner aux robots commerciaux une compréhension plus profonde du langage et du monde physique. ”
Ceci est l’un de ces domaines où nous devons être prudents avec les affirmations, tant en termes de comparaisons avec des concepts abstraits — ou même philosophiques — qu’en ce qui concerne leur efficacité réelle dans le monde réel au fil du temps. “La capacité à raisonner comme un humain” est un concept très large qui signifie beaucoup de choses différentes pour beaucoup de gens différents. Ici, cette notion s’applique à la capacité du système à traiter des données du monde réel et à déterminer le meilleur cours d’action pour exécuter la tâche en question.
Cela représente un départ par rapport aux systèmes robotiques traditionnels qui sont programmés pour effectuer un seul travail à répétition, ad infinitum. De tels robots à usage unique ont prospéré dans des environnements hautement structurés, à commencer par les chaînes de montage automobile. Tant qu’il y a peu de changements dans la tâche à accomplir, un bras robotique peut effectuer son travail encore et encore, sans entrave, jusqu’à ce qu’il soit temps de terminer la journée et de collecter la montre de poche en or pour ses années de service loyal.
Cependant, les choses peuvent rapidement se détériorer, même avec les plus petites déviations. Disons que l’objet n’est pas placé exactement au bon endroit sur le tapis roulant, ou qu’il y a eu un ajustement de l’éclairage qui a des répercussions sur les caméras embarquées. Ces types de différences peuvent avoir un impact énorme sur la capacité du robot à exécuter. Maintenant, imaginez essayer de faire travailler ce robot avec une nouvelle pièce, un nouveau matériel ou même accomplir une tâche totalement différente. C’est encore plus difficile.
C’est à ce moment que les programmeurs interviennent traditionnellement. Le robot doit être reprogrammé. Le plus souvent, quelqu’un de l’extérieur de l’atelier entre en jeu. Cela représente une grande perte de ressources et de temps. Si vous voulez éviter cela, l’une des deux choses suivantes doit se produire : 1) Les personnes travaillant sur le terrain doivent apprendre à coder ou 2) Vous avez besoin d’une nouvelle méthode plus naturelle pour interagir avec le robot.
Bien qu’il serait génial de faire le premier, il semble peu probable que les entreprises seront disposées à investir l’argent et à attendre le temps nécessaire. Le second est précisément ce que Covariant essaie de faire avec RFM-1. “ChatGPT pour les robots” n’est pas une analogie parfaite, mais c’est un raccourci raisonnable (surtout à la lumière de la connexion des fondateurs à OpenAI).
Du point de vue du client, la plateforme se présente comme un champ de texte, très semblable à l’itération actuelle de l’IA générative orientée vers le consommateur. Entrez une commande textuelle comme, “prendre la pomme” en tapant ou par la voix, et le système utilise ses données d’entraînement (forme, couleur, taille, etc.) pour identifier l’objet devant lui qui correspond le plus étroitement à cette description.
RFM-1 génère ensuite des résultats vidéo — en essence des simulations — pour déterminer le meilleur cours d’action en utilisant les entraînements passés. Cette dernière partie est similaire à la façon dont notre cerveau travaille les résultats potentiels d’une action avant de l’exécuter.
Pendant une démonstration en direct, le système réagit aux entrées comme “prendre l’objet rouge” et même au plus sémantiquement complexe, “prendre ce que tu mets à tes pieds avant de mettre tes chaussures”, ce qui a conduit le robot à prendre correctement la pomme et une paire de chaussettes, respectivement.
Beaucoup de grandes idées sont évoquées lors de la discussion sur la promesse du système. À tout le moins, Covariant a un pedigree impressionnant parmi ses fondateurs. Chen a étudié l’IA à Berkeley sous Pieter Abbeel, son co-fondateur chez Covariant et scientifique en chef. Abbeel est également devenu un employé d’OpenAI en 2016, un mois après que Chen a rejoint la firme ChatGPT. Covariant a été fondée l’année suivante.
Chen déclare que l’entreprise s’attend à ce que la nouvelle plateforme RFM-1 fonctionne avec une ” majorité ” du matériel sur lequel le logiciel Covariant est déjà déployé.
No Responses