RoboClaw's 'Undo' Button Slashes Robot Training Time by 8x

— json { “title”: “RoboClaw: Nytt ramverk lär robotar att städa upp efter sig själva”, “content”: “Robotträning är en tröttande, själsdödande slitgöra med manuella återställningar och konstant övervakning. För varje lyckad handling som en robot lär sig har en människa sannolikt återställt scenen dussintals gånger efter misslyckanden. Ett nytt ramverk kallat RoboClaw syftar till att avsluta den mardrömmen genom att lära robotar den färdighet som de har saknat: hur man städar upp efter sig själv.\n\nUtvecklat av forskare från AgiBot, National University of Singapore och Shanghai Jiao Tong University introducerar RoboClaw ett brutalt enkelt och effektivt koncept kallat Entangled Action Pairs (EAP). Grundidén är att för varje "framåt"-färdighet som en robot lär sig – som att placera läppstift i en hållare – lär den sig också den omvända "ångra"-färdigheten – att ta ut läppstiftet igen. Dessa två beteenden skapar en självåterställande loop, vilket gör att roboten kan öva på en uppgift, återställa miljön själv och upprepa, allt medan den samlar in data autonomt. Ingen mänsklig övervakare behövs.\n\nResultaten är, ärligt talat, lite galna. Forskarna rapporterar en 8 gånger minskning av mänsklig inblandning under träningen, en 2,16 gånger minskning av total mänsklig tid som behövs per datamängd, och en 25% högre framgångsrate på komplexa, flerstegsuppgifter jämfört med baslinjemodeller. Systemet testades på en flerstegs-organisationsuppgift för ett sminkbord, där det autonomt lärde sig att hantera och placera olika föremål, och återhämtade sig från sina egna fel på vägen.\n\n \n\n### Varför är detta viktigt?\n\nDet verkliga genombrottet är inte bara självåterställningsloopen. Det är att samma agent som tränar roboten också distribuerar den. De flesta robotsystem använder helt separata, frånkopplade pipelines för datainsamling, modellträning och verklig körning. RoboClaw förenar alla tre under en enda Vision-Language-Model (VLM) driven kontrollenhet.\n\nDetta innebär att när roboten misslyckas med en verklig uppgift är det misslyckandet inte bara ett fel som ska åtgärdas av en människa; det är en ny bit träningsdata som matas direkt tillbaka in i systemet. Roboten lär sig av sina egna misstag ute i verkligheten, vilket skapar ett slutet system som kontinuerligt förbättras över tid. Detta förskjuter robotiken från skör, förprogrammerad automation mot verkligt agentbaserade system som kan lära sig och anpassa sig ute i naturen.\n\nHyperläs: Läs hela pappret på arXiv” }