Machines trainen voor onzekere situaties

Onderzoekers ontwikkelden een algoritme dat bepaalt wanneer een 'leerling'-machine zijn leraar moet volgen en wanneer hij zelf moet leren.

Iemand die leert tennissen, kan een leraar inhuren om sneller te leren. Maar hoe goed beide ook zijn, er zijn momenten waarop het de leerling niet helpt om de leraar exact na te bootsen. Een leerling die bepaalde bewegingen niet kan nadoen, kan een paar andere bewegingen proberen totdat hij of zij de vaardigheden heeft om ballen terug te slaan.

Nieuw algoritme

Computerwetenschappers kunnen ook 'leraar'-systemen gebruiken om een andere machine te trainen om een taak uit te voeren. Maar ook hier kan de leerling-machine voor de vraag opkomen wanneer hij de leraar moet volgen en wanneer hij zelf moet verkennen. Onderzoekers van het Massachusetts Institute of Technology in Cambridge (Mass.) en het Israel Institute of Technology (Technion) in Haifa hebben hiertoe een algoritme ontwikkeld.

Dit algoritme bepaalt automatisch en onafhankelijk wanneer de leerling de leraar moet nabootsen (imitatieleren) en wanneer hij met vallen en opstaan moet leren (versterkend leren). Met de dynamische aanpak kan de leerling afwijken van het kopiëren van de leraar wanneer deze te goed of niet goed genoeg is. Maar de leerling kan later in het trainingsproces terugkeren naar het volgen van de leraar als dit zou leiden tot betere resultaten en sneller leren.

Toen de onderzoekers deze benadering in simulaties testten, ontdekten dat leerling door de combinatie van leren met vallen en opstaan en imitatieleren taken effectiever leren dan methoden die slechts één type leren gebruikten. De nieuwe methode kan onderzoekers helpen het trainingsproces te verbeteren voor machines die zullen worden ingezet in onzekere situaties in de echte wereld. Zo kan een robot worden getraind om te navigeren in een gebouw dat hij nog nooit eerder heeft gezien.

Balans

Veel bestaande methoden die een balans proberen te vinden tussen imitatieleren en versterkend leren, doen dit door middel van 'brute force trial and error'. Onderzoekers kiezen een gewogen combinatie van de twee leermethoden, voeren de volledige trainingsprocedure uit en herhalen het proces totdat ze de optimale balans hebben gevonden. Dit is inefficiënt en rekenkundig vaak zo duur dat het niet eens haalbaar is.

Om aan zo min mogelijk knoppen te moeten draaien en hoge prestaties te leveren benaderde het onderzoeksteam het probleem anders dan in eerder onderzoek. De oplossing bestaat uit het trainen van twee leerling-machines: een met een gewogen combinatie van versterkend leren en imitatieleren, en een tweede die alleen via versterkend leren dezelfde taak kan leren.

Het hoofdidee is om automatisch en dynamisch de weging van de versterkende en imiterende leerdoelen van de eerste leerling aan te passen. Hier komt de tweede leerling in het spel. Het algoritme van de onderzoekers vergelijkt continu de twee studenten. Als degene die de leraar gebruikt het beter doet, legt het algoritme meer gewicht toe aan imitatieleren om de student te trainen. Als degene die alleen met vallen en opstaan betere resultaten begint te krijgen, zal het algoritme zich meer richten op het leren van versterkend leren.

Door dynamisch te bepalen welke methode betere resultaten behaalt, is het algoritme adaptief en kan het tijdens het trainingsproces de beste techniek kiezen. Het duurde even voordat de onderzoekers beseften dat ze de twee studenten niet onafhankelijk van elkaar moesten laten leren. Ze moesten ze met elkaar verbinden om ze informatie te laten delen en vervolgens de juiste manier vinden om deze intuïtie technisch te onderbouwen.

Problemen oplossen

Om hun aanpak te testen, hebben de onderzoekers veel gesimuleerde experimenten met leraren-leerlingen opgezet, zoals het navigeren door een doolhof van lava om de andere hoek van een rooster te bereiken. In dit geval heeft de leraar een kaart van het hele rooster terwijl de leerling er alleen een vlak voor ziet. Hun algoritme behaalde een bijna perfect slagingspercentage in alle testomgevingen en was veel sneller dan andere methoden.

Om hun algoritme nog moeilijker te testen, zetten de onderzoekers een simulatie op met een robothand met aanraaksensoren maar zonder zicht, die een pen in de juiste houding moet heroriënteren. De leraar had toegang tot de daadwerkelijke richting van de pen, terwijl de leerling alleen aanraaksensoren kon gebruiken om de richting van de pen te bepalen. De gecombineerde benadering presteerde beter dan andere die alleen imitatieleren of alleen versterkend leren gebruikten.

Naar de praktijk

Leren via leraar-leerling is met succes toegepast om robots te trainen om complexe objectmanipulatie en voortbeweging in simulatie uit te voeren en vervolgens de geleerde vaardigheden over te dragen naar de echte wereld. Bij deze methoden heeft de leraar bevoorrechte informatie die toegankelijk is vanuit de simulatie die de leerling niet zal hebben wanneer deze in de echte wereld wordt ingezet. De leraar kent bijvoorbeeld de gedetailleerde kaart van een gebouw waar de leerling-robot in wordt getraind om te navigeren met behulp van alleen beelden die zijn vastgelegd door zijn camera.

Afgezien van betere robots, geloven de onderzoekers dat hun algoritme het potentieel heeft om de prestaties te verbeteren in diverse toepassingen waar imitatie- of versterkend leren wordt gebruikt. Taalmodellen zoals GPT-4 zijn goed in het uitvoeren van een breed scala aan taken. Misschien is het grote model als leraar te gebruiken om een kleiner leerlingmodel te trainen om nog 'beter' te zijn in een bepaalde taak . Een andere richting is het onderzoeken van de overeenkomsten en verschillen tussen machines en mensen die leren van hun respectievelijke leraren. Een dergelijke analyse kan de leerervaring helpen verbeteren.

Ill.: Jose-Luis Olivares/MIT