Untersuchung von evolutionären Strategien für die Anwendung in der Neurorobotik

Aus SDQ-Institutsseminar
Vortragende(r) Patrick Deubel
Vortragstyp Bachelorarbeit
Betreuer(in) Daniel Zimmermann
Termin Fr 8. November 2019
Vortragssprache
Vortragsmodus
Kurzfassung Die Neurorobotik beschäftigt sich damit, Roboter unter Verwendung von künstlichen neuronalen Netzen zu trainieren. Als effektiv hat sich in den letzten Jahren Verfahren auf der Grundlage des Reinforcement Learning (RL) herausgestellt, welche allerdings gradientenbasiert sind. Zur Anpassung der Gewichte des Netzes wird dabei der Backpropagation-Algorithmus angewendet, der bei der Ausführung durch die Schichten

des Netzes iteriert und die Gewichte anpasst. Dies limitiert RL-Algorithmen in ihrer Skalierbarkeit. Ein Ansatz, der komplett auf Backpropagation verzichtet, sind die evolutionären Strategien (ES). Basierend auf dem biologischen Vorbild der Evolution werden über Generationen hinweg die Gewichtsvektoren optimiert, indem pro Generation mehrere Veränderungen stattfinden und deren Güte ausgewertet wird. Eine solche ES haben Mitarbeiter von OpenAI um Salimans, 2017 in einem Artikel vorgestellt. Diese wurde auf Robotersimulationen getestet, bei denen standardmäßig RL-Algorithmen eingesetzt werden. Es wurde festgestellt, dass ES mit State-of-the-Art RL konkurrieren können. Des Weiteren sind ES hoch parallelisierbar und können daher beispielsweise einen humanoiden Roboter deutlich schneller trainieren als der vergleichbare RL-Algorithmen. Die vorliegende Arbeit untersucht die ES anhand von zwei Umgebungen der Roboschool. Dies ist eine Gruppe von Robotersimulationen, die in dem Artikel nicht verwendet wurden. Dazu wird auf der Implementation, die zusammen mit dem Artikel veröffentlicht wurde, aufgebaut und eine eigene Implementation angefertigt. Um die ES auf der Roboschool zu evaluieren, werden Ergebnisse von RL-Algorithmen aus der Literatur zitiert und diese zum Vergleich herangezogen. Die Evaluation zeigt, dass die Robotersimulationen durch das Training mit ES das Laufen lernen. Außerdem kann durch das Hinzufügen von Rechenleistung die Berechnungszeit verringert werden.