Finished Diploma- / Bachelor- and Master-Theses

Applying Policy Gradient Reinforcement Learning to Optimise Robot Behaviours

Andreas Witsch (Master – June 2010)

Abstract: In robotics, elementary behaviour patterns often tackle control theoretic problems. Because of incomplete or imprecise models of the control system, the structure and the parameters of a control policy are unknown. These problems can be solved by reinforcement learning algorithms like policy gradient methods. In this thesis, policy gradient learning is used to optimise a controller represented as a z-transformed rational function. This representation facilitates simultaneous optimisation of the control structure and its parameters in time space. The resulting controller can be analysed in terms of control theory to predict the control behaviour for arbitrary scenarios. Because the performance of gradient descent algorithms heavily depends on appropriate starting points, these parameters must be chosen carefully. This work presents a method that allows learning of an initial parameter set with the help of a single demonstrated trajectory. The approach is evaluated on a cartpole simulation for demonstrating the expressiveness of the policy. We also describe how to stabilise the gradient descent by introducing a linearisation term. Furthermore, a real soccer robot scenario demonstrates the ability of the proposed approach to deal with noisy scenarios. This illustrates the flexibility and adaptability of the approach for different problems with only little initial knowledge. A discussion of open questions and concluding remarks finally motivate future work and possible extensions of the proposed approach.

Plan Recognition and Tracking for Cooperative Autonomous Robots in Dynamic Environments

Stefan Triller (Master – March 2010)

Abstract: Cooperative multi-agent systems shall achieve a common goal and have to keep the team members informed about each other’s actions. This can be achieved by direct communication or through recognition of changes in the environment. In a robotic scenario, both are either unreliable or imprecise, hence an agent cannot precisely know about the team member’s current actions. This thesis targets on tracking the agents of a team, even if some information needed for tracking is unknown, instead of just relying on communication. The Dempster-Shafer theory of evidence is used to combine hypotheses about actions of an agent into hypotheses for a team of agents. It is also used to evaluate conditions which may lead to changes in an agent’s behaviour. Results of this evaluation are used to rank team hypotheses, which describe the actions of a team, and thus to determine the most suitable one for the current situation.

Gestenerkennung für autonome Roboter (German)

Florian Seute (Bachelor – March 2010)

Abstract: Human-Robot interaction is hampered by the fact that both use fundamentally different ways to communicate. Communication between them can be done in various ways, but in most cases, special hardware is needed, such as a remote or a PDA. This work presents a solution, where simple gestures can be used to communicate with robots. The gesture is recognised using a camera, with which most mobile robots are equiped. Recognition is done using fuzzy segmentation followed by classification on an orientation histogram. There is no further need for special hardware.

Einsatz von symbolischen Lernverfahren zur Optimierung von Verhalten für autonome mobile Roboter (German)

Daniel Saur (Master – March 2010)

Abstract: This work discusses the application of inductive logic programming (ILP) to autonomous mobile robots. The development of behaviour patterns for such robots is time intensive and difficult, due to the need to consider various special cases. Moreover, a redesign of existing behaviour patterns may have unwanted side effects. The work aims at a framework for classifying errors in the behaviour of robots. Learnt classifiers can then be used to extend behaviour patterns on a higher abstraction level, thus avoiding the problem of redesigning existing patterns. The basis of this work is the ILP algorithm mFOIL. This algorithm is analysed and extended to address the specific needs of the domain. This work shows several successful experiments in the robotic soccer domain, during which meaningful classifiers were learnt.

Kooperative Pfadplanung für Multi-Robotersysteme in dynamischen Umgebungen (German)

Stephan Opfer (Bachelor – March 2010)

Abstract: A team of cooperating robots has various advantages compared to single robots. Sensor information can be shared within the team, extending the knowledge of each team member involved. Moreover, the team members can cooperate in trying to achieve their individual goals, thus increasing the performance of the whole team. This work targets at enabling these advantages for pathplanning. This is achieved by firstly exchanging und fusing sensor information and secondly by avoiding collisions using commonly known rules of behaviour. This work was developed and evaluated in the robotic soccer domain.

Selbstüberwachung der Komponenten autonomer mobiler Roboter (German)

Marc Hartmann (Bachelor – March 2010)

Abstract: Selfmonitoring constitutes an important component of autonomously acting robots. Without it, such robots cannot react on hard- or software faults nor can they adapt their behaviour to such faults. This work presents several methods to monitor and validate sensor information. Moreover, it discusses an implementation of a selfmonitoring component within the control software of a soccer robot.

A Cooperative Behaviour Model for Autonomous Robots in Dynamic Domains

Stefan Triller (Diplom(I) – January 2009)

Abstract: Team work in teams of autonomous robots is getting more and more important in various domains. This thesis presents a software that is capable of controlling the individual and team behaviour of such robots. It is the first implementation of the language ALICA, which allows specifying team behaviour. Individual autonomous behaviours are encapsulated in team plans. Although those team plans are specified by humans, with ALICA, there are build-in points in the specification where the robots can take autonomous decisions on which concrete plans to execute. Therefore the robots communicate their internal states with each other so they are aware of what their team members are doing. The result is an implementation of ALICA that will be used in the domain of RoboCup for autonomous football robots.

Grafische Verhaltensmodellierung für kooperative autonome Roboter (German)

Andreas Scharf (Bachelor – December 2008)

Abstract: There are many software problems to solve in the domain of autonomous mobile robots. One of these problems is modelling the behaviour of cooperative autonomous robot systems. Various thesis facing this problem are available but only a few deal with providing support for developers which specify these behaviours. This thesis presents a software which allows to specify cooperative behaviour of autonomous robots based on the language ALICA, within two graphical editors. The focus lies on providing an intuitive user interface and a plugin concept to extend the software easily.

Ontologiegestützte automatische Modell-Transformation (German)

Jens Wollenhaupt (Diplom(I) – February 2008)

Powermanagement in solarbetriebenen autonomen Robotern (German)

Kai Baumgart (Diplom(I) – February 2008)

Einsatz von Reinforcement Learning zur Realisierung von Verhaltensmustern für autonome mobile Roboter (German)

Daniel Saur (Diplom(I) – December 2007)

Adaptive Parametrisierung eines Segmentierungsfilters (German)

Christof Hoppe (Bachelor Thesis – September 2007)

Akkumanagement

Schwalm (Diplom 1 – 2007)

Finished Projects

RoboCup Simulation (German)

Marc Hartmann (November 2009)

Abstract: Es wurde eine Simulationsumgebung für die Carpe Noctem Roboter auf Basis des Robotersimulationssystems Gazebo entwickelt. Diese soll vorrangig den Entwicklungszyklus von Lernverfahren beschleunigen.
Um dies zu erreichen, musste ein Modell eines Fußballroboters und ein virtuelles Spielfeld erstellt werden. Der Gazebo-Simulator wurde um je einen Controller für die Radsteuerung und die Kickersteuerung der Roboter ergänzt. Die Physikberechung wurde so erweitert, dass
die anisotrope Reibung der Räder und die Rollreibung des Balls simuliert werden kann. Zusätzlich wurde der Gazebo-Simulator in ein eigenes Programm integriert, welches über eine GUI die Steuerung der Roboter erlaubt und eine Anbindung der Simulation an das Spica-System bietet.
Entstanden ist dabei eine realitätsnahe Simulationsumgebung, die von Robotern über Netzwerk gesteuert werden kann, und eine 3-dimensionale Abbildung des Spielfeldes und der Roboter liefert.

Formbasierte Ballerkennung im Robocup (German)

Andreas Witsch (August 2009)

Abstract: Ziel der Robocup Initiative ist es, bis zum Jahr 2050 gegen den amtierenden Fußball Weltmeister nach offiziellen Fifa-Regeln zu gewinnen. Dieser wird in naher Zukunft durch einen nicht farbgebundenen Ball ersetzt. Aus diesem Grund wird eine Ballerkennung benö̈tigt, die zunächst runde Objekte im Kamerabild identifiziert und aus diesen Objekten den Ball extrahiert. Es gibt bereits diverse Arbeiten zur Kreiserkennung. Diese weisen jedoch Einschränkungen auf, die es schwer machen, sie auf die speziellen Robocupanforderungen zu adaptieren. Besondere Schwierigkeiten stellen dabei zum Einen die strengen Echtzeitanforderungen und zum Anderen die geringe Größe des Balles im Kamerabild dar. In dieser Arbeit werden zunächst verschiedene Lösungsansätze zur Kreiserkennung vorgestellt. Anschließend wird das eingesetzte Templatematching-Verfahren und dessen Eigenschaften detailliert beschrieben. Schließlich wird aufgezeigt, wie sich das Verfahren im Spieleinsatz mit Sichtweiten von über 9m bewährt hat. Dabei wird darauf eingegangen, welche Vor- und Nachteile eine formbasierte Ballerkennung mit sich bringt.

Entwicklung eines elektromagnetischen Schussmechanismusses für autonome mobile Fußballroboter (German)

Daniel Saur (July 2009)

Abstract: In der vorliegenden Ausarbeitung wird ein elektromagnetischer Schussmechanismus konstruiert, der den bisher verwendeten Mechanismus des Robocup Teams “Carpe Noctem” ersetzen soll. Jedes Jahr verschärft die Robocuporganisation das Regelwerk, um die Forschung im Bereich Robotik voranzutreiben. Das Spielfeld ist vergrößert worden, wodurch das Erzielen von Toren deutlich erschwert wird. Zudem haben die Strategien vieler Teams ein Niveau erreicht, bei dem ein gezielter Schuss über einen Gegner zwingend notwendig ist. Aufgrund der Anforderungen wird ein Schuss benötigt, der eine ausreichende Schussstärke besitzt, zudem noch zielgenau abgegeben werden kann. Mit dem elektromagnetischen Schussmechanismus kann die Schussstärke deutlich verbessert werden. Jedoch ist ein fester Schuss schwieriger zu kontrollieren. Deshalb ist eine optimale Ansteuerung erforderlich. Diese wird mit Hilfe von neuronalen Netzen erstellt. Durch diese Arbeit ist dem Roboter ermöglicht worden, einen Schuss aus der Bewegung mit gewünschter Höhe im Zielpunkt abzugeben, wobei die Höhe des Balles im Zielpunkt eine Ungenauigkeit von circa 20cm hat. Die maximale Distanz beträgt circa 7m.

Efficient Decision Making in ALICA

Stephan Opfer (June 2009)

Abstract: In a highly dynamic environment like a football match for a team of autonomous robots, efficient decision making is one of the best conditions to win. This project work focuses on the choice between alternative plans and the task allocation of plans. The team behaviour is specified with ALICA – A Language for Interactive Cooperative Agents. The approach is based on the A* Search Algorithm combined with utility functions to evaluate alternative task allocations and plans. The result is a decision making, which takes less than 1ms for all strategic decisions of one agent. The project work was successfully deployed in the Carpe Noctem Software Architecture and used in the RoboCup domain.