Diese Seite wird bereits auf deutsch dargestellt.
University of Bielefeld

Start  Projekte  Personen

Termine  Antrag

Graduiertenkolleg Verhaltensstrategien & Verhaltensoptimierung
Sorry, this page exists only in German.


Verhaltensstrategien künstlicher Agenten in virtuellen Umgebungen

Promotionsprojekt von Betreut durch
Christian Thurau Prof. Dr. Gerhard Sagerer


Heutige Computerspiele bieten komplexe Umgebungen, die in ihrer Darstellung und Handlungsabläufen an die Realität angelehnt sind. Es handelt sich jedoch nicht um Simulationen einer wirklichen Welt, sondern um eigene Welten mit eigenen Gesetzmäßigkeiten und Eigenarten. Lebendigkeit erhalten diese vor allem durch menschliche Spieler, aber auch durch autonome Agenten.

Die Sensorik sowie das Reaktionsspektrum künstlicher Agenten innerhalb dieser Welten entsprechen qualitativ der eines menschlichen Spielers - die Schnittstelle zur Spielewelt ist die gleiche. Betrachtet man Lernen als ein Klassifikationsproblem, so kann das benötigte Trainingsmaterial durch einfaches Abhören der Schnittstelle akquiriert werden. Dadurch verfügt man über die einzigartige Möglichkeit, eine menschliche Reaktion auf einen gegebenen Weltzustand komplett erfassen zu können, dieses zwar in einer eingeschränkten aber dennoch realen Umgebung.

Das Projekt beschäftigt sich mit dem Design künstlicher, lernender Agenten für Computerspiele. Es soll erforscht werden, wir durch verschiedene Modalitäten Verhaltensstrategien innerhalb der eingeschränkten Welt eines Computerspieles gelernt werden können. Ein Schwerpunkt soll dabei das Lernen und Imitieren komplexer menschlicher Verhaltensweisen bilden, dieses umfasst ausdrücklich auch soziale Interaktionsmöglichkeiten in Multi-Agenten Spielen. Das Lernen von Verhaltensweisen wird hierbei grundsätzlich als ein Klassifikationsproblem aufgefasst. Diesem liegt die Annahme zugrunde, dass sich die Reaktion eines Agenten aus dem sensorisch wahrgenommenen Weltzustand und aus seinem internen Zustand ergibt.

Zur Berücksichtigung unterschiedlicher Modalitäten ist die Verwendung und Kopplung mehrerer bereits entwickelter Verfahren denkbar. Klassifikatoren, wie zum Beispiel Neuronale Netze, eignen sich zum imitierenden Lernen menschlicher Verhaltensweisen aufgrund von Beispielen. Die Weiterentwicklung vorhandener Verhaltensweisen, aber auch die Ausprägung neuer Fertigkeiten ist durch Reinforcement-Learning möglich. Sowohl eine große Trainingsdatenmenge als auch die zu erwartenden hochdimensionalen Merkmalsvektoren erfordern adäquate Datamining-Methoden, um die wesentlichen Elemente zu extrahieren. Da es sich um eine Echtzeitanwendung in einer dynamischen Umgebung handelt, ist die Betrachtung der zeitlichen Weltentwicklungnotwendig. Dieses kann z.B. mit Time-delayed-Neural-Networks erfolgen, aber auch rekurrente Netze oder Hidden-Markov-Modelle sind denkbar.

Ein Schwerpunkt soll dabei zunächst auf die Integration und Kopplung vorhandener Modalitäten zu einem imitierenden Agenten gelegt werden - Lernen durch Beobachtung eines menschlichen Spielers. Dieses soll um Strukturen für eine selbständige Weiterentwicklung, aufbauend auf vorhandene Verhaltensweisen, aufgebaut werden - Lernen durch Interaktion mit der Spielewelt.
Das wesentliche Ziel ist die Konstruktion eines Klassifikators, der in der Lage ist, globale Verhaltensstrategien in einer hochgradig dynamischen und komplexen Umgebung zu erlernen.