Ein Framework zur Fusion von Daten räumlich verteilter Time-of-Flight Kameras

Um einen kleinen Überblick über die Arbeit zu geben folgt hier ein Auszug aus der Einleitung:

Motivation

In der heutigen Zeit verschmelzen virtuelle und reale Welt zusehends, und die Interaktion von Elementen beider Welten miteinander gewinnt fortwährend an Bedeutung. Daher spielt die Verfügbarkeit von Informationen über deren Eigenschaften eine immer stärker werdende Rolle.

Die Merkmale virtueller Objekte sind aufgrund der Art und Weise ihrer Erzeugung, nämlich der Instanziierung bekannter Strukturen, von vornherein bekannt, bzw. können nach Belieben festgelegt werden. Somit stellen sie eine eher designtechnische Herausforderung dar, auf die im Rahmen dieser Arbeit nicht weiter eingegangen werden soll.

Ein, aus sensorischer Sicht, deutlich komplexeres, je nach betrachtetem Merkmal mit derzeit verfügbaren Mitteln vielleicht unlösbares Problem, ist das Erkennen der Zustände und Eigenschaften realer Objekte. Derartige Informationen sind jedoch im Hinblick auf die Vereinigung beider Welten ohne Frage von hoher Bedeutung, da ohne sie keine Verbindung zwischen letztgenannten hergestellt werden kann.

Möchte etwa der Benutzer einer Virtual Reality (VR) Anwendung mit dieser interagieren, so muss er sich über seine Umgebung, sowohl in der virtuellen als auch in der realen Welt, bewusst sein. Ebenso verhält es sich mit einem virtuellen Akteur, beispielsweise dem in der Arbeitsgruppe Wissensbasierte Systeme (AG WBS) entwickelten virtuellen Agenten Max [Kopp et al. 2003]. Soll dieser mit seinem menschlichen Gegenüber in einem Konstruktionsszenario sinnvoll interagieren, müssen ihm bezüglich des Benutzerzustands so viele Informationen wie möglich zur Verfügung stehen. Diese werden heutzutage mit Hilfe spezieller Sensoren, wie Trackingsystemen oder Datenhandschuhen, detektiert. Wie [Kranstedt et al. 2006] feststellen, verhalten sich Benutzer unter deren Einsatz jedoch nicht mehr natürlich, weshalb eine alternative Methode wünschenswert ist.

Neben den Anwender betreffenden Informationen, sind in Interaktionsszenarien jedoch auch Daten bezüglich weiterer Objekte nützlich. Beispielsweise könnten reale Gegenstände in ein Szenario einbezogen werden, zu denen in diesem Fall weitere Informationen notwendig sind. Der Kürze halber wird im Folgenden der Begriff Objekt sowohl zur Bezeichnung eines solchen Gegenstandes als auch des Benutzers einer VR Anwendung verwendet.

Die Möglichkeiten, automatisiert Informationen zu Objekten zu erhalten, sind relativ beschränkt. Selbst ein Mensch kann ohne entsprechendes Vorwissen wenig über ein solches aussagen. Ist es ihm außerdem verwehrt, sich oder das Objekt zu bewegen oder es zu berühren, wird seine Situation zusätzlich erschwert. In eben dieser befindet sich jedoch ein System, welches die beschriebene Aufgabe der Informationsgewinnung erfüllen soll. Insbesondere die Verdeckung von Teilen eines Objekts ist in diesem Zusammenhang ein großes Problem.

Eine sinnvolle Herangehensweise an dessen Lösung stellt der Einsatz von Daten aus unterschiedlichen Quellen dar. Im Beispiel des Menschen könnte dies durch die Kommunikation mit weiteren, dasselbe Objekt wahrnehmenden Personen oder die Verwendung von Informationen über bekannte, ähnliche Objekte erfolgen. Übertragen auf den Fall der maschinellen Informationsakquise bedeutet es den Einsatz multipler Sensoren, welche das Objekt aus verschiedenen Perspektiven erfassen oder alternativ die Implementierung einer Datenbank, welche Objektinformationen enthält. Im nicht automatisierten Fall handelt es sich bei letzterem abermals um ein Designproblem, die Automatisierung hingegen erfordert wiederum von diversen Sensoren bereitgestellte Daten.

Um einen möglichst großen Bereich des jeweiligen Objekts erfassen zu können, wäre es denkbar, eine große Zahl von Sensoren einzusetzen. Ein alternativer - und aus Kostengründen sinnvollerer - Ansatz ist der Einsatz weniger Sensoren, welche Informationen aus der Distanz heraus ermitteln und somit von vornherein einen großen Teil des Objekts erfassen können. Dies motiviert die Verwendung optischer Sensoren, wie zum Beispiel der im Rahmen dieser Arbeit eingesetzten Time-of-Flight (TOF) Kameras. Diese tasten die Oberfläche eines Objekts ab und erzeugen Punktwolken aus den gemessenen Entfernungsdaten. Eine Vergrößerung der Menge verwendeter Sensoren sowie ihre Heterogenisierung lässt selbstverständlich einen zusätzlichen Informationsgewinn erwarten.

Die Wahl der zu verwendenden Sensoren ist abhängig vom jeweiligen Anwendungsfall. Ein allgemeines System zur Zusammenführung von Sensordaten ist jedoch nicht umsetzbar, da jeder Datentyp auf spezifische Art und Weise verarbeitet werden muss. Um trotzdem beliebige Sensoren verwenden zu können, ohne Tätigkeiten mehrfach durchführen zu müssen, ist der Einsatz eines modularen Systems sinnvoll.

Zielsetzung

Die vorliegende Arbeit befasst sich mit der aufkommenden Problematik, Sensordaten zu fusionieren, um so in interaktiven Szenarien zusätzliche Informationen zu auftretenden Objekten bereitzustellen. Die hierfür eingesetzten Sensoren sollen vor der Verwendung des Systems beliebig angeordnet werden können, während seiner Benutzung aber fixiert bleiben. Um eine langwierige Parameterfindung zu vermeiden, soll ein robustes Kalibrierungsverfahren entwickelt werden. Damit das System von einer beliebigen Person verwendet werden kann, muss die hierzu gewählte Methode mit möglichst wenig Vorwissen durchgeführt werden können.

Im Rahmen der Arbeit ist daher ein Framework zu entwickeln, mit dessen Hilfe räumlich verteilte, reale Sensoren zu einem einzelnen logischen Sensor zusammengeführt werden können. Das Format der fusionierten Daten sollte dabei möglichst identisch mit dem der ursprünglichen Sensoren sein, um den durch die Verwendung des Systems entstehenden Mehraufwand so gering wie möglich zu halten. Da in nachfolgenden Projekten die Einbindung weiterer Sensoren erforderlich seien kann, ist ein Konzept zu entwickeln, welches die allgemeine Behandlung unterschiedlicher Sensoren und ihrer Daten ermöglicht. Des Weiteren müssen Methoden zur synchronisierten Aktualisierung, Vorverarbeitung und Fusion von Daten sowie zur Kalibrierung der einzubindenden Sensoren in das Framework integriert werden.

Mit diesen Zielen vor Augen ergeben sich weitere, bei der Implementierung des Systems zu beachtende Anforderungen: Die Intention, Daten für Interaktionsszenarien bereitzustellen, impliziert, dass das entwickelte System in Echtzeit auf Veränderungen der realen Welt reagieren können muss. Zudem ist ein minimalinvasiver Ansatz wünschenswert, um den Benutzer in seinen Aktionen nicht einzuschränken. Im Zuge der Umsetzung des Systems ist besonders darauf zu achten, dass dieses erweiterbar gehalten wird. Schließlich soll die entwickelte Anwendung in das System der Arbeitsgruppe Wissensbasierte Systeme (AG WBS) integrierbar, dabei aber unabhängig von interner Software sein, um auch an anderer Stelle eingesetzt werden zu können.

Die Umsetzung des beschriebenen Vorhabens lässt sich in drei Teilziele untergliedern: Um die genannten Anforderungen erfüllen zu können, sollen zur Akquisition der Tiefendaten zwei Swissranger SR-3000 Time-of-Flight (TOF) Kameras eingesetzt werden. Diese müssen daher im ersten Teil der Arbeit in das zu entwickelnde System eingebunden werden. In diesem Zusammenhang soll eine Bibliothek geschaffen werden, mit welcher die Kameras auch in nachfolgenden Projekten der AG WBS genutzt werden können. Um die Echtzeitfähigkeit des Systems zu gewährleisten, ist hierbei die Verteilung von Rechenoperationen auf mehrere Prozessorkerne oder gegebenenfalls sogar mehrere Computer sinnvoll.

Im zweiten Teil der Arbeit sollen die erfassten Daten mittels aus der Bildverarbeitung bekannter Verfahren vorverarbeitet werden, um bessere Kalibrierungsund Fusionsergebnisse zu ermöglichen. Aus der großen Menge der zu diesem Zweck existierenden Verfahren sind dazu solche auszuwählen, welche die gestellten Anforderungen (Robustheit und Echtzeitfähigkeit) erfüllen. Zur Zusammenführung der Sensordaten in einem globalen Koordinatensystem, müssen die Sensoren kalibriert, d.h. ihre Ausrichtung zueinander bestimmt werden, wozu ein entsprechendes Verfahren zu entwickeln ist.

Das dritte Teilziel der Arbeit behandelt die Fusion der Sensordaten sowie deren Bereitstellung. Um eine die fusionierten Daten verwendende Anwendung zu simulieren, ist ein Algorithmus zur Objektrekonstruktion zu implementieren.