Prof. Dr. Gert Rickheit
Fakultät für Linguistik und Literaturwissenschaft
(0521) 106-53 10
gert.rickheit@Uni-Bielefeld.DE
Prof. Dr. Gerhard Sagerer
Technische Fakultät
(0521) 106-29 35
sagerer@TechFak.Uni-Bielefeld.DE
Dr. Constanze Vorwerg
Raum D4-116, Tel. 52 66
constanze.vorwerg@Uni-Bielefeld.DE
Nachdem bislang vor allem die Integration von Techniken zur Interpretation von Sprach- und Bildsignalen, die diskrete Zeitpunkte eines Konstruktionsverlaufes charakterisieren, behandelt wurde, soll im kommenden Förderungszeitraum die Aggregierung einzelner Objekte zu komplexeren Einheiten unter dynamischen Gesichtspunkten untersucht werden. Damit wird die Generierung einer konsistenten Szenenrepräsentation über Modalitäten, Zeit und Raum ermöglicht. Um die erforderliche Flexibilität und Adaptivität zu erreichen, werden a priori nur einfache Baufixobjekte visuell und sprachlich modelliert. Die visuelle Erkennung aggregierter Objekte und die Interpretation von sprachlichen Benennungen dieser Objekte, die während des Konstruktionsprozesses entstehen, erfordern Lernvorgänge, welche durch die Interaktion zwischen verschiedenen Modalitäten erst ermöglicht werden. Daher werden Verfahren zum wechselseitigen Lernen sprachlicher und visueller Referenzierungen entwickelt. Indem Aggregate gleichzeitig unter den Gesichtspunkten ihrer visuell erkannten Struktur, ihres Konstruktionsprozesses und ihrer sprachlichen Bezeichnungen betrachtet werden, ist ein Lernen von Objektkonzepten mit einfachen Initialisierungen über ein Zusammenspiel von Kommunikation und visueller Analyse möglich. Als Grundlage dienen erste Arbeiten zur Modellierung von Aggregaten und zur Detektion von Bauplänen, die in der aktuellen Förderungsperiode durchgeführt wurden. Das Lernen über die Szene (Modellierung aktualgenetischer Lernvorgänge) bildet zugleich die Basis für das langfristige Erlernen neuer sprachlicher und visueller Referenzierungen auf Objekte und Handlungen (Modellierung ontogenetischer Lernvorgänge).
Methodisch und technisch wird dabei weiterhin der Dreiklang empirisch psycholinguistischer Untersuchungen, Spracherkennen und -verstehen sowie Analyse visueller Daten verfolgt. Die empirischen Untersuchungen gehen von der Voraussetzung aus, daß die Interaktion zwischen Sprache und Wahrnehmung immer konzeptuell vermittelt erfolgt und auf Kategorisierungsprozessen beruht. Ein und derselbe perzeptive Input kann unterschiedlich benannt werden, wenn er z.B. kontextabhängig unterschiedlich kategorisiert wird. Experimentell untersucht werden sollen Objektklassen, Objektattribute, Raumangaben und Konstruktionssequenzen. Das Schwergewicht der geplanten Experimente zur Kategorisierung von Objekten und Konstruktionshandlungen liegt auf der Untersuchung von Lern- und Konzeptbildungsprozessen. Eine zentrale empirische Fragestellung betrifft die Auflösung von Inkonsistenzen zwischen Sprach- und Bildinterpretation. Auf der algorithmischen Seite sind vier eng zusammenwirkende Modalitäten bzw. Module zu unterscheiden: "Sprache" (Interpretation von Anweisungssequenzen), "Aggregate" (als Struktur), "Prozeß" (der Konstruktion von Aggregaten) und "Interaktion" (Generierung von Referenzen). Jedes dieser Module beschäftigt sich mit unterschiedlichen Facetten der anvisierten Hauptziele: (1) Zum Aufbau und Nachführen konsistenter Szeneninterpretationen gehört die korrekte Behandlung sprachlicher Reparaturen ebenso wie die inkrementelle Erkennung von aggregierten Objekten und eine detaillierte Ereigniserkennung. Außerdem werden Mechnismen entwickelt, mit denen Analyseergebnisse eines Moduls genutzt werden können, um Erkennungsfehler eines anderen Moduls zu detektieren und zu korrigieren. (2) Das Lernen von Handlungssequenzen aus einer synchronisierten sprachlichen und visuellen Folge von Teilinterpretationen ermöglicht es, zum einen neueingeführte abstraktere Anweisungen, wie z.B. "Baue nochmal einen Propeller!", zu verstehen und zum anderen Erwartungen über den Fortgang der Handlung bei der Interpretation nachfolgender Information zu nutzen. (3) Mit der Konstruktion von Aggregaten entstehen neue, teilweise nur ad hoc modellierbare Objekte, auf die sprachlich referiert wird. So kann zum Beispiel die Verbindung aus einer Dreilochleiste und einer Fünflochleiste neu als "Sechserleiste" bezeichnet werden. Das Lernen von Objekten betrifft ihre Bezeichnungen ebenso wie ihre Form oder andere visuelle Merkmale und die Baupläne ihrer Konstruktion. (4) Der bislang bewährte Einsatz symbolischer und probabilistischer Inferenzmaschinen zur Integration und Analyse der verschiedenen Modalitäten muß dabei auf die lernenden Verfahren und die gelernten Ergebnisse auf die Inferenzen übertragen werden.
Zur Startseite |
Erstellt von: Anke Weinberger (1994-03-03). Wartung durch: Anke Weinberger (2000-10-11). |