"Interaktion sprachlicher und visueller Informationsverarbeitung"
Teilprojekt B1 im SFB 360

Projektleiter:
Dr. Hans-Jürgen Eikmeyer
Fakultät für Linguistik und Literaturwissenschaft
(0521) 106-36 85
hansjuergen.eikmeyer@Uni-Bielefeld.DE

Prof. Dr. Gert Rickheit
Fakultät für Linguistik und Literaturwissenschaft
(0521) 106-53 10
gert.rickheit@Uni-Bielefeld.DE

Prof. Dr. Gerhard Sagerer
Technische Fakultät
(0521) 106-29 35
sagerer@TechFak.Uni-Bielefeld.DE

Mitarbeiter im Teilprojekt B1:
Dipl.-Inform. Christian Bauckhage
Raum M5-120, Tel. 29 33
cbauckha@TechFak.Uni-Bielefeld.DE

Dr. Constanze Vorwerg
Raum D4-116, Tel. 52 66
constanze.vorwerg@Uni-Bielefeld.DE

Zusammenfassung
Forschungsgegenstand des Teilprojekts B1 sind Prozesse der Koordinierung und Interaktion sprachlicher und visueller Information beim Verstehen und Umsetzen von Instruktionen im Verlauf eines Konstruktionsdialogs. Ein künstlicher Kommunikator, der gegebene Instruktionen ausführen soll, befindet sich in zweifacher Interaktion mit der externen Welt: auditiv/sprechend mit dem Instrukteur und perzeptiv/aktorisch mit den Objekten der Konstruktionsdomäne. Ein zentrales Problem dabei ist die Herstellung der Verbindung zwischen sprachlichen Symbolen und wahrgenommenen/manipulierten Objekten, welche eine Ausführung referentieller Funktionen erst ermöglicht und um so komplexer wird, je mehr Veränderungen über die Zeit, je mehr zusammengesetzte und neuartige Objekte und unbekannte Wörter zu berücksichtigen sind.

Nachdem bislang vor allem die Integration von Techniken zur Interpretation von Sprach- und Bildsignalen, die diskrete Zeitpunkte eines Konstruktionsverlaufes charakterisieren, behandelt wurde, soll im kommenden Förderungszeitraum die Aggregierung einzelner Objekte zu komplexeren Einheiten unter dynamischen Gesichtspunkten untersucht werden. Damit wird die Generierung einer konsistenten Szenenrepräsentation über Modalitäten, Zeit und Raum ermöglicht. Um die erforderliche Flexibilität und Adaptivität zu erreichen, werden a priori nur einfache Baufixobjekte visuell und sprachlich modelliert. Die visuelle Erkennung aggregierter Objekte und die Interpretation von sprachlichen Benennungen dieser Objekte, die während des Konstruktionsprozesses entstehen, erfordern Lernvorgänge, welche durch die Interaktion zwischen verschiedenen Modalitäten erst ermöglicht werden. Daher werden Verfahren zum wechselseitigen Lernen sprachlicher und visueller Referenzierungen entwickelt. Indem Aggregate gleichzeitig unter den Gesichtspunkten ihrer visuell erkannten Struktur, ihres Konstruktionsprozesses und ihrer sprachlichen Bezeichnungen betrachtet werden, ist ein Lernen von Objektkonzepten mit einfachen Initialisierungen über ein Zusammenspiel von Kommunikation und visueller Analyse möglich. Als Grundlage dienen erste Arbeiten zur Modellierung von Aggregaten und zur Detektion von Bauplänen, die in der aktuellen Förderungsperiode durchgeführt wurden. Das Lernen über die Szene (Modellierung aktualgenetischer Lernvorgänge) bildet zugleich die Basis für das langfristige Erlernen neuer sprachlicher und visueller Referenzierungen auf Objekte und Handlungen (Modellierung ontogenetischer Lernvorgänge).

Methodisch und technisch wird dabei weiterhin der Dreiklang empirisch psycholinguistischer Untersuchungen, Spracherkennen und -verstehen sowie Analyse visueller Daten verfolgt. Die empirischen Untersuchungen gehen von der Voraussetzung aus, daß die Interaktion zwischen Sprache und Wahrnehmung immer konzeptuell vermittelt erfolgt und auf Kategorisierungsprozessen beruht. Ein und derselbe perzeptive Input kann unterschiedlich benannt werden, wenn er ­ z.B. kontextabhängig ­ unterschiedlich kategorisiert wird. Experimentell untersucht werden sollen Objektklassen, Objektattribute, Raumangaben und Konstruktionssequenzen. Das Schwergewicht der geplanten Experimente zur Kategorisierung von Objekten und Konstruktionshandlungen liegt auf der Untersuchung von Lern- und Konzeptbildungsprozessen. Eine zentrale empirische Fragestellung betrifft die Auflösung von Inkonsistenzen zwischen Sprach- und Bildinterpretation. Auf der algorithmischen Seite sind vier eng zusammenwirkende Modalitäten bzw. Module zu unterscheiden: "Sprache" (Interpretation von Anweisungssequenzen), "Aggregate" (als Struktur), "Prozeß" (der Konstruktion von Aggregaten) und "Interaktion" (Generierung von Referenzen). Jedes dieser Module beschäftigt sich mit unterschiedlichen Facetten der anvisierten Hauptziele: (1) Zum Aufbau und Nachführen konsistenter Szeneninterpretationen gehört die korrekte Behandlung sprachlicher Reparaturen ebenso wie die inkrementelle Erkennung von aggregierten Objekten und eine detaillierte Ereigniserkennung. Außerdem werden Mechnismen entwickelt, mit denen Analyseergebnisse eines Moduls genutzt werden können, um Erkennungsfehler eines anderen Moduls zu detektieren und zu korrigieren. (2) Das Lernen von Handlungssequenzen aus einer synchronisierten sprachlichen und visuellen Folge von Teilinterpretationen ermöglicht es, zum einen neueingeführte abstraktere Anweisungen, wie z.B. "Baue nochmal einen Propeller!", zu verstehen und zum anderen Erwartungen über den Fortgang der Handlung bei der Interpretation nachfolgender Information zu nutzen. (3) Mit der Konstruktion von Aggregaten entstehen neue, teilweise nur ad hoc modellierbare Objekte, auf die sprachlich referiert wird. So kann zum Beispiel die Verbindung aus einer Dreilochleiste und einer Fünflochleiste neu als "Sechserleiste" bezeichnet werden. Das Lernen von Objekten betrifft ihre Bezeichnungen ebenso wie ihre Form oder andere visuelle Merkmale und die Baupläne ihrer Konstruktion. (4) Der bislang bewährte Einsatz symbolischer und probabilistischer Inferenzmaschinen zur Integration und Analyse der verschiedenen Modalitäten muß dabei auf die lernenden Verfahren und die gelernten Ergebnisse auf die Inferenzen übertragen werden.


sfb-logo Zur Startseite Erstellt von: Anke Weinberger (1994-03-03).
Wartung durch: Anke Weinberger (2000-10-11).