Zu Hauptinhalt springen
Startseite UR

Projektarchiv

Übersicht zu abgeschlossenen Projekten


Entwicklung eines corpusbasierten Beschlagwortungssystems als Web Service

Projekt Beschlagwortung

Laufzeit: 2002

Literatur: Faulstich, Quasthoff, Schmidt, Wolff 2002H

Für unterschiedliche Anwendungen im Bereich Content Management und Information Retrieval ist die Problematik der automatischen Beschlagwortung von Texten ein zentrales Problem: Durch die Beschlagwortung können zu bestehenden informationellen Einheiten Metadaten generiert werden, die sich für die Beschreibung und Erschließung nutzen lassen. Anders als bei der Erstellung eines Volltextindex, wie ihn etwa Suchmaschinen erzeugen, geht es hier aber um die gezielte Auswahl weniger, besonders gut deskribierender Begriffe.

Aufbauend auf den im Projekt Deutscher Wortschatz entwickelten Text Mining-Verfahren wurde ein Verfahren konzipiert, das geeignete Schlagwortkandidaten zunächst durch eine differentielle Corpusanalyse vorselektiert und anschließend anhand zusätzlicher Kriterien (Frequenzkategorien, zusätzliches Wissen über Schlagworte, linguistisches Wissen) einschränkt.

Das dabei konzipierte System lässt sich durch eine Reihe von Parametern steuern und erlaubt auch die Anpassung an unterschiedliche Domänen.

Die technische Umsetzung des Systems erfolgte nach einem einfachen Client-Server-Modell, bei dem zu beschlagwortender Text über HHTTP an den Beschlagwortungsserver gesandt wird. Die Beschlagwortungskomponente wird als Web Service über den Apache Tomcat Applikationsserver angesteuert und liefert eine gewichtete Schlagwortliste als Ergebnis. Ein mit Hilfe von Java Server Pages (JSP) realisiertes Administrationsinterface erlaubt die Steuerung und das Monitoring des Beschlagwortungsservers über http. Das Projekt entstand als Kooperationsprojekt mit dem Projekt Deutscher Wortschatz, Institut für Informatik, Universität Leipzig (s. o.), der TextTech GmbH, Leipzig, sowie der pepper words GmbH, München.


Dynamische, elektronische Bücher

Projekt Dynamische Bücher

Laufzeit: 1998-2000, seit 2004 andauernd

Literatur: Wolff 2000, Wolff 2003F, Wolff 2004A

Ausgehend von den Ergebnissen des Projekts "Multimediales elektronisches Praktikum" wird eine generische Systemarchitektur für "dynamische elektronische Bücher" entwickelt. Unter dynamischen elektronischen Büchern versteht man Hypermedia-Informationsbestände und die mit ihnen verbundenen Softwaresysteme, die interaktive Komponenten enthalten und durch Informationsdienste dynamisch ergänzt werden können. Wesentliche Merkmale des Modells sind:

  • Strukturierung elektronischer Publikationen durch ein mehrschichtiges Markup-Modell, in dem für strukturelle, navigationsbezogene und inhaltliche Aspekte jeweils unterschiedliche Markupelemente zum Einsatz kommen
  • Dienstebasierte Integration zusätzlicher Informationen in elektronische Publikationen
  • Einsatz elektronischer Publikationen in unterschiedlichen Nutzungskontexten, insbesondere mit Hinblick auf e-Learning und Kooperation

Ergebnis des Projekts war zunächst eine Habilitationsschrift (Wolff 2000), in der ein Konzept dienstebasierter elektronischer Bücher entwickelt wird. Nachdem sich hierfür seit 2000 auch eine passende und standardisierte technische Infrastruktur entwickelt hat (WSDL, SOAP etc.) , wird die Konzeption dahingehend angepasst und an neuem Material revalidiert werden.


Multimediale, elektronische Bücher (Heyer, Wolff)

Projekt Multimediabuch

Laufzeit: 1997-1999, Universität Leipzig – Institut für Informatik

Förderung: BMBF+T

Partner: B.G. Teubner Verlag, Stuttgart und Leipzig, OFFIS Oldenburg (Prof. Appelrath)

Projekt "Multimediales Physikalisches Praktikum" im Rahmen des Fördervorhabens "Weiterentwicklung des wissenschaftlich-technischen Lehrwerks zur multimedialen Wissensrepräsentation" mit den Schwerpunkten Medienintegration, Gestaltung der Benutzerschnittstelle und Texttechnologie. Der Prototyp eines elektronischen Buchs wurde erweitert und optimiert. Seine Publikation im Medienbündel mit dem gedruckten Buch ist für 2000 vorgesehen.


Elektronisches Wahlverfahren

e-Voting

Laufzeit: 1998-2000

Literatur: Wolff 1998D, Mielke & Wolff 1998C, Wolff 2004G

Am Beispiel von Vorstands- und Beiratswahlen für Vereine und Verbände wurde ein internetbasiertes Wahlverfahren entwickelt. Es arbeitet in Analogie zum traditionellen Briefwahlverfahren und verwendet asymmetrische Kryptographie für Datenverschlüsselung und digitale Signaturen. Als Client-Server-System im WWW konnte es für die Durchführung einer elektronischen Wahl erfolgreich eingesetzt werden.


Grundlagen und Anwendungen der Texttechnologie

Texttechnologie 

Laufzeit: 1995 andauernd

Literatur: Quasthoff & Wolff 2002G, Heyer, Quasthoff & Wolff 2002E, Biemann, Bordag, Heyer, Quasthoff, Wolff 2004B, Biemann, Bordag, Quasthoff, Wolff 2004E

In Kooperation mit dem bereits seit 1994 bestehenden Projekt "Deutscher Wortschatz" (Leitung: Prof. Quasthoff) der Abteilung Automatische Sprachverarbeitung (Prof. Heyer) am Institut für Informatik der Universität Leipzig werden Grundlagen und Anwendungen der Texttechnologie untersucht. Hierzu zählen (u. a.) die Modellierung komplexer Textdatenbestände (Corpora, digitale Lexika, automatisch generierte Informationen), das Text Mining in umfangreichen Corpora (Corpusvergleichsanalysen, Kollokationsberechnung und -auswertung), texttechnologische Anwendungen wie das Wissensmanagement oder das Information Retrieval sowie die interaktive Visualisierung von Begriffsnetzwerken.

Die in diesem Projekt entstandenen Ergebnisse lassen sich in umfangreiche Datenbestände, Analysewerkzeuge sowie konkrete Anwendungen gliedern. Im Berichtszeitraum stand die Entwicklung konkreter Anwendungen im Bereich des Information Retrieval bzw. der Medienanalyse im Vordergrund, die nachfolgend gesondert beschrieben werden. Da das Projekt ein längerfristig angelegtes Infrastrukturprojekt ist, werden die Arbeiten auch im Jahr 2003 fortgesetzt.

Der Arbeitsschwerpunkt des Beitrags der Medieninformatik an der Universität Regensburg liegt dabei im Bereich texttechnologischer Web Services, im Bereich Corpusvergleich, sowie in der Entwicklung texttechnologischer Anwendungen.

Dabei entstehen Kooperationen mit den philologischen Fächern an der Universität Regensburg und mit der Studieneinheit Korpuslinguistik.


Strukturierung und Implementierung einer Internet-Galerie als WWW-Referenzanwendung

Ort des Originals/Ort ohne Raum

Laufzeit: 1995-1996 Literatur: Touma & Wolff 1996

Partner: Hochschule für Grafik und Buchkunst Leipzig, Abt. Medienkunst

Eine interaktive WWW-Galerie entstand als Kooperationsprojekt mit dem Fachbereich Medienkunst der Hochschule für Grafik und Buchkunst Leipzig (Michael Touma). Die jüngste Entwicklung im Bereich Multimedia, Electronic Publishing und Internet zeigt, dass die Erstellung leistungsfähiger Anwendungen weder von technologischer Seite noch von der Seite der Gestaltung her allein gelöst werden kann.

Im Zentrum des Interesses steht daher für die Galerie die interdisziplinäre Zusammenarbeit zwischen Medienkunst und Informatik. Aus der Sicht der Informatik dient das Projekt vornehmlich dem Aufbau einer WWW-Referenzanwendung unter Einbeziehung und Weiterentwicklung geeigneter Werkzeuge für komplexe multimediale Anwendungen im WWW (Java-Applets, plug-ins für Webbrowser etc.).


Graphisches Retrieval

Wing-Graph

Laufzeit: 1990-1996

Literatur: Wolff 1994, Krause, Wolff, Womser-Hacker 1994, Wolff & Womser-Hacker 1997

Förderung: BMWi

Implementierung einer Benutzeroberfläche und Datenbankschnittstelle für das graphische Retrieval von Fakten in Werkstoffdatenbanken mittels der direkten Manipulation von Informationsgraphiken (Liniendiagrammen).

  1. Fakultät für Sprach-, Literatur- und Kulturwissenschaften
  2. Institut für Information und Medien, Sprache und Kultur (I:IMSK)

Medieninformatik

Forschung
Forschung-rechte-spalte