Sven Schmeier  .  Sprachtechnologe  .  Berlin Sven Schmeier  .  Sprachtechnologe  .  Berlin
Home Vision Science Referenzen Demos Partner Kontakt Links  
Sven Schmeier  .  Sprachtechnologe  .  Berlin

Flache Informationsextraktion

   

Eine sich neu etablierende Technologie in der Sparchtechnologie sind Systeme zur flachen Informationsextraktion (IE).
Das Ziel der flachen IE ist die Konstruktion von Systemen, die domänspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei gleichzeitigem “Überlesen” irrelevanter Information. IE-Systeme versuchen keine umfassende Analyse des gesamten Inhaltes aller Textdokumente, sondern sollen nur die Textpassagen analysieren bzw. “verstehen”, die relevante Information beinhalten. Was als relevant gilt, wird dabei durch vordefinierte domänenspezifische Lexikoneinträge oder Regeln dem System vorgegeben oder aus annotierten Dokumenten erlernt. Dieses Wissen muss dabei so detailliert und genau wie möglich festlegen, welche Typen von Information von einem IE-System extrahiert werden soll, damit eine umfangreiche und zugleich präzise Extraktion ermöglicht wird. Typischerweise modelliert die vorgegebene Information komplexe, zusammenhängende Antwortmuster bezüglich wer, was, wem, wann, wo und eventuell warum. Sie werden in Form von Templates spezifiziert, also Bündeln von Attribut/Wert–Paaren, z.B. Firmen- und Produktinformationen, Umsatzmeldungen, Personalwechsel, Stellenausschreibungen. Die Kernfunktionalität eines IE-Systems lässt sich dann kurz wie folgt charakterisieren:

• Eingabe: Spezifikation des Typs der relevanten Information in Form von
Templates (Menge von Attributen) und eine Menge von freien Textdokumenten
(Pressemitteilungen, Internet-Dokumente, Emails, etc.)
• Ausgabe: eine Menge von instanziierten Templates (Werte für Attribute), die mit den als relevant identifizierten und normalisierten Textfragmenten
gefüllt sind.


Die so extrahierten Daten können vielseitig eingesetzt werden, z. B. zur feinkörnigen Textfilterung oder -klassifikation, als Einträge für Datenbanken, zur Unterstützung von Text Mining und Antwortextraktionssystemen, oder als
Ausgangspunkt für eine Textzusammenfassung.

Aus "Informationsextraktion" von Günter Neumann

(zurück)

news
 
 

Whitepaper Kategorisierer NBCS:

Hier zum Download.


Anwendungsorientierter Spellchecker
Ein über maschinelles Lernen optimierter, vollautomatischer Spellchecker ist derzeit im Testlabor.
(-> mehr)

Demos:
Kostenlose Evaluation des Klassifikators von schmeier.com.

(-> mehr)

->Newsarchiv