Eine sich neu etablierende Technologie in der Sparchtechnologie sind Systeme zur flachen Informationsextraktion (IE).
Das Ziel der flachen IE ist die Konstruktion von Systemen, die domänspezifische Informationen aus freien Texten aufspüren und strukturieren können, bei
gleichzeitigem “Überlesen” irrelevanter Information. IE-Systeme versuchen keine
umfassende Analyse des gesamten Inhaltes aller Textdokumente, sondern sollen
nur die Textpassagen analysieren bzw. “verstehen”, die relevante Information
beinhalten. Was als relevant gilt, wird dabei durch vordefinierte domänenspezifische Lexikoneinträge oder Regeln dem System vorgegeben oder aus annotierten Dokumenten erlernt. Dieses Wissen
muss dabei so detailliert und genau wie möglich festlegen, welche Typen von Information
von einem IE-System extrahiert werden soll, damit eine umfangreiche
und zugleich präzise Extraktion ermöglicht wird.
Typischerweise modelliert die vorgegebene Information komplexe, zusammenhängende Antwortmuster bezüglich wer, was, wem, wann, wo und eventuell
warum. Sie werden in Form von Templates spezifiziert, also Bündeln von
Attribut/Wert–Paaren, z.B. Firmen- und Produktinformationen, Umsatzmeldungen,
Personalwechsel, Stellenausschreibungen. Die Kernfunktionalität eines
IE-Systems lässt sich dann kurz wie folgt charakterisieren:
• Eingabe: Spezifikation des Typs der relevanten Information in Form von
Templates (Menge von Attributen) und eine Menge von freien Textdokumenten
(Pressemitteilungen, Internet-Dokumente, Emails, etc.)
• Ausgabe: eine Menge von instanziierten Templates (Werte für Attribute),
die mit den als relevant identifizierten und normalisierten Textfragmenten
gefüllt sind.
Die so extrahierten Daten können vielseitig eingesetzt werden, z. B. zur
feinkörnigen Textfilterung oder -klassifikation, als Einträge für Datenbanken,
zur Unterstützung von Text Mining und Antwortextraktionssystemen, oder als
Ausgangspunkt für eine Textzusammenfassung.
Aus "Informationsextraktion" von Günter Neumann
(zurück) |
 |
 |
|
|
Whitepaper Kategorisierer NBCS:
Hier zum Download.
|
Anwendungsorientierter Spellchecker
Ein über maschinelles Lernen optimierter, vollautomatischer Spellchecker ist derzeit im Testlabor.
(-> mehr) |
Demos:
Kostenlose Evaluation des Klassifikators von schmeier.com.
(-> mehr)
|
->Newsarchiv
|
|
|