Lade Inhalt...

Untersuchungen zur Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive

Hausarbeit 2002 97 Seiten

Informatik - Internet, neue Technologien

Leseprobe

Inhaltsverzeichnis

Motivation

1 Der Prozeß von der Eingabe bis zum Suchergebnis
1.1 Information Seeker
1.1.1 Beschreibung
1.1.2 Ziele
1.1.3 Probleme und Fragen des Information Seekers
1.1.4 Subjektive Auswahlkriterien für ein Dokument
1.2 Bestandteile des Suchprozesses
1.3 Kriterien zur Bewertung des Suchergebnisses
1.3.1 Kriterien
1.3.2 Anzahl der gefundenen Dokumente
1.3.3 Qualität der gefundenen Informationen
1.3.4 Antwortzeit des Systems
1.3.5 Betriebsaufwand
1.3.6 Nutzerfreundlichkeit
1.3.7 Gewichtung der Einzelkriterien

2 Erweiterte Suche
2.1 Begriff, Sinn und Zweck, Notwendigkeit
2.2 Statistische Verfahren
2.2.1 Term Frequency (TF)
2.2.2 Collection Frequency (CF) , Inverse Document Frequency(IDF)
2.3 Methoden aus der Sprachwissenschaft
2.3.1 Conflation
2.3.2 Stemming
2.4 Kombinierte Verfahren
2.4.1 Indexing / Cataloging
2.4.2 Ausweitung der Anfrage auf komplexe Terme
2.5 Algorithmen für ähnlich klingende Worte
2.5.1 Soundex
2.5.2 Metaphone
2.6 Textkorrektur
2.6.1 Rechtschreibung
2.6.2 Fremdwörter
2.6.3 Historische Schreibweisen
2.6.4 Spracherkennung
2.7 Verfahren, die auf Deskriptoren basieren
2.7.1 Term Weighting
2.7.2 Vector Retrieval
2.7.3 Bayessches Lernmodell
2.7.4 Exakte Suche mit booleschen Operatoren
2.7.5 Unscharfe Suche
2.7.6 Term Masking
2.7.7 Latent Semantic Indexing

3 Logische Dokumentstruktur
3.1 Ein Dokument und dessen Aufbau
3.2 Formale Beschreibung
3.3 Abstract
3.3.1 Zweck
3.3.2 Anordnung
3.3.3 Typen von Abstracts
3.3.4 Inhalt
3.3.5 Stil
3.4 Text des Dokuments
3.5 Referenzen
3.6 Standards

4 Betrachtungen zum Ist-Zustand des MONARCH
4.1 Testbedingungen
4.2 Betriebsaufwand
4.3 Nutzerfreundlichkeit
4.4 Qualität der Suchergebnisse
4.5 Antwortzeit
4.6 Format der Metadaten
4.6.1 Metadaten und XML
4.6.2 Volltextindex
4.6.3 Deskriptoren zur Beschreibung der Publikation

5 Analyse zur Qualität der Verfahren der Erweiterten Suche
5.1 Vorgehensweise
5.1.1 Verfahren zur Erzeugung von Deskriptoren
5.1.2 Verfahren, die auf Deskriptoren basieren
5.2 Prognose
5.3 Testumgebung
5.4 Testergebnisse
5.4.1 Erzeugen der Deskriptoren
5.4.2 Suche über Deskriptoren
5.5 Fazit
5.5.1 Erzeugung der Deskriptoren
5.5.2 Suche über Deskriptoren
5.5.3 Verbesserung der Resultatqualität
5.5.4 Optimierung des Suchprozeß
5.5.5 Speicherung zusätzlicher Informationen

A Ausgewählte Dokumente für die Testumgebung

В Suchanfragen
B.l Klassifikation der Dokumente
B.2 Deskriptoren
B.3 Suchanfragen

Abbildungsverzeichnis

1.1 Bestandteile des Suchprozesses

2.1 Klassifikation der Verfahren für Erweiterte Suche

2.2 Concept Classes

4.1 Erzeugung der Deskriptoren

5.1 Automatische Erzeugung von Deskriptoren

5.2 Suche nach Dokumenten

Tabellenverzeichnis

1.1 Gewichtung der Bewertungskriterien

2.1 Term Frequency

2.2 Term Frequency nach Ausfilterung mittels Stopliste

2.3 Synonyme für das Wort „Welle“

2.4 Wortstamm „leucht“

2.5 Successor Variety für „freundlich“

2.6 Ähnlichkeit zweier Worte

2.7 Komplexe Terme

2.8 Soundex-Code

2.9 Metaphone-Code

2.10 Binary Independence Model

2.11 Beispieldokumente und ihre Relevanz

5.1 Ergebnis der Suche - Teil 1

5.2 Ergebnis der Suche - Teil 2

5.3 Ergebnis der Suche - Teil 3

Motivation

Am Beispiel des Multimedia ONline ARCHivs (MONARCH) wird der Ist-Zustand festgestellt. Es wird eine Untersuchung bezüglich der Anzahl und der Qualität der Suchergebnisse vorgenommen. Weiterhin werden die Antwortzeiten und der Betriebsaufwand betrachtet. Ausgehend von diesen Ergebnissen werden mögli­che Verbesserungen durch eine Erweiterte Suche analysiert.

Das Ziel der Untersuchungen besteht darin, folgende Fragen beantworten zu können:
1 Welches Verfahren bzw. welche Kombination von Verfahren ermöglicht ei­ne Verbesserung der Resultatqualität, ohne die bisher verwendete Struktur zur Ablage der Daten verändern zu müssen?
2 An welcher Position im Suchprozeß kann eine Optimierung stattfinden: bei der Suchanfrage, bei der Datenspeicherung oder bei beidem?
3 Welche Informationen sollten zusätzlich abgelegt werden, um die Resul­tatqualität noch weiter verbessern zu können?

In diese Arbeit fließen Erkenntnisse zur Nutzungsfreundlichkeit mit ein.

Zunächst wird in Kapitel 1 der gesamte Prozeß von der Formulierung der Anfrage bis zur Ausgabe des Suchergebnisses näher analysiert. Dabei wird be­trachtet, welche Schwierigkeiten für den Information Seeker bestehen und an­hand welcher Kriterien das erzielte Suchergebnis bewertet werden kann. In Ka­pitel 2 wird ein Überblick über die existierenden Verfahren der Erweiterten Suche und ihre spezifische Anwendung gegeben. Desweiteren wird geprüft, wel­che Kombination von Verfahren sinnvoll ist und zu einem hochwertigen Ergebnis führen kann. Das Kapitel 3 behandelt die Strukturierung der Dokumente und in welcher Abfolge die einzelnen Informationen im Dokument abgelegt werden. In Kapitel 4 erfolgt eine Betrachtung des Ist-Zustands des MONARCH. Einen Überblick über die verwendete Umgebung zum Testen der einzelnen Verfahren der Erweiterten Suche gibt Kapitel 5. Im Anschluß daran werden die Ergeb­nisse beurteilt und mögliche Verbesserungen vorgestellt.

Kapitel 1 Der Prozeß von der Eingabe bis zum Suchergebnis

1.1 Information Seeker

1.1.1 Beschreibung

Der Information Seeker wird von César Carranza und Wolfgang Lenski in [9] beschrieben. Ein Information Seeker bezeichnet eine Person, welche eine Infor­mation oder Auskunft benötigt. Diese Person stellt eine Anfrage an ein Informa­tionssystem, um diese Information (Auskunft) von dort zu erhalten. Die Begrif­fe Information Seeker und Nutzer werden in diesem Dokument gleichbedeutend verwendet.

Ein Informationssystem kann im weitesten Sinne bezeichnen:
- Information Retrieval System (1RS)
- Content Management System (CMS)
- Datenbank Management System (DBS)
- Suchmaschine
- Newsgroup • Mailingliste
- Handheld, PDA
- Pager
- Schwarzes Brett
- Lexikon, Buch, Enzyklopädie, Kompendium
- Hotline, Auskunft
- Ratgeber, Berater („Consultant“), Weisen, Gelehrte
- Orakel

Für den Information Seeker ist die Art des befragten Informationssystems nicht relevant. Entscheidend ist nur, daß er auf seine Anfrage eine möglichst exakte, umfangreiche und für ihn verständliche Antwort in möglichst kurzer Zeit erhält.

1.1.2 Ziele

Das Ziel des Information Seekers besteht darin, die richtigen Informationen zum richtigen Zeitpunkt zu finden [24]. Er erwartet, daß die erhaltenen Informatio­nen so präzise wie nur möglich, gleichzeitig jedoch auch ausführlich genug sind. Weiterhin müssen die Informationen so verständlich sein, daß er diese auch auf­nehmen und erfassen kann. Um die Informationen weiterverarbeiten zu können, müssen diese in einem für ihn nutzbaren Format vorliegen.

1.1.3 Probleme und Fragen des Information Seekers

Finden der Informationen

Das Auffinden der gewünschten Informationen ist nicht ganz einfach. Der In­formation Seeker steht als erstes vor der Frage, welche Informationsquelle für ihn geeignet ist, um seinen Informationsbedarf zu decken. Je nachdem, welche Informationsquelle er nutzt, findet er mehr oder weniger fachspezifische Infor­mationen.

Um die Informationen zu erhalten, muß er eine Anfrage formulieren. Er muß Kenntnisse darüber haben, auf welche Art und Weise er seine Anfrage formulie­ren kann, damit das System diese Frage „versteht“ und ihm die Informationen liefern kann, nach denen er angefragt hat [9]. Falls er detailliertere Kenntnisse über die Funktionsweise des Informationssystems hat oder die Ablageform der Daten kennt, kann er daraus für sich einen Nutzen ziehen. Er kann die Anfrage so formulieren, daß das System optimale Ergebnisse liefert.

Erfüllt das Suchergebnis nicht die Erwartungen des Information Seekers, wird er die Anfrage umformulieren. Dazu ist es für ihn hilfreich zu wissen, ob das System für die erneute Suche nur die bisher gefundenen Dokumente be­rücksichtigt oder erneut alle verfügbaren Dokumente zugrundegelegt werden. Ersteres ermöglicht eine Verfeinerung in eine bestimmte Richtung, wohingegen im zweiten Fall ein Überblick ermöglicht wird.

Dokumentformat

Die Art und Weise, in der ein Dokument gespeichert wird, kann sich positiv auf das Suchergebnis auswirken. Zu klären ist, wie ein Dokument repräsentiert und organisiert werden soll und wie der Inhalt des Dokuments beschrieben werden soll, um das Dokument optimal verarbeiten zu können [25]. Auf diese Fragen wird in Kapitel 3 eingegangen.

Unsicherheit

Der Faktor Unsicherheit darf nicht vernachlässigt werden. Petr Kroha verweist auf mehrere Möglichkeiten. Zunächst existiert Unsicherheit in Bezug auf die Formulierung des Textes durch den Autor sowie auf die Interpretation des Tex­tes durch das System [25]. Weiterhin ist die Formulierung der Anfrage seitens des Nutzers zu berücksichtigen. Dabei unterscheidet Petr Kroha zwischen einem gewöhnlichen Nutzer und einem Experten [30]. Ein gewöhnlicher Nutzer besitzt kein spezifisches Vokabular. Er kennt keine exakte Definition, was an Eingaben benötigt wird. Er formuliert seine Anfrage mit allgemeinen, nicht exakten, fehl- bzw. sehr weit gefaßten Begriffen, die er im Laufe der Suche schrittweise ver­feinert. Im Gegensatz dazu steht der Experte. Er kennt nicht das Wissen des Autors und nutzt sein eigenes Vokabular für die Suche, welches jedoch nicht mit dem Vokabular des Autors identisch sein muß. Er verknüpft die Eingaben mit­tels Operatoren oder spezieller Syntax, beispielsweise um Ausschlußkriterien zu nutzen.[1] Nicht zu unterschätzen ist die Interpretation der Anfrage durch das System sowie die Ausgabe der gefundenen Informationen, insbesondere deren Anordnung und Wertung.

1.1.4 Subjektive Auswahlkriterien für ein Dokument

Die nachfolgend aufgeführten Kriterien sind sehr wichtig. Mit ihnen entscheidet der Information Seeker für sich selbst, ob das Dokument oder Buch für ihn potentiell relevant ist [46].

Viele Systeme sind nicht in der Lage, alle Aspekte eines Werkes abzulegen. Sie repräsentieren lediglich den Inhalt, jedoch nicht die Art und Weise, in der ein Werk veröffentlicht wurde. Bei der Auswahl eines gedruckten Werkes spielen mehrere Faktoren eine wesentliche Rolle. Dazu zählen nicht nur das verwendete Format und die Auswahl der benutzten Fonts, sondern auch die Abfolge von Text und geeigneten Visualisierungen zur Verdeutlichung von Zusammenhän­gen. Weiterhin bestimmen die Art des Druckes, die verwendete Papiersorte, der Geruch und die Einbandgestaltung, ob dem Interessenten das Werk gefällt. Mög­licherweise hat er bereits eine andere Veröffentlichung des Autors gelesen und hat somit positive Erfahrungen mit dem Schreibstil des Autors gesammelt. Das kann ihn dazu bewegen, weiteren Veröffentlichungen des Autors aufgeschlossen gegenüberzustehen und neugierig darauf zu sein, was er ihm nun vermitteln möchte. Vielfach ist es nicht unerheblich, ob sich Autor und Leser persönlich kennen und schätzen, sei es als Fan oder Kritiker.

Es kann jedoch auch sein, daß sich inzwischen sein Anspruch („reading le­vel“) verändert hat und er deswegen nach weitergehenden, fachspezifischeren Informationen sucht. Eine Einschätzung darüber, ob das Buch seinen Vorstel­lungen entspricht, ist von seinem bisherigen Wissen abhängig und von daher nicht ohne weiteres auf andere Information Seeker übertragbar.

1.2 Bestandteile des Suchprozesses

Ein Suchprozeß läßt sich im Allgemeinen mit 3 Schritten beschreiben [46]. Im ersten Schritt wird eine Anfrage („query“ oder „profile“ [53]) formuliert. Diese Anfrage enthält einen oder mehrere Suchbegriffe („search terms“ [53]) und wird im Schritt zwei ausgewertet und verarbeitet. Dabei werden die Suchbegriffe mit Deskriptoren verglichen. Deskriptoren bezeichnen wichtige Wörter oder gan­ze Wortgruppen aus dem gerade betrachteten Dokument [53]. Im dritten und letzten Schritt wird das Ergebnis dieser Anfrage ausgegeben („return“). Dabei werden die gefundenen Daten angezeigt, die eine Antwort auf die Anfrage dar­stellen. Die Wichtigkeit einer gefundenen Information wird dadurch sichtbar, ob das entsprechende Dokument mit in das Ergebnis aufgenommen wird und falls ja, wie relevant das gefundene Dokument zur Anfrage ist [53]. Je relevanter das Dokument ist, umso eher erscheint das Dokument in der Liste der Ergebnisse. César Carranza und Wolfgang Lenski haben diesen Suchprozeß in [9] detail­lierter untersucht und in sieben Phasen gegliedert. Der Verfahrensablauf ist in Bild 1.1 etwas vereinfacht dargestellt [2]. Die einzelnen Phasen werden nachfol­gend kurz wiedergegeben.

Abbildung 1.1: Bestandteile des Suchprozesses

- Query Formulation Phase

In dieser Phase formuliert der Information Seeker seine Suchanfrage. Wel­che Schwierigkeiten bei der korrekten Formulierung einer Anfrage beste­hen, wurde bereits in Abschnitt 1.1.3 ausführlich gezeigt.

- Query Interpretation Phase

Nachdem die Anfrage formuliert wurde, wird diese Anfrage vom System geprüft, validiert und ggf. optimiert. Dabei wird eine Wortbestimmung durchgeführt.

- Problem Solving Methods Selection Phase

In Abhängigkeit der Anfrage wird eine geeignete Suchstrategie bzw. ein passendes Such verfahren ausgewählt. Daran schließt sich die Erstellung eines Retrieval Plan an, nachdem die Suche durchgeführt wird.

- Retrieval Phase

In dieser Phase wird der zuvor erstellte Retrieval Plan ausgeführt. Das Ziel besteht darin, mit Hilfe dieses Plans die Anfrage zu beantworten.

- Evaluation Phase

Die gefundenen Dokumente werden vom System beurteilt und entspre­chend ihrer Übereinstimmung mit der Suchanfrage oder den Nutzervorga­ben geordnet. Dieser Prozeß wird als Ranking bezeichnet.

- User-Relevance Judgement Phase

Zunächst wird das Suchergebnis auf dem Bildschirm präsentiert. Danach folgt eine Beurteilung des Gefundenen durch den Nutzer. Er prüft, inwie­weit ein gefundenes Dokument für ihn relevant ist.

- Query Reformulation Phase

Nachdem der Nutzer die gefundenen Dokumente als für ihn nicht rele­vant eingeschätzt hat, findet eine Neuformulierung der Anfrage statt. Der Verarbeitungsprozeß startet erneut.

Expansion in eine bestimmte Richtung besagt, daß ausgehend vom mo­mentanen Zustand ähnliche oder andere Deskriptoren für die nachfolgende Suche gewählt werden. Der Nutzer formuliert keine Anfrage explizit, son­dern die Deskriptoren werden bestimmt, in dem der Nutzer eine Auswahl trifft. Das kann in Form des Anklickens einer Kategorie oder Ebene in einer Hierarchie geschehen, beispielsweise Welt/Land/Region/Stadt.

1.3 Kriterien zur Bewertung des Suchergebnisses

1.3.1 Kriterien

Um das Suchergebnis einschätzen zu können, lassen sich verschiedene Kriterien betrachten:

- Anzahl der gefundenen Dokumente
- Qualität der gefundenen Informationen
- Antwortzeit des Systems
- Betriebsaufwand
- Nutzerfreundlichkeit

Diese Kriterien werden nachfolgend genauer erläutert.

1.3.2 Anzahl der gefundenen Dokumente

Zunächst betrachtet man die Menge der Dokumente, die gefunden werden. Es handelt sich um eine rein quantitative Maßangabe. Diese Maßangabe wird als Recall bezeichnet.

Der Recall gibt an, wieviele relevante Dokumente gefunden worden sind. Er berechnet sich aus dem Verhältnis der Anzahl der gefundenen, relevanten Dokumente zur Anzahl der möglichen, relevanten Dokumente [29].

Petr Kroha schreibt in [29], daß Recall im Allgemeinen nicht korrekt bere­chenbar ist. Wenn das System alle möglichen relevanten Dokumente ermitteln könnte, hätte es diese auch angezeigt.

1.3.3 Qualität der gefundenen Informationen

Die Qualität eines Dokuments wird danach bewertet, wie umfassend und genau es die Anfrage beantwortet. Ich betrachte dazu Relevanz, Präzision und Fallout.

Relevanz

Bezogen auf die Suche, beschreibt Petr Kroha Relevanz in [25, 29] folgenderma­ßen:
- Wieviele relevante Dokumente wurden gefunden?
- Wieviele irrelevante Dokumente wurden gefunden?
- Wieviele relevante Dokumente wurden nicht gefunden?
- Wieviele irrelevante Dokumente wurden nicht gefunden?

Die Frage ist, welche Dokumente überhaupt relevant sind. Relevant sind die Dokumente, die Informationen enthalten, mit denen die gestellte Frage beant­wortet werden kann. Dabei kann der Fall eintreten, daß ein relevantes Dokument gefunden wird, welches Informationen enthält, die dem Information Seeker zum Zeitpunkt der Suche bereits bekannt sind [29]. Dieser Fall kann nie ausgeschlos­sen werden.

Daß die Relevanz einer Information subjektiv ist, soll nachfolgend am Bei­spiel der Bibliothek verdeutlicht werden.

- Autor

Der Autor verfaßt ein Dokument mit einer bestimmten Intension. Er möchte dem Leser eine Menge von Informationen auf eine bestimmte Art und Weise vermitteln. Dabei hat er eine spezifische Leserschaft im Blick, für die er das Dokument verfaßt. Die Art und Weise, in der das Dokument geschrieben wird, richtet sich nach der Zielgruppe. Je nach Qualifikati­on der tatsächlichen Leser ist das Dokument mehr oder weniger für sie geeignet.

- Publizist

Der Publizist möchte ein Dokument in Form eines Buches verkaufen und damit Geld verdienen. Um diese Möglichkeit zu vergrößern, wird er Än­derungen am Titel, am Layout und am Inhalt vorschlagen. Je größer die Menge der Interessenten für das Buch ist, umso wahrscheinlicher ist es, daß sich das Buch verkauft.

- Bibliothekar

Der Bibliothekar möchte ein Dokument (Buch) in eine bestehende Ord­nung integrieren. Aus diesem Grund wird er das Buch nach einem be­stimmten Schema klassihzieren. Die Klassihkation richtet sich nach spezi- hschen Schlüssel Worten, die zum Teil vom Verlag oder vom Autor vorge­geben werden.

- Leser

Der Leser hat ein bestimmtes Problem und sucht für dieses Problem eine Lösung. Es ist für ihn nicht wichtig, woher er die Informationen zur Lösung seines Problems bekommt, sondern daß er sie überhaupt bekommt. Die Schwierigkeit liegt für ihn darin, zu entscheiden, in welchem angebotenen Dokument er diese Informationen findet.

Jeder Betrachter hat eine andere Sichtweise bzw. Intension, dieses Dokument (Sammlung von Informationen) zu erstellen, zu bearbeiten, zu katalogisieren und zu verwerten. In diesem Prozeß ist nicht garantiert, daß die Intension des Autors erhalten bleibt und dem Leser zu Gute kommt.

Präzision

Die Präzision ergibt sich aus dem Verhältnis der Anzahl gefundener, relevanter Dokumente zur Anzahl der insgesamt gefundenen Dokumente. 85 Prozent Prä­zision bedeutet, daß der Nutzer zu 15 Prozent irrelevante Dokumente angezeigt bekommt. Die Informationen aus diesen Dokumenten nützen ihm nichts [29].

Fallout

Als Fallout wird das Verhältnis der Anzahl gefundener, nicht relevanter Doku­mente zur Anzahl der insgesamt gefundenen Dokumente bezeichnet. 15 Prozent Fallout besagt, daß sich im Suchergebnis zu 15 Prozent irrelevante Dokumente befinden. Diese sind für den Nutzer wertlos.

1.3.4 Antwortzeit des Systems

Die Antwortzeit ist ein Maß dafür, innerhalb welcher Zeit ein Ergebnis der Anfrage zurückgeliefert wird. Je geringer die Zeitdauer ist, umso früher kann der Nutzer das Ergebnis auf für ihn relevante Information prüfen und ggf. die Anfrage modifizieren.

Die Antwortzeit hängt nicht nur von den zu durchsuchenden Daten ab, son­dern auch von den verwendeten Suchalgorithmen und Auswertungsverfahren. Die Übertragungsleistung der beteiligten Systeme und Komponenten ist mit zu berücksichtigen (Netzwerkanbindung).

1.3.5 Betriebsaufwand

Hier wird betrachtet, wie hoch der personelle, technologische, finanzielle und zeitliche Aufwand zur Implementation und zur Wartung des Suchsystems ist. Je geringer dieser Aufwand, umso einfacher können Fehler beseitigt und flexible Anpassungen vorgenommen werden.

1.3.6 Nutzerfreundlichkeit

Die Nutzerfreundlichkeit hängt nicht nur von der Menge der bereitgestellten Funktionen ab, sondern auch von der Bedienbarkeit des Systems und von der Gestaltung der Nutzerschnittstelle sowie der Toleranz des Systems gegenüber Fehleingaben.

1.3.7 Gewichtung der Einzelkriterien

Um den unterschiedlichen Standpunkten gerecht werden zu können, erscheint es mir sinnvoll, die Einzelkriterien jeweils getrennt für Nutzer und Betreiber zu betrachten.

Der Nutzer möchte ein System verwenden können, welches ihm in möglichst kurzer Zeit ein qualitativ hochwertiges Ergebnis anzeigt. In wenigen gefunde­nen Dokumenten möchte er die Informationen finden, die er sucht. Je mehr Dokumente er zu prüfen hat, umso ungeduldiger wird er. Der Nutzer verwendet nur dann ein Programm bzw. Werkzeug, wenn er dieses auch bedienen kann

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1.1: Gewichtung der Bewertungskriterien

und welches somit aus seiner Sicht für ihn nutzerfreundlich ist. Mit welchem Betriebsaufwand diese Wünsche erfüllbar sind, interessiert den Nutzer nicht.

Die Sichtweise des Betreibers unterscheidet sich zum Teil erheblich von der des Nutzers. Der Betreiber stellt das System zur Verfügung und ermöglicht eine Schnittstelle zwischen Nutzer und System. Die Antwortzeit des Systems liegt innerhalb festgelegter Grenzen, hängt jedoch davon ab, wie komplex das System ist, welche technischen Komponenten eingesetzt werden und wie stark das System von den Nutzern in Anspruch genommen wird. Das Kosten-Nutzen­Verhältnis steht zusammen mit der angestrebten Antwortqualität an erster Stel­le. Je höher die Antwortqualität ist, umso besser ist die Qualität des angebo­tenen Dienstes und die Zufriedenheit der Nutzer. Die erreichbare Qualität wird durch den zur Verfügung stehenden Kostenrahmen bestimmt.

Kapitel 2 Erweiterte Suche

2.1 Begriff, Sinn und Zweck, Notwendigkeit

Die Aufgabe eines 1RS besteht darin, eine Menge von Anfragen auf eine Menge von Dokumenten durch eine „retrieval function“ abzubilden [26]. Mit Hilfe dieser „retrieval function“ werden alle Dokumente, die mindestens eine Teilantwort auf die Anfrage liefern [27], gefunden. Was genau eine Teilantwort ist, bestimmt die Relevanz der gefundenen Information.

Die einfachste Form einer „retrieval function“ ist die Volltextsuche. Hier­bei wird in einem Dokument ein Muster durch buchstabenweises Vergleichen gesucht. Die Suche findet lediglich im Dokument selbst statt, es werden keine weiteren Datenstrukturen in die Suche einbezogen (Index, Hash etc.). Dieses Verfahren ist sehr aufwendig und bisher ist keine effektive Implementierung be­kannt [26]. Alle Verfahren, die über das einfache Vergleichen und Aufsuchen von Worten in einem Text hinausgehen, gehören zur Erweiterten Suche.

Es ist von Vorteil, wenn eine Vorverarbeitung („Preprocessing Phase“) der Dokumente stattfindet, bspw. vor dem Hinzufügen des Dokuments zur Daten­basis. Die Anwendung von Verfahren aus den folgenden Abschnitten in der Pre­processing Phase ermöglicht es, daß zum Anfragezeitpunkt nicht das gesamte Dokument durchsucht werden muß, sondern bereits vorher abgelegte Informa­tionen verwendet werden können. Die Möglichkeit der Volltextsuche besteht weiterhin und auf diese kann im Bedarfsfall zurückgegriffen werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Klassifikation der Verfahren für Erweiterte Suche

Der Einsatz einer Erweiterten Suche ermöglicht mindestens eine teilweise Kompensation von Sachverhalten, die sich aus der Verwendung der natürlichen Sprache ergeben. Darunter fällt insbesondere die vom Kontext abhängige Bedeu­tung eines einzelnen Wortes sowie der Interpretationsmöglichkeit ganzer Wort­gruppen. Eine Aussage kann durch unterschiedliche Wortwahl inhaltlich gleich ausgedrückt werden. Daher werden bei einer Volltextsuche nur die Dokumente gefunden, in denen das exakte Muster vorkommt. Andere Dokumente werden als nicht relevant eingestuft, da an betreffender Stelle eine andere Formulierung gewählt wurde.

2.2 Statistische Verfahren

2.2.1 Term Frequency (TF)

Ein betrachtetes Dokument wird linear verarbeitet. In einer Liste wird gespei­chert, wie häufig jedes einzelne Wort im Dokument vorkommt. Man nimmt an, daß, je häufiger ein Wort im Text enthaften ist, dieses Wort umso relevanter (im Sinne von bedeutungstragend) für den Inhalt des Textes ist. Diese Termgewich­te („term weights“) werden in einem Vektor zusammengefaßt. Jede Position im Vektor repräsentiert einen Term. Der Wert an dieser Position enthält das spe­zifische Termgewicht eines Wortes für diesen Text oder dieses Dokument [20]. Die TF für den obigen, kurzen Abschnitt ist in Tabelle 2.1 dargestellt.

Es ist sinnvoll, Struktur- und Verbindungswörter mittels einer Stopliste aus­zufiltern. Die Wörter in der Stopliste haben keine Bedeutung für den Inhalt. Für jede Sprache wird eine spezifische Stopliste erstellt. Mit einem hinreichend großen Text läßt sich diese Stopliste statistisch ermitteln.

Nachdem mittels Stopliste die Worte herausgefiltert wurden, die nicht in­haltstragend sind, ergibt sich eine Restmenge, die in Tabelle 2.2 dargestellt ist. Diese Restmenge scheint durchaus geeignet zu sein, um einen Rückschluß auf den Textinhalt zu ziehen.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.1: Term Frequency

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2.2: Term Frequency nach Ausfilterung mittels Stopliste

Jussi Karlgren schreibt in [20], daß die am häufigsten vorkommenden Worte selten signifikante Bedeutung für das Thema haben. Er schlägt eine automati­sche Ausfilterung aus der Wortliste vor. Demgegenüber steht die Tatsache, daß die am seltensten enthaltenen Worte auch nicht inhaltstragend sein müssen. Vielmehr erschließt sich dem Leser der Sinn eines ganzen Textabschnitts durch das Nacheinanderverarbeiten mehrerer Sätze. Die Häufigkeit, mit der ein ein­zelnes Wort in einem Textabschnitt vorkommt, ist nicht signifikant bedeutsam für den Inhalt des Abschnitts.

2.2.2 Collection Frequency (CF) , Inverse Document Fre­quency (IDF)

Jussi Karlgren stellt in [20] die Frage, wie spezifisch ein Wort in Bezug zu einem Dokument ist. Dazu beschreibt er die Methode der CF oder IDF, im folgenden als IDF bezeichnet.

Die IDF für einen Term t(i) berechnet sich nach

Abbildung in dieser Leseprobe nicht enthalten

wobei N die Gesamtanzahl der Dokumente bezeichnet und n die Anzahl der Dokumente, in denen das Wort t(i) enthalten ist [57]. Jeder Logarithmus zu einer geeigneten Basis kann verwendet werden. Dieser sichert, daß der errechnete Wert im Bereich -32K und +32K liegt und mittels Integers dargestellt werden kann [57].

Obiger Quotient ergibt einen hohen Wert für Worte, die lediglich in einigen Dokumenten auftauchen [20, 46, 57]. An zwei Beispielen soll das verdeutlicht werden. Nehmen wir an, daß das Wort das in 999 von 1000 Dokumenten enthal­ten ist und das Wort Qualifikation in nur 2 von 1000 Dokumenten. Die IDF für das ist Zn(1000/999) = 0.001, gegenüber Zn(1000/2) = 6.21 für Qualifikation. Für ein selteneres Wort wird ein höherer IDF-Wert ermittelt als für ein häufiger auftretendes Wort.

Die Genauigkeit des berechneten IDF-Wertes steigt und fällt mit den beiden Größen N und n. Die Frage ist, welche Dokumente für die Berechnung des Quotienten in Betracht kommen. Werden alle Dokumente der zugrundeliegenden Datenbasis mit einbezogen - also auch diese, die nicht zum Thema passen - wird die Aussage der IDF ungenauer. Eine Beschränkung auf relevante Dokumente setzt voraus, daß bekannt ist, welche Dokumente relevant sind.

IDF hat seine Berechtigung für die Erstellung des Index. Das IDF-Gewicht ist höher für seltene Terme, als für weiter verbreitete („more common terms“) [46]. Relativ rare und seltene Terme werden weniger häufig in einen Index auf­genommen, da zu selten nach ihnen gesucht wird.

2.3 Methoden aus der Sprachwissenschaft

2.3.1 Conflation

Morphologische Conflation

Morphologische Conflation bezeichnet die Analyse von Wortformen bezüglich ihrer Schreibweise (morphologische Analyse[3] ). Alle Varianten eines Lexems[4] werden als solche identifiziert und auf die entsprechende Grundform zurückge­führt [21].

Dabei werden Präfixe und Suffixe sowie Pluralendungen und grammatikali­sche Anpassungen entfernt, beispielsweise auf Basis einer Liste aller Varianten. Weitaus verbreiteter ist die Lösung dieses Problems mittels Stemming- oder Suffix Stripping Algorithmen, die in Abschnitt 2.3.2 vorgestellt werden.

Synonyme oder semantische Conflation

Semantische Conflation bezeichnet die Analyse von Wortformen bezüglich ih­rer Bedeutung und ihres Inhalts. Es werden Lexeme gesucht, die miteinander sinnverwandt sind.

Üblich ist die Verwendung einer Wortliste auf Grundlage lexikalischen Wis­sens - eines Thesaurus [21]. Zu einem Lexem werden alle möglichen Alterna­tiven aufgeführt sowie der Kontext, indem die Alternative verwendet werden kann (siehe Tabelle 2.3).

Synonyme lassen sich auch in Form von Klassifikationen oder Ebenen fin­den. Die Worte werden entsprechend ihrer Bedeutung in einer Baumstruktur angeordnet („Concept Tree“). In der Wurzel steht das zu expandierende Lexem. Die Baumknoten repräsentieren potentielle Konzepte oder Begriffe, die in Bezug zum Lexem in der Wurzel stehen („Concept Classes“, [33]) (siehe Bild 2.2).

Unabhängig vom verwendeten Verfahren wird für einen Suchterm eine Ex­pansion in alle relevanten Richtungen vorgenommen. Je nach Verfahren werden

[...]


[1] Recht umfangreiche Zusatzoptionen bietet die Suchmaschine Google, die unter [15] abruf­

bar sind.

[2] Gegenüber dem Original wurde von mir eine Erweiterung dahingehend vorgenommen, daß in Phase 7 sowohl eine neue Anfrage formuliert werden kann, als auch eine Expansion der Suche in eine bestimmte Richtung (Verfeinerung) möglich ist. Diese Expansion ist Bestandteil des Bayesschen Lernmodells (siehe Abschnitt 2.7.3) und wird auch bei Clustering-Verfahren verwendet.

[1] Morphologie ist ein Teilgebiet der Sprachwissenschaft, welches die Art und Weise, in der Worte in der Sprache geformt werden, beurteilt und beschreibt. Das beinhaltet die Infiektion, Ableitung und Verbundbildung. Infiektion beschreibt die Veränderung bezüglich der Form eines Wortes, bspw. Fälle, Geschlecht, Aufzählung, Zeitformen, Singular und Plural, Stimmung oder Ausdruck [17].

[2] lexikalische Einheit, sprachliche Bedeutungseinheit, Wortschatzeinheit im Wörterbuch [10]

Details

Seiten
97
Jahr
2002
ISBN (eBook)
9783638297974
ISBN (Buch)
9783638714693
Dateigröße
979 KB
Sprache
Deutsch
Katalognummer
v27867
Institution / Hochschule
Technische Universität Chemnitz – Fakultät für Informatik, Professur Rechnernetze und verteilte Systeme
Note
sehr gut
Schlagworte
Untersuchungen Verbesserung Resultatqualität Suchverfahren Web-Archive

Autor

Teilen

Zurück

Titel: Untersuchungen zur Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive