Lade Inhalt...

Entwicklung einer Metasuchmaschine für internationale Suchdienste

von Peer Radlow (Autor)

Diplomarbeit 1999 71 Seiten

Informatik - Internet, neue Technologien

Leseprobe

Inhalt

1 Einleitung
1.1 Zweck von Metasuchmaschinen
1.2 Mittelpunkt dieser Arbeit
1.3 Überblick über diese Arbeit

2 Datenbanken und Metasuchmaschinen
2.1 Webdatenbanken
2.1.1 Funktionsweise
2.1.2 Vorgaben für die Suche
2.1.3 Anwendung auf WWW-Adressen
2.2 Metasuchmaschinen
2.2.1 Funktionsweise
2.2.2 Besondere Anforderungen
2.2.3 Client- und Serverapplikationen
2.2.4 Kriterien für Metasuchmaschinen
2.2.5 Anwendung auf WWW-Adressen
2.2.5.1 Unterstützte Datenbanktypen
2.2.5.2 Vergleich der Ausgabe mit der von Suchdiensten
2.2.5.3 Kommunikation mit den Suchdiensten

3 Objektorientierte Entwicklung
3.1 Planung
3.1.1 Webserver
3.1.2 Programmiersprache
3.1.3 Suchdienste
3.1.3.1 Crawler
3.1.3.2 Verzeichnisse
3.1.3.3 Andere Datenbanken
3.2 Analyse
3.3 Entwurf
3.4 Implementation

4 Weiterentwicklung einer bestehenden Metasuchmaschine
4.1 Aufbau der übernommenen Metasuchmaschine
4.2 Anpassung an internationale Suchdienste
4.3 Änderung der Programmarchitektur
4.3.1 Integration externer Programmteile
4.3.1.1 Phrasenerkennung
4.3.1.2 Doublettenerkennung
4.3.1.3 Existenzprüfung
4.3.1.4 Ausgabe
4.3.2 Parametrisierung der Suchdiensteigenschaften
4.4 Berechnung der Relevanz
4.5 Sicherheit

5 Performance
5.1 Performancemessungen
5.1.1 Benchmark
5.1.2 Profiling
5.2 Performanceverbesserungen
5.2.1 mod_perl
5.2.2 Compiler

6 Bedienung
6.1 Benutzung als Suchhilfe
6.2 Installation
6.3 Parametereinstellungen
6.4 Administration
6.4.1 Anpassen des Ausgabeformats
6.4.2 Ändern der Datenbankeigenschaften
6.4.3 Hinzufügen und Entfernen von Datenbanken
6.4.3.1 Ermitteln der Datenbankeigenschaften
6.4.3.2 Erstellen der Datenbankmodule
6.4.3.3 Test
6.4.4 Ändern der QuickTips

7 Ergebnisse
7.1 Vergleich mit bestehenden Metasuchmaschinen
7.1.1 Kriterien
7.1.2 Resultate
7.2 Weitere Verbessserungen

8 Zusammenfassung und Ausblick

Literaturverzeichnis

Anhang
A Daten der Suchdienste
A.1 Altavista
A.2 Dejanews
A.3 eBlast
A.4 Euroferret
A.5 Euroseek
A.6 Excite
A.7 Hotbot
A.8 Lycos
A.9 Magellan
A.10 Northern Light
A.11 Open Directory Project
A.12 Snap
A.13 Yahoo

1 Einleitung

1.1 Zweck von Metasuchmaschinen

Suchdienste gehören zu den beliebtesten Applikationen im World Wide Web. Es gibt zahlreiche davon, und ihre Zahl steigt beständig. Der Grund für die Beliebtheit liegt darin, daß im Internet sehr viele Informationen zur Verfügung gestellt werden, die aber in keiner Weise organisiert sind. Damit sind die vielen im Internet abrufbaren Daten für den Benutzer nur schwer zu überblicken. Um die richtigen Informationen finden zu können, bieten Suchdienste gute Hilfestellungen an. Der Großteil der Zeit bei der Suche wird dabei allerdings mit Durcharbeiten von irrelevanten Informationen verbraucht. Effektivere Suchmöglichkeiten sind unbedingt notwendig, um die Zeit einer Recherche zu verkürzen.

Metasuchmaschinen, welche die Suchergebnisse verschiedener individueller Suchdienste zusammenfassen, eignen sich aus verschiedenen Gründen besser für eine Suche als gewöhnliche Suchdienste. Sie liefern mehr und auch aktuellere Resultate (siehe 2.2.5.2). Insbesondere für eine Suche nach ganz speziellen Seiten und bei einer gründlichen Recherche eines bestimmten Themenbereichs sind Metasuchmaschinen also zu empfehlen.

Außerdem ist die Bedienung einer Metasuchmaschine für den Benutzer einfacher und komfortabler als die eines Suchdienstes. Er müßte sonst viele davon nacheinander verwenden, um die gleichen Resultate zu erhalten. Dazu wäre Wissen über jeden einzelnen dieser Dienste nötig. Der Benutzer müßte zunächst wissen, wo sich überhaupt die Suchdienste befinden, dann, welche Informationen in ihren Datenbanken zu finden sind und schließlich zu welcher Zeit sie mit zumindest akzeptabler Geschwindigkeit funktionieren. Weiterhin ist zu beachten, daß alle Suchdienste unterschiedliche Benutzeroberflächen aufweisen. Der Benutzer müßte sich daher zusätzlich mit deren Bedienung vertraut machen. Bei der Benutzung einer einzigen, übergreifenden Metasuchmaschine ist nur noch Wissen über diese nötig. Dadurch daß mehrere Suchdienste von ihr kontaktiert werden, ist außerdem gewährleistet, daß auch bei kurzen Suchzeiten fast immer Ergebnisse geliefert werden.

Metasuchmaschinen lassen sich aber auch noch für andere Zwecke einsetzen. Andere Computerprogramme können Metasuchmaschinen verwenden, um beispielsweise mit ihrer Hilfe automatisch neue Webseiten-Verzeichnisse aufzubauen [14] oder um die Größe der Suchdienste zu vergleichen [15].

1.2 Mittelpunkt dieser Arbeit

Die erste Metasuchmaschine mit Namen MetaCrawler wurde 1995 in Betrieb genommen [3]. Etwas später folgte MetaGer, eine Metasuchmaschine für deutsche Suchdienste [2]. Diese erfüllt inzwischen – im Gegensatz zu MetaCrawler und allen anderen solchen Maschinen – alle Kriterien einer Metasuchmaschine vollständig (siehe 2.2.4). Damit ein vergleichbarer Standard auch für den internationalen Bereich angeboten werden kann, wurde aufbauend auf dem MetaGer-Programmcode die Metasuchmaschine MetaWorld erstellt. Ihre Entwicklung wird in dieser Diplomarbeit beschrieben. Bei der Implementation sollte neben der Erfüllung der Mindestkriterien auch der Performanceaspekt nicht außer acht gelassen werden. Die Metasuchmaschine sollte für eine große Zahl an Zugriffen skalierbar sein.

1.3 Überblick

Kapitel 2 legt die allgemeinen Grundlagen von über das WWW zugänglichen Datenbanken und darauf basierenden Metasuchmaschinen dar. Dabei wird insbesondere auf die Suche nach WWW-Seiten eingegangen. Die folgenden beiden Kapitel behandeln jeweils Verfahren der Entwicklung einer Metasuchmaschine. Beim ersten dieser Verfahren handelt es sich um eine Neuentwicklung mit Hilfe objektorientierter Methoden, beim zweiten um die Weiterentwicklung einer bestehenden Metasuchmaschine. In Kapitel 5 wird auf die Möglichkeiten zur Messung und Verbesserung der Performance eingegangen. Das darauf folgende Kapitel enthält Bedienungsanleitungen für Benutzer und Administratoren der Metasuchmaschine, überdies werden Installations- und Konfigurationshinweise gegeben. In Kapitel 7 folgt ein Vergleich der in dieser Diplomarbeit beschriebenen Metasuchmaschine mit anderen im Internet verfügbaren Metasuchern und es werden mögliche Verbesserungen erläutert. Kapitel 8 faßt die Resultate dieser Diplomarbeit zusammen und gibt einen Ausblick auf die Weiterentwicklung von Metasuchmaschinen in der Zukunft.

2 Datenbanken und Metasuchmaschinen

In diesem Kapitel werden zuerst die allgemeine Funktionsweise und die Eigenschaften von über das WWW zugänglichen Datenbanken erklärt. Dann werden die grundsätzlichen Prinzipien der Metasuchmaschinen beschrieben, welche diese Datenbanken verwenden, um Informationen zu sammeln. In beiden Abschnitten wird auf die Verwendung zur Suche nach WWW-Adressen eingegangen.

2.1 Webdatenbanken

Im Internet steht dem Nutzer eine Vielzahl von Datenbanken mit ganz unterschiedlichen Inhalten zum Zugriff bereit: So kann man online nach Nachrichten, Usenet-Artikeln, Kleinanzeigen und Stellenangeboten suchen. Es stehen aber auch Sammlungen von Emailadressen und WWW-Seiten zur Verfügung.

2.1.1 Funktionsweise

Trotz der verschiedenen Inhalte erfolgt der Zugriff des Benutzers auf eine Datenbank immer nach derselben Struktur (siehe Abb. 2.3 A). Ein HTML-Formular wird vom Benutzer mit Hilfe seines Browsers geladen und ausgefüllt. Der Browser sendet daraufhin eine kodierte Abfrage an den Webserver, der seinerseits die Anfrage an die Datenbank weiterleitet. Die Datenbank sucht dann die benötigten Informationen und liefert sie an den Server zurück. Dieser wandelt sie in eine HTML-Ausgabeseite um und schickt sie zum Browser.

Abb. 2.1 zeigt ein Beispiel eines Suchformulars. Hier können Vorgaben für die Suche eingetragen werden. Diese Vorgaben werden im nächsten Abschnitt erläutert. Oft ist es auch möglich, das Ausgabeformat vorzugeben. Ein Beispiel für eine Ausgabeseite ist in Abb. 2.2 zu sehen, die eine Reihe von ausgegebenen Datensätzen zeigt. Unter Datensätzen versteht man eine Ansammlung von Daten, die in einer elementaren Beziehung zueinander stehen. Ein Datensatz besteht meist aus mehreren Datenfeldern. Bei Usenet-Artikeln ist etwa der Autor ein Feld, die Newsgroup ein weiteres etc. Die Datensätze in den Webdatenbanken besitzen immer die gleiche Struktur.

Die Ausgabeseiten verschiedener Datenbanken haben zwar ein relativ unterschiedliches Aussehen, gemeinsan ist ihnen jedoch, daß immer immer die gefundenen und sortierten Datensätze mit ihren Feldern in Textform angezeigt werden. Gelegentlich wird zu den

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.1 Eingabeformular des Suchdienstes Hotbot

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.2: Typische Ausgabeseite des Suchdienstes Hotbot

Datensätzen auch die Relevanz hinzugefügt. Dies ist ein Maß für die Wahrscheinlichkeit, daß der angezeigte Datensatz mit der zuvor abgeschickten Anfrage gesucht wurde. Außerdem wird dem Benutzer auf einer Ausgabeseite die Möglichkeit gegeben, zur nächsten Ausgabeseite zu gelangen, auf der weitere Datensätze dargestellt werden, sowie zur vorigen Ausgabeseite zurückzukehren.

2.1.2 Vorgaben für die Suche

Im folgenden soll der Zugriff auf eine Webdatenbank genauer analysiert werden. Für das Suchergebnis ist zunächst relevant, wo, das heißt in welcher Datenbank, gesucht werden soll. Üblicherweise kann von einem Formular nur eine Datenbank abgefragt werden. Es gibt aber auch Formulare, die auf mehrere Datenbanken zugreifen. So kann man beispielsweise mit einigen Suchdiensten sowohl das Usenet als auch das WWW durchsuchen. In solchen Fällen erlaubt das Formular dem Benutzer häufig, die zu durchsuchende Datenbank selbst festzulegen.

Als zweites ist vom ihm zu bestimmen, welche der enthaltenen Datensätze von der Datenbank zurückgeliefert werden sollen. Die Auswahl kann dabei nach folgenden Kriterien vorgenommen werden:

- Im Formular können Stichwörter eingegeben werden, wenn die Felder in den Datensätzen, wie es fast immer der Fall ist, Text enthalten. Die Textfelder werden dann auf das Vorhandensein dieser Wörter untersucht. Allerdings ist zu beachten, daß ein Teil der Datenbanken Stopwörter verwendet. Dies sind Wörter, die nicht in den Index aufgenommen werden, weil sie in den Webseiten zu häufig vorkommen wie beispielsweise „is“ oder „the“. Sie werden bei der Suche ignoriert.
- Bei der Verknüpfung dieser Suchwörter folgt jede Datenbank einer jeweils eigenen Abfragesyntax. Oft kann der Benutzer die Suchwörter durch Boolesche Operatoren verbinden. Die aus der Mengenlehre bekannten Operatoren sind AND, OR und NOT. Durch Klammerung können daraus komplexe Ausdrücke entstehen. Zudem gibt es Operatoren, die festlegen, ob die angegebenen Stichwörter nahe beieinander oder in einer bestimmten Reihenfolge stehen sollen. Sie werden allerdings nur von wenigen Datenbanken unterstützt. Wesentlich häufiger tritt eine spezielle Kombination dieser Operatoren auf, die sogenannte Phrasensuche, bei der mehrere Worte in Anführungszeichen eingeschlossen werden. Diese müssen dann im Textfeld des gesuchten Datensatzes, der angegebenen Reihenfolge entsprechend, nebeneinander, also als Phrase, auftauchen. Einige Suchdienste ermöglichen keine Klammerung bei Booleschen Ausdrücken, einige erlauben sogar überhaupt keine Booleschen Ausdrücke. Bei diesen kann man aber meist entscheiden, ob die Stichwörter alle durch eine logische AND oder eine OR Verknüpfung verbunden werden sollen, das heißt, ob alle der Suchwörter im Dokument enthalten sein müssen oder eines genügt. Bei anderen Suchdiensten wiederum kann man diejenigen Worte kennzeichnen, die unbedingt enthalten sein müssen oder gar nicht enthalten sein dürfen.
- Einige Suchdienste erlauben dem Benutzer überdies, für manche Worte nur den Wortanfang festzulegen. In diesem Fall werden von dem Suchdienst alle Datensätze geliefert, die Wörter mit dem angegebenen Wortanfang enthalten. Es gibt auch Datenbanken, die dies automatisch machen und immer zusätzlich die Datensätze angeben, die den gleichen Wortstamm enthalten. Dieses Verfahren wird stemming genannt.
- Ferner besteht oftmals die Möglichkeit, die Textsuche auf bestimmte Felder einzuschränken. Bei der Suche nach Usenet-Artikeln kann die Textsuche zum Beispiel auf das Autorfeld der jeweiligen Datensätze eingeschränkt werden. Manche Datenbanken weisen zusätzlich Felder auf, die keinen Text enthalten und bei denen die Suche auf andere Weise eingeschränkt wird. Bei einer Datenbank mit WWW-Seiten ist dies zum Beispiel das Datumsfeld . Hierbei kann die Suche auf einen bestimmten zeitlichen Bereich eingegrenzt werden.

Die erwähnten Suchmöglichkeiten zielen grundsätzlich erst einmal darauf, die Lösungsmenge der Suche zu verkleinern. Die Eingaben können aber auch zusätzlich zur Sortierung der Ergebnisse verwendet werden, indem die Relevanz der Datensätze errechnet wird. Dem Benutzer stehen auf den Suchformularen häufig auch Eingabeoptionen zur Verfügung, welche die grundlegende Art der Sortierung festlegen, etwa die Sortierung nach Relevanz. Ein anderes Sortierkriterium ist beispielsweise die Aktualität des Datensatzes. Bei einigen wenigen Datenbanken können sogar einzelne Sortierkriterien gewichtet werden.

2.1.3 Webdatenbanken für WWW-Seiten

Die beliebtesten über das WWW zugänglichen Datenbanken sind wohl diejenigen, die Adressen von Webseiten speichern. Sie werden auch ganz allgemein als Suchdienste bezeichnet. Von ihnen gibt es verschiedene Grundtypen, nämlich Verzeichnisse und Crawler. Der Begriff Suchmaschine bezeichnet zwar manchmal alle Suchdienste, oft wird er jedoch als Synonym für Crawler verwendet. Wegen seiner ungenauen Definition wird er hier nicht weiter verwendet.

Sogenannte Verzeichnisse oder Kataloge speichern Webadressen mit Beschreibungen. Sie werden in hierarchisch geordneten Unterverzeichnissen sortiert. Die Beschreibungen werden dabei von Menschen verfaßt. Änderungen der Webseiten haben also keine Auswirkung auf den Eintrag. Wenn in diesen Verzeichnissen nach bestimmten Wörtern gesucht wird, werden die Datensätze geliefert, bei denen das Wort in der Beschreibung, im Titel oder in der Webadresse vorkommt.

Des weiteren gibt es Datenbanken mit Webadressen, die nicht von Menschen, sondern automatisch zusammengestellt werden. Dabei sammelt ein Programm, das auch Spider oder Crawler genannt wird, alle Webseiten, die es finden kann. Neue Webseiten findet es, indem die Links, die in einer Webseite enthalten sind, verfolgt werden. Die Webseiten werden dann platzsparend indiziert. Das heißt, die Webseite wird nicht vollständig gespeichert, sondern es wird ein Index aus Worten aufgebaut. Darin wird gespeichert, welche Worte in welcher Webseite zu finden sind. Zu jeder Seite wird außerdem ein Teil des enthaltenen Textes gespeichert. Dies sind meist etwa zwei Zeilen aus dem oberen Bereich der Seite. Manchmal sind es jedoch auch Meta-HTML-Ausdrücke. Das sind Zeilen, die eine Beschreibung der Seite enthalten, aber von einem Browser nicht angezeigt werden. Wenn jetzt die Datenbank nach Wörtern durchsucht wird, werden nicht nur Seiten, in deren Textausschnitten die Wörter vorhanden sind, zurückgeliefert, sondern auch, wenn sie im restlichen Text der ganzen Webseite zu finden sind. Zur Unterscheidung wird im folgenden wie oft auch in der Literatur dieser gesamte Suchdienst Crawler genannt, nicht nur das Programm, welches die Webseiten sammelt. Auch Mischformen zwischen Crawlern und Verzeichnissen sind im Internet anzutreffen, die gleichzeitig manuell erstellte Verzeichnisse und automatisch generierte Indizes durchsuchen.

2.2 Metasuchmaschinen

2.2.1 Funktionsweise

Metasuchmaschinen, auch Metasuchdienst genannt, fassen die Ergebnisse mehrerer Suchen bei über das WWW zugänglichen Datenbanken zusammen und geben das Ergebnis ebenfalls über das WWW wieder. Die verwendeten Datenbanken können dabei beliebige Inhalte haben. Eine Voraussetzung für Datenbanken, die eine Metasuchmaschine unterstützen sollen, ist allerdings, daß die Strukturen ihrer Datensätze in etwa die gleiche Form haben, da die Datensätze der verschiedenen Datenbanken ja alle in einem einheitlichen Format ausgegeben werden sollen.

Metasuchmaschinen gehen grundsätzlich folgendermaßen vor (siehe Abb. 2.3 B): Genau wie bei gewöhnlichen Suchdiensten nimmt die Metasuchmaschine zunächst die Anfrage vom Browser entgegen. Aus den solchermaßen empfangenen Informationen werden die verschiedenen Anfragen für die Datenbanken kodiert und dann gleichzeitig zu ihnen geschickt. Jede Datenbank sendet jeweils eine Antwortseite zurück. Alle Antworten werden parallel wieder in Empfang genommen. Die einzelnen Felder der Datensätze werden herausgefiltert und in einer eigenen Datenstruktur gespeichert. Dabei werden die Datensätze bearbeitet und sortiert. Zum Schluß werden sie in HTML-Form ausgegeben und an den Browser gesendet.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2.3: Vergleich des Ablaufes von Abfragen an einer Datenbank (A) und an einer Metasuchmaschine (B)

2.2.2 Besondere Anforderungen

Im Vergleich zu normalen Suchdiensten ergeben sich spezielle Anforderungen an Metasuchmaschinen. Diese finden sich insbesondere in den Bereichen der Suchmöglichkeiten, der Doublettenerkennung, der Relevanzfindung, des Ausgleichs von Unzulänglichkeiten der Suchdienste und der Ausgabe.

Die Suchmöglichkeiten der Metasuchmaschinen unterscheiden sich von den Suchmöglichkeiten der Web-Datenbanken in drei Punkten. Erstens können meist nur Optionen unterstützt werden, die auch von allen darunterliegenden Datenbanken angeboten werden. Sobald eine Datenbank eine bestimmte Art der Suche nicht versteht, würden unter Umständen auch Datensätze zurückgeliefert werden, die nicht mit der Anfrage übereinstimmen. Diese würden dann die Qualität des Suchergebnisses verschlechtern. Die einstellbare Anzahl der zurückgelieferten Datensätze ist bei jeder Datenbank verschieden. Dies wird bei einer Metasuchmaschine dadurch umgangen, daß die maximale Anzahl von Datensätzen pro Suchdienst vom Benutzer angegeben werden kann.

Eine zweite zusätzliche Suchoption bei Metasuchmaschinen besteht in der Festlegung, welche Suchdienste aktiviert werden sollen. Meist kann man diese direkt auswählen, manche Metasuchmaschinen haben jedoch einen eingebauten Algorithmus, der die geeignetsten Datenbanken aussucht. Das ist deshalb sinnvoll, weil manche Datenbanken sich auf spezielle Gebiete wie zum Beispiel Shareware beschränken. Die Metasuchmaschine ProFusion kontaktiert beispielsweise immer drei Suchdienste, die sie in Abhängigkeit von den Suchwörtern auswählt [13]. Die Auswahl geschieht mit Hilfe eines Wörterbuchs, daß zu jedem enthaltenen Wort die Suchmaschine mit den meisten Ergebnissen speichert. Die Metasuchmaschine SavvySearch dagegen bestimmt nach Analyse der Netz- und der Arbeitslast, wie viele Suchdienste kontaktiert werden [10, 11]. Die Auswahl der Suchdienste erfolgt ebenfalls auf Grund eines Wörterbuchs, aber auch durch die Performance des Suchdienstes. Diese wird an Hand der letzten fünf Antwortzeiten des Suchdienstes gemessen. Das Wörterbuch bei SavvySearch lernt die Assoziationen zwischen Wörtern und Suchdiensten, indem die Links des Suchdienstes bei diesem Wort gezählt werden, welche die Benutzer betätigen.

Drittens ist die Antwortzeit der Metasuchmaschine von den Antwortzeiten der Datenbanken abhängig. Ohne Begrenzung der Antwortzeit würde die Metasuchmaschine so viel Zeit verbrauchen wie die jeweils langsamste Datenbank. Die Datenbanken haben alle verschiedene Antwortzeiten, die sich je nach Tageszeit stark verändern, da sie von der Zahl der Zugriffe abhängen. Aus diesem Grund wird dem Benutzer die Einstellung einer maximalen Wartezeit ermöglicht. Nach Ablauf dieser Zeit werden die Verbindungen zu den Datenbanken abgebrochen.

Oft kommen gleiche Datensätze in mehreren Datenbanken vor. Diese sogenannten Doubletten müssen von der Metasuchmaschine erkannt werden. Bei der Doublettenerkennung werden die einzelnen Felder der Datensätze auf Übereinstimmung überprüft.

Wie bei den Suchdiensten müssen auch bei den Metasuchmaschinen die gefundenen Datensätze sortiert werden. Wenn nach der Relevanz sortiert wird, muß für diese für jeden Datensatz berechnet werden. Dieses kann durch folgende Methoden erfolgen, von denen auch mehrere zugleich verwendet werden können:

- Die Sortierung der Datenbanken kann übernommen werden. Die zurückgelieferten Ergebnisse der Datenbanken sind meist bereits nach einem eigenen Relevanzalgorithmus sortiert. Daher können die verschiedenen Ergebnisse der Datenbanken ohne zusätzliches Sortieren zusammengeführt werden. Datensätze, die weiter oben auf den Auflistungen der Suchdienste stehen oder sogar mehrfach vorkommen, werden dabei höher bewertet.
- Die mit den Datensätzen gelieferte Relevanz könnte in die Berechnung der Relevanz einfließen. Hierbei ergibt sich aber das Problem, daß die Relevanzzahlen von den verschiedenen Suchdiensten unterschiedlich berechnet und teilweise sogar überhaupt nicht angegeben werden.
- Da die Qualität der gelieferten Ergebnisse wesentlich mit der Qualität der gesamten Datenbank zusammenhängt, kann diese als zusätzliches Kriterium verwendet werden. Datensätze einer qualitativ hochwertigen Datenbank erhalten also eine hohe Relevanz.
- Die gelieferten Felder, die Texte enthalten, können auf die Suchwörter überprüft werden. Je häufiger die Suchworte gefunden werden, desto höher ist die Relevanz des Datensatzes. Wenn mehrere Felder Text enthalten, können diese auch verschieden stark gewichtet werden. Bei WWW-Seiten ist es beispielsweise wichtiger, daß die Suchworte im Titel enthalten sind als in der Beschreibung der Seite. Auch die Reihenfolge und der Abstand der Suchworte im Text kann untersucht werden, um daraus Rückschlüsse auf die Relevanz zu ziehen. Andere Felder in den Datensätzen, die keinen Text beinhalten, können natürlich ebenfalls zur Relevanzfindung verwendet werden. Beispielsweise kann bei der Suche nach WWW-Seiten die Aktualität der Seite als Kriterium verwendet werden, sofern das Datum zurückgeliefert wird, an dem die Seite zuletzt geändert wurde.

Außerdem müssen Unzulänglichkeiten der Suchdienste ausgeglichen werden. Erstens müssen eventuell in den Suchdiensten enthaltene Fehler korrigiert werden, wie zum Beispiel Ausgabefehler. Würden diese direkt übernommen, käme es auch in der Ausgabe der Metasuchmaschine zu Fehlern. Da die Suchoptionen der Datenbanken verschieden sind, müssen zudem Suchoptionen, die von der Metasuchmaschine, nicht aber von einer Datenbank unterstützt werden, emuliert werden. Dies ist zum Beispiel notwendig, wenn eine Metasuchmaschine Phrasensuche unterstützt, aber eine von ihr verwendete Datenbank diese Option nicht anbietet. Hierbei muß dann der zurückgelieferte Text auf die Phrase untersucht werden.

Schließlich wird bei der Ausgabe zusätzlich kenntlich gemacht, von welcher Datenbank der Datensatz stammt und ob es sich um eine Doublette handelt. Ansonsten sieht die Ausgabe in etwa aus wie bei einer gewöhnlichen Webdatenbank. Es wird einfach eine Liste von Datensätzen ausgegeben. Oft ist diese Liste bei einer Metasuchmaschine nur wesentlich länger als bei einem normalen Suchdienst, da ja viele Suchergebnisse zusammengefaßt werden.

2.2.3 Client- und Serverapplikationen

Es gibt zwei Formen von Metasuchmaschinen: Client- und Server-Applikationen. Client-Applikationen laufen auf dem Rechner des Benutzers und Server-Applikationen auf einem Webserver. Das Ziel der Server-Applikationen ist es, für den Benutzer in etwa die Bedienung und Ausgabe einer gewöhnlichen Webdatenbank zu simulieren. Bei der Benutzung von Client- oder Server-Applikationen gibt es aber keine großen Unterschiede. Ein Nachteil von Client-Applikationen ist die Notwendigkeit, die Software erst auf dem Client-Computer installieren zu müssen. Dieser Nachteil kann durch signierte Java-Applets umgangen werden. Als gewöhnliches Java-Applet kann die Metasuchmaschine aber nicht geschrieben werden, da hier aus Sicherheitsgründen nur der Ursprungsserver kontaktiert werden darf. Somit können keine Datenbanken außerhalb der Domain des Ursprungsservers abgefragt werden. Es gibt allerdings Metasuchmaschinen, die ein Applet als Oberfläche verwenden. Sie dienen aber nur zur Visualisierung der Daten, die sie vom Webserver erhalten [17]. Ein weiterer Nachteil ergibt sich dadurch, daß sich die Benutzung und die Ausgabeformate der Datenbanken regelmäßig ändern. Die Metasuchmaschine muß deswegen häufig geändert werden. Bei der Webserver-Applikation kann dies einfach auf dem Hostrechner des Servers geschehen, während die Client-Applikation sich regelmäßig auf den neuesten Stand bringen muß, indem sie die geänderten Daten von einem Server herunterlädt. Ein weiterer Unterschied besteht darin, daß die Datenbanken im Gegensatz zum Client bei der Webserver-Applikation vom Server aus kontaktiert werden. Hier steht meist eine wesentlich größere Bandbreite zur Verfügung als für den Client-Rechner, so daß die Suchergebnisse der Datenbanken schneller gesammelt werden können. Aus diesem Unterschied ergibt sich aber auch ein Vorteil für den Client-Rechner. Betreiber von Datenbanken lehnen es zum Teil ab, daß Metasuchmaschinen ihre Daten übernehmen, da diese häufig die Werbebanner nicht anzeigen. Sie sperren dann den Zugriff von der Domain der Metasuchmaschine aus. Anfragen von der Metasuchmaschine werden dann nicht mehr beantwortet. Bei Client-Applikationen ist dies unmöglich, da ja jede Applikation hier von einem verschiedenen Standpunkt aus operiert.

2.2.4 Kriterien für Metasuchmaschinen

Da sich viele Programme im Internet als Metasuchmaschinen ausgeben, obwohl sie nur einen Teil von deren Funktionalität bieten, sind Kriterien für Metasuchmaschinen aufgestellt worden [1]. Anhand dieser können die Metasuchmaschinen verglichen werden.

- Die Datenbanken sollten gleichzeitig abgefragt werden. Metasuchmaschinen, welche die Datenbanken nacheinander benutzen, erfüllen also nicht dieses Kriterium.
- Die Datensätze der verschiedenen Quellen sollen zusammengefaßt werden. Die Ergebnisse der einzelnen Datenbankabfragen sollen nicht einfach getrennt nach Quelle angegeben werden.
- Identische Datensätze sollen erkannt und entfernt werden.
- Die Besonderheiten der verwendeten Datenbanken sollen vor dem Benutzer versteckt werden. Zur Verwendung der Metasuchmaschine soll also kein Wissen über die Datenbanken notwendig sein.
- Eine vollständige Suche soll möglich sein. Darunter versteht man die Möglichkeit, alle auf die Suchanfrage passenden Datensätze, die in den verwendeten Datenbanken enthalten sind, finden zu können.
- Alle Informationen, die auf den Ausgabeseiten der Datenbanken vorkommen, sollen auch von der Metasuchmaschine ausgegeben werden.
- Bei Stichwortsuchen soll mindestens eine logische AND und eine OR Verknüpfung der Wörter möglich sein.

2.2.5 Metasuchmaschinen für WWW-Seiten

2.2.5.1 Unterstützte Datenbanktypen

Nach WWW-Seiten suchende Metasuchmaschinen, fragen Datenbanken ab, die WWW-Adressen speichern. Wie bereits in Abschnitt 2.2.1 ausgeführt, müssen die gelieferten Datensätze der Datenbanken, die von einer Metasuchmaschine unterstützt werden sollen, in etwa die gleichen Strukturen haben. Das ist bei Verzeichnissen und Crawlern der Fall. Beide Arten von Suchdiensten können also problemlos in einer Metasuchmaschine verwendet werden. Die Datensätze bestehen bei beiden Datenbanktypen aus der Webadresse, dem Titel der Seite und der Beschreibung bzw. einem Auszug aus der Seite. Die Webadresse wird in der Form einer Universal Resource Location (URL), eines weltweit eindeutigen Bezeichners für Seitenadressen, geliefert. Teilweise werden noch weitere Daten mitgeliefert: die Relevanz des Datensatzes, das letzte Änderungsdatum der Seite oder die Größe der Seite in Bytes.

2.2.5.2 Vergleich der Ausgabe mit der von Suchdiensten

Um herauszufinden, ob Metasuchmaschinen für WWW-Seiten überhaupt sinnvoll sind, müssen sie mit den normalen Suchdiensten verglichen werden. Allgemeine Vorteile bei der Verwendung von Metasuchmaschinen sind bereits in Abschnitt 1.1 aufgezählt worden. Im folgenden werden die ausgegebenen Datensätze in Bezug auf die Gesamtmenge, die Aktualität und die Qualität verglichen.

Metasuchmaschinen für die Suche nach WWW-Seiten sind insofern besonders vorteilhaft, als ein Suchdienst immer nur einen Teil des gesamten Internets abdeckt. Dieses wird durch zwei Untersuchungen ([4], [6]) gezeigt, die inzwischen von den Verfassern aktualisiert wurden ([5], [7]). Die Untersuchungen ermittelten zwar unterschiedliche Zahlen für die Größe des gesamten Internets, sind sich aber darüber einig, daß auch der größte Crawler nicht einmal die Hälfte der darin enthaltenen Seiten indiziert (siehe Abb. 2.4). In der Balkengrafik werden die Resultate der beiden Studien sowie die eigenen Angaben der Suchdienstbetreiber dargestellt. Dabei sollte man bedenken, daß die Studien von verschiedenen Gesamtgrößen des WWW ausgehen. Die Digital Studie geht von 275 Millionen Seiten aus, die NEC Studie von 320 Millionen Seiten. Die Suchdienstbetreiber haben konkrete Seitenanzahlen angegeben. Bei der Berechnung der Prozentzahlen wurde eine Gesamtgröße des WWW von 320 Millionen Seiten angenommen. Außerdem sollte nicht übersehen werden, daß die Studien nicht zur gleichen Zeit entstanden.

[...]

Details

Seiten
71
Jahr
1999
ISBN (eBook)
9783638181648
ISBN (Buch)
9783656570394
Dateigröße
1.4 MB
Sprache
Deutsch
Katalognummer
v12228
Institution / Hochschule
Gottfried Wilhelm Leibniz Universität Hannover – Lehrgebiet Rechnernetze und Verteilte Systeme
Note
1,0
Schlagworte
Suchmaschine Metasuchmaschine Internet Programmierung Perl Webseiten Website Search Engines Suche Search Ranking

Autor

  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.

    Peer Radlow (Autor)

Zurück

Titel: Entwicklung einer Metasuchmaschine für internationale Suchdienste