Wegweiser
|
|
Phänomene bei Suchmaschinen
Vorwort
Das World Wide Web ist mit seiner großen Anzahl von Dokumenten
nur mit Hilfsmitteln, wie
Suchmaschinen zu ergründen.
Bei der Suche nach Informationen stößt man immer
wieder auf bestimmte Phänomene und Eigenheiten.
An einem kleinen Beispiel mit nur zwei Wörtern soll
demonstriert werden, wie wichtig bei der Suche der Einsatz
mehrerer Suchmaschinen
ist, um eine gute Ausbeute zu haben.
Dieser Artikel ist keine wissenschaftliche Untersuchung solcher
Phänomene, dazu müßten die Vorgänge mehrmals
zu unterschiedlichen Zeiten und natürlich auch mit unterschiedlichen
Worten wiederholt werden. Eine Auswertung der Qualität der
Treffer fand auch nicht statt.
Grundlagen für die Suche
Jede Suchmaschine setzt einen anderen Algorithmus ein, um die
Suche möglichst schnell durchzuführen und ein gutes
Ergebnis abzuliefern.
Bei der hier durchgeführten Suche wurden nur "automatische"
Suchmaschinen benutzt, keine Kataloge, die durch Redakteure
aufgebessert werden.
Auch als Kandidaten fielen Meta-Suchmschinen heraus, denn
hier würden die Algorithmen der durchsuchten Suchmaschinen
und die Optimierungsalgorithmen der Meta-Suchmaschine
die Auswertung verkomplizieren.
genutzte Suchmaschinen
Der Anfang der Untersuchung war Altavista, wobei hier auch
das Interesse auf Unterschiede zwischen dem
deutschen Ableger und
dem amerikanischen Original
gerichtet war.
Im Laufe der Untersuchung kamen dann noch
dazu.
spezifische Suchoptionen
Um die Ergebnisse objektiv vergleichen zu können wurde auf
spezifische Suchfunktionen, die es nur bei einer Suchmaschine
gibt, verzichtet.
Solche speziellen Suchverbesserungen kann man detailliert bei
der Suchfibel nachlesen.
Gab es die Auswahl zwischen einem Experten- und einem Laien-
Modus, dann wurde der Laienmodus gewählt, bei der Sprachauswahl
wurde "Alle Sprachen" genutzt.
Trunkierung
Die interessante Funktion in unserem Fall ist die Möglichkeit
Wörter zu trunkieren, das heißt Wärter die mit einem
bestimmten Worteil beginnen zu suchen.
(Wir nutzen hier nur die Form der Rechtstrunkierung
Mit Auto* finden wir das Auto,
Autos, Automobile usw.
Leider unterstützten dies nur die Altavista-Suchmaschinen
(inklusive Ragingsearch).
Um eine Vergleichsgrundlage zu haben wurden die Werte bei den
anderen Suchmaschinen einfach kumuliert.
Raging-Algorithmen
Google hat es vorgemacht
und Altavista hat derzeit auch eine
Suchmaschine derart unter
Ragingsearch im Einsatz - eine
Raging-Suchmaschine. Hierunter verstehen wir Suchmaschinen,
die neben der Suchquote auch noch ein Zeitlimit für die
Suche mit vorgeben. Nach einer bestimmten Zeit wird die Suche
einfach abgebrochen und die bis zu diesem Zeitpunkt gefundenen
Seiten herausgegeben.
Bei dieser Optimierung gibt es natürlich ein nicht zu
vernachlässingendes Problem - die Auslastung der Suchmaschine.
Bei einer hohen Belastung sind die Suchtreffer pro Zeiteinheit
geringer, als bei einer niedrigen Auslastung. daher sind diese
beiden Suchmascchinen dreimal getestet worden, aber die
Ergebnisse wichen kaum voneinander ab.
Ergebnisse
Auf jeden Fall zu erwarten ist natürlich, daß mit weiterer
Kürzung der Wörter durch die Trunkierung die Anzahl der
Treffer steigt.
Interessant ist auch die Trefferquote vom Anfang an zu einem
Begriff.
Hier ergaben sich einige interessante
Ergebnisse:
-
Infoseek ist bei den Bibliotheksdirektoren ungeschlagen mit 1126 Treffern
vor allen anderen,
weit abgeschlagen ist Altavista.com mit nur 48 Treffern.
Später sieht das Ergebnis anders aus, da zieht Altavista an
allen anderen Kandidaten vorbei.
-
Altavista zeigt bei der Suche Einbrüche,
statt steigender oder
gleichbleibender Werte werden plötzlich weniger Treffer
gefunden. Sehr interessant ist, daß auch Raginsearch solche
Phänomene zeigt:
was die Vermutung erhärtet, daß es vielleicht am
Suchalgorithmus liegt.
- Die Werte von Altavista.de und Altavista.com zeigen in den
Anfängen Unterschiede, was zeigt, daß nicht der gleiche
Datenbestand verwendet wird, Nachher gleichen sich die Werte an.
Interessant daran ist auch, daß die Trefferquote des englischen
Begriffs bei dem deutschen Ableger besser ist, als beim amerikanischen
Original.
- Bei dem englischen Begriff ist die Trefferquote ohne
zusätzliche Einbruchssymptome zu sehen, was aber sicherlich
auch am Begriff liegt.
Hier ist nach einem Kopf-an-Kopf-Rennen der Suchmaschinen eine
hohe Trefferzahl von Altavista zu sehen.
-
Man kann die Trefferquoten der Suchmaschinen untereinander
nicht in ein festes Verhältnis setzen, Schwankungen sind
zu sehen.
Resümee
Unterschiedliche Suchmaschine - unterschiedliche Trefferquoten.
Mehrere Suchmaschinen zu benutzen ist auf jeden Fall ratsam,
eine weitere Abhilfe ist die Benutzung von Metasuchmaschinen,
die andere Volltext-Suchmaschinen durchsuchen. Sie nutzen
damit die verschiedenen Spezialisierungen der Suchmaschinen
besser aus und erweitern das Suchfeld.
Sicher kann man bei einigen Suchmachinen die Ergebnisse
mit der vorhandenen Expertensuche noch verbessern.
Autor:
Peter Schmidmaier Berlin, 24.07.2000
|