Schmidmaier

 SCHMIDMA  online

Virusinfo
IP-Checker
Security-Check
Kontakt
 

Wegweiser

 
  Home  
  IP-Checker  
  Sicherheit  
  Links  
  Wissen  
  Testberichte  
  Schulungen  
  Bibliothek  
  Referenzen  
  Sitemap  
  Kontakt  
 


 

Suchmaschinen für die eigene Domain am Beispiel von whatUseek

Anwendungsziel und Voraussetzungen

Domains werden heute im Minutentakt angemeldet, jeder möchte gerne eine haben, aber wie kann ich mit Hilfe anderer Angebote mehr Nutzer auf meine Domain ziehen und dort länger verweilen lassen?

Eine Suchmaschine ist solch eine Möglichkeit. Damit finden die Leser auch Informationen die vielleicht nicht so einfach zu finden wären und sie suchen im Internet und merken sich die Domain, wo sie den Weg zur Suchmaschine gefunden haben - und kommen wieder.
Es gitb einige Angebote solcher über Werbung finanzierter Suchmaschinen, manche durchsuchen die Domain, für die Sie angemeldet wurden, andere bieten eine Suche im gesamten WWW.

Ich habe mir eine Suchmaschine herausgesucht, die beides kann, auf einer lokalen Domain suchen und im Internet. Live kann man dieses Beispiel unter http://www.schmidma.de/suche erleben.

Was brauche ich dafür ?

  1. eine eMail-Adresse, an diese werden administrative Nachrichten gesandt. Hat man diesen noch nicht, bieten sich vielfältige Freemail-Dienste an.
  2. Kenntnisse in HTML und eventuell Javascript
  3. Zugriff auf die Domain, für die man den Dienst einrichten will

Grundlagen Suchdienste

Bevor wir uns mit der Einrichtung einer Suchmaschine beschäftigen sollten wir uns kurz mit den Grundlagen zu den Suchmaschinen befassen. Wer darüber ausführlichere Informationen haben möchte, dem kann ich zum Beispiel die Suchfibel empfehlen.

Arten von Suchmaschinen

Suchmaschinen teilen wir im allgemeinen in 3 Arten ein:
Katalog z.B. Allesklar
Volltext-Suchmaschinen z.B. Altavista
Meta-Suchmaschinen z.B. MetaGer

Natürlich gibt es auch da einige Zwischenformen, wie z.B. Lycos, die eine Volltext-Suchmaschine und einen Katalog anbieten.

Kataloge

Bei den Katalogen sitzt ein Team von Online-Redakteuren und schaut sich angemeldete Domains nach ihrem Inhalt an und ordnet diese Domain einem Thema zu.
Hier wird ein hoher personeller Aufwand betrieben, der sich in einer guten Qualität wiederspiegelt. Außerdem werden zum teil zusätzliche Informationen, wie Standortangaben, Suche nach Postleitzahlen mit in dem System untergebracht, die bei den anderen Formen nicht möglich wären.

Volltext-Suchmaschinen

Sie durchforsten in regelmäßen Abständen das WWW nach Informationen, lesen die Seiten heraus und zerlegen jede HTML-Seite in Ihre Einzelheiten und packen diese in eine große Datenbank. Diese automatische Erfassung erledigt zwar eine größere Masse an Dokumenten, aber nicht immer ist die Qualität dem entsprechend.
Es gibt viele Tricks, wie man sich in einer derartigen Suchmaschine in die oberen Treffer-Hitlisten bringen kann, ohne das die Anfrage auf die Website zutraf.

META-Suchmaschinen

Man könnte Sie als die faulsten Suchmaschinen bezeichnen, denn sie machen nichts weiter, als andere Suchmaschinen zu durchsuchen und deren Ergebnisse zu liefern. Hierbei liegt die maschinelle Intelligenz bei dem Herausfiltern gleicher Ergebnisse.

Die Möglichkeiten von whatUseek

die globale WWW-Suche

Bei der globalen Suche bietet whatUseek mit Hilfe der Chubba-Suchmaschine den Dienst einer META-Suchmaschine an, die als Suchoperator nur den UND-Operator kennt.

Die Suchbegriffe die man eingibt werden einfach mit UND verbunden und müssen in der jeweiligen Seite vorkommen. Eine Übersicht über die Treffergröße kann man sich nicht verschaffen, denn Chubba bietet standardmäßig nur maximal 40 Treffer an.
Dabei werden Yahoo!, AltaVista, Excite, Webcrawler, Infoseek, GoTo.com und Lycos durchsucht.

die lokale Suche

Die lokale Suche ermöglicht eine Volltextsuche in allen Dokumenten die durch Links verbunden sind. Es wird hier von einer angegebenen Start-URL alle damit verbundenen Seiten durchsucht.

Auch hier gibt es nur die Verknüpfung über den UND-Operator und die Möglichkeit Begriffe zu trunkieren.

Einrichtung der Suchmaschine bei whatUseek

Anmeldung

Unter http://intra.whatuseek.com/ meldet man sich mit Hilfe einer email-Adresse und eines selbst vergebenen Paßwortes an. Diese Angaben brauchen Sie später zu Anmeldung für die Einrichtung der Accounts.

URL-Angaben

Auf jeden Fall muß ein Namen für die Site vergeben werden und die erste URL.
Sollte die Domain auch noch unter andere URL's im WWW erreichen zu sein, man spricht dann auch von sogenannten Aliases, kann man diese hier noch mit eingeben.

Das spielt bei der Indexierung eine Rolle, wenn man absolute Angaben genommen hat.
Beispiel: www.schmidma.de und www.schmidma.de verweisen auf den selben Inhalt.

Als erste Domain ist nur www.schmidma.de eingetragen.

Ein Link http://www.schmidma.de/links/suchmaschine.htm wird als externer Link angesehen, wenn http://www.schmidma.de nicht als Secondary Entrypoint eingetragen ist und somit nicht indexiert.

Des weiteren kann man eintragen, welche Verzeichnisse nicht durchsucht werden sollen, um die dort vorhandenen Informationen nicht zusätzlich publik zu machen. Sie sind eventuell jedoch irgendwie von der Anfangs-URL aus zu erreichen.

Prioritäten setzen

An welcher Stelle ein Suchtreffer in einer Suchmaschine in der Trefferliste auftritt hängt von den gesetzten Ranking-Prioritäten ab. dabei wird bei der Berechnung der Position eines Treffers auch berücksichtigt, wo das Wort steht, ob

  • im META-Tag Description
  • im META-Tag Keyword
  • im Titel-Tag
  • oder im normalen Text.

Diese Parameter kann man hier bequem einstellen und durch die entsprechende Vergabe im HTML-Code als Autor positionieren.

Zusätzliche Optionen

whatUseek bietet noch weiter Möglichkeiten, die Suche zu verbessern.

Groß- und Kleinschreibung von URL's

Eigentlich ist es kein Thema, bei den URL's ist im Normalfall die Groß- und Kleinschreibung sehr wichtig, denn die WWW-Server stammen aus der UNIX-Welt und dort war es schon immer ein Unterschied, ob eine date index.html oder Index.html oder INDEX.HTML heißt. Bei Microsoft-Betriebssystemen spielt dies keine Rolle. Aktivier man dieses Feature, dann ist es ein Unterschied, ob man auf die Datei index.html oder INDEX.HTML verweist. Bei einem Web-Server unter Windows NT sind bei Dateinamen möglich und verweisen auf die gleiche Datei, bei einem Web-Server unter UNIX sind es unterschiedliche Dateien.

Nummern

Ob man Zahlenfolgen mit indexieren läßt, hängt ganz stark vom Inhalt der WWW-Site ab. Hat man zum Beispiel ein Produktnummernverzeichnis gespeichert und möchte, das es auch mit durchsucht wird, dann ist es sehr wichtig, daß man diese Option mit aktivert.

Wortendungen

Hier werden typische Wortendungen automatisch an ein Suchwort herangehängt um eine Such nach deklinierten Wörtern zu ermöglichen. Dies ist aber bei whatUseek auf die englische Sprache begrenzt !

Klangsuche ermöglichen

Gegen Verständnisprobleme oder fehlerhafte Schreibweisen hilft die Klangsuche. "Da hat jemand angerufen, der hieß Müller oder Miller - kennst Du den ?". Damit haben wir kein Problem, ein rein zeichenvergleichender Suchalgorithmus schon.
Bei der Klangsuche werden Suchwort und gespeicherte Begriffe in Zahlenwerte umgerechnet, wobei gleich klingende Buchstaben oder Buchstabenkombinationen den gleichen Wert bekommen, z.B. i, ie, ih, y. Bei der Suche werden dann diese errechneten Werte verglichen.

Berücksichtung robots.txt

Eine ordentliche Suchmaschine schaut vorher in einer Datei Namens robots.txt nach, welche Verzeichnisse durchsucht werden dürfen und welche nicht.

Default Dokument

Gibt man eine URL in der Form http://www.schmidma.de/suche/ an, dann enthält diese nicht den kompletten Pfad zu dem anzuzeigenden Dokument, der Dokumentname fehlt. Dazu werden in WWW-Servern sogenannte Default Documents angegeben, nach denen gesucht wird, wenn kein Name angegeben wurde. Nehmen wir an, dieser Name ist index.htm. Dann sind
http://www.schmidma.de/suche/
http://www.schmidma.de/suche/index.htm
Das muß auch in der Suchmaschine eingestellt werden und verhindert Dopplungen.

Stopwortliste

Wörter, wie der, die, das, the, and, or kommen in Texten sehr häufig vor und sollten nicht mit in den Index aufgenommen werden. Dazu gibt es Stopwortlisten, die diese Wörter enthalten

Synonyme

Nicht jeder Mensch beschreibt einen Gegenstand mit den selben Worten, wie ein anderer. Wir verwenden diese Wörter häufig synonym.
Eine kleine Anekdote aus dem Alltag an dieser Stelle. Ich war auf der Suche nach einem Synonymwörterbuch, um bei meiner Suchmaschine bestimmte Begriffe mit zu ergänzen. Meine Suche in der Buchhandlung war erfolglos, also wandte ich mich an das Fachpersonal mit der Frage: "Gibt es denn vom Duden-Verlag ein Synonymwörterbuch auf CD-ROM ?" Ja, so etwas gibt es, aber unter de Bezeichnung "Die sinn- und sachverwandten Wörter". Es ist schon schwer mit den sinn- und sachverwandten Synonymen.

Zugriff auf paßwortgeschützte Seiten

Viele WWW-Server bieten die Möglichkeit auf bestimmte Verzeichnisse erst nach der Eingabe einer Benutzerkennung und eines Paßwortes zuzugreifen. Da die Suchmaschine beim indexieren den selben Mechanismen unterliegt, kann man solche Seiten nur dann indexieren lassen, wenn man hier auch diese Kennung und das Paßwort der Suchmaschine zur Verfügung stellt. Der Zugriff auf die gefundene Seite kann durch den Nutzer aber erst nach Eingabe eines Paßwortes erfolgen.

Suchbox und Ergebnisseite anpassen

Die Suchbox ist nicht fest vorgegeben, man kann bei whatUseek aus mehreren vorgefertigen Formen auswählen, dabei auch zwischen der Verwendung von Frames oder Javascript-Techniken wählen. Hier kommt es auf die jeweiligen Kenntnisse an.
Das Ergebnis kan sogar mit Hilfe von HTML und einer "IntraSearch Template Language" soweit angepaßt werden, daß das Suchergebnis sich in das Corporate Design der anderen WWW-Seiten einpaßt. Ein Anwendungs-Beispiel sehen Sie unter http://www.schmidma.de/suche/.

Statistik

Was wäre die Welt ohne Statistik ?
Bei whatUseek bekommt man eine wöchentliche Statistik über die Suchanfragen, die an die lokale Domain gestellt wurden und kann somit auch erkennen, ob es Nutzer gibt, die nach Begriffen suchen, die nicht im WWW-Angebot vorkommen oder synonym zu verwendeten Begriffen sind.

 

02.01.2011
Counter
Impressum

Peter Schmidmaier
Pagerank erhoehen Perl