Suche innerhalb einer Website / Homepage

Suche Website Homepage Suchformular Die site-interne Suche sieht von außen einfach aus, ist aber intern oftmals der komplizierteste Bereich einer Homepage. Die Anforderung ist dabei trivial: Liste das auf, was der Suchende wirklich wollte.

Doch zuerst sollte man sich fragen:

Brauche ich überhaupt eine site-interne eigene Suche?

Wenn eine Website nur aus wenigen Dutzend Seiten besteht und die Navigation klar ist, kann auf eine eigene Suchseite verzichtet werden. Notfalls kann man in google die Suche auf eine Domain einschränken:

<Suchworte> site:wissing.com

Man kann bei Bedarf leicht externe Suchmaschinen wie google in die eigene Site einbinden. Allerdings sind diese Suchen selten superaktuell, noch sonderlich intelligent, die Trefferquallität ist suboptimal. Zudem gibt man google so gleich Hinweise für deren PageRank, was manche schlechter besuchte Site nach unten wandern lassen könnte. Auch datenschutztechnisch ist es mindestens fragwürdig, diese interessanten Daten Dritten frei Haus zu liefern.

Erst wenn die Seitenzahlen in die Dutzende gehen, die Struktur mehr als zwei Stufen umfasst, die Inhalte recht lang sind, wird eine site-interne Suche notwendig. Im google-Zeitalter sind Sitemaps eher als interne Suchen obsolet:
Der verwöhnte Benutzer ruft lieber gleich das Suchformular auf, tippt einen Suchbegriff ein, und hofft auf passende Resultate.

Aufruf der Suche und Suchseite

Der erste Link, den viele Benutzer auf einer Seite aufrufen, ist die Suche. Sie kommen vielleicht sogar gerade von einer Suchmaschine hierhin, aber wurden nicht auf die exakt passende Seite geleitet.
Oder der Benutzer findet auf der Site trotz klarer Navigation einfach nicht schnell genug, was er sucht.

Die Suche sollte daher schnell auffindbar sein und nicht tief im Menü versteckt sein. Niemand möchte erst zu einer besonderen Suchformular-Seite wechseln müssen, sondern sofort den Suchbegriff eingeben und loslegen.
Daher positioniert man ein Eingabefeld im oberen Bereich und setzt daneben ein Such-Symbol. Ein Such-Label davor oder dahinter kostet nur Platz, lieber einfach ins Eingabefeld "Suche" oder ähnliches per Javascript hineinschreiben und bei Klick in das Feld diesen Hilfstext verschwinden lassen.

Erst auf der Trefferseite selbst können weitere Suchparameter angezeigt werden. Als zusätzliche Suchkriterien denkbar sind:

  • Worte automatisch rechtstrunkieren (Sternchen * rechts) oder die Worte müssen exakt so vorkommen wie eingegeben.
  • Nur bestimmte Dokumentarten oder Menübereiche berücksichtigen
  • Das Vorkommen von Ausschluss-Wörtern filtert Treffer aus
  • Datum von — bis
  • Preis von — bis
  • Linkstrunkierung erlauben und Begrifflichkeiten per Hochkommata zusammenfassen
  • Suche nur in bestimmten Feldern (z.B. Titel)

Bei Lexikon-ähnlichen Sites oder Referenzwerken von allgemeiner Bedeutung sollte man ein Search-Addon anbieten. Hierdurch kann der User jederzeit die site-interne Suche aufrufen, auch wenn er gerade nicht auf der Site ist.

Trefferliste

Die Trefferliste sollte die relevantesten Treffer zuerst anzeigen. Eine völlig unsortierte Anzeige ist wenig hilfreich und führt schnell zum Such-Frust. Alternativ kann der Benutzer eine andere Sortierung wählen, z.B. nach Preis oder Aktualisierungsdatum.

Stand der Technik ist eine AJAX-Suche, die Treffer oder Suchworte während der Eingabe nach jedem Tastendruck unterhalb des Eingabefeldes auflistet und zur Auswahl per Pfeiltasten oder Klick anbietet.

Bei vielen Treffern ist die Trefferliste auf mehrere Seiten aufzuteilen, zwischen denen leicht gewechselt werden kann. Neben einem vor- und zurück sollte auch eine direkte Anwahl von Trefferseiten möglich sein.

In der Trefferliste sollte ein kleines Vorschaubild zum Treffer angezeigt werden. Geeigneter als eine Hardcopy der Zielseite ist ein aussagekräftiges Bild, z.B. ein Produkt- oder Personenfoto.

Bei jedem Treffer sollte ein Link auf die Fundstelle prominent sichtbar sein. Das Anklicken sollte ggf. dem zugehörigen Frameset mit aufbauen, oder bei einem Popup es als solches in ein neues Fenster öffnen, oder zur zugehörigen Kontextseite führen.

Zu jedem Treffer wird ein Exzerpt oder Abstract angezeigt, damit die Relevanz der Fundstelle bewertet werden kann. Beim Zusammenstellen des Exzerpt darf nur der reine Text berücksichtigt werden. Worte sollten dabei nicht abgeschnitten werden.
Wenn HTML-Tags wie strong erhalten bleiben sollen, ist auf Wohlgeformtheit zu achten. Im Exzerpt geöffnete Tags sind dort auch entsprechend wieder schließen, auch wenn der Ausschnitt-Text das schließende Tag nicht mehr enthält.
Manche Tags wie iframe, Kommentare, script oder Event-Handler müssen aber immer ausgefiltert werden. Eine Positivliste ist zu bevorzugen. Beim Exzerpt könnten auch Sätze, in denen die Suchbegriffe vorkommen, bevorzugt werden.

Zu jedem Treffer sollte der Menü-Pfad dargestellt werden. So kann der Suchende besser einordnen, was ihn erwartet. Wenn man den Pfad klickbar wie eine breadcrump-navigation anzeigt, kann man ggf. auch direkt höhere Ebenen ansteuern.

Relevanzbestimmung

Folgende Kriterien können in die Beurteilung der Relevanz eines Treffers einfließen

  • Anzahl Suchbegriffe im Text - dabei Vorkommen im Titel höher bewerten.
  • Aktualisierungsdatum - je jünger, desto relevanter
  • Anlage-Datum - je älter, desto relevanter - oder umgekehrt
  • Änderungsfrequenz - je öfter aktualisiert, desto wichtiger
  • Suchbegriffe, die rar sind, höher bewerten als oft vorkommende Wörter im Index
  • Kategorien und Listen höher bewerten als Einzeldokumente - oder umgekehrt
  • wichtige Produkte oder Menübereiche mit Bonusaufschlag versehen
  • HTML-Tags berücksichtigen: Text in h1-Tags oder von strong umschlossen ist höher zu bewerten.
  • Die verwendeten Suchbegriffe sind im Dokument-Text nach Häufigkeit und Position zu werten. Je höher die relative Häufigkeit, desto höher ist die Relevanz.
  • Tiefe im Menü - weiter oben liegende werden als wichtiger erachtet
  • Position im Menü - je eher es im Menü vorkommt, desto wichtiger ist es
  • Anzahl Hits des Dokuments - per Loganalyse ermittelt
  • Bewertung eines Dokuments - je mehr Stimmen und je besser die Note, desto wichtiger
  • Anzahl ein- oder/und ausgehender interner und externer Links:
    AnzahlLinksIn * 10 + AnzahlLinksAus * 5 + AnzahlLInksExtern
  • Anzahl Kategorien, in denen das Dokument verlinkt ist.
  • Anzahl Medien, die dem Dokument zugeordnet sind.
  • Textlänge einbeziehen: je länger, desto relevanter.
  • Wenn Suchbegriffe im Text nahe beieinanderstehen, wird dies höher bewertet.

Indizierung / Index

Bei der Indizierung der Inhalte ist folgendes zu beachten:

  • Es ist vorteilhaft, wenn nur der CMS-Inhalt indiziert wird, und nicht die angezeigte Webseite selbst. In der Webseite sind viele Bereiche, die die Suchqualität verwässern, im Menü z.B. tauchen für alle Dokumente die immer selben Begriffe auf, die aber eventuell nur in einer Seite wichtiges Thema sind.
  • HTML-Tags und Attribute ignorieren
    Ausnahme sind nur das alt-Attribut bei Grafiken und allgemein das title-Attribut. Ansonsten findet eine Suche nach dem Begriff "style" hunderte falscher Treffer. Besonders übel wird es, wenn ein Produktname zufällig einem HTML-Tag oder Attributnamen entspricht - alles schon gesehen.
  • Alle Zeichen sind als Unicode und uncodiert zu speichern.
    Die Zeichen &uuml; und &#252; sind immer als das Unicode-Zeichen "ü" zu speichern. Alternativ kann diese Vereinheitlichung auch erst bei der Suchindex-Erzeugung geschehen.
  • Eine Transliteration, passend zur aktuellen Sprache, ist durchzuführen.
    Ziel ist hierbei eine Vereinheitlichung der Schreibweisen. Aus "Ü", "ü", "ue" wird einheitlich "ue" erzeugt fürs Deutsche.
  • Für jede Sprachversion ist ein eigener Suchindex aufzubauen.
    Suchergebnisse in verschiedenen Sprachen sind nur sehr selten erwünscht und erwartet. Maximal kann man an die Treffer der aktuellen Sprache Treffer in anderen Sprachen hintenanstellen.
  • Treffer-Filterung
    Bei der Suche dürfen keine gesperrten oder abgelaufenen Dokumente aufgelistet werden.
    Vor der Ausgabe ist für jeden Treffer zu prüfen, ob er angezeigt werden darf.
  • Aufzeichnung der Suchbegriffe.
    Die Suchbegriffe sollten in anonymisierter Form mit allen relevanten Einstellungen und der Trefferzahl gespeichert werden. Daraus können sich wertvolle Hinweise für eine Optimierung der Suche ergeben, um so den Content z.B. mit zusätzlichen Schlagwörtern zu versehen.
  • Externe Suchbegriffe genauso behandeln.
    Wenn ein Besucher mit google als Referer auf die Seite gelangt, teilt google dabei den Suchbegriff im q-Parameter mit. Wenn man diese Suchbegriffe mit der Zielseite verknüpft speichert, kann man hieraus wertvolle Hinweise gewinnen.
  • Stopworte
    Je nach indexierter Dokumentart kann die Verwendung von Stopwort-Listen angeraten sein, um das Rauschen zu verringern und den Suchindex klein zu halten. Wichtig ist, bei der Suche selbst die Stopwortliste ebenso anzuwenden.
  • Thesaurus
    Auto und Kraftfahrzeug sind Synonyme, der Suchende kann nicht wissen, welches Wort auf Deiner Website bevorzugt verwendet wurde.
  • Tippfehler
    google macht es vor: Vertippt sich der Suchende, bietet es gleich eine wahrscheinliche Alternative an. Wenn gar kein Treffer mit dem Suchwort erzielt wurde, nutzt google sogar oft automatisch den "richtigen" Begriff.
  • Verschlagwortung
    Hierüber kann man mehrere Dokumente zu einem Thema zusammenfassen, oder nicht im Text vorkommende Stichworte (Keywords) mit aufnehmen, die bei einer Suche berücksichtigt werden, sonst aber nicht auftauchen.
  • Medien wie PDF- oder Word-Dokumente
    Bei Bedarf mit in den Index aufnehmen, allerdings niemals direkt den Link auf das Dokument anbieten, sondern auf den passendsten Kontext einer Webseite, in der der Link auf das Medium vorkommt.
  • Stemming
    Worte sind auf ihre Stammform zu reduzieren, natürlich sprachspezifisch. Überlange Worte sind entweder abzuschneiden oder in Einzelworte aufzutrennen. Achtung: Bei den Suchbegriffen müssen exakt die gleichen Schritte genutzt werden.
  • Zu kurze Worte sind vom Index auszuschließen - zumindest in gewissen Kontexten.
  • Es sind harte und weiche Trenner zu berücksichtigen.
    ist C#-Training ein Wort oder zwei? Am besten werden gleich mehrere Index-Begriffe daraus:
    • C
    • C#
    • Training
    • C#-Training
    Harte Trenner sind z.B. das Leerzeichen und Satzzeichen, weiche Trenner sind Bindestrich und Apostroph.
  • Der Aufbau des Suchindex darf den regulären Betrieb nicht stören, der Prozess dazu sollte daher mit geringer Priorität oder auf einer separaten Maschine laufen. Bei internationalen Sites ist darauf zu achten, das zu keiner Zeit die Suche nicht funktioniert, weil gerade der neu erstellte Index eingeladen wird. Ein kompletter Neuaufbau muss in weniger als 24h erledigt sein und sollte neben einer inkrementellen Indexergänzung periodisch durchgeführt werden, damit potentielle Divergenzen verschwinden. Inkrementelle Indizes neigen zu Fehltreffern.
  • Aktualität
    Nur ein aktueller Index ist ein guter Index. Daher sollte mindestens eine tägliche Aktualisierung die Regel sein, bei News-Seiten muss auch ein realtime-Differenz-Update hinzukommen.

Trefferseite

Beim Aufruf der Zielseite können die verwendeten Suchbegriff hervorgehoben werden (Highlighting).

Wichtiger ist aber, dass ein Klick auf den Zurück-Button wieder auf die Suchtrefferliste zurückgeht, von der man kam.

Fazit

Suchmaschinen zu betreiben ist heute ein Milliardengeschäft. Google ist dadurch zur wertvollsten Firma der Welt geworden. Wie kann das sein, fragt man sich?

Dabei ist nichts wertvoller als Information, und Wissen ist Macht. Aber Informationen, die in einem Datengrab verscharrt sind, sind wertlos. Die Suchmaschinen helfen uns, dieses Wissen zutage zu fördern und nutzbar zu machen.

Wie oft jeden Tag nutzt Du google oder eine andere Suchmaschine? Dazu eventuell noch eine Desktop-Suchmaschine wie z.B. das absolut geniale Lookout?

Eine site-interne Suche kann dank ihres Wissens über die internen Zusammenhänge und Inhalte mit etwas Feinabstimmung deutlich bessere Suchergebnisse liefern als es google mit seiner reinen Außensicht kann. Voraussetzung für eine solche Investition ist die Aufzeichnung der Suchbegriffe, um hieraus Verbesserungspotential abzuleiten.

So konnten wir in einem Fall beobachten, das Kunden die Artikelnummern oft mit Leerzeichen zwischen den Ziffern eingaben, wodurch die Trefferliste leer blieb. Sobald diese Besonderheit berücksichtigt war, stieg für diese Nutzer die Trefferqualität von 0 auf 100% Genaugkeit an.

Nur ein Kunde, der ohne viel Aufwand genau das findet, was er möchte, ist ein zufriedener Kunde - oder wird überhaupt erst ein Neukunde.