Technische Details

Technologie

regain basiert auf Jakarta Lucene, einer Bibliothek mit der man Suchindizes erstellen und darin suchen kann.

regain selbst ist 100% pure Java. Bei den nicht-Java-Teilen handelt es sich um Plugins, die das Auslesen der Formate Excel, Powerpoint und Word übernehmen. Für die Formate Excel und Word gibt es jedoch Alternativen in 100% pure Java.

Suchen mit regain

Die Arbeit von regain teilt sich in zwei große Blöcke auf: die Erstellung des Suchindex und die Suche auf dem Suchindex.

Die folgende Grafik gibt Ihnen einen Überblick über den Ablauf einer Suche mit regain.
Ablauf der Suche mit regain

Die Erstellung des Suchindex

Der Crawler durchsucht eine Webseite oder einen Verzeichnisbaum nach Dokumenten. Was genau durchsucht werden soll, lässt sich sehr genau in der Konfiguration festlegen. Von jedem Dokument wird mit Hilfe sogenannter Präperatoren der eigentliche Text extrahiert. Dieser wird in den Suchindex eingetragen.

to top
to top

Die Suche auf dem Suchindex

Auf dem so erstellten Suchindex können nun Suchen durchgeführt werden. Der Suchindex ist so aufgebaut, dass diese Suchen nun sehr schnell vonstatten gehen.

Das ist auch schon der ganze Trick von Suchmaschinen: Die Zeit, die für eine umfangreiche Volltextsuche nötig ist, wird mit Hilfe eines ausgeklügelten Index von der eigentlichen Suche (auf deren Ergebnis ein Benutzer wartet) hin zur Index-Erstellung verlagert (die automatisiert im Hintergrund stattfindet).

to top
to top

Bewertung der Suchergebnisse

Die Suchergebnisse werden nach der relativen Häufigkeit der Suchbegriffe in den Dokumenten bewertet. Kommt ein Suchbegriff in einem Dokument sehr oft vor, dann erscheint er weiter oben. Dabei wird auch die Länge des Dokuments berücksichtigt: So wird ein Dokument mit 100 Wörtern in dem ein Suchbegriff 5 mal vorkommt als besserer Treffer gewertet als ein Dokument mit 1000 Wörtern, in dem der Suchbegriff 10 mal vorkommt.

to top
to top