Technische Details
Technologie
regain basiert auf Jakarta
Lucene, einer Bibliothek mit der man Suchindizes erstellen und
darin suchen kann.
regain selbst ist 100% pure Java. Bei den nicht-Java-Teilen handelt es sich
um Plugins, die das Auslesen der Formate Excel, Powerpoint und Word
übernehmen. Für die Formate Excel und Word gibt es jedoch Alternativen in 100%
pure Java.
Suchen mit regain
Die Arbeit von regain teilt sich in zwei große Blöcke auf: die
Erstellung des Suchindex und die
Suche auf dem Suchindex.
Die folgende Grafik gibt Ihnen einen Überblick über den Ablauf
einer Suche mit regain.
Der Crawler durchsucht eine Webseite oder einen Verzeichnisbaum nach
Dokumenten. Was genau durchsucht werden soll, lässt sich sehr genau in der
Konfiguration festlegen. Von jedem Dokument wird mit Hilfe sogenannter
Präperatoren der eigentliche Text extrahiert. Dieser wird in den
Suchindex eingetragen.
 to top
Auf dem so erstellten Suchindex können nun Suchen durchgeführt werden.
Der Suchindex ist so aufgebaut, dass diese Suchen nun sehr schnell vonstatten gehen.
Das ist auch schon der ganze Trick von Suchmaschinen: Die Zeit, die für
eine umfangreiche Volltextsuche nötig ist, wird mit Hilfe eines
ausgeklügelten Index von der eigentlichen Suche (auf deren Ergebnis ein
Benutzer wartet) hin zur Index-Erstellung verlagert (die automatisiert
im Hintergrund stattfindet).
 to top
Bewertung der Suchergebnisse
Die Suchergebnisse werden nach der relativen Häufigkeit der Suchbegriffe
in den Dokumenten bewertet. Kommt ein Suchbegriff in einem Dokument sehr
oft vor, dann erscheint er weiter oben. Dabei wird auch die Länge des
Dokuments berücksichtigt: So wird ein Dokument mit 100 Wörtern in dem
ein Suchbegriff 5 mal vorkommt als besserer Treffer gewertet als ein
Dokument mit 1000 Wörtern, in dem der Suchbegriff 10 mal vorkommt.
 to top
|