Features

regain bietet eine Reihe von vielfältigen, sehr nützlichen Funktionen, die für eine effektive Suchmaschine wichtig sind.

Detaillierte Information über die einzelnen Features finden Sie in der Hilfe von regain.

Suche

  • regain nutzt die mächtige Suchsyntax von Lucene. Damit lassen sich sehr gezielte Suchanfragen formulieren. Die wichtigsten Möglichkeiten sind folgende:
    • Bool'sche Operatoren,
    • Wildcards
    • Phonetischer Suche
    • Gruppierung
    • und vieles mehr. Mehr Infos zur Suchsyntax gibt es hier.
  • Multiindex-Suche: Durchsuchen sie über eine Suchmaske mehrere Indizes gleichzeitig. Völlig transparent für den Benutzer.
  • URL-Rewriting: In der Suche kann ein URL-Rewriting eingesetzt werden. Dadurch können Dokumente von file://c:/www-data/intranet/docs indiziert und im Browser als http://intranet.murfman.de/docs angezeigt werden.
  • Expertensuche: Die Werte, die für ein Feld im Index stehen, können als Drop-Down-Liste auf einer Suchseite angeboten werden. Vor allem in Verbindung mit Zusatzfeldern ist das sehr praktisch.
  • File-zu-Http-Brücke: Weil manche Browser aus Sicherheitsgruenden keine file-Links verfolgen, die auf http-Seiten stehen, sind alle Dokumente, die sich im Index befinden auch über HTTP erreichbar. Selbstverständlich ist dies abschaltbar und bei der Desktopsuche nur vom lokalen Rechner aus abrufbar.

to top
to top

Festlegung des Suchraums

Mit regain können Sie sehr genau festlegen, was in den Index kommen soll und was nicht.

  • Weiße und Schwarze Liste: Durch eine White List und eine Black List läßt sich der aufzubereitende Suchraum genau eingrenzen. So kann z.B. alles von http://www.murfman.de indexiert werden, außer http://www.murfman.de/dynamiccontent.
  • Mehrere Quellen in einem Index: Sie können in den selben Suchindex Dokumente von verschiedenen Dateisystemen und/oder Webseiten indexieren.
  • Partielle Indexierung: Wenn in einem Suchindex z.B. Dokumente aus mehreren Netzlaufwerken (Dateiservern) und einer Webseite sind, dann können Sie beispielsweise nur die Dokumente eines der Netzlaufwerke aktualisieren. So können manche Laufwerke stündlich aktualisiert werden, andere nur wöchentlich.

to top
to top

Indexierung

  • Hot-Deployment: Wechseln Sie auf einen neuen Suchindex, ohne Ihre Servlet-Engine (z.B. Tomcat) neu zu starten.
  • Stopword-Liste: Bestimmen Sie Worte, die nicht indexiert werden sollen.
  • Analyse-Dateien: Auf Wunsch können alle Zwischenschritte der Indexierung als Dateien ausgegeben werden. So sehen Sie genau, was in den Index wandert.
  • Content-Extraktion für HTML: Indexieren Sie bei Ihren HTML-Dokumenten nur den eigentlichen Inhalt. regain klammert für Sie die Navigation und die Fußleiste aus.
  • Pfad-Extraktion für HTML: Zeigen Sie den Navigationspfad Ihrer HTML-Seiten bei den Suchergebnissen.
  • Erkennung von Dead Links: Quasi als Abfallprodukt werden alle gefundenen Dead Links (also Links auf nicht mehr vorhandene Dokumente) ausgegeben.
  • Breakpoints: Der Crawler erstellt regelmäßig Breakpoints. Dabei wird der aktuellen Stand des Suchindex in ein gesondertes Verzeichnis kopiert. Falls die Indexierung abgebrochen wurde (Z.B. weil der Rechner heruntergefahren wurde), wird beim nächsten mal auf dem letzten Breakpoint aufgesetzt.
  • Zusatzfelder: Der Index kann durch Zusatzfelder erweitert werden, die aus der URL eines Dokuments generiert werden. Beispiel: Angenommen Sie haben ein Verzeichnis mit einem Unterverzeichnis für jedes Projekt. Dann könnten Sie daraus ein Feld mit dem Projektnamen generieren. Dadurch bekommen Sie bei der Suche nach "Angebot project:otto23" nur Treffer aus dem Verzeichnis der Projekts "otto23".

to top
to top

Erweiterbarkeit und Anpassung

regain ist so angelegt, dass es sich ganz nach den jeweiligen Bedürfnissen anpassen und erweitern lässt.

  • Präperatoren: Die Aufbereitung eines bestimmten Dateiformats wird durch sogenannte Präperatoren übernommen. Dadurch kann man flexibel festlegen, welche Dateien mit welchem Präperator aufbereitet werden sollen. Außerdem läßt sich regain leicht um weitere Dateiformate erweitern.
  • TagLibrary für die Suche: Für die Erstellung der Java Server Page für die Suche steht eine TagLibrary bereit. Dadurch ist die Anpassung der Suchmaske an Ihr Design besonders einfach.
  • Konfigurierbarkeit: regain ist stark anpassbar. Die gesamte Konfiguration des Crawlers befindet sich in einer XML-Datei.
  • Zugriffsrechte-Management: Es kann ein Zugriffsrechte-Management eingebunden werden, das dafür sorgt, dass ein Benutzer nur Treffer für Dokumente erhält, für die er Leserechte hat.

to top
to top