Features
regain bietet eine Reihe von vielfältigen, sehr nützlichen Funktionen, die für
eine effektive Suchmaschine wichtig sind.
Detaillierte Information über die einzelnen Features finden Sie in der
Hilfe von regain.
Suche
-
regain nutzt die mächtige Suchsyntax von Lucene. Damit lassen sich sehr gezielte
Suchanfragen formulieren. Die wichtigsten Möglichkeiten sind folgende:
- Bool'sche Operatoren,
- Wildcards
- Phonetischer Suche
- Gruppierung
- und vieles mehr. Mehr Infos zur Suchsyntax gibt es
hier.
- Multiindex-Suche: Durchsuchen sie über eine Suchmaske mehrere Indizes
gleichzeitig. Völlig transparent für den Benutzer.
- URL-Rewriting: In der Suche kann ein URL-Rewriting eingesetzt werden.
Dadurch können Dokumente von file://c:/www-data/intranet/docs indiziert
und im Browser als http://intranet.murfman.de/docs angezeigt werden.
- Expertensuche: Die Werte, die für ein Feld im Index stehen, können als
Drop-Down-Liste auf einer Suchseite angeboten werden. Vor allem in
Verbindung mit Zusatzfeldern ist das sehr praktisch.
- File-zu-Http-Brücke: Weil manche Browser aus Sicherheitsgruenden keine
file-Links verfolgen, die auf http-Seiten stehen, sind alle Dokumente, die
sich im Index befinden auch über HTTP erreichbar. Selbstverständlich ist
dies abschaltbar und bei der Desktopsuche nur vom lokalen Rechner aus
abrufbar.
 to top
Festlegung des Suchraums
Mit regain können Sie sehr genau festlegen, was in den Index kommen soll und was
nicht.
- Weiße und Schwarze Liste: Durch eine White List und eine Black List
läßt sich der aufzubereitende Suchraum genau eingrenzen. So kann z.B.
alles von
http://www.murfman.de indexiert werden, außer
http://www.murfman.de/dynamiccontent .
- Mehrere Quellen in einem Index: Sie können in den selben Suchindex
Dokumente von verschiedenen Dateisystemen und/oder Webseiten indexieren.
- Partielle Indexierung: Wenn in einem Suchindex z.B. Dokumente aus
mehreren Netzlaufwerken (Dateiservern) und einer Webseite sind, dann
können Sie beispielsweise nur die Dokumente eines der Netzlaufwerke
aktualisieren. So können manche Laufwerke stündlich aktualisiert werden,
andere nur wöchentlich.
 to top
Indexierung
- Hot-Deployment: Wechseln Sie auf einen neuen Suchindex, ohne Ihre
Servlet-Engine (z.B. Tomcat) neu zu starten.
- Stopword-Liste: Bestimmen Sie Worte, die nicht indexiert werden
sollen.
- Analyse-Dateien: Auf Wunsch können alle Zwischenschritte der
Indexierung als Dateien ausgegeben werden. So sehen Sie genau, was in
den Index wandert.
- Content-Extraktion für HTML: Indexieren Sie bei Ihren HTML-Dokumenten
nur den eigentlichen Inhalt. regain klammert für Sie die
Navigation und die Fußleiste aus.
- Pfad-Extraktion für HTML: Zeigen Sie den Navigationspfad Ihrer
HTML-Seiten bei den Suchergebnissen.
- Erkennung von Dead Links: Quasi als Abfallprodukt werden alle
gefundenen Dead Links (also Links auf nicht mehr vorhandene Dokumente)
ausgegeben.
- Breakpoints: Der Crawler erstellt regelmäßig Breakpoints. Dabei wird
der aktuellen Stand des Suchindex in ein gesondertes Verzeichnis kopiert.
Falls die Indexierung abgebrochen wurde (Z.B. weil der Rechner
heruntergefahren wurde), wird beim nächsten mal auf dem letzten Breakpoint
aufgesetzt.
- Zusatzfelder: Der Index kann durch Zusatzfelder erweitert werden, die
aus der URL eines Dokuments generiert werden. Beispiel: Angenommen Sie
haben ein Verzeichnis mit einem Unterverzeichnis für jedes Projekt. Dann
könnten Sie daraus ein Feld mit dem Projektnamen generieren. Dadurch
bekommen Sie bei der Suche nach "Angebot project:otto23" nur Treffer aus
dem Verzeichnis der Projekts "otto23".
 to top
Erweiterbarkeit und Anpassung
regain ist so angelegt, dass es sich ganz nach den jeweiligen
Bedürfnissen anpassen und erweitern lässt.
- Präperatoren: Die Aufbereitung eines bestimmten Dateiformats wird
durch sogenannte Präperatoren übernommen. Dadurch kann man flexibel
festlegen, welche Dateien mit welchem Präperator aufbereitet werden
sollen. Außerdem läßt sich regain leicht um weitere Dateiformate erweitern.
- TagLibrary für die Suche: Für die Erstellung der Java Server Page
für die Suche steht eine TagLibrary bereit. Dadurch ist die Anpassung
der Suchmaske an Ihr Design besonders einfach.
- Konfigurierbarkeit: regain ist stark anpassbar.
Die gesamte Konfiguration des Crawlers befindet sich in einer XML-Datei.
- Zugriffsrechte-Management: Es kann ein Zugriffsrechte-Management
eingebunden werden, das dafür sorgt, dass ein Benutzer nur Treffer für
Dokumente erhält, für die er Leserechte hat.
 to top
|