Regain 2.1.0-STABLE API

net.sf.regain.crawler.config
Interface CrawlerConfig

All Known Implementing Classes:
DummyCrawlerConfig, XmlCrawlerConfig

public interface CrawlerConfig

Stellt alle zu konfigurierenden Einstellungen zur Verfᅵgung.

Author:
Til Schneider, www.murfman.de

Method Summary
 String getAnalyzerType()
          Gibt den zu verwendenden Analyzer-Typ zurᅵck.
 AuxiliaryField[] getAuxiliaryFieldList()
          Gets the list of the auxiliary fields.
 UrlMatcher[] getBlackList()
          Gets the black list.
 int getBreakpointInterval()
          Returns the interval between two breakpoint in minutes.
 boolean getBuildIndex()
          Gibt zurᅵck, ob ein Suchindex erstellt werden soll.
 String getCrawlerAccessControllerClass()
          Gets the class name of the CrawlerAccessController to use.
 Properties getCrawlerAccessControllerConfig()
          Gets the configuration of the CrawlerAccessController.
 String getCrawlerAccessControllerJar()
          Gets the name of jar file to load the CrawlerAccessController from.
 PreparatorSettings[] getCrawlerPluginSettingsList()
          Gets the list with the crawler plugin settings.
 String[] getExclusionList()
          Gibt alle Worte zurᅵck, die bei der Indizierung nicht vom Analyzer verändert werden sollen.
 String getFinishedWithFatalsFileName()
          Gibt den Namen der Kontrolldatei fᅵr fehlerhafte Indexerstellung zurᅵck.
 String getFinishedWithoutFatalsFileName()
          Gibt den Namen der Kontrolldatei fᅵr erfolgreiche Indexerstellung zurᅵck.
 UrlPattern[] getHtmlParserUrlPatterns()
          Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu identifizieren.
 int getHttpTimeoutSecs()
          Gibt den Timeout fᅵr HTTP-Downloads zurᅵck.
 String getIndexDir()
          Gibt das Verzeichnis zurᅵck, in dem der Suchindex stehen soll.
 boolean getLoadUnparsedUrls()
          Gibt zurᅵck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.
 int getMaxCycleCount()
          Returns the maximum count of equal occurences of path-parts in an URI.
 double getMaxFailedDocuments()
          Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurᅵck. (0..1) Ist das Verhᅵlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grᅵᅵer als dieser Prozentsatz, so wird der Index verworfen.
 int getMaxFieldLength()
          Returns the maximum number of terms that will be indexed for a single field in a document.
 int getMaxSummaryLength()
          Returns maximum amount of characters which will be copied from content to summary
 PreparatorSettings[] getPreparatorSettingsList()
          Gets the list with the preparator settings.
 String getProxyHost()
          Gibt den Host-Namen des Proxy-Servers zurᅵck.
 String getProxyPassword()
          Gibt das Passwort fᅵr die Anmeldung beim Proxy-Server zurᅵck.
 String getProxyPort()
          Gibt den Port des Proxy-Servers zurᅵck.
 String getProxyUser()
          Gibt den Benutzernamen fᅵr die Anmeldung beim Proxy-Server zurᅵck.
 StartUrl[] getStartUrls()
          Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll.
 String[] getStopWordList()
          Gibt alle Worte zurᅵck, die nicht indiziert werden sollen.
 boolean getStoreContentForPreview()
          Returns the flag for enabling/disabling the content-preview
 String[] getUntokenizedFieldNames()
          Returns the names of the fields that shouldn't be tokenized.
 String[] getURLCleaners()
          Returns the URLCleaners.
 String[] getUseLinkTextAsTitleRegexList()
          Gibt die regulᅵren Ausdrᅵcke zurᅵck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.
 String getUserAgent()
          Returns the user agent the crawler should in order to identify at the HTTP server(s).
 String[] getValuePrefetchFields()
          The names of the fields to prefetch the destinct values for.
 WhiteListEntry[] getWhiteList()
          Gets the white list.
 boolean getWriteAnalysisFiles()
          Gibt zurᅵck, ob Analyse-Deteien geschrieben werden sollen.
 

Method Detail

getProxyHost

String getProxyHost()
Gibt den Host-Namen des Proxy-Servers zurᅵck. Wenn kein Host konfiguriert wurde, wird null zurᅵckgegeben.

Returns:
Der Host-Namen des Proxy-Servers.

getProxyPort

String getProxyPort()
Gibt den Port des Proxy-Servers zurᅵck. Wenn kein Port konfiguriert wurde, wird null zurᅵckgegeben.

Returns:
Der Port des Proxy-Servers.

getMaxCycleCount

int getMaxCycleCount()
Returns the maximum count of equal occurences of path-parts in an URI.

Returns:
MaxCycleCount

getProxyUser

String getProxyUser()
Gibt den Benutzernamen fᅵr die Anmeldung beim Proxy-Server zurᅵck. Wenn kein Benutzernamen konfiguriert wurde, wird null zurᅵckgegeben.

Returns:
Der Benutzernamen fᅵr die Anmeldung beim Proxy-Server.

getProxyPassword

String getProxyPassword()
Gibt das Passwort fᅵr die Anmeldung beim Proxy-Server zurᅵck. Wenn kein Passwort konfiguriert wurde, wird null zurᅵckgegeben.

Returns:
Das Passwort fᅵr die Anmeldung beim Proxy-Server.

getHttpTimeoutSecs

int getHttpTimeoutSecs()
Gibt den Timeout fᅵr HTTP-Downloads zurᅵck. Dieser Wert bestimmt die maximale Zeit in Sekunden, die ein HTTP-Download insgesamt dauern darf.

Returns:
Den Timeout fᅵr HTTP-Downloads

getUserAgent

String getUserAgent()
Returns the user agent the crawler should in order to identify at the HTTP server(s). If null, the default (Java) user agent should be used.

Returns:
the user agent to use.

getLoadUnparsedUrls

boolean getLoadUnparsedUrls()
Gibt zurᅵck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.

Returns:
Ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.

getBuildIndex

boolean getBuildIndex()
Gibt zurᅵck, ob ein Suchindex erstellt werden soll.

Returns:
Ob ein Suchindex erstellt werden soll.

getIndexDir

String getIndexDir()
Gibt das Verzeichnis zurᅵck, in dem der Suchindex stehen soll.

Returns:
Das Verzeichnis, in dem der Suchindex stehen soll.

getAnalyzerType

String getAnalyzerType()
Gibt den zu verwendenden Analyzer-Typ zurᅵck.

Returns:
en zu verwendenden Analyzer-Typ

getMaxFieldLength

int getMaxFieldLength()
Returns the maximum number of terms that will be indexed for a single field in a document.

Is <= 0 if lucene's default should be used.

Returns:
the maximum number of terms per document.

getStopWordList

String[] getStopWordList()
Gibt alle Worte zurᅵck, die nicht indiziert werden sollen.

Returns:
Alle Worte, die nicht indiziert werden sollen.

getExclusionList

String[] getExclusionList()
Gibt alle Worte zurᅵck, die bei der Indizierung nicht vom Analyzer verändert werden sollen.

Returns:
Alle Worte, die bei der Indizierung nicht vom Analyzer verändert werden sollen.

getWriteAnalysisFiles

boolean getWriteAnalysisFiles()
Gibt zurᅵck, ob Analyse-Deteien geschrieben werden sollen.

Diese Dateien helfen, die Qualitᅵt der Index-Erstellung zu prüfen und werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.

Returns:
Ob Analyse-Deteien geschrieben werden sollen.

getBreakpointInterval

int getBreakpointInterval()
Returns the interval between two breakpoint in minutes. If set to 0, no breakpoints will be created.

Returns:
the interval between two breakpoint in minutes.

getMaxFailedDocuments

double getMaxFailedDocuments()
Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurᅵck. (0..1)

Ist das Verhᅵlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grᅵᅵer als dieser Prozentsatz, so wird der Index verworfen.

Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink) oder die nicht ausgelesen werden konnten.

Returns:
Den maximalen Prozentsatz von gescheiterten Dokumenten zurᅵck.

getFinishedWithoutFatalsFileName

String getFinishedWithoutFatalsFileName()
Gibt den Namen der Kontrolldatei fᅵr erfolgreiche Indexerstellung zurᅵck.

Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass fatale Fehler aufgetreten sind.

Wenn keine Kontrolldatei erzeugt werden soll, dann wird null zurᅵckgegeben.

Returns:
Der Name der Kontrolldatei fᅵr erfolgreiche Indexerstellung

getFinishedWithFatalsFileName

String getFinishedWithFatalsFileName()
Gibt den Namen der Kontrolldatei fᅵr fehlerhafte Indexerstellung zurᅵck.

Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei fatale Fehler aufgetreten sind.

Wenn keine Kontrolldatei erzeugt werden soll, dann wird null zurᅵckgegeben.

Returns:
Der Name der Kontrolldatei fᅵr fehlerhafte Indexerstellung

getStoreContentForPreview

boolean getStoreContentForPreview()
Returns the flag for enabling/disabling the content-preview

Returns:
boolean true if content preview is enabled and the whole content should be stored in the index

getStartUrls

StartUrl[] getStartUrls()
Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll.

Returns:
Die StartUrls.

getHtmlParserUrlPatterns

UrlPattern[] getHtmlParserUrlPatterns()
Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu identifizieren.

Returns:
Die UrlPattern für den HTML-Parser.

getBlackList

UrlMatcher[] getBlackList()
Gets the black list.

The black list is an array of UrlMatchers, a URLs must not match to, in order to be processed.

Returns:
The black list.

getWhiteList

WhiteListEntry[] getWhiteList()
Gets the white list.

The black list is an array of WhiteListEntry, a URLs must match to, in order to be processed.

Returns:
Die Weiᅵe Liste

getValuePrefetchFields

String[] getValuePrefetchFields()
The names of the fields to prefetch the destinct values for.

Used for speeding up the search:input_fieldlist tag.

Returns:
the names of the fields to prefetch the destinct values for. May be null or empty.

getUseLinkTextAsTitleRegexList

String[] getUseLinkTextAsTitleRegexList()
Gibt die regulᅵren Ausdrᅵcke zurᅵck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.

Returns:
Die regulᅵren Ausdrᅵcke, die Dokumente bestimmen, fᅵr die der Linktext als Titel genommen werden soll.

getPreparatorSettingsList

PreparatorSettings[] getPreparatorSettingsList()
Gets the list with the preparator settings.

Returns:
The list with the preparator settings.

getCrawlerPluginSettingsList

PreparatorSettings[] getCrawlerPluginSettingsList()
Gets the list with the crawler plugin settings.

Returns:
The list with the crawler plugin settings.

getAuxiliaryFieldList

AuxiliaryField[] getAuxiliaryFieldList()
Gets the list of the auxiliary fields.

Returns:
The list of the auxiliary fields. May be null.

getCrawlerAccessControllerClass

String getCrawlerAccessControllerClass()
Gets the class name of the CrawlerAccessController to use. Returns null if no CrawlerAccessController should be used.

Returns:
The class name of the CrawlerAccessController.

getCrawlerAccessControllerJar

String getCrawlerAccessControllerJar()
Gets the name of jar file to load the CrawlerAccessController from. Returns null if the CrawlerAccessController already is in the classpath.

Returns:
The name of jar file to load the CrawlerAccessController from.

getCrawlerAccessControllerConfig

Properties getCrawlerAccessControllerConfig()
Gets the configuration of the CrawlerAccessController. May be null.

Returns:
The the configuration of the CrawlerAccessController.

getMaxSummaryLength

int getMaxSummaryLength()
Returns maximum amount of characters which will be copied from content to summary

Returns:
MaxSummaryLength

getUntokenizedFieldNames

String[] getUntokenizedFieldNames()
Returns the names of the fields that shouldn't be tokenized.

Returns:
The names of the fields that shouldn't be tokenized.

getURLCleaners

String[] getURLCleaners()
Returns the URLCleaners. URLCleaners are regex which replace parts of the URL with an empty string (in fact the remove the match from the URL.

Returns:
the paramters

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info