|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
public interface CrawlerConfig
Stellt alle zu konfigurierenden Einstellungen zur Verfᅵgung.
Method Summary | |
---|---|
String |
getAnalyzerType()
Gibt den zu verwendenden Analyzer-Typ zurᅵck. |
AuxiliaryField[] |
getAuxiliaryFieldList()
Gets the list of the auxiliary fields. |
UrlMatcher[] |
getBlackList()
Gets the black list. |
int |
getBreakpointInterval()
Returns the interval between two breakpoint in minutes. |
boolean |
getBuildIndex()
Gibt zurᅵck, ob ein Suchindex erstellt werden soll. |
String |
getCrawlerAccessControllerClass()
Gets the class name of the CrawlerAccessController to use. |
Properties |
getCrawlerAccessControllerConfig()
Gets the configuration of the CrawlerAccessController . |
String |
getCrawlerAccessControllerJar()
Gets the name of jar file to load the CrawlerAccessController from. |
PreparatorSettings[] |
getCrawlerPluginSettingsList()
Gets the list with the crawler plugin settings. |
String[] |
getExclusionList()
Gibt alle Worte zurᅵck, die bei der Indizierung nicht vom Analyzer verändert werden sollen. |
String |
getFinishedWithFatalsFileName()
Gibt den Namen der Kontrolldatei fᅵr fehlerhafte Indexerstellung zurᅵck. |
String |
getFinishedWithoutFatalsFileName()
Gibt den Namen der Kontrolldatei fᅵr erfolgreiche Indexerstellung zurᅵck. |
UrlPattern[] |
getHtmlParserUrlPatterns()
Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu identifizieren. |
int |
getHttpTimeoutSecs()
Gibt den Timeout fᅵr HTTP-Downloads zurᅵck. |
String |
getIndexDir()
Gibt das Verzeichnis zurᅵck, in dem der Suchindex stehen soll. |
boolean |
getLoadUnparsedUrls()
Gibt zurᅵck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden. |
int |
getMaxCycleCount()
Returns the maximum count of equal occurences of path-parts in an URI. |
double |
getMaxFailedDocuments()
Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurᅵck. (0..1) Ist das Verhᅵlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grᅵᅵer als dieser Prozentsatz, so wird der Index verworfen. |
int |
getMaxFieldLength()
Returns the maximum number of terms that will be indexed for a single field in a document. |
int |
getMaxSummaryLength()
Returns maximum amount of characters which will be copied from content to summary |
PreparatorSettings[] |
getPreparatorSettingsList()
Gets the list with the preparator settings. |
String |
getProxyHost()
Gibt den Host-Namen des Proxy-Servers zurᅵck. |
String |
getProxyPassword()
Gibt das Passwort fᅵr die Anmeldung beim Proxy-Server zurᅵck. |
String |
getProxyPort()
Gibt den Port des Proxy-Servers zurᅵck. |
String |
getProxyUser()
Gibt den Benutzernamen fᅵr die Anmeldung beim Proxy-Server zurᅵck. |
StartUrl[] |
getStartUrls()
Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll. |
String[] |
getStopWordList()
Gibt alle Worte zurᅵck, die nicht indiziert werden sollen. |
boolean |
getStoreContentForPreview()
Returns the flag for enabling/disabling the content-preview |
String[] |
getUntokenizedFieldNames()
Returns the names of the fields that shouldn't be tokenized. |
String[] |
getURLCleaners()
Returns the URLCleaners. |
String[] |
getUseLinkTextAsTitleRegexList()
Gibt die regulᅵren Ausdrᅵcke zurᅵck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird. |
String |
getUserAgent()
Returns the user agent the crawler should in order to identify at the HTTP server(s). |
String[] |
getValuePrefetchFields()
The names of the fields to prefetch the destinct values for. |
WhiteListEntry[] |
getWhiteList()
Gets the white list. |
boolean |
getWriteAnalysisFiles()
Gibt zurᅵck, ob Analyse-Deteien geschrieben werden sollen. |
Method Detail |
---|
String getProxyHost()
null
zurᅵckgegeben.
String getProxyPort()
null
zurᅵckgegeben.
int getMaxCycleCount()
String getProxyUser()
null
zurᅵckgegeben.
String getProxyPassword()
null
zurᅵckgegeben.
int getHttpTimeoutSecs()
String getUserAgent()
boolean getLoadUnparsedUrls()
boolean getBuildIndex()
String getIndexDir()
String getAnalyzerType()
int getMaxFieldLength()
Is <= 0 if lucene's default should be used.
String[] getStopWordList()
String[] getExclusionList()
boolean getWriteAnalysisFiles()
Diese Dateien helfen, die Qualitᅵt der Index-Erstellung zu prüfen und werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.
int getBreakpointInterval()
double getMaxFailedDocuments()
Ist das Verhᅵlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grᅵᅵer als dieser Prozentsatz, so wird der Index verworfen.
Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink) oder die nicht ausgelesen werden konnten.
String getFinishedWithoutFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zurᅵckgegeben.
String getFinishedWithFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zurᅵckgegeben.
boolean getStoreContentForPreview()
StartUrl[] getStartUrls()
UrlPattern[] getHtmlParserUrlPatterns()
UrlMatcher[] getBlackList()
The black list is an array of UrlMatchers, a URLs must not match to, in order to be processed.
WhiteListEntry[] getWhiteList()
The black list is an array of WhiteListEntry, a URLs must match to, in order to be processed.
String[] getValuePrefetchFields()
Used for speeding up the search:input_fieldlist tag.
String[] getUseLinkTextAsTitleRegexList()
PreparatorSettings[] getPreparatorSettingsList()
PreparatorSettings[] getCrawlerPluginSettingsList()
AuxiliaryField[] getAuxiliaryFieldList()
String getCrawlerAccessControllerClass()
CrawlerAccessController
to use.
Returns null
if no CrawlerAccessController should be used.
String getCrawlerAccessControllerJar()
CrawlerAccessController
from.
Returns null
if the CrawlerAccessController already is in the
classpath.
Properties getCrawlerAccessControllerConfig()
CrawlerAccessController
. May be
null
.
int getMaxSummaryLength()
String[] getUntokenizedFieldNames()
String[] getURLCleaners()
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |