CrawlerConfig (API documentation for Regain 2.1.0-STABLE)

Overview

Package

Class

Tree

Deprecated

Index

Help

Regain 2.1.0-STABLE API

PREV CLASS NEXT CLASS

FRAMES NO FRAMES

SUMMARY: NESTED | FIELD | CONSTR | METHOD

DETAIL: FIELD | CONSTR | METHOD

net.sf.regain.crawler.config
Interface CrawlerConfig

All Known Implementing Classes:: DummyCrawlerConfig, XmlCrawlerConfig

public interface CrawlerConfig

Stellt alle zu konfigurierenden Einstellungen zur Verfï¿œgung.

Author:: Til Schneider, www.murfman.de

Method Summary
`String`	`getAnalyzerType()` Gibt den zu verwendenden Analyzer-Typ zurï¿œck.
`AuxiliaryField[]`	`getAuxiliaryFieldList()` Gets the list of the auxiliary fields.
`UrlMatcher[]`	`getBlackList()` Gets the black list.
`int`	`getBreakpointInterval()` Returns the interval between two breakpoint in minutes.
`boolean`	`getBuildIndex()` Gibt zurï¿œck, ob ein Suchindex erstellt werden soll.
`String`	`getCrawlerAccessControllerClass()` Gets the class name of the `CrawlerAccessController` to use.
`Properties`	`getCrawlerAccessControllerConfig()` Gets the configuration of the `CrawlerAccessController`.
`String`	`getCrawlerAccessControllerJar()` Gets the name of jar file to load the `CrawlerAccessController` from.
`PreparatorSettings[]`	`getCrawlerPluginSettingsList()` Gets the list with the crawler plugin settings.
`String[]`	`getExclusionList()` Gibt alle Worte zurï¿œck, die bei der Indizierung nicht vom Analyzer verändert werden sollen.
`String`	`getFinishedWithFatalsFileName()` Gibt den Namen der Kontrolldatei fï¿œr fehlerhafte Indexerstellung zurï¿œck.
`String`	`getFinishedWithoutFatalsFileName()` Gibt den Namen der Kontrolldatei fï¿œr erfolgreiche Indexerstellung zurï¿œck.
`UrlPattern[]`	`getHtmlParserUrlPatterns()` Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu identifizieren.
`int`	`getHttpTimeoutSecs()` Gibt den Timeout fï¿œr HTTP-Downloads zurï¿œck.
`String`	`getIndexDir()` Gibt das Verzeichnis zurï¿œck, in dem der Suchindex stehen soll.
`boolean`	`getLoadUnparsedUrls()` Gibt zurï¿œck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.
`int`	`getMaxCycleCount()` Returns the maximum count of equal occurences of path-parts in an URI.
`double`	`getMaxFailedDocuments()` Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurï¿œck. (0..1) Ist das Verhï¿œlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grï¿œï¿œer als dieser Prozentsatz, so wird der Index verworfen.
`int`	`getMaxFieldLength()` Returns the maximum number of terms that will be indexed for a single field in a document.
`int`	`getMaxSummaryLength()` Returns maximum amount of characters which will be copied from content to summary
`PreparatorSettings[]`	`getPreparatorSettingsList()` Gets the list with the preparator settings.
`String`	`getProxyHost()` Gibt den Host-Namen des Proxy-Servers zurï¿œck.
`String`	`getProxyPassword()` Gibt das Passwort fï¿œr die Anmeldung beim Proxy-Server zurï¿œck.
`String`	`getProxyPort()` Gibt den Port des Proxy-Servers zurï¿œck.
`String`	`getProxyUser()` Gibt den Benutzernamen fï¿œr die Anmeldung beim Proxy-Server zurï¿œck.
`StartUrl[]`	`getStartUrls()` Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll.
`String[]`	`getStopWordList()` Gibt alle Worte zurï¿œck, die nicht indiziert werden sollen.
`boolean`	`getStoreContentForPreview()` Returns the flag for enabling/disabling the content-preview
`String[]`	`getUntokenizedFieldNames()` Returns the names of the fields that shouldn't be tokenized.
`String[]`	`getURLCleaners()` Returns the URLCleaners.
`String[]`	`getUseLinkTextAsTitleRegexList()` Gibt die regulï¿œren Ausdrï¿œcke zurï¿œck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.
`String`	`getUserAgent()` Returns the user agent the crawler should in order to identify at the HTTP server(s).
`String[]`	`getValuePrefetchFields()` The names of the fields to prefetch the destinct values for.
`WhiteListEntry[]`	`getWhiteList()` Gets the white list.
`boolean`	`getWriteAnalysisFiles()` Gibt zurï¿œck, ob Analyse-Deteien geschrieben werden sollen.

Method Detail

getProxyHost

String getProxyHost()

Gibt den Host-Namen des Proxy-Servers zurï¿œck. Wenn kein Host konfiguriert wurde, wird null zurï¿œckgegeben.

Returns:: Der Host-Namen des Proxy-Servers.

getProxyPort

String getProxyPort()

Gibt den Port des Proxy-Servers zurï¿œck. Wenn kein Port konfiguriert wurde, wird null zurï¿œckgegeben.

Returns:: Der Port des Proxy-Servers.

getMaxCycleCount

int getMaxCycleCount()

Returns the maximum count of equal occurences of path-parts in an URI.

Returns:: MaxCycleCount

getProxyUser

String getProxyUser()

Gibt den Benutzernamen fï¿œr die Anmeldung beim Proxy-Server zurï¿œck. Wenn kein Benutzernamen konfiguriert wurde, wird null zurï¿œckgegeben.

Returns:: Der Benutzernamen fï¿œr die Anmeldung beim Proxy-Server.

getProxyPassword

String getProxyPassword()

Gibt das Passwort fï¿œr die Anmeldung beim Proxy-Server zurï¿œck. Wenn kein Passwort konfiguriert wurde, wird null zurï¿œckgegeben.

Returns:: Das Passwort fï¿œr die Anmeldung beim Proxy-Server.

getHttpTimeoutSecs

int getHttpTimeoutSecs()

Gibt den Timeout fï¿œr HTTP-Downloads zurï¿œck. Dieser Wert bestimmt die maximale Zeit in Sekunden, die ein HTTP-Download insgesamt dauern darf.

Returns:: Den Timeout fï¿œr HTTP-Downloads

getUserAgent

String getUserAgent()

Returns the user agent the crawler should in order to identify at the HTTP server(s). If null, the default (Java) user agent should be used.

Returns:: the user agent to use.

getLoadUnparsedUrls

boolean getLoadUnparsedUrls()

Gibt zurï¿œck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.

Returns:: Ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden.

getBuildIndex

boolean getBuildIndex()

Gibt zurï¿œck, ob ein Suchindex erstellt werden soll.

Returns:: Ob ein Suchindex erstellt werden soll.

getIndexDir

String getIndexDir()

Gibt das Verzeichnis zurï¿œck, in dem der Suchindex stehen soll.

Returns:: Das Verzeichnis, in dem der Suchindex stehen soll.

getAnalyzerType

String getAnalyzerType()

Gibt den zu verwendenden Analyzer-Typ zurï¿œck.

Returns:: en zu verwendenden Analyzer-Typ

getMaxFieldLength

int getMaxFieldLength()

Returns the maximum number of terms that will be indexed for a single field in a document.

Is <= 0 if lucene's default should be used.

Returns:: the maximum number of terms per document.

getStopWordList

String[] getStopWordList()

Gibt alle Worte zurï¿œck, die nicht indiziert werden sollen.

Returns:: Alle Worte, die nicht indiziert werden sollen.

getExclusionList

String[] getExclusionList()

Gibt alle Worte zurï¿œck, die bei der Indizierung nicht vom Analyzer verändert werden sollen.

Returns:: Alle Worte, die bei der Indizierung nicht vom Analyzer verändert werden sollen.

getWriteAnalysisFiles

boolean getWriteAnalysisFiles()

Gibt zurï¿œck, ob Analyse-Deteien geschrieben werden sollen.

Diese Dateien helfen, die Qualitï¿œt der Index-Erstellung zu prüfen und werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.

Returns:: Ob Analyse-Deteien geschrieben werden sollen.

getBreakpointInterval

int getBreakpointInterval()

Returns the interval between two breakpoint in minutes. If set to 0, no breakpoints will be created.

Returns:: the interval between two breakpoint in minutes.

getMaxFailedDocuments

double getMaxFailedDocuments()

Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zurï¿œck. (0..1)

Ist das Verhï¿œlnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten grï¿œï¿œer als dieser Prozentsatz, so wird der Index verworfen.

Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink) oder die nicht ausgelesen werden konnten.

Returns:: Den maximalen Prozentsatz von gescheiterten Dokumenten zurï¿œck.

getFinishedWithoutFatalsFileName

String getFinishedWithoutFatalsFileName()

Gibt den Namen der Kontrolldatei fï¿œr erfolgreiche Indexerstellung zurï¿œck.

Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass fatale Fehler aufgetreten sind.

Wenn keine Kontrolldatei erzeugt werden soll, dann wird null zurï¿œckgegeben.

Returns:: Der Name der Kontrolldatei fï¿œr erfolgreiche Indexerstellung

getFinishedWithFatalsFileName

String getFinishedWithFatalsFileName()

Gibt den Namen der Kontrolldatei fï¿œr fehlerhafte Indexerstellung zurï¿œck.

Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei fatale Fehler aufgetreten sind.

Wenn keine Kontrolldatei erzeugt werden soll, dann wird null zurï¿œckgegeben.

Returns:: Der Name der Kontrolldatei fï¿œr fehlerhafte Indexerstellung

getStoreContentForPreview

boolean getStoreContentForPreview()

Returns the flag for enabling/disabling the content-preview

Returns:: boolean true if content preview is enabled and the whole content should be stored in the index

getStartUrls

StartUrl[] getStartUrls()

Gibt die StartUrls zurück, bei denen der Crawler-Prozeß beginnen soll.

Returns:: Die StartUrls.

getHtmlParserUrlPatterns

UrlPattern[] getHtmlParserUrlPatterns()

Gibt die UrlPattern zurück, die der HTML-Parser nutzen soll, um URLs zu identifizieren.

Returns:: Die UrlPattern für den HTML-Parser.

getBlackList

UrlMatcher[] getBlackList()

Gets the black list.

The black list is an array of UrlMatchers, a URLs must not match to, in order to be processed.

Returns:: The black list.

getWhiteList

WhiteListEntry[] getWhiteList()

Gets the white list.

The black list is an array of WhiteListEntry, a URLs must match to, in order to be processed.

Returns:: Die Weiï¿œe Liste

getValuePrefetchFields

String[] getValuePrefetchFields()

The names of the fields to prefetch the destinct values for.

Used for speeding up the search:input_fieldlist tag.

Returns:: the names of the fields to prefetch the destinct values for. May be null or empty.

getUseLinkTextAsTitleRegexList

String[] getUseLinkTextAsTitleRegexList()

Gibt die regulï¿œren Ausdrï¿œcke zurï¿œck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird.

Returns:: Die regulï¿œren Ausdrï¿œcke, die Dokumente bestimmen, fï¿œr die der Linktext als Titel genommen werden soll.

getPreparatorSettingsList

PreparatorSettings[] getPreparatorSettingsList()

Gets the list with the preparator settings.

Returns:: The list with the preparator settings.

getCrawlerPluginSettingsList

PreparatorSettings[] getCrawlerPluginSettingsList()

Gets the list with the crawler plugin settings.

Returns:: The list with the crawler plugin settings.

getAuxiliaryFieldList

AuxiliaryField[] getAuxiliaryFieldList()

Gets the list of the auxiliary fields.

Returns:: The list of the auxiliary fields. May be null.

getCrawlerAccessControllerClass

String getCrawlerAccessControllerClass()

Gets the class name of the CrawlerAccessController to use. Returns null if no CrawlerAccessController should be used.

Returns:: The class name of the CrawlerAccessController.

getCrawlerAccessControllerJar

String getCrawlerAccessControllerJar()

Gets the name of jar file to load the CrawlerAccessController from. Returns null if the CrawlerAccessController already is in the classpath.

Returns:: The name of jar file to load the CrawlerAccessController from.

getCrawlerAccessControllerConfig

Properties getCrawlerAccessControllerConfig()

Gets the configuration of the CrawlerAccessController. May be null.

Returns:: The the configuration of the CrawlerAccessController.

getMaxSummaryLength

int getMaxSummaryLength()

Returns maximum amount of characters which will be copied from content to summary

Returns:: MaxSummaryLength

getUntokenizedFieldNames

String[] getUntokenizedFieldNames()

Returns the names of the fields that shouldn't be tokenized.

Returns:: The names of the fields that shouldn't be tokenized.

getURLCleaners

String[] getURLCleaners()

Returns the URLCleaners. URLCleaners are regex which replace parts of the URL with an empty string (in fact the remove the match from the URL.

Returns:: the paramters