|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||
java.lang.Objectnet.sf.regain.crawler.config.DummyCrawlerConfig
public class DummyCrawlerConfig
Stellt alle zu konfigurierenden Einstellungen hardcodiert zur Verfügung.
| Constructor Summary | |
|---|---|
DummyCrawlerConfig()
|
|
| Method Summary | |
|---|---|
String |
getAnalyzerType()
Gibt den zu verwendenden Analyzer-Typ zur�ck. |
AuxiliaryField[] |
getAuxiliaryFieldList()
Gets the list of the auxiliary fields. |
UrlMatcher[] |
getBlackList()
Gets the black list. |
int |
getBreakpointInterval()
Returns the interval between two breakpoint in minutes. |
boolean |
getBuildIndex()
Gibt zur�ck, ob ein Suchindex erstellt werden soll. |
String |
getCrawlerAccessControllerClass()
Gets the class name of the CrawlerAccessController to use. |
Properties |
getCrawlerAccessControllerConfig()
Gets the configuration of the CrawlerAccessController. |
String |
getCrawlerAccessControllerJar()
Gets the name of jar file to load the CrawlerAccessController from. |
PreparatorSettings[] |
getCrawlerPluginSettingsList()
Gets the list with the crawler plugin settings. |
String[] |
getExclusionList()
Gibt alle Worte zur�ck, die bei der Indizierung nicht vom Analyzer ver�ndert werden sollen. |
String |
getFinishedWithFatalsFileName()
Gibt den Namen der Kontrolldatei f�r fehlerhafte Indexerstellung zur�ck. |
String |
getFinishedWithoutFatalsFileName()
Gibt den Namen der Kontrolldatei f�r erfolgreiche Indexerstellung zur�ck. |
UrlPattern[] |
getHtmlParserUrlPatterns()
Gibt die UrlPattern zur�ck, die der HTML-Parser nutzen soll, um URLs zu identifizieren. |
int |
getHttpTimeoutSecs()
Gibt den Timeout f�r HTTP-Downloads zur�ck. |
String |
getIndexDir()
Gibt das Verzeichnis zur�ck, in dem der stehen soll. |
boolean |
getLoadUnparsedUrls()
Gibt zur�ck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden. |
int |
getMaxCycleCount()
Returns the maximum count of equal occurences of path-parts in an URI. |
double |
getMaxFailedDocuments()
Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zur�ck. (0..1) Ist das Verh�lnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten gr��er als dieser Prozentsatz, so wird der Index verworfen. |
int |
getMaxFieldLength()
Returns the maximum number of terms that will be indexed for a single field in a document. |
int |
getMaxSummaryLength()
Returns maximum amount of characters which will be copied from content to summary |
PreparatorSettings[] |
getPreparatorSettingsList()
Gets the list with the preparator settings. |
String |
getProxyHost()
Gibt den Host-Namen des Proxy-Servers zur�ck. |
String |
getProxyPassword()
Gibt das Passwort f�r die Anmeldung beim Proxy-Server zur�ck. |
String |
getProxyPort()
Gibt den Port des Proxy-Servers zur�ck. |
String |
getProxyUser()
Gibt den Benutzernamen f�r die Anmeldung beim Proxy-Server zur�ck. |
StartUrl[] |
getStartUrls()
Gibt die StartUrls zur�ck, bei denen der Crawler-Proze� beginnen soll. |
String[] |
getStopWordList()
Gibt alle Worte zur�ck, die nicht indiziert werden sollen. |
boolean |
getStoreContentForPreview()
Returns the flag for enabling/disabling the content-preview |
String[] |
getUntokenizedFieldNames()
Returns the names of the fields that shouldn't be tokenized. |
String[] |
getURLCleaners()
Returns the URLCleaners. |
String[] |
getUseLinkTextAsTitleRegexList()
Gibt die regul�ren Ausdr�cke zur�ck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird. |
String |
getUserAgent()
Returns the user agent the crawler should in order to identify at the HTTP server(s). |
String[] |
getValuePrefetchFields()
The names of the fields to prefetch the destinct values for. |
WhiteListEntry[] |
getWhiteList()
Gets the white list. |
boolean |
getWriteAnalysisFiles()
Gibt zur�ck, ob Analyse-Deteien geschrieben werden sollen. |
| Methods inherited from class java.lang.Object |
|---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
| Constructor Detail |
|---|
public DummyCrawlerConfig()
| Method Detail |
|---|
public boolean getStoreContentForPreview()
getStoreContentForPreview in interface CrawlerConfigpublic String getProxyHost()
null zur�ckgegeben.
getProxyHost in interface CrawlerConfigpublic int getMaxCycleCount()
getMaxCycleCount in interface CrawlerConfigpublic String getProxyPort()
null zur�ckgegeben.
getProxyPort in interface CrawlerConfigpublic String getProxyUser()
null zur�ckgegeben.
getProxyUser in interface CrawlerConfigpublic String getProxyPassword()
null zur�ckgegeben.
getProxyPassword in interface CrawlerConfigpublic String getUserAgent()
CrawlerConfig
getUserAgent in interface CrawlerConfigpublic int getHttpTimeoutSecs()
getHttpTimeoutSecs in interface CrawlerConfigpublic boolean getLoadUnparsedUrls()
getLoadUnparsedUrls in interface CrawlerConfigpublic boolean getBuildIndex()
getBuildIndex in interface CrawlerConfigpublic String getIndexDir()
getIndexDir in interface CrawlerConfigpublic String getAnalyzerType()
getAnalyzerType in interface CrawlerConfigpublic int getMaxFieldLength()
CrawlerConfigIs <= 0 if lucene's default should be used.
getMaxFieldLength in interface CrawlerConfigpublic String[] getStopWordList()
getStopWordList in interface CrawlerConfigpublic String[] getExclusionList()
getExclusionList in interface CrawlerConfigpublic boolean getWriteAnalysisFiles()
Diese Dateien helfen, die Qualit�t der Index-Erstellung zu Prüfen und werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.
getWriteAnalysisFiles in interface CrawlerConfigpublic int getBreakpointInterval()
getBreakpointInterval in interface CrawlerConfigpublic double getMaxFailedDocuments()
Ist das Verh�lnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten gr��er als dieser Prozentsatz, so wird der Index verworfen.
Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink) oder die nicht ausgelesen werden konnten.
getMaxFailedDocuments in interface CrawlerConfigpublic String getFinishedWithoutFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
getFinishedWithoutFatalsFileName in interface CrawlerConfigpublic String getFinishedWithFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
getFinishedWithFatalsFileName in interface CrawlerConfigpublic StartUrl[] getStartUrls()
getStartUrls in interface CrawlerConfigpublic UrlPattern[] getHtmlParserUrlPatterns()
getHtmlParserUrlPatterns in interface CrawlerConfigpublic UrlMatcher[] getBlackList()
The black list is an array of UrlMatchers, a URLs must not match to, in order to be processed.
getBlackList in interface CrawlerConfigpublic WhiteListEntry[] getWhiteList()
The black list is an array of WhiteListEntry, a URLs must match to, in order to be processed.
getWhiteList in interface CrawlerConfigpublic String[] getValuePrefetchFields()
CrawlerConfigUsed for speeding up the search:input_fieldlist tag.
getValuePrefetchFields in interface CrawlerConfigpublic String[] getUseLinkTextAsTitleRegexList()
getUseLinkTextAsTitleRegexList in interface CrawlerConfigpublic PreparatorSettings[] getPreparatorSettingsList()
getPreparatorSettingsList in interface CrawlerConfigpublic PreparatorSettings[] getCrawlerPluginSettingsList()
getCrawlerPluginSettingsList in interface CrawlerConfigpublic AuxiliaryField[] getAuxiliaryFieldList()
getAuxiliaryFieldList in interface CrawlerConfigpublic String getCrawlerAccessControllerClass()
CrawlerAccessController to use.
Returns null if no CrawlerAccessController should be used.
getCrawlerAccessControllerClass in interface CrawlerConfigpublic String getCrawlerAccessControllerJar()
CrawlerAccessController from.
Returns null if the CrawlerAccessController already is in the
classpath.
getCrawlerAccessControllerJar in interface CrawlerConfigpublic Properties getCrawlerAccessControllerConfig()
CrawlerAccessController. May be
null.
getCrawlerAccessControllerConfig in interface CrawlerConfigpublic String[] getUntokenizedFieldNames()
getUntokenizedFieldNames in interface CrawlerConfigpublic int getMaxSummaryLength()
getMaxSummaryLength in interface CrawlerConfigpublic String[] getURLCleaners()
getURLCleaners in interface CrawlerConfig
|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||