|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
java.lang.Objectnet.sf.regain.crawler.config.DummyCrawlerConfig
public class DummyCrawlerConfig
Stellt alle zu konfigurierenden Einstellungen hardcodiert zur Verfügung.
Constructor Summary | |
---|---|
DummyCrawlerConfig()
|
Method Summary | |
---|---|
String |
getAnalyzerType()
Gibt den zu verwendenden Analyzer-Typ zur�ck. |
AuxiliaryField[] |
getAuxiliaryFieldList()
Gets the list of the auxiliary fields. |
UrlMatcher[] |
getBlackList()
Gets the black list. |
int |
getBreakpointInterval()
Returns the interval between two breakpoint in minutes. |
boolean |
getBuildIndex()
Gibt zur�ck, ob ein Suchindex erstellt werden soll. |
String |
getCrawlerAccessControllerClass()
Gets the class name of the CrawlerAccessController to use. |
Properties |
getCrawlerAccessControllerConfig()
Gets the configuration of the CrawlerAccessController . |
String |
getCrawlerAccessControllerJar()
Gets the name of jar file to load the CrawlerAccessController from. |
PreparatorSettings[] |
getCrawlerPluginSettingsList()
Gets the list with the crawler plugin settings. |
String[] |
getExclusionList()
Gibt alle Worte zur�ck, die bei der Indizierung nicht vom Analyzer ver�ndert werden sollen. |
String |
getFinishedWithFatalsFileName()
Gibt den Namen der Kontrolldatei f�r fehlerhafte Indexerstellung zur�ck. |
String |
getFinishedWithoutFatalsFileName()
Gibt den Namen der Kontrolldatei f�r erfolgreiche Indexerstellung zur�ck. |
UrlPattern[] |
getHtmlParserUrlPatterns()
Gibt die UrlPattern zur�ck, die der HTML-Parser nutzen soll, um URLs zu identifizieren. |
int |
getHttpTimeoutSecs()
Gibt den Timeout f�r HTTP-Downloads zur�ck. |
String |
getIndexDir()
Gibt das Verzeichnis zur�ck, in dem der stehen soll. |
boolean |
getLoadUnparsedUrls()
Gibt zur�ck, ob URLs geladen werden sollen, die weder durchsucht noch indiziert werden. |
int |
getMaxCycleCount()
Returns the maximum count of equal occurences of path-parts in an URI. |
double |
getMaxFailedDocuments()
Gibt den maximalen Prozentsatz von gescheiterten Dokumenten zur�ck. (0..1) Ist das Verh�lnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten gr��er als dieser Prozentsatz, so wird der Index verworfen. |
int |
getMaxFieldLength()
Returns the maximum number of terms that will be indexed for a single field in a document. |
int |
getMaxSummaryLength()
Returns maximum amount of characters which will be copied from content to summary |
PreparatorSettings[] |
getPreparatorSettingsList()
Gets the list with the preparator settings. |
String |
getProxyHost()
Gibt den Host-Namen des Proxy-Servers zur�ck. |
String |
getProxyPassword()
Gibt das Passwort f�r die Anmeldung beim Proxy-Server zur�ck. |
String |
getProxyPort()
Gibt den Port des Proxy-Servers zur�ck. |
String |
getProxyUser()
Gibt den Benutzernamen f�r die Anmeldung beim Proxy-Server zur�ck. |
StartUrl[] |
getStartUrls()
Gibt die StartUrls zur�ck, bei denen der Crawler-Proze� beginnen soll. |
String[] |
getStopWordList()
Gibt alle Worte zur�ck, die nicht indiziert werden sollen. |
boolean |
getStoreContentForPreview()
Returns the flag for enabling/disabling the content-preview |
String[] |
getUntokenizedFieldNames()
Returns the names of the fields that shouldn't be tokenized. |
String[] |
getURLCleaners()
Returns the URLCleaners. |
String[] |
getUseLinkTextAsTitleRegexList()
Gibt die regul�ren Ausdr�cke zur�ck, auf die die URL eines Dokuments passen muss, damit anstatt des wirklichen Dokumententitels der Text des Links, der auf das Dokument gezeigt hat, als Dokumententitel genutzt wird. |
String |
getUserAgent()
Returns the user agent the crawler should in order to identify at the HTTP server(s). |
String[] |
getValuePrefetchFields()
The names of the fields to prefetch the destinct values for. |
WhiteListEntry[] |
getWhiteList()
Gets the white list. |
boolean |
getWriteAnalysisFiles()
Gibt zur�ck, ob Analyse-Deteien geschrieben werden sollen. |
Methods inherited from class java.lang.Object |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
Constructor Detail |
---|
public DummyCrawlerConfig()
Method Detail |
---|
public boolean getStoreContentForPreview()
getStoreContentForPreview
in interface CrawlerConfig
public String getProxyHost()
null
zur�ckgegeben.
getProxyHost
in interface CrawlerConfig
public int getMaxCycleCount()
getMaxCycleCount
in interface CrawlerConfig
public String getProxyPort()
null
zur�ckgegeben.
getProxyPort
in interface CrawlerConfig
public String getProxyUser()
null
zur�ckgegeben.
getProxyUser
in interface CrawlerConfig
public String getProxyPassword()
null
zur�ckgegeben.
getProxyPassword
in interface CrawlerConfig
public String getUserAgent()
CrawlerConfig
getUserAgent
in interface CrawlerConfig
public int getHttpTimeoutSecs()
getHttpTimeoutSecs
in interface CrawlerConfig
public boolean getLoadUnparsedUrls()
getLoadUnparsedUrls
in interface CrawlerConfig
public boolean getBuildIndex()
getBuildIndex
in interface CrawlerConfig
public String getIndexDir()
getIndexDir
in interface CrawlerConfig
public String getAnalyzerType()
getAnalyzerType
in interface CrawlerConfig
public int getMaxFieldLength()
CrawlerConfig
Is <= 0 if lucene's default should be used.
getMaxFieldLength
in interface CrawlerConfig
public String[] getStopWordList()
getStopWordList
in interface CrawlerConfig
public String[] getExclusionList()
getExclusionList
in interface CrawlerConfig
public boolean getWriteAnalysisFiles()
Diese Dateien helfen, die Qualit�t der Index-Erstellung zu Prüfen und werden in einem Unterverzeichnis im Index-Verzeichnis angelegt.
getWriteAnalysisFiles
in interface CrawlerConfig
public int getBreakpointInterval()
getBreakpointInterval
in interface CrawlerConfig
public double getMaxFailedDocuments()
Ist das Verh�lnis von gescheiterten Dokumenten zur Gesamtzahl von Dokumenten gr��er als dieser Prozentsatz, so wird der Index verworfen.
Gescheiterte Dokumente sind Dokumente die es entweder nicht gibt (Deadlink) oder die nicht ausgelesen werden konnten.
getMaxFailedDocuments
in interface CrawlerConfig
public String getFinishedWithoutFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, ohne dass fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
getFinishedWithoutFatalsFileName
in interface CrawlerConfig
public String getFinishedWithFatalsFileName()
Diese Datei wird erzeugt, wenn der Index erstellt wurde, wobei fatale Fehler aufgetreten sind.
Wenn keine Kontrolldatei erzeugt werden soll, dann wird null
zur�ckgegeben.
getFinishedWithFatalsFileName
in interface CrawlerConfig
public StartUrl[] getStartUrls()
getStartUrls
in interface CrawlerConfig
public UrlPattern[] getHtmlParserUrlPatterns()
getHtmlParserUrlPatterns
in interface CrawlerConfig
public UrlMatcher[] getBlackList()
The black list is an array of UrlMatchers, a URLs must not match to, in order to be processed.
getBlackList
in interface CrawlerConfig
public WhiteListEntry[] getWhiteList()
The black list is an array of WhiteListEntry, a URLs must match to, in order to be processed.
getWhiteList
in interface CrawlerConfig
public String[] getValuePrefetchFields()
CrawlerConfig
Used for speeding up the search:input_fieldlist tag.
getValuePrefetchFields
in interface CrawlerConfig
public String[] getUseLinkTextAsTitleRegexList()
getUseLinkTextAsTitleRegexList
in interface CrawlerConfig
public PreparatorSettings[] getPreparatorSettingsList()
getPreparatorSettingsList
in interface CrawlerConfig
public PreparatorSettings[] getCrawlerPluginSettingsList()
getCrawlerPluginSettingsList
in interface CrawlerConfig
public AuxiliaryField[] getAuxiliaryFieldList()
getAuxiliaryFieldList
in interface CrawlerConfig
public String getCrawlerAccessControllerClass()
CrawlerAccessController
to use.
Returns null
if no CrawlerAccessController should be used.
getCrawlerAccessControllerClass
in interface CrawlerConfig
public String getCrawlerAccessControllerJar()
CrawlerAccessController
from.
Returns null
if the CrawlerAccessController already is in the
classpath.
getCrawlerAccessControllerJar
in interface CrawlerConfig
public Properties getCrawlerAccessControllerConfig()
CrawlerAccessController
. May be
null
.
getCrawlerAccessControllerConfig
in interface CrawlerConfig
public String[] getUntokenizedFieldNames()
getUntokenizedFieldNames
in interface CrawlerConfig
public int getMaxSummaryLength()
getMaxSummaryLength
in interface CrawlerConfig
public String[] getURLCleaners()
getURLCleaners
in interface CrawlerConfig
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |