|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
java.lang.Objectnet.sf.regain.crawler.CrawlerJob
public class CrawlerJob
Hilfsklasse für den Crawler.
enthält alle Daten, die für die Bearbeitung einer URL n�tig sind.
Der Crawler erzeugt für jede akzeptierte URL eine CrawlerJob-Instanz, die dann nacheinander abgearbeitet werden.
Field Summary | |
---|---|
private boolean |
mShouldBeIndexed
Gibt an, ob das Dokument indiziert werden soll. |
private boolean |
mShouldBeParsed
Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll. |
private String |
mSourceLinkText
Der Text des Links in dem die URL gefunden wurde. |
private String |
mSourceUrl
Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde. |
private String |
mUrl
Die URL des zu bearbeitenden Dokuments. |
Constructor Summary | |
---|---|
CrawlerJob(String url,
String sourceUrl,
String sourceLinkText,
boolean shouldBeParsed,
boolean shouldBeIndexed)
Erzeugt eine neue CrawlerJob-Instanz. |
Method Summary | |
---|---|
String |
getSourceLinkText()
Gibt den Text des Links zurück in dem die URL gefunden wurde. |
String |
getSourceUrl()
Gibt Die URL des Dokuments zurück, in dem die URL des zu bearbeitenden Dokuments gefunden wurde. |
String |
getUrl()
Gibt die URL des zu bearbeitenden Dokuments zurück. |
boolean |
shouldBeIndexed()
Gibt zurück, ob das Dokument indiziert werden soll. |
boolean |
shouldBeParsed()
Gibt zurück, ob das Dokument nach weiteren URLs durchsucht werden soll. |
Methods inherited from class java.lang.Object |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
Field Detail |
---|
private String mUrl
private String mSourceUrl
private String mSourceLinkText
null
,
falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder
wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.
private boolean mShouldBeParsed
private boolean mShouldBeIndexed
Constructor Detail |
---|
public CrawlerJob(String url, String sourceUrl, String sourceLinkText, boolean shouldBeParsed, boolean shouldBeIndexed)
url
- Die URL des zu bearbeitenden Dokuments.sourceUrl
- Die URL des Dokuments, in dem die URL des zu bearbeitenden
Dokuments gefunden wurde.sourceLinkText
- Der Text des Links in dem die URL gefunden wurde. Ist
null
, falls die URL nicht in einem Link (also einem
a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text
vorhanden ist.shouldBeParsed
- Gibt an, ob das Dokument nach weiteren URLs
durchsucht werden soll.shouldBeIndexed
- Gibt an, ob das Dokument indiziert werden soll.Method Detail |
---|
public String getUrl()
public String getSourceUrl()
public String getSourceLinkText()
Ist null
, falls die URL nicht in einem Link (also einem a-Tag)
gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.
public boolean shouldBeParsed()
public boolean shouldBeIndexed()
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |