Regain 2.1.0-STABLE API

net.sf.regain.crawler
Class CrawlerJob

java.lang.Object
  extended by net.sf.regain.crawler.CrawlerJob

public class CrawlerJob
extends Object

Hilfsklasse für den Crawler.

enthält alle Daten, die für die Bearbeitung einer URL n�tig sind.

Der Crawler erzeugt für jede akzeptierte URL eine CrawlerJob-Instanz, die dann nacheinander abgearbeitet werden.

Author:
Til Schneider, www.murfman.de

Field Summary
private  boolean mShouldBeIndexed
          Gibt an, ob das Dokument indiziert werden soll.
private  boolean mShouldBeParsed
          Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.
private  String mSourceLinkText
          Der Text des Links in dem die URL gefunden wurde.
private  String mSourceUrl
          Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.
private  String mUrl
          Die URL des zu bearbeitenden Dokuments.
 
Constructor Summary
CrawlerJob(String url, String sourceUrl, String sourceLinkText, boolean shouldBeParsed, boolean shouldBeIndexed)
          Erzeugt eine neue CrawlerJob-Instanz.
 
Method Summary
 String getSourceLinkText()
          Gibt den Text des Links zurück in dem die URL gefunden wurde.
 String getSourceUrl()
          Gibt Die URL des Dokuments zurück, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.
 String getUrl()
          Gibt die URL des zu bearbeitenden Dokuments zurück.
 boolean shouldBeIndexed()
          Gibt zurück, ob das Dokument indiziert werden soll.
 boolean shouldBeParsed()
          Gibt zurück, ob das Dokument nach weiteren URLs durchsucht werden soll.
 
Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

Field Detail

mUrl

private String mUrl
Die URL des zu bearbeitenden Dokuments.


mSourceUrl

private String mSourceUrl
Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.


mSourceLinkText

private String mSourceLinkText
Der Text des Links in dem die URL gefunden wurde. Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.


mShouldBeParsed

private boolean mShouldBeParsed
Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.


mShouldBeIndexed

private boolean mShouldBeIndexed
Gibt an, ob das Dokument indiziert werden soll.

Constructor Detail

CrawlerJob

public CrawlerJob(String url,
                  String sourceUrl,
                  String sourceLinkText,
                  boolean shouldBeParsed,
                  boolean shouldBeIndexed)
Erzeugt eine neue CrawlerJob-Instanz.

Parameters:
url - Die URL des zu bearbeitenden Dokuments.
sourceUrl - Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.
sourceLinkText - Der Text des Links in dem die URL gefunden wurde. Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.
shouldBeParsed - Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.
shouldBeIndexed - Gibt an, ob das Dokument indiziert werden soll.
Method Detail

getUrl

public String getUrl()
Gibt die URL des zu bearbeitenden Dokuments zurück.

Returns:
Die URL des zu bearbeitenden Dokuments.

getSourceUrl

public String getSourceUrl()
Gibt Die URL des Dokuments zurück, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.

Returns:
Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.

getSourceLinkText

public String getSourceLinkText()
Gibt den Text des Links zurück in dem die URL gefunden wurde.

Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.

Returns:
Der Text des Links zurück in dem die URL gefunden wurde.

shouldBeParsed

public boolean shouldBeParsed()
Gibt zurück, ob das Dokument nach weiteren URLs durchsucht werden soll.

Returns:
Ob das Dokument nach weiteren URLs durchsucht werden soll.

shouldBeIndexed

public boolean shouldBeIndexed()
Gibt zurück, ob das Dokument indiziert werden soll.

Returns:
Ob das Dokument indiziert werden soll.

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info