CrawlerJob (API documentation for Regain 2.1.0-STABLE)

Overview

Package

Class

Tree

Deprecated

Index

Help

Regain 2.1.0-STABLE API

PREV CLASS NEXT CLASS

FRAMES NO FRAMES

SUMMARY: NESTED | FIELD | CONSTR | METHOD

DETAIL: FIELD | CONSTR | METHOD

net.sf.regain.crawler
Class CrawlerJob

java.lang.Object
  net.sf.regain.crawler.CrawlerJob

public class CrawlerJob
extends Object
extends Object

Hilfsklasse für den Crawler.

enthält alle Daten, die für die Bearbeitung einer URL n�tig sind.

Der Crawler erzeugt für jede akzeptierte URL eine CrawlerJob-Instanz, die dann nacheinander abgearbeitet werden.

Author:: Til Schneider, www.murfman.de

Field Summary
`private boolean`	`mShouldBeIndexed` Gibt an, ob das Dokument indiziert werden soll.
`private boolean`	`mShouldBeParsed` Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.
`private String`	`mSourceLinkText` Der Text des Links in dem die URL gefunden wurde.
`private String`	`mSourceUrl` Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.
`private String`	`mUrl` Die URL des zu bearbeitenden Dokuments.

Constructor Summary
`CrawlerJob(String url, String sourceUrl, String sourceLinkText, boolean shouldBeParsed, boolean shouldBeIndexed)` Erzeugt eine neue CrawlerJob-Instanz.

Method Summary
`String`	`getSourceLinkText()` Gibt den Text des Links zurück in dem die URL gefunden wurde.
`String`	`getSourceUrl()` Gibt Die URL des Dokuments zurück, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.
`String`	`getUrl()` Gibt die URL des zu bearbeitenden Dokuments zurück.
`boolean`	`shouldBeIndexed()` Gibt zurück, ob das Dokument indiziert werden soll.
`boolean`	`shouldBeParsed()` Gibt zurück, ob das Dokument nach weiteren URLs durchsucht werden soll.

Methods inherited from class java.lang.Object
`clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait`

Field Detail

mUrl

private String mUrl

Die URL des zu bearbeitenden Dokuments.

mSourceUrl

private String mSourceUrl

Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.

mSourceLinkText

private String mSourceLinkText

Der Text des Links in dem die URL gefunden wurde. Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.

mShouldBeParsed

private boolean mShouldBeParsed

Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.

mShouldBeIndexed

private boolean mShouldBeIndexed

Gibt an, ob das Dokument indiziert werden soll.

Constructor Detail

CrawlerJob

public CrawlerJob(String url,
                  String sourceUrl,
                  String sourceLinkText,
                  boolean shouldBeParsed,
                  boolean shouldBeIndexed)

Erzeugt eine neue CrawlerJob-Instanz.

Parameters:: url - Die URL des zu bearbeitenden Dokuments.; sourceUrl - Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.; sourceLinkText - Der Text des Links in dem die URL gefunden wurde. Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.; shouldBeParsed - Gibt an, ob das Dokument nach weiteren URLs durchsucht werden soll.; shouldBeIndexed - Gibt an, ob das Dokument indiziert werden soll.

Method Detail

getUrl

public String getUrl()

Gibt die URL des zu bearbeitenden Dokuments zurück.

Returns:: Die URL des zu bearbeitenden Dokuments.

getSourceUrl

public String getSourceUrl()

Gibt Die URL des Dokuments zurück, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.

Returns:: Die URL des Dokuments, in dem die URL des zu bearbeitenden Dokuments gefunden wurde.

getSourceLinkText

public String getSourceLinkText()

Gibt den Text des Links zurück in dem die URL gefunden wurde.

Ist null, falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.

Returns:: Der Text des Links zurück in dem die URL gefunden wurde.

shouldBeParsed

public boolean shouldBeParsed()

Gibt zurück, ob das Dokument nach weiteren URLs durchsucht werden soll.

Returns:: Ob das Dokument nach weiteren URLs durchsucht werden soll.

shouldBeIndexed

public boolean shouldBeIndexed()

Gibt zurück, ob das Dokument indiziert werden soll.

Returns:: Ob das Dokument indiziert werden soll.