|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
public class AbstractExtractor
Extrahiert mit Hilfe von Regul�ren Ausdr�cken ein Fragment eines Dokuments.
Mit Hilfe eines URL-Präfixes wird bestimmt, ob dieser Extrahierer ein konkretes Dokument bearbeiten kann oder nicht.
| Field Summary | |
|---|---|
private org.apache.regexp.RE |
mFragmentEndRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet. |
private String |
mFragmentEndRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet. |
private org.apache.regexp.RE |
mFragmentStartRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt. |
private String |
mFragmentStartRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt. |
private static org.apache.log4j.Logger |
mLog
The logger for this class |
private String |
mPrefix
Der Präfix, den eine URL haben muss, um von diesem Extrahierer bearbeitet zu werden. |
| Constructor Summary | |
|---|---|
AbstractExtractor(String prefix,
String fragmentStartRegex,
String fragmentEndRegex)
Erzeugt eine neue AbstractExtractor-Instanz. |
|
| Method Summary | |
|---|---|
boolean |
accepts(RawDocument rawDocument)
Gibt zurück, ob der Extrahierer das gegebene Dokument bearbeiten kann. |
protected String |
extractFragment(RawDocument rawDocument)
Extrahiert das Fragment aus dem gegebenen Dokument. |
| Methods inherited from class java.lang.Object |
|---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
| Field Detail |
|---|
private static org.apache.log4j.Logger mLog
private String mPrefix
private org.apache.regexp.RE mFragmentStartRE
Ist null, wenn der gesamte Anfang des Dokuments extrahiert
werden soll.
private String mFragmentStartRegex
Ist null, wenn der gesamte Anfang des Dokuments extrahiert
werden soll.
private org.apache.regexp.RE mFragmentEndRE
Ist null, wenn das gesamte Ende des Dokuments extrahiert
werden soll.
private String mFragmentEndRegex
Ist null, wenn das gesamte Ende des Dokuments extrahiert
werden soll.
| Constructor Detail |
|---|
public AbstractExtractor(String prefix,
String fragmentStartRegex,
String fragmentEndRegex)
throws RegainException
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige
Dokument von diesem HtmlContentExtractor bearbeitet wird.fragmentStartRegex - Der Regul�re Ausdruck, der die Stelle findet, wo
das zu extrahierende Fragment eines Dokuments beginnt.
Ist null oder Leerstring, wenn der gesamte Anfang des
Dokuments extrahiert werden soll.
fragmentEndRegex - Der Regul�re Ausdruck, der die Stelle findet, wo
das zu extrahierende Fragment eines Dokuments endet.
Ist null oder Leerstring, wenn das gesamte Ende des
Dokuments extrahiert werden soll.
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler
enthält.| Method Detail |
|---|
public boolean accepts(RawDocument rawDocument)
Dies ist der Fall, wenn die URL mit dem Präfix dieses Extrahierer beginnt.
rawDocument - Das zu prüfenden Dokuments.
protected String extractFragment(RawDocument rawDocument)
throws RegainException
rawDocument - Das Dokument, aus dem das Fragment extrahiert werden
soll.
RegainException - Wenn das Dokument nicht gelesen werden konnte.
|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||