|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
public class AbstractExtractor
Extrahiert mit Hilfe von Regul�ren Ausdr�cken ein Fragment eines Dokuments.
Mit Hilfe eines URL-Präfixes wird bestimmt, ob dieser Extrahierer ein konkretes Dokument bearbeiten kann oder nicht.
Field Summary | |
---|---|
private org.apache.regexp.RE |
mFragmentEndRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet. |
private String |
mFragmentEndRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet. |
private org.apache.regexp.RE |
mFragmentStartRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt. |
private String |
mFragmentStartRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt. |
private static org.apache.log4j.Logger |
mLog
The logger for this class |
private String |
mPrefix
Der Präfix, den eine URL haben muss, um von diesem Extrahierer bearbeitet zu werden. |
Constructor Summary | |
---|---|
AbstractExtractor(String prefix,
String fragmentStartRegex,
String fragmentEndRegex)
Erzeugt eine neue AbstractExtractor-Instanz. |
Method Summary | |
---|---|
boolean |
accepts(RawDocument rawDocument)
Gibt zurück, ob der Extrahierer das gegebene Dokument bearbeiten kann. |
protected String |
extractFragment(RawDocument rawDocument)
Extrahiert das Fragment aus dem gegebenen Dokument. |
Methods inherited from class java.lang.Object |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
Field Detail |
---|
private static org.apache.log4j.Logger mLog
private String mPrefix
private org.apache.regexp.RE mFragmentStartRE
Ist null
, wenn der gesamte Anfang des Dokuments extrahiert
werden soll.
private String mFragmentStartRegex
Ist null
, wenn der gesamte Anfang des Dokuments extrahiert
werden soll.
private org.apache.regexp.RE mFragmentEndRE
Ist null
, wenn das gesamte Ende des Dokuments extrahiert
werden soll.
private String mFragmentEndRegex
Ist null
, wenn das gesamte Ende des Dokuments extrahiert
werden soll.
Constructor Detail |
---|
public AbstractExtractor(String prefix, String fragmentStartRegex, String fragmentEndRegex) throws RegainException
prefix
- Der Präfix den eine URL haben muss, damit das zugeh�rige
Dokument von diesem HtmlContentExtractor bearbeitet wird.fragmentStartRegex
- Der Regul�re Ausdruck, der die Stelle findet, wo
das zu extrahierende Fragment eines Dokuments beginnt.
Ist null
oder Leerstring, wenn der gesamte Anfang des
Dokuments extrahiert werden soll.
fragmentEndRegex
- Der Regul�re Ausdruck, der die Stelle findet, wo
das zu extrahierende Fragment eines Dokuments endet.
Ist null
oder Leerstring, wenn das gesamte Ende des
Dokuments extrahiert werden soll.
RegainException
- Wenn ein Regul�rer Ausdruck einen Syntaxfehler
enthält.Method Detail |
---|
public boolean accepts(RawDocument rawDocument)
Dies ist der Fall, wenn die URL mit dem Präfix dieses Extrahierer beginnt.
rawDocument
- Das zu prüfenden Dokuments.
protected String extractFragment(RawDocument rawDocument) throws RegainException
rawDocument
- Das Dokument, aus dem das Fragment extrahiert werden
soll.
RegainException
- Wenn das Dokument nicht gelesen werden konnte.
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |