Regain 2.1.0-STABLE API

net.sf.regain.crawler.preparator.html
Class AbstractExtractor

java.lang.Object
  extended by net.sf.regain.crawler.preparator.html.AbstractExtractor
Direct Known Subclasses:
HtmlContentExtractor, HtmlPathExtractor

public class AbstractExtractor
extends Object

Extrahiert mit Hilfe von Regul�ren Ausdr�cken ein Fragment eines Dokuments.

Mit Hilfe eines URL-Präfixes wird bestimmt, ob dieser Extrahierer ein konkretes Dokument bearbeiten kann oder nicht.

Author:
Til Schneider, www.murfman.de

Field Summary
private  org.apache.regexp.RE mFragmentEndRE
          Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet.
private  String mFragmentEndRegex
          Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet.
private  org.apache.regexp.RE mFragmentStartRE
          Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt.
private  String mFragmentStartRegex
          Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt.
private static org.apache.log4j.Logger mLog
          The logger for this class
private  String mPrefix
          Der Präfix, den eine URL haben muss, um von diesem Extrahierer bearbeitet zu werden.
 
Constructor Summary
AbstractExtractor(String prefix, String fragmentStartRegex, String fragmentEndRegex)
          Erzeugt eine neue AbstractExtractor-Instanz.
 
Method Summary
 boolean accepts(RawDocument rawDocument)
          Gibt zurück, ob der Extrahierer das gegebene Dokument bearbeiten kann.
protected  String extractFragment(RawDocument rawDocument)
          Extrahiert das Fragment aus dem gegebenen Dokument.
 
Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

Field Detail

mLog

private static org.apache.log4j.Logger mLog
The logger for this class


mPrefix

private String mPrefix
Der Präfix, den eine URL haben muss, um von diesem Extrahierer bearbeitet zu werden.


mFragmentStartRE

private org.apache.regexp.RE mFragmentStartRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt.

Ist null, wenn der gesamte Anfang des Dokuments extrahiert werden soll.


mFragmentStartRegex

private String mFragmentStartRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt.

Ist null, wenn der gesamte Anfang des Dokuments extrahiert werden soll.


mFragmentEndRE

private org.apache.regexp.RE mFragmentEndRE
Der compilierte Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet.

Ist null, wenn das gesamte Ende des Dokuments extrahiert werden soll.


mFragmentEndRegex

private String mFragmentEndRegex
Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet.

Ist null, wenn das gesamte Ende des Dokuments extrahiert werden soll.

Constructor Detail

AbstractExtractor

public AbstractExtractor(String prefix,
                         String fragmentStartRegex,
                         String fragmentEndRegex)
                  throws RegainException
Erzeugt eine neue AbstractExtractor-Instanz.

Parameters:
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige Dokument von diesem HtmlContentExtractor bearbeitet wird.
fragmentStartRegex - Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments beginnt.

Ist null oder Leerstring, wenn der gesamte Anfang des Dokuments extrahiert werden soll.

fragmentEndRegex - Der Regul�re Ausdruck, der die Stelle findet, wo das zu extrahierende Fragment eines Dokuments endet.

Ist null oder Leerstring, wenn das gesamte Ende des Dokuments extrahiert werden soll.

Throws:
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler enthält.
Method Detail

accepts

public boolean accepts(RawDocument rawDocument)
Gibt zurück, ob der Extrahierer das gegebene Dokument bearbeiten kann.

Dies ist der Fall, wenn die URL mit dem Präfix dieses Extrahierer beginnt.

Parameters:
rawDocument - Das zu prüfenden Dokuments.
Returns:
Ob der Extrahierer das gegebene Dokument bearbeiten kann.

extractFragment

protected String extractFragment(RawDocument rawDocument)
                          throws RegainException
Extrahiert das Fragment aus dem gegebenen Dokument.

Parameters:
rawDocument - Das Dokument, aus dem das Fragment extrahiert werden soll.
Returns:
Das Fragment
Throws:
RegainException - Wenn das Dokument nicht gelesen werden konnte.

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info