Regain 2.1.0-STABLE API

net.sf.regain.crawler.preparator.html
Class HtmlPathExtractor

java.lang.Object
  extended by net.sf.regain.crawler.preparator.html.AbstractExtractor
      extended by net.sf.regain.crawler.preparator.html.HtmlPathExtractor

public class HtmlPathExtractor
extends AbstractExtractor

Extrahiert aus einem HTML-Dokument den Pfad, über den es zu erreichen ist.

Author:
Til Schneider, www.murfman.de

Field Summary
private  org.apache.regexp.RE mPathNodeRE
          Der Regul�re Ausdruck, der ein Pfadelement findet.
private  int mPathNodeTitleGroup
          Die Gruppe, die den Titel im Regul�re Ausdruck findet.
private  int mPathNodeUrlGroup
          Die Gruppe, die die URL im Regul�re Ausdruck findet.
 
Constructor Summary
HtmlPathExtractor(String prefix, String pathStartRegex, String pathEndRegex, String pathNodeRegex, int pathNodeUrlGroup, int pathNodeTitleGroup)
          Erzeugt eine neue HtmlPathExtractor-Instanz.
 
Method Summary
 PathElement[] extractPath(RawDocument rawDocument)
          Extrahiert aus dem gegebenen HTML-Dokument den Pfad über den es zu erreichen ist.
 
Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor
accepts, extractFragment
 
Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

Field Detail

mPathNodeRE

private org.apache.regexp.RE mPathNodeRE
Der Regul�re Ausdruck, der ein Pfadelement findet.


mPathNodeUrlGroup

private int mPathNodeUrlGroup
Die Gruppe, die die URL im Regul�re Ausdruck findet.


mPathNodeTitleGroup

private int mPathNodeTitleGroup
Die Gruppe, die den Titel im Regul�re Ausdruck findet.

Constructor Detail

HtmlPathExtractor

public HtmlPathExtractor(String prefix,
                         String pathStartRegex,
                         String pathEndRegex,
                         String pathNodeRegex,
                         int pathNodeUrlGroup,
                         int pathNodeTitleGroup)
                  throws RegainException
Erzeugt eine neue HtmlPathExtractor-Instanz.

Parameters:
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige Dokument von diesem HtmlPathExtractor bearbeitet wird.
pathStartRegex - Der Regul�re Ausdruck, der die Stelle findet, wo die Pfadangabe beginnt.

Ist null oder Leerstring, wenn der Pfad am Anfang des HTML-Dokuments beginnt.

pathEndRegex - Der Regul�re Ausdruck, der die Stelle findet, wo die Pfadangabe endet.

Ist null oder Leerstring, wenn der Pfad am Ende des HTML-Dokuments endet.

pathNodeRegex - Der Regul�re Ausdruck, der ein Pfadelement findet.
pathNodeUrlGroup - Die Gruppe, die die URL im Regul�re Ausdruck findet.
pathNodeTitleGroup - Die Gruppe, die den Titel im Regul�re Ausdruck findet.
Throws:
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler enthält.
Method Detail

extractPath

public PathElement[] extractPath(RawDocument rawDocument)
                          throws RegainException
Extrahiert aus dem gegebenen HTML-Dokument den Pfad über den es zu erreichen ist.

Parameters:
rawDocument - Das Dokument, aus dem der Pfad extrahiert werden soll.
Returns:
Der Pfad über den das Dokument zu erreichen ist oder null, wenn kein Pfad gefunden wurde.
Throws:
RegainException - Wenn das Dokument nicht gelesen werden konnte.

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info