| 
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
net.sf.regain.crawler.preparator.html.HtmlPathExtractor
public class HtmlPathExtractor
Extrahiert aus einem HTML-Dokument den Pfad, über den es zu erreichen ist.
| Field Summary | |
|---|---|
private  org.apache.regexp.RE | 
mPathNodeRE
Der Regul�re Ausdruck, der ein Pfadelement findet.  | 
private  int | 
mPathNodeTitleGroup
Die Gruppe, die den Titel im Regul�re Ausdruck findet.  | 
private  int | 
mPathNodeUrlGroup
Die Gruppe, die die URL im Regul�re Ausdruck findet.  | 
| Constructor Summary | |
|---|---|
HtmlPathExtractor(String prefix,
                  String pathStartRegex,
                  String pathEndRegex,
                  String pathNodeRegex,
                  int pathNodeUrlGroup,
                  int pathNodeTitleGroup)
Erzeugt eine neue HtmlPathExtractor-Instanz.  | 
|
| Method Summary | |
|---|---|
 PathElement[] | 
extractPath(RawDocument rawDocument)
Extrahiert aus dem gegebenen HTML-Dokument den Pfad über den es zu erreichen ist.  | 
| Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor | 
|---|
accepts, extractFragment | 
| Methods inherited from class java.lang.Object | 
|---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait | 
| Field Detail | 
|---|
private org.apache.regexp.RE mPathNodeRE
private int mPathNodeUrlGroup
private int mPathNodeTitleGroup
| Constructor Detail | 
|---|
public HtmlPathExtractor(String prefix,
                         String pathStartRegex,
                         String pathEndRegex,
                         String pathNodeRegex,
                         int pathNodeUrlGroup,
                         int pathNodeTitleGroup)
                  throws RegainException
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige
        Dokument von diesem HtmlPathExtractor bearbeitet wird.pathStartRegex - Der Regul�re Ausdruck, der die Stelle findet,
        wo die Pfadangabe beginnt.
        
        Ist null oder Leerstring, wenn der Pfad am Anfang des
        HTML-Dokuments beginnt.
pathEndRegex - Der Regul�re Ausdruck, der die Stelle findet,
        wo die Pfadangabe endet.
        
        Ist null oder Leerstring, wenn der Pfad am Ende des
        HTML-Dokuments endet.
pathNodeRegex - Der Regul�re Ausdruck, der ein Pfadelement findet.pathNodeUrlGroup - Die Gruppe, die die URL im Regul�re Ausdruck
        findet.pathNodeTitleGroup - Die Gruppe, die den Titel im Regul�re Ausdruck
        findet.
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler
         enthält.| Method Detail | 
|---|
public PathElement[] extractPath(RawDocument rawDocument)
                          throws RegainException
rawDocument - Das Dokument, aus dem der Pfad extrahiert werden soll.
null, wenn kein Pfad gefunden wurde.
RegainException - Wenn das Dokument nicht gelesen werden konnte.
  | 
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||