|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
net.sf.regain.crawler.preparator.html.HtmlPathExtractor
public class HtmlPathExtractor
Extrahiert aus einem HTML-Dokument den Pfad, über den es zu erreichen ist.
| Field Summary | |
|---|---|
private org.apache.regexp.RE |
mPathNodeRE
Der Regul�re Ausdruck, der ein Pfadelement findet. |
private int |
mPathNodeTitleGroup
Die Gruppe, die den Titel im Regul�re Ausdruck findet. |
private int |
mPathNodeUrlGroup
Die Gruppe, die die URL im Regul�re Ausdruck findet. |
| Constructor Summary | |
|---|---|
HtmlPathExtractor(String prefix,
String pathStartRegex,
String pathEndRegex,
String pathNodeRegex,
int pathNodeUrlGroup,
int pathNodeTitleGroup)
Erzeugt eine neue HtmlPathExtractor-Instanz. |
|
| Method Summary | |
|---|---|
PathElement[] |
extractPath(RawDocument rawDocument)
Extrahiert aus dem gegebenen HTML-Dokument den Pfad über den es zu erreichen ist. |
| Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor |
|---|
accepts, extractFragment |
| Methods inherited from class java.lang.Object |
|---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
| Field Detail |
|---|
private org.apache.regexp.RE mPathNodeRE
private int mPathNodeUrlGroup
private int mPathNodeTitleGroup
| Constructor Detail |
|---|
public HtmlPathExtractor(String prefix,
String pathStartRegex,
String pathEndRegex,
String pathNodeRegex,
int pathNodeUrlGroup,
int pathNodeTitleGroup)
throws RegainException
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige
Dokument von diesem HtmlPathExtractor bearbeitet wird.pathStartRegex - Der Regul�re Ausdruck, der die Stelle findet,
wo die Pfadangabe beginnt.
Ist null oder Leerstring, wenn der Pfad am Anfang des
HTML-Dokuments beginnt.
pathEndRegex - Der Regul�re Ausdruck, der die Stelle findet,
wo die Pfadangabe endet.
Ist null oder Leerstring, wenn der Pfad am Ende des
HTML-Dokuments endet.
pathNodeRegex - Der Regul�re Ausdruck, der ein Pfadelement findet.pathNodeUrlGroup - Die Gruppe, die die URL im Regul�re Ausdruck
findet.pathNodeTitleGroup - Die Gruppe, die den Titel im Regul�re Ausdruck
findet.
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler
enthält.| Method Detail |
|---|
public PathElement[] extractPath(RawDocument rawDocument)
throws RegainException
rawDocument - Das Dokument, aus dem der Pfad extrahiert werden soll.
null, wenn kein Pfad gefunden wurde.
RegainException - Wenn das Dokument nicht gelesen werden konnte.
|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||