|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
net.sf.regain.crawler.preparator.html.HtmlContentExtractor
public class HtmlContentExtractor
Extrahiert aus einem HTML-Dokument den eigentlichen Inhalt.
Dazu werden zwei regulaere Ausdruecke verwendet, die jeweils den Anfang und das Ende des Inhalts erkennen. Alles was dazwischen liegt wird ausgeschnitten.
Field Summary | |
---|---|
private org.apache.regexp.RE |
mHeadlineRE
Der Regul�re Ausdruck, der eine überschrift findet. |
private int |
mHeadlineRegexGroup
Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet. |
Constructor Summary | |
---|---|
HtmlContentExtractor(String prefix,
String contentStartRegex,
String contentEndRegex,
String headlineRegex,
int headlineRegexGroup)
Erzeugt eine neue HtmlContentExtractor-Instanz. |
Method Summary | |
---|---|
String |
extractContent(RawDocument rawDocument)
Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument. |
String |
extractHeadlines(String content)
Extrahiert die überschrifen aus einem HTML-Dokuments. |
Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor |
---|
accepts, extractFragment |
Methods inherited from class java.lang.Object |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
Field Detail |
---|
private org.apache.regexp.RE mHeadlineRE
Ist null
, wenn das HTML-Dokuments nicht auf überschriften
durchsucht werden soll.
private int mHeadlineRegexGroup
Constructor Detail |
---|
public HtmlContentExtractor(String prefix, String contentStartRegex, String contentEndRegex, String headlineRegex, int headlineRegexGroup) throws RegainException
prefix
- Der Präfix den eine URL haben muss, damit das zugeh�rige
Dokument von diesem HtmlContentExtractor bearbeitet wird.contentStartRegex
- Der Regul�re Ausdruck, der die Stelle findet,
wo der zu indizierende Inhalt von HTML-Dokumenten beginnt.
Ist null
oder Leerstring, wenn der gesamte Anfang des
HTML-Dokuments indiziert werden soll.
contentEndRegex
- Der Regul�re Ausdruck, der die Stelle findet,
wo der zu indizierende Inhalt von HTML-Dokumenten endet.
Ist null
oder Leerstring, wenn das gesamte Ende des
HTML-Dokuments indiziert werden soll.
headlineRegex
- Der Regul�re Ausdruck, der eine überschrift findet.
Ist null
, wenn das HTML-Dokuments nicht auf
überschriften durchsucht werden soll.
headlineRegexGroup
- Die Gruppe des Regul�re Ausdrucks, der eine
überschrift findet.
RegainException
- Wenn ein Regul�rer Ausdruck einen Syntaxfehler
enthält.Method Detail |
---|
public String extractContent(RawDocument rawDocument) throws RegainException
rawDocument
- Das Dokument, dessen Inhalt extrahiert werden soll.
RegainException
- Wenn das Dokument nicht gelesen werden konnte.public String extractHeadlines(String content)
Es handelt sich dabei nicht um die überschrift des Dokuments selbst, sondern lediglich um Unter-überschriften, die in dem Dokument verwendendet werden. Mit Hilfe dieser überschriften l��t sich eine bessere Relevanz berechnen.
content
- Der Inhalt, aus dem die überschriften extrahiert werden
sollen.
null
, wenn keine überschrift gefunden
wurde oder wenn gar nicht nach überschriften gesucht werden soll.extractContent(RawDocument)
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |