|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||
java.lang.Objectnet.sf.regain.crawler.preparator.html.AbstractExtractor
net.sf.regain.crawler.preparator.html.HtmlContentExtractor
public class HtmlContentExtractor
Extrahiert aus einem HTML-Dokument den eigentlichen Inhalt.
Dazu werden zwei regulaere Ausdruecke verwendet, die jeweils den Anfang und das Ende des Inhalts erkennen. Alles was dazwischen liegt wird ausgeschnitten.
| Field Summary | |
|---|---|
private org.apache.regexp.RE |
mHeadlineRE
Der Regul�re Ausdruck, der eine überschrift findet. |
private int |
mHeadlineRegexGroup
Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet. |
| Constructor Summary | |
|---|---|
HtmlContentExtractor(String prefix,
String contentStartRegex,
String contentEndRegex,
String headlineRegex,
int headlineRegexGroup)
Erzeugt eine neue HtmlContentExtractor-Instanz. |
|
| Method Summary | |
|---|---|
String |
extractContent(RawDocument rawDocument)
Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument. |
String |
extractHeadlines(String content)
Extrahiert die überschrifen aus einem HTML-Dokuments. |
| Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor |
|---|
accepts, extractFragment |
| Methods inherited from class java.lang.Object |
|---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait |
| Field Detail |
|---|
private org.apache.regexp.RE mHeadlineRE
Ist null, wenn das HTML-Dokuments nicht auf überschriften
durchsucht werden soll.
private int mHeadlineRegexGroup
| Constructor Detail |
|---|
public HtmlContentExtractor(String prefix,
String contentStartRegex,
String contentEndRegex,
String headlineRegex,
int headlineRegexGroup)
throws RegainException
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige
Dokument von diesem HtmlContentExtractor bearbeitet wird.contentStartRegex - Der Regul�re Ausdruck, der die Stelle findet,
wo der zu indizierende Inhalt von HTML-Dokumenten beginnt.
Ist null oder Leerstring, wenn der gesamte Anfang des
HTML-Dokuments indiziert werden soll.
contentEndRegex - Der Regul�re Ausdruck, der die Stelle findet,
wo der zu indizierende Inhalt von HTML-Dokumenten endet.
Ist null oder Leerstring, wenn das gesamte Ende des
HTML-Dokuments indiziert werden soll.
headlineRegex - Der Regul�re Ausdruck, der eine überschrift findet.
Ist null, wenn das HTML-Dokuments nicht auf
überschriften durchsucht werden soll.
headlineRegexGroup - Die Gruppe des Regul�re Ausdrucks, der eine
überschrift findet.
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler
enthält.| Method Detail |
|---|
public String extractContent(RawDocument rawDocument)
throws RegainException
rawDocument - Das Dokument, dessen Inhalt extrahiert werden soll.
RegainException - Wenn das Dokument nicht gelesen werden konnte.public String extractHeadlines(String content)
Es handelt sich dabei nicht um die überschrift des Dokuments selbst, sondern lediglich um Unter-überschriften, die in dem Dokument verwendendet werden. Mit Hilfe dieser überschriften l��t sich eine bessere Relevanz berechnen.
content - Der Inhalt, aus dem die überschriften extrahiert werden
sollen.
null, wenn keine überschrift gefunden
wurde oder wenn gar nicht nach überschriften gesucht werden soll.extractContent(RawDocument)
|
Regain 2.1.0-STABLE API | ||||||||
| PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
| SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD | ||||||||