HtmlContentExtractor (API documentation for Regain 2.1.0-STABLE)

Overview

Package

Class

Tree

Deprecated

Index

Help

Regain 2.1.0-STABLE API

PREV CLASS NEXT CLASS

FRAMES NO FRAMES

SUMMARY: NESTED | FIELD | CONSTR | METHOD

DETAIL: FIELD | CONSTR | METHOD

net.sf.regain.crawler.preparator.html
Class HtmlContentExtractor

java.lang.Object
  net.sf.regain.crawler.preparator.html.AbstractExtractor
      net.sf.regain.crawler.preparator.html.HtmlContentExtractor

public class HtmlContentExtractor
extends AbstractExtractor
extends AbstractExtractor

Extrahiert aus einem HTML-Dokument den eigentlichen Inhalt.

Dazu werden zwei regulaere Ausdruecke verwendet, die jeweils den Anfang und das Ende des Inhalts erkennen. Alles was dazwischen liegt wird ausgeschnitten.

Author:: Til Schneider, www.murfman.de

Field Summary
`private org.apache.regexp.RE`	`mHeadlineRE` Der Regul�re Ausdruck, der eine überschrift findet.
`private int`	`mHeadlineRegexGroup` Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.

Constructor Summary
`HtmlContentExtractor(String prefix, String contentStartRegex, String contentEndRegex, String headlineRegex, int headlineRegexGroup)` Erzeugt eine neue HtmlContentExtractor-Instanz.

Method Summary
`String`	`extractContent(RawDocument rawDocument)` Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument.
`String`	`extractHeadlines(String content)` Extrahiert die überschrifen aus einem HTML-Dokuments.

Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor
`accepts, extractFragment`

Methods inherited from class java.lang.Object
`clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait`

Field Detail

mHeadlineRE

private org.apache.regexp.RE mHeadlineRE

Der Regul�re Ausdruck, der eine überschrift findet.

Ist null, wenn das HTML-Dokuments nicht auf überschriften durchsucht werden soll.

mHeadlineRegexGroup

private int mHeadlineRegexGroup

Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.

Constructor Detail

HtmlContentExtractor

public HtmlContentExtractor(String prefix,
                            String contentStartRegex,
                            String contentEndRegex,
                            String headlineRegex,
                            int headlineRegexGroup)
                     throws RegainException

Erzeugt eine neue HtmlContentExtractor-Instanz.

Parameters:: prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige Dokument von diesem HtmlContentExtractor bearbeitet wird.; contentStartRegex - Der Regul�re Ausdruck, der die Stelle findet, wo der zu indizierende Inhalt von HTML-Dokumenten beginnt.
Ist null oder Leerstring, wenn der gesamte Anfang des HTML-Dokuments indiziert werden soll.; contentEndRegex - Der Regul�re Ausdruck, der die Stelle findet, wo der zu indizierende Inhalt von HTML-Dokumenten endet.
Ist null oder Leerstring, wenn das gesamte Ende des HTML-Dokuments indiziert werden soll.; headlineRegex - Der Regul�re Ausdruck, der eine überschrift findet.
Ist null, wenn das HTML-Dokuments nicht auf überschriften durchsucht werden soll.; headlineRegexGroup - Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.
Throws:: RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler enthält.

Method Detail

extractContent

public String extractContent(RawDocument rawDocument)
                      throws RegainException

Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument.

Parameters:: rawDocument - Das Dokument, dessen Inhalt extrahiert werden soll.
Returns:: Der eigentliche HTML-Inhalt.
Throws:: RegainException - Wenn das Dokument nicht gelesen werden konnte.

extractHeadlines

public String extractHeadlines(String content)

Extrahiert die überschrifen aus einem HTML-Dokuments.

Es handelt sich dabei nicht um die überschrift des Dokuments selbst, sondern lediglich um Unter-überschriften, die in dem Dokument verwendendet werden. Mit Hilfe dieser überschriften l��t sich eine bessere Relevanz berechnen.

Parameters:: content - Der Inhalt, aus dem die überschriften extrahiert werden sollen.
Returns:: Die überschriften, die im Dokument gefunden wurden, durch \n getrennt, oder null, wenn keine überschrift gefunden wurde oder wenn gar nicht nach überschriften gesucht werden soll.
See Also:: extractContent(RawDocument)