Regain 2.1.0-STABLE API

net.sf.regain.crawler.preparator.html
Class HtmlContentExtractor

java.lang.Object
  extended by net.sf.regain.crawler.preparator.html.AbstractExtractor
      extended by net.sf.regain.crawler.preparator.html.HtmlContentExtractor

public class HtmlContentExtractor
extends AbstractExtractor

Extrahiert aus einem HTML-Dokument den eigentlichen Inhalt.

Dazu werden zwei regulaere Ausdruecke verwendet, die jeweils den Anfang und das Ende des Inhalts erkennen. Alles was dazwischen liegt wird ausgeschnitten.

Author:
Til Schneider, www.murfman.de

Field Summary
private  org.apache.regexp.RE mHeadlineRE
          Der Regul�re Ausdruck, der eine überschrift findet.
private  int mHeadlineRegexGroup
          Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.
 
Constructor Summary
HtmlContentExtractor(String prefix, String contentStartRegex, String contentEndRegex, String headlineRegex, int headlineRegexGroup)
          Erzeugt eine neue HtmlContentExtractor-Instanz.
 
Method Summary
 String extractContent(RawDocument rawDocument)
          Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument.
 String extractHeadlines(String content)
          Extrahiert die überschrifen aus einem HTML-Dokuments.
 
Methods inherited from class net.sf.regain.crawler.preparator.html.AbstractExtractor
accepts, extractFragment
 
Methods inherited from class java.lang.Object
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

Field Detail

mHeadlineRE

private org.apache.regexp.RE mHeadlineRE
Der Regul�re Ausdruck, der eine überschrift findet.

Ist null, wenn das HTML-Dokuments nicht auf überschriften durchsucht werden soll.


mHeadlineRegexGroup

private int mHeadlineRegexGroup
Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.

Constructor Detail

HtmlContentExtractor

public HtmlContentExtractor(String prefix,
                            String contentStartRegex,
                            String contentEndRegex,
                            String headlineRegex,
                            int headlineRegexGroup)
                     throws RegainException
Erzeugt eine neue HtmlContentExtractor-Instanz.

Parameters:
prefix - Der Präfix den eine URL haben muss, damit das zugeh�rige Dokument von diesem HtmlContentExtractor bearbeitet wird.
contentStartRegex - Der Regul�re Ausdruck, der die Stelle findet, wo der zu indizierende Inhalt von HTML-Dokumenten beginnt.

Ist null oder Leerstring, wenn der gesamte Anfang des HTML-Dokuments indiziert werden soll.

contentEndRegex - Der Regul�re Ausdruck, der die Stelle findet, wo der zu indizierende Inhalt von HTML-Dokumenten endet.

Ist null oder Leerstring, wenn das gesamte Ende des HTML-Dokuments indiziert werden soll.

headlineRegex - Der Regul�re Ausdruck, der eine überschrift findet.

Ist null, wenn das HTML-Dokuments nicht auf überschriften durchsucht werden soll.

headlineRegexGroup - Die Gruppe des Regul�re Ausdrucks, der eine überschrift findet.
Throws:
RegainException - Wenn ein Regul�rer Ausdruck einen Syntaxfehler enthält.
Method Detail

extractContent

public String extractContent(RawDocument rawDocument)
                      throws RegainException
Extrahiert den eigentlichen HTML-Inhalt aus dem gegebenen Dokument.

Parameters:
rawDocument - Das Dokument, dessen Inhalt extrahiert werden soll.
Returns:
Der eigentliche HTML-Inhalt.
Throws:
RegainException - Wenn das Dokument nicht gelesen werden konnte.

extractHeadlines

public String extractHeadlines(String content)
Extrahiert die überschrifen aus einem HTML-Dokuments.

Es handelt sich dabei nicht um die überschrift des Dokuments selbst, sondern lediglich um Unter-überschriften, die in dem Dokument verwendendet werden. Mit Hilfe dieser überschriften l��t sich eine bessere Relevanz berechnen.

Parameters:
content - Der Inhalt, aus dem die überschriften extrahiert werden sollen.
Returns:
Die überschriften, die im Dokument gefunden wurden, durch \n getrennt, oder null, wenn keine überschrift gefunden wurde oder wenn gar nicht nach überschriften gesucht werden soll.
See Also:
extractContent(RawDocument)

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info