Regain 2.1.0-STABLE API

net.sf.regain.crawler.document
Interface WriteablePreparator

All Superinterfaces:
Pluggable, Preparator
All Known Implementing Classes:
AbstractJacobMsOfficePreparator, AbstractPreparator, DispatcherPreparator, EmptyPreparator, ExternalPreparator, FilenamePreparator, GenericAudioPreparator, HtmlPreparator, IfilterPreparator, JacobMsExcelPreparator, JacobMsPowerPointPreparator, JacobMsWordPreparator, JarPreparator, JavaPreparator, MessagePreparator, MP3Preparator, OpenOfficePreparator, PdfBoxPreparator, PlainTextPreparator, PoiMsOfficePreparator, SimpleRtfPreparator, SwingRtfPreparator, XmlPreparator, ZipPreparator

public interface WriteablePreparator
extends Preparator

Prepares a document for indexing. Via this interface, the values of the preparator can be changed from the outside.

This is done by extracting the raw text from a document. In other words the document is stripped from formating information. Specific text parts like a title or a summary may be extracted as well.

The procedure of preparation is the following:

Author:
Til Schneider, www.murfman.de

Field Summary
 
Fields inherited from interface net.sf.regain.crawler.document.Preparator
DEFAULT_BUFFER_SIZE
 
Method Summary
 void addAdditionalField(String fieldName, String fieldValue)
          Adds an additional field to the current document.
 void setCleanedContent(String cleanedContent)
          Setzt von Formatierungsinformation befreiten Inhalt des Dokuments, das gerade Präpariert wird.
 void setCleanedMetaData(String mCleanedMetaData)
           
 void setHeadlines(String headlines)
          Setzt die überschriften, in im Dokument, das gerade Präpariert wird, gefunden wurden.
 void setSummary(String summary)
          Setzt die Zusammenfassung des Dokuments, das gerade Präpariert wird.
 void setTitle(String title)
          Setzt den Titel des Dokuments, das gerade Präpariert wird.
 
Methods inherited from interface net.sf.regain.crawler.document.Preparator
accepts, cleanUp, close, getAdditionalFields, getCleanedContent, getCleanedMetaData, getHeadlines, getPath, getPriority, getSummary, getTitle, prepare, setPriority, setUrlRegex
 
Methods inherited from interface net.sf.regain.crawler.document.Pluggable
init
 

Method Detail

addAdditionalField

void addAdditionalField(String fieldName,
                        String fieldValue)
Adds an additional field to the current document.

This field will be indexed and stored.

Parameters:
fieldName - The name of the field.
fieldValue - The value of the field.

setCleanedMetaData

void setCleanedMetaData(String mCleanedMetaData)
Parameters:
mCleanedMetaData - the mCleanedMetaData to set

setCleanedContent

void setCleanedContent(String cleanedContent)
Setzt von Formatierungsinformation befreiten Inhalt des Dokuments, das gerade Präpariert wird.

Parameters:
cleanedContent -

setSummary

void setSummary(String summary)
Setzt die Zusammenfassung des Dokuments, das gerade Präpariert wird.

Parameters:
summary - Die Zusammenfassung

setHeadlines

void setHeadlines(String headlines)
Setzt die überschriften, in im Dokument, das gerade Präpariert wird, gefunden wurden.

Parameters:
headlines - Die Zusammenfassung

setTitle

void setTitle(String title)
Setzt den Titel des Dokuments, das gerade Präpariert wird.

Parameters:
title - Der Titel.

Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info