Regain 2.1.0-STABLE API

Package net.sf.regain.crawler.preparator

Die Präparatoren, die aus einem Dokument den Text, den Titel, usw. extrahieren. für jedes Dokumentenformat existiert ein Präparator.

See:
          Description

Class Summary
AbstractJacobMsOfficePreparator  
DispatcherPreparator  
EmptyPreparator A preparator adding an empty text for all documents.
ExternalPreparator Prepares a document by calling an external program that writes the plain text to Standard.out.
FilenamePreparator Like EmptyPreparator, but indexes the filename as content.
GenericAudioPreparator Prepares mp4 (iTunes), ogg (Ogg-Vorbis) and flac files for indexing of metadata The following information from the audio tag will be extracted: artist, album, title, year, length, bitrate
HtmlPreparator Prepares a HTML-document for indexing.
IfilterPreparator A preparator that uses Microsoft's IFilter interface for preparing various kinds of documents.
JacobMsExcelPreparator Präpariert ein Microsoft-Excel-Dokument für die Indizierung mit Hilfe der Jacob-API, wobei Jacobgen genutzt wurde, um den Zugriff zu erleichtern.
JacobMsPowerPointPreparator Präpariert ein Microsoft-Powerpoint-Dokument für die Indizierung mit Hilfe der Jacob-API, wobei Jacobgen genutzt wurde, um den Zugriff zu erleichtern.
JacobMsWordPreparator Präpariert ein Microsoft-Word-Dokument für die Indizierung mit Hilfe der Jacob-API, wobei Jacobgen genutzt wurde, um den Zugriff zu erleichtern.
JarPreparator Prepares JAR/WAR/EAR archives for indexing The following information will be extracted: filename
JavaPreparator Prepares Java source code for indexing The following information will be extracted: class name, member names, return types , code blocks
MessagePreparator This class prepares messages (MIME, rfc822), specifically spoof email messages.
MP3Preparator Prepares a mp3 file for indexing of metadata The following information from the audio tag (ID3v2 or ID3v1) will be extracted: artist, album, title, year, length, bitrate
OpenOfficePreparator Preparates OpenOffice, StarOffice and OpenDocument documents.
PdfBoxPreparator Präpariert ein PDF-Dokument für die Indizierung.
PlainTextPreparator Präpariert ein Plain-Text-Dokument für die Indizierung.
PoiMsOfficePreparator Prepares all MS*-documents using POI POI-API.
SimpleRtfPreparator Präpariert ein RTF-Dokument für die Indizierung.
SwingRtfPreparator Präpariert ein RTF-Dokument für die Indizierung.
XmlPreparator Präpariert ein XML-Dokument für die Indizierung.
ZipPreparator Prepares archive files (zipped content) for indexing The following information will be extracted: filename (toLowerCase)
 

Package net.sf.regain.crawler.preparator Description

Die Präparatoren, die aus einem Dokument den Text, den Titel, usw. extrahieren. für jedes Dokumentenformat existiert ein Präparator.


Regain 2.1.0-STABLE API

Regain 2.1.0-STABLE, Copyright (C) 2004-2010 Til Schneider, www.murfman.de, Thomas Tesche, www.clustersystems.info