|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |
java.lang.Objectnet.sf.regain.crawler.document.RawDocument
public class RawDocument
Enthält alle Rohdaten eines Dokuments.
Falls der Inhalt des Dokuments zur besseren Bearbeitung in Form eines Strings gebraucht wird, dann wird dieser zum spätest möglichen Zeitpunkt erstellt.
Field Summary | |
---|---|
private static Profiler |
FILE_LOADING_PROFILER
Der Profiler der das Laden vom Dateisystem misst. |
private static Profiler |
HTTP_LOADING_PROFILER
Der Profiler der das Laden via HTTP misst. |
(package private) AccountPasswordEntry |
mAccountPasswordEntry
account-password entry for the url in processing. |
private byte[] |
mContent
Der Inhalt des Dokuments. |
private File |
mContentAsFile
Die Datei, in der sich der Inhalt des Dokuments befindet. |
private boolean |
mContentAsFileIsTemporary
Ist die Datei mContentAsFile tempor�r. |
private String |
mContentAsString
Der Inhalt des Dokuments als String. |
private static int |
mHttpTimeoutSecs
Der Timeout für HTTP-Downloads. |
(package private) Date |
mLastModifiedDate
Last modified date. |
private HashMap<String,String> |
mLinks
HashMap links containing the URL as key and the linktext as value. |
private static org.apache.log4j.Logger |
mLog
The logger for this class |
private String |
mMimeType
The mimetype of the document. |
private String |
mSourceLinkText
Der Text des Links in dem die URL gefunden wurde. |
private String |
mSourceUrl
Die URL jenen Dokuments, in dem die URL dieses Dokuments gefunden wurde. |
private String |
mUrl
Die URL des Dokuments. |
Constructor Summary | |
---|---|
RawDocument(String url,
String sourceUrl,
String sourceLinkText,
AccountPasswordEntry accountPasswordEntry)
Erzeugt eine neue RawDocument-Instanz. |
Method Summary | |
---|---|
void |
addLink(String url,
String linkText)
Adds a single link to the Hashmap of links |
void |
dispose()
Gibt alle genutzten System-Ressourcen, wie temporäre Dateien, wieder frei. |
byte[] |
getContent()
Gibt den Inhalt des Dokuments zurück. |
File |
getContentAsFile()
Gibt den Datei des Dokuments zurück. |
File |
getContentAsFile(boolean forceTempFile)
Gibt den Datei des Dokuments zurück. |
InputStream |
getContentAsStream()
Gets the content of the document as stream. |
String |
getContentAsString()
Gibt den Inhalt des Dokuments als String zurück. |
Date |
getLastModified()
Gibt zurück, wann das Dokument zuletzt geändert wurde. |
int |
getLength()
Return the lentgth of the document (in bytes). |
HashMap<String,String> |
getLinks()
Gets the links |
String |
getMimeType()
Gets the mimetype of this document. |
String |
getSourceLinkText()
Gibt den Text des Links zurück in dem die URL gefunden wurde. |
String |
getSourceUrl()
Gibt die URL jenen Dokuments zurück, in dem die URL dieses Dokuments gefunden wurde. |
String |
getUrl()
Gibt die URL des Dokuments zurück. |
boolean |
hasLinks()
Gets the information wether the document contains links |
private byte[] |
loadContent(String url)
Load content from URL for http/https documents. |
private byte[] |
loadIMAPMessage(String url)
Loads a mime message from an IMAP server. |
private byte[] |
loadSmbFile(String url)
Loads the content from a smb file |
static void |
setHttpTimeoutSecs(int httpTimeoutSecs)
Setzt den Timeout für HTTP-Downloads. |
void |
setMimeType(String mMimeType)
Sets the mimetype of this document. |
String |
toString()
Gets the String representation of this class. |
void |
writeToFile(File file)
Schreibt den Inhalt des Dokuments in eine Datei. |
Methods inherited from class java.lang.Object |
---|
clone, equals, finalize, getClass, hashCode, notify, notifyAll, wait, wait, wait |
Field Detail |
---|
private static org.apache.log4j.Logger mLog
private static final Profiler HTTP_LOADING_PROFILER
private static final Profiler FILE_LOADING_PROFILER
private static int mHttpTimeoutSecs
private String mUrl
private String mSourceUrl
private String mSourceLinkText
null
,
falls die URL nicht in einem Link (also einem a-Tag) gefunden wurde oder
wenn aus sonstigen Gruenden kein Link-Text vorhanden ist.
private byte[] mContent
null
, wenn sich das Dokument in einer Datei befindet und
noch nicht angefragt wurde.
private String mContentAsString
null
, bis er zum
ersten mal angefragt wurde.
private File mContentAsFile
null
, wenn das Dokument über HTTP bezogen wird und noch
nicht angefragt wurde.
private boolean mContentAsFileIsTemporary
mContentAsFile
tempor�r. Wenn true
,
dann wird die Datei am Ende gel�scht.
dispose()
private String mMimeType
private HashMap<String,String> mLinks
AccountPasswordEntry mAccountPasswordEntry
Date mLastModifiedDate
Constructor Detail |
---|
public RawDocument(String url, String sourceUrl, String sourceLinkText, AccountPasswordEntry accountPasswordEntry) throws RegainException
url
- Die URL des Dokuments.sourceUrl
- Die URL jenen Dokuments, in dem die URL dieses Dokuments
gefunden wurde.sourceLinkText
- Der Text des Links in dem die URL gefunden wurde. Ist
null
, falls die URL nicht in einem Link (also einem
a-Tag) gefunden wurde oder wenn aus sonstigen Gründen kein Link-Text
vorhanden ist.
RegainException
- Wenn das Dokument nicht geladen werden konnte.Method Detail |
---|
public static void setHttpTimeoutSecs(int httpTimeoutSecs)
Dieser Wert bestimmt die maximale Zeit, die ein HTTP-Download insgesamt dauern darf.
httpTimeoutSecs
- Der neue Timeout.private byte[] loadIMAPMessage(String url) throws RegainException
url
- the URL of the mime message
RegainException
- if loading failsprivate byte[] loadSmbFile(String url) throws RegainException
url
- The URL
RegainException
- if loading failsprivate byte[] loadContent(String url) throws RegainException
url
- The URL.
RegainException
- if loading was erroneouspublic int getLength()
public Date getLastModified()
Wenn die letzte Änderung nicht ermittelt werden kann (z.B. bei
HTTP-Dokumenten), dann wird null
zurückgegeben.
public String getUrl()
public String getSourceUrl()
public String getSourceLinkText()
Ist null
, falls die URL nicht in einem Link (also einem a-Tag)
gefunden wurde oder wenn aus sonstigen Gr�nden kein Link-Text vorhanden ist.
public byte[] getContent() throws RegainException
RegainException
- Wenn das Dokument nicht geladen werden konnte.public String getContentAsString() throws RegainException
Dieser String wird erst bei der ersten Abfrage erzeugt und dann gecached.
RegainException
- Wenn das Dokument nicht geladen werden konnte.public InputStream getContentAsStream() throws RegainException
RegainException
- If creating the stream failed.public void writeToFile(File file) throws RegainException
file
- Die Datei in die geschrieben werden soll.
RegainException
- Wenn das Schreiben fehl schlug.public File getContentAsFile() throws RegainException
RegainException
- Wenn entweder keine tempor�re Datei erstellt werden
konnte oder wenn nicht in die tempor�re Datei geschrieben werden
konnte.public File getContentAsFile(boolean forceTempFile) throws RegainException
forceTempFile
- gibt an, ob erzwungen werden soll, dass eine
temporäre Datei erzeugt wird. Auf diese Weise kann man sicher sein,
dass die Datei von niemandem geöffnet ist.
RegainException
- Wenn entweder keine temporäre Datei erstellt werden
konnte oder wenn nicht in die temporäre Datei geschrieben werden
konnte.public void dispose()
Ressourcen der VM, wie z.B. Arrays, werden nicht freigegeben. Das soll der GarbageCollector erledigen.
public String toString()
toString
in class Object
public String getMimeType()
public void setMimeType(String mMimeType)
public boolean hasLinks()
public void addLink(String url, String linkText)
public HashMap<String,String> getLinks()
|
Regain 2.1.0-STABLE API | ||||||||
PREV CLASS NEXT CLASS | FRAMES NO FRAMES | ||||||||
SUMMARY: NESTED | FIELD | CONSTR | METHOD | DETAIL: FIELD | CONSTR | METHOD |