News

30.07.2014, Til Schneider
Version 2.1.0 STABLE ist veröffentlicht

  • Zusatzfelder können nun anstatt der URL auch den (nicht URL-kodierten) Dateisystempfad verwenden.

21.03.2013, Thomas Tesche
Version 2.0.4 STABLE ist veröffentlicht

  • Bugfix: Mimetypes für Office 2007 Dokumente werden für die Ausgabe der Suchergebnisse korrekt gesetzt.

02.03.2013, Thomas Tesche
Version 2.0.2 STABLE ist veröffentlicht

  • Bugfix: Regression, NullPointer-Exception bei Suche in multiplen Indexen.

16.02.2013, Thomas Tesche
Version 2.0.1 STABLE ist veröffentlicht

  • PDFPreparator: Fehlende Bibliotheken ergänzt, PDFBox geupdatet.

06.12.2012, Benjamim Pick, Thomas Tesche
Version 2.0.0 STABLE ist veröffentlicht

  • JavaPreperator: Enums werden geparsed (Enum-Name und Konstanten-Bezeichner werden extrahiert)
  • Wenn ein Preparator nicht erfolgreich ist, werden erst die anderen Preparatoren versucht, bevor ein leeres Ersatzdokument erstellt wird.
  • Erlaube mehrere, negierte und Wildcard-Mime-Angaben (z.B. mimetype:"text/*" -mimetype:"text/plain")
  • HtmlPreparator: Folge auch Links in framesets
  • MP3Peparator und GenericAudioPreparator funktionieren jetzt auch, wenn die Dateien nur lesbar sind.
  • IndexWriterManager: Schließe alle Dateien (um den Fehlern "Too many open files..." und "this IndexReader is closed" vorzubeugen).

20.06.2012, Benjamim Pick, Thomas Tesche
Version 1.8.0 PREVIEW ist veröffentlicht

  • Lucene wurde von 3.1 auf 3.6 aktualisiert.
  • Desktop Version: Für Konfiguration werden nun one-time Tokens benutzt.
  • HTML-Kodierung der JSP-Tags verbessert.

12.04.2012, Benjamim Pick, Thomas Tesche
Version 1.7.12 PREVIEW ist veröffentlicht

  • Einige Bugfixes und neue Features für benutzerdefinierte SearchAccessController/CrawlerAccessController
  • POI-Bibliothek auf 3.8 aktualisiert.
  • XML-interface encodiert jetzt korrekt.

03.02.2012, Benjamim Pick, Thomas Tesche
Version 1.7.11 PREVIEW ist veröffentlicht

  • NEU: Dynamisches Blacklisting eingeführt.
  • Crawler Thumbnailer auf Version 0.3 Stable geupdated.

11.12.2011, Thomas Tesche, Benjamim Pick
Version 1.7.10 PREVIEW ist veröffentlicht

  • NEU: Die Suchergebnisse können jetzt als XML ausgegeben werden (search_xml.jsp). Die URL-Parameter entsprechen search.jsp
  • Alle tags haben jetzt ein optionales Attribut "escape" (html, xml or none)
  • JarPreparator zum Indizieren der Dateinamen aus *.jar, *.war, *.ear Archiven.
  • ZipPreparator zum Indizieren der Dateinamen aus *.zip Archiven.
  • BUGFIX: DocumentFactory.createDocument(): Datei wurde nicht geschlossen
  • IndexUpdateManager.checkUpdate(): Datei wurde nicht geschlossen
  • Keine NullpointerException wenn AnalyzerType unbekannt ist; stattdessen, re-indizieren.
  • build.xml: Kompilieren mit JAVA_HOME möglich (falls java.dir unbekannt)
  • build.xml: Fehlermeldung falls kein build.properties gefunden wurde
  • File2Http-Bridge funktionierte nicht in 1.7.9

16.08.2011, Thomas Tesche
Version 1.7.9 PREVIEW ist veröffentlicht

  • Neu: (Desktop) Es können nun Tags hinzugefügt werden. (Registrieren in DesktopConfiguration.xml, dann als namespace.jar unter web/taglib ablegen).
  • Wenn kein Index vorhanden ist, wird nun auf noindex.jsp weitergeleitet (statt Nullpointerexception).
  • Bugfix Crawler-Version: Funktionierte in 1.7.8 nicht (da kein Zugriff auf IndexConfig möglich)

31.07.2011, Thomas Tesche
Version 1.7.8 PREVIEW ist veröffentlicht

  • Neu: Crawler Plugin Infrastruktur (Contrib. benjamin) siehe auch Doku.
  • Update der PDF-Bibliothek: Verbesserung der Performance und weniger Abbrüche beim Extrahieren von Text aus PDF.
  • Bugfix: Das Feld 'filename' wird wieder korrekt durchsucht.

03.06.2011, Thomas Tesche
Version 1.7.7 STABLE ist veröffentlicht

  • Icons für docx, pptx, xlsx hinzugefügt
  • Fehlermeldung bei falschem Config-Dir verbessert (Contrib. benjamin » 26.04.2011, 08:45)
  • Bibliotheks-Updates: PDFBox, Lucene, JaudioTager
  • Definition von Analysern für französisch und italienisch hinzugefügt.
  • Beispiel für englische Stopwords
  • englische Ausgabe der Meldungen im FormTag (Einstellungen)
  • Annotations werden aus PDF Dokumenten ausgelesen.
  • TrayIcon wird auch auf 64-bit Systemen dargestellt.

21.12.2010
Version 1.7.3 STABLE ist veröffentlicht

  • Updates für Lucene, PDFBox, POI (Office), Aperture, jcifs (Sambazugriff)
  • Metadatenextraktion für PDF und Officedokumente
  • BUGFIX: TrayIcon für Linuxversion (32bit)

26.09.2010
Version 1.7.0 STABLE ist veröffentlicht

  • Authentifizierung für http nun möglich
  • Liste aller gecrawlten URLs wird am Ende des Crawlvorganges geschrieben.
  • BUGFIX: Fehlende Apache Commons Bibliotheken hinzugefügt.

10.12.2009
Version 1.6.6 ist veröffentlicht

  • BUGFIX: Fehlende commons-collections-xxx Klasses im Buildprozess berücksichtigt.

29.11.2009
Version 1.6.4 ist veröffentlicht

  • Neue Sortiermöglichkeiten nach Relevanz, Datum (last-modified), Größe, Titel, Mimetype, Pfad, Dateiname. Die Sortierung wird in der SearchConfiguration.xml konfiguriert. In der mitgelieferten SearchConfiguration.xml ist nur die Relevanz (also bisheriges Verhalten) eingeschaltet.
  • Last-Modified wird am Suchtreffer ausgegeben.
  • UPDATE: Lucene wurde auf Version 2.9.1 geupdated.
  • UPDATE: PDFBox wurde auf Version 0.8.0 geupdated.
  • Obsolete PoiMsWord, -Excel, -Powerpoint und -VisioPreparator wurde entfernt. Diese Klassen können über das Tag 'release-1.6.3' im Repo gefunden werden.
  • DEPRECATED: SingleSearchResults, MultipleSearchResults, MergedHits. Diese Klassen werden mit der Umstellung auf Lucene 3.0 entfernt.

05.09.2009
Version 1.6.2 ist veröffentlicht

  • UrlCleaner um störende Teile aus einer Url zu entfernen (z.B. sessionID)
  • wieder mit Java 1.6 gebaut, da einige Bibliotheken Java 1.6 voraussetzen.
  • Bugfix: RTF wird wieder indexiert. Dazu wurde der SimpleRTFPreparator in der Konfig entfernt.
  • CDATA funktioniert in <starturls/>, <whitelist/> und <blacklist/>. Notwendig um eine URL mit einem & in der Query eintragen zu können.
  • BUGFIX: Mehrfache Protokollangaben bei Benutzung der Einstellungseite Desktopsuche.
  • BUGFIX: Samba-Bibliothek ausgetauscht. smb-URL Handling nach Ersetzung von Domain, User und PW geändert.
  • BUGFIX: Link-Text für 'Cached Version' ist internationalisiert
  • Französische Stoppwörter in der CrawlerConfiguration.xml

08.03.2009
Version 1.6 ist veröffentlicht

  • Linkstrunkierung für Suchanfragen: z.B. *er findet hier, Wert, integriert, aber usw. Achtung: es wird immer auf die gestemmte Form gesucht.
  • Highlighting auch für Wildcard- und Fuzzysuchen (Contribution A.Larsson)
  • BUGFIX: Aufrufen von lokalen Dateien mittels Browser nach Anwendung von <rewriteRules/>
  • Auf neueste Versionen des Windows-Installers und JSmooth geupdated.
  • URL-Authentication für imap(s), http, smb in der Form protok://username:password@host:port/a_path/. Die Einträge von Name/Password für das URL-Pattern erfolgen mittels einer properties-Datei. Haupteinsatzzweck wird das Crawlen von IMAP-Postfächern sein.
  • Neues Eingabefeld für imap(s) Url auf der Konfigurationsseite der Desktopsuche.
  • BUGFIX: Whitelist-Eintrag für Verzeichnisse/Datein von Festplatte nicht mehr nur file:/// sondern der ganze Pfad
  • Per Konfigurationseintrag in der CrawlerConfig.xml {true,false} kann man das Ablegen des gesamten Contents im Index ein-/ausschalten.
  • POI von Version 3.0.1 auf 3.1, Contribution J.Stiepel
  • MS-Visio Preparator (experimentell), Contribution J.Stiepel
  • einige Bugfixe betreffs Schreibrechten und Fehlerbehandlung, Contribution J.Stiepel
  • Bugfix: Umlaute werden nicht durch Suchmaske 'zerstört'
  • Per Default wird der gesamte Content im Index gespeichert. Mittels <search:hit_content/> aus der Taglib kann man eine ausklappbare Contentansicht in die Ergebnisliste einbauen. ACHTUNG: Experimentelles Feature. Die Indexe können sehr groß werden.

07.08.2008
Version 1.5.1 ist veröffentlicht

  • mp3-Preparator extrahiert ID3v2 oder ID3v1 Tags
  • Generischer Audio preparator, welche Meta-Informationen aus mp4 (iTunes), ogg-Vorbis und flac extrahiert
  • JavaPreparator für *.java-files (separater Download)
  • smb/CIFS Treiber
  • Neuer HTML-Parser für verbesserte Extraktion von Text und Links aus HTML-Seiten
  • Bugfix: Dateiname wird korrekt indiziert
  • Priority für Preparatoren
  • Highlighting für den Content- und Titeltext bei der Suchergebnisanzeige
  • Preparatoren werden standardmäßig über den Mime-Type ausgewählt
  • Mimetype-Detection anhand Dateierweiterung und Dateinhalt
  • Treffer lassen sich in der erweiterten Suche nach Mimetyp selektieren.
  • -notrayicon - Kommando für Aufrufe der Desktopsuche ohne Einbindung in die Tray-Bar (code contribution by Stefan Gottlieb)
  • Lucene Indexer auf Version 2.3.2 geupdatet
  • Format des Feldes 'last-modified' auf "YYYYMMDD" geändert. Damit funktioniert die 'Range-Search' für dieses Feld.(code contribution by filiadat)
  • Bugifx: Default locale-Handling in SharedTag (code contribution by filiadata)
  • Bugfix: Anchors an URLs werden entfernt
  • Bugfix: Löschen von temporären Dateien verbessert.

01.12.07
Version 1.2.3 ist veröffentlicht

  • Bugfix: In manchen Fällen wurden keine Dateiinhalte indexiert.

01.11.07
Version 1.2.2 ist veröffentlicht

  • Es kann nun jeder beliebige Lucene-Analyzer verwendet werden.
  • Bugfix: In der TLD-Definition hat das Attribut beautified im hit_url-Tag gefehlt.
  • Bugfix: Im Zusammenhang mit der File-to-Http-Bridge gab es URL-encoding-Probleme

30.10.07
Version 1.2.1 ist veröffentlicht

  • Bugfix: In regain 1.2 haben ein paar Bibliotheken gefehlt. Dies wurde mit Version 1.2.1 behoben.

20.10.07
Version 1.2 ist veröffentlicht

  • In den Suchergebnissen werden nun Icons gezeigt, die den Typ einer Datei kennzeichnen.
  • Die Index-Felder "size" und "last-modified" sind nun suchbar.
  • Neuer Präparator: EmptyPreparator (Beigesteuert von Gerhard Olsson). Dieser Präparator extrahiert keinen Inhalt aus den ihm zugeordneten Dateien. Dadurch landet im Index nur der Pfad und Dateiname (hilfreich für alle Dateitypen, für die es keinen Präparator gibt).
  • Die maximale Anzahl von Termen pro Dokument ist nun einstellbar und zwar über das maxFieldLength-Tag in der CrawlerConfiguration.xml. Default ist 10000.
  • Der IfilterPreparator funktioniert jetzt auch unter Windows Server 2003.
  • Die Werte für das search:input_fieldlist-Tag können nun beim Indexieren ermittelt werden. Dadurch muss diese bei großen Indexen langsame Operation nicht mehr bei der ersten Suche gemacht werden. Dies kann über das valuePrefetchFields-Tag in der CrawlerConfiguration.xml eingestellt werden.
  • Mehrere Bugfixes

27.03.06
Version 1.1.1 ist veröffentlicht

In der Server-Variante der Version 1.1 waren zwei Bugs, die in der neuen Version nun behoben sind.

26.02.06
Finale Version 1.1 ist veröffentlicht

  • regain sucht nun auch in den URLs.
  • Die Desktop-Suche zeigt nun die letzten Log-Meldungen.
  • Bessere Behandlung von HTTP-Redirects. (Danke an Gerhard Olsson)
  • Zusatzfelder haben nun die Optionen "tokenize", "store" und "index".
  • Die Tag Library ist nun dokumentiert.
  • Die Suchmaske akzeptiert nun mehrere "query" Parameter (diese werden einfach aneinandergehängt)
  • Die Jacob-Präparatoren wurden verbessert. (Danke an Reinhard Balling)
  • Neuer Präparator ExternalPrepartor: Dieser Präparator ruft externe Programme oder Skripte auf, um den Text aus Dokumenten zu extrahieren. (Danke an Paul Ortyl)
  • Italienische Lokalisierung fertiggestellt. (Danke an Franco Lombardo)
  • Ein paar Bugfixes

05.12.05
Version 1.1 Beta 6 ist veröffentlicht

  • Neuer Präparator: Mit dem PoiMsPowerPointPreparator steht nun auch ein plattformunabhängiger Präparator für Powerpoint zur Verfügung. (Vielen Dank an Gerhard Olsson)
  • Neuer Präparator: Der IfilterPreparator nutzt die I-Filter-Schnittstelle von Microsoft um etliche Dateiformate zu lesen. Leider läuft er nur unter Windows.
  • Multiindexsuche: In der SearchConfiguration.xml können nun auch mehrere Indizes als Default angegeben werden.
  • Die Zusatzfelder (Auxiliary Fields) können nun besser mit Groß-/Kleinschreibung umgehen.
  • Der vom Crawler an die Webserver gesendete HTTP-Agent ist nun in der CrawlerConfiguration.xml konfigurierbar. So kann sich der Crawler beispielsweise als Internet Explorer ausgeben.
  • Mehrere Bugfixes

15.08.05
Fehler in Version 1.1 Beta 5

Leider fehlen im regain.war der Version 1.1 Beta 5 zwei Bibliotheken, so dass die Suchmaske nicht funktioniert. Ich habe daher eine korrigierte Version 1.1 Beta 5a online gestellt. Dieser Fehler betrifft nur die Server-Variante, nicht die Desktop-Variante.

13.08.05
Version 1.1 Beta 5 ist veröffentlicht

  • Multiindex-Suche: Es können nun mehrere Suchindizes über eine Suchmaske durchsucht werden. Die Suchanfragen werden dabei auf jeden Index losgelassen und anschließend vereint.
  • In der Weißen und der Schwarzen Liste können jetzt auch reguläre Ausdrücke angegeben werden.
  • Suchmaske: Der Ort der Ressourcen und der Konfiguration wird jetzt besser erkannt, so dass regain auch dann korrekt funktioniert, wenn Tomcat als Service läuft.
  • Suchmaske: Die File-zu-Http-Brücke ist nun abschaltbar.
  • Crawler: Der Crawler braucht nun beim Durchsuchen von Verzeichnissen weniger Arbeitsspeicher.
  • Crawler: Der Crawler nimmt nun auch fehlgeschlagene Dokumente in den Index auf, so dass diese bei einem erneuten Durchlauf nicht noch einmal probiert werden. Wird der Crawler jedoch mit der Option "-retryFailedDocs" aufgerufen, werden alle fehlgeschlagenen erneut probiert.
  • Der Html-Präparator übernimmt nun auch die Endungen .jsp, .php, .php3, .php4 und .asp.
  • In der CrawlerConfiguration.xml kann nun bei einem Präparator angegeben werden, welche Dokumente er präparieren soll.
  • Mehrere Bugfixes

13.04.05
Version 1.1 Beta 4 ist veröffentlicht

  • Zugriffsrechte-Management: Es kann nun ein Rechte-Management eingebunden werden, das dafür sorgt, dass ein Benutzer nur Treffer für Dokumente erhält, für die er Leserechte hat.
  • Suche: Die search-Taglib hat nun ein Tag "hit_field", das ein beliebiges Indexfeld ausgibt. Das Tag "hit_summary" wurde in diesem Zuge entfernt.
  • Suche: Wenn Sie die Konfiguration der Suche nicht von einer XML-Datei laden wollen oder wenn Sie die Lage der XML-Datei nicht in der web.xml angeben möchten, können Sie die Konfiguration nun über eine eigene Factory-Klasse erzeugen. Die SearchConfigFactory-Klasse wird in der web.xml festgelegt.
  • Serversuche: Die beigelegten JSP-Seiten haben nicht funktioniert.

17.03.05
Version 1.1 Beta 3 ist veröffentlicht

  • Crawler: Bugfix: Der PoiMsExcelPräparator kam nicht mit allen Zahlen- und Datumsformaten klar.
  • Crawler: Das Fehler-Log im Index ist nun ausführlicher (Mit Stacktrace).
  • Crawler: Die Präparatoren sind nun in eigene Jars gekapselt. Dadurch ist im regain.jar nur das, was regain selbst braucht und die Präparatoren lassen sich leichter austauschen. Ausserdem können nun andere Entwickler auch Präparatoren anbieten, die sehr einfach eingebunden werden können.
    Die Konfiguration der Präparatoren steckt weiterhin in der CrawlerConfiguration.xml, allerdings müssen dort nicht mehr alle Präparatoren angegeben werden. Die Präparatoren werden in der Reihenfolge abgearbeitet, in der sie konfiguriert sind, die nicht konfigurierten Präparatoren in unbestimmter Reihenfolge danach.
  • Desktopsuche: Die Desktopsuche lauft nun auch unter Linux.
  • Suche: Bugfix: Dateien, deren URL ein doppelter Slash enthielt (Z.B. bei Netzlaufwerken: //fileserver/bla/blubb) konnten nicht geladen werden.
  • Desktopsuche: Bugfix: Bei den Suchergebnissen wurden Umlaute falsch dargestellt.
  • Desktopsuche: In der Statusseite kann nun eine laufende Indexierung angehalten und eine Indexierung manuell gestartet werden.
  • Crawler: Bugfix: Der HtmlPräparator kam nicht mit allen Dateien klar.

12.03.05
Version 1.1 Beta 2 ist veröffentlicht

  • Crawler: Der Crawler erstellt nun regelmäßig sog. Breakpoints. Dabei wird der aktuellen Stand der Suchindex in ein gesondertes Verzeichnis kopiert. Falls die Indexierung abgebrochen wurde (Z.B. weil der Rechner heruntergefahren wurde), wird beim nächsten mal auf dem letzten Breakpoint aufgesetzt.
  • Desktopsuche: Die Statusseite zeigt nun auch die Zeitmessungsergebnisse.

10.03.05
Version 1.1 Beta 1 ist veröffentlicht

  • Desktopsuche: regain bietet nun neben der Server-Suche auch eine Desktop-Suche. Die Desktop-Suche bietet viele Eigenschaften, die die Bedienung kinderleicht machen:
    • Ein Installer für Windows.
    • Integration in die Taskleiste unter Linux und Windows.
    • Konfiguration über den Browser.
    • Status-Anzeige über den Browser.
  • Crawler: Es gibt nun einen Präparator für OpenOffice- und StarOffice-Dokumente.
  • Gesamt: Aktualisierung auf die neusten Versionen der genutzten Projekte.
  • Crawler: Präparatoren sind nun über die CrawlerConfiguration.xml konfigurierbar.
  • Suche: Die Suche wird nun über die SearchConfiguration.xml konfiguriert, nicht mehr über die web.xml. Dort steht nun nur noch der Pfad zur SearchConfiguration.xml.
  • Suche: In der Suche kann nun URL-Rewriting eingesetzt werden. Dadurch können Dokumente von file://c:/www-data/intranet/docs indiziert und im Browser als http://intranet.murfman.de/docs angezeigt werden.
  • Crawler: Zusatzfelder: Der Index kann durch Zusatzfelder erweitert werden, die aus der URL eines Dokuments generiert werden.
    Beispiel: Angenommen Sie haben ein Verzeichnis mit einem Unterverzeichnis für jedes Projekt. Dann könnten Sie daraus ein Feld mit dem Projektnamen generieren. Dadurch bekommen Sie bei der Suche nach "Angebot project:otto23" nur Treffer aus diesem Verzeichnis.
  • Suche: Expertensuche: Die Werte, die für ein Feld im Index stehen, können nun als ComboBox auf einer Suchseite angeboten werden. Vor allem in Verbindung mit Zusatzfeldern ist das sehr praktisch.
  • Suche: Weil manche Browser aus Sicherheitsgründen keine file-Links verfolgen, die auf http-Seiten stehen, sind nun alle Dokumente, die sich im Index befinden auch über HTTP erreichbar. Selbstverständlich sind sie bei der Desktopsuche nur vom lokalen Rechner aus abrufbar.
  • Crawler: Der JacobMsWordPräparator berücksichtigt nun Formatvorlagen. Dadurch können Überschriften extrahiert werden, die dann bei der Suche stärker gewichtet werden.
  • Crawler: Die JacobMsOfficePräparatoren können nun die Beschreibungsfelder von MS Office-Dokumenten extrahieren (Titel, Autor, usw.)

28.07.04
Die erste Version von regain ist veröffentlicht!

Heute habe ich die offizielle Bestätigung von dm-drogerie markt erhalten, die es mir erlaubt, regain unter der LGPL zu veröffentlichen. Das Projekt ist ab jetzt im Downloadbereich oder über den CVS-Server von Sourceforge zu haben.