Seiten

Freitag, 24. Mai 2013

SPMT – Der Collector-Aufbau

In diesem Abschnitt möchte ich den Teil beschreiben, der die Informationen aus den jeweiligen Verzeichnissen holen wird.

Im Prinziep handelt es sich um einen minmalen Crawler. Beginnend mit einer Liste von Verzeichnissen, wird rekursiv abgestiegen und die Information aus den jeweiligen Dateien extrahiert. Da es sich um Photos handelt, sind natürlich die EXIF Informationen von Interesse.

Hier verwende ich die LIB:  com.drewnoakes metadata-extractor 2.6.2

Der Crawler besteht aus den Hauptkomponenten

- Node: Hier werden die Informationen gespeichert, jeweils ein Node pro Verzeichnisknoten. File/Dir

- Crawler: In diesem Beispiel ein Filesystemcrawler, könnte erweitert werden um andere Quellen-Crawler

- FileExtractor: Zum extrahieren der jeweiligen Information jeweils ein spezieller Extractor.

Dieses wird noch erweitert um Actions, die dann nach einem Extratordurchlauf pro Node gestartet werden kann.

 

Funktion:

Der Crawler bekommt einen Startpunkt und beginnt dort mit dem rekursiven Abstieg. Auf jeden Knoten werden die eine Liste Extraktoren angewendet. Die Informationen in die Attributliste des Node gespeichert. Ein NoteAttribute ist eine einfache Key/Value Kombination.

UML-Bild: (im Repository unter data/uml zu finden)

image