SEEKY - Harvester / Primary Level Broker (PLB)

Aufgabe

Primary Level Broker (PLBs) stellen Daten und Metadaten von Webdokumenten / Internetressourcen per URL im (zu definierenden) SOIF-NG Format für einen begrenzten Satz an Website-Space und / oder Domainspace zur gezielten Abfrage bereit.

Abfragende sind i.d.R. Meta-Indizes, die - je nach eigenem Bedarf - einzelne Datenfelder oder ganze Datensätze zu Dokumenten abholen (PULL) oder per Vereinbarung gesendet bekommen möchten (PUSH). Einzelne Datensätze können aber anwendungsbedingt auch direkt von SRRs oder SEFs abgeholt werden.

Das Datenmodell kann durch Module erweitert werden, indem neue Module neue Datenfelder (IDs) im SOIF Datensatz belegen können.

Funktionsprinzip

PLBs erhalten Daten aus z.B.:

PLBs bieten Daten in SOIF-NG Strukturen an - insbesondere Meta-Indizes wie anderen Clients.

Clients können PLBs per UDP wie TCP basierten Protokollen konsultieren und sich per URI wie Feld ID(s) adressierte Datensätze zusenden lassen.

Dumps

Meta-Indizes wie auch SLBs können - soweit nicht vom PLBs Indize-basiert verboten/erlaubt - Datensätze ganzer Websites / Domains / URI-Spaces komprimiert per Dump beziehen.

Sync

denkbar wäre auch eine sync infrastruktur wo nur Änderungen im Datenbestand übermittelt werden.

Implementierung

Zur Implementierung von PLBs können eigenständige deamons wie auch z.B. (Web-)Server-Module zum Einsatz kommen.

Modularität

Das von PBLs bereitgestellte Datenmodell wie angebotene Protokolle können per Modulen erweitert werden (Datenmodell -> Summarizer-Module).

Datenhaltung

Die Datenhaltung erfolgt transparent zur Datenein- wie Ausgabe per SOIF-NG. Denkbar wären SOIF-NG Implementierungen mit verschiedenen, hocheffizienten Storage-Backends zur Speicherung im RAM wie auf Plattenspeichern mit tie-Fähigkeiten (NoSQL) oder Kombinationen aus NoSQL und SQL basierten DBMS. Dennoch obliegt die Datenhaltung dem jeweiligen Anwender / Anwendung.

SOIF sieht Schlüssel per URI vor, über die Hashes zum Dokument ermittelt / adressiert werden können. Eine Überarbeitung / Ergänzung des SOIF-RFCs zu einem modernen, flexibleren SOIF-NG Standard ist Teil des Seeky Konzeptes wie Bestrebungen.

[home]