[Seeky] WG: AW: Re: Re: Open Source Websuche - Mitmachpotential

Niels Dettenbach nd at syndicat.com
Sa Mär 5 08:35:16 CET 2011


Leite hier jfyi zwei Postings von gestern / heute weiter, die nicht über die neue Listenadresse gehen wollten...

-- Urspr. Mitt. --
Betreff: AW: Re: Re: Open Source Websuche - Mitmachpotential
Von: "Niels Dettenbach" <nd at syndicat.com>
Datum: 05.03.2011 08:26

>... http://seeky.org
>...abstrakt...
Sorry für möglicherweise noch bestehende Verwirrung. Ich beschäftige mich bereits schon einige Zeit / Jahre mit der Thematik und setze bei meiner "Kurzfassung" z.T. zuviel Gegebenes bzw. Kenntnisse über die Funktionsweisen klassischer Lösungen voraus um erst einmal konzeptionell Verständnis zu schaffen, bevor es dann ins Detail und damit auch "Eingemachte" geht. Habe den "Abstract" gestern Abend kurz per Handy und VI zusammengetippt (sind sicher noch typos drin).

Das Konzept Harvester (aus z.B. Gatherer, Summarizer und Broker) wie SOIF sind bekannte wie Open Source implementierte Komponenten (z.B. das von vielen fast vergessene - aus einer Hand voll Perl-Modulen bestehende - "Harvest NG", dessen sich bis heute große wie auch spezialisierte Suchmaschinen in eigener Weiterentwicklung bedienen).

Im Prinzip sind die meisten Komponenten nicht wirklich neu, dafür in ähnlicher Form "state of the art" bei klassischen, großen Suchanbietern. Mein Lösungsansatz konsolidiert diese Struktur in gleich mehrere Ebenen / Richtungen wie Dezentralisierung, Skalierbarkeit und Offenheit. Ebenso gab es bereits SOIF, welches in seiner klassischen Format-/Protokolldefinition nicht mehr flexibel genug war, weshalb mein Konzept da einige Erweiterungen / Änderungen vorsieht. Wie weit die Idee eines SRR neu ist, der neben einer typischen API eine Art "Scriptsprache" zur Formulierung von Abfragen anbietet, weiß ich nicht sicher - halte das für logische Folge einer solchen Struktur.

Wirklikch neu sind daher 
- die zwischen den Komponenten wirkenden / eingesetzten Protokolle wie APIs - aber auch 
- der Ansatz das klassische Crawling am Webserver zu implementieren (z.B. als "modular erweiterbares" Webserver-Modul) mit alternativen Erfassungsmethoden wie das Indizieren bei Abruf von Inhalten/Seiten. Denkbar wäre auch, das jemand auch die Ergebnisse von P2P Suchkonzepten "beisteuert"
- der Qualitäts-/Sicherheits-Ansatz geht weg von Obscurity und "geheimen Algos" zu offenen Strukturen und auch Algos (wobei nicht alle offen sein müssen)

Das schnellere wie gezieltere Finden von Datenbeständen wie Indizes kann durch etablierte Dienste wie z.B. zusätzliche DNS records unterstützt werden. Zwar funktioniert das Konzept auch ohne Mitwirkung von Webmastern und/oder Hosting-ISPs, über Mitwirkung jedoch kann der (Web-)Anbieter eine noch schnellere wie gezieltere Suche / umfassenderes Informationsangebot ermöglichen, weshalb mittelfristig ein Gutteil der Webangebote aus eigenem Antrieb "mitwirken" dürften.

> Datenbank
Die "Masse" der Detailinformationen zu einer oder vielen Websites entsteht am Gatherer bzw. Harvester und damit i.d.R. "dort", wo auch die jeweiligen Website(s) liegen.

Meta-Indizes können in einem SOIF-ähnlichen Format per UDP (Performance) oder TCP ("Genauigkeit") Datensätze mit den Metadaten abholen und verwerten, die der jeweilige Indize braucht (wobei Indize hier recht weit gefasst ist). Z.B. kann ein Indize, der "nur" eine Volltextsuche / einige Volltextindizes bereitstellen will, die relevanten Datenfelder wie z.B. summarierten Text abholen, ein "Link-Indize" nur die Links/Verweise eines Dokumentes oder auch gerenderte Screenhots bis hin zu div. Caches usw.

Bei einer Suche greifen User i.d.R. per SRR auf Meta-Indizes zu, dabei u.U. - in einem zweiten bzw. folgenden "Schritt" - aber auch direkt auf die Harvester / Gatherer / Broker um z.B. für die Darstellung der Treffer gewünschte zusätzliche "Details" (simples Beispiel: Screenshot) beizuholen (auf Kosten einer potentiell höheren Antwortzeit für diese "zusätzlichen" Inhalte).

Welcher Art Indizes - mit welcher "Intelligenz" - bereitgestellt / verfügbar werden, ist Sache der Community aus Anbietern und Anwendern. Ob jemand z.B. einen PR Index anbietet, einen Alters- wie Änderungsindex usw. ist jedem selbst überlassen und mit vergleichsweise geringem Aufwand realisierbar - ebenso Sache der Anwender, ob und wie die diese Indizes in ihre Suche einbeziehen.

Ich halte da freien Wettbewerb für nachhaltiger als einen zentralen Ansatz mit statischen Ranking und Indizekonzepten. Ebenso steht es jedem Anbieter von Indizes offen, ob und wie weit der seine Datenbestände der Allgemeinheit öffnet wie dem Suchenden, auf welche Indizes er wert legt bzw. er vertraut. Es wird Zeit, das die gemeinhin akzeptierte Gängelung durch Suchmaschinen die meinen, sie wüssten allein am besten was und wie wir zu suchen haben - ein Ende findet.

Werde dazu noch ein paar Beispiele im Detail darlegen.

Vorteil dieser Strukur ist, das sie freier skaliert und vor allem stetig neuen Such- wie Rankingkonzepten offen steht - ebenso auch weiteren Protokollen wie z.B. Listenarchive, Datenbankanwendungen u.m.. Während bisher die Suchanbieter darüber bestimmten, welche Antworten einer Abfrage die "besten" für mich als User sind kann ich das selbst entscheiden - oder spezialisierte Anbieter für mich "entscheiden lassen".

Die Webmaster selbst können mitbestimmen, welche lokalen Indizes (Summarizer-Module) sie wünschen / akzeptieren / vorhalten wie auch welche Metaindizes sie u.U. nicht "beliefern" möchten. Die von Google & Co. hochgefeierte (aber nicht wirklich vorhandene) "soziale Intelligenz" moderner Suchmaschinen wird nicht zuletzt Realität. Indizes laufen dort, wo sie gebaut / gepflegt werden wie Suchfrontends nah am oder sogar beim Enduser.


Beste Grüße,

Niels.
---
http://seeky.org




Mehr Informationen über die Mailingliste Seeky