(openPR) Berlin, 18. Februar 2008 – Mit Unterstützung des Berliner Senats startet der Spezialist für Suchmaschinen und innovative Technologien neofonie ein Forschungsprojekt zum Hyper-Mining, das im Ergebnis beispielsweise die Auffindbarkeit von personenbezogenen Informationen im Internet verbessert. Bei einer Laufzeit von zwei Jahren und einem Projektvolumen von 468.000 Euro wird am Anwendungsfall „Personensuche“ eine Hyper-Mining-Plattform zur Gewinnung von strukturierten Informationen aus Internet-Dokumenten entwickelt.
Mit dem Aufkommen des Web 2.0 veränderte sich die Art und Weise der Internetnutzung, was sich auch in den Anfragen an Suchmaschinen widerspiegelt: 5-10% aller Suchanfragen beziehen sich inzwischen auf Personen. Herkömmliche Volltextsuchen liefern bei der Suche nach personenbezogenen Informationen allerdings nur äußerst unbefriedigende Ergebnisse. Beispielsweise können nur Dokumente bereitgestellt werden, in denen die Schreibweise der gesuchten Person identisch ist mit der Suchanfrage. Oder es werden unterschiedliche Personen, die den gleichen Namen haben, in der Ergebnisliste ungeordnet miteinander vermischt. Der größte Schwachpunkt ist jedoch, dass lediglich Links auf Dokumente angezeigt werden und strukturierte Informationen zu Personen, die im Internet ebenso verfügbar sind, völlig unberücksichtigt bleiben.
In dem Projekt „peopleextract“ will die neofonie diese Nachteile durch die Entwicklung einer Hyper-Mining-Plattform beseitigen. Unter Hyper-Mining versteht man die Extraktion und Aggregation von strukturierten Daten über große Dokumentenbestände hinweg. Eine typische Hyper-Mining-Aufgabe wäre zum Beispiel, alle im deutschen Internet vorhandenen Informationen zu einem bestimmten Produkt zu einem Produkt-Informationsblatt zusammenzufassen. Die Zielsetzung des Projektes „peopleextract“ ist insbesondere die automatische Profilierung und Disambiguierung von Entitäten wie Personen und die Erzeugung von sozialen und Unternehmens-Netzwerken aus Web-Dokumenten. Dabei werden Verfahren des Web-Minings, Clusterings, der Linguistik, Statistik und Netzwerkanalyse miteinander kombiniert.
Die entwickelte Hyper-Mining-Personensuche wird zunächst in die neuartige Suchmaschine und Community-Plattform „WeFind“ integriert, die noch in diesem Sommer launchen wird (vgl. http://company.wefind.com/wefamilie.html). Das Besondere an der WeFind-Personensuche ist, dass sie themenzentriert Bezüge zwischen Dokumenten und Personen erkennt und, passend zur Suchanfrage, die relevantesten Personen, Experten und Meinungsträger im Web, in der Blogosphäre, in Wikipedia sowie in kooperierenden und in WeFind gegründeten Communities findet. Auch kann sie die thematisch relevantesten Personengruppen bzw. Communities identifizieren.
Die im Rahmen des Projektes „peopleextract“ am Beispiel „Personensuche“ entstehenden Software-Komponenten sind wieder verwertbar, d.h. sie stellen die Funktionalität zur Gewinnung von strukturierten und semi-strukturierten Informationen aus Internet-Dokumenten bereit und können für weitere Anwendungsfälle – wie die oben erwähnte automatische Erstellung von Produkt-Informationsblättern – herangezogen werden.












