Sie sind hier: Startseite » Fachartikel » Hintergrund

Suche ist Kommunikation


Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang
Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben


Von DI Jakob Praher, technischer Leiter bei der Mindbreeze GmbH

(24.07.13) - Als Tim Berners-Lee im März 1989 ein Paper mit dem Namen "A Large Hypertext Database with Typed Links" veröffentliche, legte er damit nicht nur die Grundsteine für das heutige World Wide Web und darüber hinaus das Semantic Web, sondern auch für den damit einhergehenden Siegeszug von Suchmaschinen. Durch die dezentrale Organisation wurde es notwendig die Information des Webs zu crawlen und indizieren und Suche als Dienst im Web anzubieten.

Suche ist Kommunikation. Der Benutzer stellt eine Anfrage mit einem bestimmten Ziel oder Bedürfnis und erhält eine Antwort in Form von Treffern auf eine Datenbasis, die meist nach der Relevanz gemäß einem Modell gereiht sind. Dabei sollen die Top-Treffer jene sein, die für den Benutzer am relevantesten sind. Um die Richtigkeit und Genauigkeit der Treffer und deren Relevanzbewertung für den Benutzer zu verbessern, wird die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an. Zum einen ist wichtig die Absicht bzw. das Ziel des Benutzers zu verstehen. Auf der anderen Seite gilt es die Beziehungen und den Kontext der Begriffe in der Datenbasis zu verstehen. Dabei ist Verstehen der Bedeutung natürlich sprachlicher Information ein komplexer Vorgang. In der griechischen Tradition liegt die Bedeutung eines Satzes und dessen Komponenten in der Absicht des Sprechers eine Vorstellung beim Zuhörer zu erzeugen. In dieser Definition gibt es keine eindeutige und allgemeingültige Interpretation natürlicher Sprache.

Jüngste Entwicklungen im Bereich der semantischen Werkzeuge stehen in direktem Zusammenhang mit der Entwicklung maschinellen Lernens und dem Umgang mit großen Datenmengen. Im IEEE-Artikel "The Unreasonable Effectiveness of Data" haben die Google Researcher Alon Halevy, Peter Norvig und Fernando Pereira ein Manifest für "Big Data Analytics" und "Unsupervised Learning" verfasst. Die klare Erkenntnis ist, dass eine große Datenmenge der beste Verbündete in der Verarbeitung natürlicher Sprache ist.

Einen großen Teil der Information im Web bilden heute generierte Seiten aus strukturierten Daten. Semantische Modelle aus der Ein- und Ausgabe solcher Webdienste zu extrahieren hat Craig Knoblock in seiner Keynote mit dem Titel "Discovering and Building Semantic Models of Web Sources in der Euorpean Semantic Web Conference (ESWC) 2009" vorgestellt. Zum Beispiel ist die berechnete oder generierte Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Die Wetterinformation folgt dabei einem speziellen Vokabular. Aus der Ein- und Ausgabe, soll die bedeutungsändernde Beziehung erkannt und danach ein Modell extrahiert werden.

Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML einbettbare, präsentationsneutrale Metaformate wie z.B. Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe, Rezepte usw. an.

Eine besondere Form semantischer Suchmaschinen sind sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter dieser Systeme sorgte im Februar 2011 IBM Watson, entwickelt vom IBM DeepQA Research Projekt unter der Leitung von David Ferrucci, für weltweites Aufsehen. Als Challenge trat das System gegen menschliche Gegner in der Live-Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Sieger Ken Jennings besiegte und den ersten Platz gewann.

Suche - Das Ziel hinter der Anfrage verstehen
Zwar ist die durchschnittliche Länge einer Suchanfrage laut einer Studie aus 2011 von 2,4 auf drei Worte gestiegen und auch geht die Anzahl von Einwortsuchen drastisch zurück, Suchanfragen sind in der Regel dennoch recht knapp formulierte Anweisungen an die Suchmaschine. Dabei ist die Suchanfrage nur der Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt die subjektive Relevanz eines Suchergebnisses. Die Suche wird bedingt durch ein Ziel abgesetzt.

In seiner Taxonomie von Websuchen unterscheidet Andrei Broder drei wesentliche Arten von Anfragen. Sucht der Benutzer zum Zweck der Navigation, dann ist das dahinterliegende Ziel der Suche möglichst auf schnellstem und direktem Weg auf eine bestimmte Site zu gelangen. Sucht man nach Information, nimmt der Benutzer an, Treffer zu dieser Anfrage zu finden. Da heute viele Aufgaben bereits Online erledigt werden, ändert sich auch das Suchverhalten. In vielen Fällen möchte der Benutzer einen Job erledigen, wie zB Einkauf von Waren, Herunterladen von Daten, Durchführen einer Überweisung, etc. Diesen Suchen sind transaktionale Suchen.

Für Semantische Suche ist die Einteilung der Suche nach groben Zielen nur ein Anfang. Es ist notwendig die Problemstellung zu analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern zu geben.

Adaptive Systeme – Mit der Maschine in Dialog treten
Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und dass sich gerade während dem Vorgang die Ausgangslage oft ändert. Während einer Recherche werden hintereinander inhaltlich und oder syntaktisch ähnliche Suchen abgesetzt. Semantische Suche kann Abhilfe schaffen, in dem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt werden und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden können. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Im "IBM QA System Watson" wird zur finalen Entscheidungsfindung maschinelles Lernen verwendet. Fragen verknüpft mit bekannten Antworten werden auf das berechnete Bewertungsprofil trainiert, das später für die Klassifizierung verwendet wird.

Bei einer Suchmaschine kann kein allgemeingültiges Modell verwendet werden, um Relevanz zu klassifizieren. Personalisierte Suche wird heute von populären Suchmaschinen wie Bing oder Google praktiziert. Im Umgang mit diesen Systemen sieht man schon, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie, gibt es zu einer Anfrage genau die präsentierten Treffer, oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer als Subjekt muss auch in diese Entscheidungen eingebunden werden.

Open Information Extraction
Das traditionellen Information Extraction (IE), soll durch Open Information Extraction (OIE) einen Paradigmenwechsel erfahren. Bei OIE soll nur einer bzw. wenige Durchläufe über den Korpus verwendet werden, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Es soll dabei neutral zu Fachgebieten vorgegangen werden. Dadurch soll IE im Web anwendbar gemacht werden. Das OIE System TextRunner besteht aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden.

Der Learner produziert einen sprachspezifischen aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden. Jede gefundene Beziehung wird dem gelernten Klassizierer übergeben, der diese auf die Vertrauenswürdigkeit untersucht. Das TextRunner System bietet neben der Extraktion auch direkt die Möglichkeit Suchen in Form von Trippel durchzuführen. Das Turing Center der Universität Washington betreibt ein Suchportal, mit dem man in den extrahierten Informationen aus dem Web suchen kann.

Entity Linking - Extrahierte Fakten mit Wissensbasen vernetzten
Entity Linking ist der Vorgang aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Beim Entity Linking gilt es textuelle Repräsentation wie Big Apple z.B. mit dem Wikipedia Eintrag für New York zu verbinden. Verbunden wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis, wenn es eine Ähnlichkeit des Kontexts im Text und dem Eintrag in der Wissensbasis gibt. In der Arbeit LINDEN: Linked Named Entities with Knowledge Base via Semantic Knowledge wird YAGO, eine Wissensbasis des Max Planck Institutes in Saarbrücken verwendet. Ein weiteres Anwendungsgebiet von Entity Linking ist Entity Search das die verlinkten Entities mit einem sogenannte EntityRank versieht.

Fazit
Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und Rechenkapazitäten, die diese Daten verarbeiten können, entstehen neue Möglichkeiten, die über derzeitige Suchmöglichkeiten hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge ändern bereits die Suche von heute, werden aber sicherlich noch kommende Generationen dominieren.

Der Autor: DI Jakob Praher
DI Jakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH. Dort beschäftigt er sich mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.

Literatur

Wikipedia DE. Web. 26.02.2013. Semantik, http://de.wikipedia.org/wiki/Semantik,
Wikipedia EN. Web. 26.02.2013. Semantic search, http://en.wikipedia.org/wiki/Semantic_search
Tim Berners-Lee. Web. 28.02.2013. http://www.w3.org/History/1989/proposal.html,
D. Downey, S. Dumais, D. Leibling, E. Horvitz. October 2008. Understanding the Relationship between Searchers’ Queries and Information Goals
Uichin Lee and Zhenyu Liu and Junghoo Cho. 2005. Automatic Identification of User Goals in Web Search
David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, Chris Welty. , AI MAGAZINE, Vol. 31, No. 3. (September 2010), pp. 59-79. Building Watson: An Overview of the DeepQA Project
Fabian M. Suchanek and Gerhard Weikum, YAGO - Search for Knowledge instead of Webpages, (German, English) Article in the year book of the Max Planck Society 2007
Fabian M. Suchanek, Gjergji Kasneci, and Gerhard Weikum. 2007. Yago: a core of semantic knowledge. In Proceedings of the 16th international conference on World Wide Web (WWW '07). ACM, New York, NY, USA, 697-706. DOI=10.1145/1242572.1242667 http://doi.acm.org/10.1145/1242572.1242667
Michele Banko, Michael J Cafarella, Stephen Soderland, Matt Broadhead and Oren Etzioni, 2007. Open Information Extraction from the Web
Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.
(Mindbreeze: ra)

Mindbreeze: Kontakt und Steckbrief

Der Informationsanbieter hat seinen Kontakt leider noch nicht freigeschaltet.


Kostenloser PMK-Verlags-Newsletter
Ihr PMK-Verlags-Newsletter hier >>>>>>



Meldungen: Hintergrund

  • Datensicherheit auf mehreren Ebenen

    Unternehmen verlassen sich bei der Verwaltung und Bereitstellung ihrer Daten zunehmend auf Cloud-Dienstleistungen. Dadurch müssen sich die Datenverantwortlichen zunehmend mit der nötigen Datensicherheit und -integrität auseinandersetzen.

  • Schock über die Cloud-Rechnung?

    Die Relevanz von Cloud Computing-Technologie hat im vergangenen Jahrzehnt rasant zugenommen und damit auch die Anzahl an Geschäftsprozessen und Services, die Unternehmen in die Cloud auslagern. Viele Unternehmen verfolgen dabei einen "Cloud first"-Ansatz als zentralen Bestandteil ihrer digitalen Transformationsbemühungen.

  • Einführung in CRaaS

    In der Datenwelt findet ein Sicherheitswettlauf statt. Mit dem Fortschritt der Technologie entwickeln sich aber auch die Waffen und Taktiken der Cyberkriminellen weiter. Unternehmen müssen deshalb ständig ihre Performance optimieren und bessere Methoden entwickeln, um sich vor neuen Attacken und Angriffsmethoden zu schützen.

  • Wenn das Flussdiagramm in die Cloud zieht

    Business-Process-Management (BPM) hat in den letzten Jahren eine steile Weiterentwicklung hingelegt. Das Dokumentationstool von einst, dessen Zweck vorwiegend darin bestand, eine möglichst große Zahl von Prozessen präzise zu visualisieren, hat sich zu einer vielseitig vernetzbaren Technologie entwickelt, die Geschäftsprozesse systemübergreifend analysiert und überwacht, mit dem Ziel Optimierungspotenziale zu nutzen.

  • Kenntnisse über AWS-Cloud-Mechanismen

    Das Sysdig Threat Research Team entdeckte kürzlich eine ausgeklügelte Cloud-Operation, genannt Scarleteel, welche in einer Kundenumgebung, zum Diebstahl geschützter Daten führte. Der Angreifer nutzte eine containerisierte Arbeitslast aus und verschaffte sich so Zugang zu einem AWS-Konto, um geschützte Software und Anmeldeinformationen zu stehlen.

  • Den richtigen Cloud-Service-Anbieter auswählen

    Vorschriften zur Datenhoheit, wie der Data Governance Act in Europa, können für Unternehmen eine Herausforderung darstellen. Eine der Hauptschwierigkeiten besteht darin, den Überblick darüber zu behalten, wo Daten gespeichert sind. Zudem müssen Unternehmen sicherstellen, dass die Speicherung mit den lokalen Datenschutzbestimmungen übereinstimmt.

  • Compliance vs. oder sogar mit IT-Sicherheit?

    Kleine und mittelständische Unternehmen (KMU) sehen sich seit Jahren mit Cyberattacken konfrontiert, die vor allem auf ihre Daten abzielen. In den letzten Jahren hat sich diese Perspektive dahingehend geändert, dass sie sich mit immer mehr Ransomware-Bedrohungen auseinandersetzen müssen. Beispiele dafür lassen sich so viele finden, dass sie nicht einzeln erwähnt werden müssen, allerdings sind in jüngster Zeit bereits Fahrradhersteller, Chemieproduzenten oder Nachrichtenmagazine darunter zu finden.

  • Data Act könnte schon 2024 in Kraft treten

    Wir erleben es jeden Tag: Datenmengen steigen ins Unermessliche. Die Prognose der EU-Kommission erwartet allein in der EU zwischen 2020 und 2030 einen Anstieg des Datenflusses in Cloud- und Edge-Rechenzentren um 1500 Prozent - kein Tippfehler. Entsprechend riesig ist das wirtschaftliche Potential, denn Daten sind der zentrale Rohstoff etwa für das Internet of Things.

  • Mit richtiger Unterstützung zum MSSP-Erfolg

    Auch kleine und mittlere Unternehmen (KMU) benötigen heute eine ganzheitliche IT-Sicherheitsstrategie, inklusive einer 24/7-Überwachung durch ein Security Operations Center (SOC). Sie verfügen aber meist nicht über die nötigen personellen und finanziellen Ressourcen, um diese Aufgabe selbst zu stemmen. Mit den richtigen Managed-Security-Angeboten schließen Reseller diese Lücke.

  • Keine Bestnoten für Deutschlands Rechenzentren

    Rechenzentren werden geplant, gebaut, in Betrieb genommen und dann viele Jahre lang mehr oder minder unverändert genutzt. Doch die Anforderungen der betreibenden Unternehmen, die technologischen Möglichkeiten und die gesetzlichen Rahmenbedingungen ändern sich im Laufe der Zeit. Um böse Überraschungen zu verhindern, Kosten zu sparen und Risiken zu vermeiden, ist es notwendig, Defizite in Bestandsrechenzentren zu entfernen und Optimierungspotentiale zu nutzen. Hierzu sollten Rechenzentren regelmäßig einer ganzheitlichen Betrachtung unterzogen werden.

Wir verwenden Cookies um unsere Website zu optimieren und Ihnen das bestmögliche Online-Erlebnis zu bieten. Mit dem Klick auf "Alle akzeptieren" erklären Sie sich damit einverstanden. Erweiterte Einstellungen