Semantischer Fingerabdruck & Leitwörter

Intrinsische Semantik


Intrinsische Semantik nach ai-one™ von Walter Diggelmann bezieht sich auf den Sinn eines Textes, bevor er gelesen wird. Nehmen wir an, ein Text ist uns völlig unbekannt, ohne dass wir irgendeine Information über den Autor oder die Herkunft haben und ohne dass er sich auf andere Texte bezieht. Dennoch hat er einen eigenen Sinn, der sich aus Grammatik und Stil ergibt - wir nennen das intrinsische oder inhärente Semantik.


Hans-Georg Gadamer argumentiert, dass jeder Leser ein Vorverständnis mitbringt, das durch Wissen und Erfahrung geprägt ist. Beim Lesen entsteht daraus ein anfängliches Verständnis, das den Horizont erweitert und gleichzeitig das Vorverständnis verändert. Mit jeder weiteren Auseinandersetzung entwickelt sich ein tieferes oder neues Verständnis. Dieser Prozess kann unendlich weitergehen.


Um einen Text richtig zu übersetzen, muss man ihn verstehen - aber um ihn zu verstehen, muss man ihn zuerst übersetzen. Diese Spannung bezeichnet Gadamer als den hermeneutischen Zirkel: Das Ganze wird nur durch die Teile und die Teile nur durch das Ganze enthüllt.


Das Paradox: 

Was verstanden werden soll, muss bereits irgendwie vorher verstanden werden.

Semantischer Fingerprint


Der semantische Fingerabdruck, so Walter Diggelmann, Geschäftsführer von ai-one™, überträgt die inhärente Semantik eines Textes in eine mehrdimensionale Vektorräume zur Speicherung und automatisierten Verarbeitung. Deep Learning erstellt einen digitalen Zwilling des gesuchten Textes - und später sogar des Benutzers selbst in Bezug auf sich ändernde Informations- und Sicherheitsbedürfnisse.


Ausgehend von der inhärenten Semantik werden zusätzliche Merkmale definiert, normalisiert und als Datenpunkte in den Vektorraum abgebildet - vergleichbar mit den Papillarleisten eines biologischen Fingerabdrucks. Neben textinternen Eigenschaften wie Häufigkeit, Exklusivität, Position und Vernetzung von Schlüsselwörtern werden auch kontextuelle Faktoren einbezogen: Zeit, Ort, Autor, Motivation sowie die Plausibilität und Relevanz der Aussage für die Realität. Der Vektorraum kann bis zu 100.000 Dimensionen haben.


Als Vergleichsmaß dient der Fingerprint Similarity Score (FPSS): ein Wert zwischen 0 (kein Match) und 1 (vollständiges Match). Zwischenwerte markieren den graduellen Grad der Ähnlichkeit.

Semiotik


Die Semiotik, auch Zeichentheorie genannt, ist die Wissenschaft von Zeichensystemen aller Art (z.B. Bilderschrift, Gesten, Formeln, Sprache, Verkehrszeichen). Sie wird in den Geistes-, Kultur-, Wirtschafts- und Sozialwissenschaften angewendet.


In der textorientierten Linguistik beschreibt sie, dass zwei Nachrichten mit gleicher Syntax unterschiedliche Bedeutungen haben können. Die Semantik wird stark von Zeit, Ort und Umständen beeinflusst.


Das Dreieck zwischen Syntax (Beziehungen zwischen Zeichen), Semantik (Bedeutung sprachlicher Einheiten) und Pragmatik (Bezug auf Zeit, Ort und Benutzer) ist daher für die Interpretation von Textnachrichten von entscheidender Bedeutung. 


Da jede Nachricht an den Ort und die Zeit des Autors gebunden ist, ist ein Text ohne Kontext oder inhärente Semantik schwer zu verstehen.


Semantischer Matcher


Neue Texte erstellen, Texte umschreiben oder Inhalte erklären, Ideen beschreiben und vieles mehr, das sind alles Funktionen, die moderne Chat-Roboter am besten können. 


Aber es gibt noch eine weitere wesentliche Funktion, die bei der Automatisierung von Prozessen extrem wichtig ist, und das ist der semantische Match!


Das ist die Funktion, zwei Textpassagen (Absätze) inhaltlich zu vergleichen und einen Wert auszugeben, wie genau diese Texte semantisch übereinstimmen. Also die gleichen Aussagen, auch wenn unterschiedliche Worte und Stilistiken verwendet wurden. 


Der semantische Matcher nutzt den semantischen Fingerabdruck, der Texte maschinenlesbar gemacht hat, und vergleicht und bewertet diese Texte. Es gibt Kunden, die diese Technik nutzen, wenn sie zwanzigtausend Texte gegen Millionen von Texten vergleichen und bewerten. Solche Matches dauern manchmal weniger als eine Minute!