Rufen Sie uns an: 089/520-3563-0

Natural Language Processing

Valuescope ist ein Technologie-Unternehmen für die automatische Analyse von Texten.
Mit unserer selbst entwickelten semantischen (Natural Language Processing) Technologie “verstehen” wir die Inhalte von Nachrichtenartikeln, Tweets, pdfs, Newslettern, Wikis, uvm.

Allen unseren Lösungen (WEB ANALYZER, VALUE FEEDS, VS360) liegt diese semantische Analyse-Technologie zugrunde.

 

Was ist Natural Language Processing (NLP)?

Das Natural Language Processing, auf Deutsch die Computerlinguistik, gehört zur künstlichen Intelligenz und dient als Übergang zwischen Sprache und Informatik. Über Grammatik-Regeln, Lexika, Statistik und Algorithmen lernt der Computer die geschriebene Sprache zu verstehen.

Damit der Computer die geschriebene Sprache versteht, geht man in kleinen Schritten vor, die hier nur kurz allgemein erläutern werden sollen:

Schritt Beschreibung
1 Zuerst werden die Buchstabenketten gezählt und dann entsprechend in Wörter und Sätze unterteilt. Man nennt diesen Schritt die Tokenisierung.
2 Danach folgt die morphologische Analyse, die auf der Ebene der einzelnen Wörter stattfindet. Sie erkennt beispielsweise Personen, Orte oder Organisationen.
3 Bei der Analyse auf Satzebene, der “Syntaktischen Analyse”, werden die Strukturen innerhalb des Satzes betrachtet. Wo ist das Verb, wer ist der Handelnde in dem Satz, usw.
4 Jetzt folgt die semantische Analyse, der kniffligste Teil des Prozesses. Die Maschine soll den Satzteilen eine Bedeutung zuordnen. Da das nicht so einfach ist, gibt es verschiedene Vorgehensmöglichkeiten.
5 Zuletzt bleibt noch die Diskursanalyse. Sie soll Beziehungen zwischen den Sätzen erkennen. Diese satzübergreifende Analyse ist nicht weniger diffizill und bietet ihre ganz eigenen Herausforderungen.

Was macht das Valuescopes Tecchnologie so einzigartig?

  • – Mehrere Lemmas (“Keywords”) für einen Begriff:

Valuescope berücksichtigt für einen Suchbegriff mehrere Schreibweisen (Lemmas). So wird zum Beispiel für die Firma BMW nicht nur diese Schreibweise gefunden, sondern auch:

    • – Bayerische Motoren Werke
    • – bmw
    • – BMW Group
    • – BMWs
    • – usw. …

Oder für das beliebte Müncher Bierfest:

    • – Oktoberfest und
    •  – Wiesn
  • Anaphora:
    Wir durchsuchen nicht nur den Satz, in dem der gesuchte Begriff vorkommt, sondern auch das gesamte Umfeld. Pronomen, die sich auf den Suchbegriff beziehen, werden erkannt und ihm zugeordnet. Ein Beispiel:

“Peer Steinbrück verweigert sich dem Internet. Das kostet ihn Sympathisanten.”

Peer Steinbrück wird in beiden Sätzen erkannt, obwohl sein Name nur im ersten Satz vorkommt.

  • Deklination- und Konjugationsformen:
    Unser Programm erkennt das gesamte Paradigma von Verben, Adjektiven, Substantiven, Pronomen usw. und ordnet es entsprechend zu. Schwierig wird das bei Worten, die in einigen Wortklassen unverändert vorkommen:

liebe grüße. Ich liebe dich. das muss liebe sein

  • Elision:
    “Je kürzer desto besser” ist im Netz häufig das Motto. Valuescope bereitet es allerdings keine Schwierigkeiten, auch abgekürzte Formen richtig zu erkennen. Ein Beispiel:

“Ich hab mir grad ein Buch bei Amazon gekauft.”

Unsere Computerlinguisten haben das Ziel, eine verlässliche und wirksame Tonalitätsanalyse zu garantieren und stellen sich dafür täglich den neuen Herausforderungen, die eine sich immer wieder wandelnde Sprache bereithält.

Dieser Post ist auch verfügbar auf: Englisch