Unscharfe Verknüpfungen verwenden

Monarch Data Prep Studio erlaubt mögliche Rechtschreibfehler, die während eines Verknüpfungsvorgangs zu einer Abweichung führen können, auch wenn die Schlüssel sehr ähnlich sind (z. B. „bond“ vs. „bund“).

Solche Probleme werden durch unscharfe Verknüpfungen behoben.

Das Dialogfeld „Verknüpfung bearbeiten“ enthält das Kontrollkästchen Unscharfe Übereinstimmung verwenden, das bei Markierung eine Reihe von Optionen für unscharfe Übereinstimmung anzeigt, darunter:

  • Genauigkeitsschwellenwert

  • Spalten für unscharfe Übereinstimmungsergebnisse hinzufügen

 

Beachten Sie, dass die unscharfe Übereinstimmung nur für Textfelder gilt.  

Nehmen wir die beiden folgenden Tabellen als Beispiel:

 

Die Tabelle links enthält den Rang, den Namen und den Heimatort der 10 besten Mannschaften der National Football League (NFL). Die Tabelle rechts gibt die Spielbilanz dieser Mannschaften an. Wenn wir diese Tabellen unter Verwendung von „Team“ als Schlüssel verknüpfen möchten, würden die Zeilen für New England Patriots, Miami Dolphins und Buffalo Bills zwischen den Tabellen aufgrund von Schreibfehlern in der rechten Tabelle nicht übereinstimmen. Um diese Zeilen so gut wie möglich abzugleichen, müssen wir die unscharfe Übereinstimmung anwenden.

Den Genauigkeitsschwellenwert festlegen

Der Genauigkeitsschwellenwert gibt den Prozentwert der Ähnlichkeit zwischen zwei Zeichenfolgen an. Wenn der Genauigkeitsschwellenwert auf 100% eingestellt ist (d. h. alle Zeilen müssen perfekt übereinstimmen), stimmen nur 7 von 10 Zeilen überein, was wir bereits erwartet haben. Wenn der Schieberegler für diese Einstellung auf 90% verschoben wird (d. h. bis zu 10% der Zeichenfolgen können ungleich sein), ändert sich die Zeilenzahl der resultierenden Tabelle in 9, was bedeutet, dass eine der drei oben genannten Unterschiede für den Verknüpfungsvorgang akzeptiert werden kann. Tatsächlich führt das Verschieben des Schiebereglers auf 0% dazu, dass nur 9 Zeilen übereinstimmen.

 

Wenn wir das Kontrollkästchen für Spalten für Ergebnisse der unscharfen Übereinstimmung hinzufügen markieren und auf OK klicken, wird die folgende Tabelle angezeigt.

 

Der resultierenden Tabelle wird eine Spalte für „Schlüssel – Prozent Übereinstimmung“ hinzugefügt. Diese Spalte gibt an, wie ähnlich die Schlüssel zwischen den Spalten sind und zeigt die Ähnlichkeit als Prozentwert an.

Ergebnisse der unscharfen Übereinstimmung interpretieren

Die unscharfe Übereinstimmung wird in zwei Schritten erzielt:  1) Qualifizierung und 2) Verbesserung. Damit zwei Schlüssel als ähnlich gelten, berechnet Monarch Data Prep Studio einen „Phonetischen Schlüssel“ mithilfe eines Algorithmus, der Übereinstimmungen auf „phonetische“ Weise generiert. Sobald eine phonetische Übereinstimmung erzielt ist, wird die Verbesserung durchgeführt. In diesem Schritt wird eine „Bearbeitungsdistanz“ (d. h. Toleranz) berechnet. Die Bearbeitungsdistanz ist definiert als Mindestanzahl von Tastenanschlägen, die erforderlich ist, um die beiden Schlüssel gleich zu machen (maximal 20 Anschläge). Diese beiden Schritte werden nacheinander durchgeführt. Wenn also zwei Schlüssel nicht phonetisch gleich sind (Schritt 1), wird Schritt 2 nicht mehr ausgeführt.

Da „Bills“ sehr ähnlich klingt wie „Bulls“, werden die Zeilen mit diesen Werten abgeglichen, und die prozentuale Übereinstimmung dieser beiden Schlüssel wird mit 95 % angegeben. Da „Patriots“ phonetisch jedoch ungleich „Pastriots“ ist, werden die Zeilen mit diesen Werten nicht abgeglichen, auch wenn nur sehr wenige zwei Anschläge dafür erforderlich sind (Schritt 2). Das Gleiche gilt für die Zeilen „Dolphins“ und „Dolphons“.

Die mittels der unscharfen Übereinstimmung erhaltenen Tabellen werden dem Tabellenselektor wie gewohnt hinzugefügt und nach Bedarf vorbereitet.

 

© 2024 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support