Utiliser les jointures approximatives

Monarch Data Prep Studio peut tenir compte des fautes d’orthographe potentielles qui nieraient sinon une correspondance même en présence de clés extrêmement similaires (« vert » par rapport à « vers », par exemple).

Les jointures approximatives sont utiles dans ces situations.

La boîte de dialogue Modifier la jointure inclut une case Utiliser la correspondance approximative qui, lorsqu’elle est cochée, affiche différentes options de correspondance approximative, notamment :

  • Seuil de précision

  • Ajouter des colonnes pour les résultats de correspondance approximative

 

Notez que la correspondance approximative n’est applicable qu’aux champs texte.  

Prenez les deux tables ci-dessous en guise d’exemple :

 

La table de gauche contient le rang, les noms et les villes des 10 équipes de la National Football League (NFL) et celle de droite précise les records de match de ces équipes. Si nous souhaitions associer ces tables en utilisant « Team » comme clé, les lignes New England, Patriots, Miami Dolphins et Buffalo Bills ne correspondraient pas entre les tables en raison de variations orthographiques dans la table de droite. Pour mettre en correspondance ces lignes du mieux possible, nous aurons besoin d’utiliser la correspondance approximative.

Seuil de précision

Le seuil de précision reflète le pourcentage de similitude entre deux chaînes. Lorsque le seuil de précision est défini à 100 % (à savoir, toutes les lignes doivent correspondre parfaitement), seules 7 des 10 lignes correspondront, ce à quoi nous nous attendons déjà. En faisant passer le curseur pour ce paramètre à 90 % (c.-à-d. que jusqu’à 10 % des chaînes peuvent ne pas correspondre), le nombre de lignes change dans la table produite et passe à 9, ce qui signifie que l’une des trois différences identifiées ci-dessus peut être acceptée dans l’opération de jointure. En réalité, même en abaissant le curseur à 0 %, seules 9 colonnes seront assorties.

 

Si nous cochons la case Ajouter des colonnes pour les résultats de correspondance approximative et que nous cliquons sur OK, nous obtenons la table suivante.

 

Une colonne pour Pourcentage de correspondance avec la clé est ajoutée à la table produite. Cette colonne précise le degré de similitude des clés entre les colonnes et indique ce niveau de similitude sous forme de pourcentage.

Interpréter les résultats d'une correspondance approximative

La correspondance approximative est réalisée en deux étapes :  1) qualification et 2) affinage. Pour que deux clés soient considérées comme similaires, Monarch Data Prep Studio calcule une « clé phonétique » en utilisant un algorithme qui produit des correspondances de type « phonétique ». Lorsqu’une correspondance phonétique est obtenue, l’affinage est réalisé. Lors de cette étape, une « distance d'édition » (ou tolérance) est calculée. La distance d'édition se définit comme le nombre minimal de frappes au clavier nécessaires pour que les deux clés soient identiques (dans la limite de 20 frappes au maximum). Ces deux étapes sont réalisées consécutivement. Par conséquent, si deux clés ne sont pas phonétiquement similaires (étape 1), l’étape 2 n’est pas réalisée.

Dans la mesure où « Bills » semble très similaire, d'un point de vue phonétique, à « Bulls », les lignes contenant ces valeurs sont assorties et le pourcentage de correspondance entre ces clés est évalué à 95 %. Cependant, dans la mesure où « Patriots » est phonétiquement différent de « Pastriots », les lignes renfermant ces valeurs ne sont pas assorties même si une lettre seulement suffirait à les assortir (étape 2). Cela s’applique également aux lignes qui comprennent « Dolphins » et « Dolphons ».

Les tables obtenues par l’intermédiaire d’une correspondance approximative sont ajoutées au sélecteur de tables comme d’habitude et peuvent être préparées si besoin est.

 

 

 

© 2024 Altair Engineering Inc. All Rights Reserved.

Intellectual Property Rights Notice | Technical Support