Personnalisation des options d’importation PDF dans Data Prep Studio
À l’importation d’un fichier PDF dans Monarch Data Prep Studio, l’application analyse le fichier et détermine la méthode optimale de conversion des données. L'objectif d'un alignement optimal du texte dans un état au format PDF est de faciliter la création de sélecteurs et la capture de données. Lorsque le texte n'est pas correctement aligné, vous pouvez être amené à créer de nombreux sélecteurs pour capturer les données de différentes lignes de texte, ce qui est à la fois fastidieux et chronophage. Par conséquent, lorsque l'ajustement des alignements dans les états au format PDF est justifié, il est très important de bien réfléchir à la manière dont vous comptez capturer les données. Dans la plupart des cas, les sous-programmes Monarch Data Prep Studio de détection automatique produisent les meilleurs résultats. D'autres ajustements des options d’importation PDF s’avèrent cependant parfois nécessaires.
Les moteurs PDF précédemment utilisés dans Monarch s’appuyaient sur le concept de mise en forme du texte libre et de police à espacement constant pour ajuster l’alignement du texte. Ces anciens moteurs sont généralement adéquats pour :
-
Les fichiers PDF contenant des tableaux dont les colonnes sont particulièrement compactes.
-
Les fichiers PDF comportant plusieurs tailles de police et la police des données qui vous intéressent est plus petite que celle de la plupart du texte restant du PDF. La taille de police auto-calculée est par conséquent trop grande.
-
Les fichiers PDF présentant un mélange de polices à espacement constant et proportionnelles et les données qui vous intéressent sont à espacement constant.
-
Les fichiers PDF présentant un mélange de données libres et en tableaux.
Cependant, dans les états PDF plus récents :
-
L’alignement du texte sur les pages avec peu de texte n’est pas homogène.
-
Le retour à la ligne du texte peut causer un mauvais alignement horizontal.
-
L’alignement du texte centré est imprévisible.
En outre, les états PDF sont désormais publiés par de nombreux produits logiciels et peuvent être imprévisibles en termes d’utilisation des polices, des fonds et des couleurs de lignes. Ainsi, un moteur de rendu capable de tolérer n’importe quel mélange de polices (y compris les polices à écartement constant et libres) et de couleurs de fond est nécessaire.
Monarch introduit un nouveau moteur PDF (version 4.5) qui améliore la précision d’extraction du texte en identifiant les éléments graphiques, comme les lignes et les rectangles verticaux et horizontaux, dans les pages PDF rendues et en utilisant ces éléments pour former des grilles qui seront utilisées pour l’alignement du texte. Cette nouvelle fonctionnalité résout les problèmes d’alignement qui rendent certaines opérations de sélection/capture dans les fichiers PDF extrêmement difficiles.
Par exemple, lorsque l'état PDF Composers.pdf, qui est généralement disponible dans C:\Users\Public\Documents\Altair Monarch\Reports, est ouvert dans Data Prep Studio et qu'un moteur PDF plus ancien est utilisé (par exemple, 4.3), la deuxième colonne semble décalée.
Dans ce cas, il suffit de choisir le moteur PDF 4.5 pour aligner correctement toutes les colonnes. Data Prep Studio définit également automatiquement d'autres propriétés afin d'obtenir des résultats optimaux.
Dans d'autres cas, cependant, il ne suffit pas de changer de moteur PDF pour aligner de manière cohérente des colonnes étroitement positionnées. Pour de tels cas, Data Prep Studio propose deux modes de moteur, à savoir SIMPLE et EXPERT, qui comprennent chacun plusieurs propriétés que vous pouvez modifier pour améliorer l'alignement des colonnes dans votre état PDF.
© 2024 Altair Engineering Inc. All Rights Reserved.